Cómo se creó Funes: un algoritmo que detecta la corrupción en contrataciones del sector público
Esta semana se celebra el festival #JournalismAI, un evento sobre Inteligencia Artificial y periodismo que organiza la LSE (London School of Economics) en el que se van a presentar varios casos de integración de la Inteligencia Artificial en medios de comunicación alrededor del mundo. Uno de ellos es el del algoritmo contra la corrupción que ha desarrollado el medio peruano Ojo Público, que conocí gracias a un seminario que organizaron la Fundación Gabo y Prodigioso Volcán para presentar su guía de la IA para periodistas. En él, la Editora General y cofundadora del medio, Nelly Luna, explicó todo el proceso de creación de la herramienta, así como los retos y aprendizajes que extrajeron. A este algoritmo periodístico le pusieron de nombre Funes y voy a traerlo a este blog en el que recojo reflexiones y casos en los que se consigue poner la tecnología al servicio de la misión del periodismo.
Funes es una herramienta que permite identificar el riesgo de corrupción en los contratos públicos que se llevan a cabo en Perú y genera un score de riesgo por cada contrato, entidad y empresa. El algoritmo analiza millones de datos de grandes bases que han construido (y estructurado) en Ojo Público a lo largo de los años. Entre todos esos datos identifica relaciones políticas, financieras y otras características e indicadores de riesgo para, a partir de los resultados, crear ese score que permite identificar escenarios con más peligro de corrupción. Luego, el equipo de periodistas, combina la información que proporciona la herramienta con metodologías tradicionales de investigación para verificar si realmente se están dando casos de corrupción en los procesos de adjudicación públicos que Funes señala.
Luna explicó que en desarrollo del algoritmo -que duró 15 meses- participó un equipo multidisciplinar compuesto por perfiles como programadores, periodistas, científicos sociales y politólogos. También detalló cómo se desarrolló el algoritmo y cuáles fueron los principales retos que tuvieron que resolver.
En primer lugar el equipo tuvo que definir el tipo de corrupción quería medir y optaron por el género de fraude que se da cuando un funcionario público beneficia a una empresa en particular. A partir de ahí, diseñaron una metodología para identificar la corrupción que fuera comprensible para el algoritmo.
Para ello bucearon entre todo tipo de documentación y papers académicos sobre tecnología, predictibilidad y corrupción, y en el transcurso de estas indagaciones hallaron el esquema del investigador Mihaly Frazekas, que resultó ser la base sobre la que se desarrolló la definición propia, a la que se le pudieron añadir otros elementos gracias a fuentes propias de conocimiento de casos.
También es interesante destacar que el equipo de desarrollo descartó entrenar al algoritmo con casos ya existentes porque en América Latina todos los sucesos de corrupción no son los únicos, es decir, hay más corrupción de la que se logra identificar por las altas tasas de impunidad. En este contexto, explicó Luna, no podían partir de lo que ya existía, sino que la herramienta tenía que desarrollare sobre una definición más teórica y estructural de lo que es la corrupción. Para ello optaron por el modelo de proxies comunicadores de riesgo.
Para hacer entender a Funes la corrupción, el equipo diseñó 25 indicadores de riesgo, que luego la herramienta usaría para ofrecer un scoring que aplica a distintos escenarios. Algunos de estos indicadores son, por ejemplo, que una empresa haya sido constituida meses antes de que se adjudicara la obra, la edad del representante legal (que con 18/19 años hubiera obtenido una obra por millones de dólares), vínculos familiares, políticos o financieros entre los representantes que adjudicaban y las empresas beneficiarias, antecedentes o tiempo entre la convocatoria y la adjudicación, entre otros.
Una vez claro todo esto, el algoritmo, que usa modelos lineales, combina toda la información de las bases de datos que estructuraron en Ojo Público para identificar distintas scores de riesgo para cada empresa o entidad. A través de un esquema de regresión, Funes ordena pesos para cada uno de los indicadores, y la suma de todos esos pesos es el riesgo de corrupción que los periodistas reciben cuando consultan cada proceso de contratación pública. Esta es la visualización en la que se muestran los casos con mas riesgo estimado y que son los que aparecen en la parte derecha del histograma.
Luna explicó que la información en la que se basa el algoritmo la obtiene principalmente de las bases de datos propias mencionadas, pero también de otras que solicitan o que escrapean de webs de organismos públicos, así como de fuentes propias no oficiales que se los facilitan.
Según Funes, un 40% de las contrataciones públicas tenian un alto riesgo de corrupción.
Ética
Desde el punto de vista ético me pareció muy interesante cómo el equipo controla los sesgos de la IA. Luna explicó que se dieron cuenta de que Funes detectaba mayor riesgo en localidades pequeñas y en casos en los que entre la institución política y la empresa adjudicataria existían vínculos familiares, mientras que no señalaba casos en los que estaban en juego sumas mucho más importantes de dinero. No los identificaba porque cuanto mayor es el importe económico, más sofisticada es la corrupción (en la que a menudo entran aparatos opacos con abogados que ayudan a que los procesos sean más difíciles de identificar).
Debido a todo esto, el algoritmo penalizaba procesos de contratación locales porque la corrupción se produce de formas más evidentes y de acuerdo a como la hemos explicado que la definieron. Además, en los sitios pequeños, es más fácil que existan vínculos familiares entre los habitantes y éste -recordamos- es uno de los indicadores que contribuía al scoring final de riesgo. Al percatarse del sesgo, modificaron el sistema de forma que el importe de la contratación adquiriera más peso cuanto mayor fuera: a mayor responsabilidad, mayor peso. Hoy, dice Luna, los periodistas y el buen periodismo son más necesarios que nunca. Los sesgos de Funes solo pueden ser corregidos si existe un equipo humano con buen criterio periodístico.
Este 2021, Ojo Público tiene previsto liberar el código de Funes de forma que otros medios puedan usarlo y adaptarlo a su realidad social. El reto que tienen por delante es explicar ese riesgo algorítmico y, en especial, que un score más alto no significa por fuerza que exista corrupción.
Comentários