Mozilla alerta sobre los riesgos en la IA.

Mozilla alerta sobre los riesgos en la IA

Sin ser usuario de Firefox, sí utilizo Thunderbird, proyecto que tiene sus raíces en Mozilla (moz://a); por ese motivo, estoy suscripto a su boletín de noticias, y tengo cierta simpatía por algunas de las iniciativas que lleva adelante la Fundación. 


Una de estas iniciativas, es la batalla que viene librando Mozilla para regular el desarrollo de inteligencia artificial

Mozilla lanzó una campaña para reclamar claridad en los métodos utilizados para entrenar la inteligencia artificial que vienen desarrollando los cuasi monopolios tecnológicos como OpenAI, Microsoft y Google.

Correo de Mozilla solicitando firmas para reclamar transparencia en el enteramiento de aplicaciones que usen IA.
Correo de Mozilla solicitando firmas para reclamar transparencia en el enteramiento de aplicaciones que usen IA.

La investigación que lleva adelante Mozilla, se enfoca en el trabajo realizado por Common Crawl, una organización sin fines de lucro que ha compilado uno de los mayores conjuntos de datos del internet, superando los 9.5 millones de gigabytes (sí, eso parece y es mucho)

Este vasto repositorio de información se ha convertido en una pieza central en el entrenamiento de modelos de IA, promoviendo un desarrollo más abierto y competitivo en el campo de la IA generativa. Pero, la dependencia con este conjunto de datos masivo, tiene algunas complicaciones, según señala Mozilla.

«Más de 250 mil millones de páginas que abarcan 17 años. Corpus libre y abierto desde 2007. Citado en más de 10.000 artículos de investigación. Cada mes se agregan entre 3 y 5 mil millones de páginas nuevas.» Se puede leer en la página de Common Crawl.

En el análisis de Mozilla, al cual se puede acceder acá, se destaca una preocupación central: el contenido que puede considerarse tóxico.

Datos de entrenamiento por el precio de un sándwich. El impacto del rastreo común en la IA generativa. Mozilla, Febrero 2024.
Datos de entrenamiento por el precio de un sándwich. El impacto del rastreo común en la IA generativa. Mozilla, Febrero 2024.

Pese a ser una fuente rica en datos, señala la gente de Mozilla, Common Crawl contiene una cantidad de material sesgado, explícito e incluso de incitación al odio.

Este supuesto nivel de «toxicidad» en los datos de entrenamiento, constituye un riesgo potencial para la calidad de los productos de IA y, sobre todo, para la seguridad y el bienestar de sus usuarios.

La falta de diversidad en los datos recopilados por Common Crawl, con una preponderancia de contenido en inglés y una cobertura regional desigual, también puede ser un problema.

Esta limitación plantea algunas preguntas sobre la universalidad y equidad de las tecnologías de IA, ya que (parece obvio), los productos resultantes podrían no ser tan inclusivos o útiles para una audiencia global como se pretende.

Por todo lo mencionado anteriormente, Mozilla hace un llamado a la acción, instando a las empresas detrás de estas innovaciones a adoptar una postura de transparencia respecto a los conjuntos de datos que utilizan.

Al igual que los productos de consumo que vienen con etiquetas de advertencia e ingredientes («exceso de azúcar», «exceso de grasa», etc.), las herramientas de IA, argumenta Mozilla, deberían ofrecer a los usuarios una comprensión clara de lo que contienen y cómo se construyen (¿«contenido sesgado» tal vez?).

«Las empresas deben sincerarse respecto a qué conjuntos de datos utilizan y qué medidas toman para garantizar que se eliminan los contenidos tóxicos, sesgados y perjudiciales antes de construir herramientas de IA.», dice el correo de Mozilla en donde se solicita tu firma para pedirle transparencia a OpenAI, Microsoft y Google respecto al desarrollo de la inteligencia artificial.

Mozilla ha abierto una petición pública para exigir a OpenAI, Google y Microsoft mayor transparencia sobre sus prácticas de entrenamiento de IA. ¿La única intención de Mozilla es luchar por una IA más transparente? ¿O es por qué Mozilla ve pasar «un tren» al cual no se subió? No lo sé. En todo caso, podés profundizar más sobre esta movida en: Dígale a OpenAI, Google y Microsoft: ¡Proporcionen transparencia sobre los datos utilizados para entrenar sus herramientas de IA!

Fin.

 


/ Súmate al boletín. No es gran cosa, pero es gratis 👇 /