Europa quiere que inteligencia artificial y transparencia vayan de la mano. La Comisión Europea ha publicado este jueves la esperada plantilla que exige a todos los proveedores de esta tecnología divulgar los datos con los que han entrenado sus modelos, una obligación que puede tener repercusiones en todo el mundo.
En mayo del año pasado, la Unión Europea culminó la aprobación de la pionera ley que regula la IA según sus riesgos. El próximo 2 de agosto entran en vigor las normas que afectan a la la IA de propósito general, grandes modelos de lenguaje multimodales que, como ChatGPT (OpenAI), Gemini (Google), Grok (xAI), Llama (Meta) o Claude (Anthropic), pueden realizar una amplia gama de tareas.
A diferencia del código de buenas prácticas establecido por Bruselas, que es voluntario, la norma de transparencia será de cumplimiento obligado para todos los proveedores de modelos de IA que operan en la UE, aunque sean extranjeros. «Deberán elaborar y poner a disposición del público un resumen suficientemente detallado sobre el contenido utilizado para el entrenamiento del modelo de IA de uso general, de acuerdo con una plantilla proporcionada por la Oficina de IA», reza el artículo 53 de la conocida como AI Act.
Así, las compañías de IA deberán presentar un resumen de los datos utilzados en todas las etapas de entrenamiento de sus modelos, un proceso crucial pues permite que esos sistemas ‘aprendan’ a responder a las peticiones de los usuarios mediante la generación de texto, audio o imagen. El contenido con el que se entrena la IA generativa puede ser tanto datos extraídos de Internet como información recopilada por las empresas a través de las interacciones de los usuarios con sus productos.
Derechos de autor y propiedad intelectual
La plantilla presentada hoy clarifica que los gigantes tecnológicos estarán obligados a hacer públicos los datos que alimentan sus sistemas, algo que hasta ahora han rechazado alegando, en la mayoría de casos, que se trata de un secreto comercial. La opacidad de estas compañías ha dificultado saber con precisión qué chatbots o modelos conversacionales de IA se han entrenado ilícitamente con contenido protegido por los derechos de autor, desde obras literarias a canciones o artículos periodísticos. En enero de 2024, OpenAI reconoció en un encuentro con legisladores británicos que «sería imposible entrenar los modelos actuales de IA sin material con copyright«.
La obligación establecida por Bruselas permitiría a los reguladores saber qué datos se explotan y abriría la puerta a la presentación de reclamaciones por todo tipo de infracciones. Por ejemplo, si se desvela que Google ha utilizado sin consentimiento los libros de un autor para que Gemini sepa imitar su estilo este podría utilizar ese conocimiento para querellarse contra la compañía. De esta manera, la amenaza de multas contra los proveedores de IA se dispara.
«El objetivo es aumentar la transparencia sobre el contenido utilizado para la formación de modelos de IA de uso general, incluido el texto y los datos protegidos por la ley, y facilitar a las partes con intereses legítimos, incluidos los titulares de derechos, el ejercicio y la aplicación de sus derechos en virtud del Derecho de la Unión», establece el documento presentado hoy.
Respeto a los derechos fundamentales
La Comisión espera que la plantilla tenga «un importante valor jurídico para la correcta aplicación de la Ley de IA» y permita «aplicar, cuando proceda, medidas de mitigación para garantizar el respeto de los derechos fundamentales a la no discriminación y a la diversidad lingüística y cultural».
Esa transparencia obligada también permitiría que «instituciones y organizaciones académicas puedan evaluar de forma crítica las implicaciones y limitaciones de un modelo de IA de uso general concreto, así como los posibles riesgos y daños asociados a los datos utilizados». Un mayor acceso a esa información, espera Bruselas, «también puede contribuir a que los mercados sean más transparentes y competitivos».
La plantilla ha sido elaborada tras consultar a una «amplia gama de partes interesadas», un total de 111 actores entre los que se incluyen «proveedores de modelos de IA de uso general, asociaciones empresariales, organizaciones de titulares de derechos, el mundo académico, la sociedad civil y las autoridades públicas».
Suscríbete para seguir leyendo