«ALIA es mucho más que una aplicación. No es simplemente un ChatGPT, porque no es lo que queríamos hacer. Por eso puede aportar mucho más». El Ministerio para la Transformación Digital y de la Función Pública ha ofrecido más detalles sobre el funcionamiento de la primera IA pública española, que el propio Pedro Sánchez presentó esta semana. Y aunque se la ha comparado con el chatbot desarrollado por OpenAI, en realidad no es exactamente eso.
ALIA es una familia de modelos desarrollados con IA que han sido entrenados con un 20% de datos en castellano y el resto de lenguas cooficiales, un porcentaje mucho más alto que el habitual en las aplicaciones comerciales, donde el inglés opaca al resto de idiomas. Desde el Ministerio presumen de que se trata de una iniciativa «pionera, transparente y en código abierto», que irá mejorando cada vez más con el paso del tiempo. Aunque de momento la inversión en ALIA es muy modesta: no llega a los tres millones de euros de los más de 1.500 millones que moverá la estrategia nacional de IA que se aprobó en 2024.
«ALIA es un proyecto técnicamente muy difícil», aseguró María González Veracruz, Secretaria de Estado de Digitalización e Inteligencia Artificial. «La idea es democratizar la IA y potenciar el español, que es la cuarta lengua más hablada del mundo y la segunda más usada de Internet. Y en ese sentido, ALIA es la punta de lanza de una visión y de un proyecto de país que está solo despegando, y que esperamos que tenga mucho éxito en el medio y largo plazo».
De entrada, esta semana se han lanzado tres modelos. Por orden de potencia de menos a más, son el 2B (2 mil millones de parámetros, entrenado desde cero con 12,9 billones de tokens); el 7B (7 mil millones de parámetros, entrenado desde cero con 12,9 billones de tokens) y el 40B (40 mil millones de parámetros, entrenado desde cero con 7,8 billones de tokens). Aunque en el futuro la familia se irá ampliando con más modelos, que luego las distintas organizaciones y empresas podrían adaptar para utilizar a su gusto.
El 2B y el 7B están instruidos, pero todavía no han sido alineados. Es decir, necesitan aún someterse a análisis humanos para asegurar que cumplen con los objetivos para los que fueron diseñados, también desde el plano ético. El 40B, por su parte, no está ni siquiera instruido porque se encuentra aún «en una fase anterior», aunque está previsto que para finales de 2025 ya haya completado ese proceso.
«La elección de un modelo u otro depende del caso de uso, y eso lo determinan las empresas. Si es para algo sencillo que no requiere muchos parámetros, quizás el 7B sea el más indicado. Y las compañías que todavía no tengan tanta capacidad de computación también podrían utilizarlo hasta que la desarrollen. El 40B es más complejo y tiene más riqueza, así que será muy útil para la Administración General», explicaron.
Aquellos usuarios interesados pueden descargarse los recursos desde la página web y a partir de ahí ejecutarlos, entrenarlos o utilizarlos en sus instalaciones computacionales. En el futuro, el propio Ministerio habilitará un entorno protegido para que cualquiera pueda trastear con los modelos, y también habrá servicios de información y asesoramiento disponibles.
¿Qué casos de uso tiene actualmente ALIA? Por lo pronto, se han puesto en marcha dos proyectos piloto: un chatbot interno para agilizar el trabajo de la Agencia Tributaria y su atención ciudadana y una aplicación de atención primaria que, a partir del análisis avanzado de datos, permitirá «un diagnóstico precoz y más preciso de las insuficiencias cardíacas». Pero en paralelo se está trabajando para lanzar un nuevo «paquete» que permitirá que cada Ministerio utilice los modelos para un uso concreto, como mínimo.
Exportar los modelos a LATAM
Los equipos del BSC y del propio Ministerio han sido los encargados de poner a prueba los modelos, junto a diferentes «agentes de la comunidad» de los no han trascendido los nombres, aunque se ha explicado de que se trata de «personas con mucha experiencia en la creación de modelos de IA». «Gracias a ellos hemos ratificado que son modelos abiertos y transparentes», deslizaron.
Para entrenar a estos modelos se han utilizados documentos de todo tipo: legislación europea, patentes médicas, intervenciones en las cortes españolas, doctrinas de la Fiscalía, consultas públicas tributarias, el BOE… Lo que se ha quedado fuera, al menos de momento, son los datos de la Biblioteca Nacional, aunque en el futuro la idea es incluirlos también, y se estudiará poder utilizar datos sintéticos generados por otra IA. Todo, eso sí, con el compromiso que ha adquirido el Ministerio de «respetar siempre los derechos de autor».
Con esto, queda claro que ALIA dista mucho de ser un ‘ChatGPT Español’. «La utilidad de estos modelos para la ciudadanía es incalculable, porque muchos de sus casos de usos les van a mejorar la vida de manera directa o indirecta. Entre los objetivos que teníamos antes de lanzar ALIA no estaba crear un chatbot general, porque para eso ya están los modelos comerciales. Aunque en un futuro podríamos estudiarlo si fuera necesario. Pero de momento no se trata tanto de cómo ‘responde’ a preguntas concretas, sino de cómo piensa cuando tiene más cultura en castellano y el resto de lenguas cooficiales», relataron desde el Ministerio.
El lanzamiento de ALIA ha coincidido con la noticia de que en Estados Unidos Donald Trump ha presentado un megaproyecto, llamado Stargate y liderado por OpenAI, Oracle, SoftBank y MGX, con la intención de invertir 500.000 millones de dólares en los próximos cuatros años en infraestructura de IA. Una iniciativa que podría generar más de 100.000 puestos de trabajo en el país. «Nosotros no queremos competir con nadie. Pero el proyecto de Trump demuestra que no vamos desatinados», comentaron fuentes ministeriales.
La idea es poder exportar estos modelos a Latinoamérica. El verano pasado se firmó un memorando de entendimiento con Brasil, y hay conversaciones abiertas con otros países, como Chile o México. «Queremos recuperar esas negociaciones de forma más activa ahora que ya hemos presentado ALIA, porque se nos abren muchas oportunidades», afirmaron desde el Ministerio.