Los investigadores han desarrollado una nueva herramienta para ayudar a detectar cuándo la salida de un modelo de visión-lenguaje se basa en la imagen y cuándo puede depender demasiado de su propio texto generado, provocando desviaciones o «alucinaciones». El sistema se considera un medio para mejorar la seguridad y la confiabilidad de estos modelos de IA.
Un equipo de Los Alamos National Laboratory, en Estados Unidos, ha presentado Prelim Attention Score (PAS), una herramienta capaz de detectar cuándo un modelo de visión y lenguaje empieza a “alucinar”, o sea que describe objetos o detalles que no están en la imagen o que no se corresponden con la realidad. El sistema funciona como un monitor interno en tiempo real y, según los científicos, puede ayudar a hacer más fiables aplicaciones de IA en ámbitos sensibles.
Detectando las «alucinaciones» de la IA
Los modelos de visión y lenguaje se han vuelto esenciales para tareas como describir imágenes, responder preguntas sobre documentos o interpretar diagramas. Pero su gran debilidad sigue siendo que en ocasiones se vuelven poco fiables: a veces “ven” cosas que no están en la imagen. Ese fenómeno, conocido como «alucinación», aparece cuando el sistema genera una respuesta inconsistente con la imagen de entrada o directamente «inventa» objetos, relaciones o detalles.
En ese contexto, PAS permite detectar cuándo el modelo empieza a apoyarse demasiado en su propio texto generado y se aparta de la evidencia visual. Según una nota de prensa, el sistema actúa como un monitor interno del modelo en tiempo real, y necesita poca carga computacional adicional.
La lógica de PAS es sencilla: examina cómo el modelo distribuye su atención entre la imagen, la instrucción textual y sus propias palabras previas. Si el sistema detecta que la respuesta avanza más por inercia lingüística que por señal visual, eleva una alerta de posible «alucinación». Cuanto más cercana a cero es la calificación, menor es la probabilidad de que la salida esté desalineada con la imagen.
El sistema analiza la atención interna del modelo para señalar cuándo una respuesta deja de estar anclada en la imagen. / Crédito: Jaehyun Kim en Unsplash.
Una solución para aplicaciones críticas
De acuerdo a un artículo publicado en Interesting Engineering, esa capacidad resulta especialmente valiosa porque muchos modelos de visión y lenguaje con IA construyen una respuesta paso a paso, usando lo ya dicho para decidir lo siguiente. En ese proceso, un error inicial puede arrastrar a toda la respuesta. PAS se propone precisamente como una capa de control para detectar el momento en que esa deriva comienza.
Los investigadores afirman además que el sistema es compatible con modelos ya existentes y que ha logrado resultados de referencia en la detección de alucinaciones. Su planteamiento lo convierte en una posible pieza de seguridad para usos donde equivocarse tiene graves consecuencias: imagen médica, análisis de documentos científicos, interpretación de planos de ingeniería o teledetección, entre otras aplicaciones.














