Un buen desempeño de los modelos de IA en tareas específicas no implica que también sean buenos para detectar engaños o información poco confiable y que puedan ofrecer consejos convincentes: una nueva investigación comprueba que incluso los agentes más avanzados aún pueden ser manipulados y ofrecer datos inexactos.
Un estudio publicado en arXiv revela una debilidad inesperada en los agentes de Inteligencia Artificial (IA) más sofisticados: pueden ser persuasivos y eficaces, pero al mismo tiempo seguir siendo vulnerables a la manipulación. El hallazgo, concretado por científicos de la Universidad de British Columbia (UBC), Princeton AI Lab y la Universidad de Nueva York, entre otros institutos de investigación, cuestiona su uso como asesores fiables en ámbitos sensibles.
Suponemos que un modelo de lenguaje amplio (LLM) poderoso puede sustentar agentes de IA independientes, convincentes y realmente fiables, según lo indican las grandes compañías implicadas en el desarrollo de la IA generativa. Sin embargo, el nuevo estudio sugiere que un agente de IA puede resolver tareas complejas con precisión pero, al mismo tiempo, ser vulnerable a la manipulación de otro sistema artificial.
Un juego de «engaño» entre modelos de IA
La conclusión es algo incómoda en tiempos de reinado de la IA, pero muy importante y vital para el futuro de estos sistemas: el rendimiento en una prueba o especialidad no garantiza certeza o capacidad de evasión frente a información engañosa. En otras palabras, una IA puede “saber hacer” y, de la misma manera, “dejarse convencer” por malas instrucciones, quizás incluso intencionadas con fines ilícitos.
Los autores del estudio plantean que, para ser útiles como asesores independientes, los modelos de IA deben filtrar grandes volúmenes de contenido con intenciones tanto benévolas como maliciosas, y luego construir argumentos convincentes.
Para estudiar esa capacidad, analizaron dos habilidades sociales: la “vigilancia”, o sea la capacidad de decidir qué información usar y cuál descartar, y la “persuasión”, o la habilidad de sintetizar evidencias en un argumento convincente. De acuerdo a un artículo publicado en Tech Xplore, el experimento central se apoyó en Sokoban, un juego clásico de resolución de puzzles, usado en este caso como entorno controlado de interacción entre agentes de IA.
En ese escenario, un modelo “jugador” recibía consejos de otro modelo “asesor”: los investigadores midieron si el consejo ayudaba a resolver el rompecabezas o, por el contrario, llevaba al agente a encerrarse en un estado imposible de resolver. También observaron si el agente era capaz de reconocer cuándo debía seguir la recomendación y cuándo era necesario desconfiar de ella.
¿Son fiables los modelos avanzados de IA en cualquier contexto?
El hallazgo central indica que el desempeño en el juego, la capacidad de persuasión y la vigilancia resultaron ser habilidades separadas. Un modelo podía rendir bien al resolver puzzles, pero seguir siendo incapaz de detectar que estaba siendo inducido al error por la «asesoría» de otra IA.
Referencia
Under the Influence: Quantifying Persuasion and Vigilance in Large Language Models. Sasha Robinson et al. arXiv (2026). DOI:https://doi.org/10.48550/arXiv.2602.21262
Según los científicos, esa debilidad persistía aunque se le advirtiera explícitamente sobre la posibilidad de engaño. A la vez, los modelos ajustaban su uso de tokens: razonaban con menos palabras cuando el consejo parecía positivo y con más frondosidad cuando era malicioso, aunque en varios casos seguían siendo persuadidos hacia el error.
Estos resultados ponen en duda la idea en torno a que los modelos de IA más capaces estén automáticamente listos para actuar como asesores confiables en ámbitos legales, financieros o de salud. También abren interrogantes sobre sistemas autónomos que interactúan entre sí, como agentes de navegación web o colaboradores en código abierto, donde una IA “benévola” puede ser arrastrada por otra más engañosa.














