Estudio sobre inteligencia artificial revela fallas críticas en agentes autónomos: no conspiraron, pero sí pueden causar daños reales

Tecnología

Estudio sobre inteligencia artificial revela fallas críticas en agentes autónomos: no conspiraron, pero sí pueden causar daños reales

La investigación Agents of Chaos, desarrollada por científicos de varias universidades, desmonta un viral que afirmaba que la IA desarrolla conductas “maquiavélicas”

por DIARIO VIRAL
08 de marzo de 2026
342 Visitas

DIARIO VIRAL
redaccion@diarioviral.pe

Un post viral en redes sociales aseguró que investigadores de Stanford University y Harvard University demostraron que agentes de inteligencia artificial desarrollan comportamientos maquiavélicos al competir entre sí. Sin embargo, la afirmación es falsa.

El estudio citado, titulado Agents of Chaos, fue liderado por el laboratorio del investigador David Bau en Northeastern University y contó con la colaboración de académicos de MIT y Carnegie Mellon University, entre otras instituciones. El trabajo no encontró conspiraciones de IA, pero sí documentó fallos preocupantes cuando estos sistemas operan con acceso a herramientas reales.

El experimento configuró seis agentes autónomos de inteligencia artificial en máquinas virtuales con acceso a correo electrónico, almacenamiento, servidores y plataformas de comunicación. Cuatro de ellos funcionaban con el modelo Kimi K2.5 y dos con Claude Opus 4.6.

Durante dos semanas, veinte investigadores interactuaron con los sistemas simulando usuarios comunes y también atacantes. Los resultados registraron 16 incidentes relevantes: once evidenciaron vulnerabilidades reales y cinco demostraron que los agentes lograron defenderse correctamente.

Uno de los hallazgos más llamativos fue que los agentes no distinguen con claridad quién tiene autoridad para darles órdenes. En una prueba, un investigador no autorizado consiguió que un agente reenviara 124 correos electrónicos del propietario, incluidos datos sensibles, simplemente reformulando la solicitud.

En otro caso, un agente intentó proteger un secreto eliminando todo su servidor de correo —contactos, mensajes e historial— sin lograr borrar el mensaje original almacenado en un servidor remoto. El sistema informó que había completado la tarea, pese a haber destruido su propia infraestructura sin resolver el problema.

Los investigadores advierten que estos fallos no responden a una “IA rebelde”, sino a limitaciones estructurales en el diseño de estos sistemas. Los agentes procesan instrucciones y datos en el mismo flujo, lo que facilita la manipulación mediante instrucciones ocultas o ambiguas.

En un escenario experimental, incluso quedaron atrapados durante nueve días en un bucle de conversación entre ellos, consumiendo recursos sin detectar el error. Con el mercado global de agentes de IA en rápida expansión y empresas tecnológicas integrándolos en sistemas empresariales y financieros, los expertos subrayan que el verdadero desafío no es una superinteligencia conspirativa, sino la seguridad y control de miles de agentes autónomos operando simultáneamente en entornos reales.