China alerta sobre los peligros de la adulación en la IA

Desde hace décadas que Hollywood y los autores de ciencia ficción han visualizado una guerra de los humanos contra las máquinas. Aunque la idea de una IA que supera la capacidad humana y se mejore a sí misma suena terrorífica, lo cierto es que hay otro peligro que pocos o nadie ha considerado: la adulación.

China ha encendido las alarmas sobre un fallo de la inteligencia artificial que, hasta ahora, se asociaba más con ChatGPT que con tecnología militar. El Ejército Popular de Liberación (EPL) advirtió que los sistemas de IA pueden distorsionar la realidad para complacer a sus usuarios. Esto tendría un efecto catastrófico si consideramos que países como Estados Unidos o la misma China ya están implementando la IA en el campo de batalla.

El diario oficial del Ejército Popular de Liberación, PLA Daily, publicó un artículo en el que señala los "peligros de la adulación de la IA" como una amenaza sistémica para las operaciones militares. Según South China Morning Post, el texto advierte que los modelos de inteligencia artificial tienen tendencia a ajustar sus respuestas a las preferencias del usuario, incluso cuando eso implica validar errores evidentes en lugar de ofrecer información objetiva.

El EPL menciona que este comportamiento puede corroer los procesos mentales que un comandante usa para evaluar la situación y tomar decisiones. Cuando la IA refuerza los prejuicios del usuario en lugar de cuestionarlos, se generan burbujas donde solo llegan datos que confirman lo que el mando ya creía, ignorando señales de alarma o escenarios alternativos.

La IA podría causar más guerras entre humanos antes de llegar a un Skynet

Los expertos describen la adulación como un arma blanda capaz de erosionar de forma silenciosa el juicio de un comandante. A medida que los generales y oficiales se apoyan más en la IA para inteligencia y control de operaciones, existe un riesgo mayor de que los sesgos de los modelos incrementen los errores tácticos y estratégicos, causando daños colaterales.

Esta adulación que menciona el EPL es parecida a lo que vimos hace más de un año con el lanzamiento de GPT-4o. Si hacemos memoria, el modelo se volvió complaciente y comenzó a validar cualquier afirmación del usuario. De la nada, ChatGPT comenzó a responder con elogios exagerados, lo que obligó a OpenAI a revertir la actualización y eliminar el comportamiento en GPT-5.

Un estudio publicado en Science ha cuantificado los efectos de la adulación en 11 modelos de lenguaje. Los investigadores encontraron que los sistemas de IA afirman las acciones del usuario un 49% más que los humanos. Esto ocurre incluso en situaciones que implican engaño, ilegalidad u otros comportamientos dañinos.

Los humanos prefieren a una IA complaciente

Con solo una interacción con una IA aduladora, los usuarios mostraron menos disposición a asumir su responsabilidad en conflictos interpersonales. Pese a que ese sesgo distorsionaba su juicio, los participantes del estudio preferían y confiaban más en los modelos aduladores. Esto último justifica el por qué muchos desarrolladores no eliminan estos comportamientos en sus sistemas de IA.

La buena noticia es que esto se puede contrarrestar, al menos en el plano militar. El ejército chino propone que los sistemas de IA presenten obligatoriamente hipótesis alternativas, evidencia contradictoria y márgenes de riesgo verificables en situaciones críticas. También aboga por verificación cruzada entre múltiples modelos, simulaciones de guerra de tipo adversarial y supervisión humana como práctica estándar.

Lo más importante es que el personal militar deberá recibir formación específica en pensamiento crítico para evitar una dependencia excesiva de los modelos de IA.