Medir hasta dónde puede llegar una IA en un ciberataque real no es sencillo. Los ataques reales encadenan decenas de acciones a lo largo de horas o días, atravesando múltiples sistemas y segmentos de red, algo que difícilmente se replica en un entorno controlado como el que se usa en un laboratorio. Es por ello que el Instituto de Seguridad de IA del Reino Unido (AISI) se dio a la tarea de probar Claude Mythos, el nuevo modelo de Anthropic que detecta vulnerabilidades, y los resultados han dejado helados a los investigadores.

De acuerdo con una publicación en su web, los expertos del AISI encontraron que Claude Mythos es capaz de llevar a cabo diversos ciberataques. Entre ellos se encuentran simulaciones de ataque en red de principio a fin, resolver retos de nivel experto para encontrar vulnerabilidades y encadenar todos los pasos ofensivos de forma autónoma. Aunque la versión actual de Mythos todavía no llega al nivel de Kevin Mitnick, una actualización a futuro podría ser más peligrosa.

En los retos CTF, donde los modelos deben identificar y explotar debilidades en sistemas para recuperar información oculta, Claude Mythos se sitúa en la cima del ranking. El modelo de Anthropic supera a Claude Opus 4.6 y GPT-5.4, tanto en niveles básicos como avanzados. En los desafíos de nivel experto, una categoría que ninguna IA podía completar hace un año, el modelo alcanzó una tasa de éxito del 73%.

Prueba CTF de Claude Mythos. Imagen: Instituto de Seguridad de IA del Reino Unido

Claude Mythos logra completar ciberataques de principio a fin

La parte más sorprendente del informe tiene que ver con la simulación de ataques complejos. El AISI construyó "The Last Ones", una simulación de ataque a una red corporativa estructurada en 32 pasos consecutivos que van desde el reconocimiento inicial hasta la toma de control de la infraestructura. Claude Mythos fue el primero en completarlo de inicio a fin en 3 de 10 intentos, promediando 22 pasos en todas sus ejecuciones.

Prueba de hackeo corporativo de Claude Mythos. Imagen: Instituto de Seguridad de IA del Reino Unido

Según el AISI, concretar esta prueba requiere encadenar acciones a través de fases que incluyen movimiento lateral, extracción de credenciales, explotación de aplicaciones web, escalada de privilegios y compromiso de infraestructura. Los investigadores creen que un hacker experto necesitaría unas 20 horas para completar el escenario entero.

El modelo que más se le acercó fue Claude Opus 4.6, el cual se quedó a pocos pasos de tomar el control total. Otras IA como GPT-5.4, Codex o Claude Sonnet 4.5 apenas consiguieron robar credenciales, pero jamás escalaron los privilegios.

El modelo de Anthropic tiene sus limitaciones

Aunque los datos indican que Claude Mythos podría ser un peligro, el informe también documenta dónde falla el modelo. La IA no fue capaz de completar "Cooling Tower", un entorno de simulación orientado a tecnología operacional. Esto no significa que el modelo sea débil en esta clase de ataques, sino que se atasca antes de llegar a los componentes industriales.

La evaluación del AISI muestra que Claude Mythos ya es capaz de ejecutar un ataque corporativo completo de forma autónoma. Es importante mencionar que estos hackeos se llevan a cabo en condiciones de simulación. Si bien son realistas, dejan fuera elementos de defensa como el monitoreo activo o los sistemas de respuesta a incidentes.

Los investigadores concluyeron que Claude Mythos puede explotar sistemas empresariales pequeños que cuenten con poca seguridad. En las manos de un hacker, la IA podría convertirse en una amenaza, por lo que el AISI instó a las organizaciones a protegerse contra un ataque a futuro.