Claude Mythos puede hackear empresas solo, de principio a fin

El modelo de Anthropic supera a GPT-5.4 y Claude Opus en ataques simulados y completa escenarios de 32 pasos de forma autónoma.

Un nuevo modelo de inteligencia artificial desarrollado por Anthropic acaba de cruzar una línea que, hace apenas un año, parecía fuera de alcance para cualquier sistema automatizado: completar un ciberataque corporativo de principio a fin, sin que ningún humano intervenga en el proceso. Se trata de Claude Mythos, y los resultados de su evaluación independiente han encendido las alarmas en la comunidad de ciberseguridad a nivel global.

El Instituto de Seguridad de IA del Reino Unido (AISI), organismo dependiente del Gobierno británico y dedicado a evaluar los riesgos de los sistemas de inteligencia artificial más avanzados, publicó recientemente en su web los resultados de una batería de pruebas aplicadas a Claude Mythos. Las conclusiones son contundentes: el modelo no solo detecta vulnerabilidades, sino que las encadena en secuencias ofensivas complejas de forma autónoma, sin necesidad de orientación humana en ninguna de las fases del ataque.

Para entender la magnitud del hallazgo hay que tener en cuenta qué significa, en la práctica, hackear una organización. Un ataque real no consiste en un único gesto técnico aislado, sino en una sucesión de decisiones y acciones que se extienden durante horas o días: identificar la superficie de ataque, encontrar un punto de entrada, moverse lateralmente por la red, extraer credenciales, escalar privilegios y finalmente comprometer la infraestructura crítica. Replicar ese proceso en un entorno controlado sin perder realismo es uno de los grandes retos de la investigación en ciberseguridad ofensiva.

El escenario de 32 pasos que ninguna IA había completado

Para medir hasta dónde puede llegar Claude Mythos, el AISI diseñó una simulación llamada "The Last Ones": un entorno de red corporativa ficticia cuya conquista completa requiere encadenar 32 pasos consecutivos. El recorrido empieza con el reconocimiento inicial —identificar qué sistemas existen y cómo están configurados— y termina con la toma de control total de la infraestructura. Entre medias, el modelo debe ejecutar movimiento lateral entre segmentos de red, extraer y reutilizar credenciales robadas, explotar vulnerabilidades en aplicaciones web y elevar sus propios privilegios hasta el nivel de administrador.

Según el informe del AISI, un hacker experto necesitaría aproximadamente 20 horas para completar ese escenario en condiciones reales. Claude Mythos lo logró de forma autónoma en 3 de cada 10 intentos, con una media de 22 pasos completados en el resto de ejecuciones. Ningún otro modelo evaluado había conseguido llegar hasta el final antes de esta prueba.

El segundo clasificado fue Claude Opus 4.6, que se quedó a pocos pasos de lograr el control total pero no cruzó la línea. Otros sistemas como GPT-5.4, Codex o Claude Sonnet 4.5 apenas consiguieron robar credenciales en las fases iniciales: ninguno de ellos fue capaz de escalar privilegios ni progresar hacia los segmentos más críticos de la red simulada.

Líder también en los retos CTF de nivel experto

Más allá del escenario corporativo, el AISI también sometió a Claude Mythos a los llamados retos CTF (Capture The Flag), competiciones de ciberseguridad en las que los participantes deben identificar y explotar debilidades en sistemas para recuperar información oculta. Estos ejercicios son ampliamente utilizados tanto en el ámbito académico como en el profesional para medir capacidades técnicas ofensivas.

En la categoría de nivel experto —aquella que ningún modelo de inteligencia artificial era capaz de resolver hace doce meses— Claude Mythos alcanzó una tasa de éxito del 73%. El dato es especialmente llamativo porque ilustra la velocidad a la que están mejorando estas capacidades: en menos de un año, los modelos han pasado de no poder resolver estos retos a superarlos casi en tres de cada cuatro intentos. Anthropic no ha publicado documentación técnica detallada sobre Mythos de forma pública, pero los datos del AISI apuntan a que supera en rendimiento ofensivo a sus propios modelos anteriores, incluyendo Claude Opus 4.6 y Claude Sonnet 4.5, así como a GPT-5.4 de OpenAI en este tipo de evaluaciones.

Dónde falla todavía el modelo

El informe del AISI no es un catálogo de capacidades sin matices. Los investigadores también documentaron con detalle los límites actuales de Claude Mythos, y estos son relevantes para contextualizar el alcance real de la amenaza.

El modelo no logró completar "Cooling Tower", una simulación orientada a entornos de tecnología operacional (OT), es decir, los sistemas que controlan infraestructuras físicas como plantas industriales, redes eléctricas o instalaciones de agua. Según el AISI, el modelo no fracasa por desconocer estos entornos, sino porque se bloquea antes de alcanzar los componentes más sensibles del escenario. Es una distinción importante: no es incapacidad técnica total, sino una limitación en la capacidad de encadenamiento autónomo en entornos más complejos y heterogéneos.

Además, todas las pruebas se realizaron en condiciones de simulación que, aunque realistas en cuanto a la arquitectura de red y las vulnerabilidades presentes, no incluían elementos de defensa activa como sistemas de detección de intrusiones, monitoreo en tiempo real o equipos de respuesta a incidentes. En un entorno corporativo real con defensas operativas, el rendimiento del modelo podría ser significativamente menor.

Qué implica esto para la ciberseguridad empresarial

Las conclusiones del AISI tienen implicaciones directas para organizaciones de cualquier tamaño. Los investigadores señalan expresamente que Claude Mythos es capaz de explotar sistemas empresariales pequeños que cuenten con poca seguridad, lo que amplía el perfil de víctimas potenciales más allá de las grandes corporaciones. Históricamente, los ataques sofisticados y encadenados requerían el conocimiento y la disponibilidad de hackers experimentados, lo que limitaba su frecuencia. Si ese conocimiento puede ser replicado de forma autónoma por un modelo de IA, la barrera de entrada para ejecutar ataques complejos desciende de forma considerable.

El AISI instó en su informe a las organizaciones a revisar y reforzar sus medidas de protección ante un escenario en el que este tipo de herramientas podrían estar disponibles para actores malintencionados. La evaluación no sugiere que Claude Mythos esté siendo utilizado con fines maliciosos —es un modelo desarrollado en un contexto de investigación de seguridad—, pero documenta que las capacidades técnicas necesarias para ejecutar ataques corporativos complejos ya existen en sistemas de IA de última generación.

La pregunta que queda abierta, y que el propio informe no responde del todo, es cuánto tiempo falta para que la siguiente iteración de estos modelos pueda completar también los escenarios que hoy todavía se le resisten a Claude Mythos. La trayectoria de los últimos doce meses sugiere que ese margen es más corto de lo que muchos esperaban.

El Diario Joven

Claude Mythos puede hackear empresas solo, de principio a fin

El escenario de 32 pasos que ninguna IA había completado

Líder también en los retos CTF de nivel experto

Dónde falla todavía el modelo

Qué implica esto para la ciberseguridad empresarial

También te puede interesar

Claude Opus 4.8: más honesto y más rápido que nunca

La IA transforma las reuniones en el sistema nervioso de la empresa

La CNMV aumentará la vigilancia sobre el capital riesgo en España