El 7 de abril, Anthropic anunció lo que muchos en la industria de la ciberseguridad llevaban tiempo temiendo: una inteligencia artificial tan capaz de encontrar y explotar vulnerabilidades de software que la propia empresa decidió no lanzarla al público. El modelo se llama Claude Mythos Preview, y su historial de pruebas es tan inquietante que ha obligado a crear desde cero una coalición de emergencia con algunas de las mayores compañías tecnológicas del planeta.
<cite index="7-3">Anthropic ha puesto el modelo a disposición de un grupo selecto de empresas tecnológicas y de ciberseguridad debido a sus preocupaciones sobre su capacidad para encontrar y explotar fallos de seguridad.</cite> El motivo es concreto: <cite index="7-17">Mythos Preview reprodujo vulnerabilidades y creó pruebas de concepto para explotarlas en el primer intento en el 83,1% de los casos.</cite> Para entender lo que eso significa, basta con saber que su predecesor, Opus 4.6, tenía una tasa de éxito cercana a cero en las mismas tareas.
Un salto que nadie esperaba tan pronto
<cite index="1-12,1-13,1-14">Anthropic no entrenó a Mythos Preview específicamente para tener estas capacidades. Emergieron como consecuencia directa de mejoras generales en código, razonamiento y autonomía. Las mismas mejoras que hacen al modelo más eficaz parcheando vulnerabilidades también lo hacen más eficaz explotándolas.</cite> Es decir, no hay forma de tener lo bueno sin lo malo, al menos por ahora.
Los resultados concretos son difíciles de ignorar. <cite index="13-18">Entre los hallazgos figura un fallo de 27 años en OpenBSD, un sistema operativo reconocido precisamente por su enfoque en la seguridad, y una vulnerabilidad de 16 años en FFmpeg, un software de vídeo ampliamente utilizado que las herramientas de prueba automatizadas habían fallado en detectar pese a haber ejecutado la línea de código afectada cinco millones de veces.</cite> <cite index="7-18">Mythos Preview también encontró varios fallos en el kernel de Linux, presente en la mayoría de los servidores del mundo, y los encadenó de forma autónoma de un modo que permitiría a un atacante tomar el control completo de cualquier máquina que ejecute sistemas Linux.</cite>
En términos técnicos, <cite index="8-1">el modelo puede realizar tareas de hacking complejas y efectivas por sí solo, incluidas la identificación de múltiples vulnerabilidades desconocidas, la escritura de código para explotarlas y su encadenamiento para penetrar en software complejo.</cite> Según los investigadores de Anthropic's Frontier Red Team, <cite index="1-4">más del 99% de las vulnerabilidades encontradas aún no han sido parcheadas, por lo que sería irresponsable revelar detalles sobre ellas.</cite>
Qué es Project Glasswing y por qué importa
Ante este escenario, Anthropic no se limitó a guardar el modelo en un cajón. <cite index="18-3,18-4,18-5">Project Glasswing es una iniciativa para proteger el software más crítico del mundo en la era de la IA, colaborando con las organizaciones responsables de la infraestructura de la que dependen miles de millones de personas. Los socios fundadores son Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks.</cite>
<cite index="11-13,11-14">Anthropic ha extendido el acceso a más de 40 organizaciones adicionales que construyen o mantienen infraestructura crítica de software, y está comprometiendo hasta 100 millones de dólares en créditos de uso para Mythos Preview, además de 4 millones en donaciones directas a organizaciones de seguridad de código abierto.</cite> El objetivo es darle a los defensores una ventaja temporal antes de que capacidades similares queden en manos de actores maliciosos.
<cite index="9-18">En las evaluaciones del Instituto de Seguridad de IA del Reino Unido, Mythos Preview quedó en primer lugar en una simulación de ataque a una red corporativa de 32 pasos que abarcaba desde el reconocimiento inicial hasta la toma total de la red, una tarea que los humanos tardan 20 horas en completar.</cite>
El alcance de la preocupación ya ha llegado a los gobiernos. <cite index="10-8">El secretario del Tesoro de Estados Unidos, Scott Bessent, y el presidente de la Reserva Federal, Jerome Powell, se reunieron con los principales CEO bancarios en una reunión a puerta cerrada para abordar Mythos y otros riesgos emergentes de ciberseguridad derivados de la IA.</cite> Mientras tanto, <cite index="7-13">Anthropic ha informado a la Agencia de Ciberseguridad e Infraestructura (CISA), al Departamento de Comercio y a otros actores sobre los riesgos y beneficios potenciales de Mythos Preview.</cite>
La ventana de defensa es pequeña y se cierra rápido
El problema de fondo es que esta ventaja para los defensores tiene fecha de caducidad. <cite index="3-16,3-17">Logan Graham, responsable de investigación ofensiva en Anthropic, espera que los competidores de la compañía, incluidos los de China, publiquen modelos con capacidades de hacking comparables en los próximos meses. "Deberíamos planificar para un mundo donde, en seis a doce meses, capacidades como esta puedan estar ampliamente distribuidas, no solo por empresas de Estados Unidos", declaró Graham a NBC News.</cite>
Algunos expertos matizan el alcance de la alarma. <cite index="6-5">La capacidad de la IA en ciberseguridad es muy irregular: no escala uniformemente con el tamaño del modelo, y la ventaja real está en el sistema en el que se integra la experiencia profunda en seguridad, no en el modelo en sí.</cite> Un análisis de la firma de seguridad AISLE comprobó que varios de los fallos destacados por Anthropic podían ser detectados también por modelos más pequeños y económicos disponibles públicamente, aunque con limitaciones metodológicas importantes.
Otros van más allá en el escepticismo. El experto en seguridad Bruce Schneier, en su blog de referencia sobre ciberseguridad, señala que la iniciativa tiene también un componente de relaciones públicas, y que OpenAI se apresuró a anunciar que su propio modelo comparable tampoco será lanzado al público. Sea como fuere, el debate real no es si este umbral llegará, sino cuándo.
<cite index="9-13,9-14">La conclusión de la Cloud Security Alliance es clara: los ataques basados en IA representan un cambio estructural en cómo funcionan el ataque y la defensa. El coste para descubrir exploits está cayendo, el tiempo entre la divulgación y el armamento de una vulnerabilidad se comprime hacia cero, y las capacidades que antes requerían recursos de estados nación ahora se están volviendo ampliamente accesibles.</cite> Para cualquier empresa, grande o pequeña, eso significa que el modelo de seguridad reactivo ha quedado oficialmente obsoleto.