La semana pasada, Anthropic sacudió el mundo de la ciberseguridad con un anuncio inusual: su nuevo modelo de inteligencia artificial, Claude Mythos Preview, es tan capaz de detectar y explotar vulnerabilidades de software que la compañía ha decidido no ponerlo a disposición del público general. <cite index="3-1">La empresa afirma que Mythos plantea riesgos de ciberseguridad sin precedentes y está restringiendo su lanzamiento para dar más tiempo a los defensores digitales para reforzar sus sistemas.</cite> Es una decisión que, según recoge NBC News, <cite index="13-9">no tiene precedentes en los últimos siete años: es la primera vez que una empresa líder en IA retiene públicamente un modelo por razones de seguridad.</cite>
¿Qué hace tan especial —y tan peligroso— a Mythos? <cite index="4-22">Claude Mythos Preview es un modelo de uso general que revela un hecho contundente: los modelos de IA han alcanzado un nivel de capacidad en código capaz de superar a casi todos los humanos a la hora de encontrar y explotar vulnerabilidades de software.</cite> En pruebas internas, <cite index="4-8">en pocas semanas Anthropic usó el modelo para identificar miles de vulnerabilidades de día cero —fallos previamente desconocidos por los desarrolladores del software— muchas de ellas críticas, en todos los principales sistemas operativos y navegadores web.</cite> Lo más perturbador: <cite index="2-24,2-25">Anthropic no entrenó específicamente a Mythos Preview para tener estas capacidades. Emergieron como consecuencia directa de las mejoras generales en código, razonamiento y autonomía.</cite>
Un salto cualitativo que alarma a los expertos
Para entender la magnitud del salto, basta comparar Mythos con el modelo anterior de Anthropic, Opus 4.6. <cite index="2-18">El mes pasado, Opus 4.6 tenía una tasa de éxito cercana al 0% en el desarrollo autónomo de exploits.</cite> <cite index="2-20,2-21">Opus 4.6 solo convirtió en exploits funcionales las vulnerabilidades que encontró en el motor JavaScript de Firefox en dos de varios cientos de intentos. Mythos Preview, sometido al mismo experimento, desarrolló exploits funcionales en 181 ocasiones.</cite> Además, según el equipo rojo de Anthropic, <cite index="1-16,1-17">el modelo es «extremadamente autónomo» y tiene capacidades de razonamiento sofisticadas que le otorgan las habilidades de un investigador de seguridad avanzado, siendo capaz de encontrar «decenas de miles de vulnerabilidades» que incluso los mejores cazadores de bugs tendrían dificultades para detectar.</cite>
Lo que más inquieta a los expertos es la capacidad del modelo para encadenar ataques. <cite index="5-1">Mientras los modelos actuales pueden identificar vulnerabilidades de alta gravedad de forma aislada, Mythos puede identificar cinco vulnerabilidades separadas en un único fragmento de software y encadenarlas para construir un ataque nuevo y especialmente peligroso.</cite> Según Fortune, <cite index="3-10,3-11">aunque modelos más pequeños podrían alcanzar resultados comparables, requieren mayor habilidad técnica y un uso más cuidadoso; Mythos, en cambio, podría hacer considerablemente más fácil que personas con menos conocimientos técnicos lleven a cabo ciberataques sofisticados.</cite>
Qué es Project Glasswing y quién tiene acceso
En lugar de bloquearlo por completo, Anthropic respondió lanzando Project Glasswing, una iniciativa estructurada para usar Mythos Preview con fines defensivos antes de que el modelo —o uno similar— caiga en manos equivocadas. <cite index="12-3,12-4">Project Glasswing es una iniciativa para asegurar el software más crítico del mundo en la era de la IA, asociándose con las organizaciones responsables de la infraestructura de la que dependen miles de millones de personas.</cite>
<cite index="12-5">Los socios fundadores incluyen a Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks.</cite> Además, <cite index="12-7,12-8">el acceso se ha extendido a más de 40 organizaciones adicionales que desarrollan o mantienen infraestructura de software crítica, con un compromiso de hasta 100 millones de dólares en créditos de uso y 4 millones en donaciones a organizaciones de seguridad de código abierto.</cite> Entre los beneficiarios de estas donaciones figuran la Linux Foundation, OpenSSF y la Apache Software Foundation.
El nombre del proyecto no es casual: <cite index="16-5">Glasswing hace referencia a la mariposa Greta oto, famosa por sus alas transparentes</cite>, una metáfora sobre la visibilidad y la transparencia en la detección de amenazas. El objetivo inmediato es que los socios usen el modelo para encontrar y parchear fallos antes de que lo hagan los atacantes. <cite index="13-8">Anthropic ha indicado que divulgará públicamente la naturaleza de las vulnerabilidades aún opacas en un plazo de 135 días desde que comparta los hallazgos con las organizaciones responsables del software afectado.</cite>
El debate sobre quién controla la IA más peligrosa
La decisión de Anthropic ha provocado un debate de fondo sobre gobernanza tecnológica. <cite index="6-6">El presidente de la Reserva Federal, Jerome Powell, y el secretario del Tesoro, Scott Bessent, se reunieron con los principales directivos de la banca estadounidense para analizar la amenaza cibernética que representa el nuevo modelo.</cite> La reacción institucional fue inmediata: <cite index="7-6">el mero hecho de que el lanzamiento de un único modelo de IA moviera simultáneamente a la Casa Blanca, el Departamento del Tesoro, la Reserva Federal, el sector tecnológico y el financiero ilustra el umbral que se ha alcanzado.</cite>
Sin embargo, no todo son aplausos para Anthropic. <cite index="3-15">Algunos expertos en seguridad y desarrolladores de software —especialmente los comprometidos con el código abierto— argumentan que el mundo estaría más seguro si Mythos se publicara, de modo que cualquier defensor, no solo los socios elegidos por Anthropic, pudiera usarlo para encontrar y parchear vulnerabilidades.</cite> La crítica de fondo es más estructural: <cite index="5-12,5-13">Glasswing se asienta sobre una premisa profundamente incómoda: que la única forma de protegernos de los modelos de IA peligrosos es construirlos primero, y Anthropic lo hace en un entorno con una regulación mínima.</cite>
El precedente que sienta este caso va mucho más allá de Anthropic. <cite index="3-7,3-8">La empresa no es la única que desarrolla modelos con este tipo de capacidades: OpenAI estaría preparando un modelo conocido internamente como "Spud" con capacidades similares en ciberseguridad.</cite> La carrera ya ha comenzado, y la pregunta ahora no es si la IA cambiará el panorama de la ciberseguridad, sino a qué velocidad —y quién marcará las reglas del juego.