Anthropic ha anunciado Claude Mythos Preview, su modelo de inteligencia artificial más avanzado hasta la fecha, pero con una salvedad sin precedentes: <cite index="2-1">la compañía advierte que el modelo plantea riesgos de ciberseguridad sin parangón y está restringiendo su lanzamiento para dar tiempo a los defensores a reforzar sus sistemas.</cite> No es un modelo especializado en hackeo —es un modelo de propósito general—, y aun así <cite index="1-6">Anthropic lo ha lanzado con disponibilidad restringida debido a su avanzada capacidad para identificar debilidades en el software, a pesar de no haber sido entrenado específicamente para ciberseguridad.</cite>
<cite index="3-2,3-3">Claude Mythos Preview es un modelo frontera de propósito general, aún sin lanzamiento público, que revela un hecho contundente: los modelos de IA han alcanzado un nivel de capacidad de programación que les permite superar a todos los humanos salvo a los más hábiles en la detección y explotación de vulnerabilidades de software. Mythos Preview ya ha encontrado miles de vulnerabilidades de alta gravedad, incluyendo algunas en todos los sistemas operativos y navegadores web más utilizados.</cite>
Los ejemplos concretos son llamativos. <cite index="19-19,19-20,19-21">El modelo encontró una vulnerabilidad de 27 años en OpenBSD —considerado uno de los sistemas operativos más seguros del mundo—, que permitía a un atacante colapsar cualquier máquina remotamente con solo conectarse a ella. También descubrió un fallo de 16 años en FFmpeg —la librería de codificación de vídeo omnipresente— en una línea de código que las herramientas de prueba automatizadas habían ejecutado cinco millones de veces sin detectarlo nunca.</cite> Pero quizás lo más alarmante es que el modelo no solo encuentra fallos de forma aislada: <cite index="17-20">Mythos puede identificar cinco vulnerabilidades separadas en un mismo software y luego encadenarlas para construir un ataque nuevo y singularmente peligroso.</cite>
El Proyecto Glasswing: defensa antes que ataque
Para gestionar este riesgo, Anthropic ha creado el Proyecto Glasswing, una iniciativa con más de 40 de las mayores compañías tecnológicas del mundo. <cite index="13-9">En lugar de liberar Mythos al público, Anthropic comparte la tecnología con un grupo selecto de grandes empresas —entre ellas Amazon, Apple, Cisco, JPMorgan Chase y Nvidia— para que puedan probar el modelo y reforzar sus propios sistemas contra ciberataques.</cite> <cite index="3-9">Anthropic se compromete a aportar hasta 100 millones de dólares en créditos de uso para Mythos Preview en este esfuerzo, además de 4 millones de dólares en donaciones directas a organizaciones de seguridad de código abierto.</cite>
El nombre del proyecto hace referencia a una mariposa de alas transparentes, una metáfora sobre las vulnerabilidades del software, que son "relativamente invisibles" hasta que alguien las encuentra. <cite index="5-8">Esta es una de las primeras veces que una empresa de IA retiene un modelo por los riesgos sociales que podría causar.</cite> <cite index="3-6">El Proyecto Glasswing es un intento urgente de poner estas capacidades al servicio de la defensa.</cite>
Un debate que va más allá de Anthropic
La decisión de Anthropic ha generado un terremoto institucional. <cite index="6-4">El modelo demostró una capacidad inusualmente fuerte para descubrir vulnerabilidades y desarrollar exploits, lo que provocó reuniones entre líderes tecnológicos, la Casa Blanca, el Departamento del Tesoro y la Reserva Federal para discutir las implicaciones de seguridad nacional.</cite> <cite index="13-22">El secretario del Tesoro Scott Bessent y el presidente de la Reserva Federal Jerome Powell se reunieron con los principales directores ejecutivos de la banca en una reunión a puerta cerrada para discutir Mythos y otros riesgos emergentes de ciberseguridad derivados de la IA.</cite>
El debate va más allá del propio modelo. Los expertos advierten de que la ventana de tiempo es estrecha. <cite index="10-16,10-17">Logan Graham, responsable de investigación cibernética ofensiva en Anthropic, señala que incluso si Mythos nunca llegara al público, espera que los competidores de la compañía —incluidos los de China— lancen modelos con capacidades de hackeo comparables en los próximos meses y años. "Deberíamos planificar para un mundo en el que, dentro de seis a doce meses, capacidades como estas podrían estar ampliamente distribuidas, no solo por empresas de Estados Unidos", afirmó Graham en declaraciones a NBC News.</cite>
Esa carrera contrarreloj es precisamente lo que más preocupa al sector. <cite index="17-23,17-24">Alex Stamos, director de producto de la firma de ciberseguridad Corridor y ex responsable de seguridad en Facebook y Yahoo, calcula que "solo tenemos unos seis meses antes de que los modelos de código abierto alcancen a los modelos frontera en la búsqueda de fallos", momento a partir del cual "cualquier actor de ransomware podrá encontrar y weaponizar vulnerabilidades sin dejar rastros para las fuerzas del orden".</cite>
<cite index="18-10">Algunos expertos en seguridad y desarrolladores de software, especialmente los comprometidos con el código abierto, argumentan que el mundo estaría más seguro si Mythos se publicara para que cualquier defensor, no solo los socios elegidos por Anthropic, pudiera usarlo para encontrar y parchear vulnerabilidades.</cite> La otra cara del argumento es que, si el modelo cae en manos equivocadas, las consecuencias podrían ser devastadoras: <cite index="18-4">sin que los gobiernos y la industria refuercen las defensas, el mundo podría ver una oleada de ciberataques devastadores que derrumben sistemas bancarios, redes eléctricas, hospitales o sistemas de agua.</cite>
OpenAI se suma: el problema no para con Mythos
Anthropics no está sola en este dilema. <cite index="5-11">OpenAI está ultimando un modelo similar a Mythos que lanzará solo a un pequeño grupo de empresas a través de su programa existente "Trusted Access for Cyber".</cite> La industria entera está convergiendo hacia el mismo callejón: modelos cada vez más potentes, con capacidades que en ningún caso fueron diseñadas expresamente para el hackeo, pero que resultan extraordinariamente eficaces para ello.
<cite index="11-17">Los costes financieros globales actuales de la ciberdelincuencia son difíciles de estimar, pero podrían rondar los 500.000 millones de dólares al año.</cite> Con la irrupción de modelos como Mythos, ese escenario podría empeorar radicalmente. <cite index="17-25">"Las capacidades de la IA han cruzado un umbral que cambia fundamentalmente la urgencia necesaria para proteger la infraestructura crítica de las amenazas cibernéticas, y no hay vuelta atrás", señaló Anthony Grieco, director de seguridad y confianza de Cisco, en un comunicado que acompañó al anuncio.</cite> La pregunta que queda en el aire es si la ventana de tiempo que Anthropic intenta ganar con el Proyecto Glasswing será suficiente —o si solo es el inicio de una carrera armamentística digital de consecuencias imprevisibles.