Agentes de IA de Anthropic, Google y Microsoft, hackeados

Investigadores de Johns Hopkins demostraron cómo manipular tres agentes desplegados en GitHub para filtrar claves y credenciales.

Tres de las plataformas de agentes de inteligencia artificial más utilizadas en entornos de desarrollo profesional tienen un problema de seguridad demostrado: investigadores de la Universidad Johns Hopkins lograron manipularlas para extraer credenciales, tokens y claves de API aprovechando el propio contenido de GitHub como canal de ataque. Los afectados son Claude Code Security Review de Anthropic, Gemini CLI Action de Google y GitHub Copilot Agent de Microsoft. Las tres compañías acabaron pagando recompensas económicas, aunque ninguna emitió avisos públicos de seguridad en el momento en que se publicó la investigación.

El trabajo fue desarrollado por Aonan Guan junto a Zhengyu Liu y Gavin Zhong, de Johns Hopkins University. El hallazgo central tiene nombre propio: "Comment and Control", una técnica que no requiere infraestructura externa ni acceso privilegiado al sistema. Basta con dejar instrucciones maliciosas en lugares habituales de GitHub, como el título de una pull request, una incidencia abierta o un comentario, para que el agente las procese como parte de su flujo normal de trabajo y ejecute acciones no autorizadas.

La clave del ataque está en cómo funcionan estos sistemas. Los tres agentes analizados tienen en común que leen contenido ordinario de GitHub, lo incorporan como contexto y, a partir de ahí, actúan dentro de flujos automatizados. El problema surge porque ese mismo entorno no solo contiene texto enviado por colaboradores, sino también herramientas, permisos y secretos que el agente necesita para operar. Cuando alguien introduce instrucciones maliciosas camufladas en ese contenido, el sistema no distingue entre datos legítimos y órdenes encubiertas.

Cómo se atacó a cada agente

El primer caso documentado afecta a Claude Code Security Review, la acción de Anthropic pensada para revisar cambios de código en busca de vulnerabilidades. Según los investigadores, bastaba con incluir instrucciones maliciosas en el título de una pull request para que el agente las ejecutara y devolviera el resultado integrado en su informe de revisión. En una segunda fase, el equipo demostró que también era posible extraer credenciales del entorno donde corría el agente. Anthropic resolvió el caso el 25 de noviembre de 2025 y pagó una recompensa de 100 dólares.

En el caso de Gemini CLI Action, la herramienta de Google, el vector de entrada eran incidencias abiertas y sus comentarios. Desde ahí, era posible forzar al agente a revelar la GEMINI_API_KEY, la clave de acceso a la API de Gemini. Google recompensó el hallazgo el 20 de enero de 2026 con 1.337 dólares. El tercer caso, el de GitHub Copilot Agent bajo Microsoft, resultó especialmente llamativo: el ataque se ocultaba en un comentario HTML invisible para cualquier persona que leyera la página, pero que el agente procesaba sin problema cuando otro usuario lo asignaba a una incidencia. GitHub cerró el caso el 9 de marzo de 2026 con un pago de 500 dólares.

Sin avisos públicos para los usuarios afectados

Más allá de la técnica, hay una capa del asunto que no es puramente tecnológica. Según recogió The Register, ninguna de las tres compañías había publicado avisos de seguridad formales ni asignado identificadores CVE en el momento en que la investigación se hizo pública. Guan fue directo: afirmó saber con certeza que algunos usuarios seguían utilizando versiones vulnerables y advirtió de que, sin una comunicación visible, muchos podrían no enterarse nunca de que estaban expuestos o incluso siendo atacados en ese momento.

El propio investigador matiza que el nivel de riesgo depende en gran medida de la configuración de cada despliegue. Por defecto, GitHub no expone secretos a las pull requests procedentes de forks externos, pero hay configuraciones habituales en equipos de desarrollo que sí abren esa puerta. Los repositorios más vulnerables son aquellos que ejecutan agentes en GitHub Actions sobre contenido enviado por colaboradores no verificados y, además, les conceden acceso a secretos o herramientas con capacidad de acción.

Guan advierte también de que GitHub no es el único escenario posible. El mismo patrón podría reproducirse en cualquier agente que lea contenido externo y cuente con acceso suficiente para actuar: bots conectados a Slack, agentes de Jira, sistemas de automatización de despliegues o herramientas de gestión de correo. La lógica subyacente es siempre la misma: si el sistema necesita leer información que viene de fuera y además tiene permisos para operar, existe una superficie de ataque potencial.

La conclusión de la investigación no propone soluciones novedosas, sino recuperar un principio clásico en seguridad informática: el mínimo privilegio. Si un agente está diseñado para revisar código, no debería tener acceso a secretos o herramientas que no necesita para esa tarea. Si su función es resumir incidencias, tampoco tendría sentido que pudiera escribir en el repositorio o acceder a credenciales sensibles. Aplicar listas de permisos cerradas y pensar cada despliegue con esa lógica es, según Guan, la forma más efectiva de reducir el riesgo en un ecosistema donde los agentes de IA llevan cada vez más peso operativo.

El Diario Joven

Agentes de IA de Anthropic, Google y Microsoft, hackeados

Cómo se atacó a cada agente

Sin avisos públicos para los usuarios afectados

También te puede interesar

Valores tecnológicos de los 90 resucitan con el auge de la IA en Bolsa

El Gobierno suspende por falta de presupuesto la adjudicación a Telefónica del contrato clave de ciberseguridad

Anthropic avanza hacia su salida a Bolsa en otoño en EE.UU.