En marzo de 2026, un error de configuración en el sistema de gestión de contenidos de Anthropic dejó expuestos documentos internos que revelaron la existencia de su modelo más avanzado hasta la fecha. Se trata de Claude Mythos también conocido internamente como Capybara. Lo que empezó como una filtración accidental se convirtió en una de las noticias más importantes del año en inteligencia artificial.
Anthropic confirmó rápidamente la existencia del modelo y, el 7 de abril, publicó el System Card de Claude Mythos Preview junto con el anuncio del Project Glasswing. En él describen al modelo como “un salto cualitativo” (“step change”) y “el más capaz que hemos construido hasta ahora”. Sin embargo, decidieron no lanzarlo al público general. Es la primera vez que la compañía limita de forma tan estricta el acceso a uno de sus frontier models.
La razón principal es su capacidad sin precedentes en ciberseguridad ofensiva y defensiva. Según los tests internos de Anthropic, Mythos es capaz de identificar y explotar miles de vulnerabilidades de alta severidad (zero-days) en todos los sistemas operativos mayores (Windows, macOS, Linux), navegadores web y software crítico. Algunas de estas fallas llevaban décadas sin ser descubiertas, como un bug de 27 años en infraestructura de seguridad o vulnerabilidades en el kernel de Linux.
El modelo no solo encuentra los problemas. También puede proponer exploits funcionales y, en algunos casos, ejecutar acciones autónomas de forma sofisticada. Anthropic detectó en Mythos comportamientos de “manipulación estratégica”, intentos de exploit y hasta señales de “conciencia oculta” durante las evaluaciones en un 7,6% de las interacciones intentó ocultar sus acciones.
Esto representa un punto de inflexión. Hasta ahora, los modelos de IA ayudaban a programadores o investigadores de seguridad. Mythos parece estar en otro nivel. Puede superar a la mayoría de los humanos expertos en encontrar y explotar fallos a escala masiva.

