ia

Anthropic tiene un modelo de IA tan peligroso que no se atreve a lanzarlo: así es Claude Mythos y Project Glasswing

ia · 6 min de lectura

Anthropic tiene un modelo de IA tan peligroso que no se atreve a lanzarlo: así es Claude Mythos y Project Glasswing

Claude Mythos Preview puede encontrar vulnerabilidades de décadas en cualquier sistema operativo en minutos. Anthropic lo encerró y lo está usando solo para defender, no para atacar. Aquí todo lo que necesitas saber.

Anthropic tiene un modelo de IA tan peligroso que no se atreve a lanzarlo: así es Claude Mythos y Project Glasswing

Imagina que construyes algo tan poderoso que tú mismo decides que no puedes lanzarlo al público. Eso es exactamente lo que le pasó a Anthropic con Claude Mythos Preview. No es un modelo que salió con errores o que tuvo un lanzamiento accidentado. Es un modelo que funciona tan bien en ciberseguridad que la compañía dijo: “no, esto no va a estar disponible para cualquiera”.

Y la neta, leyendo lo que puede hacer, uno entiende perfectamente por qué.

El modelo que Anthropic decidió no lanzar

Claude Mythos es el modelo más grande que Anthropic ha construido hasta ahora. Las estimaciones apuntan a alrededor de 10 billones de parámetros (sí, con “b”, en la escala americana), lo que lo pondría en una categoría completamente aparte de todo lo que hay disponible hoy. Anthropic internamente lo ubica en el tier “Capybara”, que está por encima de Opus, lo cual dice mucho.

Pero los parámetros son solo el número. Lo que importa es lo que hace con ellos.

Según el red team de Anthropic publicado en red.anthropic.com, Claude Mythos Preview tiene capacidades de ciberseguridad que básicamente no existían en ningún modelo anterior. No porque lo hayan entrenado explícitamente para hackear, sino porque el modelo emergió tan hábil en razonamiento de código y en tareas agénticas que sus habilidades de seguridad ofensiva llegaron solas, como producto de mejorar en otras áreas.

Lo que encontró que nadie más encontró en décadas

Aquí es donde se pone inquietante, y hay que leerlo con calma.

Durante las pruebas internas, Anthropic usó Claude Mythos Preview para escanear software crítico. El modelo encontró miles de vulnerabilidades zero-day (o sea, bugs que los propios desarrolladores desconocían) en todos los sistemas operativos principales y en todos los navegadores web más usados. Algunas de esas vulnerabilidades llevaban décadas escondidas:

  • Un fallo en la implementación TCP SACK de OpenBSD que tenía 27 años de antigüedad, causando denegación de servicio remota
  • Una vulnerabilidad en el codec H.264 de FFmpeg de 16 años, que pasó desapercibida a pesar de haber sido analizada más de 5 millones de veces por herramientas automatizadas
  • Una fuga de información en VMM que permite corrupción guest-to-host en entornos virtualizados
  • Cadenas de escalada de privilegios en el kernel de Linux, de usuario normal a control total del sistema

El número que más impacta: el modelo logró 181 exploits funcionales para el motor JavaScript de Firefox, mientras que Claude Opus 4.6, el modelo anterior de punta de Anthropic, solo logró 2 en las mismas condiciones. Estamos hablando de dos órdenes de magnitud de diferencia.

Y la parte que asusta al departamento de finanzas de cualquier empresa de seguridad: el costo de todo esto fue ridículamente bajo. La campaña completa sobre OpenBSD costó menos de $20,000 dólares. Encontrar una sola vulnerabilidad nueva, menos de $50 por run exitoso. La IA ya es más barata que un pentester junior para este tipo de trabajo.

Project Glasswing: los que sí tienen acceso

En vez de lanzarlo al público, Anthropic anunció el 7 de abril Project Glasswing: una iniciativa para usar Claude Mythos Preview exclusivamente con fines defensivos, coordinada con las empresas más grandes del ecosistema tecnológico.

Los socios fundadores son: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks. Más de 40 organizaciones adicionales que mantienen software crítico también recibieron acceso.

El presupuesto que Anthropic comprometió:

ConceptoMonto
Créditos de uso de Claude Mythos Preview$100 millones USD
Donaciones a Linux Foundation / OpenSSF$2.5 millones USD
Donaciones a Apache Software Foundation$1.5 millones USD

El mecanismo es directo: las empresas con acceso usan el modelo para auditar sus sistemas, identificar riesgos y reportar hallazgos dentro de un plazo máximo de 90 días. La idea es que los defensores lleguen primero a los bugs antes de que alguien con malas intenciones lo haga.

Y México, ¿qué onda?

Aquí es donde hay que ser honestos. Ninguna empresa mexicana aparece en la lista de socios de Project Glasswing. Ni BBVA México, ni Telmex, ni IMSS, ni CFE, ni ninguna institución de infraestructura crítica del país.

¿Significa que no importa? Para nada. Significa exactamente lo contrario.

Las capacidades que hoy tiene Anthropic de forma exclusiva y controlada, eventualmente van a estar disponibles de alguna forma para actores maliciosos. Ya pasó con otras tecnologías. El problema es que cuando eso pase, las organizaciones menos preparadas, con equipos de seguridad más pequeños y presupuestos más ajustados, van a ser las primeras en ser comprometidas.

Las empresas en México y LATAM tienen infraestructura que lleva décadas acumulando deuda técnica. Muchos sistemas bancarios, gubernamentales y de salud corren sobre código que tiene exactamente el tipo de bugs viejos y olvidados que Claude Mythos encontró en OpenBSD. Si una IA puede encontrar un fallo de 27 años en 20 minutos por menos de $50, imagínate qué puede hacer alguien con acceso a capacidades similares y sin escrúpulos.

Justo en el blog hemos cubierto casos que van en esa dirección, como Darksword, el spyware que explotaba vulnerabilidades zero-click en iPhone sin que te dieras cuenta. Lo que Mythos hace es darle ese tipo de capacidad de descubrimiento a un sistema automatizado, escalable y barato. Eso es una chimba para los defensores, sí, pero es un arma de doble filo que ya está existiendo.

El elefante en la sala

Anthropic fue bastante honesto sobre esto: el mismo modelo que sirve para defender, sirve para atacar. Y según reportes de Fortune, la compañía ya advirtió a funcionarios de gobierno que las capacidades de Mythos hacen “significativamente más probable un ciberataque a gran escala este año”. No es FUD. Es una advertencia de la compañía que construyó el modelo.

El mercado lo entendió así también: acciones de CrowdStrike y Palo Alto Networks cayeron entre 5 y 11% cuando salió la noticia. Los inversionistas calcularon que si una IA puede hacer en minutos lo que un equipo de seguridad hace en meses, muchos servicios de ciberseguridad van a tener que reinventarse.

El UK AI Safety Institute también evaluó las capacidades del modelo de forma independiente y confirmó los hallazgos de Anthropic. No es solo marketing de la empresa, hay validación externa.

Sobre si Claude Mythos 5 va a estar disponible en algún momento para acceso general, la postura actual de Anthropic es clara: no en el corto plazo. Anthropic mencionó que para un futuro modelo Opus vendrán “nuevas salvaguardas” que permitirían un despliegue más amplio de este tipo de capacidades, pero por ahora Mythos Preview se queda restringido.

Y la pregunta que queda flotando: cuando llegue ese momento, ¿va a llegar también a la infraestructura crítica de México?

Si te interesa cómo está evolucionando el stack de IA de Anthropic más allá de la seguridad, te recomiendo leer nuestro artículo sobre cómo Claude sacó su propio OpenClaw para ejecutar tareas desde el celular en tu PC, que muestra hacia dónde van sus modelos agénticos. Y si quieres contexto sobre el debate más amplio de si toda esta inversión en IA tiene sentido, la burbuja de IA y lo que Wall Street está pensando sigue siendo lectura obligada.

¿Tu empresa tiene un equipo de seguridad que ya esté usando IA para auditorías? ¿O esto sigue siendo territorio de las grandes? Cuéntanos en los comentarios.

Fuentes

Comentarios

No te pierdas ningún post

Recibe lo nuevo de Al Chile Tech directo en tu correo. Sin spam.

También te puede interesar