Anthropic desarrolla una IA con capacidades avanzadas de ciberseguridad y decide no lanzarla al público

La empresa de inteligencia artificial Anthropic anunció la creación de un modelo experimental, Claude Mythos, que demostró habilidades excepcionales para detectar vulnerabilidades informáticas. Debido a los riesgos potenciales, la compañía decidió no liberarlo de forma pública y limitar su uso a un entorno controlado.

La compañía de inteligencia artificial Anthropic informó sobre el desarrollo de un nuevo modelo experimental de IA, denominado Claude Mythos, cuyas capacidades en el ámbito de la ciberseguridad han llevado a la empresa a tomar la decisión de no lanzarlo al público general.

Según los reportes de la empresa, durante pruebas internas, el modelo demostró una habilidad destacada para identificar, explotar y encadenar vulnerabilidades informáticas de alta gravedad, incluso en sistemas ampliamente auditados. Anthropic señaló que Claude Mythos logró detectar fallas críticas que habían pasado inadvertidas durante años, a pesar de haber sido analizadas por expertos y herramientas automatizadas.

La compañía reconoció que, en un escenario de uso inadecuado, un sistema con estas capacidades podría facilitar ciberataques contra infraestructuras críticas, como hospitales o redes eléctricas, con consecuencias potencialmente graves. En este contexto, Anthropic determinó que liberar el modelo sin las salvaguardas adecuadas implicaría un riesgo inaceptable.

De acuerdo con la información proporcionada, Claude Mythos identificó miles de vulnerabilidades, incluidas algunas en sistemas operativos y navegadores web principales. En un caso específico, el modelo descubrió una falla de 27 años en el sistema OpenBSD, conocido por su enfoque en la seguridad.

Frente a este panorama, Anthropic decidió que Claude Mythos no estará disponible para el público. En su lugar, será utilizado de manera restringida por más de 40 empresas dentro del marco del ‘Proyecto Glasswing’, una iniciativa orientada a reforzar defensas. Entre las compañías participantes se mencionan Amazon, Google, Apple, Nvidia, CrowdStrike y JPMorgan Chase. El objetivo es que estas organizaciones utilicen la herramienta para detectar fallos en sus propios sistemas antes de que modelos de capacidades similares puedan estar disponibles de forma más amplia.

Newton Cheng, líder del equipo Frontier Red Team de Anthropic, explicó que no está previsto que la versión preliminar de Claude Mythos esté disponible para el público general debido a sus capacidades en ciberseguridad. La empresa aclaró que busca aprender cómo podría implementar modelos de esta clase a gran escala una vez que existan marcos de seguridad adecuados.

Este anuncio se produce en medio de un debate global creciente sobre los avances en inteligencia artificial y sus posibles implicancias en la seguridad económica, social y nacional.