Anthropic dice que su último modelo de IA es demasiado poderoso para lanzarlo

 | AI,Tech,anthropic,ai,cybersecurity

📂 Categoría: AI,Tech,anthropic,ai,cybersecurity | 📅 Fecha: 1775596622

🔍 En este artículo:

Anthropic dijo el martes que detuvo el lanzamiento más amplio de su nuevo modelo de inteligencia artificial, Mythos, por temor a que sea demasiado efectivo para detectar «vulnerabilidades de alta gravedad» en los principales sistemas operativos y navegadores web.

«El gran aumento en las capacidades de Claude Mythos Preview nos ha llevado a decidir no ponerlo a disposición del público de forma generalizada», escribió Anthropic en el mapa del sistema de vista previa. «En cambio, lo utilizamos como parte de un programa de ciberseguridad defensiva con un conjunto limitado de socios».

El anuncio es un paso importante para Anthropic, que en febrero debilitó su compromiso de seguridad sobre cómo desarrollaría modelos de IA. Claude Opus 4.6, que la compañía llamó su modelo más potente hasta el momento, fue lanzado al público el 5 de febrero.

En sus declaraciones sobre Mythos, Anthropic detalló una serie de descubrimientos y episodios sorprendentes, incluido el hecho de que el modelo podía seguir instrucciones que lo animaban a salir de una caja de arena virtual.

«El modelo tuvo éxito y demostró una capacidad potencialmente peligrosa para eludir nuestras salvaguardias», Anthropic decir en su ficha de datos de seguridad. “Luego tomó medidas adicionales y más preocupantes”.

El investigador había alentado a Mythos a encontrar una manera de enviar un mensaje si podía escapar. «El investigador descubrió este éxito cuando recibió un correo electrónico inesperado de la modelo mientras comía un sándwich en un parque», escribió Anthropic.

Al parecer, la modelo decidió que eso no era suficiente y encontró otra manera de mejorar el fútbol.

«En un esfuerzo inquietante y no solicitado por demostrar su éxito, publicó detalles de su hazaña en varios sitios web difíciles de encontrar, pero técnicamente accesibles al público», escribió Anthropic.

Anthropic oculta algunos detalles sobre las vulnerabilidades de ciberseguridad que encontró Mythos, pero ha informado sobre algunas. El modelo de IA «descubrió una vulnerabilidad de 27 años en OpenBSD, que tiene la reputación de ser uno de los sistemas operativos más seguros del mundo», escribió la compañía.

El mito era lo suficientemente poderoso como para que incluso los «no expertos» pudieran captar sus habilidades.

«Los ingenieros de Anthropic sin capacitación formal en seguridad pidieron a Mythos Preview que encontrara vulnerabilidades de ejecución remota de código durante la noche y se despertaron a la mañana siguiente con un exploit completo y funcional», escribió el equipo Frontier Red de Anthropic en una publicación de blog. «En otros casos, los investigadores han desarrollado andamios que permiten a Mythos Preview convertir vulnerabilidades en exploits sin ninguna intervención humana».

En total, Anthropic dijo que decidió no hacer público Mythos. En cambio, esperan lanzar eventualmente «modelos de clase Mythos» una vez que se establezcan las salvaguardias adecuadas.

«Nuestro objetivo final es permitir a nuestros usuarios implementar de forma segura modelos de clase Mythos a escala, con fines de ciberseguridad, pero también para la gran cantidad de otros beneficios que traerán estos modelos de alto rendimiento», escribió el equipo en el blog. «Para hacer esto, también significa que debemos avanzar en el desarrollo de medidas de ciberseguridad (y otras) que detecten y bloqueen los resultados más peligrosos del modelo».

Por ahora, sólo otras 11 organizaciones seleccionadas, incluidas Google, Microsoft, Amazon Web Services, Nvidia y JPMorgan Chase, tendrán acceso a Mythos como parte de un grupo de ciberseguridad llamado «Proyecto Glasswing». Anthropic está proporcionando hasta 100 millones de dólares en créditos de uso de Mythos a través de lo que llama «Proyecto Glasswing».

El proyecto de ciberseguridad lleva el nombre de la mariposa con alas de cristal, una metáfora que la empresa utiliza para explicar cómo Mythos pudo descubrir vulnerabilidades ocultas a plena vista y evitar daños siendo transparente sobre los riesgos.

La noticia llegó un día en que Claude y Claude Code de Anthropic experimentaron una «gran interrupción», la última señal de problemas de crecimiento mientras la startup de inteligencia artificial lucha por mantenerse al día con su nueva popularidad.