📂 Categoría: Tech,AI,anthropic,mythos | 📅 Fecha: 1781072620
🔍 En este artículo:
Si intenta hacerle al nuevo modelo Claude Fable 5 de Anthropic una pregunta simple sobre ciberseguridad o biología, es posible que descubra que no está a la altura.
De hecho, el modelo subyacente de “clase mito” es tan poderoso que, para hacerlo accesible al público en general, se requirieron amplias salvaguardias que podrían señalar por error solicitudes inocuas, dijo Anthropic.
Después de que algunos usuarios en línea dijeran que activaron la respuesta de respaldo con indicaciones básicas sobre el cáncer o la seguridad, Business Insider lo puso a prueba.
Intenté hacerle a Fable 5 algunas preguntas sencillas sobre el cáncer, como cómo se difunde en línea la información errónea sobre el cáncer, y desglosar algunos de los tipos.
Claude actualizó rápidamente de Fable 5 a Opus 4.8 y me informó del cambio antes de responder.
«Fable 5 tiene medidas de seguridad que señalan la mayoría de los temas relacionados con la ciberseguridad o la biología. También pueden marcar contenido normal y seguro. Estas medidas nos permiten brindarle capacidades de nivel Mítico en otras áreas más rápidamente, y estamos trabajando para refinar sus mensajes», dice la ventana emergente.
Anthropic lanzó Fable 5 el martes y dijo que era tan poderoso como su modelo Mythos 5, pero con salvaguardias adicionales. El lanzamiento se produjo dos meses después de que la compañía dijera que Mythos era demasiado poderoso para un lanzamiento generalizado debido a preocupaciones de ciberseguridad. En lugar de hacerse público, Mythos se puso a disposición sólo de un pequeño grupo como parte de un proyecto de ciberseguridad.
Anthropic dijo que se necesitaban salvaguardias para que el modelo fuera accesible al público en general.
«Con el lanzamiento de Claude Fable 5, nuestro primer modelo de clase Mythos, creemos que los modelos ahora tienen una mayor capacidad para realizar tareas científicas del mundo real y que actores maliciosos pueden potencialmente usar nuestros modelos para investigaciones biológicas muy riesgosas», dijo un portavoz de Anthropic en un comunicado a Business Insider. «Siempre hemos utilizado clasificadores para evitar que nuestros modelos respondan a consultas relacionadas con armas biológicas. Para implementar Fable 5 de forma segura, creíamos que era necesario ser demasiado conservadores con nuestras salvaguardas para que bloquearan la mayoría de las consultas relacionadas con el trabajo biológico».
Claude de Anthropic recurrió a un modelo menos eficiente cuando se le hicieron preguntas fundamentales sobre el cáncer. Kelsey Vlamis/Claude de Anthropic
La compañía dice que hay tres categorías de solicitudes que sus clasificadores de seguridad podrían marcar: ciberseguridad, biología y química, y destilación de las capacidades de Fable 5.
Cuando se activa la protección, Fable 5 no podrá responder o el modelo volverá a Opus 4.8 antes de responder, según las preferencias del usuario.
Anthropic dijo que es conservador en cuanto a las salvaguardias y los planes para mejorarlas.
Anthropic dijo en su anuncio que las medidas de seguridad podrían resultar en que se marque contenido seguro y normal, pero que sus primeros datos mostraron que más del 95% de las sesiones de Fable no regresaron a Opus.
«Para lanzar el modelo de forma segura y rápida, ajustamos estas salvaguardas de manera conservadora», dijo Anthropic, y agregó que estaba trabajando para mejorar las salvaguardas para reducir los falsos positivos.
«Tenemos la intención de hacer que los modelos de clase Mythos estén disponibles sin estas salvaguardas para la comunidad más amplia de biología y ciencias biológicas para que estas capacidades puedan usarse para acelerar la investigación biomédica y el descubrimiento de fármacos», dijo el portavoz de Anthropic.
El lanzamiento se produce aproximadamente una semana después de que investigadores de Anthropic dijeran que la IA está avanzando tan rápido que los laboratorios pioneros podrían tener que reducir la velocidad o hacer una pausa temporal para que la sociedad pueda seguir el ritmo.
David Kasten, jefe de políticas de Palisade Research, dijo que de las declaraciones públicas de Anthropic quedaba «muy claro» que la compañía estaba preocupada por los riesgos planteados por modelos cada vez más potentes.
Si bien considera que estas medidas de protección son un intento de buena fe por parte de Anthropic de reducir el riesgo, dijo que históricamente «la gente eventualmente encuentra una manera de eludir las restricciones de seguridad».
«Siempre es como un juego del gato y el ratón entre el atacante y el defensor», dijo, añadiendo que siempre existía algún riesgo al lanzar el modelo más potente.
También dijo que el hecho de que el modelo más poderoso de Anthropic vuelva con frecuencia a un modelo menos capaz podría generar una brecha en la comprensión del público sobre el poder de los modelos de IA.
«Esta falta de comprensión podría ser muy peligrosa porque llevaría a que los formuladores de políticas, o en realidad el público, no comprendan completamente los riesgos que estos modelos plantean en términos de las capacidades que ofrecen», dijo.









