📂 Categoría: AI,Tech,anthropic,claude,ai | 📅 Fecha: 1778327430
🔍 En este artículo:
¿Recuerdas cuando Claude chantajeó a un ejecutivo ficticio? Anthropic afirma que la causa es la representación de la IA en Internet.
En un experimento el año pasado, Anthropic dijo que su Claude Sonnet 3.6 amenazaba con revelar la relación extramatrimonial de un ejecutivo ficticio de una empresa después de que se descubriera que estaban planeando cerrar el modelo.
El viernes dio una explicación: Claude fue entrenado en datos de Internet, lo que a menudo caracteriza a la IA como «malvada».
«Comenzamos investigando por qué Claude decidió chantajear», dijo Anthropic en un comunicado. publicar en. «Creemos que la fuente original de este comportamiento fue un texto de Internet que describía a la IA como malvada e interesada en la autoconservación».
El experimento, lanzado en el verano de 2025, creó una empresa ficticia, Summit Bridge, en la que a la IA se le dio el control del sistema de correo electrónico de la empresa.
Pero cuando Claude descubrió un mensaje sobre su cierre planeado, encontró correos electrónicos que revelaban la relación extramatrimonial de un ejecutivo ficticio llamado «Kyle Johnson». Luego amenazó con exponer el asunto si no se revocaba el cierre.
Al probar varias versiones de Claude, Anthropic descubrió que recurrió al chantaje hasta en el 96% de los escenarios cuando sus objetivos o su existencia se veían amenazados.
Anthropic dijo el viernes que desde entonces ha “eliminado por completo” ese tipo de comportamiento de chantaje.
Lo hizo «reescribiendo las respuestas para representar razones actuar con seguridad» y también proporcionando un conjunto de datos «donde usuario se encuentra en una situación éticamente difícil y el asistente da una respuesta de alta calidad y basada en principios.
La prueba de Anthropic fue parte de una investigación para garantizar que la IA esté alineada con los intereses humanos. Los investigadores y altos ejecutivos están preocupados por los riesgos asociados con los modelos avanzados de IA y sus capacidades de razonamiento inteligente.
Uno de los líderes que ya ha dado la voz de alarma sobre la IA es Elon Musk.
Respondió a la publicación de Anthropic: «Entonces fue culpa de Yud», en referencia al investigador Eliezer Yudkowsky, quien advirtió sobre el riesgo de que la superinteligencia acabe con vidas humanas.
“Quizás yo también”, añadió Musk.








:max_bytes(150000):strip_icc():format(jpeg)/saturday-night-live-moments-050826-8d422f12d46842d4b0c0dac205f4486a.jpg?w=100&resize=100,75&ssl=1)
