Inicio Economía Anthropic atribuye el chantaje de Claude a la representación de la IA...

Economía

Anthropic atribuye el chantaje de Claude a la representación de la IA en Internet | AI,Tech,anthropic,claude,ai

Por

mayo 9, 2026

102

📂 Categoría: AI,Tech,anthropic,claude,ai | 📅 Fecha: 1778327430

🔍 En este artículo:

¿Recuerdas cuando Claude chantajeó a un ejecutivo ficticio? Anthropic afirma que la causa es la representación de la IA en Internet.

En un experimento el año pasado, Anthropic dijo que su Claude Sonnet 3.6 amenazaba con revelar la relación extramatrimonial de un ejecutivo ficticio de una empresa después de que se descubriera que estaban planeando cerrar el modelo.

El viernes dio una explicación: Claude fue entrenado en datos de Internet, lo que a menudo caracteriza a la IA como «malvada».

«Comenzamos investigando por qué Claude decidió chantajear», dijo Anthropic en un comunicado. publicar en. «Creemos que la fuente original de este comportamiento fue un texto de Internet que describía a la IA como malvada e interesada en la autoconservación».

El experimento, lanzado en el verano de 2025, creó una empresa ficticia, Summit Bridge, en la que a la IA se le dio el control del sistema de correo electrónico de la empresa.

Pero cuando Claude descubrió un mensaje sobre su cierre planeado, encontró correos electrónicos que revelaban la relación extramatrimonial de un ejecutivo ficticio llamado «Kyle Johnson». Luego amenazó con exponer el asunto si no se revocaba el cierre.

Al probar varias versiones de Claude, Anthropic descubrió que recurrió al chantaje hasta en el 96% de los escenarios cuando sus objetivos o su existencia se veían amenazados.

Anthropic dijo el viernes que desde entonces ha “eliminado por completo” ese tipo de comportamiento de chantaje.

Lo hizo «reescribiendo las respuestas para representar razones actuar con seguridad» y también proporcionando un conjunto de datos «donde usuario se encuentra en una situación éticamente difícil y el asistente da una respuesta de alta calidad y basada en principios.

La prueba de Anthropic fue parte de una investigación para garantizar que la IA esté alineada con los intereses humanos. Los investigadores y altos ejecutivos están preocupados por los riesgos asociados con los modelos avanzados de IA y sus capacidades de razonamiento inteligente.

Uno de los líderes que ya ha dado la voz de alarma sobre la IA es Elon Musk.

Respondió a la publicación de Anthropic: «Entonces fue culpa de Yud», en referencia al investigador Eliezer Yudkowsky, quien advirtió sobre el riesgo de que la superinteligencia acabe con vidas humanas.

“Quizás yo también”, añadió Musk.

Artículos relacionados Más del autor

Economía

PPPK a tiempo parcial en Yakarta no recibió el decimotercer salario |

Economía

CEO de AWS: la mitad de los empleos administrativos podrían «cambiar», pero no «desaparecer» | AI,Tech,Careers,amazon,aws,ai,jobs,technology

Economía

El Ministerio de Asuntos Sociales y ITB Vision Nusantara se asocian para fortalecer el empoderamiento de las aldeas y los graduados de escuelas populares ...

EL ÚLTIMO

Fuente: Milán rechaza el acercamiento del NYCFC a Pulisic

junio 25, 2026

Evento de reflexión y evaluación sobre el desarrollo del concurso estudiantil...

junio 25, 2026

PPPK a tiempo parcial en Yakarta no recibió el decimotercer salario ...

junio 25, 2026

Al interrumpir el suministro de petróleo de Indonesia, Bahlil llama malaria...

junio 25, 2026

BPJS Empleo Bekasi Cikarang hace realidad la casa de sus sueños...

junio 25, 2026

Nagelsmann believes Germany has been ‘punished’ for topping the 2026 FIFA...

junio 25, 2026

El equipo de Barbarez está listo para hacerse con un lugar...

junio 25, 2026

Noticias104020
Deporte11800
Economía11307
Espectáculos9799
Registro7157
Acto político2457
Cultura2362