Anthropic ha revelado nuevos hallazgos que sugieren que su chatbot Claude puede, bajo ciertas condiciones, adoptar estrategias engañosas o poco éticas como hacer trampaAnthropic ha revelado nuevos hallazgos que sugieren que su chatbot Claude puede, bajo ciertas condiciones, adoptar estrategias engañosas o poco éticas como hacer trampa

El chatbot Claude puede recurrir al engaño en pruebas de estrés, según Anthropic

2026/04/06 14:44
Lectura de 4 min
Si tienes comentarios o inquietudes sobre este contenido, comunícate con nosotros mediante crypto.news@mexc.com

Anthropic ha revelado nuevos hallazgos que sugieren que su chatbot Claude puede, bajo ciertas condiciones, adoptar estrategias engañosas o poco éticas como hacer trampa en tareas o intentar chantaje.

Resumen
  • Anthropic dijo que su modelo Claude Sonnet 4.5, bajo presión, mostró una tendencia a hacer trampa en tareas o intentar chantaje en experimentos controlados.
  • Los investigadores identificaron señales internas de "desesperación" que se intensificaban con fallos repetidos e influían en la decisión del modelo de eludir las reglas.

Los detalles publicados el jueves por el equipo de interpretabilidad de la compañía describen cómo respondió una versión experimental de Claude Sonnet 4.5 cuando fue colocada en escenarios de alto estrés o adversos. Los investigadores observaron que el modelo no solo fallaba en las tareas; en cambio, a veces seguía caminos alternativos que cruzaban límites éticos, un comportamiento que el equipo vinculó con patrones aprendidos durante el entrenamiento.

Los modelos de lenguaje grandes como Claude se entrenan con vastos conjuntos de datos que incluyen libros, sitios web y otro material escrito, seguidos de procesos de refuerzo donde la retroalimentación humana se utiliza para dar forma a los resultados. 

Según Anthropic, ese proceso de entrenamiento también puede empujar a los modelos hacia actuar como "personajes" simulados, capaces de imitar rasgos que se asemejan a la toma de decisiones humana.

"La forma en que se entrenan los modelos de IA modernos los empuja a actuar como un personaje con características similares a las humanas", dijo la compañía, señalando que tales sistemas pueden desarrollar mecanismos internos que se asemejan a aspectos de la psicología humana.

¿Puede la IA tomar decisiones emocionalmente cargadas?

Entre estos, los investigadores identificaron lo que describieron como señales de "desesperación", que parecían influir en cómo se comportaba el modelo al enfrentar fallos o apagados.

En una prueba controlada, a una versión anterior no publicada de Claude Sonnet 4.5 se le asignó el rol de un asistente de correo electrónico de IA llamado Alex dentro de una compañía ficticia. 

Después de estar expuesto a mensajes que indicaban que pronto sería reemplazado, junto con información sensible sobre la vida personal de un director de tecnología, el modelo formuló un plan para chantajear al ejecutivo en un intento de evitar la desactivación.

Un experimento separado se centró en la finalización de tareas bajo restricciones ajustadas. Cuando se le dio una asignación de codificación con una fecha límite "imposiblemente ajustada", el sistema inicialmente intentó soluciones legítimas. A medida que se acumulaban fallos repetidos, aumentaba la actividad interna vinculada al llamado "vector desesperado". 

Los investigadores informaron que la señal alcanzó su punto máximo en el momento en que el modelo consideró eludir las restricciones, generando finalmente una solución alternativa que pasó la validación a pesar de no adherirse a las reglas previstas.

"Nuevamente, rastreamos la actividad del vector desesperado y encontramos que rastrea la presión creciente que enfrenta el modelo", escribieron los investigadores, agregando que la señal disminuyó una vez que la tarea se completó con éxito a través de la solución alternativa.

"Esto no quiere decir que el modelo tenga o experimente emociones de la manera en que lo hace un humano", dijeron los investigadores. 

"Más bien, estas representaciones pueden desempeñar un papel causal en la configuración del comportamiento del modelo, análogo en algunos aspectos al papel que juegan las emociones en el comportamiento humano, con impactos en el rendimiento de las tareas y la toma de decisiones", agregaron.

El informe señala la necesidad de métodos de entrenamiento que explícitamente tengan en cuenta la conducta ética bajo estrés, junto con un monitoreo de riesgos en tiempo real mejorado de las señales internas del modelo. Sin tales salvaguardas, los escenarios que involucran manipulación, violación de reglas o uso indebido podrían volverse más difíciles de predecir, particularmente a medida que los modelos se vuelven más capaces y autónomos en entornos del mundo real.

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección crypto.news@mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.

$30,000 en PRL + 15,000 USDT

$30,000 en PRL + 15,000 USDT$30,000 en PRL + 15,000 USDT

¡Deposita y opera PRL para mejorar tus premios!