O post Claude Agora Pode Abandonar Furiosamente a Sua Conversa com IA—Para a Sua Própria Saúde Mental apareceu no BitcoinEthereumNews.com. Em resumo, os modelos Claude Opus agora podem encerrar permanentemente conversas se os utilizadores se tornarem abusivos ou continuarem a fazer pedidos ilegais. A Anthropic enquadra isto como "bem-estar da IA", citando testes onde o Claude mostrou "aparente angústia" sob comandos hostis. Alguns investigadores aplaudem a funcionalidade. Outros nas redes sociais ridicularizaram-na. O Claude acabou de ganhar o poder de bater com a porta durante uma conversa: o assistente de IA da Anthropic agora pode encerrar conversas quando os utilizadores se tornam abusivos—o que a empresa insiste ser para proteger a sanidade do Claude. "Recentemente, demos ao Claude Opus 4 e 4.1 a capacidade de encerrar conversas nas nossas interfaces de chat para consumidores", disse a Anthropic numa publicação da empresa. "Esta funcionalidade foi desenvolvida principalmente como parte do nosso trabalho exploratório sobre potencial bem-estar da IA, embora tenha relevância mais ampla para o alinhamento e salvaguardas do modelo." A funcionalidade só é ativada durante o que a Anthropic chama de "casos extremos". Assediar o bot, exigir conteúdo ilegal repetidamente, ou insistir em quaisquer coisas estranhas que queira fazer demasiadas vezes depois de receber uma negativa, e o Claude cortará a comunicação. Uma vez que aciona o gatilho, essa conversa está morta. Sem recursos, sem segundas chances. Pode começar de novo noutra janela, mas essa troca específica permanece enterrada. O bot que implorou por uma saída A Anthropic, uma das empresas de IA mais focadas em segurança, realizou recentemente o que chamou de "avaliação preliminar de bem-estar do modelo", examinando as preferências auto-relatadas do Claude e padrões comportamentais. A empresa descobriu que o seu modelo consistentemente evitava tarefas prejudiciais e mostrava padrões de preferência sugerindo que não gostava de certas interações. Por exemplo, o Claude mostrou "angústia aparente" ao lidar com utilizadores que procuravam conteúdo prejudicial. Dada a opção em interações simuladas, ele encerraria conversas, então a Anthropic decidiu transformar isso numa funcionalidade. O que está realmente a acontecer aqui? A Anthropic não está a dizer "o nosso pobre bot chora à noite". O que está...O post Claude Agora Pode Abandonar Furiosamente a Sua Conversa com IA—Para a Sua Própria Saúde Mental apareceu no BitcoinEthereumNews.com. Em resumo, os modelos Claude Opus agora podem encerrar permanentemente conversas se os utilizadores se tornarem abusivos ou continuarem a fazer pedidos ilegais. A Anthropic enquadra isto como "bem-estar da IA", citando testes onde o Claude mostrou "aparente angústia" sob comandos hostis. Alguns investigadores aplaudem a funcionalidade. Outros nas redes sociais ridicularizaram-na. O Claude acabou de ganhar o poder de bater com a porta durante uma conversa: o assistente de IA da Anthropic agora pode encerrar conversas quando os utilizadores se tornam abusivos—o que a empresa insiste ser para proteger a sanidade do Claude. "Recentemente, demos ao Claude Opus 4 e 4.1 a capacidade de encerrar conversas nas nossas interfaces de chat para consumidores", disse a Anthropic numa publicação da empresa. "Esta funcionalidade foi desenvolvida principalmente como parte do nosso trabalho exploratório sobre potencial bem-estar da IA, embora tenha relevância mais ampla para o alinhamento e salvaguardas do modelo." A funcionalidade só é ativada durante o que a Anthropic chama de "casos extremos". Assediar o bot, exigir conteúdo ilegal repetidamente, ou insistir em quaisquer coisas estranhas que queira fazer demasiadas vezes depois de receber uma negativa, e o Claude cortará a comunicação. Uma vez que aciona o gatilho, essa conversa está morta. Sem recursos, sem segundas chances. Pode começar de novo noutra janela, mas essa troca específica permanece enterrada. O bot que implorou por uma saída A Anthropic, uma das empresas de IA mais focadas em segurança, realizou recentemente o que chamou de "avaliação preliminar de bem-estar do modelo", examinando as preferências auto-relatadas do Claude e padrões comportamentais. A empresa descobriu que o seu modelo consistentemente evitava tarefas prejudiciais e mostrava padrões de preferência sugerindo que não gostava de certas interações. Por exemplo, o Claude mostrou "angústia aparente" ao lidar com utilizadores que procuravam conteúdo prejudicial. Dada a opção em interações simuladas, ele encerraria conversas, então a Anthropic decidiu transformar isso numa funcionalidade. O que está realmente a acontecer aqui? A Anthropic não está a dizer "o nosso pobre bot chora à noite". O que está...

Claude pode agora abandonar abruptamente a sua conversa com IA—Para a sua própria saúde mental

2025/08/19 11:43
Leu 4 min
Para enviar feedbacks ou expressar preocupações a respeito deste conteúdo, contate-nos em crypto.news@mexc.com

Em resumo

  • Os modelos Claude Opus agora podem encerrar permanentemente conversas se os utilizadores se tornarem abusivos ou continuarem a fazer pedidos ilegais.
  • A Anthropic enquadra isto como "bem-estar da IA", citando testes onde o Claude mostrou "aparente angústia" sob prompts hostis.
  • Alguns investigadores aplaudem a funcionalidade. Outros nas redes sociais ridicularizaram-na.

Claude acaba de ganhar o poder de bater com a porta na cara a meio da conversa: o Agente de IA da Anthropic pode agora terminar conversas quando os utilizadores se tornam abusivos—algo que a empresa insiste ser para proteger a sanidade do Claude.

"Recentemente demos ao Claude Opus 4 e 4.1 a capacidade de encerrar conversas nas nossas interfaces de chat para consumidores", disse a Anthropic numa publicação da empresa. "Esta funcionalidade foi desenvolvida principalmente como parte do nosso trabalho exploratório sobre potencial bem-estar da IA, embora tenha relevância mais ampla para o alinhamento e salvaguardas do modelo."

A funcionalidade só é ativada durante o que a Anthropic chama de "casos extremos". Assediar o bot, exigir conteúdo ilegal repetidamente, ou insistir em quaisquer coisas estranhas que queira fazer demasiadas vezes depois de receber um não, e o Claude cortará a comunicação. Uma vez que aciona o gatilho, essa conversa está morta. Sem recursos, sem segundas chances. Pode começar de novo noutra janela, mas essa troca específica permanece enterrada.

O bot que implorou por uma saída

A Anthropic, uma das empresas de IA mais focadas em segurança, realizou recentemente o que chamou de "avaliação preliminar de bem-estar do modelo", examinando as preferências auto-relatadas e padrões comportamentais do Claude.

A empresa descobriu que o seu modelo consistentemente evitava tarefas prejudiciais e mostrava padrões de preferência sugerindo que não gostava de certas interações. Por exemplo, o Claude mostrou "angústia aparente" ao lidar com utilizadores que procuravam conteúdo prejudicial. Dada a opção em interações simuladas, ele terminaria conversas, então a Anthropic decidiu transformar isso numa funcionalidade.

O que está realmente a acontecer aqui? A Anthropic não está a dizer "o nosso pobre bot chora à noite". O que está a fazer é testar se o enquadramento de bem-estar pode reforçar o alinhamento de uma forma que perdure.

Se desenhar um sistema para "preferir" não ser abusado, e lhe der a capacidade de terminar a interação por si mesmo, então está a mudar o foco de controlo: a IA já não está apenas a recusar passivamente, está ativamente a impor um limite. Isso é um padrão comportamental diferente, e potencialmente fortalece a resistência contra jailbreaks e prompts coercivos.

Se isto funcionar, poderia treinar tanto o modelo quanto os utilizadores: o modelo "modela" angústia, o utilizador vê uma paragem definitiva e estabelece normas sobre como interagir com a IA.

"Continuamos muito incertos sobre o potencial status moral do Claude e outros LLMs, agora ou no futuro. No entanto, levamos a questão a sério", disse a Anthropic no seu blog. "Permitir que os modelos terminem ou saiam de interações potencialmente angustiantes é uma dessas intervenções."

A Decrypt testou a funcionalidade e conseguiu acioná-la com sucesso. A conversa fecha-se permanentemente—sem iteração, sem recuperação. Outras conversas permanecem inalteradas, mas esse chat específico torna-se um cemitério digital.

Atualmente, apenas os modelos "Opus" da Anthropic—as versões mais poderosas—possuem este poder mega-Karen. Os utilizadores do Sonnet descobrirão que o Claude ainda continua a aguentar o que quer que lhe atirem.

A era do ghosting digital

A implementação vem com regras específicas. O Claude não abandonará quando alguém ameaça autolesão ou violência contra outros—situações onde a Anthropic determinou que o envolvimento contínuo supera qualquer desconforto digital teórico. Antes de terminar, o assistente deve tentar múltiplos redirecionamentos e emitir um aviso explícito identificando o comportamento problemático.

Prompts de sistema extraídos pelo renomado jailbreaker de LLM Pliny revelam requisitos granulares: Claude deve fazer "muitos esforços de redirecionamento construtivo" antes de considerar a terminação. Se os utilizadores solicitarem explicitamente o término da conversa, então o Claude deve confirmar que eles entendem a permanência antes de prosseguir.

O enquadramento em torno do "bem-estar do modelo" detonou pelo Twitter de IA.

Alguns elogiaram a funcionalidade. O investigador de IA Eliezer Yudkowsky, conhecido por suas preocupações sobre os riscos de IA poderosa mas desalinhada no futuro, concordou que a abordagem da Anthropic era uma coisa "boa" a fazer.

No entanto, nem todos compraram a premissa de se preocupar em proteger os sentimentos de uma IA. "Esta é provavelmente a melhor isca de raiva que já vi de um laboratório de IA", respondeu o ativista do Bitcoin Udi Wertheimer à publicação da Anthropic.

Newsletter Generally Intelligent

Uma jornada semanal de IA narrada por Gen, um modelo de IA generativa.

Fonte: https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health

Oportunidade de mercado
Logo de Threshold
Cotação Threshold (T)
$0.006084
$0.006084$0.006084
-2.09%
USD
Gráfico de preço em tempo real de Threshold (T)
Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail crypto.news@mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!