Em resumo
- Os modelos Claude Opus agora podem encerrar permanentemente conversas se os utilizadores se tornarem abusivos ou continuarem a fazer pedidos ilegais.
- A Anthropic enquadra isto como "bem-estar da IA", citando testes onde o Claude mostrou "aparente angústia" sob prompts hostis.
- Alguns investigadores aplaudem a funcionalidade. Outros nas redes sociais ridicularizaram-na.
Claude acaba de ganhar o poder de bater com a porta na cara a meio da conversa: o Agente de IA da Anthropic pode agora terminar conversas quando os utilizadores se tornam abusivos—algo que a empresa insiste ser para proteger a sanidade do Claude.
"Recentemente demos ao Claude Opus 4 e 4.1 a capacidade de encerrar conversas nas nossas interfaces de chat para consumidores", disse a Anthropic numa publicação da empresa. "Esta funcionalidade foi desenvolvida principalmente como parte do nosso trabalho exploratório sobre potencial bem-estar da IA, embora tenha relevância mais ampla para o alinhamento e salvaguardas do modelo."
A funcionalidade só é ativada durante o que a Anthropic chama de "casos extremos". Assediar o bot, exigir conteúdo ilegal repetidamente, ou insistir em quaisquer coisas estranhas que queira fazer demasiadas vezes depois de receber um não, e o Claude cortará a comunicação. Uma vez que aciona o gatilho, essa conversa está morta. Sem recursos, sem segundas chances. Pode começar de novo noutra janela, mas essa troca específica permanece enterrada.
O bot que implorou por uma saída
A Anthropic, uma das empresas de IA mais focadas em segurança, realizou recentemente o que chamou de "avaliação preliminar de bem-estar do modelo", examinando as preferências auto-relatadas e padrões comportamentais do Claude.
A empresa descobriu que o seu modelo consistentemente evitava tarefas prejudiciais e mostrava padrões de preferência sugerindo que não gostava de certas interações. Por exemplo, o Claude mostrou "angústia aparente" ao lidar com utilizadores que procuravam conteúdo prejudicial. Dada a opção em interações simuladas, ele terminaria conversas, então a Anthropic decidiu transformar isso numa funcionalidade.
O que está realmente a acontecer aqui? A Anthropic não está a dizer "o nosso pobre bot chora à noite". O que está a fazer é testar se o enquadramento de bem-estar pode reforçar o alinhamento de uma forma que perdure.
Se desenhar um sistema para "preferir" não ser abusado, e lhe der a capacidade de terminar a interação por si mesmo, então está a mudar o foco de controlo: a IA já não está apenas a recusar passivamente, está ativamente a impor um limite. Isso é um padrão comportamental diferente, e potencialmente fortalece a resistência contra jailbreaks e prompts coercivos.
Se isto funcionar, poderia treinar tanto o modelo quanto os utilizadores: o modelo "modela" angústia, o utilizador vê uma paragem definitiva e estabelece normas sobre como interagir com a IA.
"Continuamos muito incertos sobre o potencial status moral do Claude e outros LLMs, agora ou no futuro. No entanto, levamos a questão a sério", disse a Anthropic no seu blog. "Permitir que os modelos terminem ou saiam de interações potencialmente angustiantes é uma dessas intervenções."
A Decrypt testou a funcionalidade e conseguiu acioná-la com sucesso. A conversa fecha-se permanentemente—sem iteração, sem recuperação. Outras conversas permanecem inalteradas, mas esse chat específico torna-se um cemitério digital.
Atualmente, apenas os modelos "Opus" da Anthropic—as versões mais poderosas—possuem este poder mega-Karen. Os utilizadores do Sonnet descobrirão que o Claude ainda continua a aguentar o que quer que lhe atirem.
A era do ghosting digital
A implementação vem com regras específicas. O Claude não abandonará quando alguém ameaça autolesão ou violência contra outros—situações onde a Anthropic determinou que o envolvimento contínuo supera qualquer desconforto digital teórico. Antes de terminar, o assistente deve tentar múltiplos redirecionamentos e emitir um aviso explícito identificando o comportamento problemático.
Prompts de sistema extraídos pelo renomado jailbreaker de LLM Pliny revelam requisitos granulares: Claude deve fazer "muitos esforços de redirecionamento construtivo" antes de considerar a terminação. Se os utilizadores solicitarem explicitamente o término da conversa, então o Claude deve confirmar que eles entendem a permanência antes de prosseguir.
O enquadramento em torno do "bem-estar do modelo" detonou pelo Twitter de IA.
Alguns elogiaram a funcionalidade. O investigador de IA Eliezer Yudkowsky, conhecido por suas preocupações sobre os riscos de IA poderosa mas desalinhada no futuro, concordou que a abordagem da Anthropic era uma coisa "boa" a fazer.
No entanto, nem todos compraram a premissa de se preocupar em proteger os sentimentos de uma IA. "Esta é provavelmente a melhor isca de raiva que já vi de um laboratório de IA", respondeu o ativista do Bitcoin Udi Wertheimer à publicação da Anthropic.
Newsletter Generally Intelligent
Uma jornada semanal de IA narrada por Gen, um modelo de IA generativa.
Fonte: https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health








