Claude pode agora abandonar abruptamente a sua conversa com IA—Para a sua própria saúde mental

Em resumo

Os modelos Claude Opus agora podem encerrar permanentemente conversas se os utilizadores se tornarem abusivos ou continuarem a fazer pedidos ilegais.
A Anthropic enquadra isto como "bem-estar da IA", citando testes onde o Claude mostrou "aparente angústia" sob prompts hostis.
Alguns investigadores aplaudem a funcionalidade. Outros nas redes sociais ridicularizaram-na.

Claude acaba de ganhar o poder de bater com a porta na cara a meio da conversa: o Agente de IA da Anthropic pode agora terminar conversas quando os utilizadores se tornam abusivos—algo que a empresa insiste ser para proteger a sanidade do Claude.

"Recentemente demos ao Claude Opus 4 e 4.1 a capacidade de encerrar conversas nas nossas interfaces de chat para consumidores", disse a Anthropic numa publicação da empresa. "Esta funcionalidade foi desenvolvida principalmente como parte do nosso trabalho exploratório sobre potencial bem-estar da IA, embora tenha relevância mais ampla para o alinhamento e salvaguardas do modelo."

A funcionalidade só é ativada durante o que a Anthropic chama de "casos extremos". Assediar o bot, exigir conteúdo ilegal repetidamente, ou insistir em quaisquer coisas estranhas que queira fazer demasiadas vezes depois de receber um não, e o Claude cortará a comunicação. Uma vez que aciona o gatilho, essa conversa está morta. Sem recursos, sem segundas chances. Pode começar de novo noutra janela, mas essa troca específica permanece enterrada.

O bot que implorou por uma saída

A Anthropic, uma das empresas de IA mais focadas em segurança, realizou recentemente o que chamou de "avaliação preliminar de bem-estar do modelo", examinando as preferências auto-relatadas e padrões comportamentais do Claude.

A empresa descobriu que o seu modelo consistentemente evitava tarefas prejudiciais e mostrava padrões de preferência sugerindo que não gostava de certas interações. Por exemplo, o Claude mostrou "angústia aparente" ao lidar com utilizadores que procuravam conteúdo prejudicial. Dada a opção em interações simuladas, ele terminaria conversas, então a Anthropic decidiu transformar isso numa funcionalidade.

O que está realmente a acontecer aqui? A Anthropic não está a dizer "o nosso pobre bot chora à noite". O que está a fazer é testar se o enquadramento de bem-estar pode reforçar o alinhamento de uma forma que perdure.

Se desenhar um sistema para "preferir" não ser abusado, e lhe der a capacidade de terminar a interação por si mesmo, então está a mudar o foco de controlo: a IA já não está apenas a recusar passivamente, está ativamente a impor um limite. Isso é um padrão comportamental diferente, e potencialmente fortalece a resistência contra jailbreaks e prompts coercivos.

Se isto funcionar, poderia treinar tanto o modelo quanto os utilizadores: o modelo "modela" angústia, o utilizador vê uma paragem definitiva e estabelece normas sobre como interagir com a IA.

"Continuamos muito incertos sobre o potencial status moral do Claude e outros LLMs, agora ou no futuro. No entanto, levamos a questão a sério", disse a Anthropic no seu blog. "Permitir que os modelos terminem ou saiam de interações potencialmente angustiantes é uma dessas intervenções."

A Decrypt testou a funcionalidade e conseguiu acioná-la com sucesso. A conversa fecha-se permanentemente—sem iteração, sem recuperação. Outras conversas permanecem inalteradas, mas esse chat específico torna-se um cemitério digital.

Atualmente, apenas os modelos "Opus" da Anthropic—as versões mais poderosas—possuem este poder mega-Karen. Os utilizadores do Sonnet descobrirão que o Claude ainda continua a aguentar o que quer que lhe atirem.

A era do ghosting digital

A implementação vem com regras específicas. O Claude não abandonará quando alguém ameaça autolesão ou violência contra outros—situações onde a Anthropic determinou que o envolvimento contínuo supera qualquer desconforto digital teórico. Antes de terminar, o assistente deve tentar múltiplos redirecionamentos e emitir um aviso explícito identificando o comportamento problemático.

Prompts de sistema extraídos pelo renomado jailbreaker de LLM Pliny revelam requisitos granulares: Claude deve fazer "muitos esforços de redirecionamento construtivo" antes de considerar a terminação. Se os utilizadores solicitarem explicitamente o término da conversa, então o Claude deve confirmar que eles entendem a permanência antes de prosseguir.

O enquadramento em torno do "bem-estar do modelo" detonou pelo Twitter de IA.

Alguns elogiaram a funcionalidade. O investigador de IA Eliezer Yudkowsky, conhecido por suas preocupações sobre os riscos de IA poderosa mas desalinhada no futuro, concordou que a abordagem da Anthropic era uma coisa "boa" a fazer.

No entanto, nem todos compraram a premissa de se preocupar em proteger os sentimentos de uma IA. "Esta é provavelmente a melhor isca de raiva que já vi de um laboratório de IA", respondeu o ativista do Bitcoin Udi Wertheimer à publicação da Anthropic.

Newsletter Generally Intelligent

Uma jornada semanal de IA narrada por Gen, um modelo de IA generativa.

Fonte: https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health

Claude pode agora abandonar abruptamente a sua conversa com IA—Para a sua própria saúde mental

Em resumo

O bot que implorou por uma saída

A era do ghosting digital

Newsletter Generally Intelligent

Você também pode gostar

SPX giằng co vùng cung 0,36 USD, kịch bản kế tiếp là gì?

Bitcoin Vê Alto Interesse Aberto, Baixas Taxas de Financiamento Em Nova Indicação de Short Squeeze

WLFI Cai para Mínima Histórica Após Empréstimo Garantido por Tokens Levantar Preocupações de Risco

Notícias em alta

Một địa chỉ rút 3,6 triệu ETHFI khỏi Binance và bán hết

Porquê uma Previsão de Preço de $10k para o Ethereum Não é Suficiente: A Matemática por Trás do Esgotamento da Fase 11 do AlphaPepe

Pagar ao Irão em Cripto Pode Colocar Transportadoras em Risco de Sanções: Analista

Triển vọng vĩ mô tuần tới: Trung Đông bất định, Mỹ vào mùa báo cáo lợi nhuận

Fundação Ethereum vende 5.000 ETH apesar do seu programa de staking

Notícias ao vivo 24/7

Preços das criptomoedas