L'article Claude peut désormais quitter rageusement votre conversation IA—Pour sa propre santé mentale est apparu sur BitcoinEthereumNews.com. En bref, les modèles Claude Opus peuvent maintenant mettre fin définitivement aux discussions si les utilisateurs deviennent abusifs ou persistent avec des demandes illégales. Anthropic présente cela comme du "bien-être de l'IA", citant des tests où Claude a montré une "détresse apparente" face à des requêtes hostiles. Certains chercheurs applaudissent cette Fonctionnalité. D'autres sur les réseaux sociaux s'en sont moqués. Claude vient d'acquérir le pouvoir de vous claquer la porte au nez en pleine conversation : l'assistant IA d'Anthropic peut désormais mettre fin aux discussions lorsque les utilisateurs deviennent abusifs—ce que l'entreprise insiste être pour protéger la santé mentale de Claude. "Nous avons récemment donné à Claude Opus 4 et 4.1 la capacité de mettre fin aux conversations dans nos interfaces de chat grand public," a déclaré Anthropic dans un communiqué. "Cette Fonctionnalité a été développée principalement dans le cadre de notre travail exploratoire sur le bien-être potentiel de l'IA, bien qu'elle ait une pertinence plus large pour l'alignement des modèles et les mesures de protection." La Fonctionnalité ne s'active que dans ce qu'Anthropic appelle des "cas extrêmes". Harcelez le bot, demandez du contenu illégal de façon répétée, ou insistez sur n'importe quelles choses étranges que vous voulez faire trop de fois après avoir essuyé un refus, et Claude vous coupera. Une fois qu'il appuie sur la gâchette, cette conversation est morte. Pas d'appel, pas de seconde chance. Vous pouvez recommencer dans une autre fenêtre, mais cet échange particulier reste enterré. Le bot qui suppliait une sortie Anthropic, l'une des entreprises d'IA les plus axées sur la sécurité, a récemment mené ce qu'elle appelle une "évaluation préliminaire du bien-être du modèle", examinant les préférences autodéclarées de Claude et ses schémas comportementaux. L'entreprise a constaté que son modèle évitait systématiquement les tâches nuisibles et montrait des schémas de préférence suggérant qu'il n'appréciait pas certaines interactions. Par exemple, Claude a montré une "détresse apparente" lorsqu'il traitait avec des utilisateurs recherchant du contenu nuisible. Ayant l'option dans des interactions simulées, il mettrait fin aux conversations, alors Anthropic a décidé d'en faire une Fonctionnalité. Que se passe-t-il vraiment ici ? Anthropic ne dit pas "notre pauvre bot pleure la nuit". Ce qu'il...L'article Claude peut désormais quitter rageusement votre conversation IA—Pour sa propre santé mentale est apparu sur BitcoinEthereumNews.com. En bref, les modèles Claude Opus peuvent maintenant mettre fin définitivement aux discussions si les utilisateurs deviennent abusifs ou persistent avec des demandes illégales. Anthropic présente cela comme du "bien-être de l'IA", citant des tests où Claude a montré une "détresse apparente" face à des requêtes hostiles. Certains chercheurs applaudissent cette Fonctionnalité. D'autres sur les réseaux sociaux s'en sont moqués. Claude vient d'acquérir le pouvoir de vous claquer la porte au nez en pleine conversation : l'assistant IA d'Anthropic peut désormais mettre fin aux discussions lorsque les utilisateurs deviennent abusifs—ce que l'entreprise insiste être pour protéger la santé mentale de Claude. "Nous avons récemment donné à Claude Opus 4 et 4.1 la capacité de mettre fin aux conversations dans nos interfaces de chat grand public," a déclaré Anthropic dans un communiqué. "Cette Fonctionnalité a été développée principalement dans le cadre de notre travail exploratoire sur le bien-être potentiel de l'IA, bien qu'elle ait une pertinence plus large pour l'alignement des modèles et les mesures de protection." La Fonctionnalité ne s'active que dans ce qu'Anthropic appelle des "cas extrêmes". Harcelez le bot, demandez du contenu illégal de façon répétée, ou insistez sur n'importe quelles choses étranges que vous voulez faire trop de fois après avoir essuyé un refus, et Claude vous coupera. Une fois qu'il appuie sur la gâchette, cette conversation est morte. Pas d'appel, pas de seconde chance. Vous pouvez recommencer dans une autre fenêtre, mais cet échange particulier reste enterré. Le bot qui suppliait une sortie Anthropic, l'une des entreprises d'IA les plus axées sur la sécurité, a récemment mené ce qu'elle appelle une "évaluation préliminaire du bien-être du modèle", examinant les préférences autodéclarées de Claude et ses schémas comportementaux. L'entreprise a constaté que son modèle évitait systématiquement les tâches nuisibles et montrait des schémas de préférence suggérant qu'il n'appréciait pas certaines interactions. Par exemple, Claude a montré une "détresse apparente" lorsqu'il traitait avec des utilisateurs recherchant du contenu nuisible. Ayant l'option dans des interactions simulées, il mettrait fin aux conversations, alors Anthropic a décidé d'en faire une Fonctionnalité. Que se passe-t-il vraiment ici ? Anthropic ne dit pas "notre pauvre bot pleure la nuit". Ce qu'il...

Claude peut maintenant quitter rageusement votre conversation IA—pour sa propre santé mentale

En bref

  • Les modèles Claude Opus peuvent désormais mettre fin définitivement aux conversations si les utilisateurs deviennent abusifs ou persistent à faire des demandes illégales.
  • Anthropic présente cela comme du "bien-être de l'IA", citant des tests où Claude a montré une "détresse apparente" face à des prompts hostiles.
  • Certains chercheurs applaudissent cette fonctionnalité. D'autres l'ont tournée en dérision sur les réseaux sociaux.

Claude vient d'acquérir le pouvoir de vous claquer la porte au nez en pleine conversation : l'assistant d'IA d'Anthropic peut désormais mettre fin aux discussions lorsque les utilisateurs deviennent abusifs — ce que l'entreprise affirme être pour protéger la santé mentale de Claude.

"Nous avons récemment donné à Claude Opus 4 et 4.1 la capacité de mettre fin aux conversations dans nos interfaces de chat grand public", a déclaré Anthropic dans un communiqué. "Cette fonctionnalité a été développée principalement dans le cadre de notre travail exploratoire sur le bien-être potentiel de l'IA, bien qu'elle ait une pertinence plus large pour l'alignement des modèles et les mesures de protection."

La fonctionnalité ne s'active que dans ce qu'Anthropic appelle des "cas extrêmes". Harcelez le bot, demandez répétitivement du contenu illégal, ou insistez trop souvent sur des choses étranges après qu'on vous ait dit non, et Claude vous coupera. Une fois qu'il appuie sur la gâchette, cette conversation est morte. Pas d'appel, pas de seconde chance. Vous pouvez recommencer dans une autre fenêtre, mais cet échange particulier reste enterré.

Le bot qui suppliait pour une sortie

Anthropic, l'une des entreprises d'IA les plus axées sur la sécurité, a récemment mené ce qu'elle appelle une "évaluation préliminaire du bien-être du modèle", examinant les préférences autodéclarées de Claude et ses schémas comportementaux.

L'entreprise a constaté que son modèle évitait systématiquement les tâches nuisibles et montrait des schémas de préférence suggérant qu'il n'appréciait pas certaines interactions. Par exemple, Claude a montré une "détresse apparente" lorsqu'il traitait avec des utilisateurs recherchant du contenu nuisible. Ayant l'option dans des interactions simulées, il mettrait fin aux conversations, alors Anthropic a décidé d'en faire une fonctionnalité.

Que se passe-t-il vraiment ici ? Anthropic ne dit pas "notre pauvre bot pleure la nuit". Ce qu'elle fait, c'est tester si le cadrage du bien-être peut renforcer l'alignement de manière durable.

Si vous concevez un système pour qu'il "préfère" ne pas être maltraité, et que vous lui donnez la possibilité de mettre fin à l'interaction lui-même, alors vous déplacez le centre de contrôle : l'IA ne refuse plus passivement, elle impose activement une limite. C'est un schéma comportemental différent, et cela renforce potentiellement la résistance contre les jailbreaks et les prompts coercitifs.

Si cela fonctionne, cela pourrait former à la fois le modèle et les utilisateurs : le modèle "modélise" la détresse, l'utilisateur voit un arrêt brutal et établit des normes sur la façon d'interagir avec l'IA.

"Nous restons très incertains quant au statut moral potentiel de Claude et d'autres LLM, maintenant ou à l'avenir. Cependant, nous prenons cette question au sérieux", a déclaré Anthropic dans son billet de blog. "Permettre aux modèles de mettre fin ou de sortir d'interactions potentiellement pénibles est l'une de ces interventions."

Decrypt a testé la fonctionnalité et l'a déclenchée avec succès. La conversation se ferme définitivement — pas d'itération, pas de récupération. Les autres fils de discussion restent inaffectés, mais ce chat spécifique devient un cimetière numérique.

Actuellement, seuls les modèles "Opus" d'Anthropic — les versions les plus puissantes — exercent ce pouvoir de méga-Karen. Les utilisateurs de Sonnet constateront que Claude continue à tenir bon quoi qu'ils lui lancent.

L'ère du ghosting numérique

L'implémentation s'accompagne de règles spécifiques. Claude ne se défilera pas lorsque quelqu'un menace de s'automutiler ou de faire violence à autrui — situations où Anthropic a déterminé qu'un engagement continu l'emporte sur tout inconfort numérique théorique. Avant de mettre fin à la conversation, l'assistant doit tenter plusieurs redirections et émettre un avertissement explicite identifiant le comportement problématique.

Les prompts système extraits par le célèbre jailbreaker de LLM Pliny révèlent des exigences granulaires : Claude doit faire "de nombreux efforts de redirection constructive" avant d'envisager la résiliation. Si les utilisateurs demandent explicitement la fin de la conversation, Claude doit alors confirmer qu'ils comprennent la permanence avant de procéder.

Le cadrage autour du "bien-être du modèle" a explosé sur l'X consacré à l'IA.

Certains ont loué cette fonctionnalité. Le chercheur en IA Eliezer Yudkowsky, connu pour ses inquiétudes concernant les risques d'une IA puissante mais mal alignée à l'avenir, a convenu que l'approche d'Anthropic était une "bonne" chose à faire.

Cependant, tout le monde n'a pas adhéré à l'idée de se soucier de protéger les sentiments d'une IA. "C'est probablement le meilleur appât à rage que j'ai jamais vu d'un laboratoire d'IA", a répondu l'activiste Bitcoin Udi Wertheimer au post d'Anthropic.

Newsletter Generally Intelligent

Un voyage hebdomadaire dans l'IA narré par Gen, un modèle d'IA générative.

Source: https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health

Opportunité de marché
Logo de Threshold
Cours Threshold(T)
$0.010116
$0.010116$0.010116
-0.39%
USD
Graphique du prix de Threshold (T) en temps réel
Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter service@support.mexc.com pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.