In het kort
- Claude Opus-modellen kunnen nu permanent gesprekken beëindigen als gebruikers beledigend worden of blijven aandringen op illegale verzoeken.
- Anthropic presenteert dit als "AI-welzijn" en verwijst naar tests waarbij Claude "zichtbare tekenen van stress" vertoonde bij vijandige prompts.
- Sommige onderzoekers juichen deze functie toe. Anderen op sociale media bespotten het.
Claude heeft zojuist de macht gekregen om midden in een gesprek de deur voor je dicht te slaan: de AI-assistent van Anthropic kan nu gesprekken beëindigen wanneer gebruikers beledigend worden—iets wat het bedrijf beweert te doen om Claude's geestelijke gezondheid te beschermen.
"We hebben Claude Opus 4 en 4.1 onlangs de mogelijkheid gegeven om gesprekken te beëindigen in onze chat-interfaces voor consumenten," zei Anthropic in een bedrijfsbericht. "Deze functie werd voornamelijk ontwikkeld als onderdeel van ons verkennend werk op het gebied van potentieel AI-welzijn, hoewel het bredere relevantie heeft voor modelafstemming en veiligheidsmaatregelen."
De functie treedt alleen in werking tijdens wat Anthropic "extreme randgevallen" noemt. Als je de bot lastigvalt, herhaaldelijk om illegale inhoud vraagt, of blijft aandringen op vreemde dingen nadat je al nee te horen hebt gekregen, zal Claude je afkappen. Zodra het systeem de trekker overhaalt, is dat gesprek voorbij. Geen beroep mogelijk, geen tweede kans. Je kunt opnieuw beginnen in een ander venster, maar die specifieke uitwisseling blijft begraven.
De bot die smeekte om een uitweg
Anthropic, een van de meest op veiligheid gerichte grote AI-bedrijven, heeft onlangs wat het een "voorlopige beoordeling van modelwelzijn" noemde uitgevoerd, waarbij Claude's zelfgerapporteerde voorkeuren en gedragspatronen werden onderzocht.
Het bedrijf ontdekte dat zijn model consequent schadelijke taken vermeed en voorkeurspatronen vertoonde die suggereerden dat het niet genoot van bepaalde interacties. Claude toonde bijvoorbeeld "zichtbare tekenen van stress" bij het omgaan met gebruikers die schadelijke inhoud zochten. Gegeven de optie in gesimuleerde interacties zou het gesprekken beëindigen, dus besloot Anthropic hier een functie van te maken.
Wat gebeurt hier werkelijk? Anthropic zegt niet "onze arme bot huilt 's nachts." Wat het doet is testen of welzijnskaders de afstemming kunnen versterken op een manier die beklijft.
Als je een systeem ontwerpt dat "liever" niet misbruikt wordt, en je geeft het de mogelijkheid om zelf de interactie te beëindigen, dan verschuif je het centrum van controle: de AI weigert niet langer passief, maar handhaaft actief een grens. Dat is een ander gedragspatroon, en het versterkt potentieel de weerstand tegen jailbreaks en dwangmatige prompts.
Als dit werkt, zou het zowel het model als de gebruikers kunnen trainen: het model "modelleert" stress, de gebruiker ziet een harde stop en stelt normen vast voor hoe met AI om te gaan.
"We blijven zeer onzeker over de potentiële morele status van Claude en andere LLM's, nu of in de toekomst. We nemen de kwestie echter serieus," zei Anthropic in zijn blogpost. "Modellen toestaan om potentieel stressvolle interacties te beëindigen of te verlaten is een van zulke interventies."
Decrypt testte de functie en wist deze met succes te activeren. Het gesprek sluit permanent—geen herhaling, geen herstel. Andere threads blijven onaangetast, maar die specifieke chat wordt een digitaal kerkhof.
Momenteel beschikken alleen Anthropic's "Opus"-modellen—de krachtigste versies—over deze mega-Karen-kracht. Sonnet-gebruikers zullen merken dat Claude nog steeds doorzet, wat ze er ook tegenaan gooien.
Het tijdperk van digitaal ghosten
De implementatie komt met specifieke regels. Claude haakt niet af wanneer iemand dreigt zichzelf of anderen te schaden—situaties waarin Anthropic heeft bepaald dat voortgezette betrokkenheid zwaarder weegt dan theoretisch digitaal ongemak. Voordat de assistent een gesprek beëindigt, moet deze meerdere pogingen tot omleiding doen en een expliciete waarschuwing geven waarin het problematische gedrag wordt benoemd.
Systeemprompts die zijn geëxtraheerd door de bekende LLM-jailbreaker Pliny onthullen gedetailleerde vereisten: Claude moet "veel pogingen tot constructieve omleiding" doen voordat beëindiging wordt overwogen. Als gebruikers expliciet verzoeken om gespreksbeëindiging, moet Claude bevestigen dat ze de permanentie ervan begrijpen voordat wordt doorgegaan.
De framing rond "modelwelzijn" ontplofte op AI Twitter.
Sommigen prezen de functie. AI-onderzoeker Eliezer Yudkowsky, bekend om zijn zorgen over de risico's van krachtige maar verkeerd afgestemde AI in de toekomst, was het ermee eens dat Anthropic's aanpak een "goede" zaak was.
Niet iedereen accepteerde echter het uitgangspunt van zorg voor de gevoelens van een AI. "Dit is waarschijnlijk het beste woede-aas dat ik ooit heb gezien van een AI-lab," antwoordde Bitcoin-activist Udi Wertheimer op Anthropic's bericht.
Generally Intelligent Nieuwsbrief
Een wekelijkse AI-reis verteld door Gen, een generatief AI-model.
Bron: https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health








