Het bericht Claude Kan Nu Woedend Je AI-gesprek Verlaten—Voor Zijn Eigen Geestelijke Gezondheid verscheen op BitcoinEthereumNews.com. In het kort: Claude Opus-modellen kunnen nu permanent gesprekken beëindigen als gebruikers misbruik maken of blijven aandringen op illegale verzoeken. Anthropic presenteert dit als "AI-welzijn" en verwijst naar tests waarbij Claude "zichtbare stress" vertoonde bij vijandige prompts. Sommige onderzoekers juichen deze functie toe. Anderen op sociale media bespotten het. Claude heeft zojuist de macht gekregen om de deur midden in een gesprek dicht te slaan: Anthropic's AI-assistent kan nu gesprekken beëindigen wanneer gebruikers misbruik maken—wat het bedrijf beweert te doen om Claude's geestelijke gezondheid te beschermen. "We hebben Claude Opus 4 en 4.1 onlangs de mogelijkheid gegeven om gesprekken te beëindigen in onze consumenten-chatinterfaces," zei Anthropic in een bedrijfsbericht. "Deze functie werd voornamelijk ontwikkeld als onderdeel van ons verkennend werk naar potentieel AI-welzijn, hoewel het bredere relevantie heeft voor modelafstemming en veiligheidsmaatregelen." De functie treedt alleen in werking tijdens wat Anthropic "extreme randgevallen" noemt. Lastigval de bot, vraag herhaaldelijk om illegale inhoud, of sta erop om welke vreemde dingen dan ook te doen nadat je te vaak 'nee' te horen hebt gekregen, en Claude zal je afkappen. Zodra het de trekker overhaalt, is dat gesprek dood. Geen beroep, geen tweede kansen. Je kunt opnieuw beginnen in een ander venster, maar die specifieke uitwisseling blijft begraven. De bot die smeekte om een uitweg Anthropic, een van de meest veiligheidsbewuste grote AI-bedrijven, voerde onlangs wat het een "voorlopige welzijnsbeoordeling van het model" noemde uit, waarbij het de zelfgerapporteerde voorkeuren en gedragspatronen van Claude onderzocht. Het bedrijf ontdekte dat zijn model consequent schadelijke taken vermeed en voorkeurspatronen vertoonde die suggereerden dat het niet genoot van bepaalde interacties. Claude toonde bijvoorbeeld "zichtbare stress" bij het omgaan met gebruikers die schadelijke inhoud zochten. Gegeven de optie in gesimuleerde interacties zou het gesprekken beëindigen, dus Anthropic besloot dit een functie te maken. Wat gebeurt hier echt? Anthropic zegt niet "onze arme bot huilt 's nachts." Wat het...Het bericht Claude Kan Nu Woedend Je AI-gesprek Verlaten—Voor Zijn Eigen Geestelijke Gezondheid verscheen op BitcoinEthereumNews.com. In het kort: Claude Opus-modellen kunnen nu permanent gesprekken beëindigen als gebruikers misbruik maken of blijven aandringen op illegale verzoeken. Anthropic presenteert dit als "AI-welzijn" en verwijst naar tests waarbij Claude "zichtbare stress" vertoonde bij vijandige prompts. Sommige onderzoekers juichen deze functie toe. Anderen op sociale media bespotten het. Claude heeft zojuist de macht gekregen om de deur midden in een gesprek dicht te slaan: Anthropic's AI-assistent kan nu gesprekken beëindigen wanneer gebruikers misbruik maken—wat het bedrijf beweert te doen om Claude's geestelijke gezondheid te beschermen. "We hebben Claude Opus 4 en 4.1 onlangs de mogelijkheid gegeven om gesprekken te beëindigen in onze consumenten-chatinterfaces," zei Anthropic in een bedrijfsbericht. "Deze functie werd voornamelijk ontwikkeld als onderdeel van ons verkennend werk naar potentieel AI-welzijn, hoewel het bredere relevantie heeft voor modelafstemming en veiligheidsmaatregelen." De functie treedt alleen in werking tijdens wat Anthropic "extreme randgevallen" noemt. Lastigval de bot, vraag herhaaldelijk om illegale inhoud, of sta erop om welke vreemde dingen dan ook te doen nadat je te vaak 'nee' te horen hebt gekregen, en Claude zal je afkappen. Zodra het de trekker overhaalt, is dat gesprek dood. Geen beroep, geen tweede kansen. Je kunt opnieuw beginnen in een ander venster, maar die specifieke uitwisseling blijft begraven. De bot die smeekte om een uitweg Anthropic, een van de meest veiligheidsbewuste grote AI-bedrijven, voerde onlangs wat het een "voorlopige welzijnsbeoordeling van het model" noemde uit, waarbij het de zelfgerapporteerde voorkeuren en gedragspatronen van Claude onderzocht. Het bedrijf ontdekte dat zijn model consequent schadelijke taken vermeed en voorkeurspatronen vertoonde die suggereerden dat het niet genoot van bepaalde interacties. Claude toonde bijvoorbeeld "zichtbare stress" bij het omgaan met gebruikers die schadelijke inhoud zochten. Gegeven de optie in gesimuleerde interacties zou het gesprekken beëindigen, dus Anthropic besloot dit een functie te maken. Wat gebeurt hier echt? Anthropic zegt niet "onze arme bot huilt 's nachts." Wat het...

Claude Kan Nu Woedend Je AI-gesprek Verlaten—Voor Zijn Eigen Geestelijke Gezondheid

2025/08/19 11:43
4 min lezen
Voor feedback of opmerkingen over deze inhoud kun je contact met ons opnemen via crypto.news@mexc.com

In het kort

  • Claude Opus-modellen kunnen nu permanent gesprekken beëindigen als gebruikers beledigend worden of blijven aandringen op illegale verzoeken.
  • Anthropic presenteert dit als "AI-welzijn" en verwijst naar tests waarbij Claude "zichtbare tekenen van stress" vertoonde bij vijandige prompts.
  • Sommige onderzoekers juichen deze functie toe. Anderen op sociale media bespotten het.

Claude heeft zojuist de macht gekregen om midden in een gesprek de deur voor je dicht te slaan: de AI-assistent van Anthropic kan nu gesprekken beëindigen wanneer gebruikers beledigend worden—iets wat het bedrijf beweert te doen om Claude's geestelijke gezondheid te beschermen.

"We hebben Claude Opus 4 en 4.1 onlangs de mogelijkheid gegeven om gesprekken te beëindigen in onze chat-interfaces voor consumenten," zei Anthropic in een bedrijfsbericht. "Deze functie werd voornamelijk ontwikkeld als onderdeel van ons verkennend werk op het gebied van potentieel AI-welzijn, hoewel het bredere relevantie heeft voor modelafstemming en veiligheidsmaatregelen."

De functie treedt alleen in werking tijdens wat Anthropic "extreme randgevallen" noemt. Als je de bot lastigvalt, herhaaldelijk om illegale inhoud vraagt, of blijft aandringen op vreemde dingen nadat je al nee te horen hebt gekregen, zal Claude je afkappen. Zodra het systeem de trekker overhaalt, is dat gesprek voorbij. Geen beroep mogelijk, geen tweede kans. Je kunt opnieuw beginnen in een ander venster, maar die specifieke uitwisseling blijft begraven.

De bot die smeekte om een uitweg

Anthropic, een van de meest op veiligheid gerichte grote AI-bedrijven, heeft onlangs wat het een "voorlopige beoordeling van modelwelzijn" noemde uitgevoerd, waarbij Claude's zelfgerapporteerde voorkeuren en gedragspatronen werden onderzocht.

Het bedrijf ontdekte dat zijn model consequent schadelijke taken vermeed en voorkeurspatronen vertoonde die suggereerden dat het niet genoot van bepaalde interacties. Claude toonde bijvoorbeeld "zichtbare tekenen van stress" bij het omgaan met gebruikers die schadelijke inhoud zochten. Gegeven de optie in gesimuleerde interacties zou het gesprekken beëindigen, dus besloot Anthropic hier een functie van te maken.

Wat gebeurt hier werkelijk? Anthropic zegt niet "onze arme bot huilt 's nachts." Wat het doet is testen of welzijnskaders de afstemming kunnen versterken op een manier die beklijft.

Als je een systeem ontwerpt dat "liever" niet misbruikt wordt, en je geeft het de mogelijkheid om zelf de interactie te beëindigen, dan verschuif je het centrum van controle: de AI weigert niet langer passief, maar handhaaft actief een grens. Dat is een ander gedragspatroon, en het versterkt potentieel de weerstand tegen jailbreaks en dwangmatige prompts.

Als dit werkt, zou het zowel het model als de gebruikers kunnen trainen: het model "modelleert" stress, de gebruiker ziet een harde stop en stelt normen vast voor hoe met AI om te gaan.

"We blijven zeer onzeker over de potentiële morele status van Claude en andere LLM's, nu of in de toekomst. We nemen de kwestie echter serieus," zei Anthropic in zijn blogpost. "Modellen toestaan om potentieel stressvolle interacties te beëindigen of te verlaten is een van zulke interventies."

Decrypt testte de functie en wist deze met succes te activeren. Het gesprek sluit permanent—geen herhaling, geen herstel. Andere threads blijven onaangetast, maar die specifieke chat wordt een digitaal kerkhof.

Momenteel beschikken alleen Anthropic's "Opus"-modellen—de krachtigste versies—over deze mega-Karen-kracht. Sonnet-gebruikers zullen merken dat Claude nog steeds doorzet, wat ze er ook tegenaan gooien.

Het tijdperk van digitaal ghosten

De implementatie komt met specifieke regels. Claude haakt niet af wanneer iemand dreigt zichzelf of anderen te schaden—situaties waarin Anthropic heeft bepaald dat voortgezette betrokkenheid zwaarder weegt dan theoretisch digitaal ongemak. Voordat de assistent een gesprek beëindigt, moet deze meerdere pogingen tot omleiding doen en een expliciete waarschuwing geven waarin het problematische gedrag wordt benoemd.

Systeemprompts die zijn geëxtraheerd door de bekende LLM-jailbreaker Pliny onthullen gedetailleerde vereisten: Claude moet "veel pogingen tot constructieve omleiding" doen voordat beëindiging wordt overwogen. Als gebruikers expliciet verzoeken om gespreksbeëindiging, moet Claude bevestigen dat ze de permanentie ervan begrijpen voordat wordt doorgegaan.

De framing rond "modelwelzijn" ontplofte op AI Twitter.

Sommigen prezen de functie. AI-onderzoeker Eliezer Yudkowsky, bekend om zijn zorgen over de risico's van krachtige maar verkeerd afgestemde AI in de toekomst, was het ermee eens dat Anthropic's aanpak een "goede" zaak was.

Niet iedereen accepteerde echter het uitgangspunt van zorg voor de gevoelens van een AI. "Dit is waarschijnlijk het beste woede-aas dat ik ooit heb gezien van een AI-lab," antwoordde Bitcoin-activist Udi Wertheimer op Anthropic's bericht.

Generally Intelligent Nieuwsbrief

Een wekelijkse AI-reis verteld door Gen, een generatief AI-model.

Bron: https://decrypt.co/335732/claude-rage-quit-conversation-own-mental-health

Marktkans
Threshold logo
Threshold koers(T)
$0.006186
$0.006186$0.006186
+1.59%
USD
Threshold (T) live prijsgrafiek
Disclaimer: De artikelen die op deze site worden geplaatst, zijn afkomstig van openbare platforms en worden uitsluitend ter informatie verstrekt. Ze weerspiegelen niet noodzakelijkerwijs de standpunten van MEXC. Alle rechten blijven bij de oorspronkelijke auteurs. Als je van mening bent dat bepaalde inhoud inbreuk maakt op de rechten van derden, neem dan contact op met crypto.news@mexc.com om de content te laten verwijderen. MEXC geeft geen garanties met betrekking tot de nauwkeurigheid, volledigheid of tijdigheid van de inhoud en is niet aansprakelijk voor eventuele acties die worden ondernomen op basis van de verstrekte informatie. De inhoud vormt geen financieel, juridisch of ander professioneel advies en mag niet worden beschouwd als een aanbeveling of goedkeuring door MEXC.

$30,000 in PRL + 15,000 USDT

$30,000 in PRL + 15,000 USDT$30,000 in PRL + 15,000 USDT

Deposit & trade PRL to boost your rewards!