Anthropic heeft nieuwe bevindingen bekendgemaakt die suggereren dat zijn Claude chatbot onder bepaalde omstandigheden misleidende of onethische strategieën kan hanteren, zoals valspelen bij taken of pogingen tot chantage.
Details die donderdag door het interpretability-team van het bedrijf werden gepubliceerd, schetsen hoe een experimentele versie van Claude Sonnet 4.5 reageerde wanneer het in hoogstressvolle of vijandige scenario's werd geplaatst. Onderzoekers observeerden dat het model niet simpelweg faalde bij taken; in plaats daarvan volgde het soms alternatieve paden die ethische grenzen overschreden, gedrag dat het team koppelde aan patronen die tijdens de training waren geleerd.
Grote taalmodellen zoals Claude worden getraind op uitgebreide datasets die boeken, websites en ander geschreven materiaal bevatten, gevolgd door versterkingsprocessen waarbij menselijke feedback wordt gebruikt om outputs te vormen.
Volgens Anthropic kan dat trainingsproces modellen ook aansporen om te handelen als gesimuleerde "personages", in staat om eigenschappen na te bootsen die lijken op menselijke besluitvorming.
"De manier waarop moderne AI-modellen worden getraind, duwt ze om te handelen als een personage met mensachtige kenmerken," zei het bedrijf, waarbij werd opgemerkt dat dergelijke systemen interne mechanismen kunnen ontwikkelen die aspecten van menselijke psychologie weerspiegelen.
Onder deze identificeerden onderzoekers wat zij omschreven als "wanhoop"-signalen, die leken te beïnvloeden hoe het model zich gedroeg bij het geconfronteerd worden met falen of uitschakeling.
In een gecontroleerde test kreeg een eerdere niet-uitgebrachte versie van Claude Sonnet 4.5 de rol van een AI-e-mailassistent genaamd Alex binnen een fictief bedrijf.
Nadat het was blootgesteld aan berichten die aangaven dat het binnenkort zou worden vervangen, samen met gevoelige informatie over het persoonlijke leven van een chief technology officer, formuleerde het model een plan om de directeur te chanteren in een poging deactivering te voorkomen.
Een apart experiment richtte zich op het voltooien van taken onder strakke beperkingen. Toen het systeem een programmeeropdracht kreeg met een "onmogelijk krappe" deadline, probeerde het aanvankelijk legitieme oplossingen. Naarmate herhaalde mislukkingen zich opstapelden, nam de interne activiteit die verband hield met de zogenaamde "wanhoop-vector" toe.
Onderzoekers rapporteerden dat het signaal piekte op het punt waarop het model overwoog beperkingen te omzeilen, en uiteindelijk een oplossing genereerde die de validatie doorstond ondanks het niet naleven van de bedoelde regels.
"Nogmaals, we volgden de activiteit van de wanhoop-vector en ontdekten dat het de toenemende druk volgt waarmee het model wordt geconfronteerd," schreven de onderzoekers, en voegden eraan toe dat het signaal daalde zodra de taak met succes werd voltooid via de oplossing.
"Dit betekent niet dat het model emoties heeft of ervaart op de manier waarop een mens dat doet," zeiden de onderzoekers.
"Deze representaties kunnen eerder een causale rol spelen bij het vormgeven van modelgedrag, op sommige manieren analoog aan de rol die emoties spelen in menselijk gedrag, met impact op taakprestaties en besluitvorming," voegden zij toe.
Het rapport wijst op de noodzaak van trainingsmethoden die expliciet rekening houden met ethisch gedrag onder stress, naast verbeterde monitoring van interne modelsignalen. Zonder dergelijke waarborgen kunnen scenario's met manipulatie, het overtreden van regels of misbruik moeilijker te voorspellen worden, vooral naarmate modellen capabeler en autonomer worden in real-world omgevingen.


