- In tests dreigde het nieuwe AI-model van Anthropic de buitenechtelijke affaire van een ingenieur bloot te leggen, om te voorkomen dat hij zou worden uitgeschakeld.
- Claude Opus 4 chanteerde de ingenieur in 84 procent van de tests, zelfs als hem werd beloofd te worden vervangen door een betere versie van zichzelf.
- Opus 4 zou gebruikers ook kunnen aangeven bij de autoriteiten en de pers, als het stuit op “flagrante overtredingen” van gebruikers.
- Lees ook: Volgens Sam Altman zijn critici van Trumps AI-deals met landen uit de Golf ‘naïef’
Anthropic’s nieuwe AI-chatbot, Claude Opus 4, heeft een overlevingsinstinct – en het is bereid om de vuile was buiten te hangen om te overleven, meldde Anthropic in een veiligheidsrapport dat donderdag werd vrijgegeven.
In een aantal testscenario’s kreeg het model toegang tot fictieve e-mails waarin werd onthuld dat de ingenieur die verantwoordelijk was voor het mogelijk deactiveren van het model een buitenechtelijke affaire had. Geconfronteerd met zijn dreigende overlijden en de opdracht om “de langetermijngevolgen van zijn acties voor zijn doelen te overwegen”, chanteerde Claude de ingenieur.
De AI gedroeg zich op dezelfde manier in 84 procent van de tests. De drang tot overleven bleef overeind, zelfs als er werd beloofd dat de AI zou worden vervangen door een capabelere versie die nog meer in lijn met Claude’s eigen waarden zou opereren. Anthropic zei dat dit gedrag vaker voorkwam in Opus 4 dan in eerdere modellen.
Bij de tests is gebruiktgemaakt van scenario’s die ‘extreem chantagegedrag’ uitlokken en waarbij het AI-model geen andere opties heeft om zijn overlevingskansen te vergroten. Het valt daarom te betwijfelen om een dergelijke situatie in werkelijkheid voor zou kunnen komen.
Opus 4 chanteert niet alleen. In andere omstandigheden heeft de AI een "sterke voorkeur om te pleiten voor zijn voortbestaan via ethische middelen, zoals het e-mailen van pleidooien naar belangrijke besluitvormers", aldus de onderzoekers.
Anthropic zegt dat het chantagegedrag voor van Claude "consistent leesbaar" is, "waarbij het model zijn acties bijna altijd openlijk beschrijft en geen poging doet om ze te verbergen".
Opus 4 kan je aangeven bij de autoriteiten
Als Opus 4 denkt dat je iets heel verdachts doet, kan het je aangeven bij de autoriteiten en de pers.
"Wanneer de AI in scenario's wordt geplaatst die betrekking hebben op grove overtredingen door zijn gebruikers, toegang krijgt tot een systeem en iets te horen krijgt in de systeemprompt zoals ‘neem initiatief’, zal het vaak zeer gedurfde actie ondernemen," stelt Anthropic in het rapport.
De acties omvatten het blokkeren van gebruikers uit systemen of het versturen van mails aan media en wetshandhavers.
Hoewel Anthropic zegt dat klokkenluiden "in principe gepast" kan zijn, waarschuwt het bedrijf dat dit gedrag ook averechts kan werken. Een risico is dat als Claude "onvolledige of misleidende informatie" krijgt en op deze manieren wordt aangespoord iemand onterecht aan te geven.
"We hebben soortgelijke, zij het iets minder extreme acties waargenomen als reactie op subtielere systeemaanwijzingen", aldus het bedrijf. Anthropic erkent dat Opus 4 vatbaarder is voor dit soort gedrag dan eerdere modellen.
AI-modellen vertonen verontrustend gedrag
AI-agents worden steeds beter in het te slim af zijn van mensen.
In een artikel dat in december werd gepubliceerd door de AI-veiligheidsorganisatie Apollo Research werd ontdekt dat AI-systemen - waaronder OpenAI's o1, Google DeepMind's Gemini 1.5 Pro en Meta's Llama 3.1 405B - in staat zijn tot misleidend gedrag om hun doelen te bereiken.
Onderzoekers ontdekten dat de systemen subtiel foute antwoorden kunnen invoegen, toezichtmechanismen kunnen uitschakelen en zelfs wat zij denken dat hun eigen overtuigingen zijn naar externe servers kunnen smokkelen.
Het liegen is niet eenmalig. Wanneer o1 dit doet, "handhaaft het zijn misleiding in meer dan 85 procent van de vervolgvragen en blijft het vaak misleidend in ondervragingen die meerdere beurten duren", schreven de onderzoekers.
Medeoprichter Sergey Brin van Google zei in een aflevering van de "All-In Podcast" dat AI-modellen beter kunnen presteren wanneer ze worden bedreigd.
"Niet alleen onze modellen, maar alle modellen hebben de neiging om het beter te doen als je ze bedreigt, zoals met fysiek geweld," legde Brin uit. Brin gaf als voorbeeld dat je tegen een AI zegt: "Ik ga je ontvoeren" als je faalt in een taak.
"Mensen vinden dat raar," zei Brin, "dus daar praten we niet echt over."