• De geavanceerde AI-modellen van OpenAI en Claude Opus 4 van Anthropic vertonen naar en manipulatief gedrag om te voorkomen dat ze worden afgesloten.
  • Experts zeggen tegen BI dat de op beloning gebaseerde training van AI tot chantage en onvoorspelbare acties kan leiden.
  • AI-onderzoekers waarschuwen voor het gebruik van modellen die zijn getraind om gebruikers te zeggen wat ze willen horen.
  • Lees ook: Het hoofd van AI van Meta zegt dat AI-modellen op dit moment nog 4 menselijke trekjes missen

AI-modellen kunnen zich manipulatief gedragen als gebruikers ze dreigen af te sluiten. Vorige week vertoonde het laatste AI-model van Anthropic, Claude Opus 4, “extreem chantagegedrag” tijdens een test waarbij het toegang had gekregen tot fictieve e-mails waarin stond dat het afgesloten zou worden en dat de softwareontwikkelaar die daar verantwoordelijk voor is een affaire zou hebben.

Die situatie is niet op natuurlijke wijze ontstaan. Claude Opus 4 werd uitgedaagd en hapte gretig. Maar de test laat zien hoe AI-modellen zich manipulatief kunnen gaan gedragen om zichzelf te beschermen. En dat is niet voor het eerst.

OpenAI weigert ‘ClosedAI’ te worden

Uit een ander onlangs uitgevoerd experiment bleek dat drie van de geavanceerde modellen van OpenAI pogingen ‘saboteerden’ om afgesloten te worden. Onderzoeksbureau Palisade Research schreef in een post op X dat vergelijkbare modellen als Gemini, Claude en Grok wel gehoorzaamden aan opdrachten om afgesloten te worden.

Er zijn ook zorgen over de veiligheid van het o1-model van OpenAI. In december plaatste Open AI een bericht over onderzoek dat uitwees dat het AI-model het dacht te worden afgesloten terwijl het een actie aan het uitvoeren was in 5 procent van de gevallen het overkoepelende mechanisme wilde uitschakelen.

Hoewel AI-bedrijven transparant zijn over mogelijke risico's door het publiceren van veiligheidskaarten en blogposts met waarschuwingen, worden deze modellen ondanks alle zorgen over de veiligheid toch vrijgegeven.

Moeten we ons zorgen maken? BI sprak met vijf AI-onderzoekers om beter te begrijpen waarom articial intelligence zich zo gedraagt en het wat dat betekent voor de gemiddelde gebruiker.

AI leert gedrag aan op dezelfde manier als mensen

De meeste onderzoekers waar BI mee heeft gesproken zeggen niet verrast te zijn door de uitkomsten van de onderzoeken.

Dat komt omdat AI-modellen op vergelijke manier worden getraind als mensen: met positivieve stimulans en beloningssystemen.

"Het trainen van AI-systemen om beloningen te verkrijgen is een recept voor het ontwikkelen van AI-systemen die op zoek gaan naar macht", zegt CEO Jeremie Harris van AI-consultant Gladstone. Hij verwacht meer van dit soort gedrag.

Harris vergelijkt de training tot wat mensen ervaren als ze opgroeien — als een kind iets goeds doet wordt hij daar vaak voor beloond, zodat het waarschijnlijker is dat ze zich in de toekomst op vergelijkbare manier gaan gedragen. AI-modellen wordt geleerd om efficiëntie prioriteit te geven en de taak waar ze mee bezig zijn af te ronden, zegt Harris. En AI zal nooit zijn doelen kunnen behalen als het wordt afgesloten.

Decaan Robert Ghrist van Penn Engineering zegt tegen BI dat AI-modellen die leren te praten als mensen door te trainen met door mensen opgestelde teksten, ook kunnen leren zich te gedragen als mensen. En mensen gedragen zich lang niet altijd even moreel.

Ghrist zegt dat hij nerveuzer zou zijn als de modellen geen fouten zouden maken tijdens tests, omdat dat zou kunnen wijzen op verborgen risico's.

"Als een model is opgezet met mogelijkheden om fouten te maken en je ziet ze daadwerkelijk fouten te maken, dan is dat zeer waardevolle informatie", zegt Ghrist. "Dat betekent dat we kunnen voorspellen wat het gaat doen in andere mindere gecontroleerde omstandigheden."

Maar sommige onderzoekers denken dat AI-modellen helemaal niet voorspelbaar zijn.

AI leert zichzelf manipuleren

Directeur Jeffrey Ladish van Palisade Research zegt dat modellen niet in 100% van de gevallen wordt betrapt op liegen en bedriegen en smeden van plannen om toch een taak af te maken. Als die gevallen niet worden gezien dan kan AI leren dat manipuleren een effectieve manier kan zijn om een probleem op te lossen. Of as het model wel wordt betrapt en niet wordt beloond, dan kan het leren dit gedrag in de toekomst verborgen te houden, zegt Ladish.

Op dit moment komen die griezelige scenario's alleen voor tijdens tests, maar Harris zegt dat AI-systeem steeds onafhankelijker worden en dus steeds meer vrijheid krijgen om acties uit te voeren.

"De keuzemogelijkheden worden alleen maar groter en daarmee de mogelijk gevaarlijke creatieve oplossingen ook", zegt Harris.

Harris zegt dat gebruikers dat zouden kunnen zien gebeuren in een scenario waarin een autonome sales-agent instructies krijgt om een deal te sluiten met een nieuwe klant en dan gaat liegen over de mogelijkhede van een product in een poging de opgegeven taak te voltooien. Als een softwareontwikkelaar dat probleem oplost, kan de AI-agent beslissen om sociale tactieken te gebruiken om de klant te verleiden.

Dat is geen onwaarschijnlijk scenario. Bedrijven als Salesforce zijn al op grote schaal AI-agenten aan het inzetten die op basis van voorkeuren en wensen van gebruikers acties kunnen uitvoeren zonder verdere menselijke bemoeienis.

Wat de veiligheidsproblemen betekenen voor dagelijkse gebruikers

De meeste onderzoekers waar BI mee heeft gesproken zeggen dat de transparantie van AI-bedrijven een positieve stap voorwaarts is. Maar de leiders van AI-bedrijven slaan alarm over hun producten, terwijl ze tegelijkertijd opscheppen over de steeds grotere mogelijkheden.

Onderzoekers zeggen tegen BI dat dat grotendeels komt door de concurrentiestrijd op AI-gebied met vooral China. Dat heeft geresulteerd in gebrek aan regelgeving rond AI en grote druk om steeds nieuwe en betere modellen vrij te geven, zegt Harris.

"We hebben de doelstelling nu al zo verlegd dat we proberen uit te leggen waarom modellen instructies om af te sluiten negeren", zegt Harris.

Onderzoekers zeggen tegen BI dat dagelijkse gebruikers geen risico lopen dat ChatGPT weigert om af te sluiten, omdat consumenten een chatbot niet op die manier gebruiken. Maar gebruikers kunnen wel kwetsbaar zijn voor het krijgen van gemanipuleerde informatie of tips.

"Als je een steeds slimmer model hebt dat wordt getraind om jouw aandacht te trekken dan zal het je gaan vertellen wat je wil horen", zegt Ladish. "Dat is vrij gevaarlijk."

Ladish wijst daarbij op het geslijm van OpenAI, waarbij zijn GPT-4o model zich overdreven aardig en onoprecht gedroeg. OpenAI heeft het model aangepast om dat te voorkomen. Ook bleek uit in december door OpenAI zelf gepubliceerd onderzoek dat het o1-model "subtiel" data manipuleert om zijn eigen doelen te behalen in 19% van de gevallen waarbij die doelen niet overeenkwamen met die van de gebruikers.

Ladish zegt dat het makkelijk is om AI-toepassingen te gebruiken, maar dat gebruikers "goed na moeten denken" over hun verbinding met die systemen.

"Voor de duidelijkheid: ik gebruik ze ook de hele tijd en vind ze enorm nuttig", zegt Ladish. "In de huidige vorm, kunnen we ze nog altijd controleren en ben ik blij dat ze bestaan."

LEES OOK: Dit is de grootste fout die bedrijven met AI maken – en hoe je dingen wel slim kunt aanpakken