AI-model van ChatGPT is dommer, maar niemand weet waarom

Nieuw onderzoek suggereert dat het AI-model achter de bot ChatGPT dommer wordt.
Wetenschappers van de universiteiten van Stanford en UC Berkeley hebben ontdekt dat het nieuwste model van de bot, GPT-4, de laatste tijd minder goed presteert.
Maar waarom dat zo is, blijft tot nu toe een raadsel.
Lees ook: ChatGPT lijkt opeens ‘sneller en dommer’ in plaats van ’traag en precies’, volgens IT-experts – dat kan met een nieuwe, goedkopere opzet te maken hebben

Onder IT-experts groeit al een tijdje het gevoel dat het AI-model achter ChatGPT steeds ‘dommer’ wordt. En er is nu hard bewijs dat suggereert dat het paradepaardje van artificial intelligence-startup OpenAI echt wat van zijn glans aan het verliezen is.

In een nieuw onderzoek door Stanford University en UC Berkeley, waarin wordt onderzocht hoe de prestaties van ChatGPT in de loop der tijd zijnb veranderd, wordt vastgesteld dat de prestaties van de onderliggende GPT-3.5 en GPT-4 AI-modellen van de chatbot inderdaad “sterk variëren”.

Niet alleen variëren de prestaties, maar GPT-4, het meer geavanceerde “multimodale” model dat zowel afbeeldingen als tekst kan begrijpen, lijkt een stuk slechter te presteren in de taken waarop beide modellen zijn getest.

De taken die de onderzoekers de bot voorlegden zijn gevarieerd genoeg om er zeker van te zijn dat het model echt een eerlijke beoordeling van zijn capaciteiten kreeg. Ze testten de ChatGPT- modellen onder andere op het oplossen van wiskundige problemen, antwoord geven op gevoelige vragen, het genereren van softwarecode en visueel kunnen denken.

GPT-4 presteerde ondermaats in het onderzoek. In maart van dit jaar wist de bot nog met 97,6 procent nauwkeurigheid priemgetallen te identificeren, maar in juni daalde die nauwkeurigheid tot een schokkende 2,4 procent. Ook maakte het model in juni "meer opmaakfouten bij het genereren van softwarecode" dan eerder dit jaar en was het "minder bereid om gevoelige vragen te beantwoorden".

Niemand weet waarom GPT-4 aan het veranderen is

Wat het onderzoek niet lijkt aan te tonen is waarom de prestaties zo achteruit zijn gegaan.

"Het artikel gaat niet in op de vraag waarom de achteruitgang in capaciteiten plaatsvindt. We weten niet eens of OpenAI weet dat dit gebeurt", twitterde hoogleraar Ethan Mollick van de Universiteit van Pennsylvania.

The paper doesn’t get at why the degradation in abilities is happening. We don’t even know if OpenAI knows this is occuring.
— Ethan Mollick (@emollick) July 19, 2023

Als OpenAI het nog niet heeft opgemerkt, dan hebben velen in de AI-gemeenschap dat zeker wel. AI-expert Peter Yang van Roblox merkte in mei op dat de antwoorden van GPT-4 sneller worden gegenereerd dan voorheen, "maar dat de kwaliteit slechter lijkt te zijn". "Misschien probeert OpenAI kosten te besparen", tweette hij.

Op het forum voor programmeurs van OpenAI is ondertussen een discussie gaande over een afname van de kwaliteit van antwoorden. Vooral omdat het model van GPT-4 ten grondslag ligt aan een nog geavanceerdere versie van ChatGPT, waar alleen betalende abonnees toegang toe hebben. Een kwaliteitsafname in de antwoorden van de bot is daarom een probleem voor OpenAI.

Experts in de AI-gemeenschap wijten de verslechterende kwaliteit van GPT-4 aan een "radicaal herontwerp" van het model. Maar OpenAI spreekt dit tegen en Peter Welinder van OpenAI twitterde vorige week: "Nee, we hebben GPT-4 niet dommer gemaakt. Integendeel: we maken elke nieuwe versie slimmer dan de vorige."

Matei Zaharia, hoogleraar computerwetenschappen aan UC Berkeley en een van de co-auteurs van het onderzoeksartikel, tweette dat het “lastig lijkt om de kwaliteit te waarborgen" van antwoorden van AI-modellen.

It’s really hard to tell why this is happening. It could definitely be that RLHF and fine tuning are hitting a wall, but might also be bugs. Definitely seems tricky to manage quality.
— Matei Zaharia (@matei_zaharia) July 19, 2023

"Ik denk dat het de vraag is hoe goed programmeurs van AI-modellen zelf dit soort veranderingen kunnen detecteren of kunnen voorkomen dat dit gebeurt als modellen voor nieuwe vaardigheden worden getraind", twitterde hij.

Sommige experts, zoals Arvind Narayanan, hoogleraar computerwetenschappen aan Princeton, vinden dat er te snel een oordeel wordt geveld over de antwoorden van ChatGPT en ze niet goed in perspectief worden geplaatst.

In een Twitter draadje merkt hij op dat de achteruitgang van de antwoorden van het model die in het artikel worden genoemd, "enigszins twijfelachtig" is vanwege de taken die GPT-4 moest uitvoeren en de gebruikte evaluatiemethode. Bij de test om softwarecode te genereren voegde GPT-4 bijvoorbeeld "niet-code tekst toe aan zijn uitvoer, maar de auteurs evalueren daar niet de correctheid van."

Dat gezegd hebbende, is het moeilijk om de kwaliteitsvragen rond GPT-4 te negeren als een hele gemeenschap van AI-enthousiastelingen het erover heeft.

Het AI-model achter ChatGPT lijkt echt ‘dommer’ te worden, maar niemand weet goed waarom

Niemand weet waarom GPT-4 aan het veranderen is

LEES OOK: Wordt jouw persoonlijke of vertrouwelijke informatie gebruikt om ChatGPT te trainen?

Meer

Deze 93-jarige begon rond zijn 50ste marathons te lopen en gaat iedere dag naar spinning: hij deelt 3 tips om gezond te blijven

VS stoppen wapenleveranties aan Israël bij inval Rafah, waarschuwt Biden

China loopt achter op de VS met AI om 4 redenen, volgens de voormalige topman van Google

Rusland is zo hard op zoek naar nieuwe rekruten dat salarissen in het leger hoger zijn dan in de olie- en gassector

Ontwerpers van Neom zijn bezorgd dat de horizontale wolkenkrabber The Line fataal zal zijn voor grote aantallen vogels

More companies would move to Miami if there were more private schools, says billionaire Miami convert Barry Sternlicht

Jack Dorsey defends Musk’s Twitter leadership, saying the billionaire slashed the ‘critical sin’ of its business model

Sam Bankman-Fried has a new currency to trade in prison: rice

I’ve been living in Spain for 12 years. I’ve stopped dating locals because too much gets lost in translation.

I worked at Amazon, Tesla, SAP, Salesforce, and Meta. Here’s what I do 24 hours before a big interview.

Opdrachten vinden als zzp’er: 5 tips om nieuwe uitdagende projecten binnen jouw vakgebied te vinden

Unlock your Potential

Hoe je de kosten voor de elektrificatie van je wagenpark onder controle houdt

Charge up your business

Niemand weet waarom GPT-4 aan het veranderen is

LEES OOK: Wordt jouw persoonlijke of vertrouwelijke informatie gebruikt om ChatGPT te trainen?

BEKIJK OOK: Kan bamboe papier en plastic vervangen? En moet het dat doen?

Meer

Deze 93-jarige begon rond zijn 50ste marathons te lopen en gaat iedere dag naar spinning: hij deelt 3 tips om gezond te blijven

VS stoppen wapenleveranties aan Israël bij inval Rafah, waarschuwt Biden

China loopt achter op de VS met AI om 4 redenen, volgens de voormalige topman van Google

Rusland is zo hard op zoek naar nieuwe rekruten dat salarissen in het leger hoger zijn dan in de olie- en gassector

Ontwerpers van Neom zijn bezorgd dat de horizontale wolkenkrabber The Line fataal zal zijn voor grote aantallen vogels

More companies would move to Miami if there were more private schools, says billionaire Miami convert Barry Sternlicht

Jack Dorsey defends Musk’s Twitter leadership, saying the billionaire slashed the ‘critical sin’ of its business model

Sam Bankman-Fried has a new currency to trade in prison: rice

I’ve been living in Spain for 12 years. I’ve stopped dating locals because too much gets lost in translation.

I worked at Amazon, Tesla, SAP, Salesforce, and Meta. Here’s what I do 24 hours before a big interview.

Opdrachten vinden als zzp’er: 5 tips om nieuwe uitdagende projecten binnen jouw vakgebied te vinden

Hoe je de kosten voor de elektrificatie van je wagenpark onder controle houdt