- Gebruikers van het nieuwe GPT-4 model van AI-startup OpenAI klaagden de afgelopen weken over verminderde prestaties.
- Het bedrijf achter ChatGPT nu toe dat de prestaties van GPT-4 bij sommige taken slechter kunnen zijn.
- Betalende gebruikers klaagden dat ze problemen ervaren zoals een zwakkere logica en meer foute antwoorden.
- Lees ook: Dit zijn 23 opvallende weetjes over topman Sam Altman van het OpenAI, het bedrijf achter ChatGPT
OpenAI, het bedrijf achter de razened populaire ChatGPT, heeft erkend dat de prestaties van GPT-4 slechter zou kunnen zijn in sommige taken dan de eerdere versies van de AI-chatbot.
Gebruikers klaagden de afgelopen week dat het nieuwe model “luier” en “dommer” is in vergelijking met eerdere versies.
“Hoewel een meerderheid van de prestaties is verbeterd, kunnen er enkele taken zijn waarbij de prestaties slechter worden”, schrijft OpenAI nu in een blogpost waarin nieuwe updates worden aangekondigd.
Sommige gebruikers uitten hun frustraties op Twitter en OpenAI’s forum voor softwareprogrammeurs over problemen zoals een zwakkere logica, meer foute antwoorden en het verliezen van overzicht over verstrekte informatie.
Gebruikers meldden dat GPT-4 soms problemen had met het volgen van instructies, vergat om haakjes toe te voegen in code en alleen de meest recente prompt wist te onthouden.
"Het huidige GPT-4 is teleurstellend", schreef een programmeur die GPT-4 gebruikt om hem te helpen bij het coderen van functies voor zijn website. "Het is alsof je een maand in een Ferrari rijdt en dan ineens verandert in een oude pick-up. Ik weet niet zeker of ik ervoor wil betalen."
Onderzoek kritisch over de prestaties van GPT-4
In een nieuw onderzoek door Stanford University en UC Berkeley, waarin wordt onderzocht hoe de prestaties van ChatGPT in de loop der tijd zijnb veranderd, werd vastgesteld dat de prestaties van de onderliggende GPT-3.5 en GPT-4 AI-modellen van de chatbot inderdaad “sterk variëren”.
Niet alleen variëren de prestaties, maar GPT-4, het meer geavanceerde “multimodale” model dat zowel afbeeldingen als tekst kan begrijpen, lijkt een stuk slechter te presteren in de taken waarop beide modellen zijn getest.
De taken die de onderzoekers de bot voorlegden zijn gevarieerd genoeg om er zeker van te zijn dat het model echt een eerlijke beoordeling van zijn capaciteiten kreeg, volgens de onderzoekers. Ze testten de ChatGPT- modellen onder andere op het oplossen van wiskundige problemen, antwoord geven op gevoelige vragen, het genereren van softwarecode en visueel kunnen denken.
GPT-4 presteerde ondermaats in het onderzoek. In maart van dit jaar wist de bot nog met 97,6 procent nauwkeurigheid priemgetallen te identificeren, maar in juni daalde die nauwkeurigheid tot een schokkende 2,4 procent. Ook maakte het model in juni "meer opmaakfouten bij het genereren van softwarecode" dan eerder dit jaar en was het "minder bereid om gevoelige vragen te beantwoorden".