’s Werelds krachtigste AI-model, de software achter de razend populaire bot ChatGPT en diens opvolger GPT-4, is iets minder krachtig geworden. De gemeenschap van experts op het gebied van artificial intelligence (AI) vraagt zich af hoe dit komt. Er wordt gedacht dat er achter de schermen een grote verandering is doorgevoerd door OpenAI, de startup achter ChatGPT.

In de afgelopen weken merkte een toenemend aantal gebruikers van GPT-4, het AI-model van OpenAI, dat de tool minder goed presteert. Sommigen noemden het model ‘luier’ en ‘dommer’ in vergelijking met hun eerdere ervaringen met dezelfde software op basis van kunstmatige intelligentie.

Op Twitter en op online developer forum van OpenAI laten gebruikers hun onvrede merken over de problemen die ze ondervinden. Daarbij worden zaken aangekaart die te maken hebben met gebrekkige logica, meer foute antwoorden, verlies van aangedragen informatie, het niet toevoegen van haakjes in simpele broncodes en zelfs het vergeten van de laatste prompt.

“De huidige GPT-4 valt tegen”, schreef een softwareprogrammeur die GPT-4 gebruikt om broncode voor zijn website te schrijven. “Het is alsof je een maand in een Ferrari reed, waarna hij ineens in een oude, onbetrouwbare pickup truck verandert. Ik weet niet zeker of ik hier nog wel voor wil betalen.”

Product lead Peter Yang van Roblox, een platform voor gamesoftware, tweette dat het model sneller een uitkomst genereert, maar dat de kwaliteit slechter is. Volgens hem komt dit al naar boven bij de simpele dingen, "zoals het verduidelijken en versimpelen van een schrijfsel en het verzinnen van ideeën." Daarbij ziet hij ook dat de kwaliteit van de tekst achteruit is gegaan, al vraagt hij zich wel af of anderen dit ook merken.

Christi Kennedy, een andere gebruiker op Open AI's developer forum, zegt dat GPT-4 in herhaling begon te vallen en telkens dezelfde broncode en informatie als output gaf.

"In vergelijking met voorheen is het nu hersendood", schreef ze vorige maand. "Je zult er weinig van merken als je het voornamelijk oppervlakkig gebruikt. Maar als je er echt volledig gebruik van wilt maken, dan zie je overduidelijk dat het veel dommer is."

Lees ook: De grootste uitdaging van artificial intelligence ligt niet bij vooroordelen of uitlegbaarheid, maar bij het ecosysteem rondom AI

GTP-4: van langzaam en duur, naar snel en inaccuraat

Het is een flinke verandering in vergelijking met begin dit jaar, toen OpenAI nog indruk maakte met ChatGPT en de techwereld niet kon wachten op de lancering van GPT-4.

Het nog grotere GPT-4 werd in maart gelanceerd en werd al snel het standaardmodel waar softwareprogrammeurs en andere techspecialisten gebruik van maakten. Het wordt gezien als het krachtigste AI-model dat op dit moment beschikbaar is. Daarnaast is het ook nog eens 'multimodaal', wat inhoudt dat niet alleen tekst, maar ook afbeeldingen als input kan begrijpen.

Het was langzaam, maar erg accuraat, stelt CEO Sharon Zhou van Lamini, een startup die programmeurs helpt bij het bouwen van eigen large language models.

Maar die situatie veranderde enkele weken geleden. Toen werd GPT-4 ineens sneller terwijl de prestaties van de software verslechterden. De AI-gemeenschap begon daarop te speculeren dat er mogelijk een grote verandering gaande was, aldus Zhou en andere experts.

Ze denken dat OpenAI meerdere kleinere GPT-4 modellen maakt, die op dezelfde manier werken als de grotere variant, maar goedkoper zijn om operationeel te houden.

Deze aanpak noemt men een 'Mixture of Experts' (MOE) oftewel een mix van experts, aldus Zhou. De kleinere modellen hebben elk hun eigen expertise en zijn verantwoordelijk voor het uitvoeren van aparte taken. Er zou bijvoorbeeld een GPT-4 biologie, een GPT-4 natuurkunde, een GPT-4 scheikunde, enzovoorts kunnen zijn.

Als een gebruiker dan een vraag stelt aan GPT-4, weet het systeem naar welke expert de vraag gestuurd moet worden. Deze zal het verzoek vervolgens afhandelen. GPT-4 zou er zelfs voor kunnen kiezen om een vraag naar meerdere experts te sturen en de door hen gegenereerde antwoorden tot één output te verwerken.

"Het idee bestaat al langer en is een logische volgende stap", zegt Zhou.

Opsplitsen van AI-model in reeks van experts

Zhou vergelijk het met het gedachte-experiment dat het 'Schip van Theseus' wordt genoemd, een verwijzing naar een held uit de Griekse mythologie. Hierbij neemt men een schip waarvan in de loop der tijd alle onderdelen worden vernieuwd. Als het laatste onderdeel vervangen is, is het de vraag of het schip nog wel het schip is, of dat het een compleet nieuw product is geworden.

"OpenAI neemt GPT-4 en breekt het op in een reeks kleinere schepen", zegt Zhou. "In mijn optiek is het dan een nieuw model, maar sommigen zeggen dat het hetzelfde is."

Insider vroeg bij OpenAI na of dit ook daadwerkelijk het geval was, maar kreeg geen reactie.

Deze week claimden meerdere AI-experts dat ze details hadden gevonden van de werking van GPT-4, die de theorie lijken te bevestigen.

Yam Peleg, oprichter van een startup, tweette dat OpenAI de kosten kan drukken door een MOE-model met 16 experts te gebruiken. Semianalysis beschreef de werking van GPT-4 en George Hotz, een ontwikkelaar en hacker, omschreef GPT-4 als werkend met een "MOE-model met acht experts" in een recente podcast.

Soumith Chintala, mede-oprichter van het PyTorch open-source AI project bij Meta, liet op Twitter weten dat hij het eens is met Hotz.

"Ik zou denken dat de speculaties ruwweg kloppen, maar ik heb geen bevestiging", zegt CEO Oren Etzioni van het Allen Institute for AI in een email naar Insider. Er zijn volgens hem twee redenen om een MOE-aanpak te verkiezen: betere antwoorden en goedkopere en snellere antwoorden.

"De goede mix tussen de twee opties levert het beste van beide werelden, maar in de praktijk moet er toch vaak een afweging tussen kosten en kwaliteit worden gemaakt", zegt hij. "En in dit geval lijkt het erop dat OpenAI de kwaliteit opoffert om de kosten te kunnen verlagen. Maar deze modellen zijn heel moeilijk te evalueren: wat is een beter antwoord? En wanneer is dat zo? Dus dit is geen exacte wetenschap, maar anekdotisch.", legt hij uit.

OpenAI benoemde een MOE-aanpak al in een onderzoek uit 2022, waar mede-oprichter Greg Brockman van Open AI co-auteur van was.

"Met de Mixture-of-Experts (MoE) aanpak, wordt er slechts een fractie van het netwerk gebruikt om de uitvoer voor een enkele invoer te berekenen. Een voorbeeld is om veel sets van waarden te hebben waarbij het netwerk kan kiezen welke set te gebruiken via een beoordelingsmechanisme tijdens de berekening", schreven Brockman en zijn collega Lilian Weng. "Dit maakt veel meer parameters mogelijk zonder hogere berekeningskosten. Naar elke set waardes wordt verwezen als zijnde 'experts' met de hoop dat het netwerk leert om gespecialiseerde berekeningen en vaardigheden aan elke expert toe te wijzen."

De verslechtering van de prestaties van GPT-4 zouden te maken kunnen hebben met deze andere manier van werken. Het model moet opnieuw leren werken met de kleinere GPT-4 modellen, zegt Zhou. "Het model verzamelt data van gebruikers, die weer worden gebruikt om te leren en te verbeteren."

LEES OOK: Hot in Tech: do’s and don’ts voor werknemers die met ChatGPT aan de slag gaan