ChatGPT's prestaties nemen af, volgens nieuw onderzoek

Eind vorig jaar explodeerde

ChatGPT op het toneel en verblindde mensen met zijn mensachtige conversatievaardigheden. De release van de nieuwste versie leidde tot een crypto-rally en oproepen voor een pauze in de ontwikkeling. Maar volgens een nieuw onderzoek nemen de vaardigheden van de toonaangevende AI-bot mogelijk af.

Onderzoekers van Stanford en UC Berkeley analyseerden systematisch verschillende versies van ChatGPT uit maart en juni 2022. Ze ontwikkelden strenge benchmarks om de competentie van het model in wiskunde, codering en visuele redeneertaken te evalueren. De resultaten van ChatGPT’s prestaties in de loop van de tijd waren niet goed.

De tests onthulden een opzienbarende daling in prestaties tussen versies. Bij een wiskundige uitdaging om priemgetallen te bepalen, loste ChatGPT in maart 488 van de 500 vragen correct op, een nauwkeurigheid van 97,6%. In juni slaagde ChatGPT er echter maar in om 12 vragen goed te krijgen, waardoor de nauwkeurigheid daalde tot 2,4%.

Afbeelding: UC Berkeley, Stanford

De afname was vooral sterk bij de software-coderingsvaardigheden van de chatbot.

“Voor GPT-4 daalde het percentage van generaties die direct uitvoerbaar zijn van 52,0% in maart naar 10,0% in juni,” ontdekte het onderzoek. Deze resultaten werden verkregen door gebruik te maken van de pure versie van de modellen, wat betekent dat er geen code-interpreter plugins aan te pas kwamen.

Om het redeneren te beoordelen, maakten de onderzoekers gebruik van visuele aanwijzingen uit de Abstract Reasoning Corpus (ARC) dataset. Ook hier was een afname waarneembaar, hoewel niet zo sterk. “GPT-4 maakte in juni fouten bij query’s waarvoor het in maart correct was”, aldus de studie.
Wat zou de duidelijke achteruitgang van ChatGPT na slechts een paar maanden kunnen verklaren? Onderzoekers denken dat het een neveneffect kan zijn van optimalisaties die worden doorgevoerd door OpenAI, de maker ervan.

Een mogelijke oorzaak zijn veranderingen die zijn doorgevoerd om te voorkomen dat ChatGPT gevaarlijke vragen beantwoordt. Deze veiligheidsaanpassing zou echter wel afbreuk kunnen doen aan het nut van ChatGPT voor andere taken. De onderzoekers ontdekten dat het model nu de neiging heeft om langdradige, indirecte antwoorden te geven in plaats van duidelijke antwoorden.

“GPT-4 wordt met de tijd slechter, niet beter,” zei AI-expert Santiago Valderrama op Twitter. Valderrama opperde ook de mogelijkheid dat een “goedkopere en snellere” mix van modellen de oorspronkelijke ChatGPT-architectuur kan hebben vervangen.

“Geruchten suggereren dat ze verschillende kleinere en gespecialiseerde GPT-4-modellen gebruiken die zich net zo gedragen als een groot model, maar minder duur zijn om te draaien,” veronderstelde hij, wat volgens hem reacties voor gebruikers zou kunnen versnellen, maar de competentie zou kunnen verminderen.

Er zijn honderden (misschien al duizenden?) reacties van mensen die zeggen dat ze de kwaliteitsvermindering hebben opgemerkt.

Blader door de reacties en je zult veel situaties lezen waarin GPT-4 niet meer werkt zoals voorheen.

– Santiago (@svpino) July 19, 2023

Een andere expert, Dr. Jm, Fan deelde zijn inzichten ook op een Twitter-dread.

“Helaas gaat meer veiligheid meestal ten koste van minder bruikbaarheid”, schreef hij en zei dat hij de resultaten probeerde te begrijpen door ze te koppelen aan de manier waarop OpenAI zijn modellen afstemt. “Mijn gok (geen bewijs, alleen speculatie) is dat OpenAI het grootste deel van de inspanningen heeft besteed aan lobotomie van maart tot juni, en geen tijd had om de andere capaciteiten die er toe doen volledig te herstellen.”

Fan stelt dat er andere factoren in het spel kunnen zijn geweest, namelijk kostenbesparende inspanningen, de introductie van waarschuwingen en disclaimers die het model “dommer” kunnen maken, en het gebrek aan bredere feedback van de community.

Hoewel uitgebreidere tests gerechtvaardigd zijn, sluiten de bevindingen aan bij de frustraties van gebruikers over de afnemende samenhang in de eens zo welsprekende output van ChatGPT.

Hoe kunnen we verdere achteruitgang voorkomen? Sommige enthousiastelingen pleitten voor open-source modellen zoals LLaMA van Meta (dat net is bijgewerkt) die debugging door de gemeenschap mogelijk maken. Voortdurende benchmarking om regressies in een vroeg stadium op te sporen is cruciaal.

Voorlopig moeten ChatGPT-fans hun verwachtingen misschien temperen. De wilde ideeëngenererende machine die velen voor het eerst tegenkwamen, lijkt nu tammer – en misschien minder briljant. Maar leeftijdsgerelateerde achteruitgang lijkt onvermijdelijk, zelfs voor AI-beroemdheden.

ChatGPT’s prestaties nemen af, volgens nieuw onderzoek

Orgasme NFT’s? NARS Cosmetics Brand onthult wenkbrauw-opwindende kunstveilingen

Telegram bot tokens stijgen naar $100M marktkapitalisatie

Related Posts

Leave a Comment Cancel Reply