Home » Le prestazioni di ChatGPT stanno diminuendo, dice un nuovo studio

Le prestazioni di ChatGPT stanno diminuendo, dice un nuovo studio

by Tim

ChatGPT è esploso sulla scena alla fine dello scorso anno, stupendo le persone con le sue capacità di conversazione simili a quelle umane, e il rilascio dell’ultima versione ha provocato un rally di criptovalute e richieste di una pausa nello sviluppo. Ma secondo un nuovo studio, le capacità del principale bot AI potrebbero essere in declino.

I ricercatori di Stanford e UC Berkeley hanno analizzato sistematicamente diverse versioni di ChatGPT tra marzo e giugno 2022. Hanno sviluppato parametri di riferimento rigorosi per valutare le competenze del modello in matematica, codifica e ragionamento visivo. I risultati delle prestazioni di ChatGPT nel tempo non sono stati positivi.

I test hanno rivelato un calo sorprendente delle prestazioni tra una versione e l’altra. In una sfida matematica sulla determinazione dei numeri primi, ChatGPT ha risolto correttamente 488 domande su 500 a marzo, con una precisione del 97,6%. A giugno, invece, ChatGPT è riuscito a risolvere solo 12 domande, scendendo al 2,4% di precisione.

Immagine: UC Berkeley, Stanford

Immagine: UC Berkeley, Stanford


Il declino è stato particolarmente marcato nelle capacità di codifica del software del chatbot.

“Per il GPT-4, la percentuale di generazioni direttamente eseguibili è scesa dal 52,0% di marzo al 10,0% di giugno”, si legge nella ricerca. Questi risultati sono stati ottenuti utilizzando la versione pura dei modelli, ovvero senza l’ausilio di plugin per l’interpretazione del codice.

Per valutare il ragionamento, i ricercatori hanno utilizzato i suggerimenti visivi del dataset Abstract Reasoning Corpus (ARC). Anche in questo caso, pur non essendo così marcato, è stato osservato un calo. “Il GPT-4 a giugno ha commesso errori su query per le quali era corretto a marzo”, si legge nello studio.

Cosa potrebbe spiegare l’apparente declassamento di ChatGPT dopo pochi mesi? I ricercatori ipotizzano che possa essere un effetto collaterale delle ottimizzazioni effettuate da OpenAI, il suo creatore.

Una possibile causa sono le modifiche introdotte per evitare che ChatGPT risponda a domande pericolose. Questo allineamento di sicurezza potrebbe però compromettere l’utilità di ChatGPT per altri compiti. I ricercatori hanno scoperto che ora il modello tende a dare risposte verbose e indirette invece di risposte chiare.

“Il GPT-4 sta peggiorando nel tempo, non migliorando”, ha commentato su Twitter l’esperto di intelligenza artificiale Santiago Valderrama. Valderrama ha anche sollevato la possibilità che un mix di modelli “più economici e più veloci” possa aver sostituito l’architettura originale di ChatGPT.

“Le voci suggeriscono che stiano usando diversi modelli GPT-4 più piccoli e specializzati che agiscono in modo simile a un modello di grandi dimensioni ma sono meno costosi da eseguire”, ha ipotizzato, il che, secondo lui, potrebbe accelerare le risposte per gli utenti ma ridurre le competenze.

Anche un altro esperto, il Dr. Jm, Fan, ha condiviso le sue considerazioni su un thread di Twitter.

“Sfortunatamente, una maggiore sicurezza di solito ha il costo di una minore utilità”, ha scritto, dicendo che stava cercando di dare un senso ai risultati collegandoli al modo in cui OpenAI mette a punto i suoi modelli. “La mia ipotesi (senza prove, solo speculazioni) è che OpenAI abbia dedicato la maggior parte degli sforzi alla lobotomia da marzo a giugno e non abbia avuto il tempo di recuperare completamente le altre capacità che contano”.

Fan sostiene che potrebbero essere entrati in gioco altri fattori, come il taglio dei costi, l’introduzione di avvertenze e dichiarazioni di non responsabilità che potrebbero rendere il modello più “stupido” e la mancanza di un feedback più ampio da parte della comunità.

Sebbene siano necessari test più approfonditi, i risultati sono in linea con le frustrazioni espresse dagli utenti per il calo di coerenza dei risultati di ChatGPT, un tempo eloquenti.

Come possiamo prevenire un ulteriore deterioramento? Alcuni appassionati si sono espressi a favore di modelli open-source come LLaMA di Meta (che è stato appena aggiornato) che consentono il debugging da parte della comunità. Il benchmarking continuo per individuare tempestivamente le regressioni è fondamentale.

Per il momento, i fan di ChatGPT potrebbero dover moderare le loro aspettative. La selvaggia macchina generatrice di idee che molti hanno incontrato per la prima volta appare più mite e forse meno brillante. Ma il declino legato all’età sembra essere inevitabile, anche per le celebrità dell’intelligenza artificiale.

Related Posts

Leave a Comment