Home » Secondo i ricercatori, anche la versione peggiore di Claude AI è migliore di GPT 3.5

Secondo i ricercatori, anche la versione peggiore di Claude AI è migliore di GPT 3.5

by Patricia

L’industria dell’intelligenza artificiale sta assistendo a un’avvincente competizione tra i modelli ChatGPT e Claude AI. La Large Model Systems Organization (LMSO), responsabile della creazione della Chatbot Arena e del rinomato Vicuna Model, ha appena aggiornato la Chatbot Arena Leaderboard, che riflette come ogni chatbot AI si misura con i suoi concorrenti. È emerso che Anthropic sta dando filo da torcere a OpenAI, anche se i suoi modelli sono ancora gratuiti.

GPT-4, il motore di ChatGPT Plus e Bing AI, regna sovrano con il punteggio più alto, stabilendo il gold standard per i Large Language Models (LLM). Ma scendendo nella classifica, si scopre un’inaspettata storia di sfavoriti. I modelli Claude di Anthropic – Claude 1, Claude 2 e Claude Instant – superano tutti GPT-3.5, il motore della versione gratuita di ChatGPT. Ciò implica che ogni Large Language Model sviluppato da Anthropic può surclassare la versione gratuita di ChatGPT.

Il meticoloso sistema di classifiche del LMSO ha permesso di capire le metriche delle prestazioni di questi modelli. Secondo la classifica, GPT-4 detiene un Arena Elo Rating di 1181, in testa alla classifica, mentre i modelli Claude seguono da vicino con valutazioni che vanno da 1119 a 1155. Il GPT-3.5, invece, è in ritardo con un punteggio di 1115.

Per classificare i modelli, LMSO li fa “combattere” in partite con richieste simili. Il modello con la risposta migliore vince e l’altro perde. Gli utenti decidono chi vince in base alle proprie preferenze, ma non vengono mai a sapere quali modelli sono in competizione.

Immagine: LMSO

Immagine: LMSO


Come TCN ha riportato in precedenza, la differenza nelle capacità di elaborazione dei token tra ChatGPT Plus e Claude Pro, pur non essendo un fattore nella classifica di LMSO, rappresenta un vantaggio importante per i modelli Claude rispetto a GPT.

“Claude Pro, basato sull’LLM Claude 2, può elaborare fino a 100.000 token di informazioni, mentre ChatGPT Plus, basato sull’LLM GPT-4, gestisce 8.192 token”, abbiamo ricordato. Questa differenza nella capacità di elaborazione dei token sottolinea il vantaggio che i modelli Claude hanno nella gestione di input contestuali estesi, fondamentali per un’esperienza utente ricca di sfumature e arricchita.

Inoltre, nella gestione di richieste lunghe, Claude 2 ha dimostrato di essere superiore a GPT, gestendo in modo più efficiente le richieste di maggiore entità. Tuttavia, quando le richieste sono comparabili, Claude 1 e Claude Instant forniscono risultati simili o leggermente migliori rispetto a GPT-3.5, dimostrando la natura competitiva di questi modelli. Grazie alle capacità contestuali di Claude, una risposta iniziale scadente può essere notevolmente migliorata con un prompt più raffinato, più grande e più ricco.

I modelli open-source non sono lontani in questa gara.

WizardLM, un modello addestrato su LlaMA-2 di Meta con 70 miliardi di parametri, si distingue come il miglior LLM open-source. Seguono a breve distanza Vicuna 33B e l’originale LlaMA-2, rilasciato da Meta.

I modelli open-source svolgono un ruolo importante nello sviluppo dello spazio dell’IA per diversi motivi. Possono essere eseguiti localmente, il che offre agli utenti l’opportunità di perfezionarli e coinvolge la comunità in uno sforzo collettivo per perfezionare il modello. Sono anche più economici da gestire grazie alle loro licenze, motivo per cui lo spazio ha decine di LLM open-source e solo una manciata di modelli proprietari.

Ma il gioco dei chatbot AI non è solo una questione di numeri. Si tratta di implicazioni nel mondo reale.

Man mano che i chatbot diventano parte integrante di vari settori, dal servizio clienti agli assistenti personali, la loro efficacia, adattabilità e precisione diventano fondamentali. Con i modelli Claude che si posizionano al di sopra del GPT-3.5, le aziende e i singoli utenti potrebbero trovarsi di fronte a un bivio, valutando quale modello si allinei meglio alle loro esigenze. TCN ha preparato due guide per aiutarvi a decidere il modello più adatto a voi.

Per i non addetti ai lavori, questo potrebbe sembrare solo un altro aggiornamento delle classifiche. Ma per chi segue da vicino il settore dell’intelligenza artificiale, è una testimonianza di quanto sia agguerrita la concorrenza e di quanto rapidamente possano cambiare le carte in tavola. E per il resto di noi che siedono tra questi due campi, è un promemoria che ci ricorda che nel mondo dell’IA, il modello più popolare di oggi potrebbe cadere in quello più efficiente.

Related Posts

Leave a Comment