Home » Claude 2 è uscito: come si pone il chatbot di Anthropic rispetto a ChatGPT e Google Bard?

Claude 2 è uscito: come si pone il chatbot di Anthropic rispetto a ChatGPT e Google Bard?

by v

Anthropic, l’azienda di AI lanciata da ex ricercatori di OpenAI, ha presentato il suo chatbot aggiornato, Claude 2, puntando il dito contro rivali come ChatGPT e Google Bard.

A soli cinque mesi dal debutto di Claude, il suo successore vanta risposte più lunghe, ragionamenti ricchi di sfumature e prestazioni superiori, con punteggi impressionanti negli esami di lettura e scrittura GRE.

Claude 2 è stato definito un’intelligenza artificiale in grado di digerire fino a 100.000 token, equivalenti a 75.000 parole, in un singolo messaggio. Si tratta di un balzo in avanti rispetto al precedente limite di 9.000 token di Claude, che presenta un vantaggio unico: la capacità dell’intelligenza artificiale di fornire risposte più contestuali e migliorate.

Il nuovo modello ha fatto passi da gigante in diversi campi, tra cui la legge, la matematica e la codifica, valutati attraverso test standardizzati. Secondo Anthropic, Claude 2 ha ottenuto il 76,5% nella sezione a scelta multipla dell’esame di stato (GPT-3.5 ha ottenuto il 50,3%) e ha ottenuto un punteggio superiore al 90% dei candidati alle scuole di specializzazione negli esami di lettura e scrittura del GRE. Claude 2 ha anche ottenuto un punteggio del 71,2% nel test di codifica Codex HumanEval Python e un 88,0% nei problemi di matematica della scuola elementare GSM8k, rivelando le sue avanzate capacità di calcolo.

Come riportato da TCN, Claude di Anthropic è stato progettato con una “costituzione” unica, un insieme di regole ispirate alla Dichiarazione Universale dei Diritti Umani, che gli consente di auto-migliorarsi senza feedback umano, di identificare comportamenti scorretti e di adattare la propria condotta.

Ma come si pone rispetto ai due monarchi della collina, ChatGPT e il nuovo Bardo di Google? Cominciamo con le specifiche tecniche.

Prezzo:

  • ChatGPT: Gratuito per chi utilizza la versione GPT-3.5. Chi vuole utilizzare la versione più potente con GPT-4 dovrà pagare 20 dollari al mese per la versione ChatGPT Plus.
  • Claude: gratuito.
  • Bard: Gratuito

Disponibilità:

  • ChatGPT: è il più disponibile dei tre.
  • Bard: è disponibile in meno paesi rispetto a ChatGPT.
  • Claude: è temporaneamente disponibile negli Stati Uniti e nel Regno Unito.

Privacy:

  • ChatGPT: Consente agli utenti di cancellare le proprie interazioni. Non supporta la navigazione tramite VPN.
  • Bard: ha un’opzione per cancellare automaticamente le interazioni in 18 mesi. Non consente agli utenti di recuperare le interazioni precedenti. Supporta le VPN, che lo rendono virtualmente disponibile in qualsiasi parte del mondo, aggirando le restrizioni politiche.
  • Claude: consente agli utenti di cancellare le conversazioni. Supporta la navigazione in VPN.

Lingue supportate:

  • ChatGPT: Supporta oltre 80 lingue.
  • Bard: Supporta inglese, giapponese e coreano.
  • Claude: supporta diverse lingue diffuse come inglese, spagnolo, portoghese, francese, mandarino e tedesco. Se non riconosce una lingua (o se l’input presenta molti errori grammaticali), fornisce una frase introduttiva e poi risponde in inglese.

Gestione del contesto:

  • ChatGPT: La versione gratuita supporta 7.096 token di contesto, ChatGPT Plus (GPT-4) supporta 8.192 token. OpenAI offre una versione che supporta 32K token, ma non è utilizzata da ChatGPT.
  • Bard: Supporta 8.196 token di contesto.
  • Claude: Supporta 100.000 token di contesto – non è un errore di battitura.

Features:

  • ChatGPT: La versione gratuita non ha funzioni aggiuntive. GPT Plus offre un archivio di plugin, un interprete di codice e una funzione di navigazione web temporaneamente in pausa, supportata da Microsoft Bing. Fornisce il supporto per le API.
  • Bard: il chatbot è ancora in fase sperimentale, ma avrà un negozio di plugin e l’integrazione con Google Suite. Fornisce un accesso limitato alle sue API.
  • Claude: il chatbot può essere aggiunto a Slack e gestire diversi compiti come riassumere discussioni, fornire suggerimenti, fare brainstorming, ecc. Fornisce supporto API.

La battaglia dei prompt: ChatGPT vs Bard vs Claude

TCN ha utilizzato lo stesso prompt per confrontare i risultati ottenuti dai tre chatbot.

Comprendere le lingue straniere

Prima abbiamo chiesto il significato di una comune frase gergale spagnola. Claude si è dimostrato più attento e preciso nella spiegazione, ChatGPT ha fornito una spiegazione abbastanza buona, ma Bard si è rifiutato di rispondere, sostenendo di non saper parlare spagnolo. Tuttavia, una volta riformulata la richiesta da “cosa significa” a “qual è l’equivalente inglese”, Bard ha fornito una risposta migliore di quella fornita da ChatGPT, anche se meno esauriente di quella di Claude AI.

Risposta fornita da Claude 2.

Risposta fornita da Claude 2.


Risposta fornita da ChatGPT.

Risposta fornita da ChatGPT.


Risposta fornita da Google Bard.

Risposta fornita da Google Bard.

Informazioni aggiornate

Poi abbiamo chiesto ai modelli il prezzo del Bitcoin oggi. In questo modo non solo si testano le funzionalità di navigazione sul web, ma si misura anche la quantità di informazioni fornite da ciascuno sulla base di un singolo ordine.

ChatGPT non è riuscito. Non è connesso a Internet, quindi non può fornire informazioni aggiornate. Anche Claude non ha una connessione a Internet. A differenza di ChatGPT, però, ha allucinato una risposta con informazioni errate. Se un utente chiedesse qualcosa supponendo che Claude abbia una connessione a Internet, riceverebbe una risposta sbagliata che appare come corretta. Google Bard ha fornito le informazioni corrette.

Risposta fornita da ChatGPT.

Risposta fornita da ChatGPT.


Risposta fornita da Claude 2.

Risposta fornita da Claude 2.


Risposta fornita da Google Bard.

Risposta fornita da Google Bard.

Gestione del contesto

Poi abbiamo messo alla prova la capacità dei modelli di gestire grandi quantità di testo. Abbiamo usato la Bibbia come esempio e abbiamo copiato tutto il testo da Genesi 1:1 a Esodo 25:39 (quasi 62K parole). Poi abbiamo posto una domanda molto specifica, tratta dalla storia fornita nel testo.

L’unico modello in grado di fornire una risposta è stato Claude, come previsto. Ha impiegato circa 2 minuti per elaborare la domanda, ma ha fornito una risposta accurata. Abbiamo utilizzato marcatori specifici per assicurarci che non stesse barando e che stesse effettivamente analizzando il testo, e si è dimostrato all’altezza del compito.

Risposta fornita da Claude 2.

Risposta fornita da Claude 2.

Abilità non verbali

Finalmente, abbiamo chiesto ai modelli di gestire alcuni compiti matematici. Gli LLM AI non sono progettati per svolgere questo compito e ChatGPT Plus con GPT-4 è probabilmente la migliore opzione tra le tre con il suo interprete di codice. Tuttavia, abbiamo testato i tre modelli chiedendo loro di creare un piano di pagamento per una persona che sta cercando di saldare i debiti della sua carta di credito. Abbiamo anche chiesto ai modelli di classificare le carte da utilizzare e quelle da evitare.

Claude ha fornito le risposte più complete in termini di piano. Tuttavia, ha commesso un errore e ci ha consigliato di dare priorità alle spese sulla carta con il TAEG più alto.

Risposta fornita da Claude 2.

Risposta fornita da Claude 2.


L’interprete del codice di

ChatGPT ha fornito una risposta in cui si paga in eccesso una delle carte, il che non è molto utile se qualcuno ha debiti su altre carte.

Risposta fornita dall'interprete di codice di ChatGPT.

Risposta fornita dall’interprete di codice di ChatGPT.


GPT 3.5 non ha fornito risultati accurati, chiedendoci di pagare più soldi di quelli che avevamo effettivamente a disposizione.

Risposta fornita da ChatGPT.

Risposta fornita da ChatGPT.


Bard era piuttosto generico. Ha scelto la strada della sicurezza e non ha fornito alcun numero, descrivendo fondamentalmente quello che è noto come il metodo della valanga di debiti.

Risposta fornita da Google Bard.

Risposta fornita da Google Bard.

Punti di forza e di debolezza

Claude 2:

  • Punti di forza: Claude 2 ha un’impressionante capacità di gestire contesti di grandi dimensioni, fino a 100.000 token. Ha prestazioni superiori in vari campi, come la legge, la matematica e la codifica, e vanta punteggi elevati nei test standardizzati. È in grado di auto-migliorarsi e adattarsi senza feedback umano e supporta la navigazione VPN. Il chatbot può anche essere aggiunto a Slack per la gestione dei compiti e fornisce supporto API.
  • Punti deboli: È temporaneamente disponibile solo negli Stati Uniti e nel Regno Unito. Claude 2 non dispone di una connessione a Internet e può fornire informazioni errate se gli vengono chiesti dati attuali del mondo reale. Può commettere errori in compiti complessi e sembrare molto convincente.

ChatGPT:

  • Punti di forza: ChatGPT è il più diffuso dei tre modelli e supporta oltre 80 lingue. Offre inoltre il supporto API e un archivio di plugin nella versione ChatGPT Plus.
    Punti di debolezza: Ha capacità limitate di gestione del contesto rispetto a Claude 2. La versione gratuita non offre funzionalità aggiuntive ed è molto più limitata e di qualità inferiore rispetto alla versione a pagamento. La sua funzione di navigazione web è temporaneamente in pausa e non può fornire dati in tempo reale. In alcuni compiti complessi, può generare risultati inappropriati.

Google’s Bard:

  • Punti di forza: Bard supporta la navigazione VPN. Può fornire dati in tempo reale grazie alla sua connessione a Internet. Bard prevede inoltre di integrarsi con Google Suite e di offrire un negozio di plugin.
    Punti di debolezza: Bard supporta un numero inferiore di lingue rispetto a ChatGPT. Il suo accesso alle API è limitato e le sue capacità di gestione del contesto sono inferiori a quelle di Claude 2. Le risposte di Bard possono essere generiche e non utili in alcuni compiti complessi, il che è un compromesso ragionevole se l’utente vuole ridurre il rischio di allucinazioni.

Conclusione

Ora che il campo dei LLM di intelligenza artificiale e dei chatbot ha più opzioni disponibili, non si deve necessariamente diventare un fanboy di ChatGPT o entrare nel campo esclusivo di Google.

Se siete indecisi se pagare 20 dollari per ChatGPT Plus, prendete in considerazione l’utilizzo di Claude. Offre funzionalità paragonabili a GPT-4 e probabilmente produrrà risultati superiori a GPT-3.5, la versione disponibile in ChatGPT gratuito, e sarà una scelta migliore di Google Bard per la maggior parte degli utenti. Un’ulteriore caratteristica di Claude è la capacità di analizzare PDF e file con molte estensioni. È sufficiente trascinare e rilasciare i file nel programma, in modo simile ai plugin a pagamento disponibili nell’abbonamento GPT Plus. Quindi, prima di decidere di pagare per ChatGPT 4, potreste provare Claude. Potrebbe potenzialmente farvi risparmiare un po’ di soldi.

Tuttavia, ogni opzione ha punti di forza e di debolezza che rendono ogni bot più interessante per esigenze specifiche. Claude gestisce grandi quantità di dati, ma potrebbe non essere la scelta migliore per le attività che richiedono dati in tempo reale. ChatGPT è più creativo, perfetto per le attività che richiedono il supporto di lingue specifiche (e il suo negozio di plugin è davvero buono, se siete disposti a pagare il prezzo). D’altra parte, Bard è più concreto, accurato e sfrutta la connettività Internet, ma potrebbe non essere il migliore per le attività creative.

Alla fine, perché sceglierne uno? Non è necessario decidere quale sia il migliore: si possono usare tutti.

Related Posts

Leave a Comment