Home » Oltre il Bardo: Google lancia Gemini, un’intelligenza artificiale multimodale per sfidare ChatGPT

Oltre il Bardo: Google lancia Gemini, un’intelligenza artificiale multimodale per sfidare ChatGPT

by v

Google ha stupito il mondo della tecnologia mercoledì con il debutto di Gemini, la sua suite di strumenti di intelligenza artificiale multimodale rivolta a consumatori e aziende.

Tra i giganti tecnologici che si stanno spingendo in modo aggressivo verso l’intelligenza artificiale, il titano della ricerca Google sembrava nuotare in uno spazio intermedio, mentre OpenAI, sostenuta da Microsoft, spingeva ChatGPT verso Turbo e Vision e Anthropic aggiornavano Claude. A partire da oggi, Google si presenta con tre versioni di Gemini: Nano, Pro e Ultra, che comprendono e integrano perfettamente testo, immagini, audio e video.

Gemini sembra essere in grado di superare i modelli di IA top di gamma di OpenAI, che ha appena rilasciato una lista di nuove funzionalità, ma che subito dopo è stata seppellita dagli intrighi aziendali.

La versione più avanzata, Gemini Ultra, ha ottenuto ottimi risultati in diversi benchmark popolari, eguagliando o superando in alcuni casi le prestazioni umane. Ad esempio, ha stabilito nuovi record su 30 dei 32 benchmark dell’esame MMLU, che comprende una serie di materie accademiche.

Una caratteristica fondamentale di Gemini è l’addestramento “nativamente multimodale”, che gli consente di elaborare più tipi di dati come testo, immagini e audio come input e output. Questo approccio significa che il modello è stato costruito e addestrato da zero per comprendere diversi input, anziché essere il risultato di una successiva combinazione di modalità e moduli discreti.

Le IA multimodali più diffuse oggi seguono quest’ultima strada. Ad esempio, ChatGPT combina GPT-4 Turbo con Dall-E 3 per elaborare il testo e generare immagini, GPT-4 Vision per elaborare le immagini e uno speciale modulo di codifica per i calcoli. Di conseguenza, l’LLM è relegato al ruolo di coordinatore tra diversi modelli di IA che non sono in grado di comprendere in modo indipendente l’intera natura di un problema specifico.

Questa limitazione può anche portare a vulnerabilità come la prompt injection. Ad esempio, le tecniche per aggirare i controlli di sicurezza in vigore per i messaggi di testo scrivendoli o stampandoli su un pezzo di carta, scattando una foto e chiedendo al modulo visivo di elaborarli.

Google Gemini mostra ottimi risultati nei benchmark dell'intelligenza artificiale. Immagine: Google

Google Gemini mostra ottimi risultati nei benchmark dell’intelligenza artificiale. Immagine: Google


Le prime valutazioni qualitative di Gemini rivelano invece la sua notevole capacità di effettuare ragionamenti intermodali. Per esempio, in ambito educativo, Gemini è in grado di comprendere problemi complessi di fisica, di convertirli in formule matematiche e di fornire soluzioni corrette. Questa capacità apre percorsi di trasformazione nel campo dell’istruzione e in altri settori.

I LLM tradizionali non sono in genere molto bravi in matematica, quindi le capacità di ragionamento della famiglia Gemini di LLM multimodali meritano una certa attenzione.

In un altro test di benchmark incentrato sulla comprensione del linguaggio multimodale, Gemini Ultra ha ottenuto un’accuratezza superiore al 90%, superando altri modelli esistenti. Google sostiene che anche i test di preferenza umana hanno mostrato una chiara preferenza per Gemini rispetto a modelli come PaLM 2 in aree come la scrittura creativa.

Il servizio più piccolo, Gemini Nano, è stato progettato per l’efficienza sul dispositivo, eccellendo nella sintesi, nella comprensione della lettura e in vari compiti di ragionamento. Nonostante le dimensioni ridotte, Gemini Nano mostra prestazioni notevoli rispetto al modello più grande Gemini Pro. Ciò significa che Gemini potrebbe diventare l’IA preferita per alimentare gli assistenti mobili che possono o devono lavorare offline.

Gemini sembra un debutto molto forte, sotto ogni punto di vista. Con il miglioramento delle capacità dell’intelligenza artificiale di Google, la sua versatilità potrebbe consentire nuove applicazioni in molti settori. Per ora, tuttavia, sono necessari ulteriori test sul mondo reale per determinare i livelli realistici delle sue prestazioni.

Gli utenti possono testare oggi una versione perfezionata di Gemini Pro con Bard. Gemini Ultra sarà rilasciato l’anno prossimo in una nuova versione del chatbot di Google chiamata Bard Advanced. Google prevede di lanciare Gemini in oltre 170 lingue diverse e di utilizzare la tecnologia per la linea Pixel e la Search Generative Experience.

Related Posts

Leave a Comment