Home » Oltre la ChatGPT: NExT-GPT è un modello open source che consente di padroneggiare l’AI con audio, video e testo

Oltre la ChatGPT: NExT-GPT è un modello open source che consente di padroneggiare l’AI con audio, video e testo

by Thomas

In una scena tecnologica in piena espansione, dominata da giganti come OpenAI e Google, NExT-GPT, un modello linguistico multimodale open source, potrebbe avere le carte in regola per competere con i grandi.

ChatGPT ha conquistato il mondo con la sua capacità di comprendere le query in linguaggio naturale e di generare risposte simili a quelle umane. Ma mentre l’IA continua a progredire alla velocità della luce, le persone hanno chiesto più potenza. L’era del testo puro è già finita e stanno arrivando le LLM multimodali.

Sviluppato grazie alla collaborazione tra la National University of Singapore (NUS) e la Tsinghua University, NExT-GPT è in grado di elaborare e generare combinazioni di testo, immagini, audio e video. Ciò consente interazioni più naturali rispetto a modelli di solo testo come lo strumento ChatGPT di base.

Il team che lo ha creato definisce NExT-GPT un sistema “any-to-any”, ovvero in grado di accettare input in qualsiasi modalità e di fornire risposte nella forma appropriata.

Il potenziale per un rapido progresso è enorme. Essendo un modello open-source, NExT-GPT può essere modificato dagli utenti per soddisfare le loro esigenze specifiche. Questo potrebbe portare a miglioramenti drastici rispetto all’originale, proprio come è successo con Stable Diffusion rispetto al suo rilascio iniziale. La democratizzazione dell’accesso consente ai creatori di modellare la tecnologia per ottenere il massimo impatto.

Come funziona NExT-GPT? Come spiegato nel documento di ricerca del modello, il sistema ha moduli separati per codificare input come immagini e audio in rappresentazioni simili al testo che il modello linguistico principale può elaborare.

I ricercatori hanno introdotto una tecnica chiamata “modality-switching instruction tuning” per migliorare le capacità di ragionamento cross-modale, ossia la capacità di elaborare diversi tipi di input come un’unica struttura coerente. Questa messa a punto insegna al modello a passare senza problemi da una modalità all’altra durante le conversazioni.

Per gestire gli input, NExT-GPT utilizza token unici, come per le immagini, l’audio e il video. Ogni tipo di input viene convertito in embeddings comprensibili dal modello linguistico. Il modello linguistico può quindi emettere un testo di risposta, oltre a token di segnale speciali per attivare la generazione in altre modalità.

Un token nella risposta indica al decodificatore video di produrre un output video corrispondente, ad esempio. L’uso di token personalizzati per ogni modalità di ingresso e di uscita consente una conversione flessibile da qualsiasi a qualsiasi.

Il modello linguistico emette poi token speciali per segnalare quando devono essere generati output non testuali come le immagini. Decodificatori diversi creano quindi gli output per ogni modalità: Stable Diffusion come decodificatore di immagini, AudioLDM come decodificatore audio e Zeroscope come decodificatore video. Utilizza anche Vicuna come LLM di base e ImageBind per codificare gli ingressi.

NExT-GPT è essenzialmente un modello che combina la potenza di diverse AI per diventare una sorta di super AI all-in-one.

Screenshot courtesy of: AI Papers Academy via YouTube

Screenshot courtesy of: AI Papers Academy via YouTube


NExT-GPT ottiene questa conversione flessibile “any-to-any” addestrando solo l’1% dei parametri totali. Il resto dei parametri è costituito da moduli congelati e preaddestrati, che sono stati elogiati dai ricercatori come un progetto molto efficiente.

È stato creato un sito dimostrativo per consentire alle persone di testare NExT-GPT, ma la sua disponibilità è intermittente.

Con colossi tecnologici come Google e OpenAI che hanno lanciato i propri prodotti di intelligenza artificiale multimodale, NExT-GPT rappresenta un’alternativa open source su cui i creatori possono basarsi. La multimodalità è fondamentale per le interazioni naturali. Con l’open source di NExT-GPT, i ricercatori forniscono alla comunità un trampolino di lancio per portare l’IA a un livello superiore.

Related Posts

Leave a Comment