Home » Para além do ChatGPT: O NExT-GPT é um modelo de código aberto que permite dominar a IA com áudio, vídeo e texto

Para além do ChatGPT: O NExT-GPT é um modelo de código aberto que permite dominar a IA com áudio, vídeo e texto

by Tim

Num cenário tecnológico em expansão dominado por gigantes como a OpenAI e a Google, o NExT-GPT – um modelo de linguagem grande (LLM) de IA multimodal de código aberto – pode ter o que é preciso para competir nas grandes ligas.

O ChatGPT conquistou o mundo com a sua capacidade de compreender consultas em linguagem natural e gerar respostas semelhantes às humanas. Mas à medida que a IA continua a avançar à velocidade da luz, as pessoas exigem mais poder. A era do texto puro já terminou e os LLM multimodais estão a chegar.

Desenvolvido através de uma colaboração entre a Universidade Nacional de Singapura (NUS) e a Universidade de Tsinghua, o NExT-GPT pode processar e gerar combinações de texto, imagens, áudio e vídeo. Isto permite interacções mais naturais do que os modelos só de texto, como a ferramenta básica ChatGPT.

A equipa que o criou apresenta o NExT-GPT como um sistema “any-to-any”, o que significa que pode aceitar entradas em qualquer modalidade e dar respostas na forma apropriada.
O potencial de avanço rápido é enorme. Sendo um modelo de código aberto, o NExT-GPT pode ser modificado pelos utilizadores para se adequar às suas necessidades específicas. Isto pode levar a melhorias dramáticas para além do original, tal como aconteceu com o Stable Diffusion em relação ao seu lançamento inicial. Democratizar o acesso permite aos criadores moldar a tecnologia para obter o máximo impacto.

Então, como é que o NExT-GPT funciona? Tal como explicado no documento de investigação do modelo, o sistema tem módulos separados para codificar entradas como imagens e áudio em representações semelhantes a texto que o modelo de linguagem central pode processar.

Os investigadores introduziram uma técnica designada “modality-switching instruction tuning” para melhorar as capacidades de raciocínio intermodal – a sua capacidade de processar diferentes tipos de dados como uma estrutura coerente. Esta afinação ensina o modelo a alternar sem problemas entre modalidades durante as conversações.

Para lidar com as entradas, o NExT-GPT usa tokens únicos, como para imagens, para áudio e para vídeo. Cada tipo de entrada é convertido em embeddings que o modelo de linguagem compreende. O modelo de linguagem pode então produzir texto de resposta, bem como tokens de sinal especiais para acionar a geração noutras modalidades.

Um símbolo na resposta diz ao descodificador de vídeo para produzir uma saída de vídeo correspondente, por exemplo. A utilização pelo sistema de símbolos adaptados a cada modalidade de entrada e saída permite uma conversão flexível de qualquer para qualquer.

O modelo de linguagem emite então tokens especiais para assinalar quando devem ser gerados resultados não textuais, como imagens. Diferentes descodificadores criam então as saídas para cada modalidade: Stable Diffusion como descodificador de imagem, AudioLDM como descodificador de áudio e Zeroscope como descodificador de vídeo. Também usa Vicuna como LLM de base e ImageBind para codificar as entradas.

O NExT-GPT é essencialmente um modelo que combina o poder de diferentes IAs para se tornar uma espécie de super IA tudo-em-um.

Captura de ecrã cortesia de: AI Papers Academy via YouTube

Captura de ecrã cortesia de: AI Papers Academy via YouTube


O

NExT-GPT consegue esta conversão flexível de “qualquer para qualquer” enquanto treina apenas 1% do total de parâmetros. O resto dos parâmetros são módulos congelados e pré-treinados – o que foi elogiado pelos investigadores como um design muito eficiente.

Foi criado um sítio de demonstração para permitir que as pessoas testem o NExT-GPT, mas a sua disponibilidade é intermitente.

Com gigantes da tecnologia como a Google e a OpenAI a lançarem os seus próprios produtos de IA multimodal, o NExT-GPT representa uma alternativa de código aberto para os criadores. A multimodalidade é fundamental para as interacções naturais. E ao abrir o NExT-GPT, os investigadores estão a fornecer um trampolim para a comunidade levar a IA para o próximo nível.

Related Posts

Leave a Comment