Voorbij ChatGPT: NExT-GPT is een open-source model waarmee je AI kunt beheersen met audio, video en tekst.

by v oktober 19, 2023

written by v oktober 19, 2023

In een ontluikende technologiewereld die wordt gedomineerd door giganten als OpenAI en Google, heeft NExT-GPT – een open source multimodaal AI-groot taalmodel (LLM) – misschien wel wat nodig is om mee te doen in de grote competities.

ChatGPT veroverde de wereld stormenderhand met zijn vermogen om zoekopdrachten in natuurlijke taal te begrijpen en mensachtige antwoorden te genereren. Maar nu AI zich razendsnel blijft ontwikkelen, eisen mensen meer vermogen. Het tijdperk van pure tekst is al voorbij en multimodale LLM’s komen eraan.

NExT-GPT is ontwikkeld door een samenwerking tussen de National University of Singapore (NUS) en Tsinghua University en kan combinaties van tekst, afbeeldingen, audio en video verwerken en genereren. Hierdoor zijn natuurlijkere interacties mogelijk dan met modellen die alleen tekst bevatten, zoals de basistool ChatGPT.

Het team dat NExT-GPT heeft ontwikkeld, presenteert het als een “any-to-any” systeem, wat betekent dat het invoer in elke modaliteit kan accepteren en antwoorden in de juiste vorm kan geven.

Het potentieel voor snelle vooruitgang is enorm. Als open-source model kan NExT-GPT door gebruikers worden aangepast aan hun specifieke behoeften. Dit kan leiden tot drastische verbeteringen die verder gaan dan het origineel, net als wat er gebeurde met Stable Diffusion na de eerste release. Door de toegang te democratiseren kunnen makers de technologie vormgeven voor maximale impact.

Dus hoe werkt NExT-GPT? Zoals uitgelegd in het onderzoekspaper van het model, heeft het systeem aparte modules om invoer zoals afbeeldingen en audio te coderen in tekstachtige representaties die het kerntaalmodel kan verwerken.

De onderzoekers introduceerden een techniek genaamd “modality-switching instruction tuning” om het cross-modale redeneervermogen te verbeteren – het vermogen om verschillende soorten invoer als één samenhangende structuur te verwerken. Deze afstemming leert het model om naadloos te schakelen tussen modaliteiten tijdens gesprekken.

Om input te verwerken gebruikt NExT-GPT unieke tokens, zoals voor afbeeldingen, voor audio en voor video. Elk type invoer wordt omgezet in embeddings die het taalmodel begrijpt. Het taalmodel kan vervolgens responstekst uitvoeren, evenals speciale signaaltokens om generatie in andere modaliteiten te activeren.

Een token in het antwoord vertelt de videodecoder bijvoorbeeld om een overeenkomstige video-output te produceren. Het gebruik van op maat gemaakte tokens voor elke invoer- en uitvoermodaliteit maakt flexibele omzetting van alles naar alles mogelijk.

Het taalmodel geeft vervolgens speciale tokens om aan te geven wanneer niet-tekstuitvoer, zoals afbeeldingen, moet worden gegenereerd. Verschillende decoders creëren dan de uitvoer voor elke modaliteit: Stable Diffusion als de beelddecoder, AudioLDM als de audiodecoder en Zeroscope als de videodecoder. Het gebruikt ook Vicuna als de basis LLM en ImageBind om de invoer te coderen.

NExT-GPT is in wezen een model dat de kracht van verschillende AI’s combineert tot een soort alles-in-één super-AI.

Screenshot met dank aan: AI Papers Academy via YouTube

NExT-GPT bereikt deze flexibele “any-to-any” conversie terwijl slechts 1% van de totale parameters wordt getraind. De rest van de parameters zijn bevroren, voorgetrainde modules, die door de onderzoekers worden geprezen als een zeer efficiënt ontwerp.

Er is een demosite opgezet waar mensen NExT-GPT kunnen testen, maar deze is met tussenpozen beschikbaar.

Nu techgiganten als Google en OpenAI hun eigen multimodale AI-producten lanceren, vormt NExT-GPT een open source alternatief waarop makers kunnen voortbouwen. Multimodaliteit is de sleutel tot natuurlijke interacties. En door NExT-GPT open source te maken, bieden onderzoekers een springplank voor de gemeenschap om AI naar een hoger niveau te tillen.

AI ChatGPT Developed Dominated Leagues Multimodal Singapore Technology

Voorbij ChatGPT: NExT-GPT is een open-source model waarmee je AI kunt beheersen met audio, video en tekst.

Spotify omarmt AI, schrapt AI-muziekverbod en voegt AI-podcastvertaling toe

Xbox gaat voor crypto? Uitgelekte Microsoft Roadmap Bevat plannen voor portemonnee

Related Posts

Leave a Comment Cancel Reply