Beyond ChatGPT: NExT-GPT to model OpenSource, który pozwala opanować sztuczną inteligencję za pomocą audio, wideo i tekstu

by Tim 19 października, 2023

written by Tim 19 października, 2023

Na rozwijającej się scenie technologicznej zdominowanej przez gigantów takich jak OpenAI i Google, NExT-GPT – multimodalny model językowy AI (LLM) o otwartym kodzie źródłowym – może mieć to, czego potrzeba, aby konkurować w wielkich ligach.

ChatGPT szturmem podbił świat dzięki swojej zdolności do rozumienia zapytań w języku naturalnym i generowania odpowiedzi podobnych do ludzkich. Ponieważ jednak sztuczna inteligencja rozwija się w błyskawicznym tempie, ludzie domagają się większej mocy. Era czystego tekstu już się skończyła i nadchodzi multimodalne LLM.

Opracowany w ramach współpracy między National University of Singapore (NUS) i Tsinghua University, NExT-GPT może przetwarzać i generować kombinacje tekstu, obrazów, audio i wideo. Pozwala to na bardziej naturalne interakcje niż modele oparte wyłącznie na tekście, takie jak podstawowe narzędzie ChatGPT.

Zespół, który go stworzył, określa NExT-GPT jako system „any-to-any”, co oznacza, że może on akceptować dane wejściowe w dowolnej modalności i dostarczać odpowiedzi w odpowiedniej formie.

Potencjał szybkiego rozwoju jest ogromny. Jako model open-source, NExT-GPT może być modyfikowany przez użytkowników w celu dostosowania go do ich konkretnych potrzeb. Może to prowadzić do radykalnych ulepszeń wykraczających poza oryginał, podobnie jak miało to miejsce w przypadku Stable Diffusion w porównaniu z jego początkową wersją. Demokratyzacja dostępu pozwala twórcom kształtować technologię w celu uzyskania maksymalnego wpływu.

Jak więc działa NExT-GPT? Jak wyjaśniono w dokumencie badawczym modelu, system ma oddzielne moduły do kodowania danych wejściowych, takich jak obrazy i dźwięk, w reprezentacje tekstowe, które może przetwarzać podstawowy model językowy.

Naukowcy wprowadzili technikę zwaną „dostrajaniem instrukcji przełączania modalności”, aby poprawić zdolności rozumowania międzymodalnego – jego zdolność do przetwarzania różnych typów danych wejściowych jako jednej spójnej struktury. Strojenie to uczy model płynnego przełączania się między modalnościami podczas rozmów.

Do obsługi danych wejściowych NExT-GPT używa unikalnych tokenów, takich jak obrazy, audio i wideo. Każdy typ danych wejściowych jest konwertowany na osadzenia, które rozumie model językowy. Model językowy może następnie wyprowadzić tekst odpowiedzi, a także specjalne tokeny sygnału, aby uruchomić generowanie w innych modalnościach.

Token w odpowiedzi nakazuje na przykład dekoderowi wideo wygenerowanie odpowiedniego wyjścia wideo. Wykorzystanie przez system dostosowanych tokenów dla każdej modalności wejściowej i wyjściowej umożliwia elastyczną konwersję z dowolnego na dowolny.

Model językowy generuje następnie specjalne tokeny sygnalizujące, kiedy należy wygenerować nietekstowe dane wyjściowe, takie jak obrazy. Następnie różne dekodery tworzą dane wyjściowe dla każdej modalności: Stable Diffusion jako dekoder obrazu, AudioLDM jako dekoder dźwięku i Zeroscope jako dekoder wideo. Wykorzystuje również Vicuna jako bazowy LLM i ImageBind do kodowania danych wejściowych.

NExT-GPT jest zasadniczo modelem, który łączy moc różnych AI, aby stać się rodzajem super AI typu all-in-one.

Zrzut ekranu dzięki uprzejmości: AI Papers Academy via YouTube

NExT-GPT osiąga tę elastyczną konwersję „dowolny do dowolnego”, trenując tylko 1% wszystkich parametrów. Reszta parametrów to zamrożone, wstępnie wytrenowane moduły – zyskując uznanie badaczy jako bardzo wydajny projekt.

Utworzono witrynę demonstracyjną, aby umożliwić ludziom testowanie NExT-GPT, ale jej dostępność jest przerywana.

Ponieważ giganci technologiczni, tacy jak Google i OpenAI, wprowadzają na rynek własne produkty multimodalnej sztucznej inteligencji, NExT-GPT stanowi alternatywę open source dla twórców. Multimodalność jest kluczem do naturalnych interakcji. Dzięki otwartemu oprogramowaniu NExT-GPT naukowcy zapewniają społeczności trampolinę do przeniesienia sztucznej inteligencji na wyższy poziom.

Beyond ChatGPT: NExT-GPT to model OpenSource, który pozwala opanować sztuczną inteligencję za pomocą audio, wideo i tekstu

Spotify obejmuje AI, unika zakazu muzyki AI i dodaje tłumaczenie podcastów AI

Xbox przechodzi na kryptowaluty? Wyciekła mapa drogowa Microsoftu zawiera plany portfela

Related Posts

Leave a Comment Cancel Reply