Home » Отвъд ChatGPT: NExT-GPT е модел с отворен код, който ви позволява да овладеете изкуствения интелект с аудио, видео и текст

Отвъд ChatGPT: NExT-GPT е модел с отворен код, който ви позволява да овладеете изкуствения интелект с аудио, видео и текст

by Patricia

На разрастващата се технологична сцена, доминирана от гиганти като OpenAI и Google, NExT-GPT – мултимодален модел на голям език (LLM) с отворен код – може би има всичко необходимо, за да се състезава в по-горната лига.

ChatGPT завладя света със способността си да разбира заявки на естествен език и да генерира отговори, подобни на човешките. Но тъй като изкуственият интелект продължава да се развива със светкавична скорост, хората поискаха повече възможности. Ерата на чистия текст вече е приключила и настъпват мултимодалните LLM.

Разработен чрез сътрудничество между Националния университет на Сингапур (NUS) и университета Цинхуа, NExT-GPT може да обработва и генерира комбинации от текст, изображения, аудио и видео. Това дава възможност за по-естествени взаимодействия в сравнение с моделите, използващи само текст, като основния инструмент ChatGPT.

Екипът, който го е създал, представя NExT-GPT като система „от всеки до всеки“, което означава, че тя може да приема входни данни във всяка модалност и да предоставя отговори в подходяща форма.

Потенциалът за бърз напредък е огромен. Като модел с отворен код, NExT-GPT може да бъде модифициран от потребителите, за да отговаря на техните специфични нужди. Това може да доведе до драстични подобрения, надхвърлящи първоначалния вариант, подобно на това, което се случи със стабилната дифузия спрямо първоначалното ѝ издание. Демократизирането на достъпа позволява на създателите да оформят технологията за постигане на максимално въздействие.

И така, как работи NExT-GPT? Както е обяснено в изследователския документ на модела, системата има отделни модули за кодиране на входни данни като изображения и аудио в текстови изображения, които основният езиков модел може да обработва.

Изследователите са въвели техника, наречена „настройка на инструкциите за превключване на модалността“, за да подобрят способностите за крос-модално разсъждаване – способността му да обработва различни видове входове като една съгласувана структура. Тази настройка научава модела да превключва безпроблемно между модалностите по време на разговори.

За да обработва входните данни, NExT-GPT използва уникални токени, например за изображения, за аудио и за видео. Всеки тип входни данни се преобразува във вградени символи, които езиковият модел разбира. След това езиковият модел може да извежда текст за отговор, както и специални сигнални токени, които да задействат генериране в други модалности.

Например даден символ в отговора указва на видеодекодера да произведе съответния видеоизход. Използването от системата на адаптирани токени за всяка входна и изходна модалност позволява гъвкаво преобразуване от всяко към всяко.

След това езиковият модел извежда специални токени, за да сигнализира, когато трябва да се генерират нетекстови изходи като изображения. След това различни декодери създават изходите за всяка модалност: Стабилна дифузия като декодер на изображения, AudioLDM като аудиодекодер и Zeroscope като видеодекодер. Също така се използва Vicuna като базов LLM и ImageBind за кодиране на входовете.

NExT-GPT по същество е модел, който съчетава възможностите на различни ИИ, за да се превърне в един вид универсален супер ИИ.

Скрийншот с любезното съдействие на: AI Papers Academy via YouTube

Скрийншот с любезното съдействие на: AI Papers Academy via YouTube


NExT-GPT постига това гъвкаво преобразуване „от всяко към всяко“, като същевременно обучава само 1% от общите параметри. Останалата част от параметрите са замразени, предварително обучени модули – което печели похвали от изследователите като много ефективен дизайн.

Създаден е демонстрационен сайт, който позволява на хората да тестват NExT-GPT, но достъпът до него е прекъснат.

Тъй като технологични гиганти като Google и OpenAI пускат свои собствени мултимодални продукти за изкуствен интелект, NExT-GPT представлява алтернатива с отворен код, върху която създателите могат да надграждат. Мултимодалността е от ключово значение за естествените взаимодействия. И като предоставят NExT-GPT като отворен източник, изследователите осигуряват трамплин за общността, за да премине към следващото ниво на ИИ.

Related Posts

Leave a Comment