За пределами ChatGPT: NExT-GPT - модель с открытым исходным кодом, позволяющая осваивать ИИ с помощью аудио, видео и текста

На развивающейся технологической сцене, где доминируют такие гиганты, как OpenAI и Google, NExT-GPT — мультимодальная многоязыковая модель ИИ с открытым исходным кодом (LLM) — возможно, имеет все необходимое для того, чтобы конкурировать в высшей лиге.

ChatGPT поразила мир своей способностью понимать запросы на естественном языке и генерировать ответы, похожие на человеческие. Но по мере того как ИИ продолжает развиваться с молниеносной скоростью, люди стали требовать больше возможностей. Эра чистого текста уже закончилась, и на смену ей приходят мультимодальные LLM.

Разработанный в сотрудничестве между Национальным университетом Сингапура (NUS) и Университетом Цинхуа, NExT-GPT может обрабатывать и генерировать комбинации текста, изображений, аудио и видео. Это позволяет обеспечить более естественное взаимодействие, чем модели, использующие только текст, такие как базовый инструмент ChatGPT.

Создатели NExT-GPT называют NExT-GPT системой «от любого к любому», то есть она может принимать входные данные в любой модальности и выдавать ответы в соответствующей форме.

Потенциал для быстрого развития огромен. Являясь моделью с открытым исходным кодом, NExT-GPT может быть модифицирована пользователями в соответствии с их специфическими потребностями. Это может привести к значительным улучшениям по сравнению с первоначальным вариантом, подобно тому, как это произошло со Stable Diffusion по сравнению с его первоначальным выпуском. Демократизация доступа позволяет создателям формировать технологию для достижения максимального эффекта.

Как же работает NExT-GPT? Как объясняется в статье, посвященной исследованию этой модели, система имеет отдельные модули для кодирования входных данных, таких как изображения и аудио, в текстоподобные представления, которые может обрабатывать основная языковая модель.

Для улучшения способности к кросс-модальному мышлению — способности обрабатывать различные типы входных данных как единую целостную структуру — исследователи применили методику, названную «настройкой инструкции по переключению модальностей». Эта настройка позволяет научить модель плавно переключаться между модальностями во время разговора.

Для обработки входных данных NExT-GPT использует уникальные лексемы — для изображений, для аудио и для видео. Каждый тип входных данных преобразуется во вкрапления, которые понимает языковая модель. Затем языковая модель может выдавать ответный текст, а также специальные сигнальные лексемы для запуска генерации в других модальностях.

Например, токен в ответе указывает видеодекодеру на необходимость создания соответствующего видеовыхода. Использование в системе специальных маркеров для каждой модальности ввода и вывода позволяет гибко преобразовывать любой текст в любой.

Затем языковая модель выдает специальные лексемы, сигнализирующие о необходимости создания нетекстовых выходных данных, например, изображений. Затем различные декодеры создают выходные сигналы для каждой модальности: Stable Diffusion в качестве декодера изображений, AudioLDM в качестве декодера аудио и Zeroscope в качестве декодера видео. В качестве базового LLM используется Vicuna, а для кодирования входных данных — ImageBind.

NExT-GPT — это, по сути, модель, объединяющая возможности различных ИИ, чтобы стать своего рода универсальным супер-ИИ.

Screenshot courtesy of: AI Papers Academy via YouTube

NExT-GPT достигает такого гибкого преобразования «любой в любой», обучая всего 1% от общего числа параметров. Остальные параметры представляют собой замороженные, предварительно обученные модули, что заслужило высокую оценку исследователей как очень эффективная конструкция.

Для тестирования NExT-GPT был создан демонстрационный сайт, однако доступ к нему осуществляется с перерывами.

В условиях, когда такие технологические гиганты, как Google и OpenAI, выпускают свои собственные продукты для мультимодального ИИ, NExT-GPT представляет собой альтернативу с открытым исходным кодом, на которую могут опираться создатели. Мультимодальность — это ключ к естественному взаимодействию. А открывая NExT-GPT, исследователи обеспечивают трамплин для сообщества, чтобы вывести ИИ на новый уровень.

За пределами ChatGPT: NExT-GPT — модель с открытым исходным кодом, позволяющая осваивать ИИ с помощью аудио, видео и текста

Spotify использует искусственный интеллект, отказывается от запрета музыки с искусственным интеллектом и добавляет перевод подкастов с искусственным интеллектом

Xbox переходит на криптовалюты? Утечка дорожной карты Microsoft включает планы по созданию кошелька

Related Posts

Leave a Comment Cancel Reply