За пределами Барда: Google запускает Gemini, мультимодальный искусственный интеллект для борьбы с ChatGPT

Google ошеломил мир технологий в среду дебютом Gemini, своего потребительского и бизнес-набора мультимодальных инструментов искусственного интеллекта.

Среди технологических гигантов, активно внедряющих искусственный интеллект, поисковый титан Google, казалось, плавал в промежуточном пространстве, в то время как OpenAI, поддерживаемый Microsoft, продвигал ChatGPT до Turbo, а Vision и Anthropic модернизировали Claude. На сегодняшний день Google предлагает три версии Gemini-Nano, Pro и Ultra, которые легко понимают и интегрируют текст, изображения, аудио и видео.

Gemini, похоже, может превзойти лучшие модели ИИ от OpenAI, которые только что выпустили список новых возможностей, но вскоре были похоронены в корпоративных интригах.

Самая продвинутая версия, Gemini Ultra, показала высокие результаты в нескольких популярных бенчмарках, в некоторых случаях сравнявшись с человеческой производительностью или даже превзойдя ее. Например, он установил новые рекорды в 30 из 32 эталонов в экзамене MMLU, который охватывает различные академические предметы.

Ключевой особенностью Gemini является «родное мультимодальное» обучение, позволяющее обрабатывать несколько типов данных, таких как текст, изображения и аудио, в качестве входных и выходных данных. Такой подход означает, что модель была построена и обучена с нуля для понимания различных входных данных, а не является результатом последующего объединения отдельных режимов и модулей.

Самые популярные мультимодальные ИИ на сегодняшний день следуют последней дорожной карте. Например, ChatGPT сочетает в себе GPT-4 Turbo с Dall-E 3 для обработки текста и создания изображений, GPT-4 Vision для обработки изображений и специальный модуль кодирования для вычислений. В результате LLM отводится роль координатора между различными моделями ИИ, которые не могут самостоятельно понять всю суть конкретной проблемы.

Это ограничение также может привести к появлению уязвимостей вроде оперативных инъекций. Например, методы, позволяющие обойти контроль безопасности, установленный для текстовых подсказок: написать или распечатать текст на листе бумаги, сфотографировать его и попросить визуальный модуль обработать его.

Google Gemini

В отличие от этого, первые качественные оценки Gemini показывают его замечательную способность к кроссмодальным рассуждениям. Например, в образовательных учреждениях Gemini может понимать сложные задачи по физике, преобразовывать их в математические формулы и находить правильные решения. Эта способность открывает новые пути в образовании, а также в других областях.

Традиционные LLM обычно не очень хороши в математике, поэтому способности мультимодальных LLM семейства Gemini к рассуждениям заслуживают отдельного внимания.

В другом эталонном тесте, посвященном мультимодальному пониманию языка, Gemini Ultra показал точность более 90 %, превзойдя другие существующие модели. Google утверждает, что тесты на предпочтения людей также показали явное предпочтение Gemini перед такими моделями, как PaLM 2, в таких областях, как творческое письмо.

Более компактный сервис, Gemini Nano, разработан для обеспечения эффективности работы на устройстве и отлично справляется с задачами по подведению итогов, пониманию прочитанного и различным рассуждениям. Несмотря на меньший размер, Gemini Nano демонстрирует выдающуюся производительность по сравнению с более крупной моделью Gemini Pro. Это означает, что Gemini может стать предпочтительным ИИ для мобильных ассистентов, которые могут или должны работать в автономном режиме.

Gemini выглядит очень сильным дебютом, по любым меркам. А по мере совершенствования возможностей ИИ Google их универсальность может позволить найти новые применения во многих сферах. Однако пока для определения реальной производительности Gemini необходимы дополнительные испытания в реальных условиях.

Пользователи могут протестировать доработанную версию Gemini Pro уже сегодня вместе с Bard. Gemini Ultra будет выпущена в следующем году в новой версии чатбота Google под названием Bard Advanced. В конечном итоге Google планирует запустить Gemini на более чем 170 языках и использовать эту технологию для линейки Pixel и поисковой системы Search Generative Experience.

За пределами Барда: Google запускает Gemini, мультимодальный искусственный интеллект для борьбы с ChatGPT

Криптовалютная игровая платформа Portal пополнилась соучредителем Rockstar на фоне ажиотажа вокруг Airdrop

Основатель клана FaZe Бэнкс говорит, что Ethereum составляет «большой процент» его состояния

Related Posts

Leave a Comment Cancel Reply