Google Labs объявила о крупном обновлении своего инструмента ИИ Gemini Pro — средней модели ИИ, на которой основана бесплатная версия ее чатбота, — добавив возможность обрабатывать до 1 миллиона токенов в режиме предварительного просмотра. Это обеспечивает беспрецедентный «размер контекста», который оставляет в пыли текущие ведущие инструменты и их 128-килобайтные возможности.
Обновление до Gemini Pro v1.5 делает его теоретически на 700 % мощнее, чем платная модель GPT-4 от OpenAI, и устанавливает новую планку для вычислительной лингвистики и машинного обучения среди больших языковых моделей (LLM).
По словам Google, это «самое длинное контекстное окно среди всех крупномасштабных базовых моделей».
«До сегодняшнего дня самое большое контекстное окно в мире для общедоступной большой языковой модели составляло 200 000 лексем. Нам удалось значительно увеличить этот показатель — мы постоянно используем до 1 миллиона токенов», — поделилась команда Google Labs.
Благодаря этой функции Gemini Pro станет более производительной, чем самая мощная версия текущей линейки Gemini и любая другая LLM, доступная в настоящее время». Однако этот контекст был запущен для тестирования, в то время как грядущая стабильная версия Gemini Pro будет работать с токенами до 128 тысяч.
Хотя этот релиз станет значительным обновлением по сравнению с 32 000 токенов, которые может обрабатывать Gemini 1.0, пользователям придется подождать, чтобы увидеть, что может сделать 1 миллион токенов.
Этот шаг — последнее наступление Google в гонке за доминирование в индустрии ИИ. На прошлой неделе Gemini Advanced стал первым серьезным конкурентом ChatGPT Plus. В отличие от Клода из Anthropic, чатбот Google является мультимодальным, показывает хорошие результаты в различных тестах и предлагает набор функций, которых нет у OpenAI.
Gemini Advanced, однако, придется догонять GPT-4.5 Turbo, который уже обрабатывает 128 000 токенов.
Универсальность Gemini 1.5 была наглядно продемонстрирована в ходе нескольких демонстраций. Google заявила, что он «может обрабатывать огромные объемы информации за один проход — включая 1 час видео, 11 часов аудио, кодовые базы с более чем 30 000 строк кода или более 700 000 слов».
«В наших исследованиях мы также успешно протестировали до 10 миллионов лексем», — добавила команда.
Один недостаток: Модели Gemini не могут анализировать PDF-файлы, на что TCN указал в своем сравнении между Gemini и ChatGPT.
«Смесь экспертов» останется
Еще одно отличие Gemini 1.5 от предыдущих версий — использование Mixture of Experts, той же технологии, которую использовал Mistral AI для создания своей более легкой модели. Модель от Mistral оказалась достаточно мощной, чтобы обойти GPT 3.5 и вырваться в верхний эшелон лучших LLM с открытым исходным кодом.
«(Mixture of Experts) направляет ваш запрос группе более мелких «экспертных» нейросетей, поэтому ответы на него будут быстрее и качественнее», — говорится в сообщении Google.
Как и в случае с Mistral, Google удалось заставить свою модель блистать. Gemini 1.5 Pro показала более высокую производительность в нескольких бенчмарках по сравнению с Gemini Ultra 1.0, что говорит о многообещающем будущем для LLM от Google.
«Gemini 1.5 Pro демонстрирует значительные улучшения по ряду параметров и достигает качества, сравнимого с 1.0 Ultra, при этом используя меньше вычислений», — заявил сегодня в своем блоге генеральный директор Google Сундар Пичаи.
В сообщении не указываются сроки выхода Gemini Advanced 1.5. Тем временем OpenAI активно разрабатывает GPT-5. Расширенные возможности Gemini по работе с токенами помогут укрепить позиции Google в гонке вооружений ИИ.