Новая китайская модель ИИ с открытым исходным кодом может похвастаться вдвое большей производительностью, чем ChatGPT

Модель искусственного интеллекта (ИИ), разработанная в Китае, набирает обороты по целому ряду направлений, включая ее открытость и способность обрабатывать до 200 000 токенов контекста, что значительно превосходит другие популярные модели, такие как Claude от Anthropic (100 000 токенов) или GPT-4 Turbo от OpenAI (128 000 токенов).

Прозванный серией Yi, пекинская компания Lingyi Wanwu Information Technology Company создала этот прогрессивный генеративный чатбот в своей лаборатории искусственного интеллекта 01.AI. Большая языковая модель (LLM) представлена в двух версиях: легкая Yi-6B-200K и более надежная Yi-34B-200K, обе способны сохранять огромный разговорный контекст и понимать английский и мандаринский языки.

Уже через несколько часов после выхода модель Yi взлетела вверх по чартам и стала второй по популярности моделью с открытым исходным кодом на Hugging Face, ключевом хранилище моделей ИИ.

Изображение: Hugging Face

Несмотря на то, что модели Yi справляются с огромными контекстными подсказками, они также очень эффективны и точны, опережая другие LLM в нескольких синтетических бенчмарках.

«Yi-34B превосходит гораздо более крупные модели, такие как LLaMA2-70B и Falcon-180B; кроме того, размер Yi-34B позволяет экономически эффективно поддерживать приложения, что дает разработчикам возможность создавать фантастические проекты», — объясняет 01.AI на своем сайте. Согласно таблице результатов, представленной разработчиками, самая мощная модель Yi показала высокие результаты в чтении, рассуждениях на основе здравого смысла, а также в таких распространенных тестах ИИ, как Gaokao и C-eval.

Большие языковые модели (LLM), такие как серия Yi, работают путем анализа и генерации результатов на основе языка. Они обрабатывают «лексемы», или единицы текста, которые могут быть размером в одно слово или часть слова.

Слова «200 000 лексем контекста» фактически означают, что модель может понимать и отвечать на значительно более длинные запросы, которые раньше были бы непосильны даже для самых продвинутых LLM. Модели серии Yi могут обрабатывать запросы, содержащие более сложную и подробную информацию, без сбоев.

Однако недавний анализ, проведенный сторонней компанией, указывает на ограничение в этой области. Когда запрос занимает более 65 % емкости модели Yi, она может не справляться с получением точной информации. Несмотря на это, если размер подсказки не превышает этот порог, модель серии Yi работает превосходно, даже в сценариях, которые вызывают деградацию в таких моделях, как Claude и ChatGPT.

Напряженное тестирование GPT-4-128K с длительным запоминанием контекста

128 тыс. лексем контекста — это круто, но какова производительность?

Я хотел выяснить это, поэтому провел анализ по принципу «иголка в стоге сена».

Некоторые ожидаемые (и неожиданные) результаты

Вот что я обнаружил:

Выводы:
* Отзыв GPT-4… pic.twitter.com/nHMokmfhW5

— Greg Kamradt (@GregKamradt) November 8, 2023

Ключевым отличием Yi является его полностью открытый исходный код, что позволяет пользователям запускать Yi локально на своих собственных системах. Это дает им больший контроль, возможность изменять архитектуру модели и позволяет не зависеть от внешних серверов.

«Мы прогнозируем, что ИИ 2.0 создаст платформу, которая по своим возможностям в десять раз превзойдет мобильный интернет, переработав все программное обеспечение и пользовательские интерфейсы», — утверждает 01.AI. «Эта тенденция приведет к появлению следующей волны приложений, ориентированных на ИИ, и бизнес-моделей, основанных на ИИ, что со временем будет способствовать развитию инноваций в области ИИ 2.0».

Открывая доступ к такой модели, 01.AI дает возможность разработчикам по всему миру создавать следующее поколение ИИ. Благодаря огромному количеству контекста в настраиваемом пакете, мы можем ожидать поток инновационных приложений, использующих Yi.

Потенциал таких моделей с открытым исходным кодом, как Yi-6B-200K и Yi-34B-200K, очень высок. Поскольку ИИ проникает в нашу жизнь, локальные системы обещают большую прозрачность, безопасность и настраиваемость по сравнению с закрытыми альтернативами, зависящими от облака.

В то время как Claude и GPT-4 Turbo привлекают к себе внимание, эта новая альтернатива с открытым исходным кодом может вскоре построить следующую стадию ИИ прямо на устройствах пользователей. Именно тогда, когда казалось, что не осталось никаких способов обновить наше оборудование, возможно, пришло время купить более мощное устройство, прежде чем вы обнаружите, что ваш местный ИИ превзошел более «контекстно-ориентированного» конкурента.

Новая китайская модель ИИ с открытым исходным кодом может похвастаться вдвое большей производительностью, чем ChatGPT

Руководство по игре Phantom Galaxies

ChatGPT приостанавливает подписку на платный тарифный план в связи с напряжением систем

Related Posts

Leave a Comment Cancel Reply