Даже самая худшая версия ИИ Claude лучше GPT 3.5, утверждают исследователи

В индустрии искусственного интеллекта идет активное соревнование между известными моделями ChatGPT и Claude AI. Организация Large Model Systems Organization (LMSO), ответственная за создание Chatbot Arena и известной модели Vicuna, только что обновила таблицу лидеров Chatbot Arena, отражающую, как каждый ИИ-чатбот оценивает своих конкурентов. Оказалось, что Anthropic уступает OpenAI, даже несмотря на то, что его модели по-прежнему бесплатны.

Наибольшее количество баллов набрал GPT-4, создатель ChatGPT Plus и Bing AI, установивший золотой стандарт для больших языковых моделей (LLM). Но по мере продвижения вниз по таблице лидеров выясняется неожиданная история аутсайдера. Модели Claude компании Anthropic — Claude 1, Claude 2 и Claude Instant — все превосходят GPT-3.5, движок, на котором работает бесплатная версия ChatGPT. Это означает, что каждая Большая языковая модель, разработанная компанией Anthropic, может превзойти бесплатную версию ChatGPT.

Скрупулезная система ранжирования, разработанная LMSO, позволила получить представление о показателях производительности этих моделей. Согласно таблице лидеров, модель GPT-4 имеет рейтинг Arena Elo Rating 1181 и значительно лидирует в таблице, в то время как модели Claude следуют за ней с рейтингами от 1119 до 1155. GPT-3.5, напротив, отстает с рейтингом 1115.

Для ранжирования моделей LMSO заставляет их «сражаться» в матчах с одинаковыми заданиями. Модель с лучшим ответом побеждает, а другая проигрывает. Пользователи решают, кто победил, исходя из своих предпочтений, но они никогда не узнают, какие модели соревнуются.

Image: LMSO

Как уже сообщал TCN, разница в возможностях обработки токенов между ChatGPT Plus и Claude Pro, хотя и не является фактором, влияющим на рейтинг LMSO, но в то же время является одним из основных преимуществ моделей Claude перед GPT.

«Claude Pro, построенный на базе LLM Claude 2, может обрабатывать до 100 тыс. токенов информации, в то время как ChatGPT Plus, построенный на базе LLM GPT-4, обрабатывает 8192 токена», — напомнили мы. Такая разница в способности обрабатывать токены подчеркивает преимущество моделей Claude в управлении обширными контекстными данными, что очень важно для создания более тонкого и насыщенного пользовательского опыта.

Более того, при работе с длинными подсказками модель Claude 2 продемонстрировала превосходство над GPT, более эффективно обрабатывая подсказки большей величины. Однако при сопоставимых подсказках Claude 1 и Claude Instant показывают схожие или чуть лучшие результаты, чем GPT-3.5, что свидетельствует о конкурентной природе этих моделей. Благодаря контекстным возможностям Claude, плохой первоначальный ответ может быть значительно улучшен с помощью более тонкой, крупной и насыщенной подсказки.

Модели с открытым исходным кодом не отстают в этой гонке.

WizardLM, модель, обученная на Meta’s LlaMA-2 с 70 миллиардами параметров, выделяется как лучший открытый LLM. За ней следуют Vicuna 33B и оригинальная LlaMA-2, выпущенная компанией Meta.

В @lmsysorg только что обновилась таблица лидеров Chatbot Arena!

Наш WizardLM-70B теперь занимает первое место в рейтинге ⚔️Arena Elo и MT-bench.

❤️Main Участники:@CanXu20 @victorsungo_ai @ChiYeung_Law @hpluo12 @tangmensan

Таблица лидеров: https://t.co/1gkZKGVutQ
Модель… pic.twitter.com/bsJ0jv2i7I

— WizardLM (@WizardLM_AI) October 5, 2023

Модели с открытым исходным кодом играют важную роль в развитии пространства ИИ по разным причинам. Их можно запускать локально, что дает возможность пользователям дорабатывать их и вовлекает сообщество в коллективную работу по совершенствованию модели. Кроме того, они дешевле в эксплуатации за счет лицензионности, поэтому в пространстве существуют десятки открытых LLM и лишь несколько проприетарных моделей.

Но игра в чат-боты с искусственным интеллектом заключается не только в цифрах. Речь идет о реальных последствиях.

По мере того как чат-боты становятся неотъемлемой частью различных отраслей, от обслуживания клиентов до персональных помощников, их эффективность, адаптивность и точность приобретают первостепенное значение. Поскольку модели Claude имеют рейтинг выше GPT-3,5, предприятия и индивидуальные пользователи могут оказаться на распутье, оценивая, какая модель лучше всего соответствует их потребностям. TCN подготовила два руководства, которые помогут вам решить, какая модель подходит вам больше.

Для непосвященных это может показаться очередным обновлением таблицы лидеров. Но для тех, кто внимательно следит за индустрией искусственного интеллекта, это свидетельство того, насколько жесткой является конкуренция и как быстро могут меняться тенденции. А для остальных, кто находится между этими двумя лагерями, это напоминание о том, что в мире ИИ самая популярная на сегодняшний день модель может стать самой эффективной.

Даже самая худшая версия ИИ Claude лучше GPT 3.5, утверждают исследователи

Cyberpunk 2077″ отправляется в Голливуд, поскольку игра разошлась тиражом 25 миллионов копий

Создатель яхт-клуба Bored Ape NFT компания Yuga Labs подтверждает увольнения

Related Posts

Leave a Comment Cancel Reply