Home » Дори най-лошата версия на Клод ИИ е по-добра от GPT 3.5, твърдят изследователи

Дори най-лошата версия на Клод ИИ е по-добра от GPT 3.5, твърдят изследователи

by Tim

Индустрията на изкуствения интелект е свидетел на напрегната конкуренция между известните модели ChatGPT и Claude AI. Организацията Large Model Systems Organization (LMSO), отговорна за създаването на Chatbot Arena и известния модел Vicuna, току-що актуализира своята класация Chatbot Arena Leaderboard, отразяваща как всеки чатбот с изкуствен интелект се съизмерва с конкурентите си. Оказва се, че Anthropic дава предимство на OpenAI, дори когато моделите му все още са безплатни за използване.

GPT-4, мощният двигател, който стои зад ChatGPT Plus и Bing AI, царува с най-висок резултат, поставяйки златния стандарт за големи езикови модели (LLM). Но когато се придвижим надолу в класацията, се разгръща неочаквана история на аутсайдер. Моделите Claude на Anthropic – Claude 1, Claude 2 и Claude Instant – всички те са по-добри от GPT-3.5, двигателя, който поддържа безплатната версия на ChatGPT. Това означава, че всеки голям езиков модел, разработен от Anthropic, може да надмине безплатната версия на ChatGPT.

Педантичната система за класиране от LMSO даде представа за показателите за ефективност на тези модели. Според класацията GPT-4 притежава Arena Elo рейтинг от 1181, което го прави значително водещ в класацията, докато моделите на Клод го следват плътно с рейтинги, вариращи от 1119 до 1155. GPT-3.5, от друга страна, изостава с рейтинг от 1115.

За да класира моделите, LMSO ги кара да се „бият“ в мачове със сходни подсказки. Моделът с най-добър отговор печели, а другият губи. Потребителите решават кой да спечели въз основа на собствените си предпочитания, но никога не научават кои модели се състезават.

Изображение: LMSO

Изображение: LMSO


Както TCN съобщи по-рано, разликата във възможностите за обработка на жетони между ChatGPT Plus и Claude Pro, въпреки че не е фактор в класацията на LMSO, също е основно предимство, което моделите на Claude имат пред GPT.

„Claude Pro, базиран на LLM Claude 2, може да обработва до 100 хил. токена информация, докато ChatGPT Plus, задвижван от LLM GPT-4, обработва 8192 токена“, припомнихме ние. Тази разлика в способността за обработка на токени подчертава предимството, което моделите Claude притежават при управлението на обширни контекстуални данни, което е от решаващо значение за нюансираното и обогатено потребителско изживяване.

Нещо повече, при обработката на дълги подсказки Клод 2 показа превъзходство над GPT, като обработва по-ефективно подсказки с по-голям размер. Въпреки това, когато заявките са сравними, Клод 1 и Клод Момент предоставят сходни или малко по-добри резултати от GPT-3.5, което показва конкурентния характер на тези модели. Благодарение на контекстните възможности на Клод, лош първоначален отговор може да бъде значително подобрен с по-прецизна, по-голяма и по-богата подкана.

Моделите с отворен код не изостават много в тази надпревара.

WizardLM, модел, обучен на LlaMA-2 на Meta със 70 милиарда параметри, се откроява като най-добрия LLM с отворен код. Следват го Vicuna 33B и оригиналният LlaMA-2, пуснати от Meta.

Моделите с отворен код играят важна роля в развитието на пространството на изкуствения интелект по различни причини. Те могат да бъдат стартирани локално, което дава възможност на потребителите да ги доуточняват и ангажира общността в колективни усилия за усъвършенстване на модела. Освен това те са по-евтини за изпълнение поради лицензите си, поради което в пространството има десетки LLM с отворен код и само шепа собственически модели.

Но играта на чатботовете с изкуствен интелект не е свързана единствено с цифри. Тя е свързана с последиците за реалния свят.

Тъй като чатботовете стават неразделна част от различни сектори – от обслужването на клиенти до личните асистенти, тяхната ефикасност, адаптивност и точност стават от първостепенно значение. С моделите на Клод, които се класират по-високо от GPT-3.5, компаниите и индивидуалните потребители може да се окажат на кръстопът, преценявайки кой модел отговаря най-добре на техните нужди. TCN е подготвила две ръководства, за да ви помогне да решите кой модел ви подхожда най-добре.

За непосветените това може да изглежда като поредната актуализация на класацията. Но за тези, които наблюдават отблизо индустрията на изкуствения интелект, това е доказателство за това колко ожесточена е конкуренцията и колко бързо могат да се обърнат приливите и отливите. А за останалите, които се намират между тези два лагера, това е напомняне, че в света на ИИ най-популярният модел днес може да се окаже най-ефективният.

Related Posts

Leave a Comment