Nawet najgorsza wersja Claude AI jest lepsza niż GPT 3.5, twierdzą naukowcy

Branża sztucznej inteligencji jest świadkiem emocjonującej rywalizacji pomiędzy znanymi modelami ChatGPT i Claude AI. Organizacja Large Model Systems Organization (LMSO), odpowiedzialna za stworzenie Chatbot Arena i renomowanego modelu Vicuna, właśnie zaktualizowała swoją tabelę liderów Chatbot Arena, odzwierciedlając, jak każdy chatbot AI mierzy się ze swoimi konkurentami. Okazuje się, że Anthropic daje OpenAI szansę na wygraną, nawet jeśli jego modele są nadal darmowe.

GPT-4, potęga stojąca za ChatGPT Plus i Bing AI, króluje z najwyższym wynikiem, ustanawiając złoty standard dla dużych modeli językowych (LLM). Ale gdy przesuwamy się w dół tabeli liderów, rozwija się nieoczekiwana historia słabszego. Modele Claude firmy Anthropic – Claude 1, Claude 2 i Claude Instant – wszystkie przewyższają GPT-3.5, silnik napędzający darmową wersję ChatGPT. Oznacza to, że każdy duży model językowy opracowany przez Anthropic może zdeklasować darmową wersję ChatGPT.

Skrupulatny system rankingowy LMSO zapewnił wgląd w wskaźniki wydajności tych modeli. Zgodnie z tabelą liderów, GPT-4 posiada ranking Arena Elo na poziomie 1181, znacznie przewodząc tabeli, podczas gdy modele Claude podążają za nim z ocenami od 1119 do 1155. Z drugiej strony GPT-3.5 pozostaje w tyle z oceną 1115.

Aby uszeregować modele, LMSO zmusza je do „walki” w meczach z podobnymi podpowiedziami. Model z najlepszą odpowiedzią wygrywa, a drugi przegrywa. Użytkownicy decydują, kto wygra na podstawie własnych preferencji, ale nigdy nie dowiadują się, które modele rywalizują.

Image: LMSO

Jak wcześniej informował TCN, różnica w możliwościach przetwarzania tokenów między ChatGPT Plus i Claude Pro, choć nie jest czynnikiem w rankingu LMSO, jest również główną przewagą modeli Claude nad GPT.

„Claude Pro, oparty na Claude 2 LLM, może przetwarzać do 100 000 tokenów informacji, podczas gdy ChatGPT Plus, zasilany przez GPT-4 LLM, obsługuje 8 192 tokeny”, przypomnieliśmy. Ta różnica w zdolności przetwarzania tokenów podkreśla przewagę modeli Claude w zarządzaniu obszernymi danymi kontekstowymi, co ma kluczowe znaczenie dla zniuansowanego i wzbogaconego doświadczenia użytkownika.

Co więcej, podczas obsługi długich podpowiedzi, Claude 2 wykazał wyższość nad GPT, skuteczniej radząc sobie z podpowiedziami o większej wielkości. Jednak gdy podpowiedzi są porównywalne, Claude 1 i Claude Instant zapewniają podobne lub nieco lepsze wyniki niż GPT-3.5, co pokazuje konkurencyjny charakter tych modeli. Dzięki możliwościom kontekstowym Claude, słaba początkowa odpowiedź może zostać znacznie poprawiona dzięki bardziej wyrafinowanemu, większemu i bogatszemu podpowiedzi.

Modele open-source nie są daleko w tyle w tym wyścigu.

WizardLM, model wytrenowany na Meta’s LlaMA-2 z 70 miliardami parametrów, wyróżnia się jako najlepszy open-source’owy LLM. Tuż za nim plasują się Vicuna 33B i oryginalny LlaMA-2, wydany przez Meta.

The @lmsysorg właśnie zaktualizował Chatbot Arena Leaderboard!

Nasz WizardLM-70B jest teraz najlepszym modelem open-source zarówno na ⚔️Arena Elo, jak i MT-bench.

❤️Main Współtwórcy: @CanXu20 @victorsungo_ai @ChiYeung_Law @hpluo12 @tangmensan

Tabela liderów: https://t.co/1gkZKGVutQ
Model… pic.twitter.com/bsJ0jv2i7I

– WizardLM (@WizardLM_AI) October 5, 2023

Modele o otwartym kodzie źródłowym odgrywają ważną rolę w rozwoju przestrzeni sztucznej inteligencji z różnych powodów. Mogą być uruchamiane lokalnie, co daje użytkownikom możliwość ich dopracowania i angażuje społeczność we wspólny wysiłek na rzecz udoskonalenia modelu. Są również tańsze w eksploatacji ze względu na licencje, dlatego w przestrzeni istnieją dziesiątki LLM typu open source i tylko garstka zastrzeżonych modeli.

W grze o chatboty AI nie chodzi jednak wyłącznie o liczby. Chodzi o implikacje w świecie rzeczywistym.

W miarę jak chatboty stają się integralną częścią różnych sektorów, od obsługi klienta po osobistych asystentów, ich skuteczność, zdolność adaptacji i dokładność stają się najważniejsze. Z modelami Claude w rankingu wyższym niż GPT-3.5, firmy i indywidualni użytkownicy mogą znaleźć się na rozdrożu, oceniając, który model najlepiej odpowiada ich potrzebom. TCN przygotowało dwa przewodniki, które pomogą Ci zdecydować, który model najbardziej Ci odpowiada.

Dla niewtajemniczonych może się to wydawać kolejną aktualizacją tabeli wyników. Ale dla tych, którzy uważnie obserwują branżę sztucznej inteligencji, jest to świadectwo tego, jak zacięta jest konkurencja i jak szybko może się zmienić. A dla reszty z nas, którzy siedzą pomiędzy tymi dwoma obozami, jest to przypomnienie, że w świecie sztucznej inteligencji najpopularniejszy obecnie model może spaść do najbardziej wydajnego.

Nawet najgorsza wersja Claude AI jest lepsza niż GPT 3.5, twierdzą naukowcy

„Cyberpunk 2077” idzie do Hollywood, bo gra sprzedała się w 25 milionach egzemplarzy

Bored Ape Yacht Club, twórca NFT, Yuga Labs potwierdza zwolnienia

Related Posts

Leave a Comment Cancel Reply