Home » I ta nejhorší verze Claude AI je lepší než GPT 3.5, tvrdí výzkumníci

I ta nejhorší verze Claude AI je lepší než GPT 3.5, tvrdí výzkumníci

by Tim

Odvětví umělé inteligence je svědkem strhující soutěže mezi pozoruhodnými modely ChatGPT a Claude AI. Organizace Large Model Systems Organization (LMSO), která je zodpovědná za vytvoření Chatbot Areny a proslulého modelu Vicuna, právě aktualizovala svůj žebříček Chatbot Areny, který odráží, jak si jednotliví chatboti AI stojí v porovnání se svými konkurenty. Ukázalo se, že Anthropic dává OpenAI vale, i když jsou jeho modely stále zdarma.

S nejvyšším skóre kraluje GPT-4, který stojí za ChatGPT Plus a Bing AI, a stanovuje zlatý standard pro velké jazykové modely (LLM). Jakmile se však posuneme v žebříčku níže, objeví se nečekaný outsider. Modely Claude společnosti Anthropic – Claude 1, Claude 2 a Claude Instant – všechny překonávají GPT-3.5, motor, který pohání bezplatnou verzi ChatGPT. To znamená, že každý velký jazykový model vyvinutý společností Anthropic může překonat bezplatnou verzi ChatGPT.

Pečlivý systém řazení podle LMSO umožnil nahlédnout do výkonnostních ukazatelů těchto modelů. Podle žebříčku má GPT-4 hodnocení Arena Elo 1181, čímž výrazně vede v žebříčku, zatímco modely Claude následují v těsném závěsu s hodnocením v rozmezí 1119 až 1155. Model GPT-3.5 naopak zaostává s hodnocením 1115.

Pro hodnocení modelů je LMSO nutí „bojovat“ v zápasech s podobnými nápovědami. Model s nejlepší odpovědí vyhrává a ostatní prohrávají. Uživatelé rozhodují o tom, kdo vyhraje, na základě svých vlastních preferencí, ale nikdy se nedozvědí, které modely spolu soupeří.

Obrázek: LMSO

Obrázek: LMSO


Jak již TCN dříve informoval, rozdíl ve schopnostech zpracování tokenů mezi ChatGPT Plus a Claude Pro, ačkoli není faktorem v žebříčku LMSO, je také hlavní výhodou, kterou mají modely Claude oproti GPT.

„Claude Pro, založený na LLM Claude 2, dokáže zpracovat až 100 tisíc tokenů informací, zatímco ChatGPT Plus, poháněný LLM GPT-4, zvládá 8 192 tokenů,“ připomněli jsme. Tento rozdíl ve schopnosti zpracovávat tokeny podtrhuje náskok, který modely Claude mají při správě rozsáhlých kontextových vstupů, což je klíčové pro vyladěný a obohacený uživatelský zážitek.

Navíc při zpracování dlouhých podnětů prokázal Claude 2 převahu nad GPT, neboť efektivněji zvládá podněty většího rozsahu. Při srovnatelných výzvách však Claude 1 a Claude Instant poskytují podobné nebo mírně lepší výsledky než GPT-3.5, což ukazuje konkurenční povahu těchto modelů. Díky kontextovým schopnostem Claude lze špatnou počáteční odpověď výrazně zlepšit pomocí upřesněné, větší a bohatší výzvy.

Modely s otevřeným zdrojovým kódem v tomto závodě příliš nezaostávají.

WizardLM, model natrénovaný na LlaMA-2 společnosti Meta se 70 miliardami parametrů, vyniká jako nejlepší open-source LLM. V těsném závěsu za ním následují Vicuna 33B a původní LlaMA-2, které vydala společnost Meta.

Modely s otevřeným zdrojem hrají ve vývoji v oblasti umělé inteligence důležitou roli z různých důvodů. Lze je spouštět lokálně, což dává uživatelům možnost je doladit a zapojuje komunitu do kolektivního úsilí o zdokonalení modelu. Jejich provoz je také díky licencím levnější, což je důvod, proč v této oblasti existují desítky open-source modelů LLM a jen hrstka proprietárních modelů.

Hra chatbotů s umělou inteligencí však není jen o číslech. Jde o důsledky pro reálný svět.

S tím, jak se chatboti stávají nedílnou součástí různých odvětví od zákaznických služeb po osobní asistenty, se jejich efektivita, přizpůsobivost a přesnost stávají prvořadými. Vzhledem k tomu, že Claudeovy modely mají vyšší hodnocení než GPT-3,5, mohou se podniky i jednotliví uživatelé ocitnout na rozcestí a vyhodnocovat, který model nejlépe odpovídá jejich potřebám. Společnost TCN připravila dva průvodce, kteří vám pomohou rozhodnout, jaký model vám bude nejlépe vyhovovat.

Nezasvěceným se může zdát, že jde jen o další aktualizaci žebříčku. Ale pro ty, kteří pozorně sledují odvětví umělé inteligence, je to důkaz, jak tvrdá je konkurence a jak rychle se mohou zvrátit poměry. A pro nás ostatní, kteří se nacházíme mezi těmito dvěma tábory, je to připomínka, že ve světě UI může nejoblíbenější model dneška padnout na úkor toho nejvýkonnějšího.

Related Posts

Leave a Comment