Nová studie uvádí, že výkonnost ChatGPT klesá

ChatGPT na konci loňského roku explodoval na scéně, oslnil lidi svými schopnostmi konverzace podobnými lidem a vydání nejnovější verze vyvolalo kryptografickou rallye a volání po pozastavení vývoje. Podle nové studie však mohou být schopnosti předního AI bota ve skutečnosti na ústupu.

Výzkumníci ze Stanfordu a Kalifornské univerzity v Berkeley systematicky analyzovali různé verze ChatGPT z března a června 2022. Vypracovali přísná měřítka pro hodnocení kompetencí modelu v matematických, kódovacích a vizuálních úlohách. Výsledky výkonnosti ChatGPT v průběhu času nebyly dobré.

Testy odhalily překvapivý pokles výkonu mezi jednotlivými verzemi. V matematické úloze určování prvočísel vyřešil ChatGPT v březnu správně 488 z 500 otázek, což představuje přesnost 97,6 %. V červnu však ChatGPT dokázal správně vyřešit pouze 12 otázek, čímž se propadl na 2,4 % přesnost.

Obrázek: UC Berkeley, Stanford

Pokles byl obzvláště strmý u schopností chatbota kódovat software.

„U GPT-4 klesl podíl generací, které jsou přímo spustitelné, z 52,0 % v březnu na 10,0 % v červnu,“ zjistil výzkum. Těchto výsledků bylo dosaženo při použití čisté verze modelů, což znamená, že nebyly zapojeny žádné zásuvné moduly pro interpretaci kódu.

K hodnocení uvažování výzkumníci využili vizuální podněty z datové sady Abstract Reasoning Corpus (ARC). I zde byl pozorovatelný pokles, i když ne tak strmý. „GPT-4 v červnu dělal chyby v dotazech, u kterých v březnu postupoval správně,“ uvádí se ve studii.

Co by mohlo vysvětlit zjevný pokles kvality ChatGPT po pouhých několika měsících? Výzkumníci předpokládají, že může jít o vedlejší účinek optimalizací, které provádí jeho tvůrce, společnost OpenAI.

Jednou z možných příčin jsou změny zavedené s cílem zabránit ChatGPT odpovídat na nebezpečné otázky. Toto bezpečnostní sladění by však mohlo snížit užitečnost ChatGPT pro jiné úlohy. Výzkumníci zjistili, že model má nyní tendenci poskytovat mnohomluvné, nepřímé odpovědi namísto jasných odpovědí.

„GPT-4 se postupem času zhoršuje, nikoli zlepšuje,“ uvedl na Twitteru odborník na umělou inteligenci Santiago Valderrama. Valderrama také nadnesl možnost, že původní architekturu ChatGPT mohla nahradit „levnější a rychlejší“ směs modelů.

„Zvěsti naznačují, že používají několik menších a specializovaných modelů GPT-4, které se chovají podobně jako velký model, ale jejich provoz je levnější,“ vyslovil hypotézu, což by podle něj mohlo urychlit reakce uživatelů, ale snížit kompetence.

Na internetu se objevily stovky (možná už tisíce?) odpovědí od lidí, kteří tvrdí, že si všimli zhoršení kvality.

Projděte si komentáře a dočtete se o mnoha situacích, kdy GPT-4 nefunguje jako dříve.

– Santiago (@svpino) 19. července 2023

Další odborník, Dr. Jm, Fan, se také podělil o své postřehy na Twitteru Thread.

„Bohužel větší bezpečnost je obvykle za cenu menší užitečnosti,“ napsal s tím, že se snaží dát výsledkům smysl tím, že je spojuje se způsobem, jakým OpenAI vylaďuje své modely. „Můj odhad (žádný důkaz, jen spekulace) je, že OpenAI strávila většinu úsilí lobotomií od března do června a neměla čas plně obnovit ostatní schopnosti, na kterých záleží.“

Fan tvrdí, že do hry mohly vstoupit i další faktory, konkrétně snaha o snižování nákladů, zavedení varování a výhrad, které mohou model „otupit“, a nedostatek širší zpětné vazby od komunity.

Ačkoli je třeba provést komplexnější testování, zjištění odpovídají frustraci uživatelů z klesající koherence kdysi výmluvných výstupů ChatGPT.

Jak můžeme zabránit dalšímu zhoršování? Někteří nadšenci se vyslovili pro modely s otevřeným zdrojovým kódem, jako je LLaMA od společnosti Meta (který byl právě aktualizován), které umožňují komunitní ladění. Klíčové je průběžné srovnávání, které včas zachytí regrese.

Fanoušci ChatGPT budou muset prozatím svá očekávání mírnit. Divoký stroj na generování nápadů, s nímž se mnozí setkali jako s prvním, se zdá být krotší – a možná méně geniální. Ale úpadek související s věkem se zdá být nevyhnutelný i pro celebrity umělé inteligence.

AI ChatGPT Competency Conversational Decline Developed Model Performance Research

Nová studie uvádí, že výkonnost ChatGPT klesá

Orgasmus NFT? Kosmetická značka NARS odhaluje aukce umění, které zvedají obočí

Tokeny Telegram Bot se blíží tržní kapitalizaci 100 milionů dolarů

Related Posts

Leave a Comment Cancel Reply