Home » Nowe badanie pokazuje, że wydajność ChatGPT spada

Nowe badanie pokazuje, że wydajność ChatGPT spada

by v

ChatGPT eksplodował na scenie pod koniec ubiegłego roku, olśniewając ludzi swoimi zdolnościami konwersacyjnymi podobnymi do ludzkich, a wydanie najnowszej wersji wywołało rajd kryptowalut i wezwania do wstrzymania rozwoju. Jednak według nowego badania, umiejętności wiodącego bota AI mogą w rzeczywistości spadać.

Naukowcy ze Stanford i UC Berkeley systematycznie analizowali różne wersje ChatGPT z marca i czerwca 2022 roku. Opracowali rygorystyczne testy porównawcze, aby ocenić kompetencje modelu w zadaniach matematycznych, kodowaniu i rozumowaniu wizualnym. Wyniki wydajności ChatGPT w czasie nie były dobre.

Testy ujawniły zaskakujący spadek wydajności między wersjami. W zadaniu matematycznym polegającym na określeniu liczb pierwszych, ChatGPT rozwiązał poprawnie 488 z 500 pytań w marcu, co daje dokładność 97,6%. Jednak w czerwcu ChatGPT zdołał poprawnie odpowiedzieć tylko na 12 pytań, osiągając dokładność 2,4%.

Image: UC Berkeley, Stanford

Image: UC Berkeley, Stanford


Szczególnie gwałtowny spadek dotyczył umiejętności chatbota w zakresie kodowania oprogramowania.

„W przypadku GPT-4 odsetek generacji, które są bezpośrednio wykonywalne, spadł z 52,0% w marcu do 10,0% w czerwcu” – stwierdzono w badaniu. Wyniki te uzyskano przy użyciu czystej wersji modeli, co oznacza, że nie zastosowano żadnych wtyczek interpretera kodu.

Aby ocenić rozumowanie, naukowcy wykorzystali wizualne podpowiedzi ze zbioru danych Abstract Reasoning Corpus (ARC). Nawet tutaj, choć nie tak gwałtowny, można było zaobserwować spadek. „GPT-4 w czerwcu popełniał błędy w zapytaniach, w których był poprawny w marcu” – czytamy w badaniu.

Co może tłumaczyć wyraźny spadek ChatGPT po zaledwie kilku miesiącach? Naukowcy stawiają hipotezę, że może to być efekt uboczny optymalizacji dokonywanych przez OpenAI, jego twórcę.

Jedną z możliwych przyczyn są zmiany wprowadzone w celu uniemożliwienia ChatGPT odpowiadania na niebezpieczne pytania. To dostosowanie bezpieczeństwa może jednak zmniejszyć przydatność ChatGPT do innych zadań. Naukowcy odkryli, że model ma teraz tendencję do udzielania gadatliwych, pośrednich odpowiedzi zamiast jasnych odpowiedzi.

„GPT-4 z czasem staje się coraz gorszy, a nie lepszy” – powiedział ekspert AI Santiago Valderrama na Twitterze. Valderrama podniósł również możliwość, że „tańsza i szybsza” mieszanka modeli mogła zastąpić oryginalną architekturę ChatGPT.

„Plotki sugerują, że używają kilku mniejszych i wyspecjalizowanych modeli GPT-4, które działają podobnie do dużego modelu, ale są tańsze w uruchomieniu”, wysunął hipotezę, która według niego może przyspieszyć reakcje użytkowników, ale zmniejszyć kompetencje.

Inny ekspert, dr Jm, Fan również podzielił się swoimi spostrzeżeniami na Twitterze.

„Niestety, większe bezpieczeństwo zwykle wiąże się z mniejszą użytecznością” – napisał, mówiąc, że próbuje zrozumieć wyniki, łącząc je ze sposobem, w jaki OpenAI dostraja swoje modele. „Zgaduję (bez dowodów, tylko spekulacje), że OpenAI spędził większość wysiłków na lobotomii od marca do czerwca i nie miał czasu, aby w pełni odzyskać inne możliwości, które mają znaczenie”.

Fan twierdzi, że w grę mogły wchodzić inne czynniki, a mianowicie wysiłki związane z cięciem kosztów, wprowadzenie ostrzeżeń i zastrzeżeń, które mogą „ogłupić” model, oraz brak szerszej informacji zwrotnej od społeczności.

Chociaż bardziej kompleksowe testy są uzasadnione, wyniki są zgodne z wyrażoną przez użytkowników frustracją z powodu malejącej spójności w niegdyś elokwentnych wynikach ChatGPT.

Jak możemy zapobiec dalszemu pogorszeniu? Niektórzy entuzjaści opowiadali się za modelami open-source, takimi jak LLaMA firmy Meta (który został właśnie zaktualizowany), które umożliwiają debugowanie przez społeczność. Kluczowe znaczenie ma ciągłe przeprowadzanie testów porównawczych w celu wczesnego wychwytywania regresji.

Na razie fani ChatGPT mogą być zmuszeni do złagodzenia swoich oczekiwań. Szalona maszyna do generowania pomysłów, z którą wielu zetknęło się po raz pierwszy, wydaje się być łagodniejsza – i być może mniej błyskotliwa. Ale związany z wiekiem spadek wydaje się być nieunikniony, nawet dla gwiazd AI.

Related Posts

Leave a Comment