Home » Според ново проучване представянето на ChatGPT се влошава

Според ново проучване представянето на ChatGPT се влошава

by Patricia

ChatGPT изгря на сцената в края на миналата година, заслепявайки хората с човекоподобните си способности за разговори, а пускането на последната версия предизвика крипто рали и призиви за спиране на разработката. Но според ново проучване уменията на водещия бот с изкуствен интелект всъщност може да са в упадък.

Изследователи от Станфорд и Калифорнийския университет в Бъркли систематично анализират различни версии на ChatGPT от март и юни 2022 г. Те разработиха строги критерии за оценка на компетентността на модела в задачи по математика, кодиране и визуално мислене. Резултатите от представянето на ChatGPT с течение на времето не са добри.

Тестовете разкриха стряскащ спад в представянето между версиите. При математическа задача за определяне на прости числа ChatGPT реши правилно 488 от 500 въпроса през март, което представляваше точност от 97,6 %. През юни обаче ChatGPT успява да реши правилно само 12 въпроса, което води до спад на точността до 2,4%.

Изображение: UC Berkeley, Stanford

Изображение: UC Berkeley, Stanford


Спадът е особено рязък при способностите на чатбота за кодиране на софтуер.

„За GPT-4 процентът на поколенията, които са директно изпълними, спадна от 52,0 % през март до 10,0 % през юни“, установи изследването. Тези резултати са получени при използването на чистата версия на моделите, което означава, че не са включени приставки за интерпретиране на код.

За да оценят разсъжденията, изследователите са използвали визуални подсказки от набора данни Abstract Reasoning Corpus (ARC). Дори и тук, макар и не толкова рязко, се наблюдава спад. „GPT-4 през юни е допускал грешки при заявки, при които е бил коректен през март“, се казва в изследването.

Какво би могло да обясни очевидното понижение на рейтинга на ChatGPT само след няколко месеца? Изследователите предполагат, че това може да е страничен ефект от оптимизациите, които се правят от OpenAI, нейния създател.

Една от възможните причини са промените, въведени с цел да се предотврати отговарянето на опасни въпроси от ChatGPT. Това привеждане в съответствие с изискванията за безопасност обаче може да намали полезността на ChatGPT за други задачи. Изследователите установили, че моделът сега е склонен да дава многословни, косвени отговори вместо ясни отговори.

„GPT-4 става все по-лош с течение на времето, а не по-добър“, заяви експертът по изкуствен интелект Сантяго Валдерама в Twitter. Валдерама също така повдигна въпроса за възможността „по-евтина и по-бърза“ смес от модели да е заменила оригиналната архитектура на ChatGPT.

„Слуховете сочат, че използват няколко по-малки и специализирани модела GPT-4, които действат подобно на един голям модел, но са по-евтини за изпълнение“, предположи той, което според него може да ускори отговорите за потребителите, но да намали компетентността.

Друг експерт, д-р Jm, Fan, също сподели своите прозрения в Twitter Thread.

„За съжаление, по-голямата сигурност обикновено е на цената на по-малка полезност“, написа той и заяви, че се опитва да осмисли резултатите, като ги свърже с начина, по който OpenAI настройва своите модели. „Моето предположение (без доказателства, само спекулации) е, че OpenAI е изразходвала по-голямата част от усилията си за извършване на лоботомия от март до юни и не е имала време да възстанови напълно другите способности, които са от значение.“

Фан твърди, че е възможно да са повлияли и други фактори, а именно усилията за намаляване на разходите, въвеждането на предупреждения и откази от отговорност, които могат да „оглупят“ модела, и липсата на по-широка обратна връзка от общността.

Въпреки че е необходимо по-обстойно тестване, констатациите съвпадат с изразеното от потребителите разочарование от намаляващата съгласуваност в някогашните красноречиви резултати на ChatGPT.

Как можем да предотвратим по-нататъшното влошаване? Някои ентусиасти се застъпиха за модели с отворен код като LLaMA на Meta (който току-що беше актуализиран), които позволяват отстраняване на грешки в общността. Непрекъснатият сравнителен анализ за ранно откриване на регресиите е от решаващо значение.

Засега феновете на ChatGPT може да се наложи да смекчат очакванията си. Дивата машина за генериране на идеи, с която мнозина се сблъскаха в началото, изглежда по-укротена – и може би по-малко гениална. Но свързаният с възрастта упадък изглежда неизбежен, дори за знаменитостите на изкуствения интелект.

Related Posts

Leave a Comment