Производительность ChatGPT падает, утверждает новое исследование

ChatGPT появился в конце прошлого года, поразив людей своими человекоподобными разговорными способностями, а выход последней версии вызвал криптовалютную волну и призывы к приостановке разработки. Однако, согласно новому исследованию, навыки ведущего ИИ-бота могут снижаться.

Исследователи из Стэнфорда и Калифорнийского университета в Беркли провели систематический анализ различных версий ChatGPT за период с марта по июнь 2022 года. Они разработали строгие контрольные показатели для оценки компетентности модели в задачах математики, кодирования и визуального мышления. Результаты оценки эффективности ChatGPT с течением времени оказались неутешительными.

Тесты показали поразительное падение производительности между версиями. Так, в математической задаче на определение простых чисел ChatGPT в марте правильно решил 488 из 500 вопросов, что составляет 97,6%. Однако в июне ChatGPT смог правильно ответить только на 12 вопросов, упав до 2,4% точности.

Изображение: UC Berkeley, Stanford

Особенно резкое падение наблюдалось в способностях чатбота к программному кодированию.

«Для GPT-4 процент непосредственно исполняемых поколений снизился с 52,0% в марте до 10,0% в июне», — говорится в исследовании. Эти результаты были получены при использовании чистой версии моделей, то есть без плагинов-интерпретаторов кода.

Для оценки рассуждений исследователи использовали визуальные подсказки из набора данных Abstract Reasoning Corpus (ARC). Даже здесь, хотя и не такое резкое, но снижение наблюдалось. «GPT-4 в июне допускал ошибки в тех запросах, в которых он был прав в марте», — говорится в исследовании.

Чем же можно объяснить явное падение рейтинга ChatGPT спустя всего несколько месяцев? Исследователи предполагают, что это может быть побочным эффектом оптимизаций, проводимых компанией OpenAI, которая является его создателем.

Одна из возможных причин — изменения, внесенные для того, чтобы ChatGPT не отвечал на опасные вопросы. Однако такое выравнивание безопасности может снизить полезность ChatGPT для других задач. Исследователи обнаружили, что модель теперь склонна давать многословные, косвенные ответы вместо четких.

«GPT-4 со временем становится хуже, а не лучше», — отметил в Twitter эксперт по ИИ Сантьяго Вальдеррама. Вальдеррама также высказал предположение, что на смену оригинальной архитектуре ChatGPT могла прийти «более дешевая и быстрая» смесь моделей.

«По слухам, они используют несколько небольших специализированных моделей GPT-4, которые действуют так же, как и большая модель, но при этом менее затратны», — предположил он, что, по его мнению, может ускорить ответы пользователей, но снизить их компетентность.

Сотни (может быть, уже тысячи?) ответов от людей, утверждающих, что они заметили ухудшение качества.

Просмотрите комментарии, и вы прочитаете о многих ситуациях, когда GPT-4 работает не так, как раньше.

— Santiago (@svpino) July 19, 2023

Другой эксперт, доктор Jm, Fan, также поделился своими соображениями в Twitter.

«К сожалению, за большую безопасность обычно приходится платить меньшей полезностью», — написал он, отметив, что пытается понять смысл полученных результатов, связав их с тем, как OpenAI настраивает свои модели. «Моя догадка (без доказательств, просто предположение) состоит в том, что OpenAI потратил большую часть усилий на лоботомию с марта по июнь и не успел полностью восстановить другие возможности, которые имеют значение».

Фан утверждает, что в дело могли вступить и другие факторы, а именно: сокращение расходов, введение предупреждений и отказов от ответственности, которые могли «отупить» модель, и отсутствие более широкой обратной связи с сообществом.

Несмотря на необходимость более полного тестирования, полученные результаты согласуются с разочарованием пользователей по поводу снижения согласованности некогда красноречивых результатов ChatGPT.

Как предотвратить дальнейшее ухудшение качества? Некоторые энтузиасты высказались за использование моделей с открытым исходным кодом, таких как LLaMA компании Meta (которая недавно была обновлена), которые позволяют проводить отладку в сообществе. Очень важно проводить постоянные бенчмарки для раннего выявления регрессий.

Пока же поклонникам ChatGPT следует умерить свои ожидания. Дикая машина, генерирующая идеи, с которой многие столкнулись в первый раз, выглядит более скромной и, возможно, менее гениальной. Но возрастной спад, похоже, неизбежен даже для знаменитостей ИИ.

Производительность ChatGPT падает, утверждает новое исследование

Оргазм НФТ? Косметический бренд NARS объявляет аукционы по продаже предметов искусства, которые поднимают брови

Рыночная стоимость бот-токенов Telegram достигла 100 млн долл.

Related Posts

Leave a Comment Cancel Reply