ChatGPTは昨年末に爆発的な人気を博し、人間のような会話能力で人々を魅了した。しかし、新たな研究によると、この代表的なAIボットのスキルは実は低下傾向にあるのかもしれない。
スタンフォード大学とカリフォルニア大学バークレー校の研究者たちは、2022年3月と6月のChatGPTの異なるバージョンを体系的に分析した。彼らは、数学、コーディング、視覚的推論タスクにおけるモデルの能力を評価するための厳格なベンチマークを開発した。ChatGPTの経時的なパフォーマンスの結果は芳しくなかった。
テストでは、バージョン間でパフォーマンスが驚くほど低下していることが明らかになった。素数を決定する数学の課題では、ChatGPTは3月に500問中488問を正解し、97.6%の精度を示した。しかし6月、ChatGPTは12問しか正解できず、精度は2.4%に急落した
。

Image: UCバークレー、スタンフォード
特に、チャットボットのソフトウェアコーディング能力の低下が著しい。
「GPT-4では、直接実行可能な世代の割合が、3月の52.0%から6月には10.0%まで低下している」。これらの結果は、コードインタープリタープラグインが関与していない、純粋なバージョンのモデルを使用することによって得られた。
推論を評価するために、研究者たちは抽象的推論コーパス(ARC)データセットから視覚的プロンプトを活用した。ここでも、それほど急ではないものの、低下が観察された。「6月のGPT-4は、3月には正しかったクエリでミスを犯している。
わずか数ヶ月でChatGPTがダウングレードした理由は何でしょうか?研究者たちは、ChatGPTの生みの親であるOpenAIが行った最適化の副作用ではないかと推測している。
可能性のある原因の一つは、ChatGPTが危険な質問に答えるのを防ぐために導入された変更です。この安全性の調整は、ChatGPTの他のタスクでの有用性を損なう可能性がある。研究者たちは、このモデルが明確な回答ではなく、冗長で間接的な回答をする傾向があることを発見した。
「GPT-4は時間とともに悪化している。バルデラマ氏はまた、「より安価で高速な」混合モデルが、オリジナルのChatGPTアーキテクチャに取って代わった可能性を指摘した。
「噂によると、GPT-4に特化した小型のモデルを複数使っているようで、大型のモデルと同じような動作をするが、実行コストは低い」と同氏は仮説を立て、ユーザーの反応は速くなるが、能力は低下する可能性があると述べた。
クオリティの低下に気づいたという人々からの返信が何百(もしかしたらもう何千?
コメントを閲覧すると、GPT-4が以前と同じように機能していない多くの状況について読むことができます。
– Santiago (@svpino) 2023年7月19日
もう一人の専門家、Jmファン博士もツイッターのスレッドで彼の洞察を共有している。
「残念なことに、安全性が高まると、その代償として有用性が低下するのが一般的です」と彼は書き、OpenAIのモデル微調整の方法とリンクさせることで、結果を理解しようとしていると述べた。「私の推測では(根拠はなく、単なる憶測だが)、OpenAIは3月から6月にかけてロボトミー手術に労力の大半を費やし、重要な他の能力を完全に回復する時間がなかったのだろう。
ファン氏は、他の要因、すなわちコスト削減努力、モデルを “唖然とさせる “可能性のある警告や免責事項の導入、コミュニティからの広範なフィードバックの欠如が関係している可能性があると主張している
。
より包括的なテストが正当化されるとはいえ、この調査結果は、かつては雄弁だったChatGPTのアウトプットの一貫性が低下していることに対するユーザーの不満の表明と一致している。
どうすればこれ以上の劣化を防げるのでしょうか?MetaのLLaMAのようなオープンソースのモデルで、コミュニティによるデバッグを可能にすることを提唱する熱狂的なファンもいる。リグレッションを早期に発見するための継続的なベンチマークは非常に重要だ。
今のところ、ChatGPTファンは期待を抑える必要があるかもしれない。多くの人が最初に遭遇したワイルドなアイデア生成マシンは、おとなしくなったように見えるし、おそらく輝きは弱くなっただろう。しかし、加齢による衰えはAIの有名人にとっても避けられないようだ。