AI業界では、注目すべきChatGPTとClaude AIモデルの間で熱い競争が繰り広げられている。チャットボット・アリーナと有名なビキューナ・モデルを開発したLarge Model Systems Organization (LMSO)は、チャットボット・アリーナのリーダーボードを更新し、各AIチャットボットが競合他社に対してどのような評価を下しているかを反映しました。AnthropicがOpenAIに一歩リードしていることがわかりました。
GPT-4は、ChatGPT PlusとBing AIを支える強豪であり、大規模言語モデル(LLM)のゴールドスタンダードを設定し、最高のスコアで君臨しています。しかし、リーダーボードの下に行くにつれて、予想外の負け犬の物語が展開されます。AnthropicのClaudeモデル(Claude 1、Claude 2、Claude Instant)はすべて、無料版ChatGPTのエンジンであるGPT-3.5を上回っています。これは、Anthropicによって開発されたすべての大規模言語モデルが、無料版のChatGPTを凌駕できることを意味します。
LMSOによる綿密なランキングシステムは、これらのモデルのパフォーマンス測定基準への洞察を提供しました。リーダーボードによると、GPT-4は1181のアリーナEloレーティングを保持しており、チャートを大きくリードしています。一方、GPT-3.5は1115と遅れをとっている。
各モデルをランク付けするために、LMSOは似たようなプロンプトのマッチで “バトル “をさせる。最も良い答えを出したモデルが勝ち、他のモデルは負ける。ユーザーは自分の好みに基づいて勝敗を決めるが、どのモデルが競争しているのか知ることはできない。

Image: LMSO
TCNが以前報告したように、ChatGPT PlusとClaude Proのトークン処理能力の差は、LMSOランキングの要因ではないが、ClaudeモデルがGPTに対して持つ大きな利点でもある。
「Claude 2 LLMを搭載したClaude Proは最大100Kトークンの情報を処理できるのに対し、GPT-4 LLMを搭載したChatGPT Plusは8,192トークンを処理する」と我々は回想した。このトークン処理能力の差は、ニュアンスに富んだ豊かなユーザー体験のために重要な、広範なコンテクスト入力の管理において、クロード・モデルが優れていることを強調している。
さらに、長いプロンプトを処理する場合、クロード2はGPTより優位性を示し、より大きなプロンプトをより効率的に処理する。しかし、プロンプトが同程度の場合、Claude 1とClaude InstantはGPT-3.5と同等かわずかに良い結果を提供し、これらのモデルの競争力を示しています。クロードのコンテキスト機能を使えば、最初の答えが悪くても、より洗練された、より大きく豊かなプロンプトで劇的に改善することができる。
オープンソースのモデルも、この競争に遠く及ばない。
WizardLMは、MetaのLlaMA-2で学習され、700億のパラメータを持つモデルで、最高のオープンソースLLMとして際立っている。Vicuna 33Bと、MetaがリリースしたオリジナルのLlaMA-2がそれに続く。
@lmsysorgはチャットボットアリーナリーダーボードを更新しました!
私たちのWizardLM-70Bは現在、⚔️Arena EloとMT-benchの両方でトップ1オープンソースモデルです。
❤️Main Contributors:@CanXu20 @victorsungo_ai@ChiYeung_Law@hpluo12@tangmensan
リーダーボード https://t.co/1gkZKGVutQ
モデル… pic.twitter.com/bsJ0jv2i7I– WizardLM (@WizardLM_AI) 2023年10月5日
オープンソースモデルは、様々な理由からAI分野の発展において重要な役割を果たしている。オープンソースのモデルはローカルで実行することができるため、ユーザーがモデルを微調整する機会を得ることができ、モデルを完成させるための集団的な取り組みにコミュニティを参加させることができる。また、ライセンスにより安価に運用できるため、この分野ではオープンソースのLLMが数十種類あり、プロプライエタリなモデルはほんの一握りしかない。
しかし、AIチャットボットのゲームは数字だけの問題ではない。それは、現実世界への影響についてだ。
チャットボットがカスタマーサービスからパーソナルアシスタントまで様々な分野で不可欠になるにつれ、その有効性、適応性、正確性が最も重要になる。クロードモデルがGPT-3.5より上位にランクされたことで、企業や個人ユーザーは、どのモデルが自分たちのニーズに最も合致しているかを評価する岐路に立たされるかもしれません。TCNでは、どのモデルが最も適しているかを判断するのに役立つ2つのガイドを用意しています。
知らない人にとっては、これは単なるリーダーボードのアップデートに見えるかもしれない。しかし、AI業界を注視している人々にとっては、競争がいかに熾烈で、潮目がいかに早く変わるかを証明するものだ。そして、この2つの陣営の中間に位置する我々にとっては、AIの世界では今日最も人気のあるモデルが、最も効率的なモデルに転落する可能性があることを思い知らされる。