Home » バードを超えて: グーグル、ChatGPTに挑戦するマルチモーダルAI「Gemini」を発表

バードを超えて: グーグル、ChatGPTに挑戦するマルチモーダルAI「Gemini」を発表

by Tim

Googleは水曜日、マルチモーダル人工知能ツールの消費者向けおよびビジネス向けスイートであるGeminiを発表し、テック業界を驚かせた。

マイクロソフトが支援するOpenAIがChatGPTをTurboに押し上げ、VisionとAnthropicがClaudeをアップグレードしたように、AIに積極的にプッシュするテックジャイアントの中で、検索の巨人グーグルは中間領域を泳いでいるように見えた。今日、グーグルは、テキスト、画像、音声、動画をシームレスに理解し統合するGemini-Nano、Pro、Ultraの3つのバージョンを発表した。

ジェミニは、オープンエーアイの最高級AIモデルを凌ぐ態勢を整えているようだ。オープンエーアイは、新機能の一覧を発表したばかりだが、すぐに企業の陰謀に埋もれてしまった。

最も高度なバージョンであるジェミニ・ウルトラは、いくつかの一般的なベンチマークで強力な結果を出し、人間のパフォーマンスに匹敵するか、それを上回るケースもあった。例えば、様々な学問分野にまたがるMMLU試験では、32のベンチマークのうち30で新記録を樹立した


ジェミニの主な特徴は、”ネイティブなマルチモーダル “トレーニングであり、テキスト、画像、音声など複数のデータタイプを入力および出力として処理することができる。このアプローチは、バラバラのモードやモジュールを後から組み合わせた結果ではなく、異なる入力を理解するためにゼロからモデルが構築され、トレーニングされたことを意味する。

現在最も人気のあるマルチモーダルAIは、後者のロードマップに従っている。例えば、ChatGPT は、GPT-4 Turbo と Dall-E 3 を組み合わせ、テキストを処理して画像を生成し、GPT-4 Vision で画像を処理し、特別なコーディング・モジュールで計算を行います。その結果、LLMは、特定の問題の本質を完全に理解することができない、異なるAIモデル間のコーディネーターの役割に追いやられてしまいます。

この制限は、プロンプト・インジェクションのような脆弱性にもつながりかねない。例えば、テキストプロンプトを紙に書いたり印刷したり、写真を撮ったりして、視覚モジュールに処理を依頼することで、テキストプロンプトの安全制御を回避するテクニックがある


 src=

Related Posts

Leave a Comment