AIは時に不気味なほど賢いチャットボットを通じて爆発的にシーンに登場したが、テキストベースのインタラクションはすでに古い。OpenAIのGPT-4アップデートの発表では、最新のマルチモーダルAIであるGPT-Vision(GPT-V)が紹介された。その発表が現実のものとなり、ユーザーはついにその能力をフルに試す機会を得た。
マルチモーダル大規模言語モデル(LLM)とは、文字だけでなく他のモードでも対話できることを意味する。この場合、新しいGPT-Vは画像を理解し、それを扱うことができる。また、新しいジェネレーティブ・アート・ツールDALL-E 3のおかげで、ChatGPTは画像を入力として受け取るだけでなく、出力として画像を生成することもできる。
これらの新機能は、ユーザーが実際に使ってみることで、技術分野全体に眉をひそめた。UFO目撃に関する冗長化された政府文書を解読できるのか?そうだ。「ChatGPT-4Vマルチモーダルは、NASAが発表したUFO目撃談に関する冗長化された政府文書を解読する」と、あるツイートは絶賛している。”真実はそこにあるのではなく、このGPT-Vにあるのかもしれない。”
ChatGPT-4VマルチモーダルはNASAが公開したUFO目撃に関するRedacted政府文書を解読します。
私は100以上の冗長化された文書でこれをテストしました。pic.twitter.com/aCKOm577TO
– Brian Roemmele (@BrianRoemmele) 2023年10月6日
文字列の隙間を埋めようとするのは、基本的にLLMの仕事だ。GPT-Vの能力をテストしようとしたとき、ユーザーは次善の策を講じ、検閲したテキストの一部を推測させた。「ほぼ100%のインテント精度」と彼は報告した。
もちろん、そうでなければ見えない部分に対する推測が正確であるかどうかを検証するのは難しい。
政府によって検閲された情報を暴くこと以上に難しいのは、医師の不可解な筆跡を理解しようとすることだ。しかし、GPT-Vはその落書きを解読することができる。丁寧なプロンプトがあれば、GPT-Vは最も解読しにくい医師のメモでさえも意味を理解することができ、「2錠飲む」が「青いワッフルを焼く」にならないことを保証する
。
ChatGPT-4V マルチモーダル。
プロンプト: 「この文書を解読してください。ステップバイステップで考えましょう。正確であることが肝心です。ありがとうございました。pic.twitter.com/b7FPuPVRn9
– Brian Roemmele (@BrianRoemmele) 2023年10月6日
だが気をつけろ。どんなに高度なAIであっても、経験豊富な、あるいは関節炎を患った医師の手には負えないこともある。
そして医者を信用できない人のために、ChatGPTは即座にセカンドオピニオンを提供することができる。このモデルはレントゲン写真を理解し、特定の医療ケースの分析と洞察を提供することができます。
ChatGPTビジョンの過小評価された使用例。
放射線科医になるには13年のトレーニングが必要です。
今、ゼロからレポートを作成する代わりに、彼らはおそらくAIの診断を確認する必要があるだけです。pic.twitter.com/IhQFe98m5q
– Peter Yang (@petergyang) 2023年10月2日
But Why stop at handwriting and body scans? GPT-Vは最新のホームフィットネスの第一人者となり、自宅の設備や目標に合わせたワークアウトプランを作成している。そして、もしあなたが食べようとしている食事のカロリーが気になるなら、GPT-Vがあなたの背中を押してくれる。あるユーザーは、”OK ChatGPT 4.0、新しい視覚機能付き。浜辺のアザラシでさえも。
新しい視覚機能を備えたOK ChatGPT 4.0はかなりすごいです。
今食べたフィッシュタコスのカロリーを聞いてみました。
あらゆるものを認識できるなんて信じられない。浜辺のアザラシでさえも。pic.twitter.com/rfIK5o9ODD
– Robert Scoble (@Scobleizer) 2023年10月5日
Interior design enthusiasts, rejoice!AIがデザインを提案し、個人の好みを取り入れることができるようになった。デザイナーに高額な報酬を支払うことなく、「あなたらしい」生活空間を想像してみてほしい。ひどい部屋の写真を撮って、GPT-Vに提案をしてもらうだけで、あなたの望むパラダイスに変身します。
宿題でお困りですか?課題をスクリーンショットするだけで、GPT-Vがあなたの隣に座っていてくれたらいいのに、といつも思っていた親切なクラスメートのような役割を果たしてくれる。
子供たちは二度と宿題をしなくなる。pic.twitter.com/rtjJT2xn9l
– Peter Yang (@petergyang) 2023年9月27日
ChatGPT が9年生向けに、このヒト細胞の図を分解。
これが未来の教育だ。pic.twitter.com/L0Za0ZB5rs
– Mckay Wrigley (@mckaywrigley) 2023年9月28日
そして私たちの中の金融オタクにとって、GPT-Vは単なる遊びやゲームではありません。GPT-Vはテクニカル分析にも深く切り込むことができる。好きな(あるいは最も嫌いな)株や暗号のスクリーンショットを入力するだけで、チャートを分析し、それに応じて予測を立ててくれる。ただ、これは財務アドバイスではないこと、そしてもしあなたが貧乏になってしまっても、AIがあなたを金持ちにしてくれるわけではないことを覚えておいてほしい。
It’s so over for ta-ooooors
$UBERのチャートの画像をGPT-Vに渡した。本番で試してみます。
以下のスレッド!pic.twitter.com/k6Su9G0267
– ろぴりーと(0commoDTE) (@ropirito) 2023年10月11日
マルチモーダルLLMの幕開けが産業を再定義する。AIの巨人が進化する中、GPT-Vは氷山の一角に過ぎない。Googleの次期Geminiは、そのマルチモーダルな能力でBardを凌ぐと噂されている。NexT-GPTはオープンソースの代替案を提供し、言葉、音声、動画、画像を扱うように訓練されたモデルを約束する。
このような進歩は単なる技術的な戯言ではなく、私たちの日常的な交流や職業、そしておそらく私たちの世界観さえも再形成する可能性がある。そして、オープンAIがGPT-Vで先鞭をつける一方で、競合他社も遠く及ばない。我々はAIルネッサンスの瀬戸際にいるのだろうか?
もしあなたがまだAIをチャットのためだけに使っているなら、すでに遅れをとっているかもしれない。AIは読み、見ることができ、日々能力を増している。
GPT-Vはまた、「ワルドはどこだ?」の楽しみを台無しにする可能性もある。なぜこんなものを欲しがるのか?これはChaosGPTの領域だ。
“見つけた!” pic.twitter.com/LhMQ8e29x2
– Pietro Schirano (@skirano) 2023年9月29日