Home » OpenAIがChatGPTをアップグレード: AIチャットボットが “見る、聞く、話す “ことが可能に

OpenAIがChatGPTをアップグレード: AIチャットボットが “見る、聞く、話す “ことが可能に

by Tim

OpenAIは、人気のChatGPTチャットボットが画像や音声と対話できるようになる待望のアップグレードを展開しました。このリリースは、テキストだけでなく、複数のモードからの情報を認識し、処理できる人工知能を目指すOpenAIのビジョンに向けた大きな一歩です。

“我々はChatGPTで新しい音声と画像の機能を展開し始めています。音声で会話したり、話している内容をChatGPTに見せたりすることで、より直感的な新しいタイプのインターフェースを提供します」とOpenAIは公式ブログで述べている。

OpenAIによると、新しいChatGPT-Plusには、人間の声を模倣できる新しい音声合成モデルによるボイスチャットや、同社の画像生成モデルとの統合による画像ディスカッション機能が含まれるという。この新機能は、GPTビジョン(またはGPT-V、しばしば理論上のGPT-5と混同される)として知られるものの一部であり、今年初めにOpenAIが予告していたGPT-4の強化マルチモーダルバージョンの主要コンポーネントを表しているようだ。

このアップグレードは、OpenAIがDALL-E 3を発表した直後に行われた。DALL-E 3は、自然言語で表現された複雑な文脈や概念を理解しながら、テキストプロンプトから忠実度の高い画像を作成することができます。この機能はGPT-4によるChatGPTを提供するサブスクリプションベースのサービス、ChatGPT Plusに組み込まれる予定です。

DALL-E 3と会話型音声チャットの統合は、より人間のように-複数の感覚を使って-世界を認識できるAIアシスタントへのOpenAIの推進を意味する。同社によれば 「音声と画像は、生活の中でChatGPTを使う方法を増やします。旅行中にランドマークの写真をスナップして、何が面白いかについてライブ会話をしましょう。

マイクロソフト、OpenAIの統合でAI競争に拍車

OpenAIの最大の支援者であるマイクロソフトも、OpenAIの高度なジェネレーティブAI機能を自社の消費者向け製品に統合することを進めている。最近の秋のイベントで、マイクロソフトはWindows 11、Office、Bing検索のAIアップグレードを発表し、DALL-E 3(マイクロソフトの刷新されたPaintのような画像調整プログラム)やOpenAIのプログラミングアシスタントであるCopilotのようなモデルを活用した。

これはマイクロソフトのOpenAIへの100億ドルを超える投資と一致しており、AIアシスタント競争をリードすることを目指している。9月26日のWindows 11でのCopilotのデビューは、マイクロソフトのプラットフォームとデバイス全体でAIヘルプを利用できるようにすることを約束している。一方、Microsoft 365 ChatはOpenAIの自然言語能力を応用し、複雑な作業タスクを自動化する。

TCNが以前報じたように、マイクロソフトは「Microsoft 365 Chatは、電子メール、会議、チャット、文書、その他ウェブなど、仕事上のあらゆるデータを網羅する」と述べている

責任あるAIへの慎重な一歩

しかしOpenAIは、視覚や音声生成を含む、より強力なマルチモーダルAIシステムの潜在的なリスクを強く認識している。なりすまし、偏見、視覚的解釈への依存は重要な懸念事項である。

「OpenAIの目標は、安全で有益なAGIを構築することです。「私たちはツールを徐々に利用可能にすることを信じています。そうすることで、時間をかけて改良を加え、リスクを軽減することができます。

また、TCNが以前報じたように、OpenAIはレッドチームを結成し、AI製品の不適切な使用による有害な結果を防ぐ方法に取り組んでいる。また、サム・アルトマンCEOは、有利な法案を制定するために世界中でロビー活動を行っている。

OpenAIによると、PlusとEnterpriseのユーザーは今後2週間でこれらの新機能にアクセスできるようになり、その後開発者にも利用可能な範囲を拡大する予定だという。グーグルも独自の革新的なマルチモーダルLLM「ジェミニ」を発表しており、AI業界を支配するための競争は始まったばかりだ

Related Posts

Leave a Comment