Home » 健全な決断: メタがAIを搭載したAudioboxを発表

健全な決断: メタがAIを搭載したAudioboxを発表

by Patricia

フェイスブックの親会社であるメタ社は月曜日、AIを搭載した新しい音声生成プラットフォームAudioboxの最初のデモを公開した。ソーシャルメディア大手は、Audioboxはユーザーが音声入力とプロンプトを使用してカスタムボイスとサウンドエフェクトを作成することができると述べた。

メタ社によると、Audioboxは今年初めに発表されたVoiceboxプラットフォームで開発された技術をベースにしているが、品質面ではVoiceboxを上回り、”責任ある使用 “のための自動透かしも含まれているという。

「Voiceboxの後継であるAudioboxは、音声、効果音(犬の鳴き声、車のクラクション、雷の音などの短い個別の音)、サウンドスケープの生成・編集機能を統合し、それぞれのユースケースで制御性を最大化するための様々な入力機構を備えることで、音声のためのジェネレーティブAIをさらに進化させている」とMetaのAudioboxチームは述べている。

Audioboxは “特注のソルバー “を使用しており、パフォーマンスを損なうことなく、生成プロセスを従来の25倍以上高速化しているとチームは説明している。

メタ社は6月、英語、フランス語、ドイツ語、スペイン語、ポーランド語、ポルトガル語を含む6ヶ国語の音声を生成できる生成AIツールVoiceboxを発表した。

当時、AIを使ったディープフェイクへの懸念が高まる中、メタ社は悪用の可能性を認め、Voiceboxを一般に公開しないと述べた。Audioboxの悪用に対抗するため、メタ社は電子透かしを入れた。

「オーディオ生成モデルの品質と忠実性における最近の進歩は、このモデルにおける新しいアプリケーションとユース(ケース)に力を与えている。しかし同時に、多くの人々が…悪用のリスクについて懸念を表明しています」とAudioboxチームは報告書で述べている。”したがって、どの音声が生成されたものなのか、あるいは本物なのかを認識する能力は、技術の[悪用]を防ぎ、特定の[プラットフォーム]がポリシーを遵守することを可能にするために極めて重要である。”

“Audioboxモデルと我々のインタラクティブ・デモの両方が、自動音声透かし機能を備えているため、Audioboxで作成された音声は、その発信元を正確に追跡することができる “とMeta氏は述べた。「私たちの電子透かしの方法は、人間の耳には知覚できないが、AIが生成したセグメントを見つけることができるモデルを使用して、フレームレベルまで検出することができる信号をオーディオに埋め込む。

“我々は、制御性を高め、音声と音生成のパラダイムを統一するために、記述ベースと例ベースのプロンプトを設計しています。「音声を生成する際に、トランスクリプト、ボーカル、その他の音声スタイルを独立して制御できるようにします」。

より高速になるかもしれないが、Metaは、Audioboxのような音声生成AIモデルは、ラベル付けされAIモデルに供給される学習データ(この場合は音)の量によって制限されることを認め、データを正しくラベル付けすることの重要性を強調した。

例えば、チワワとラブラドールが吠える音を特定の犬の種類としてラベル付けすることは、単に “犬が吠えている “とラベル付けするよりも好ましいと研究者たちは述べている。Meta社によれば、アクセントや方言のような会話パターンも同様だという。

メタ社の広報担当者はこれ以上のコメントを避けた。

グーグル、マイクロソフト、アマゾンと同様、メタ社も人工知能に多額の投資を行っている。今月初め、メタ社はフェイスブック、インスタグラム、WhatsAppを含む同社のプラットフォーム群に、AIを活用した20以上の新機能が追加されることを発表した。

責任あるAI開発の支持者であるMetaは、最近IBMと提携し、オープンソースのAIイノベーションと開発に焦点を当てた50以上の企業、大学、シンクタンクのコンソーシアムであるAI Allianceを立ち上げた。

「AIアライアンスは、研究者、開発者、企業を集め、モデルがオープンに共有されているかどうかにかかわらず、私たち全員の進歩に役立つツールや知識を共有します」と、メタ社のニック・クレッグ・グローバル・アフェアーズ社長は述べた。「我々は、AIの最先端を前進させ、誰もが責任を持って構築できるよう、パートナーと協力することを楽しみにしている」

Related Posts

Leave a Comment