Metaは木曜日、2つの最新AIツール、Emu VideoとEmu Editのスニークピークを公開した。Emu Videoは、ユーザーが純粋なテキストプロンプトからビデオを作成できるツールであり、Emu Editは、インペインティングとして知られる画像編集に異なるアプローチを導入している。
Today we’re sharing two new advances in our generative AI research: Emu Video & Emu Editです。
詳細 ➡️ https://t.co/qm8aejgNtd
これらの新しいモデルは、高品質な拡散ベースのテキストからビデオへの生成と、テキスト指示による制御された画像編集において、エキサイティングな結果をもたらします。
– AI at Meta (@AIatMeta) 2023年11月16日
EmuVideoとEmu Editの導入は、Metaの戦略的な動きであり、Metaverseに対するより広範なビジョンに沿ったものだとしている。同社によると、これらのツールは、プロのコンテンツ制作者から、単にアイデアを表現する斬新な方法を探しているユーザーまで、幅広いユーザーにアピールするように設計された新しいクリエイティブ機能を提供する。
特にEmu Videoは、AIを活用したコンテンツ生成を推進する同社のコミットメントを示すものであり、これまでこの分野を支配してきたRunwayやPika Labsといった人気企業に対する主要な競争相手となる可能性がある
。
Emu Video:テキストを動画に変換
Emu Videoは、テキストプロンプトからビデオを作成するために2段階のプロセスを採用している。まず、入力されたテキストに基づいて画像を生成し、次にテキストと生成された画像の両方からビデオを生成します。このアプローチは、ビデオ生成プロセスを簡素化し、Metaの以前のMake-A-Videoツールに使用されていた、より複雑で複数のモデルを使用する方法を回避します。
Emu Videoによって作成されたビデオは、512×512ピクセルの解像度に制限されていますが、提供されたテキストプロンプトとの一貫性が際立っています。テキストを視覚的な物語に正確に変換することで、Emu Videoは既存のほとんどのモデルや市販のソリューションとは一線を画しています
。
モデル自体は公開されていないが、ユーザーはあらかじめ決められたプロンプトのセットで実験することができ、結果はフレーム間のずれが少なく、かなりスムーズである
。
Emu Edit: インペインティングによる画像編集
Emu Videoと並んで、MetaはEmu Editの機能も紹介した。Emu Editは、AIが自然言語の指示を解釈して、さまざまな画像編集タスクを実行するように設計されたツールである。Emu Editは、高精度で柔軟な画像編集を可能にする。
「Emu Editはマルチタスク画像編集モデルであり、命令ベースの画像編集において最先端の成果を達成している」とMetaの研究論文には書かれており、複雑な編集命令を正確に実行する能力が強調されている
。
Emu Editの精度は、Stable Diffusionによって普及した高度なAI技術であるディフューザーを使用することで向上しています。このアプローチは、編集が元の画像の視覚的完全性を維持することを保証します。
メタは、Emu VideoやEmu EditのようなAIツールの開発に注力することで、メタバースの創造に不可欠な技術を創造するという戦略を体現している。これには、大規模言語モデルLLaMA-2を搭載したパーソナル・アシスタントMeta AIの開発や、ARデバイスへのマルチモダリティの導入も含まれる
。