Home » アップル、MGIE画像エディターでオープンソースAIに揺さぶりをかける

アップル、MGIE画像エディターでオープンソースAIに揺さぶりをかける

by Patricia

昨年はほとんど傍観していたかのように見えたアップルだが、人工知能、特にオープンソースのAIの分野で事態を大きく動かし始めている。

クパチーノを拠点とする巨大テック企業は、サンタバーバラ大学と提携し、人々がChatGPTとやりとりするのと同じように、自然言語に基づいて画像を編集できるAIモデルを開発した。アップルはこれをMultimodal Large-Language Model-Guided Image Editing(MGIE)と呼んでいる。

MGIEは、ユーザーから提供されたテキスト指示を解釈し、それを処理して洗練させ、正確な画像編集コマンドを生成する。拡散モデルを統合することで、元画像の特徴に基づいた編集が可能になります。

テキストと画像の両方を処理できるマルチモーダル大規模言語モデル(MLLM)は、MGIEの手法の基礎を形成している。MLLMは、テキストまたは画像のみに焦点を当てた従来のシングルモードAIとは異なり、複雑な命令を処理し、より幅広い状況で動作することができる。例えば、あるモデルがテキストの指示を理解し、特定の写真の要素を分析し、画像から何かを取り出して、その要素のない新しい画像を作成することができる。

これらのアクションを実行するために、AIシステムは、生成テキスト、生成画像、セグメンテーション、CLIP分析など、異なる機能をすべて同じプロセスで備えている必要があります。
MGIEの導入により、アップルはOpenAIのChatGPT Plusのような機能の実現に近づき、ユーザーがAIモデルと会話形式で対話し、テキスト入力に基づいてカスタマイズされた画像を作成できるようになる。MGIEを使えば、ユーザーは自然言語で「手前の交通コーンを取り除いて」というような詳細な指示を出すことができ、それが画像編集コマンドに変換されて実行される。

言い換えれば、ユーザーは金髪の人の写真から始めて、”この人を赤毛にして “と言うだけで、その人を生姜に変えることができる。ボンネットの下では、モデルが指示を理解し、人物の髪をセグメント化し、「赤毛、非常に詳細、フォトリアリスティック、ジンジャートーン」のようなコマンドを生成し、インペインティングによって変更を実行する。

アップルのアプローチは、Stable Diffusionのような既存のツールに沿ったもので、テキストガイド付きの画像編集のための初歩的なインターフェイスで補強することができる。Pix2Pixのようなサードパーティのツールを活用することで、ユーザーは自然言語コマンドを使ってStable Diffusionのインターフェイスと対話することができ、編集された画像にリアルタイムでエフェクトがかかるのを目の当たりにすることができる。

しかし、アップルのアプローチは、他のどの類似した方法よりも正確であることが証明されている


InstructのPix2Pic、LGIE、AppleのMGIE、Ground Truth Imageを使った自然言語による画像編集の結果: アップル

InstructのPix2Pic、LGIE、AppleのMGIE、Ground Truth Imageを使った自然言語による画像編集の結果: アップル


ジェネレーティブAI以外にも、AppleのMGIEはカラーグレーディング、リサイズ、回転、スタイル変更、スケッチなど、従来の画像編集タスクを実行できる

なぜAppleはオープンソースにしたのか?

Appleのオープンソースへの進出は、単なるライセンス要件を超えた、明確な戦略的動きである。

MGIEを構築するために、アップルはLlavaやVicunaといったオープンソースのモデルを使用している。これらのモデルにはライセンス要件があり、大企業による商業利用が制限されているため、アップルはその改良をGitHubでオープンに共有せざるを得なかったのだろう。

しかし、これによってアップルは、自社の強みと柔軟性を高めるために、世界中の開発者のプールを活用することができる。このようなコラボレーションは、アップルが単独でゼロから始めるよりもはるかに速く物事を前進させる。加えて、このオープン性が幅広いアイデアを刺激し、多様な技術的才能を引き寄せることで、MGIEはより早く進化することができる。

アップルがMGIEのようなプロジェクトでオープンソースコミュニティに参加することは、開発者や技術愛好家の間でアップルブランドを後押しすることにもなる。メタとマイクロソフトの両社がオープンソースAIに多額の投資を行っていることからも、この側面は周知の事実だ。

MGIEをオープンソースソフトウェアとして公開することで、アップルは、特にAIとAIベースの画像編集について、まだ発展途上の業界標準を設定する上で先手を打つことができるだろう。アップルはMGIEによって、AIのアーティストや開発者たちに、次の大きなものを構築するための強固な基盤を与えたことになる。

Siriに送られた音声コマンドを合成し、そのテキストを使ってユーザーのスマートフォン、コンピューター、またはインナーシブ・ヘッドセットで写真を編集することは、それほど難しいことではないだろう。

技術に精通したAI開発者は、今すぐMGIEを使うことができる。このプロジェクトのGitHubリポジトリ

をご覧ください。

Related Posts

Leave a Comment