Home » エヌビディアのAI画像パーソナライゼーション手法はフロッピーディスクに収まり、学習に4分かかる

エヌビディアのAI画像パーソナライゼーション手法はフロッピーディスクに収まり、学習に4分かかる

by v

急速に進化するAIアート作成ツールの中で、Nvidiaの研究者は、Perfusionと呼ばれる革新的な新しいテキストから画像へのパーソナライゼーション手法を発表した。しかし、競合他社のような100万ドルの超重量級モデルではない。Perfusionは、わずか100KBのサイズと4分のトレーニング時間で、アイデンティティを維持しながらパーソナライズされたコンセプトを描く上で、創造的な柔軟性を大きく発揮する。

Perfusionは、Nvidiaとイスラエルのテルアビブ大学が作成した研究論文で発表された。その小さなサイズにもかかわらず、Stability AIのStable Diffusion v1.5、新しくリリースされたStable Diffusion XL(SDXL)、MidJourneyなどの主要なAIアートジェネレーターで使用されている調整方法を、特定のエディションの効率性という点で上回ることができます


Image: Nvidia Research

Image: Nvidia Research


Perfusionの主な新アイデアは “Key-Locking “と呼ばれるものです。これは、ユーザーが追加したい新しい概念(特定の猫や椅子など)を、画像生成時に、より一般的なカテゴリーに結びつけることで機能する。例えば、猫は “ネコ “という広い概念にリンクされる。

これはオーバーフィッティングを避けるのに役立つ。オーバーフィッティングとは、モデルが正確な学習例に対して狭く調整されすぎることである。オーバーフィッティングは、AIがコンセプトの新しい創造的なバージョンを生成することを困難にする。

新しい猫をネコという一般的な概念に結びつけることで、モデルは猫をさまざまなポーズ、外見、環境で描くことができる。しかし、どんなネコ科の動物でもなく、意図されたネコ科の動物に見えるよう、本質的な「ネコらしさ」は保たれている。

つまり、簡単に言えば、キー・ロッキングによって、AIはその核となるアイデンティティを保ちながら、パーソナライズされたコンセプトを柔軟に描くことができるのです。アーティストに次のような指示を与えるようなものだ: 「寝ているとき、毛糸で遊んでいるとき、花の匂いを嗅いでいるときの猫のトムを描いてください」

なぜNvidiaはより少ないことがより大きいと考えるのか

Perfusionはまた、コンセプトを個別に学習する既存のツールとは異なり、複数のパーソナライズされたコンセプトを自然な相互作用で1つの画像に組み合わせることができます。ユーザーは、テキストプロンプトによって画像作成プロセスをガイドし、特定の猫と椅子などの概念を組み合わせることができます。

Perfusionは、100KBのモデルを調整することで、推論中の視覚的忠実度(画像)とテキストアライメント(プロンプト)のバランスをコントロールできるという驚くべき機能を提供します。この機能により、ユーザーはパレート・フロント(テキスト類似度対画像類似度)を簡単に探索し、特定のニーズに合った最適なトレードオフを選択することができます。モデルのトレーニングには、ある程度の技巧が必要であることに注意することが重要です。モデルを再現することに集中しすぎると、モデルは同じ出力を何度も何度も出すことになり、プロンプトに忠実で自由度がないモデルは、たいてい悪い結果を生む。ジェネレーターがプロンプトにどれだけ近づけるかを調整する柔軟性は、カスタマイズの重要な要素です。

他のAI画像ジェネレーターには、ユーザーが出力を微調整する方法があるが、かさばる。参考として、LoRAはStable Diffusionでよく使われる微調整方法です。これは、アプリに数十メガバイトから1ギガバイト(GB)以上を追加することができます。もう一つの方法であるテキスト反転埋め込みは、軽量だが精度は劣る。現在最も精度の高い手法であるDreamboothを使って学習させたモデルは、2GB以上の重さがある。

Image: Nvidia Research

Image: Nvidia Research


これに対してNvidiaは、Perfusionは前述の主要なAI技術よりも優れたビジュアル品質とプロンプトに対するアライメントを生み出すとしている。超効率的なサイズにより、モデル全体を微調整する手法の数GBのフットプリントと比較して、画像の生成方法を微調整する際に必要な部分のみを更新することが可能です。

この研究は、エヌビディアがAIに注力する姿勢と一致している。同社のGPUがAIモデルのトレーニングを支配し続けているため、同社の株価は2023年に230%以上急騰した。Anthropic、Google、Microsoft、Baiduのような企業がジェネレーティブAIに数十億ドルを注いでいる中、Nvidiaの革新的なPerfusionモデルは優位に立てる可能性がある。

Nvidiaは今のところ研究論文の発表にとどまっており、近日中にコードを公開することを約束している

Related Posts

Leave a Comment