Home » AIアート対決: トップツールMidJourney、Stable Diffusion v1.5、SDXLの実力は?

AIアート対決: トップツールMidJourney、Stable Diffusion v1.5、SDXLの実力は?

by Tim

AI生成アートの時代が到来し、3つの巨頭がデジタルクリエイターのお気に入りツールとして登場した: Stability AIの新しいSDXL、古き良きStable Diffusion v1.5、そしてその主なライバルだ: MidJourneyだ。

OpenAIのDall-Eはこの革命を起こしたが、その開発不足とクローズドソースであることから、Dall-E 2は競合他社に対してどのカテゴリーでも際立ってはいない。しかし、TCNが数日前に報じたように、openAIがDall-Eの新バージョンをテストしており、その能力は高く、傑出した作品を生み出すと言われているため、将来的には変わるかもしれない。

独自の強みと限界を持つ主要なプラットフォームの中から、適切なツールを選択することが鍵となる。それでは、これらのジェネレーティブ・アート技術が、機能、要件、スタイル、美しさの点でどのように積み重なるのか、掘り下げてみよう。

MidJourney:AIアートのゲートウェイドラッグ

デジタルアートコンペティションで1位を獲得したMidjourneyの画像「空間オペラ劇場」

デジタルアートコンペティションで1位を獲得したMidjourneyの画像「空間オペラ劇場」


トリオの中で最もユーザーフレンドリーなMidJourneyは、Discordを使いこなしているユーザーであれば、技術的な知識がなくてもAIアートにアクセスできる。このプラットフォームはMidJourneyのサーバー上で非公開で運営されており、ユーザーはDiscordのチャットを通じて交流する。この閉鎖的なアプローチには利点も欠点もある。プラス面は、専門的なハードウェアやAIのスキルを必要としないことだ。しかし、MidJourneyのモデルとトレーニング・データに関するオープンソースの透明性がないため、できることがかなり限られており、愛好家がそれを改善することは不可能だ。

MidJourneyは、ユーザーフレンドリーなDiscordインターフェースで初心者に愛されている、口が達者な魅力的なボットだ。ボットにテキストプロンプトを送るだけで、数分で美的傑作が完成する。難点は?年間$96と、カスタマイズもローカルで動かすこともできないAIにしては割高だ。しかし、少なくともパーティーでは芸術的(そしてオタク的)に見えるだろう!

機能的には、MidJourneyはテキストプロンプトに基づいて素早く画像を作成し、印象的な美的まとまりを持っている。しかし、特定の主題を深く掘り下げると、出力はより奇抜になる。MidJourneyは、たとえプロンプターが想像したものと違っていたとしても、すべての作品に独自のタッチを加えることを好む。そのため、ほとんどの画像はコントラストが飽和し、写実的というより写実的な傾向があり、時間が経つと、人々はその美的特徴に基づいてMidJourneyで作成された画像を識別できるようになります。

MidJourneyでは、プラットフォームの厳格なコンテンツルールによって、クリエイティブな自由も制限される。社会的にも(ヌードや暴力の描写という意味で)、政治的にも(物議を醸すような話題や特定の指導者という意味で)、積極的に検閲されている。全体として、MidJourneyはAIアートへの魅力的な入り口を提供してくれる。その時こそ、Stable Diffusionの出番だ。

Stable Diffusion v1.5:AIアートの「オールド・リライアブル」

ユーザーThaiTvNewsがカスタムSD v.15モデルを使って作成した無題の画像。

ユーザーThaiTvNewsがカスタムSD v.15モデルを使って作成した無題の画像。


MidJourneyが小馬の乗り物なら、Stable Diffusion v1.5は信頼できる仕事馬だ。1年以上アクティブに開発されているオープンソースモデルであるStable Diffusion v1.5は、Leonardo AI、Lexica、Mage Space、そして現在Google Playストアで入手可能なAI waifuジェネレーターなど、現在最も人気のあるAIアートツールの多くを動かしている。

アクティブなMidJourneyコミュニティは、アニメの様式化から複雑な風景、超リアルな写真など、あらゆるものに焦点を当てた特殊なチェックポイント、エンベッディング、LoRAを作成するために、基本モデルを反復してきた。デメリットは?まあ、若いAIの新進気鋭に比べると、古さが目立ち始めている。

Stable Diffusion v1.5は、フードの下にいくつかの調整を加えることで、クリエイティブなビジョンに合わせた鮮明で詳細な画像を生成することができます。出力解像度は現在、品質が低下する前に512×512または時には768×768に制限されているが、迅速なスケーリング技術が役立つ。タイル型アップスケーリングの人気もこのモデルの人気を押し上げ、MidJourneyができることをはるかに超える超解像度の画像を生成できるようになった。

現在、MidJourneyはインペインティング(画像内部の変更)をサポートする唯一の技術だ。アウトペインティング(モデルが画像の枠を超えて画像を拡大すること)もサポートされています。これは、ユーザーが縦軸と横軸の両方で画像を拡大できることを意味します。また、roop(ディープフェイクを作成するために使用)、After Detailer(顔や手を改善するために使用)、Open Pose(特定のポーズを模倣するために使用)、地域プロンプトなどのサードパーティ製プラグインもサポートしています。

このプラグインを実行するには、Nvidia RTX 2000シリーズ以上のGPUが必要だが、Stable Diffusion v1.5の軽量なフットプリントは、4GB VRAMカードでもスムーズに動作する。このAIアートのOGは、その古さにもかかわらず、コミュニティの強力なサポートにより、そのゲームの頂点に君臨し続けている。

SDXL: AIアートの次のフロンティア

SDXLモデルをカスタマイズしてBuzimageユーザーが作成した無題の画像

SDXLモデルをカスタマイズしてBuzimageユーザーが作成した無題の画像


Stable Diffusion v1.5が信頼できる仕事馬なら、SDXLは競馬場を駆け回る若いサラブレッドです。同じくStability AIが提供するこのパワフルなモデルは、デュアルテキストエンコーダーを活用してプロンプトをよりよく解釈し、2段階の生成プロセスによって高解像度でも優れた画像の一貫性を実現する。

これらの機能はエキサイティングに聞こえるが、SDXLを使いこなすのが少し難しくもある。一方のテキストエンコーダーは短い自然言語を好み、もう一方はSD v1.5のスタイルである切り刻んだ特定のキーワードを使って構図を説明する。

2段階の生成は、メイン画像に詳細を入れるためのリファイナーモデルが必要であることを意味する。時間、RAM、コンピューティングパワーがかかるが、結果は豪華だ。

SDXLは頭角を現す準備ができている。Stable Diffusion v1.5の3倍近いパラメータをサポートするSDXLは、汗をかくことなく、前作と比較して50%近く大きな解像度の画像を生成し、大きな力を発揮します。しかし、この最先端のパフォーマンスにはコストがかかります: SDXLは、最低6GBのVRAMを持つGPUを必要とし、より大きなモデルファイルを必要とし、事前に訓練された特殊化がありません。

すぐに使える出力は、細かく調整されたStable Diffusionモデルにはまだ及びません。しかし、コミュニティが最適化の魔法を使えば、SDXLの可能性は、現在のモデルで可能なことを吹き飛ばしてくれるでしょう

アウトプットの比較

百聞は一見に如かずということで、似たようなプロンプトを使って異なる出力を比較し、最も気に入ったものを選べるように数千の文章をまとめました。各モデルには異なるプロンプトのテクニックが必要であることに注意してください。

より具体的に言うと、Stable Diffusionにはかなり一般的なネガティブプロンプトを使いましたが、MidJourneyにはあまり必要のないものでした。それ以外のプロンプトは同じで、結果は厳選されたものではありません。

  • プロンプト: 自転車で海を渡るコーギーの肖像


コメント: SDXLとMidJourneyのスタイルの違いだ。どちらもStable Diffusion v1.5に勝っています。少なくとも、バイクを正しく「乗りこなす」犬を作ることができるのはStable Diffusion v1.5だけのようです。

  • プロンプト: 夜の赤の広場


コメント: MidJourneyは『赤い広場』で赤い四角を作ろうとした。SDXL v1.0の方が鮮明ですが、色のコントラストはSD v.15 (Model: Juggernaut v5)の方が良いです。

  • プロンプト: 近未来的な教室にいる巨乳教師


コメント: MidJourneyは検閲ルールのため、画像の生成を拒否した。SDXLは、巨乳の先生と近未来的な教室の両方を演出するために、細部への気遣いが豊かになっています。SD v1.5では、バストアップの先生(被写体、モデル:Photon v1)に重点を置き、環境のディテールを抑えました。

  • Prompt: 機械を動かす脳、ジェフリー・スミスとH.R.ギーガー、4Kで高精細、西田俊英による、ポスター、ツール、高精細、壮大なサイバーパンク、スタジオムーティ、ビットマップ、杉村地平による


コメント MidJourneyもSDXLもプロンプトに忠実な結果を出した。SDXLは芸術的なスタイルをよりよく再現したのに対し、MidJourneyは芸術的なスタイルを再現する代わりに、美的に美しい画像を作成することに重点を置いた。

ジェネレーティブアートの未来

では、どのモネ・イン・トレーニングを使うべきか?率直に言って、どれを選んでも間違いはない。MidJourneyは使いやすさと美的なまとまりに優れている。Stable Diffusion v1.5は、カスタマイズ性とコミュニティサポートを提供している。そしてSDXLは、フォトリアリスティックな画像生成の限界を押し広げます。一方、Dall-Eが今後どのようなものを発表するか、ご期待ください。

私たちの言葉を鵜呑みにしないでください。絵筆はあなたの手の中にあり、真っ白なキャンバスが待っています。好きなジェネレイティブ・ツールを手にして、創作を始めよう!ただ、人類に対する存亡の危機は最小限にとどめておいてくださいね。

Related Posts

Leave a Comment