Home » 新しいAI画像ジェネレーターはSDXLより少ないコストでSDXL以上の効果をもたらす

新しいAI画像ジェネレーターはSDXLより少ないコストでSDXL以上の効果をもたらす

by v

大人気のStable Diffusion画像ジェネレーターを開発したStability AI社は、競争の激しいAI分野に新たな手榴弾を打ち込んだ。

Stability社の全く新しいStable Cascadeは、新しいオープンソースのWürstchenアーキテクチャを搭載し、テキストから画像への生成に非常に効率的でモジュール化されたアプローチを提供し、品質、スピード、適応性のバランスをとっている。

このモデルは、従来のStable Diffusionモデルには見られなかった圧縮率を達成し、SDXLやMidJourneyのような最新のジェネレーター(通常1024×1024の解像度で動作)と比較して、より高い解像度と詳細な結果を生成することが可能であるとしている


画像: 安定性AI

画像: 安定性AI

ヴュルステン成分

ステーブルカスケードは、従来のステーブルディフュージョンのパイプラインとは異なる、3段階のプロセスを採用しています。

  • ステージA:画像圧縮: 一般的なモデルとは異なり、この初期段階は高度なパズルのように画像を処理します。VQGAN(Vector-Quantized Generative Adversarial Network)により、画像は256×256のコンパクトなセクションに分割される。各セクションは専用のコードブックから個別の「トークン」を受け取る。このステップにより、後続のステージでの高速処理が可能になる。
  • ステージB:リビルダー(潜在拡散モデル) この段階では、圧縮後の画像再構成作業を行います。この段階は、詳細な指示書と設計図を使用する熟練した建築物の改修業者だと考えてください。
  • ステージC:テキスト条件付き潜在ジェネレーター ステージCでは、テキストベースの命令を処理し、圧縮された潜在ジェネレーターを生成することだけに焦点を当てます。この分離されたテキスト生成アプローチにより、特定のユースケースに合わせた微調整の複雑さとコストが大幅に削減されます。
画像: 安定性AI

画像: 安定性AI


つまり、その名が示すとおりの働きをする。テキスト駆動のジェネレーターから始まり、小さな画像のスナップショットを生成し、それをより詳細なものに膨らませ、高品質でフル解像度の画像としてあなたの目に正しく映し出します

モジュール式の利点

Stableカスケードのモジュール設計は、開発者によると、いくつかの魅力的な利点をもたらします。まず第一に、非常に効率的であることだ。圧縮された潜在空間(人間が見るピクセル空間とは対照的に、AIが画像合成を評価する方法)と、焦点を絞ったステージCモデルにより、Stable Cascadeはより速い推論時間を達成する。また、SDXLのような大規模なStable Diffusionモデルと比較して、ハードウェア要件が大幅に削減されています。

Stability AIの内部テストでは、Stable Cascadeが画質と美的魅力の両面でSDXLのような同等のモデルを一貫して上回る能力があることが実証されました。さらに、このモデルは非常に少ない計算リソースで、非常に高速にこれらの結果を達成しています。

画像: 安定性AI

画像: 安定性AI


安定性AIが主張するもう一つの利点は、その汎用性である。ControlNetsやLoRasのように、現在Stable Diffusionのアーティストが作品を洗練させるために使用しているツールの多くは互換性がある。また、非常に効率的であるため、ユーザーは記憶を崩すことなく、ワークフローにこれらのツールを追加することができる。

このモデルの軽量アーキテクチャ、小さなモデルフットプリント、および性能の低いコンピューティングハードウェアとの互換性は、カジュアルユーザーや研究者にとっても同様に、高度なテキストから画像への生成技術へのアクセス性を向上させます。

より少ないリソースでより多くのことを実現


我々のテストによると、このモデルは正確で詳細であり、Stability AIの以前のSDXLターボやLCMモデルのような洗礼されたゴムのような美しさはない。その代わりに、微調整されたSDXLモデルと同等の非常に詳細な画像を生成します。

また、基本的なテキスト生成機能も備えており、Civitaiのようなオンラインリポジトリですでに利用可能なLoRAを使ってさらに強化することができる。

Stability AIは、Stable Diffusion XLよりも多くのパラメータをホストしているにもかかわらず、Stable Cascadeの方が推論時間が速く、迅速なアライメントに優れていると報告しています。

また、Stable Cascadeの微調整は、同規模のStable Diffusionモデルと比較して、より少ないリソースで行うことができます。研究者や熱心な研究者は、より小さなデータセットで、より少ない計算能力でモデルを訓練できる可能性があり、コスト効率が非常に高くなります。

Stable Cascadeは非商用の研究用ライセンスでリリースされており、Stability AIのGitHubリポジトリですぐに利用可能です。また、コミュニティがメンテナンスするComfyUIワークフローもすでに利用可能で、より簡単にモデルを自動ダウンロードできます。

Related Posts

Leave a Comment