Home » Neuer AI-Bildgenerator bietet mehr als SDXL mit weniger

Neuer AI-Bildgenerator bietet mehr als SDXL mit weniger

by Thomas

Stability AI, das Unternehmen hinter dem beliebten Stable Diffusion Bildgenerator, hat soeben eine weitere Granate in die heiß umkämpfte KI-Arena geschleudert.

Stability’s brandneue Stable Cascade, die auf der neuen, quelloffenen Würstchen-Architektur basiert, bietet einen hocheffizienten und modularen Ansatz zur Text-zu-Bild-Generierung, der Qualität, Geschwindigkeit und Anpassungsfähigkeit in Einklang bringt.

Das Modell erreicht laut Unternehmen einen Kompressionsfaktor, der mit herkömmlichen Stable Diffusion-Modellen nicht vergleichbar ist, und ist in der Lage, Ergebnisse mit höherer Auflösung und mehr Details zu erzeugen – vergleichbar mit modernen Generatoren wie SDXL oder MidJourney (die typischerweise mit Auflösungen von 1024×1024 arbeiten).

Bild: Stability AI

Bild: Stability AI

Würstchen Zutaten

Stable Cascade verwendet einen dreistufigen Prozess, der sich von der traditionellen Stable Diffusion Pipeline unterscheidet:

  • Stufe A: Der Bildkompressor: Im Gegensatz zu typischen Modellen werden in dieser ersten Stufe Bilder wie fortgeschrittene Puzzles verarbeitet. Unter Verwendung eines vektorquantisierten generativen adversen Netzwerks (VQGAN) wird das Bild in kompakte 256×256 Abschnitte zerlegt. Jeder Abschnitt erhält ein diskretes „Token“ aus einem speziellen Codebuch. Dieser Schritt ebnet den Weg für eine blitzschnelle Verarbeitung in den folgenden Phasen.
  • Stufe B: Der Rebuilder (Latent Diffusion Model) In dieser Phase wird das Bild nach der Kompression rekonstruiert. Stellen Sie sich diese Phase wie einen geschickten Gebäuderenovator vor, der detaillierte Anweisungen und Baupläne für seine Arbeit verwendet.
  • Stufe C: Der textabhängige Latentgenerator Stufe C konzentriert sich ausschließlich auf die Verarbeitung textbasierter Anweisungen und die Erzeugung komprimierter Latents. Dieser entkoppelte Ansatz der Texterzeugung reduziert die Komplexität und die Kosten der Feinabstimmung für bestimmte Anwendungsfälle drastisch.
Bild: Stability AI

Bild: Stability AI


Mit anderen Worten, es tut, was sein Name sagt. Es beginnt mit einem textgesteuerten Generator, der winzige Bildschnappschüsse erzeugt, die zu einem detaillierteren Bild aufgeblasen werden, das dann als qualitativ hochwertiges Bild in voller Auflösung präsentiert wird.

Modulare Vorteile

Der modulare Aufbau von Stable Cascade bietet laut den Entwicklern mehrere überzeugende Vorteile. Der erste ist die extreme Effizienz: Aufgrund des komprimierten latenten Raums (die Art und Weise, wie eine KI die Bildkomposition bewertet, im Gegensatz zum Pixelraum, den der Mensch sieht) und des fokussierten Stage-C-Modells erreicht Stable Cascade schnellere Inferenzzeiten, d. h. es berechnet seine Vorhersagen schneller. Und das bei deutlich geringeren Hardwareanforderungen im Vergleich zu größeren Stable Diffusion-Modellen wie SDXL.

Die internen Tests von Stability AI haben gezeigt, dass Stable Cascade vergleichbare Modelle wie SDXL sowohl in Bezug auf die Bildqualität als auch auf die Ästhetik übertrifft. Darüber hinaus erzielt das Modell diese Ergebnisse bei sehr hohen Geschwindigkeiten und benötigt dabei deutlich weniger Rechenressourcen.

Bild: Stabilität AI

Bild: Stabilität AI


Ein weiterer Vorteil, den Stability AI für sich beansprucht, ist seine Vielseitigkeit. Viele der Tools, die Stable Diffusion-Künstler heute zur Verfeinerung ihrer Arbeit verwenden – wie ControlNets oder LoRas – sind kompatibel. Und aufgrund seiner extremen Effizienz können die Benutzer weitere dieser Tools in ihre Arbeitsabläufe einbinden, ohne dass ihr Speicher zusammenbricht.

Die leichtgewichtige Architektur des Modells, der kleinere Modellfußabdruck und die Kompatibilität mit weniger leistungsfähiger Computerhardware senken die Einstiegshürde und erhöhen die Zugänglichkeit fortgeschrittener Text-zu-Bild-Generierungstechniken für Gelegenheitsnutzer und Forscher gleichermaßen.

Mit weniger mehr erreichen


Unsere Tests haben ergeben, dass das Modell genau und detailliert ist und nicht die verwaschene, gummiartige Ästhetik der früheren SDXL-Turbo- oder LCM-Modelle von Stability AI aufweist. Stattdessen erzeugt es hochdetaillierte Bilder, die den fein abgestimmten SDXL-Modellen in nichts nachstehen.

Es verfügt auch über einige grundlegende Textgenerierungsfunktionen, die mit LoRAs, die bereits in Online-Repositories wie Civitai verfügbar sind, weiter verbessert werden können.

Stability AI berichtet, dass Stable Cascade trotz der größeren Anzahl von Parametern als Stable Diffusion XL immer noch schnellere Inferenzzeiten aufweist und sich beim prompten Alignment auszeichnet.

Auch die Feinabstimmung von Stable Cascade ist im Vergleich zu Stable Diffusion-Modellen ähnlicher Größe weniger ressourcenintensiv. Forscher und Enthusiasten können das Modell potenziell auf kleineren Datensätzen und mit deutlich weniger Rechenleistung trainieren, was es sehr kosteneffizient macht.

Stable Cascade wird unter einer nicht-kommerziellen Forschungslizenz veröffentlicht und ist auf dem GitHub-Repository von Stability AI verfügbar. Ein von der Community gepflegter ComfyUI-Workflow ist bereits verfügbar, der die Modelle automatisch herunterlädt, um die Nutzung zu erleichtern.

Related Posts

Leave a Comment