Home » Chiefs ziehen englischen Trainer für mögliches Angebot in Betracht

Chiefs ziehen englischen Trainer für mögliches Angebot in Betracht

by v

Die Technologie der künstlichen Intelligenz (KI) zur Bilderzeugung entwickelt sich rasant – und das in mehrfacher Hinsicht. Die jüngsten Fortschritte haben die Branche von stetigen Fortschritten zu unaufhaltsamen Durchbrüchen katapultiert und versprechen nun die Erstellung von Bildern in Echtzeit und mit hoher Wiedergabetreue.

Es ist nicht so, dass diese Werkzeuge langsam waren – eine Minute ist nicht zu lang, um auf „mehr“ zu warten. Aber die Benutzer verlangen immer noch mehr: mehr Realismus, mehr Vielseitigkeit, mehr Vielfalt und mehr Geschwindigkeit. Und was den letzten Punkt betrifft, so kommen die Forscher dem gerne nach:

SDXL drückt aufs Gaspedal

Stability AI hat SDXL Turbo vorgestellt, das einen gewaltigen Sprung in der KI-Bilderzeugung darstellen könnte. Wir sagen das nicht leichtfertig: Das kürzlich angekündigte Modell kann Bilder in einer Sekunde generieren, statt in 30 bis über 60 Sekunden, wie es übliche Generatoren brauchen. Es ist fast, wenn nicht sogar effektiv, eine Echtzeit-KI-Bilderzeugung.

SDXL Turbo unterscheidet sich von allen bisherigen Stable Diffusion Modellen. Die ADD-Technologie (Adversarial Diffusion Distillation) macht es möglich, die Anzahl der Schritte, die für die Generierung qualitativ hochwertiger Bilder erforderlich sind, erheblich zu reduzieren – auf nur einen Schritt, während normale Bilder zwischen 30 und 100 Schritte benötigen können. „ADD ist die erste Methode, die eine einstufige Bildsynthese in Echtzeit auf der Grundlage von Modellen ermöglicht“, heißt es in einem Forschungspapier von Stability AI.

SDXL Turbo verwendet eine Mischung aus adversarialem Training und Score-Destillation, die den generativen Prozess optimiert und sicherstellt, dass Bilder schnell und mit hoher Wiedergabetreue erzeugt werden.

Dadurch ermöglicht die Einführung von SDXL Turbo die Produktion komplexer, hochauflösender Bilder in kürzester Zeit. Dieser neue Ansatz lenkt auch die Aufmerksamkeit auf die GANs, die weitgehend in Vergessenheit geraten waren, nachdem die Diffusionstechnologie die Szene zu dominieren begann

Latente Konsistenzmodelle bedeuten Effizienz

Wenn Sie sich jedoch nicht von Ihren „alten“ Stable Diffusion Modellen verabschieden wollen, haben die Forscher eine Lösung für Sie.

Neben den Fortschritten von SDXL Turbo gibt es Latent Consistency Models (LCMs) und LCM-LoRA, die jeweils einen einzigartigen Beitrag zum Feld leisten.

LCMs, die in einem eigenen Forschungspapier vorgestellt werden, zeichnen sich durch ihre Fähigkeit aus, hochauflösende Bilder zu generieren, indem sie effizient innerhalb des latenten Raums von vortrainierten Autokodierern wie Stable Diffusion arbeiten. LCMs zielen darauf ab, die Geschwindigkeit der Bilderzeugung ohne signifikante Qualitätseinbußen zu erhöhen, wobei der Schwerpunkt auf hochauflösenden Ergebnissen liegt. Mithilfe einer einstufigen geführten Destillationsmethode verwandeln LCMs vortrainierte Diffusionsmodelle in schnelle Bildgeneratoren, wobei unnötige Schritte übersprungen werden.

In der Praxis brauchen die Benutzer nichts weiter zu ändern. Sie laden einfach das Modell herunter und verwenden es wie einen normalen SDXL-Kontrollpunkt. Anstatt jedoch eine große Anzahl von Schritten zu durchlaufen, können sie den Maßstab auf ein Minimum reduzieren. Das Modell wird gute Bilder mit vier Schritten in ein paar Sekunden erzeugen, anstatt die Erzeugung für 25, 50 oder 75 Schritte pro Bild zu berechnen.

Es gibt bereits großartige Modelle mit eigenen LCM-Versionen, die Sie ausprobieren können. Wir empfehlen Hephaistos_NextGENXL wegen seiner Vielseitigkeit, aber es gibt viele großartige Modelle zum Testen:

LCM-LoRAS: Turbolader für jedes Modell

Das zusammen mit LCM veröffentlichte LCM-LoRA ist ein universelles Beschleunigungsmodul, das in verschiedene Stable-Diffusion-Modelle integriert werden kann. „LCM-LoRA kann als Plug-in neuronaler PF-ODE-Löser mit starken Generalisierungsfähigkeiten betrachtet werden“, heißt es in dem Forschungspapier.

LCM-LoRA wurde entwickelt, um die Effizienz bestehender Stable-Diffusion-Modelle zu steigern und sie schneller und vielseitiger zu machen. Es nutzt LoRA (Low-Rank Adaptation), um die vortrainierten Gewichtsmatrizen zu aktualisieren und so die Rechenlast und den Speicherbedarf zu reduzieren.

Mit LCM-LoRA erfahren die normalen Stable-Diffusion-Modelle einen enormen Geschwindigkeitszuwachs bei der Bilderzeugung, was sie für verschiedene Aufgaben sehr effektiv macht. Die Benutzer brauchen nicht einmal ein neues Modell herunterzuladen – sie aktivieren einfach LCM-LoRA und erzeugen Bilder so schnell wie ein LCM-Modus.

Qualität versus Geschwindigkeit

Trotz dieser technologischen Sprünge bleibt die Notwendigkeit bestehen, Geschwindigkeit und Bildqualität in Einklang zu bringen. Tools zur schnellen Generierung wie SDXL Turbo und LCM-LoRA beschleunigen zwar den kreativen Prozess, doch geht dies auf Kosten einer gewissen Bildtreue. Mit anderen Worten: Ein mit 50 Schritten und einem guten Modell erzeugtes Bild wird immer eine höhere Auflösung oder Bildtreue aufweisen als ein mit 5 Schritten und einem guten LCM-Modell erzeugtes Bild.

Dieser Nachteil wird jedoch durch ihren Nutzen in typischen Arbeitsabläufen gemildert, bei denen zahlreiche Bilder erzeugt werden, um das perfekte Bild zu finden. Nachfolgende Iterationen mit Werkzeugen wie Bild-zu-Bild oder Inpaint können die Details in diesen zuerst geschnittenen Bildern verbessern und so die anfänglichen Qualitätsverluste ausgleichen. Ein richtig bearbeitetes Bild, das mit einer dieser schnellen Technologien erzeugt wurde, kann genauso gut sein wie ein Bild, das mit einem normalen Stable Diffusion-Modell erzeugt wurde.

Schnallen Sie sich an, denn der Bereich der KI-Bilderzeugung ist in vollem Gange – und nur wenige Menschen sind so sehr auf Geschwindigkeit aus wie KI-Fanboys.

Related Posts

Leave a Comment