Home » AI Art Showdown: Wie die Top-Tools MidJourney, Stable Diffusion v1.5 und SDXL abschneiden

AI Art Showdown: Wie die Top-Tools MidJourney, Stable Diffusion v1.5 und SDXL abschneiden

by Tim

Das Zeitalter der KI-generierten Kunst ist in vollem Gange, und drei Titanen haben sich als Lieblingswerkzeuge für digitale Künstler herauskristallisiert: Das neue SDXL von Stability AI, das gute alte Stable Diffusion v1.5 und ihr Hauptkonkurrent: MidJourney.

Dall-E von OpenAI hat diese Revolution eingeleitet, aber seine mangelnde Entwicklung und die Tatsache, dass es Closed Source ist, bedeuten, dass Dall-E 2 in keiner Kategorie gegenüber seinen Konkurrenten hervorsticht. Wie TCN jedoch vor einigen Tagen berichtete, könnte sich dies in Zukunft ändern, da openAI eine neue Version von Dall-E testet, die Berichten zufolge kompetent ist und hervorragende Stücke produziert.

Die Auswahl des richtigen Tools unter den führenden Plattformen mit ihren einzigartigen Stärken und Einschränkungen ist von entscheidender Bedeutung. Sehen wir uns an, wie diese generativen Kunsttechnologien in Bezug auf Fähigkeiten, Anforderungen, Stil und Schönheit abschneiden:

MidJourney: die Einstiegsdroge für KI-Kunst

Théâtre d'Opéra Spatial, ein Midjourney-Bild, das den ersten Preis in einem digitalen Kunstwettbewerb gewann

Théâtre d’Opéra Spatial, ein Midjourney-Bild, das den ersten Preis in einem digitalen Kunstwettbewerb gewann


Als das benutzerfreundlichste des Trios macht MidJourney KI-Kunst auch für technisch nicht versierte Nutzer zugänglich – vorausgesetzt, sie kennen sich mit Discord aus. Die Plattform läuft privat auf den Servern von MidJourney, wobei die Nutzer über den Discord-Chat interagieren. Dieser geschlossene Ansatz hat sowohl Vor- als auch Nachteile. Auf der Habenseite steht, dass man keine spezielle Hardware oder KI-Kenntnisse benötigt. Aber die fehlende Open-Source-Transparenz des Modells und der Trainingsdaten von MidJourney schränkt die Möglichkeiten ziemlich ein – und macht es für Enthusiasten unmöglich, es zu verbessern.

MidJourney ist der sanftmütige Charmeur unter den Bots, der von Anfängern wegen seiner benutzerfreundlichen Discord-Oberfläche geliebt wird. Geben Sie dem Bot einfach eine Textaufforderung und voilà, Sie haben in wenigen Minuten ein ästhetisches Meisterwerk geschaffen. Der Haken an der Sache? Mit 96 $ pro Jahr ist es sehr teuer für eine KI, die Sie nicht anpassen oder lokal ausführen können. Aber hey, zumindest werden Sie auf Partys künstlerisch (und nerdig) aussehen!

MidJourney erstellt auf der Grundlage von Textanweisungen schnell Bilder mit beeindruckender ästhetischer Kohärenz. Aber wenn man tiefer in ein bestimmtes Thema eintaucht, wird die Ausgabe noch verrückter. MidJourney mag es, jeder einzelnen Kreation seinen eigenen Stempel aufzudrücken, selbst wenn es nicht das ist, was sich der Souffleur vorgestellt hat. So können die meisten Bilder sehr kontrastreich und eher fotorealistisch als realistisch sein, bis zu dem Punkt, an dem man nach einiger Zeit mit MidJourney erstellte Bilder anhand ihrer ästhetischen Merkmale identifizieren kann.

Bei MidJourney wird Ihre kreative Freiheit auch durch die strengen Inhaltsregeln der Plattform eingeschränkt. Es wird aggressiv zensiert, sowohl gesellschaftlich (in Bezug auf die Darstellung von Nacktheit oder Gewalt) als auch politisch (in Bezug auf kontroverse Themen und bestimmte Führer). Insgesamt bietet MidJourney einen verlockenden Einstieg in die KI-Kunst – aber Power-User werden sich nach mehr Kontrolle und Anpassungsmöglichkeiten sehnen. Hier kommt Stable Diffusion ins Spiel:

Stable Diffusion v1.5: die ‚alte‘ Zuverlässigkeit der KI-Kunst

Untitled image created by user ThaiTvNews using a custom SD v.15 model.

Untitled image created by user ThaiTvNews using a custom SD v.15 model.


Wenn MidJourney ein Ponyreiten ist, ist Stable Diffusion v1.5 das zuverlässige Arbeitspferd. Als Open-Source-Modell, das seit über einem Jahr aktiv weiterentwickelt wird, treibt Stable Diffusion v1.5 viele der heute populärsten KI-Kunstwerkzeuge wie Leonardo AI, Lexica, Mage Space und all die KI-Waifu-Generatoren an, die jetzt im Google Play Store erhältlich sind.

Die aktive MidJourney-Community hat das Basismodell weiterentwickelt, um spezielle Kontrollpunkte, Einbettungen und LoRAs zu erstellen, die sich auf alles von Anime-Stilisierungen bis hin zu komplizierten Landschaften, hyperrealistischen Fotografien und mehr konzentrieren. Die Nachteile? Nun ja, im Vergleich zu jüngeren KI-Knirpsen ist das Modell langsam in die Jahre gekommen.

Mit einigen Verbesserungen unter der Haube kann Stable Diffusion v1.5 gestochen scharfe, detaillierte Bilder erzeugen, die auf Ihre kreative Vision zugeschnitten sind. Die Ausgabeauflösung ist derzeit auf 512×512 oder manchmal 768×768 begrenzt, bevor die Qualität nachlässt, aber schnelle Skalierungstechniken helfen. Die Popularität von Tiled Upscaling hat die Popularität des Modells ebenfalls erhöht, da es in der Lage ist, Bilder mit einer Superauflösung zu erzeugen, die weit über das hinausgeht, was MidJourney kann.

Im Moment ist es die einzige Technologie, die Inpainting (das Verändern von Dingen innerhalb des Bildes) unterstützt. Outpainting, also das Erweitern des Bildes über den Rahmen hinaus, wird ebenfalls unterstützt. Es ist multidirektional, d. h. die Benutzer können ihr Bild sowohl in der vertikalen als auch in der horizontalen Achse erweitern. Es unterstützt auch Plugins von Drittanbietern wie roop (zur Erstellung von Deepfakes), After Detailer (zur Verbesserung von Gesichtern und Händen), Open Pose (zur Nachahmung einer bestimmten Pose) und regionale Prompts.

Um es auszuführen, schlagen die Entwickler vor, dass Sie eine Nvidia RTX 2000-Serie GPU oder besser für eine anständige Leistung benötigen, aber Stable Diffusion v1.5’s leichte Fußabdruck läuft reibungslos auch auf 4GB VRAM-Karten. Trotz seines Alters hält die solide Unterstützung der Community dieses KI-Kunstwerk an der Spitze seines Spiels

SDXL: Die nächste Grenze der KI-Kunst

Untitled Image created by user Buzimage using a customized SDXL model

Untitled Image created by user Buzimage using a customized SDXL model


Wenn Stable Diffusion v1.5 das zuverlässige Arbeitspferd ist, dann ist SDXL das junge Vollblut, das über die Rennstrecke peitscht. Dieses leistungsstarke Modell, ebenfalls von Stability AI, nutzt zwei Text-Encoder, um Aufforderungen besser zu interpretieren, und sein zweistufiger Generierungsprozess sorgt für eine hervorragende Bildkohärenz bei hohen Auflösungen.

Diese Fähigkeiten klingen aufregend, aber sie machen SDXL auch ein wenig schwieriger zu beherrschen. Ein Textkodierer mag kurze natürliche Sprache und der andere verwendet den SD v1.5-Stil mit abgehackten, spezifischen Schlüsselwörtern, um die Komposition zu beschreiben.

Die zweistufige Erzeugung bedeutet, dass ein Verfeinerungsmodell erforderlich ist, um die Details in das Hauptbild einzufügen. Das braucht Zeit, RAM und Rechenleistung, aber die Ergebnisse sind großartig.

SDXL ist bereit, für Aufsehen zu sorgen. SDXL unterstützt fast die dreifache Anzahl an Parametern von Stable Diffusion v1.5 und generiert Bilder mit einer um fast 50 % höheren Auflösung als sein Vorgänger, ohne dabei ins Schwitzen zu geraten. Aber diese Spitzenleistung hat ihren Preis: SDXL benötigt einen Grafikprozessor mit mindestens 6 GB VRAM, erfordert größere Modelldateien und verfügt über keine vordefinierten Spezialisierungen.

Der Output ist noch nicht auf dem Niveau eines fein abgestimmten Stable Diffusion Modells. Wenn die Community jedoch an ihrer Optimierungsmagie arbeitet, wird das Potenzial von SDXL alles in den Schatten stellen, was mit den heutigen Modellen möglich ist:

Output-Vergleiche

Ein Bild sagt mehr als tausend Worte, also haben wir ein paar tausend Sätze zusammengefasst und versucht, verschiedene Ausgaben mit ähnlichen Aufforderungen zu vergleichen, damit Sie diejenige auswählen können, die Ihnen am besten gefällt. Bitte beachten Sie, dass jedes Modell eine andere Prompting-Technik erfordert. Auch wenn es sich nicht um einen Vergleich von Äpfeln zu Äpfeln handelt, so ist es doch ein guter Ausgangspunkt.

Um genauer zu sein, haben wir einen ziemlich allgemeinen negativen Prompt für Stable Diffusion verwendet, etwas, das MidJourney nicht wirklich braucht. Ansonsten sind die Prompts die gleichen, und die Ergebnisse wurden nicht handverlesen:

  • Aufforderung: Porträt eines Corgis, der auf einem Fahrrad das Meer überquert


Bemerkung: Hier ist es nur eine Frage des Stils zwischen SDXL und MidJourney. Beide schlagen Stable Diffusion v1.5, obwohl es das einzige zu sein scheint, das in der Lage ist, einen Hund zu erschaffen, der das Fahrrad richtig „fährt“, oder es zumindest richtig benutzt.

  • Prompt: Der Rote Platz bei Nacht


Bemerkung: MidJourney hat versucht, ein rotes Quadrat in The Red Square zu erstellen. SDXL v1.0 ist knackiger, aber der Kontrast der Farben ist besser auf SD v.15 (Modell: Juggernaut v5).

  • Ausschreibung: Eine vollbusige Lehrerin in einem futuristischen Klassenzimmer


Bemerkung: MidJourney weigerte sich aufgrund seiner Zensurbestimmungen, ein Bild zu erzeugen. SDXL ist reicher an Details, um sowohl die vollbusige Lehrerin als auch das futuristische Klassenzimmer darzustellen. SD v1.5 konzentrierte sich mehr auf die vollbusige Lehrerin (das Thema, Modell: Photon v1) und weniger auf die Details der Umgebung

  • Prompt: ein Gehirn, das eine Maschine antreibt, Jeffrey Smith und H.R. Giger, hochdetailliert in 4k, von Nishida Shun’ei, Poster, Werkzeug, hochdetailliertes Epos, epischer Cyberpunk, Studio Muti, Bitmap, von Sugimura Jihei


Bemerkung: Sowohl MidJourney als auch SDXL lieferten Ergebnisse, die sich an die Aufforderung halten. SDXL reproduzierte den künstlerischen Stil besser, während MidJourney sich mehr darauf konzentrierte, ein ästhetisch ansprechendes Bild zu erzeugen, anstatt den künstlerischen Stil wiederzugeben, wobei auch viele Details der Aufforderung verloren gingen (zum Beispiel: das Bild zeigt kein Gehirn, das eine Maschine antreibt, sondern einen Schädel, der eine Maschine antreibt).

Die Zukunft der generativen Kunst

Welchen Monet in Ausbildung sollten Sie also verwenden? Ehrlich gesagt, können Sie mit keiner dieser Optionen etwas falsch machen. MidJourney zeichnet sich durch seine Benutzerfreundlichkeit und ästhetische Kohärenz aus. Stable Diffusion v1.5 bietet Anpassungsmöglichkeiten und Unterstützung durch die Community. Und SDXL verschiebt die Grenzen der fotorealistischen Bilderzeugung. Bleiben Sie dran, um zu sehen, was Dall-E in der Zwischenzeit auf den Weg gebracht hat.

Verlassen Sie sich nicht nur auf unser Wort. Der Pinsel liegt jetzt in Ihren Händen, und die leere Leinwand wartet auf Sie. Schnappt euch das generative Werkzeug eurer Wahl und fangt an zu kreieren! Aber halten Sie bitte die existenziellen Bedrohungen für die Menschheit auf ein Minimum.

Related Posts

Leave a Comment