Home » Der neue Bildgenerator DALL-E 3 ist ein großes Upgrade – mit Leitplanken

Der neue Bildgenerator DALL-E 3 ist ein großes Upgrade – mit Leitplanken

by Thomas

OpenAI, das Einhorn hinter dem Boom der generativen KI-Branche, hat mit DALL-E 3 die neueste Version seines Bildgenerators vorgestellt. Mit seinem ChatGPT-Controller liefert das Upgrade qualitativ hochwertige Bilder als Antwort auf natürlichsprachliche Eingabeaufforderungen – und startet mit ethischen Kontrollen an Ort und Stelle.

Bildgeneratoren wie DALL-E, MidJourney und Stable Diffusion haben Künstlern und Gelegenheitsnutzern seit dem KI-Boom Ende letzten Jahres neue kreative Möglichkeiten eröffnet. Durch die Übersetzung von Textanweisungen in beeindruckende Bilder bieten sie Einblicke in die maschinelle Interpretation menschlicher Kreativität. Jetzt will OpenAI mit DALL-E 3 die Grenzen noch weiter verschieben, ein Modell, mit dem das Unternehmen wieder in direkten Wettbewerb mit anderen Branchenführern treten könnte.

DALL-E 3, das heute früh vorgestellt wurde, zeigt massive Verbesserungen bei der genauen Darstellung detaillierter Textbeschreibungen. Im Gegensatz zu früheren Versionen hält es sich genau an komplexe Prompts, ohne dass umfangreiche Prompt-Engineering-Änderungen oder andere komplizierte Prompting-Tricks erforderlich sind. Das neue System zeichnet sich auch durch seine Fähigkeit aus, Beziehungen zwischen Objekten zu erfassen und fotorealistische menschliche Details wie Hände und Spiegelungen zu erzeugen.

Wenn man die Ausgaben der gleichen Eingabeaufforderungen in DALL-E 2 und DALL-E 3 vergleicht, erzeugt letzteres deutlich schärfere und präzisere Bilder. Es ist in der Lage, extrem realistische Darstellungen von Szenen zu rendern und dabei Texturen, Beleuchtung und Hintergründe richtig hinzubekommen. Außerdem scheint es ziemlich gut in der Lage zu sein, Text zu generieren und in die Bilder zu integrieren – etwas, das selbst für die bisher leistungsfähigsten KI-Bildgeneratoren ein Problem darstellt.

DALL-E 3 baut auf ChatGPT auf und ermöglicht es den Benutzern, die Eingabeaufforderungen durch Konversation zu verfeinern. Erste durchgesickerte Beispiele deuten auf rasend schnelle Iterationsmöglichkeiten hin. Wie TCN bereits berichtete, bezeichnete der YouTuber MattVidPro eine frühere Beta-Version von DALL-E 3 als „wahnsinnig“ und behauptete, dass nicht einmal die kommende Version von MidJourney mithalten könne.

Die Verfügbarkeit bleibt jedoch auf etwa 400 Tester beschränkt und OpenAI sagt, dass sein neues Modell „bald“ veröffentlicht wird.

Ein mit DALL-E 3 erstelltes Bild und die dabei verwendete Prompting-Sprache. Quelle: OpenAI

Ein mit DALL-E 3 erstelltes Bild und die dabei verwendete Prompting-Sprache. Quelle: OpenAI


Vorerst können Nutzer mit DALL-E 2 Bilder über Plugins mit ChatGPT Plus erstellen. Diejenigen, die nicht für ein Abonnement zahlen, müssen mit Einschränkungen wie diesen zurechtkommen:


Der Weg bis zu diesem Punkt war nicht ohne Unebenheiten. Während der Beta-Testphase war das Modell für seine unzensierte Natur bekannt, die Inhalte von Nacktheit bis hin zu blutigen Szenen und Gewalt hervorbringen konnte. Dies erregte Aufsehen und rief Bedenken hinsichtlich des möglichen Missbrauchs einer solchen Technologie hervor. OpenAI scheint sich diese Bedenken jedoch zu Herzen genommen zu haben und hat in DALL-E 3 Funktionen implementiert, die die Generierung von Inhalten verhindern, die als gewalttätig, jugendgefährdend oder hasserfüllt angesehen werden könnten, und so ein sichereres Benutzererlebnis gewährleisten.

Eine dieser Maßnahmen ist die Zusammenstellung eines Expertenteams, „das uns bei der Risikobewertung und -minderung in Bereichen wie Propaganda und Fehlinformationen unterstützt“.

Die Bedenken bezüglich der KI-Kunst bleiben bestehen, insbesondere im Hinblick auf unangemessene oder unethische Inhalte. Während OpenAI während der Testphase Filter entfernte, erforscht das Unternehmen Strategien, um Missbrauch in öffentlichen Versionen zu verhindern. Es wird auch die Identifizierung von Bildern, die mit seinem Tool erstellt wurden, erleichtern. Dies könnte die Verbreitung von Deepfakes verhindern und möglicherweise den Ursprung eines Bildes identifizieren, falls jemand die systemeigene Zensur des Modells umgeht.

OpenAI ist sich auch der Bedenken hinsichtlich der legalen Verwendung menschlicher Kunstwerke für das Training seines Modells bewusst und hat eine Antwort auf einen ethischeren Generator gefunden. DALL-E 3 wird keine Inhalte reproduzieren, wenn es lebende Künstler imitieren soll, und OpenAI wird den Künstlern die Möglichkeit geben, ihre Zustimmung zu verweigern. Damit wird dem Widerstand von Künstlern wie Greg Rutkowski Rechnung getragen, die argumentieren, dass eine KI, die ihren Stil ohne Zustimmung kopiert, unethisch ist.

Es wurden auch umfangreiche Klagen eingereicht, u. a. vom Autor George R.R. Martin, der OpenAI der unzulässigen Verwendung von urheberrechtlich geschütztem Material beschuldigt.

OpenAI reagierte nicht sofort auf eine Anfrage von TCN nach Kommentaren

Related Posts

Leave a Comment