Home » OpenAI stürzt sich mit Sora in den Text-to-Video-Kampf und fordert Meta, MidJourney und Pika Labs heraus

OpenAI stürzt sich mit Sora in den Text-to-Video-Kampf und fordert Meta, MidJourney und Pika Labs heraus

by Thomas

OpenAI hat heute Sora vorgestellt, ein neues Modell künstlicher Intelligenz, das aus textbasierten Anweisungen lange, fesselnde Videos erstellen kann. Nun, einminütige Videos.

Es handelt sich derzeit um eine geschlossene Betaversion, die nur eingeladenen Entwicklern zur Verfügung steht, und stellt einen etwas verspäteten Einstieg des Weltmarktführers für KI dar. Text-to-Video ist nicht gerade Neuland. Unternehmen wie RunwayML und Pika Labs sind bereits seit einiger Zeit im Geschäft und dominieren die Szene mit Modellen, die in Sekundenschnelle atemberaubende Bilder erzeugen können.

Die Sache hat jedoch einen Haken: Diese Videos sind in der Regel kurz und die Geschichte verliert an Fokus und Kohärenz, je länger sie laufen.

Mit Sora will OpenAI Konsistenz erreichen und hochdetaillierte, minutenlange Videos erzeugen, die nahtlos ineinander übergehen und sich weiterentwickeln. Das ist kein einfaches Ziel, denn die KI-Modelle improvisieren praktisch jedes Bild von Grund auf. Ein winziger Fehler in einem einzigen Bild kann sich zu einer Kaskade von Halluzinationen und unrealistischen Bildern auswachsen.

OpenAI scheint jedoch Fortschritte gemacht zu haben, denn Sora zeigt eine flüssige, fesselnde Grafik, die von den derzeitigen Akteuren in diesem Bereich bisher unerreicht ist. Beispielvideos wurden von OpenAI online gestellt, und einige davon wurden inoffiziell auf YouTube veröffentlicht:

OpenAI konkurriert mit anderen KI-Unternehmen, die ebenfalls die Möglichkeiten generativer Videos testen. Der beliebte Text-zu-Bild-Generator Midjourney kündigte kürzlich an, dass er an einem Text-zu-Video-Generator arbeitet, nannte aber kein Veröffentlichungsdatum. Auch Stability AI machte kürzlich mit Stable Video Diffusion von sich reden, einem Open-Source-Angebot, das Videos mit 25 Frames bei einer Auflösung von 576×1024 erzeugen kann.

Auch Meta stellt seinen EMU-Videogenerator vor, der Teil seines Vorstoßes ist, KI in soziale Medien und das Metaverse einzubinden.

Sora – das vorerst nur in begrenztem Umfang zur Verfügung steht, wobei OpenAI „visuellen Künstlern, Designern und Filmemachern“ Zugang zu Feedback gewährt – unterscheidet sich dadurch, wie es Sprache versteht. Es erzeugt lebendige, hochdetaillierte Bilder und interpretiert gleichzeitig die Nuancen schriftlicher Anweisungen. Sie benötigen eine bestimmte Kamerabewegung? Mehrere Charaktere mit realistischen Emotionen? Das ist kein Problem.

Sora erzeugt sogar nahtlose Übergänge zwischen verschiedenen Aufnahmen innerhalb desselben Videos und ahmt damit nach, was einige Videobearbeitungstools bereits heute tun. Hier ist ein weiteres enthusiastisches Video, das heute auf YouTube veröffentlicht wurde:

Allerdings hat die KI-gestützte Kreativität auch ihre Tücken. Sora ist noch kein filmischer Maestro. Es kann also zu Problemen mit der Physik oder komplizierten Ursache-Wirkungs-Zusammenhängen kommen, und obwohl sie bereits zu den konsistentesten Videogeneratoren gehört, erreicht sie keine absolute Genauigkeit, so dass Halluzinationen zu erwarten sind.

Da Sora von OpenAI stammt, wird es sich zweifellos um ein stark zensiertes Modell handeln. Das Unternehmen betonte, dass es sich auf Sicherheitstests und Erkennungstools konzentriert, um potenziell schädliche und irreführende Inhalte zu erkennen. OpenAI arbeitet mit seinem roten Team am Feinschliff seines Modells und hofft, dass seine Strategie der frühen Veröffentlichung zu einer Zusammenarbeit bei der Entwicklung immer sicherer KI in den kommenden Jahren führen wird.

Für die breitere Implementierung von Sora wurde noch kein unmittelbares Veröffentlichungsdatum bekannt gegeben

Related Posts

Leave a Comment