Der chinesische Tech-Riese Alibaba zeigt eine KI, die "jeden animieren" kann

Wir haben einen langen Weg von Adobe Flash und animierten JibJab-E-Cards zurückgelegt.

Zwei Jahrzehnte später können Menschen, die über einen Computer und ein wenig Freizeit verfügen, mit wenigen Klicks und ohne jegliche Kenntnisse der digitalen Bearbeitung hochwertige Animationen (sowohl von echten Menschen als auch von Illustrationen) erstellen.

Das ist zumindest die Botschaft von „Animate Anyone“, einem KI-Modell, das vom KI-Forschungsteam von Alibaba vorgestellt wurde, einem chinesischen multinationalen Technologieunternehmen, das auf E-Commerce und Einzelhandelstechnologie spezialisiert ist. Ein Video, das die Technologie bei der Arbeit zeigt – sie behauptet, jedes beliebige Foto mit bemerkenswerter Konsistenz und Kontrolle animieren zu können – hat die Fantasie von Millionen Menschen angeregt.

Alibaba behauptet, dass Animate Anyone Fotos in Videos umwandeln kann, „gesteuert durch die gewünschten Posen und das Erreichen zeitlicher Kontinuität“, erklärte das KI-Avatar-Startup MyCompanions auf Twitter. „Weniger Pannen und keine zusätzlichen Finger – ziemlich cool!“

Das Team fügt hinzu, dass diese Technologie Türen für neue Anwendungsfälle unter Influencern öffnet: KI-generierte Kleidung und die Schaffung eines Marktes für massenproduzierte, aber personalisierte Videos.

Kurzform-Videos aus einem einzigen Foto? Das können wir bald für alle unsere Influencer tun!

Basierend auf den neuesten Forschungsergebnissen der Alibaba-Gruppe ist es bald soweit. Warum ist diese Technologie so wichtig? Wie können Influencer diese Technologie am besten nutzen?

Thread unten pic.twitter.com/C4QCJCeEXP

– MyCompanions (@MyCompanionsAI) Dezember 3, 2023

Die GitHub-Seite des Modells wurde mit Anfragen nach Zugang zum Quellcode überflutet. Als Reaktion darauf hat das Team der Öffentlichkeit versichert, dass es die Demo und den Code zu einem noch unbestimmten Zeitpunkt zur Verfügung stellen wird.

„Wir danken euch allen für eure unglaubliche Unterstützung und euer Interesse an unserem Projekt“, so das Team im letzten Github-Update des Projekts. „Wir möchten euch versichern, dass wir aktiv daran arbeiten, die Demo und den Code für die öffentliche Veröffentlichung vorzubereiten.

Die Erklärung erhielt in weniger als einem Tag über 240 Likes.

Wenn die Videodemonstration korrekt ist, kann Animate Anyone verwendet werden, um klare, zeitlich stabile Videoergebnisse zu erstellen und dabei das Aussehen der Referenzfigur beizubehalten. Dies scheint das Ergebnis der Integration von Diffusionsmodellen in ein neuartiges Framework namens ReferenceNet zu sein, das detaillierte Merkmale durch räumliche Aufmerksamkeit zusammenführen kann.

Um dies zu erreichen, nimmt es das Referenzbild, bewegt die Teile, um der gewünschten Pose zu folgen, und füllt dann die Lücken, die gefüllt werden müssen, um die Illusion einer konsistenten Bewegung für jedes Bild des generierten Videos zu vermitteln. Die so genannte Openpose-Sequenz führt zu einer nahezu fehlerfreien Animation.

Animate Anyone zieht auch positive Vergleiche zu anderen beliebten Animationstools wie AnimateDiff, Warpfusion, Deforum und ebSynth. Diese bestehenden Tools sind oft nicht in der Lage, konsistente Frames zu erzeugen, so dass es leicht ist, Videos als KI-generiert zu identifizieren. Im Gegensatz dazu bietet Animate Anyone eine verfeinerte Ausgabe, bei der die Frames konsistent sind und die Animation fast nicht von der Realität zu unterscheiden ist.

Das Team von Animate Anyone hat auf eine Anfrage von TCN nicht geantwortet:

Inmitten der Aufregung hat sich jedoch auch ein ähnliches Modell namens MagicAnimate als solider Konkurrent herauskristallisiert. MagicAnimate, das seit kurzem für lokale Tests zur Verfügung steht, verfolgt einen etwas anderen Ansatz für den Animationsprozess. Es ist zwar nicht so populär, bietet aber eine Alternative für diejenigen, die die Welt der KI-gesteuerten Animation genauer erkunden wollen.

MagicAnimate: Zeitlich konsistente menschliche Bildanimation mit Diffusionsmodell mit @Gradio demo

lokale Demo: https://t.co/ScsEU6oG64

Diese Arbeit untersucht die Aufgabe der menschlichen Bildanimation, die darauf abzielt, ein Video einer bestimmten Referenzidentität zu erzeugen, das einer bestimmten Bewegung folgt… pic.twitter.com/JCOr0yCRZs

– AK (@_akhaliq) December 4, 2023

Im Gegensatz zu Animate Anyone – das ebenfalls ein Diffusionsmodell verwendet, sich aber auf eine Frame-konsistente und kontrollierbare Animation von Bildern konzentriert – liegt das Unterscheidungsmerkmal von MagicAnimate in der Verbesserung der zeitlichen Konsistenz und der Wahrung der Identität. Der einzigartige Appearance Encoder und die Videofusionstechnik führen Berichten zufolge zu sanfteren Übergängen in langen Videoanimationen und einer besseren Detailerhaltung über mehrere Frames hinweg.

MagicAnimate zeichnet sich zwar durch zeitliche Kohärenz und Qualität pro Bild aus, scheint aber nicht so genau zu sein wie seine Konkurrenten.

Der ehemalige Meta AI-Forscher Alex Carliera hatte die Gelegenheit, MaticAnimate zu testen, und obwohl er es als „einen großartigen ersten Schritt für eine konsistente Videogenerierung aus einem einzigen Bild“ bezeichnete, stellte er fest, dass die Generierung im Vergleich zum Referenzbild nicht zu 100 % genau war und der Körper in einigen Frames deformiert wurde.

Ich habe das ControlNet für Video (MagicAnimate) getestet und hier ist meine Meinung: es funktioniert großartig, hat aber einige Schwächen.

– die Identität des Bewegungsvideos überträgt sich auf das resultierende Video (und verformt die Körperform)
– schlechte Hände und Gesicht (wenig überraschend!)

Aber ein großartiger erster Schritt für eine konsistente… https://t.co/zY9tZZ6MaK pic.twitter.com/J9XELE5NGT

– Alex Carlier (@alexcarliera) Dezember 4, 2023

Wenn du also nicht tanzen kannst und dich von den neuesten TikTok-Choreografien ausgeschlossen fühlst, können Animate Anyone und MagicAnimate vielleicht deine Eintrittskarte zum viralen Erfolg sein.

Der chinesische Tech-Riese Alibaba zeigt eine KI, die „jeden animieren“ kann

KI ist immer noch nicht so schlau wie Ihr Hund: Meta-Chefwissenschaftler

Der Beste der Show? BONK von Solana schließt sich Dogecoin und SHIB als Top-Hunde-Münzen an

Related Posts

Leave a Comment Cancel Reply