Chiński gigant technologiczny Alibaba prezentuje sztuczną inteligencję, która może "animować każdego

Przeszliśmy długą drogę od Adobe Flash i animowanych e-kartek JibJab.

Dwie dekady później ludzie z komputerami i odrobiną wolnego czasu mogą tworzyć wysokiej jakości animacje (zarówno prawdziwych ludzi, jak i ilustracji) za pomocą zaledwie kilku kliknięć i zerowej wiedzy na temat edycji cyfrowej.

Tak przynajmniej przedstawia się „Animate Anyone”, model sztucznej inteligencji wprowadzony przez zespół badawczy ds. sztucznej inteligencji Alibaba, chińskiej międzynarodowej firmy technologicznej specjalizującej się w handlu elektronicznym i detalicznym. A wideo przedstawiające jego technologię w pracy – twierdząc, że jest w stanie ożywić dowolne zdjęcie z niezwykłą spójnością i kontrolą – pobudziło wyobraźnię milionów ludzi.

Alibaba twierdzi, że Animate Anyone może przekształcać zdjęcia w filmy „kontrolowane przez pożądane sekwencje póz i osiąganie ciągłości czasowej”, wyjaśnił startup AI avatar MyCompanions na Twitterze. „Mniej usterek i żadnych dodatkowych palców – całkiem fajnie!”.

Zespół dodaje, że technologia ta otwiera drzwi do nowych zastosowań wśród influencerów: Ubrania generowane przez sztuczną inteligencję i tworzenie rynku dla masowo produkowanych, ale spersonalizowanych filmów.

Krótkie filmy z jednego zdjęcia? Wkrótce będziemy mogli to zrobić dla wszystkich naszych influencerów!

Opierając się na najnowszych badaniach przeprowadzonych przez grupę Alibaba, to już prawie tutaj. Dlaczego ta technologia jest ważna? Jak influencerzy mogą najlepiej wykorzystać tę technologię?

Wątek poniżej pic.twitter.com/C4QCJCeEXP

– MyCompanions (@MyCompanionsAI) December 3, 2023

Strona GitHub modelu została zasypana prośbami o dostęp do kodu źródłowego. W odpowiedzi zespół zapewnił opinię publiczną, że udostępni demo i kod w jeszcze nieokreślonym terminie.

„Dziękujemy wszystkim za niesamowite wsparcie i zainteresowanie naszym projektem” – powiedział zespół w najnowszej aktualizacji projektu Github. „Chcemy zapewnić, że aktywnie pracujemy nad przygotowaniem wersji demonstracyjnej i kodu do publicznego udostępnienia”.

Oświadczenie uzyskało ponad 240 polubień w mniej niż jeden dzień.

Jeśli demonstracja wideo jest dokładna, Animate Anyone może być używany do tworzenia wyraźnych, stabilnych czasowo wyników wideo przy jednoczesnym zachowaniu wyglądu postaci referencyjnej. Wydaje się, że jest to wynikiem integracji modeli dyfuzji z nowatorską strukturą o nazwie ReferenceNet, która może łączyć szczegółowe cechy za pomocą uwagi przestrzennej.

Aby to osiągnąć, pobiera obraz referencyjny, przesuwa części, aby podążać za pożądaną pozą, a następnie wypełnia luki, które należy wypełnić, aby dać złudzenie spójnego ruchu dla każdej klatki wygenerowanego wideo. Tak zwana sekwencja openpose skutkuje niemal bezbłędną animacją.

Animate Anyone jest również porównywany do innych popularnych narzędzi do animacji, takich jak AnimateDiff, Warpfusion, Deforum i ebSynth. Te istniejące narzędzia często nie radzą sobie z generowaniem spójnych klatek, co ułatwia identyfikację filmów jako generowanych przez sztuczną inteligencję. W przeciwieństwie do tego, Animate Anyone zapewnia bardziej wyrafinowane wyniki, w których klatki są spójne, a animacja jest prawie nie do odróżnienia od rzeczywistości.

Zespół Animate Anyone nie odpowiedział na prośbę o komentarz ze strony TCN.

And the frenzy, however, a similar model named MagicAnimate has also emerged as a solid competitor. Niedawno udostępniony do lokalnych testów, MagicAnimate przyjmuje nieco inne podejście do procesu animacji. Choć nie jest on tak popularny, to jednak stanowi alternatywę dla tych, którzy chcą w pełni poznać świat animacji opartej na sztucznej inteligencji.

MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model with @Gradio demo

lokalne demo: https://t.co/ScsEU6oG64

W tym artykule zbadano zadanie animacji ludzkiego obrazu, którego celem jest wygenerowanie wideo pewnej tożsamości referencyjnej podążającej za określonym ruchem… pic.twitter.com/JCOr0yCRZs

– AK (@_akhaliq) December 4, 2023

W przeciwieństwie do Animate Anyone – który również wykorzystuje model dyfuzyjny, ale koncentruje się na spójnej i kontrolowanej animacji z obrazów – wyróżnikiem MagicAnimate jest zwiększenie spójności czasowej i zachowanie tożsamości. Jego unikalny koder wyglądu i technika fuzji wideo podobno prowadzą do płynniejszych przejść w długich animacjach wideo i lepszego zachowania szczegółów w różnych klatkach.

Chociaż MagicAnimate wyróżnia się spójnością czasową i jakością poszczególnych klatek, nie wydaje się być tak dokładny jak jego konkurent.

Były badacz Meta AI, Alex Carliera, miał okazję przetestować MaticAnimate i chociaż nazwał go „świetnym pierwszym krokiem do spójnego generowania wideo z jednego obrazu”, zauważył, że generacje nie były w 100% dokładne w porównaniu z obrazem referencyjnym, deformując ciało w niektórych klatkach.

Przetestowałem ControlNet dla wideo (MagicAnimate) i oto moja opinia: działa świetnie, ale ma pewne wady.

– tożsamość ruchu wideo wycieka do wynikowego wideo (i deformuje kształt ciała)
– złe ręce i twarz (nic dziwnego!).

Ale świetny pierwszy krok dla konsekwentnych… https://t.co/zY9tZZ6MaK pic.twitter.com/J9XELE5NGT

– Alex Carlier (@alexcarliera) December 4, 2023

Więc jeśli nie umiesz tańczyć i czujesz się pominięty w najnowszej choreografii TikTok, być może Animate Anyone i MagicAnimate mogą być twoją przepustką do wirusowego sukcesu.

Chiński gigant technologiczny Alibaba prezentuje sztuczną inteligencję, która może „animować każdego

Sztuczna inteligencja wciąż nie jest tak inteligentna jak pies: Główny naukowiec firmy Meta

Najlepszy na wystawie? BONK Solany dołącza do Dogecoina i SHIB jako najlepsze psie monety

Related Posts

Leave a Comment Cancel Reply