OpenAI wkracza do walki tekst-wideo z Sorą, rzucając wyzwanie Meta, MidJourney i Pika Labs

by Thomas 25 marca, 2024

written by Thomas 25 marca, 2024

OpenAI zaprezentowało dziś Sora, nowy model sztucznej inteligencji, który może przyjmować instrukcje tekstowe i tworzyć długie, wciągające filmy. Cóż, jednominutowe filmy.

Jest to obecnie zamknięta beta, która jest dostępna tylko dla zaproszonych programistów i stanowi nieco spóźnione wejście światowego lidera w dziedzinie sztucznej inteligencji. Zamiana tekstu na wideo nie jest dokładnie niezbadanym terytorium. Firmy takie jak RunwayML i Pika Labs są w grze od jakiegoś czasu i obecnie dominują na scenie dzięki modelom zdolnym do tworzenia oszałamiających efektów wizualnych w ciągu kilku sekund.

Ale zawsze jest pewien haczyk: te filmy są zwykle krótkie, a historia traci ostrość i spójność, im dłużej trwają.

Dzięki Sora, OpenAI dąży do osiągnięcia spójności, generując bardzo szczegółowe, minutowe filmy, które mogą płynnie płynąć i ewoluować. Nie jest to prosty cel, ponieważ modele AI skutecznie improwizują każdą klatkę od zera. Drobny błąd w pojedynczej klatce może przerodzić się w kaskadę halucynacji i nierealistycznych obrazów.

Wydaje się jednak, że OpenAI poczyniło postępy, a Sora demonstruje płynną, wciągającą grafikę, która jak dotąd nie ma sobie równych wśród obecnych graczy w tej dziedzinie. Przykładowe filmy zostały opublikowane online przez OpenAI, a niektóre zostały ponownie opublikowane nieoficjalnie na YouTube.

OpenAI idzie łeb w łeb z innymi firmami zajmującymi się sztuczną inteligencją, które również testują wody generatywnego wideo. Popularny generator tekstu na obraz Midjourney ogłosił niedawno, że pracuje nad generatorem tekstu na wideo, ale nie podał daty premiery. Również Stability AI niedawno wywołało falę dzięki Stable Video Diffusion, swojej ofercie open-source zdolnej do generowania filmów składających się z 25 klatek w rozdzielczości 576×1024.

Nawet Meta prezentuje swój generator wideo EMU, będący częścią jej dążenia do wplecenia sztucznej inteligencji w media społecznościowe i metawersję.

Sora – która na razie jest w ograniczonej wersji, a OpenAI daje dostęp „artystom wizualnym, projektantom i filmowcom” w celu uzyskania opinii – wyróżnia się tym, jak rozumie język. Generuje żywe, bardzo szczegółowe obrazy, interpretując niuanse pisemnych podpowiedzi. Potrzebujesz konkretnego ruchu kamery? Wiele postaci z realistycznymi emocjami? Żaden problem.

Sora generuje nawet płynne przejścia między różnymi ujęciami w tym samym filmie, naśladując to, co już dziś robią niektóre narzędzia do edycji wideo. Oto kolejny entuzjastyczny film opublikowany dziś na YouTube:

Jednak kreatywność oparta na sztucznej inteligencji ma swoje dziwactwa. Sora nie jest jeszcze filmowym mistrzem. Innymi słowy, mogą pojawić się problemy z fizyką lub zawiłe związki przyczynowo-skutkowe i chociaż jest to już jeden z najbardziej spójnych generatorów wideo, nie osiąga poziomów absolutnej wierności, więc należy spodziewać się halucynacji.

Ponadto, pochodząca z OpenAI, Sora będzie niewątpliwie mocno ocenzurowanym modelem. Firma podkreśliła, że koncentruje się na testach bezpieczeństwa i narzędziach do wykrywania potencjalnie szkodliwych i wprowadzających w błąd treści. OpenAI współpracuje ze swoim czerwonym zespołem, aby dopracować swój model i ma nadzieję, że strategia wczesnego wydania doprowadzi do współpracy w budowaniu coraz bezpieczniejszej sztucznej inteligencji w nadchodzących latach.

Nie ogłoszono natychmiastowej daty premiery szerszej implementacji Sory.

OpenAI wkracza do walki tekst-wideo z Sorą, rzucając wyzwanie Meta, MidJourney i Pika Labs

MicroStrategy może wkrótce wejść na S&P 500: Co to oznacza dla Bitcoina

Microsoft przeniesie niegdyś ekskluzywne gry Xbox na PlayStation i Nintendo

Related Posts

Leave a Comment Cancel Reply