OpenAI se pouští do boje o převod textu na video se společnostmi Sora, Challenging Meta, MidJourney a Pika Labs

by Tim 25 března, 2024

written by Tim 25 března, 2024

OpenAI dnes představila Soru, nový model umělé inteligence, který dokáže přijímat textové instrukce a vytvářet dlouhá, poutavá videa. Tedy minutová videa.

V současné době se jedná o uzavřenou betaverzi, která je k dispozici pouze pozvaným vývojářům, a představuje poněkud pozdní vstup světového lídra v oblasti umělé inteligence. Převod textu na video není zrovna neprobádané území. Společnosti jako RunwayML a Pika Labs jsou ve hře již nějakou dobu a v současné době dominují scéně s modely schopnými vytvářet ohromující vizuály během několika sekund.

Vždy je tu však jeden háček: tato videa bývají krátká, příběh ztrácí na důrazu a soudržnosti, čím déle běží.

S aplikací Sora se společnost OpenAI snaží dosáhnout konzistence a vytvářet vysoce detailní, minutová videa, která mohou plynule plynout a vyvíjet se. Není to jednoduchý cíl, protože modely umělé inteligence účinně improvizují každý snímek od nuly. Drobná chyba v jediném snímku může vyústit v kaskádu halucinací a nerealistických obrazů.

Zdá se však, že OpenAI se podařilo pokročit, protože Sora předvádí plynulé a podmanivé vizuální efekty, kterým se současní hráči v této oblasti zatím nemohou rovnat. Ukázková videa zveřejnila společnost OpenAI na internetu a některá byla znovu neoficiálně zveřejněna na YouTube.

OpenAI se utkává s dalšími společnostmi zabývajícími se umělou inteligencí, které rovněž zkoušejí vody generativního videa. Populární generátor převodu textu na obraz Midjourney nedávno oznámil, že pracuje na generátoru převodu textu na video, ale nenabídl datum vydání. Také společnost Stability AI se nedávno postarala o vlny díky své open-source nabídce Stable Video Diffusion, která dokáže generovat videa o 25 snímcích v rozlišení 576×1024.

Dokonce i společnost Meta se pochlubila svým generátorem videa EMU, který je součástí její snahy o zapojení AI do sociálních médií a metaverza.

Sora – která je zatím v omezené verzi, přičemž OpenAI poskytuje přístup „vizuálním umělcům, designérům a filmařům“ pro zpětnou vazbu – se odlišuje tím, jak rozumí jazyku. Generuje živé, velmi detailní obrazy a zároveň interpretuje nuance psaných pokynů. Potřebujete konkrétní pohyb kamery? Více postav s realistickými emocemi? Žádný problém.

Sora dokonce generuje plynulé přechody mezi různými záběry v rámci jednoho videa, čímž napodobuje to, co již dnes dělají některé nástroje pro editaci videa. Zde je další video nadšenců, které bylo dnes zveřejněno na YouTube:

I tak má kreativita poháněná umělou inteligencí své mouchy. Sora ještě není tak docela filmový mistr. Jinými slovy, mohou se vyskytnout problémy s fyzikou nebo složitými příčinami a následky, a přestože již nyní patří k nejdůslednějším generátorům videa, nedosahuje úrovně absolutní věrnosti, takže se dají očekávat halucinace.

Navíc Sora, pocházející od OpenAI, bude nepochybně silně cenzurovaným modelem. Společnost zdůraznila, že se zaměřuje na bezpečnostní testy a detekční nástroje, které označují potenciálně škodlivý a zavádějící obsah. Společnost OpenAI pracuje se svým červeným týmem na vypilování svého modelu a doufá, že její strategie včasného uvolnění povede ke spolupráci při vytváření stále bezpečnější umělé inteligence v příštích letech.

Pro širší implementaci systému Sora nebylo oznámeno žádné bezprostřední datum vydání.

OpenAI se pouští do boje o převod textu na video se společnostmi Sora, Challenging Meta, MidJourney a Pika Labs

MicroStrategy možná brzy vstoupí do indexu S&P 500: Co to znamená pro Bitcoin

Microsoft přinese kdysi exkluzivní hry pro Xbox na PlayStation a Nintendo

Related Posts

Leave a Comment Cancel Reply