OpenAI се включва в битката за видео с текст със Sora, предизвиквайки Meta, MidJourney и Pika Labs

OpenAI представи днес Sora – нов модел на изкуствен интелект, който може да приема текстови инструкции и да създава дълги, завладяващи видеоклипове. Е, едноминутни видеоклипове.

Понастоящем това е затворена бета версия, която е достъпна само за поканени разработчици, и представлява донякъде закъсняло навлизане на световния лидер в областта на изкуствения интелект. Превръщането на текст във видео не е точно неизследвана територия. Компании като RunwayML и Pika Labs са в играта от известно време и в момента доминират на сцената с модели, способни да създават зашеметяващи визуализации за секунди.

Но винаги има уловка: тези видеоклипове обикновено са кратки, като историята губи фокус и последователност, колкото по-дълго продължава.

Със Sora OpenAI се стреми да постигне последователност, генерирайки изключително подробни, ежеминутни видеоклипове, които могат безпроблемно да текат и да се развиват. Това не е проста цел, тъй като моделите на изкуствения интелект ефективно импровизират всеки кадър от нулата. Малък недостатък в един кадър може да се превърне в каскада от халюцинации и нереалистични образи.

Въпреки това OpenAI изглежда е постигнала напредък, като Sora демонстрира плавни, завладяващи визуални ефекти, които засега са несравними с настоящите играчи в тази област. Примерните видеоклипове бяха публикувани онлайн от OpenAI, а някои от тях бяха препубликувани неофициално в YouTube.

OpenAI се изправя лице в лице с други компании за изкуствен интелект, които също изпробват водите на генеративното видео. Популярният генератор на текст в изображения Midjourney наскоро обяви, че работи по генератор на текст във видео, но не предложи дата на пускане. Също така, Stability AI наскоро направи вълна със Stable Video Diffusion, нейното предложение с отворен код, което може да генерира видеоклипове от 25 кадъра при резолюция 576×1024.

Дори Meta демонстрира своя EMU видеогенератор, част от стремежа ѝ да вплете AI в социалните медии и метавселената.

Sora – който засега е в ограничена версия, като OpenAI предоставя достъп на „визуални артисти, дизайнери и режисьори“ за обратна връзка – се отличава с това как разбира езика. Тя генерира ярки, много подробни изображения, като същевременно интерпретира нюансите на писмените подкани. Нуждаете се от конкретно движение на камерата? Множество герои с реалистични емоции? Няма проблем.

Sora дори генерира безпроблемни преходи между различни кадри в рамките на едно и също видео, имитирайки това, което някои инструменти за редактиране на видео вече правят днес. Ето още един видеоклип за ентусиасти, публикуван днес в YouTube:

Въпреки това творчеството, задвижвано от изкуствен интелект, идва със своите странности. Сора все още не е съвсем кинематографичен маестро. С други думи, могат да се появят трудности с физиката или сложни причинно-следствени връзки и макар че вече е един от най-последователните видеогенератори, той не постига нива на абсолютна достоверност, така че халюцинациите са очаквани.

Освен това, идвайки от OpenAI, Sora несъмнено ще бъде силно цензуриран модел. Компанията подчерта фокуса си върху тестовете за безопасност и инструментите за откриване, за да маркира потенциално вредно и подвеждащо съдържание. OpenAI работи със своя червен екип за усъвършенстване на модела и се надява, че стратегията за ранно пускане ще доведе до сътрудничество в изграждането на все по-сигурен изкуствен интелект през следващите години.

Не е обявена незабавна дата за пускане на пазара на по-широката реализация на Sora.

OpenAI се включва в битката за видео с текст със Sora, предизвиквайки Meta, MidJourney и Pika Labs

MicroStrategy може скоро да влезе в S&P 500: Какво означава това за Bitcoin

Microsoft ще пусне някогашни ексклузивни игри за Xbox в PlayStation и Nintendo

Related Posts

Leave a Comment Cancel Reply