OpenAI вступает в борьбу с текстовыми видеороликами с помощью Sora, бросая вызов Meta, MidJourney и Pika Labs

OpenAI сегодня представила Sora, новую модель искусственного интеллекта, которая может принимать текстовые инструкции и создавать длинные, захватывающие видео. Ну, минутные ролики.

В настоящее время это закрытая бета-версия, доступная только приглашенным разработчикам, и представляет собой несколько запоздалый шаг со стороны мирового лидера в области ИИ. Технология «текст в видео» — не совсем неизведанная территория. Такие компании, как RunwayML и Pika Labs, уже давно работают в этом направлении и в настоящее время доминируют на сцене с моделями, способными создавать потрясающие визуальные эффекты за считанные секунды.

Но всегда есть одна загвоздка: эти видеоролики, как правило, короткие, и чем дольше они идут, тем больше сюжет теряет фокус и связность.

С помощью Sora OpenAI стремится достичь последовательности, создавая высокодетализированные, минутные видео, которые могут плавно перетекать и развиваться. Это непростая задача, поскольку модели ИИ фактически импровизируют каждый кадр с нуля. Крошечный недостаток в одном кадре может вылиться в каскад галлюцинаций и нереалистичных образов.

Однако OpenAI, похоже, добилась успеха: Sora демонстрирует плавные, захватывающие визуальные эффекты, которые пока не могут сравниться с нынешними игроками в этой области. Примеры видео были выложены OpenAI в сеть, а некоторые из них были неофициально опубликованы на YouTube.

OpenAI идет в ногу с другими компаниями, работающими в сфере ИИ, которые также пробуют свои силы в области генеративного видео. Популярный генератор текста в изображение Midjourney недавно объявил, что работает над генератором текста в видео, но не назвал дату выхода. Кроме того, компания Stability AI недавно наделала шума, представив Stable Video Diffusion, свое предложение с открытым исходным кодом, способное генерировать видео из 25 кадров в разрешении 576×1024.

Даже Meta демонстрирует свой видеогенератор EMU, который является частью усилий по вплетению ИИ в социальные сети и метавселенную.

Sora, которая пока находится в ограниченном доступе, а OpenAI предоставляет доступ «визуальным художникам, дизайнерам и кинематографистам» для обратной связи, отличается тем, как она понимает язык. Она генерирует яркие, высокодетализированные изображения, интерпретируя нюансы письменных подсказок. Нужно особое движение камеры? Несколько персонажей с реалистичными эмоциями? Нет проблем.

Sora даже генерирует плавные переходы между различными кадрами в рамках одного видео, подражая тому, что уже делают некоторые инструменты для редактирования видео. Вот еще один видеоролик энтузиастов, опубликованный сегодня на YouTube:

Тем не менее, творчество на основе ИИ имеет свои недостатки. Сора еще не совсем маэстро кинематографа. Иными словами, могут возникнуть проблемы с физикой или сложными причинно-следственными связями, и хотя она уже является одним из самых стабильных генераторов видео, она не достигает уровня абсолютной точности, так что галлюцинации вполне ожидаемы.

Кроме того, Sora от OpenAI, несомненно, будет моделью с жесткой цензурой. Компания подчеркнула, что уделяет особое внимание тестам на безопасность и инструментам обнаружения потенциально вредного и вводящего в заблуждение контента. OpenAI работает со своей «красной командой» над доработкой модели и надеется, что стратегия раннего выпуска приведет к сотрудничеству в создании все более безопасного ИИ в ближайшие годы.

О дате выхода более широкой реализации Sora пока не сообщается.

OpenAI вступает в борьбу с текстовыми видеороликами с помощью Sora, бросая вызов Meta, MidJourney и Pika Labs

MicroStrategy может скоро войти в S&P 500: Что это значит для биткоина

Microsoft принесет некогда эксклюзивные игры Xbox на PlayStation и Nintendo

Related Posts

Leave a Comment Cancel Reply