Home » OpenAI 携 Sora 跃入文本视频领域,向 Meta、MidJourney 和 Pika Labs 发起挑战

OpenAI 携 Sora 跃入文本视频领域,向 Meta、MidJourney 和 Pika Labs 发起挑战

by Tim

OpenAI今天发布了一种新的人工智能模型–Sora,它可以接收基于文本的指令,并创建吸引人的长视频。嗯,一分钟的长视频。

它目前是一个封闭测试版,只对受邀的开发者开放,代表了全球人工智能领导者的一次姗姗来迟。文字转视频并不是一个未知领域。像 RunwayML 和 Pika Labs 这样的公司已经在这个领域摸爬滚打了一段时间,目前它们的模型能够在几秒钟内创造出令人惊叹的视觉效果,在这个领域占据着主导地位。

但总有一个问题:这些视频往往很短,时间越长,故事就会失去重点和连贯性。

OpenAI 的目标是通过 Sora 实现一致性,生成高度细致、长达一分钟的视频,使其能够无缝地流动和发展。这并不是一个简单的目标,因为人工智能模型实际上是从零开始即兴制作每一帧画面。一帧画面中的微小瑕疵都可能导致一连串的幻觉和不切实际的想象。

不过,OpenAI 似乎已经取得了进展,《索拉》展示了流畅、迷人的视觉效果,这是目前该领域的玩家所无法比拟的。OpenAI 在网上发布了一些视频示例,其中一些还在 YouTube 上进行了非官方转载。

OpenAI正在与其他也在试水生成式视频的人工智能公司正面交锋。流行的文本到图片生成器 Midjourney 最近宣布,它正在开发文本到视频生成器,但没有提供发布日期。此外,Stability AI 公司最近推出的开源产品 Stable Video Diffusion 也引起了不小的波澜,它能生成 25 帧、分辨率为 576×1024 的视频。

甚至 Meta 也在展示其 EMU 视频生成器,这也是其将人工智能融入社交媒体和元宇宙的努力的一部分。

Sora–目前还在限量发售中,OpenAI将向 “视觉艺术家、设计师和电影制作人 “提供反馈–的与众不同之处在于它是如何理解语言的。它能生成生动、细致的图像,同时解读文字提示的细微差别。需要特定的镜头运动?需要多个具有真实情感的角色?没问题。

Sora 甚至能在同一视频中的不同镜头之间生成无缝过渡,模仿当今一些视频编辑工具已经做到的功能。下面是今天发布在 YouTube 上的另一段爱好者视频:

即便如此,人工智能驱动的创造力也有其怪异之处。索拉还不是一位电影大师。换句话说,它可能会在物理或复杂的因果关系方面遇到困难,虽然它已经是最稳定的视频生成器之一,但它并没有达到绝对逼真的水平,因此出现幻觉也是意料之中的事。

此外,来自 OpenAI 的 Sora 无疑将是一个经过严格审查的模型。该公司强调,它将重点放在安全测试和检测工具上,以标记潜在的有害和误导性内容。OpenAI 正与其红色团队合作打磨其模型,并希望其早期发布策略能在未来几年内促成合作,共同打造越来越安全的人工智能。

目前尚未公布 Sora 更广泛实施的发布日期。

Related Posts

Leave a Comment