OpenAI 携 Sora 跃入文本视频领域，向 Meta、MidJourney 和 Pika Labs 发起挑战

by Tim 25 3 月, 2024

written by Tim 25 3 月, 2024

OpenAI今天发布了一种新的人工智能模型–Sora，它可以接收基于文本的指令，并创建吸引人的长视频。嗯，一分钟的长视频。

它目前是一个封闭测试版，只对受邀的开发者开放，代表了全球人工智能领导者的一次姗姗来迟。文字转视频并不是一个未知领域。像 RunwayML 和 Pika Labs 这样的公司已经在这个领域摸爬滚打了一段时间，目前它们的模型能够在几秒钟内创造出令人惊叹的视觉效果，在这个领域占据着主导地位。

但总有一个问题：这些视频往往很短，时间越长，故事就会失去重点和连贯性。

OpenAI 的目标是通过 Sora 实现一致性，生成高度细致、长达一分钟的视频，使其能够无缝地流动和发展。这并不是一个简单的目标，因为人工智能模型实际上是从零开始即兴制作每一帧画面。一帧画面中的微小瑕疵都可能导致一连串的幻觉和不切实际的想象。

不过，OpenAI 似乎已经取得了进展，《索拉》展示了流畅、迷人的视觉效果，这是目前该领域的玩家所无法比拟的。OpenAI 在网上发布了一些视频示例，其中一些还在 YouTube 上进行了非官方转载。

OpenAI正在与其他也在试水生成式视频的人工智能公司正面交锋。流行的文本到图片生成器 Midjourney 最近宣布，它正在开发文本到视频生成器，但没有提供发布日期。此外，Stability AI 公司最近推出的开源产品 Stable Video Diffusion 也引起了不小的波澜，它能生成 25 帧、分辨率为 576×1024 的视频。

甚至 Meta 也在展示其 EMU 视频生成器，这也是其将人工智能融入社交媒体和元宇宙的努力的一部分。

Sora–目前还在限量发售中，OpenAI将向 “视觉艺术家、设计师和电影制作人 “提供反馈–的与众不同之处在于它是如何理解语言的。它能生成生动、细致的图像，同时解读文字提示的细微差别。需要特定的镜头运动？需要多个具有真实情感的角色？没问题。

Sora 甚至能在同一视频中的不同镜头之间生成无缝过渡，模仿当今一些视频编辑工具已经做到的功能。下面是今天发布在 YouTube 上的另一段爱好者视频：

即便如此，人工智能驱动的创造力也有其怪异之处。索拉还不是一位电影大师。换句话说，它可能会在物理或复杂的因果关系方面遇到困难，虽然它已经是最稳定的视频生成器之一，但它并没有达到绝对逼真的水平，因此出现幻觉也是意料之中的事。

此外，来自 OpenAI 的 Sora 无疑将是一个经过严格审查的模型。该公司强调，它将重点放在安全测试和检测工具上，以标记潜在的有害和误导性内容。OpenAI 正与其红色团队合作打磨其模型，并希望其早期发布策略能在未来几年内促成合作，共同打造越来越安全的人工智能。

目前尚未公布 Sora 更广泛实施的发布日期。

OpenAI 携 Sora 跃入文本视频领域，向 Meta、MidJourney 和 Pika Labs 发起挑战

微策略公司即将进入标准普尔500指数： 这对比特币意味着什么

微软将为 PlayStation 和任天堂带来曾经独占的 Xbox 游戏

Related Posts

Leave a Comment Cancel Reply

微策略公司即将进入标准普尔500指数：这对比特币意味着什么