明智的决定 Meta推出人工智能驱动的Audiobox

Facebook母公司Meta周一发布了其新的人工智能音频生成平台Audiobox的首个演示。这家社交媒体巨头表示，Audiobox 可让用户通过语音输入和提示创建自定义语音和音效。

Meta 表示，Audiobox 基于今年早些时候推出的 Voicebox 平台所开发的技术，但在质量上超过了 Voicebox，并包括自动水印功能，以便 “负责任地使用”。

“Meta的Audiobox团队说：”Audiobox是Voicebox的后继产品，通过统一语音、音效（短小、离散的声音，如狗叫、汽车喇叭声、一声雷鸣等）和音景的生成和编辑功能，以及各种输入机制，最大限度地提高了每种使用情况下的可控性，从而进一步推动了音频生成人工智能的发展。

该团队解释说，Audiobox 使用 “定制解算器”，他们声称这使生成过程比以前的模型快 25 倍以上，而且性能不减。

今年6月，Meta公司发布了Voicebox，Meta公司称这一人工智能生成工具可以生成六种语言的音频，包括英语、法语、德语、西班牙语、波兰语和葡萄牙语，而且更接近现实世界中人们自然说话的方式。

由于当时人们对人工智能驱动的深度伪造的担忧不断升温，Meta 公司承认 Voicebox 有可能被滥用，因此表示不会向公众发布。为了防止 Audiobox 被滥用，Meta 加入了水印。

“最近，音频生成模型在质量和保真度方面取得了进步，这为该模型带来了新的应用和使用（案例）。但与此同时，也有很多人……对滥用风险表示担忧，”Audiobox 团队在报告中说。”因此，能够识别哪些音频是生成的，哪些是真实的，对于防止[滥用]该技术并使某些[平台]能够遵守其政策至关重要”。

“Meta说：”Audiobox模型和我们的互动演示都具有自动音频水印功能，因此使用Audiobox创建的任何音频都可以准确地追踪到其来源。”我们的水印方法在音频中嵌入了一个人耳无法察觉的信号，但通过一个能够在音频中找到人工智能生成片段的模型，可以一直检测到帧级。

从今天开始，您可以试用我们新的音频生成基础研究模型。演示内容包括零镜头 TTS、文本到声音效果、填充等！

试用 Audiobox ➡️ https://t.co/8OPcJYy8a9 pic.twitter.com/lo9rCOZMAh

– AI at Meta (@AIatMeta) December 11, 2023

“We design description-based and example-based prompting to enhance controllability and unify speech and sound generation paradigms,” the team said. “我们允许在生成语音时独立控制文字、声乐和其他音频风格”。

虽然速度可能更快，但 Meta 承认，像 Audiobox 这样的音频生成人工智能模型受到了训练数据量的限制，在这种情况下，训练数据是指标注并输入人工智能模型的声音，这就强调了正确标注数据的重要性。

研究人员举例说，将吉娃娃犬和拉布拉多犬吠叫的声音标记为特定的犬类，比简单地标记为 “犬吠 “要好。Meta公司表示，这同样适用于口音和地区方言等语言模式。

Meta 发言人拒绝提供进一步评论。

与谷歌、微软和亚马逊一样，Meta 也在人工智能领域投入了巨资。本月早些时候，Meta 宣布将在其平台套件中推出 20 多项新的人工智能功能，包括 Facebook、Instagram 和 WhatsApp。

作为负责任的人工智能开发的支持者，Meta 最近与 IBM 合作发起了人工智能联盟，这是一个由 50 多家公司、大学和智库组成的联盟，专注于开源人工智能的创新和开发。

“Meta公司全球事务总裁尼克-克莱格（Nick Clegg）说：”人工智能联盟将研究人员、开发人员和公司聚集在一起，共享工具和知识，无论模型是否公开共享，这些工具和知识都能帮助我们取得进步。”我们期待与合作伙伴合作，推进人工智能领域的先进技术，帮助每个人负责任地构建。”

明智的决定 Meta推出人工智能驱动的Audiobox

像素游戏创始人表示，PIXEL 代币不会 “惊喜 “空投

您的定制 GPT 可能会被诱骗放弃您的数据

Related Posts

Leave a Comment Cancel Reply