Facebook母公司Meta周一发布了其新的人工智能音频生成平台Audiobox的首个演示。这家社交媒体巨头表示,Audiobox 可让用户通过语音输入和提示创建自定义语音和音效。
Meta 表示,Audiobox 基于今年早些时候推出的 Voicebox 平台所开发的技术,但在质量上超过了 Voicebox,并包括自动水印功能,以便 “负责任地使用”。
“Meta的Audiobox团队说:”Audiobox是Voicebox的后继产品,通过统一语音、音效(短小、离散的声音,如狗叫、汽车喇叭声、一声雷鸣等)和音景的生成和编辑功能,以及各种输入机制,最大限度地提高了每种使用情况下的可控性,从而进一步推动了音频生成人工智能的发展。
该团队解释说,Audiobox 使用 “定制解算器”,他们声称这使生成过程比以前的模型快 25 倍以上,而且性能不减。
今年6月,Meta公司发布了Voicebox,Meta公司称这一人工智能生成工具可以生成六种语言的音频,包括英语、法语、德语、西班牙语、波兰语和葡萄牙语,而且更接近现实世界中人们自然说话的方式。
由于当时人们对人工智能驱动的深度伪造的担忧不断升温,Meta 公司承认 Voicebox 有可能被滥用,因此表示不会向公众发布。为了防止 Audiobox 被滥用,Meta 加入了水印。
“最近,音频生成模型在质量和保真度方面取得了进步,这为该模型带来了新的应用和使用(案例)。但与此同时,也有很多人……对滥用风险表示担忧,”Audiobox 团队在报告中说。”因此,能够识别哪些音频是生成的,哪些是真实的,对于防止[滥用]该技术并使某些[平台]能够遵守其政策至关重要”。
“Meta说:”Audiobox模型和我们的互动演示都具有自动音频水印功能,因此使用Audiobox创建的任何音频都可以准确地追踪到其来源。”我们的水印方法在音频中嵌入了一个人耳无法察觉的信号,但通过一个能够在音频中找到人工智能生成片段的模型,可以一直检测到帧级。
从今天开始,您可以试用我们新的音频生成基础研究模型。演示内容包括零镜头 TTS、文本到声音效果、填充等!
试用 Audiobox ➡️ https://t.co/8OPcJYy8a9 pic.twitter.com/lo9rCOZMAh
– AI at Meta (@AIatMeta) December 11, 2023
“We design description-based and example-based prompting to enhance controllability and unify speech and sound generation paradigms,” the team said. “我们允许在生成语音时独立控制文字、声乐和其他音频风格”。
虽然速度可能更快,但 Meta 承认,像 Audiobox 这样的音频生成人工智能模型受到了训练数据量的限制,在这种情况下,训练数据是指标注并输入人工智能模型的声音,这就强调了正确标注数据的重要性。
研究人员举例说,将吉娃娃犬和拉布拉多犬吠叫的声音标记为特定的犬类,比简单地标记为 “犬吠 “要好。Meta公司表示,这同样适用于口音和地区方言等语言模式。
Meta 发言人拒绝提供进一步评论。
与谷歌、微软和亚马逊一样,Meta 也在人工智能领域投入了巨资。本月早些时候,Meta 宣布将在其平台套件中推出 20 多项新的人工智能功能,包括 Facebook、Instagram 和 WhatsApp。
作为负责任的人工智能开发的支持者,Meta 最近与 IBM 合作发起了人工智能联盟,这是一个由 50 多家公司、大学和智库组成的联盟,专注于开源人工智能的创新和开发。
“Meta公司全球事务总裁尼克-克莱格(Nick Clegg)说:”人工智能联盟将研究人员、开发人员和公司聚集在一起,共享工具和知识,无论模型是否公开共享,这些工具和知识都能帮助我们取得进步。”我们期待与合作伙伴合作,推进人工智能领域的先进技术,帮助每个人负责任地构建。”