Home » 人工智能初创公司现在能用你的声音生成 30 种语言的语音

人工智能初创公司现在能用你的声音生成 30 种语言的语音

by Thomas

人工智能军备竞赛继续加速,语音克隆领域的新领域几乎每天都在涌现。总部位于旧金山的初创公司 ElevenLabs 刚刚宣布,他们的新人工智能模型现在可以模仿 30 种不同语言的流利语音–比原来支持的 8 种语言有了大幅扩展。

该公司以文学社和独立出版商 Lukeman Literary 为例,解释说该公司每年制作许多多语种有声读物。

“ElevenLabs 在一篇官方博客文章中说:”过去,卢克曼的团队制作一本有声书需要花费数周时间,因为他们需要寻找合适的配音员、预订录音室、录音和管理后期制作。”现在整个过程只需几个小时。

根据 ElevenLabs 的说法,新的多语种 v2 模式可以提供 “情感丰富 “的音频,捕捉自然语音的细微变化。用户输入他们希望用目标语言表达的文本,人工智能就会生成无缝的配音。

该公司提供两种主要的语音克隆选项:文本到语音工具和用于克隆特定语音的 “语音实验室”。

用户上传语音样本以创建自定义语音克隆,人工智能会对语音样本进行分析,以创建合成版本。然后,这个克隆语音就可以被操纵,说出任何可以想象到的内容。ElevenLabs 声称,最新的更新意味着这些人工智能二重身现在可以说流利的瑞典语、阿拉伯语和马来语。

语言能力扩展的同时,ElevenLabs 还将其语音克隆技术从测试阶段中解脱出来。该公司的目标是将这一工具推向市场,用于有声读物的解说等实际应用,例如 Lukeman Literary 的案例。

解决关切

该技术被滥用的可能性给这些商业目标蒙上了阴影。Deepfake 音频使用户容易受到欺诈和误导。去年,ElevenLabs 的平台被利用来冒充和骚扰公众人物,它自己也受到了反弹。

该公司表示已经实施了更严格的保护措施,但道德问题依然存在。正如 TCN 最近报道的那样,”骗子可以利用人工智能克隆你亲人的声音”,而要达到可信的效果,只需要几分钟的音频。

像 Meta 这样的大型科技公司也面临着类似的批评,因为它们在没有完全透明的情况下开发了功能强大的生成式人工智能。Meta 公司最近发布了一款名为 Voicebox 的人工智能语音合成工具,并承认这款工具很容易为深度伪造提供便利。与 ElevenLabs 不同的是,考虑到 “滥用的风险”,Meta 没有进行任何公开发布。

然而,尽管存在担忧,人工智能语音克隆的快速发展似乎势不可挡。正如 ElevenLabs 的语言学家 Mati Staniszewski 所说:”最终,我们希望借助人工智能覆盖更多语言和语音,消除内容的语言障碍。”

确保合乎道德的实施仍然是一项严峻的挑战,因为全球错误信息与创新交流方式之间的界限非常薄。小心谨慎是关键–以免我们的地球村变成喧闹的巴别塔。

Related Posts

Leave a Comment