Home » Startup de IA pode agora gerar discurso usando a sua voz em 30 idiomas

Startup de IA pode agora gerar discurso usando a sua voz em 30 idiomas

by Thomas

A corrida ao armamento da IA continua a acelerar, com novas fronteiras na clonagem de voz a surgirem quase diariamente. O mais recente desenvolvimento vem da ElevenLabs, uma empresa sediada em São Francisco, que acaba de anunciar que o seu novo modelo de IA pode agora imitar vozes que falam fluentemente em 30 línguas diferentes – uma expansão dramática das oito línguas originais que eram anteriormente suportadas.

A empresa usou a Lukeman Literary, uma agência literária e editora independente, como exemplo, explicando que a empresa produz muitos audiolivros por ano em várias línguas.

“A equipa da Lukeman costumava demorar semanas a produzir um único audiolivro, porque era necessário encontrar o locutor certo, reservar um estúdio de gravação, gravar e gerir a pós-produção”, afirmou a ElevenLabs numa publicação no blogue oficial. “Agora, todo o processo demora apenas algumas horas”.

De acordo com a ElevenLabs, o novo modelo Multilingual v2 proporciona um áudio “emocionalmente rico” que capta as inflexões matizadas do discurso natural. Os utilizadores escrevem o texto que pretendem que seja falado na língua de destino e a IA gera uma locução perfeita.

A empresa oferece duas opções principais de clonagem de voz: uma ferramenta de conversão de texto em voz e um “VoiceLab” para clonar vozes específicas.

Os utilizadores carregam amostras de voz para criar um clone de voz personalizado, que a IA analisa para criar uma versão sintética. Esta voz clonada pode então ser manipulada para dizer tudo o que se possa imaginar. A ElevenLabs afirma que a última atualização significa que estes doppelgangers de IA podem agora falar fluentemente em línguas como o sueco, o árabe e o malaio.

As capacidades linguísticas alargadas também coincidem com o facto de a ElevenLabs ter retirado a sua tecnologia de clonagem de voz dos testes beta. A empresa pretende comercializar a ferramenta para aplicações práticas, como a narração de audiolivros, como no caso da Lukeman Literary.

Abordando preocupações

O potencial de utilização incorrecta da tecnologia tolda estas ambições comerciais. O áudio deepfake deixa os utilizadores vulneráveis a fraudes e campanhas de desinformação. A própria ElevenLabs sofreu reacções negativas no ano passado, quando a sua plataforma foi explorada para se fazer passar por e assediar figuras públicas.

A empresa afirma que foram implementadas salvaguardas mais rigorosas desde então, mas as preocupações éticas persistem. Como a TCN noticiou recentemente, um “burlão pode usar a IA para clonar a voz de um ente querido”, e tudo o que é necessário para obter resultados credíveis são alguns minutos de áudio.

Grandes empresas tecnológicas como a Meta enfrentam críticas semelhantes por desenvolverem uma poderosa IA generativa sem total transparência. A Meta revelou recentemente uma ferramenta de síntese de fala de IA chamada Voicebox, que reconheceu que poderia facilmente facilitar deepfakes. Ao contrário da ElevenLabs, a Meta absteve-se de qualquer divulgação pública devido aos “riscos de utilização indevida”.

No entanto, apesar dos receios, o rápido progresso na clonagem de voz por IA parece imparável. Como afirmou o linguista Mati Staniszewski, da ElevenLabs, “esperamos acabar por abranger ainda mais línguas e vozes com a ajuda da IA e eliminar as barreiras linguísticas aos conteúdos”.

Garantir uma implementação ética continua a ser um grande desafio, uma vez que a linha entre a desinformação global e as formas inovadoras de comunicar é muito ténue. É fundamental ter cuidado – para que a nossa aldeia global de vozes não se torne numa Torre de Babel cacofónica.

Related Posts

Leave a Comment