Home » Una startup de IA ya puede generar habla con tu voz en 30 idiomas

Una startup de IA ya puede generar habla con tu voz en 30 idiomas

by v

La carrera armamentística de la IA sigue acelerándose, y casi a diario surgen nuevas fronteras en la clonación de voces. La última novedad viene de la mano de la startup ElevenLabs, con sede en San Francisco, que acaba de anunciar que su nuevo modelo de IA ya puede imitar voces que hablen con fluidez en 30 idiomas diferentes, lo que supone una espectacular ampliación de los ocho que admitía anteriormente.

La empresa puso como ejemplo a Lukeman Literary, una agencia literaria y editorial independiente, y explicó que produce muchos audiolibros al año en varios idiomas.

«Antes, el equipo de Lukeman tardaba semanas en producir un solo audiolibro porque tenía que encontrar al locutor adecuado, reservar un estudio de grabación, grabar y gestionar la posproducción», explica ElevenLabs en una entrada de su blog oficial. «Ahora todo el proceso dura unas horas».

Según ElevenLabs, el nuevo modelo Multilingual v2 ofrece un audio «emocionalmente rico» que capta las inflexiones matizadas del habla natural. Los usuarios escriben el texto que quieren que se pronuncie en el idioma de destino y la IA genera una voz en off perfecta.

La empresa ofrece dos opciones principales de clonación de voz: una herramienta de texto a voz y un «VoiceLab» para clonar voces específicas.

Los usuarios cargan muestras de voz para crear un clon de voz personalizado, que la IA analiza para crear una versión sintética. Esta voz clonada puede manipularse para decir cualquier cosa imaginable. ElevenLabs afirma que la última actualización significa que estos dobles de la IA ahora pueden hablar con fluidez en lenguas como el sueco, el árabe y el malayo.

La ampliación de las capacidades lingüísticas coincide también con la salida de ElevenLabs de la fase de pruebas beta de su tecnología de clonación de voz. La empresa pretende comercializar la herramienta para aplicaciones prácticas como la narración de audiolibros, como en el caso de Lukeman Literary.

Preocupaciones

El potencial de uso indebido de la tecnología empaña estas ambiciones empresariales. El audio falso deja a los usuarios expuestos a fraudes y campañas de desinformación. La propia ElevenLabs sufrió el año pasado una reacción violenta cuando su plataforma fue utilizada para suplantar y acosar a personajes públicos.

La empresa afirma que desde entonces se han implantado medidas de seguridad más estrictas, pero persisten los problemas éticos. Como informó recientemente TCN, un «estafador podría utilizar la IA para clonar la voz de su ser querido», y todo lo que se necesitaría para lograr resultados creíbles son un par de minutos de audio.

Grandes empresas tecnológicas como Meta se enfrentan a críticas similares por desarrollar una potente IA generativa sin total transparencia. Meta presentó recientemente una herramienta de síntesis de voz llamada Voicebox, que, según reconoció, podría facilitar fácilmente las falsificaciones. A diferencia de ElevenLabs, Meta se abstuvo de hacerla pública por los «riesgos de uso indebido».

Sin embargo, a pesar de los temores, el rápido avance de la clonación de voz por IA parece imparable. Como declaró el lingüista Mati Staniszewski, de ElevenLabs: «Con el tiempo esperamos abarcar aún más idiomas y voces con ayuda de la IA y eliminar las barreras lingüísticas a los contenidos».

Garantizar una aplicación ética sigue siendo un gran reto, ya que la línea que separa la desinformación global de las formas innovadoras de comunicación es muy fina. Hay que ir con cuidado, no sea que nuestra aldea global de voces se convierta en una cacofónica Torre de Babel.

Related Posts

Leave a Comment