La course à l’armement de l’IA continue de s’accélérer, avec de nouvelles frontières dans le clonage de la voix émergeant presque quotidiennement. Le dernier développement en date vient de la startup ElevenLabs, basée à San Francisco, qui vient d’annoncer que son nouveau modèle d’IA peut désormais imiter des voix s’exprimant couramment dans 30 langues différentes – une expansion spectaculaire par rapport aux huit langues qui étaient prises en charge à l’origine.
La société a pris l’exemple de Lukeman Literary, une agence littéraire et un éditeur indépendant, en expliquant que l’entreprise produit chaque année de nombreux livres audio dans plusieurs langues.
« Auparavant, il fallait des semaines à l’équipe de Lukeman pour produire un seul livre audio, car il fallait trouver la bonne voix off, réserver un studio d’enregistrement, enregistrer et gérer la post-production », explique ElevenLabs dans un billet de blog officiel. « Aujourd’hui, l’ensemble du processus ne prend que quelques heures ».
Selon ElevenLabs, le nouveau modèle Multilingue v2 offre un son « émotionnellement riche » qui capture les inflexions nuancées de la parole naturelle. Les utilisateurs saisissent le texte qu’ils souhaitent voir prononcer dans la langue cible, et l’IA génère une voix off transparente.
L’entreprise propose deux options principales de clonage de voix : un outil de synthèse vocale et un « VoiceLab » pour le clonage de voix spécifiques.
Les utilisateurs téléchargent des échantillons de voix pour créer un clone vocal personnalisé, que l’IA analyse pour construire une version synthétique. Cette voix clonée peut ensuite être manipulée pour dire tout ce que l’on peut imaginer. ElevenLabs affirme que la dernière mise à jour permet à ces sosies de l’IA de parler couramment des langues comme le suédois, l’arabe et le malais.
L’élargissement des capacités linguistiques coïncide également avec le fait qu’ElevenLabs sort sa technologie de clonage de voix de la phase de test bêta. L’entreprise souhaite commercialiser l’outil pour des applications pratiques telles que la narration de livres audio, comme dans le cas de Lukeman Literary.
Pour répondre aux préoccupations
Le potentiel d’utilisation abusive de la technologie assombrit ces ambitions commerciales. Les faux sons laissent les utilisateurs vulnérables à la fraude et aux campagnes de désinformation. ElevenLabs a elle-même essuyé des réactions négatives l’année dernière lorsque sa plateforme a été exploitée pour usurper l’identité de personnalités publiques et les harceler.
L’entreprise affirme que des mesures de protection plus strictes ont été mises en place depuis, mais les problèmes éthiques persistent. Comme l’a récemment rapporté TCN, un « escroc pourrait utiliser l’IA pour cloner la voix de votre proche », et il suffirait de quelques minutes d’audio pour obtenir des résultats crédibles.
Les grandes entreprises technologiques telles que Meta font l’objet de critiques similaires pour avoir développé une IA générative puissante sans transparence totale. Meta a récemment dévoilé un outil de synthèse vocale appelé Voicebox, dont elle a reconnu qu’il pouvait facilement faciliter les « deepfakes ». Contrairement à ElevenLabs, Meta s’est abstenue de toute diffusion publique en raison des « risques d’utilisation abusive ».
Toutefois, malgré les craintes, les progrès rapides en matière de clonage vocal par l’IA semblent inarrêtables. Comme l’a déclaré le linguiste Mati Staniszewski d’ElevenLabs, « à terme, nous espérons couvrir encore plus de langues et de voix avec l’aide de l’IA et éliminer les barrières linguistiques au contenu ».
Garantir une mise en œuvre éthique reste un défi de taille, car la frontière entre la désinformation mondiale et les moyens de communication innovants est très mince. Il est essentiel d’agir avec prudence, de peur que notre village mondial de voix ne devienne une tour de Babel cacophonique.