Home » AI-startup kan nu spraak genereren met je stem in 30 talen

AI-startup kan nu spraak genereren met je stem in 30 talen

by Thomas

De AI-wapenwedloop gaat steeds sneller, met bijna dagelijks nieuwe grenzen in het klonen van stemmen. De nieuwste ontwikkeling is afkomstig van de in San Francisco gevestigde startup ElevenLabs, die zojuist heeft aangekondigd dat hun nieuwe AI-model nu stemmen kan nabootsen die vloeiend spreken in 30 verschillende talen – een dramatische uitbreiding ten opzichte van de oorspronkelijke acht talen die eerder werden ondersteund.

Het bedrijf gebruikte Lukeman Literary, een literair agentschap en onafhankelijke uitgever, als voorbeeld en legde uit dat het bedrijf elk jaar veel luisterboeken in meerdere talen produceert.

“Vroeger kostte het het team van Lukeman weken om één audioboek te produceren, omdat ze de juiste voice-overartiest moesten vinden, een opnamestudio moesten boeken en de postproductie moesten opnemen en beheren”, aldus ElevenLabs in een officiële blogpost. “Nu neemt het hele proces slechts een paar uur in beslag.

Volgens ElevenLabs levert het nieuwe meertalige v2-model “emotioneel rijke” audio die de genuanceerde verbuigingen van natuurlijke spraak weergeeft. Gebruikers typen de tekst die ze willen laten uitspreken in de doeltaal en de AI genereert een naadloze voice-over.

Het bedrijf biedt twee hoofdopties voor het klonen van stemmen: een tekst-naar-spraak tool en een “VoiceLab” voor het klonen van specifieke stemmen.

Gebruikers uploaden spraakvoorbeelden om een aangepaste stemkloon te maken, die de AI analyseert om een synthetische versie te maken. Deze gekloonde stem kan vervolgens worden gemanipuleerd om alles te zeggen wat denkbaar is. ElevenLabs beweert dat de nieuwste update betekent dat deze AI doppelgangers nu vloeiend kunnen spreken in talen als Zweeds, Arabisch en Maleis.

De uitgebreide taalkundige mogelijkheden vallen ook samen met het feit dat ElevenLabs zijn technologie voor het klonen van stemmen uit beta-tests haalt. Het bedrijf wil de tool op de markt brengen voor praktische toepassingen zoals het inspreken van audioboeken, zoals in het geval van Lukeman Literary.

Zorgen uiten

Het potentieel van de technologie voor misbruik vertroebelt deze zakelijke ambities. Deepfake audio maakt gebruikers kwetsbaar voor fraude en misinformatiecampagnes. ElevenLabs zelf kreeg vorig jaar te maken met verzet toen het platform werd misbruikt om publieke figuren na te doen en lastig te vallen.

Het bedrijf zegt dat er sindsdien strengere beveiligingen zijn geïmplementeerd, maar er blijven ethische bezwaren bestaan. Zoals TCN onlangs meldde, zou een “oplichter AI kunnen gebruiken om de stem van je geliefde te klonen” en alles wat nodig is om geloofwaardige resultaten te bereiken zijn een paar minuten audio.

Grote techbedrijven zoals Meta krijgen vergelijkbare kritiek te verduren omdat ze krachtige generatieve AI ontwikkelen zonder volledige transparantie. Meta onthulde onlangs een AI spraaksynthesetool genaamd Voicebox, waarvan het bedrijf toegaf dat het gemakkelijk deepfakes zou kunnen faciliteren. In tegenstelling tot ElevenLabs onthield Meta zich van openbare publicatie vanwege de “risico’s van misbruik”.

Ondanks de angst lijkt de snelle vooruitgang in het klonen van AI-stemmen niet te stoppen. Zoals linguïst Mati Staniszewski van ElevenLabs verklaarde: “Uiteindelijk hopen we nog meer talen en stemmen te kunnen bestrijken met behulp van AI en de taalkundige barrières voor inhoud te elimineren.”

Het waarborgen van ethische implementatie blijft een grote uitdaging, aangezien de lijn tussen wereldwijde misinformatie en innovatieve manieren om te communiceren erg dun is. Voorzichtig handelen is essentieel – anders wordt ons wereldwijde dorp van stemmen een kakofonische toren van Babel.

Related Posts

Leave a Comment