Home » Startup s umělou inteligencí nyní dokáže generovat řeč pomocí vašeho hlasu ve 30 jazycích

Startup s umělou inteligencí nyní dokáže generovat řeč pomocí vašeho hlasu ve 30 jazycích

by Tim

Závody ve zbrojení umělou inteligencí se stále zrychlují a téměř denně se objevují nové hranice v oblasti klonování hlasu. S nejnovějším vývojem přichází sanfranciský startup ElevenLabs, který právě oznámil, že jeho nový model umělé inteligence nyní dokáže plynule napodobovat hlasy mluvící ve 30 různých jazycích – což je dramatické rozšíření oproti původním osmi, které byly podporovány dříve.

Společnost použila jako příklad literární agenturu a nezávislého vydavatele Lukeman Literary a vysvětlila, že tato společnost každoročně vydává mnoho audioknih ve více jazycích.

„Dříve trvalo týmu Lukeman několik týdnů, než vyrobil jednu audioknihu, protože bylo nutné najít správného hlasového umělce, zamluvit nahrávací studio a nahrát a řídit postprodukci,“ uvedla společnost ElevenLabs v oficiálním příspěvku na blogu. “ Nyní celý proces zabere několik hodin,“ dodal.

Podle společnosti ElevenLabs přináší nový model Multilingual v2 „emocionálně bohatý“ zvuk, který zachycuje nuance přirozené řeči. Uživatelé zadají text, který chtějí namluvit v cílovém jazyce, a umělá inteligence vygeneruje plynulý hlasový projev.

Společnost poskytuje dvě hlavní možnosti klonování hlasu: nástroj pro převod textu na řeč a „VoiceLab“ pro klonování konkrétních hlasů.

Uživatelé nahrají vzorky řeči a vytvoří vlastní klon hlasu, který umělá inteligence analyzuje a vytvoří jeho syntetickou verzi. Tento klonovaný hlas pak lze upravit tak, aby říkal cokoli, co si lze představit. Společnost ElevenLabs tvrdí, že díky nejnovější aktualizaci mohou tito dvojníci umělé inteligence nyní plynule mluvit jazyky, jako je švédština, arabština a malajština.

Rozšířené jazykové schopnosti se také shodují s tím, že společnost ElevenLabs přesunula svou technologii klonování hlasu z beta testování. Cílem společnosti je uvést tento nástroj na trh pro praktické aplikace, jako je například vyprávění audioknih, jako v případě literární knihy Lukeman.

Řešení problémů

Potenciál zneužití technologie tyto obchodní ambice zatemňuje. Deepfake audio ponechává uživatele zranitelné vůči podvodům a dezinformačním kampaním. Samotná společnost ElevenLabs se v loňském roce setkala s odporem, když byla její platforma zneužita k vydávání se za veřejné osoby a jejich obtěžování.

Společnost tvrdí, že od té doby zavedla přísnější bezpečnostní opatření, ale etické obavy přetrvávají. Jak nedávno uvedla TCN, „podvodník by mohl pomocí umělé inteligence naklonovat hlas vašeho blízkého“ a k dosažení věrohodných výsledků by mu stačilo pár minut zvukového záznamu.

Velké technologické firmy, jako je Meta, čelí podobné kritice za to, že vyvíjejí výkonnou generativní AI bez plné transparentnosti. Společnost Meta nedávno představila nástroj pro syntézu řeči pomocí umělé inteligence s názvem Voicebox, u kterého přiznala, že by mohl snadno usnadnit deepfakes. Na rozdíl od společnosti ElevenLabs se Meta zdržela jakéhokoli veřejného zveřejnění vzhledem k „riziku zneužití“.

Navzdory obavám se však zdá, že rychlý pokrok v oblasti klonování hlasu pomocí AI nelze zastavit. Jak uvedl lingvista Mati Staniszewski ze společnosti ElevenLabs: „Doufáme, že nakonec s pomocí AI pokryjeme ještě více jazyků a hlasů a odstraníme jazykové bariéry v obsahu.“

Zajištění etické implementace zůstává strmou výzvou, protože hranice mezi globálními dezinformacemi a inovativními způsoby komunikace je velmi tenká. Klíčové je postupovat opatrně – aby se naše globální vesnice hlasů nestala kakofonickou babylonskou věží.

Related Posts

Leave a Comment