Home » Startup AI może teraz generować mowę za pomocą głosu w 30 językach

Startup AI może teraz generować mowę za pomocą głosu w 30 językach

by v

Wyścig zbrojeń sztucznej inteligencji wciąż przyspiesza, a nowe granice w klonowaniu głosu pojawiają się niemal codziennie. Najnowsze osiągnięcie pochodzi od startupu ElevenLabs z siedzibą w San Francisco, który właśnie ogłosił, że ich nowy model sztucznej inteligencji może teraz naśladować głosy mówiące płynnie w 30 różnych językach – dramatyczne rozszerzenie z pierwotnych ośmiu, które były wcześniej obsługiwane.

Firma użyła Lukeman Literary, agencji literackiej i niezależnego wydawcy, jako przykładu, wyjaśniając, że firma produkuje wiele audiobooków każdego roku w wielu językach.

„Kiedyś wyprodukowanie jednego audiobooka zajmowało zespołowi Lukemana tygodnie, ponieważ wymagało to znalezienia odpowiedniego lektora, zarezerwowania studia nagraniowego oraz nagrania i zarządzania postprodukcją” – powiedział ElevenLabs w oficjalnym poście na blogu. „Teraz cały proces zajmuje kilka godzin”.

Według ElevenLabs, nowy model Multilingual v2 zapewnia „bogaty emocjonalnie” dźwięk, który oddaje niuanse naturalnej mowy. Użytkownicy wpisują tekst, który chcą wypowiedzieć w języku docelowym, a sztuczna inteligencja generuje płynny podkład głosowy.

Firma oferuje dwie główne opcje klonowania głosu: narzędzie do zamiany tekstu na mowę oraz „VoiceLab” do klonowania określonych głosów.

Użytkownicy przesyłają próbki mowy, aby utworzyć niestandardowy klon głosu, który sztuczna inteligencja analizuje w celu stworzenia syntetycznej wersji. Ten sklonowany głos można następnie zmanipulować, aby powiedzieć wszystko, co można sobie wyobrazić. ElevenLabs twierdzi, że najnowsza aktualizacja oznacza, że te sobowtóry AI mogą teraz płynnie mówić w językach takich jak szwedzki, arabski i malajski.

Rozszerzone możliwości językowe zbiegają się również w czasie z wyprowadzeniem przez ElevenLabs technologii klonowania głosu z testów beta. Firma zamierza wprowadzić narzędzie na rynek do praktycznych zastosowań, takich jak narracja audiobooków, jak w przypadku Lukeman Literary.

Rozwiewanie wątpliwości

Potencjał technologii do niewłaściwego wykorzystania przesłania te ambicje biznesowe. Deepfake audio naraża użytkowników na oszustwa i kampanie dezinformacyjne. Sama firma ElevenLabs spotkała się w zeszłym roku z reakcją, gdy jej platforma została wykorzystana do podszywania się i nękania osób publicznych.

Firma twierdzi, że od tego czasu wdrożono bardziej rygorystyczne zabezpieczenia, ale obawy etyczne nadal istnieją. Jak niedawno donosił TCN, „oszust może użyć sztucznej inteligencji do sklonowania głosu ukochanej osoby”, a wszystko, czego potrzeba, aby osiągnąć wiarygodne wyniki, to kilka minut dźwięku.

Duże firmy technologiczne, takie jak Meta, spotykają się z podobną krytyką za rozwijanie potężnej generatywnej sztucznej inteligencji bez pełnej przejrzystości. Meta niedawno zaprezentowała narzędzie do syntezy mowy AI o nazwie Voicebox, które, jak przyznała, może łatwo ułatwić deepfake. W przeciwieństwie do ElevenLabs, Meta powstrzymała się od jakiejkolwiek publicznej publikacji, biorąc pod uwagę „ryzyko niewłaściwego użycia”.

Jednak pomimo obaw, szybki postęp w klonowaniu głosu AI wydaje się nie do powstrzymania. Jak stwierdził lingwista Mati Staniszewski z ElevenLabs: „Ostatecznie mamy nadzieję objąć jeszcze więcej języków i głosów za pomocą sztucznej inteligencji i wyeliminować bariery językowe dla treści”.

Zapewnienie etycznego wdrożenia pozostaje dużym wyzwaniem, ponieważ granica między globalną dezinformacją a innowacyjnymi sposobami komunikacji jest bardzo cienka. Ostrożność jest kluczowa – aby nasza globalna wioska głosów nie stała się kakofoniczną wieżą Babel.

Related Posts

Leave a Comment