Rozsądna decyzja: Meta wprowadza Audiobox oparty na sztucznej inteligencji

Firma macierzysta Facebooka, Meta, opublikowała w poniedziałek pierwszą wersję demonstracyjną nowej platformy generatora dźwięku Audiobox opartej na sztucznej inteligencji. Gigant mediów społecznościowych powiedział, że Audiobox pozwala użytkownikom tworzyć niestandardowe głosy i efekty dźwiękowe za pomocą poleceń głosowych i podpowiedzi.

Audiobox, powiedział Meta, opiera się na technologii opracowanej dla platformy Voicebox wprowadzonej na początku tego roku, ale przewyższa Voicebox pod względem jakości i zawiera automatyczne znakowanie wodne dla „odpowiedzialnego użytkowania”.

„Audiobox, następca Voicebox, jeszcze bardziej rozwija generatywną sztuczną inteligencję dla dźwięku poprzez ujednolicenie możliwości generowania i edycji mowy, efektów dźwiękowych (krótkie, dyskretne dźwięki, takie jak szczekanie psa, klakson samochodu, trzask grzmotu itp.) oraz pejzaże dźwiękowe, z różnymi mechanizmami wejściowymi, aby zmaksymalizować możliwości sterowania dla każdego przypadku użycia” – powiedział zespół Audiobox firmy Meta.

Audiobox, jak wyjaśnił zespół, wykorzystuje „solwery na zamówienie”, które, jak twierdzą, sprawiają, że proces generowania jest ponad 25 razy szybszy niż w poprzednich modelach bez utraty wydajności.

W czerwcu Meta ogłosiła Voicebox, generatywne narzędzie sztucznej inteligencji, które według Meta może generować dźwięk w sześciu językach, w tym angielskim, francuskim, niemieckim, hiszpańskim, polskim i portugalskim, i może to robić bliżej tego, jak ludzie mówią naturalnie w prawdziwym świecie.

W związku z rosnącymi obawami dotyczącymi deepfake’ów opartych na sztucznej inteligencji, Meta stwierdziła, że nie udostępni Voicebox publicznie, uznając potencjał nadużyć. Aby zwalczać nadużycia w Audiobox, Meta włączyła znak wodny.

„Niedawny postęp w jakości i wierności modelu generowania dźwięku umożliwił nowe zastosowania i przypadki użycia tego modelu. Jednak w tym samym czasie wiele osób… zgłasza obawy dotyczące ryzyka niewłaściwego wykorzystania” – stwierdził zespół Audiobox w swoim raporcie. „Dlatego też możliwość rozpoznania, który dźwięk jest generowany lub rzeczywisty, ma kluczowe znaczenie dla zapobiegania [niewłaściwemu wykorzystaniu] technologii i umożliwienia niektórym [platformom] przestrzegania ich polityki”.

„Zarówno model Audiobox, jak i nasze interaktywne demo są wyposażone w automatyczny znak wodny audio, dzięki czemu każdy dźwięk utworzony za pomocą Audiobox można dokładnie prześledzić do jego pochodzenia” – powiedziała Meta. „Nasza metoda znakowania wodnego osadza sygnał w dźwięku, który jest niezauważalny dla ludzkiego ucha, ale można go wykryć aż do poziomu klatki przy użyciu modelu zdolnego do znajdowania segmentów generowanych przez sztuczną inteligencję w [dźwięku].”

Od dziś można wypróbować nasz nowy model badawczy do generowania dźwięku. Demo zawiera Zero shot TTS, Text to sound effects, Infilling i wiele więcej!

Wypróbuj Audiobox ➡️ https://t.co/8OPcJYy8a9 pic.twitter.com/lo9rCOZMAh

– AI at Meta (@AIatMeta) December 11, 2023

„Projektujemy podpowiedzi oparte na opisach i przykładach, aby zwiększyć możliwości sterowania i ujednolicić paradygmaty generowania mowy i dźwięku” – powiedział zespół. „Umożliwiamy niezależne sterowanie transkrypcją, wokalem i innymi stylami audio podczas generowania mowy”.

Chociaż może to być szybsze, Meta przyznała, że modele sztucznej inteligencji generujące dźwięk, takie jak Audiobox, są ograniczone ilością danych szkoleniowych – w tym przypadku dźwięków – oznaczonych i wprowadzonych do modelu sztucznej inteligencji, podkreślając znaczenie prawidłowego etykietowania danych.

Na przykład, naukowcy powiedzieli, że oznaczanie dźwięków szczekania chihuahua i labradora jako konkretnego typu psa jest lepsze niż po prostu oznaczanie go jako „szczekanie psa”. Meta twierdzi, że to samo dotyczy wzorców mowy, takich jak akcenty i dialekty regionalne.

Rzecznik Meta odmówił udzielenia dalszych komentarzy.

Podobnie jak Google, Microsoft i Amazon, Meta zainwestowała znaczne środki w sztuczną inteligencję. Na początku tego miesiąca Meta ogłosiła ponad 20 nowych funkcji opartych na sztucznej inteligencji, które pojawią się na jej platformach, w tym na Facebooku, Instagramie i WhatsApp.

Jako zwolennik odpowiedzialnego rozwoju sztucznej inteligencji, Meta niedawno nawiązała współpracę z IBM w celu uruchomienia AI Alliance, konsorcjum ponad 50 firm, uniwersytetów i ośrodków analitycznych zajmujących się innowacjami i rozwojem sztucznej inteligencji typu open source.

„AI Alliance skupia naukowców, programistów i firmy, aby dzielić się narzędziami i wiedzą, które mogą pomóc nam wszystkim w osiągnięciu postępu, niezależnie od tego, czy modele są udostępniane otwarcie, czy nie” – powiedział Nick Clegg, prezes Meta ds. globalnych. „Z niecierpliwością czekamy na współpracę z partnerami, aby rozwijać najnowocześniejszą sztuczną inteligencję i pomóc wszystkim budować odpowiedzialnie.”

Rozsądna decyzja: Meta wprowadza Audiobox oparty na sztucznej inteligencji

Założyciel gry Pixels twierdzi, że token PIXEL nie zostanie wydany z „niespodzianką”.

Twój niestandardowy GPT może zostać oszukany, aby oddać Twoje dane

Related Posts

Leave a Comment Cancel Reply