Home » Стартъп с изкуствен интелект вече може да генерира реч на 30 езика с помощта на гласа ви

Стартъп с изкуствен интелект вече може да генерира реч на 30 езика с помощта на гласа ви

by Thomas

Състезанието в областта на изкуствения интелект продължава да се ускорява, като почти ежедневно се появяват нови граници в клонирането на глас. Най-новото развитие идва от базирания в Сан Франциско стартъп ElevenLabs, който току-що обяви, че новият им модел на изкуствен интелект вече може да имитира гласове, говорещи свободно на 30 различни езика – драматично разширение спрямо първоначалните осем, които се поддържаха преди това.

Компанията използва за пример Lukeman Literary, литературна агенция и независим издател, като обясни, че компанията произвежда много аудиокниги всяка година на различни езици.

„Някога на екипа на Lukeman му отнемаше седмици, за да произведе една аудиокнига, защото трябваше да намери подходящия озвучител, да резервира звукозаписно студио, да запише и да управлява постпродукцията“, заяви ElevenLabs в официална публикация в блога си. „Сега целият процес отнема няколко часа“.

Според ElevenLabs новият многоезичен модел v2 осигурява „емоционално богат“ звук, който улавя нюансите на естествената реч. Потребителите въвеждат текста, който искат да бъде произнесен на целевия език, а изкуственият интелект генерира безпроблемно озвучаване.

Компанията предоставя две основни опции за клониране на глас: инструмент за преобразуване на текст в реч и „VoiceLab“ за клониране на специфични гласове.

Потребителите качват речеви образци, за да създадат персонализиран клонинг на глас, който ИИ анализира, за да изгради синтетична версия. След това този клониран глас може да бъде манипулиран, за да каже всичко, което си представите. ElevenLabs твърди, че последната актуализация означава, че тези двойници на ИИ вече могат да говорят свободно на езици като шведски, арабски и малайски.

Разширените езикови възможности съвпадат и с излизането на технологията за клониране на гласове от бета тестове. Компанията има за цел да предлага инструмента за практически приложения като разказване на аудиокниги, както в случая с Lukeman Literary.

Адресиране на опасения

Потенциалът за злоупотреба с технологията помрачава тези бизнес амбиции. Deepfake аудио оставя потребителите уязвими към измами и кампании за дезинформация. Самата компания ElevenLabs понесе отпор миналата година, когато платформата ѝ беше използвана за представянето и тормоза на публични личности.

Компанията твърди, че оттогава са въведени по-строги предпазни мерки, но етичните проблеми продължават да съществуват. Както наскоро съобщи TCN, „измамник може да използва изкуствен интелект, за да клонира гласа на ваш близък“, а за постигане на правдоподобни резултати са необходими само няколко минути аудиозапис.

Големи технологични фирми като Meta са изправени пред подобни критики за разработване на мощни генеративни ИИ без пълна прозрачност. Meta наскоро представи инструмент за синтез на реч с изкуствен интелект, наречен Voicebox, за който признава, че може лесно да улесни дълбоките фалшификации. За разлика от ElevenLabs, Meta се въздържа от публично оповестяване предвид „рисковете от злоупотреба“.

Въпреки опасенията обаче бързият напредък в областта на клонирането на глас с ИИ изглежда неудържим. Както заявява лингвистът Мати Станишевски от ElevenLabs: „В крайна сметка се надяваме да обхванем още повече езици и гласове с помощта на ИИ и да премахнем езиковите бариери пред съдържанието.“

Осигуряването на етично прилагане остава сериозно предизвикателство, тъй като границата между глобалната дезинформация и иновативните начини за комуникация е много тънка. Внимателното пристъпване е от ключово значение – за да не се превърне нашето глобално село от гласове в какофонична Вавилонска кула.

Related Posts

Leave a Comment