Home » ИИ-стартап теперь может генерировать речь на основе вашего голоса на 30 языках

ИИ-стартап теперь может генерировать речь на основе вашего голоса на 30 языках

by Tim

Гонка вооружений в области искусственного интеллекта продолжает ускоряться, и практически ежедневно появляются новые рубежи в клонировании речи. Последняя новинка принадлежит компании ElevenLabs из Сан-Франциско, которая только что объявила, что ее новая модель искусственного интеллекта теперь может имитировать речь на 30 различных языках, что значительно больше, чем восемь языков, которые поддерживались ранее.

В качестве примера компания привела литературное агентство Lukeman Literary, являющееся независимым издателем, и пояснила, что ежегодно выпускает множество аудиокниг на нескольких языках.

«Раньше на создание одной аудиокниги у команды Lukeman уходили недели, поскольку требовалось найти подходящего исполнителя, заказать студию звукозаписи, записать и управлять постпродакшеном», — говорится в официальном блоге ElevenLabs. «Теперь весь процесс занимает несколько часов».

По словам представителей ElevenLabs, новая модель Multilingual v2 обеспечивает «эмоционально насыщенный» звук, передающий нюансы естественной речи. Пользователь набирает текст, который он хочет произнести на целевом языке, а искусственный интеллект генерирует бесшовный закадровый голос.

Компания предлагает два основных варианта клонирования голоса: инструмент преобразования текста в речь и «VoiceLab» для клонирования конкретных голосов.

Пользователи загружают образцы речи для создания пользовательского клона голоса, который анализируется искусственным интеллектом для создания синтетической версии. Этот клонированный голос можно использовать для произнесения любых слов, которые только можно себе представить. По утверждению ElevenLabs, благодаря последнему обновлению эти двойники ИИ теперь могут свободно говорить на таких языках, как шведский, арабский и малайский.

Расширение лингвистических возможностей также связано с тем, что ElevenLabs выводит свою технологию клонирования голоса из стадии бета-тестирования. Компания намерена вывести свой инструмент на рынок для практического применения, например, для озвучивания аудиокниг, как в случае с Lukeman Literary.

Устранение проблем

Потенциал нецелевого использования технологии омрачает эти деловые амбиции. Deepfake audio делает пользователей уязвимыми для мошенничества и кампаний по дезинформации. Сама компания ElevenLabs в прошлом году столкнулась с негативной реакцией, когда ее платформа использовалась для выдачи себя за общественных деятелей и преследования их.

Компания утверждает, что с тех пор были приняты более строгие меры защиты, однако этические проблемы сохраняются. Как недавно сообщило издание TCN, «мошенник может использовать искусственный интеллект для клонирования голоса вашего близкого человека», и для достижения правдоподобных результатов ему потребуется всего пара минут аудиозаписи.

Крупные технологические компании, такие как Meta, подвергаются аналогичной критике за разработку мощного генеративного ИИ без полной прозрачности. Недавно компания Meta представила инструмент синтеза речи под названием Voicebox, который, по ее признанию, может легко способствовать созданию глубоких подделок. В отличие от ElevenLabs, Meta воздержалась от публичной публикации, сославшись на «риск неправильного использования».

Однако, несмотря на опасения, быстрый прогресс в области клонирования голоса ИИ, похоже, уже не остановить. Как заявил лингвист Мати Станишевски из ElevenLabs, «в конечном итоге мы надеемся охватить с помощью ИИ еще больше языков и голосов и устранить лингвистические барьеры на пути к контенту».

Обеспечение этичности внедрения остается сложной задачей, поскольку грань между глобальной дезинформацией и инновационными способами коммуникации очень тонка. Необходимо соблюдать осторожность, чтобы наша глобальная деревня голосов не превратилась в какофоническую Вавилонскую башню.

Related Posts

Leave a Comment