多くのAI企業が、この技術を使って動画を強化したり、あるいは作成したりする方法を見つけようと競争している一方で、リセンブルAIは音声の忠実性に焦点を当てている。このスタートアップは、リアルな人間のようなナレーションを作成するために企業向けのAI音声ジェネレーターも提供しているが、過去の音声の品質を大幅にアップグレードするために設計されたオープンソースのツール「Resemble Enhance」を発表した。
この新サービスは、長い間失われた歴史的なスピーチの歪んだ、ぼんやりとした録音を、AIを適用して昨日録音された、あるいは放送されたようにすることができる。
カナダのリセンブル・エンハンス社によると、リセンブル・エンハンス社の特徴はデュアル・モジュールのアプローチにあり、バックグラウンドの静的なハムやヒスを除去する高度なノイズ除去装置と、AIを搭載したスピーチ・エンハンサーを組み合わせている。この組み合わせは、不要なノイズを除去するだけでなく、音声全体の品質を向上させる。
️本日、当社の最新AI搭載モデルであるResemble Enhanceをご紹介します!Enhanceは、ノイズの多い音声を注目すべき音声に変換するオープンソースの音声強調モデルです!
技術ブログを読む: https://t.co/RCp4xi4GqRAIVOICE podcasting audioengineer pic. twitter.com/kfdGmKlSgB
– Resemble AI (@resembleai) 2023年12月14日
市場には他にも音声復元製品がありますが、リセンブルの技術の組み合わせは、差別化要因になり得ます。
どのように機能するのですか?
リセンブルAIノイズ除去機能は、録音に現れる異なるタイプの音を分離するのに役立つAIモデル、UNetを使用する。UNetは、音声トラックから不要なノイズをフィルタリングし、音声のみに焦点を絞ることに優れています。
UNetがその役割を果たすと、エンハンサー・モジュールが作動し、オーディオ帯域幅を広げ、歪みを補正する。この二重機能により、最終的な出力はノイズがないだけでなく、現代的な録音の豊かさを持つようになると同社は言う。
オープンソースのツールであるリセンブル・エンハンスには無料でアクセスでき、従来高価であったメディア修復サービス市場において、魅力的なオプションである。リセンブル・エンハンスの主な恩恵は、ポッドキャスティング、エンターテイメント、教育など、クリアな音質に依存する業界です。さらに、このツールは歴史的な録音に新たな息吹を与え、過去に対するより明確な洞察を提供する可能性があります
。
このツールのリリースは、高品質なデジタルコンテンツへの需要がかつてないほど高まっているときに実現した。一方、リセンブル・エンハンスメントのオープンソースという性質は、現在、高コストのプロプライエタリ・ソリューションが支配的な市場において、破壊的な力を発揮する可能性を秘めている。
オーディオとビデオのエンハンスメントにおけるAIの融合は、より包括的なメディア修復ソリューションへの道を開くでしょう。
このツールを、GPENや有名なGFPGanのように、生成AIや他のモデルを使用して画像や顔のアップスケールや強調を行う他のビデオエンハンサーと組み合わせることで、ユーザーは最小限の投資で、自分のコンピュータでプロフェッショナルな結果を得ることができます。
リセンブル・エンハンスを試すには、ユーザーはリセンブルAIの公式ウェブサイトを訪問するか、プロジェクトの公式Githubページからモデルをダウンロードすることができます。