Home » Une décision judicieuse : Meta déploie Audiobox, une plateforme alimentée par l’IA

Une décision judicieuse : Meta déploie Audiobox, une plateforme alimentée par l’IA

by Thomas

La société mère de Facebook, Meta, a publié lundi la première démo de sa nouvelle plateforme de génération audio alimentée par l’IA, Audiobox. Le géant des médias sociaux a déclaré qu’Audiobox permettait aux utilisateurs de créer des voix et des effets sonores personnalisés à l’aide d’entrées vocales et d’invites.

Selon Meta, Audiobox s’appuie sur la technologie développée pour sa plateforme Voicebox introduite au début de l’année, mais elle surpasse Voicebox en termes de qualité et inclut un filigrane automatique pour une « utilisation responsable ».

« Audiobox, le successeur de Voicebox, fait progresser l’IA générative pour l’audio en unifiant les capacités de génération et d’édition pour la parole, les effets sonores (sons courts et discrets comme l’aboiement d’un chien, le klaxon d’une voiture, un coup de tonnerre, etc.) et les paysages sonores, avec une variété de mécanismes d’entrée pour maximiser la contrôlabilité pour chaque cas d’utilisation », a déclaré l’équipe Audiobox de Meta.

L’équipe a expliqué qu’Audiobox utilise des « solveurs sur mesure », ce qui, selon elle, rend le processus de génération 25 fois plus rapide que les modèles précédents, sans perte de performance.

En juin, Meta a annoncé Voicebox, un outil d’IA générative qui, selon Meta, peut produire des sons en six langues, dont l’anglais, le français, l’allemand, l’espagnol, le polonais et le portugais, et se rapprocher de la façon dont les gens parlent naturellement dans le monde réel.

Face aux inquiétudes suscitées par les « deepfakes » alimentés par l’IA, Meta a déclaré qu’elle ne mettrait pas la Voicebox à la disposition du public, reconnaissant ainsi le risque d’utilisation abusive. Pour lutter contre les abus avec l’Audiobox, Meta a inclus un filigrane.

« Les progrès récents en matière de qualité et de fidélité du modèle génératif audio ont donné naissance à de nouvelles applications et à de nouveaux cas d’utilisation du modèle. Toutefois, dans le même temps, de nombreuses personnes (…) s’inquiètent des risques d’utilisation abusive », a déclaré l’équipe d’Audiobox dans son rapport. « Par conséquent, la capacité de reconnaître si l’audio est généré ou réel est cruciale pour empêcher l’utilisation abusive de la technologie et permettre à certaines plateformes de se conformer à leur politique.

« Le modèle Audiobox et notre démo interactive sont tous deux dotés d’un filigrane audio automatique, de sorte que tout son créé avec Audiobox peut être tracé avec précision jusqu’à son origine », a déclaré M. Meta. « Notre méthode de filigrane incorpore un signal dans l’audio qui est imperceptible à l’oreille humaine mais qui peut être détecté jusqu’au niveau de l’image à l’aide d’un modèle capable de trouver des segments générés par l’IA dans [l’]audio. « 

« Nous concevons des messages-guides basés sur la description et sur l’exemple pour améliorer la contrôlabilité et unifier les paradigmes de génération de la parole et du son », a déclaré l’équipe. « Nous permettons à la transcription, à la voix et à d’autres styles audio d’être contrôlés indépendamment lors de la génération de la parole.

Bien que cela puisse être plus rapide, Meta reconnaît que les modèles d’IA audio-générative comme Audiobox sont limités par la quantité de données de formation – dans ce cas, les sons – étiquetées et introduites dans le modèle d’IA, soulignant l’importance d’étiqueter correctement les données.

Par exemple, selon les chercheurs, il est préférable d’étiqueter les sons d’un chihuahua et d’un labrador aboyant comme le type de chien spécifique plutôt que de les étiqueter simplement comme des « aboiements de chiens ». Meta affirme qu’il en va de même pour les modèles de discours tels que les accents et les dialectes régionaux.

Un porte-parole de Meta s’est refusé à tout autre commentaire.

À l’instar de Google, Microsoft et Amazon, Meta a beaucoup investi dans l’intelligence artificielle. Au début du mois, Meta a annoncé l’arrivée de plus de 20 nouvelles fonctionnalités basées sur l’IA dans sa suite de plateformes, notamment Facebook, Instagram et WhatsApp.

Partisan d’un développement responsable de l’IA, Meta s’est récemment associé à IBM pour lancer l’AI Alliance, un consortium de plus de 50 entreprises, universités et groupes de réflexion axé sur l’innovation et le développement de l’IA en open-source.

« L’AI Alliance rassemble des chercheurs, des développeurs et des entreprises pour partager des outils et des connaissances qui peuvent nous aider à progresser, que les modèles soient partagés ouvertement ou non », a déclaré Nick Clegg, président des affaires mondiales de Meta. « Nous sommes impatients de travailler avec nos partenaires pour faire progresser l’état de l’art en matière d’IA et aider tout le monde à construire de manière responsable. « 

Related Posts

Leave a Comment