Home » Eine gute Entscheidung: Meta bringt KI-gesteuerte Audiobox auf den Markt

Eine gute Entscheidung: Meta bringt KI-gesteuerte Audiobox auf den Markt

by Tim

Die Facebook-Muttergesellschaft Meta hat am Montag die erste Demo für ihre neue KI-gestützte Audiogenerator-Plattform Audiobox veröffentlicht. Laut dem Social-Media-Riesen ermöglicht Audiobox den Nutzern, eigene Stimmen und Soundeffekte mithilfe von Spracheingaben und Aufforderungen zu erstellen.

Audiobox, so Meta, baut auf der Technologie auf, die für die Anfang des Jahres eingeführte Voicebox-Plattform entwickelt wurde, übertrifft Voicebox jedoch in der Qualität und enthält automatische Wasserzeichen für eine „verantwortungsvolle Nutzung“.

„Audiobox, der Nachfolger von Voicebox, treibt die generative KI für Audio noch weiter voran, indem es die Generierung und Bearbeitung von Sprache, Soundeffekten (kurze, diskrete Geräusche wie Hundebellen, Autohupen, Donnergrollen usw.) und Klanglandschaften mit einer Vielzahl von Eingabemechanismen vereint, um die Kontrollierbarkeit für jeden Anwendungsfall zu maximieren“, so das Audiobox-Team von Meta.

Audiobox, so das Team, verwendet „maßgeschneiderte Solver“, die den Generierungsprozess ohne Leistungseinbußen mehr als 25 Mal schneller machen als frühere Modelle.

Im Juni kündigte Meta Voicebox an, ein generatives KI-Tool, das laut Meta Audio in sechs Sprachen produzieren kann, darunter Englisch, Französisch, Deutsch, Spanisch, Polnisch und Portugiesisch, und zwar so, wie Menschen in der realen Welt sprechen.

Angesichts der damals aufkommenden Besorgnis über KI-gestützte Deepfakes gab Meta bekannt, dass es Voicebox nicht für die Öffentlichkeit freigeben würde, da die Gefahr eines Missbrauchs bestehe. Um den Missbrauch mit Audiobox zu bekämpfen, hat Meta ein Wasserzeichen eingebaut.

„Die jüngsten Fortschritte bei der Qualität und Wiedergabetreue des generativen Audiomodells haben neue Anwendungen und Anwendungsfälle für das Modell ermöglicht. Gleichzeitig gibt es jedoch viele Menschen, die sich Sorgen über die Risiken des Missbrauchs machen“, so das Audiobox-Team in seinem Bericht. „Daher ist die Fähigkeit, zu erkennen, welche Audiodaten generiert oder echt sind, von entscheidender Bedeutung, um den [Missbrauch] der Technologie zu verhindern und es bestimmten [Plattformen] zu ermöglichen, ihre Richtlinien einzuhalten.“

„Sowohl das Audiobox-Modell als auch unsere interaktive Demo verfügen über ein automatisches Audio-Wasserzeichen, so dass jedes mit Audiobox erstellte Audio genau zu seinem Ursprung zurückverfolgt werden kann“, so Meta. „Unsere Wasserzeichen-Methode bettet ein Signal in den Ton ein, das für das menschliche Ohr nicht wahrnehmbar ist, aber mit einem Modell, das in der Lage ist, KI-generierte Segmente in [dem] Ton zu finden, bis hinunter zur Frame-Ebene erkannt werden kann.

„Wir entwickeln beschreibungs- und beispielbasierte Eingabeaufforderungen, um die Kontrollierbarkeit zu verbessern und Sprach- und Klangerzeugungsparadigmen zu vereinheitlichen“, so das Team. „Wir ermöglichen es, dass Transkript, Gesang und andere Audiostile bei der Spracherzeugung unabhängig voneinander gesteuert werden können.“

Meta räumte ein, dass audiogenerative KI-Modelle wie Audiobox durch die Menge der Trainingsdaten – in diesem Fall Geräusche – begrenzt sind, die beschriftet und in das KI-Modell eingespeist werden, und betonte, wie wichtig eine korrekte Beschriftung der Daten ist.

Ein Beispiel: Die Forscher sagen, dass es besser ist, die Geräusche eines Chihuahuas und eines Labradors als den jeweiligen Hundetyp zu bezeichnen, als sie einfach als „Hundegebell“ zu bezeichnen. Das Gleiche gilt laut Meta für Sprachmuster wie Akzente und regionale Dialekte.

Ein Sprecher von Meta lehnte eine weitere Stellungnahme ab.

Wie Google, Microsoft und Amazon hat auch Meta stark in künstliche Intelligenz investiert. Anfang des Monats kündigte Meta über 20 neue KI-gestützte Funktionen für seine Plattformen an, darunter Facebook, Instagram und WhatsApp.

Als Befürworter einer verantwortungsvollen KI-Entwicklung hat Meta kürzlich gemeinsam mit IBM die AI Alliance ins Leben gerufen, ein Konsortium aus über 50 Unternehmen, Universitäten und Think Tanks, das sich auf Open-Source-KI-Innovation und -Entwicklung konzentriert.

„Die AI Alliance bringt Forscher, Entwickler und Unternehmen zusammen, um Werkzeuge und Wissen auszutauschen, die uns allen helfen können, Fortschritte zu machen, unabhängig davon, ob Modelle offen geteilt werden oder nicht“, sagte Nick Clegg, President of Global Affairs von Meta. „Wir freuen uns darauf, mit unseren Partnern zusammenzuarbeiten, um den Stand der Technik im Bereich der KI voranzutreiben und allen dabei zu helfen, verantwortungsvoll zu arbeiten.“

Related Posts

Leave a Comment