Home » KI-Startup kann jetzt mit Ihrer Stimme Sprache in 30 Sprachen generieren

KI-Startup kann jetzt mit Ihrer Stimme Sprache in 30 Sprachen generieren

by Tim

Das KI-Wettrüsten nimmt weiter an Fahrt auf, wobei fast täglich neue Grenzen beim Klonen von Stimmen auftauchen. Die jüngste Entwicklung stammt von dem in San Francisco ansässigen Startup ElevenLabs, das gerade bekannt gegeben hat, dass sein neues KI-Modell jetzt in der Lage ist, Stimmen zu imitieren, die in 30 verschiedenen Sprachen fließend sprechen – eine dramatische Erweiterung der ursprünglich acht Sprachen, die bisher unterstützt wurden…

Das Unternehmen führte Lukeman Literary, eine Literaturagentur und ein unabhängiger Verlag, als Beispiel an und erklärte, dass das Unternehmen jedes Jahr viele Hörbücher in mehreren Sprachen produziert.

„Früher brauchte das Team von Lukeman Wochen, um ein einziges Hörbuch zu produzieren, weil es den richtigen Sprecher finden, ein Aufnahmestudio buchen und die Postproduktion aufnehmen und verwalten musste“, so ElevenLabs in einem offiziellen Blogbeitrag. „Jetzt dauert der gesamte Prozess nur noch ein paar Stunden.“

Laut ElevenLabs liefert das neue Modell Multilingual v2 ein „emotionales“ Audio, das die Nuancen der natürlichen Sprache einfängt. Die Benutzer geben den Text ein, der in der Zielsprache gesprochen werden soll, und die KI erzeugt ein nahtloses Voiceover.

Das Unternehmen bietet zwei Hauptoptionen für das Klonen von Stimmen: ein Text-to-Speech-Tool und ein „VoiceLab“ für das Klonen spezifischer Stimmen.

Die Benutzer laden Sprachproben hoch, um einen benutzerdefinierten Stimmklon zu erstellen, der von der KI analysiert wird, um eine synthetische Version zu erstellen. Diese geklonte Stimme kann dann so manipuliert werden, dass sie alles nur Erdenkliche sagt. Nach Angaben von ElevenLabs können diese KI-Doppelgänger mit dem neuesten Update nun fließend in Sprachen wie Schwedisch, Arabisch und Malaiisch sprechen.

Die erweiterten sprachlichen Fähigkeiten fallen auch damit zusammen, dass ElevenLabs seine Technologie zum Klonen von Stimmen aus dem Betatest herausführt. Das Unternehmen beabsichtigt, das Tool für praktische Anwendungen wie das Erzählen von Hörbüchern zu vermarkten, wie im Fall von Lukeman Literary.

Bedenken ansprechen

Das Missbrauchspotenzial der Technologie trübt diese geschäftlichen Ambitionen. Deepfake-Audio macht die Nutzer anfällig für Betrug und Fehlinformationskampagnen. ElevenLabs selbst musste im vergangenen Jahr Kritik einstecken, als seine Plattform dazu missbraucht wurde, sich als eine Person des öffentlichen Lebens auszugeben und diese zu belästigen.

Das Unternehmen sagt, dass seither strengere Sicherheitsvorkehrungen getroffen wurden, aber die ethischen Bedenken bleiben bestehen. Wie TCN vor kurzem berichtete, könnte ein „Betrüger die KI nutzen, um die Stimme eines geliebten Menschen zu klonen“, und alles, was nötig wäre, um glaubwürdige Ergebnisse zu erzielen, sind ein paar Minuten Audio.

Große Technologieunternehmen wie Meta stehen in ähnlicher Weise in der Kritik, weil sie leistungsstarke generative KI ohne vollständige Transparenz entwickeln. Meta hat kürzlich ein KI-Sprachsynthesetool namens Voicebox vorgestellt, das nach eigenen Angaben leicht zu Fälschungen führen kann. Im Gegensatz zu ElevenLabs verzichtete Meta angesichts der „Risiken des Missbrauchs“ auf eine öffentliche Veröffentlichung.

Trotz dieser Befürchtungen scheint der rasche Fortschritt beim Klonen von KI-Stimmen unaufhaltsam zu sein. Wie der Linguist Mati Staniszewski von ElevenLabs erklärte, „hoffen wir, dass wir irgendwann noch mehr Sprachen und Stimmen mit Hilfe von KI abdecken und die sprachlichen Barrieren für Inhalte beseitigen können.“

Die Sicherstellung einer ethischen Umsetzung bleibt eine große Herausforderung, da der Grat zwischen globaler Fehlinformation und innovativen Kommunikationsmöglichkeiten sehr schmal ist. Vorsicht ist geboten, damit unser globales Dorf der Stimmen nicht zu einem kakophonischen Turm zu Babel wird

Related Posts

Leave a Comment