KI-Modell «RealTalk» imitiert Sprecher perfekt

Die Künstliche Intelligenz (KI) «RealTalk» des US-Unternehmens ahmt Stimmen Prominenter realitätsgetreu nach. Das KI-Modell hat nun die Stimme des US-Podcast-Produzenten Joseph Rogan nahezu perfekt imitiert.

KI Stimme

«Klarerweise sind die sozialen Auswirkungen von Technologien der Sprachsynthese enorm», so die Entwickler. User können auf der Webseite an einem Quiz teilnehmen, um zu sehen, ob sie den Unterschied zwischen der Fake-Stimme und dem echten Joe Rogan erkennen.

Nur Fotos und Videos

«Im Bereich von Fotos und Videos sind wir schon so weit, dass Manipulationen kaum mehr nachgewiesen werden können. Die Stimme ist nur ein weiterer Schritt in diese Richtung, der neben positiven Anwendungen auch missbraucht werden könnte», schildert Werner Purgathofer von der TU Wien aus dem Forschungsbereich Visual Computing & Human-Centered Technology im Gespräch mit der Nachrichtenagentur Pressetext. Selbst Medien fiele es dann schwer, festzustellen, was original und was gefälscht sei.

Trotz der Risiken betonen die RealTalk-Hersteller die positiven Aspekte derartiger Entwicklungen. Dazu gehören realistischere KI-Assistenten, schnellere und präzisere Synchronisation für TV und Film sowie eine personalisierte Unterstützung für Personen mit Sprachstörungen. In Bezug auf detaillierte Informationen zur Technologie hält sich das Unternehmen bedeckt. Man wolle die Forschung nicht veröffentlichen, um potenziellen Missbrauch zu verhindern. 

Kurz vor Durchbruch

«Im Moment sind technisches Fachwissen, Rechenleistung sowie Daten erforderlich, damit Modelle wie RealTalk gut funktionieren», sagt das Unternehmen. «In den kommenden Jahren werden wir sehen, dass die Technologie so weit voranschreitet, dass nur noch wenige Sekunden Audio-Material benötigt werden, um eine naturgetreue Nachbildung der Stimme eines jeden zu erstellen», fügen die Entwickler hinzu. (pte)