Microsofts VALL-E kann jede menschliche Stimme in 3 Sekunden kopieren

Der Technologieriese Microsoft kürzlich enthüllt seine brandneue Technologie der künstlichen Intelligenz (KI).

SENKE

Namens SENKE, soll dieses KI-Modell sein ist in der Lage, die Stimmen von Menschen zu analysieren und zu reproduzieren, indem nur eine 3-sekündige Aufnahme einer bestimmten Stimme benötigt wird, um sie zu imitieren. Wenn eine bestimmte Stimme erfolgreich simuliert wurde, kann VALL-E die Intonation an den emotionalen Ton dieser Person anpassen.

Seine Entwickler erklären, dass das VALL-E mit 60,000 Stunden englischer Sprache von über 7,000 verschiedenen Sprechern trainiert wurde, um eine menschlich klingende Sprache zu erzeugen.

Kopieren Sie jede Stimme in 3 Sekunden

Forscher, die VALL-E entwickelt haben, erklärten, dass diese Technologie in eingesetzt werden könnte Text-to-Speech-Anwendungen zur Erzeugung von Stimmen auf der Grundlage vorbereiteter Transkripte. Der Benutzer muss also lediglich ein Skript vorbereiten, das alles enthält, was er vermitteln möchte, ohne seine Stimme manuell aufnehmen zu müssen. Es wird als sehr hilfreich für Aktivitäten wie das Bearbeiten von Reden und das Erstellen von Audioinhalten angesehen.

VALL-E kann gefährlich sein

Obwohl das Potenzial für künstliche Intelligenz Viele Menschen sind jedoch besorgt über die negativen Auswirkungen, die VALL-E möglicherweise mit sich bringen könnte. VALL-E birgt das Risiko eines Missbrauchs, der seine Nutzer kriminalisieren könnte, etwa wenn die Technologie dazu verwendet wird, eine Stimmerkennung vorzutäuschen oder sich als bestimmte Sprecher auszugeben.

Diese KI wurde beispielsweise verwendet, um die Stimme einer berühmten Person zu fälschen, die etwas sagte, was sie nie gesagt hatte. Ein solcher Fall wurde bei Deepfakes im Videoformat gefunden.

Darüber hinaus ist es fast ähnlich Linsen-KI, was kürzlich als Verstoß gegen die Kunstethik angesehen wurde, weil befürchtet wurde, dass es menschliche Künstler durch die Schaffung digitaler Kunst ersetzen könnte.

Musikproduzenten kopieren damit die Stimmen von Sängern

VALL-E wirft auch ethische Fragen auf, etwa wann KI wird von Musikproduktionsfirmen eingesetzt, um neue Lieder ohne Zustimmung des Sängers, der die Stimme besitzt, zu singen.

Microsoft ist sich der Bedenken und möglichen Risiken bewusst, die der Roboter mit sich bringen könnte, und veröffentlicht als Entwickler nur die Fähigkeiten und Funktionsweisen des KI-Modells, ohne den Quellcode weiterzugeben.

Die Forscher von VALL-E sagen, dass sie versuchen werden, einen Messmechanismus zu entwickeln, der solche Risiken verhindern kann, beispielsweise eine Methode, die dies kann Erkennen Sie einen von VALL-E entwickelten Audioclip oder der Originalton.


Was ist Microsoft VALL-E?

Das Microsoft VALL-E-Modell ist darauf ausgelegt, natürliche Sprache zu verstehen.

Wie funktioniert Microsoft VALL-E?

Um natürliche Sprache zu verstehen, nutzt Microsoft VALL-E Deep-Learning-Techniken.

Welche Funktionen bietet Microsoft VALL-E?

Mithilfe natürlicher Spracheingabe kann Microsoft VALL-E Texteingaben vervollständigen, Fragen beantworten und sich auf natürliche Weise unterhalten.

Welche Anwendungen gibt es von Microsoft VALL-E?

Neben Chatbots und sprachbasierten Schnittstellen kann Microsoft VALL-E auch in Kundendienstanwendungen eingesetzt werden.

Ist Microsoft VALL-E Open-Source?

T5 und GPT-3 sind weitere Open-Source-Sprachmodelle von Microsoft. Die Verfügbarkeit von Microsoft VALL-E hat sich möglicherweise geändert. Sie handeln direkt oder schauen auf der offiziellen Microsoft-Website nach.

Beenden Sie die mobile Version