Le VALL-E de Microsoft peut copier n'importe quelle voix humaine en 3 secondes

Le géant de la technologie Microsoft dévoilé récemment sa toute nouvelle technologie d’intelligence artificielle (IA).

VALLÉE

Nommé VALLÉE, ce modèle d'IA serait capable d'analyser et de reproduire les voix des gens en n'ayant besoin que d'un enregistrement de 3 secondes d'une certaine voix pour l'imiter. Lorsqu'une certaine voix a été simulée avec succès, VALL-E peut modifier l'intonation en fonction du ton émotionnel de cette personne.

Ses créateurs expliquent que le VALL-E a été formé avec 60,000 7,000 heures de discours en anglais provenant de plus de XNUMX XNUMX locuteurs différents dans le but de lui permettre de produire un discours à consonance humaine.

Copiez n'importe quelle voix en 3 secondes

Les chercheurs qui ont développé VALL-E ont expliqué que cette technologie pourrait être utilisée dans applications de synthèse vocale pour produire des voix basées sur des transcriptions préparées. Ainsi, son utilisateur n'a qu'à préparer un script contenant ce qu'il souhaite transmettre sans avoir à enregistrer sa voix manuellement. Il est considéré comme très utile pour des activités telles que l'édition de discours et la création de contenu audio.

VALL-E peut être dangereux

Bien que le potentiel de intelligence artificielle peut varier, de nombreuses personnes s'inquiètent de l'impact négatif que VALL-E pourrait éventuellement avoir. VALL-E comporte un risque d'abus qui pourrait criminaliser ses utilisateurs, par exemple si la technologie est utilisée pour falsifier l'identification vocale ou usurper l'identité de certains locuteurs.

Par exemple, cette IA a été utilisée pour simuler la voix d’une personne célèbre disant quelque chose qu’elle n’avait jamais dit. Ce type de cas a été retrouvé dans des deepfakes au format vidéo.

De plus, c’est presque similaire à Lensa IA, qui a récemment été considéré comme violant l’éthique de l’art car on craint qu’il puisse remplacer les artistes humains en créant de l’art numérique.

Les producteurs de musique l'utilisent pour copier les voix des chanteurs

VALL-E soulève également des questions éthiques, comme par exemple quand L'IA est utilisée par les sociétés de production musicale pour chanter de nouvelles chansons sans le consentement du chanteur propriétaire de la voix..

Conscient des inquiétudes et des risques possibles que pourrait poser le robot, Microsoft, en tant que développeur, publie uniquement les capacités et le fonctionnement du modèle d'IA sans partager le code source.

Les chercheurs de VALL-E affirment qu'ils tenteront de construire un mécanisme de mesure capable de prévenir de tels risques, comme une méthode capable de détecter un clip audio conçu par VALL-E ou le son original.


Qu’est-ce que Microsoft VALL-E ?

Le modèle Microsoft VALL-E est conçu pour comprendre le langage naturel.

Comment fonctionne Microsoft VALL-E ?

Afin de comprendre le langage naturel, Microsoft VALL-E utilise des techniques d'apprentissage profond.

Quelles sont les capacités de Microsoft VALL-E ?

Grâce à la saisie en langage naturel, Microsoft VALL-E peut compléter des entrées de texte, répondre à des questions et converser naturellement.

Quelles sont les applications de Microsoft VALL-E ?

Outre les chatbots et les interfaces linguistiques, Microsoft VALL-E peut également être utilisé dans les applications de service client.

Microsoft VALL-E est-il open source ?

T5 et GPT-3 sont d'autres modèles de langage Microsoft open source. La disponibilité de Microsoft VALL-E peut avoir changé. Vous les agissez directement ou consultez le site officiel de Microsoft.

Quitter la version mobile