VALL-E van Microsoft kan elke menselijke stem in 3 seconden kopiëren

De technologiegigant Microsoft onlangs onthuld zijn gloednieuwe kunstmatige intelligentie (AI)-technologie.

Inhoudsopgave

Inhoudsopgave

VAL-E

Genoemd VAL-E, zo zou dit AI-model zijn in staat om de stemmen van mensen te analyseren en te repliceren door slechts een opname van 3 seconden van een bepaalde stem nodig te hebben om deze te imiteren. Wanneer een bepaalde stem succesvol is gesimuleerd, kan VALL-E de intonatie aanpassen aan de emotionele toon van die persoon.

De makers leggen uit dat de VALL-E is getraind met 60,000 uur Engelse spraak van meer dan 7,000 verschillende sprekers in een poging om menselijk klinkende spraak te produceren.

ADVERTENTIE

Kopieer elke stem in 3 seconden

Onderzoekers die VALL-E ontwikkelden, legden uit dat deze technologie gebruikt zou kunnen worden tekst-naar-spraaktoepassingen om stemmen te produceren op basis van voorbereide transcripties. De gebruiker hoeft dus alleen maar een script voor te bereiden met daarin alles wat hij wil overbrengen, zonder dat hij zijn stem handmatig hoeft op te nemen. Het wordt als zeer nuttig beschouwd voor activiteiten zoals het bewerken van toespraken en het maken van audio-inhoud.

VAL-E kan gevaarlijk zijn

Hoewel het potentieel voor kunstmatige intelligentie kan variëren, veel mensen maken zich zorgen over de negatieve impact die VAL-E mogelijk met zich mee zou kunnen brengen. VALL-E draagt het risico van misbruik met zich mee waardoor de gebruikers ervan gecriminaliseerd kunnen worden, bijvoorbeeld als de technologie wordt gebruikt om stemidentificatie te vervalsen of zich voor te doen als bepaalde sprekers.

Deze AI werd bijvoorbeeld gebruikt om de stem van een beroemd persoon na te bootsen die iets zei wat hij nog nooit had gezegd. Dit soort gevallen is aangetroffen bij deepfakes in videoformaat.

ADVERTENTIE

Bovendien is het bijna vergelijkbaar met Lens-AI, dat onlangs werd beschouwd als een schending van de kunstethiek, omdat men vreest dat het menselijke kunstenaars kan vervangen door digitale kunst te maken.

Muziekproducenten gebruiken het om de stemmen van zangers te kopiëren

VAL-E roept ook ethische vragen op, zoals wanneer AI wordt door muziekproductiebedrijven gebruikt om nieuwe nummers te zingen zonder toestemming van de zanger die de stem bezit.

Microsoft realiseert zich de zorgen en mogelijke risico's die de robot met zich mee kan brengen en publiceert als ontwikkelaar alleen de mogelijkheden en werking van het AI-model zonder de broncode te delen.

ADVERTENTIE

De onderzoekers van VALL-E zeggen dat ze zullen proberen een meetmechanisme te bouwen dat dergelijke risico’s kan voorkomen, zoals een methode die detecteer een audiofragment ontwikkeld door VALL-E of het originele geluid.

Wat is Microsoft VAL-E?

Het Microsoft VALL-E-model is ontworpen om natuurlijke taal te begrijpen.

Hoe werkt Microsoft VAL-E?

Om natuurlijke taal te begrijpen, gebruikt Microsoft VALL-E deep learning-technieken.

Wat zijn de mogelijkheden van Microsoft VAL-E?

Met behulp van natuurlijke taalinvoer kan Microsoft VALL-E tekstinvoer voltooien, vragen beantwoorden en op natuurlijke wijze converseren.

Wat zijn de toepassingen van Microsoft VAL-E?

Naast chatbots en taalgebaseerde interfaces kan Microsoft VALL-E ook worden gebruikt in klantenservicetoepassingen.

Is Microsoft VALL-E open source?

T5 en GPT-3 zijn andere Microsoft-taalmodellen die open source zijn. De beschikbaarheid van Microsoft VAL-E is mogelijk gewijzigd. U voert ze rechtstreeks uit of raadpleegt u de officiële Microsoft-website.