VALL-E
Se ti piace l'articolo, condividilo

VALL-E
la nuova IA di Microsoft
che può imitare la voce umana.
Basta una clip di 3 secondi

La scorsa settimana i ricercatori Microsoft hanno annunciato VALL-E: si tratta di un nuovo modello di intelligenza artificiale rivolto alla sintesi vocale che è capace di simulare molto accuratamente la voce di una persona dopo aver ascoltato un campione audio di appena tre secondi.
In questo modo VALL-E può apprendere una voce e sintetizzarla così da pronunciare qualsiasi cosa “text-to-speech” in maniera tale da preservare le caratteristiche, le inflessioni e il tono emotivo di chi parla.

La società di Redmond definisce VALL-E come un “modello di linguaggio codec naturale”, basato su una tecnologia chiamata EnCodec che Meta aveva annunciato lo scorso anno ad ottobre.
VALL-E si differenzia da altri metodi di sintesi vocale poiché invece di sintetizzare il parlato manipolando le forme d’onda, si occupa invece di generare codici di codec audio discreti da messaggi di testo e audio.
In altri termini VALL-E analizza come “suona” una persona e suddivide queste informazioni in componenti discreti grazie a EnCodec.

Oltre a conservare il timbro vocale e il tono emotivo di un oratore, VALL-E è anche in grado di imitare l’ambiente acustico dell’audio campione. Per esempio se la clip proviene da una telefonata, la resa dell’audio sintetizzato simulerà le caratteristiche acustiche proprie di una conversazione telefonica, così come i riverberi e gli echi di discorsi tenuti in sale conferenze.

I ricercatori Microsoft ipotizzano che VALL-E possa essere utilizzato per applicazioni di sintesi vocale di alta qualità come l’editing vocale in cui una registrazione necessita modifiche provenienti da una trascrizione di testo, o ancora la creazione di contenuti audio anche in combinazione con altri modelli di intelligenza artificiale generativa come GPT-3.

In ogni caso, a fronte di un facilmente immaginabile rovescio della medaglia costituito dalla possibilità di alimentare disinformazione e mistificazione, Microsoft non ha reso pubblico il codice di VALL-E per la sperimentazione.

Pericolo sociale?

Consci del pericolo sociale che una risorsa come VALL-E può rappresentare, i ricercatori concludono:

“Poiché VALL-E potrebbe sintetizzare un discorso mantenendo l’identità del parlante, potrebbe comportare potenziali rischi nell’uso improprio del modello, come lo spoofing dell’identificazione vocale o l’impersonificazione di un oratore specifico.
Per mitigare tali rischi, è possibile costruire un modello di rilevamento per discriminare se una clip audio è stata sintetizzata da VALL-E.
Metteremo in pratica anche i principi di intelligenza artificiale di Microsoft durante l’ulteriore sviluppo dei modelli”.

Il confronto di “Ground Truth” con “VALL-E” mostra che in molti casi la voce sintetizzata è molto simile (seppur non propriamente identica) a quella dell’oratore, ma che in generale molti dei campioni generati dall’AI sembrano del tutto parlati reali, che è poi lo scopo ultimo dello sviluppo di questa IA.

FONTE: hwupgrade.it

VALL-E