
In un post pubblicato su uno di blog ufficiali di Google nello scorso mese di dicembre, l’azienda ha presentato un nuovo sistema di sintesi vocale che vanta un livello di somiglianza con le reali voci umane davvero impressionante.
La ricerca, almeno nell’ambito Google, risulta così importante che la stessa azienda crede di aver raggiunto una nuova pietra miliare nei tentativi, che vanno avanti da qualche decennio, di rendere la voce sintetizzata dei computer indistinguibile dalla voce umana.
Nonostante i passi da gigante in queste tecniche, una voce prodotta da un software TTS (text-to-speech), quella che si può sentire quando si fa una ricerca con Google con il proprio smartphone, tanto per fare un esempio, risulta ancora distinguibile da una reale voce umana, almeno per gli orecchi più attenti e più avvezzi a queste tecnologie.
Tacotron 2 è il nome della nuova tecnologia utilizzata da Google che incorpora due sistemi TTS precedenti, WaveNet e il primo Tacotron. Il livello di fedeltà raggiunto da questa “seconda versione” di Tacotron si è avvalsa di nuovi modelli ottimizzati che mappano una sequenza di lettere correlandole ad una sequenza di varie caratteristiche prima di codificare l’audio.
Queste caratteristiche Riescono a catturare non solo la pronuncia delle valore ma anche tutte quelle varie sottigliezze del parlato umano, come ad esempio l’intonazione, i cambiamenti di velocità o di volume continui, eccetera, che, almeno ad oggi, rendono distinguibili il parlato sintetizzato da quello reale.
La stessa Google ha distribuito anche alcuni sample, che potete farlo partire qui sotto, che vedono la presenza di diversi file audio in coppia, uno relativo ad una frase realmente pronunciata da una donna, e l’alro relativo ad una frase di un software con tecnologia TTS Tacotron 2. Come si può sentire gli audio risultano praticamente indistinguibili.
Fonti e approfondimenti
- Research Blog: Tacotron 2: Generating Human-like Speech from Text (IA)
- [1712.05884] Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions (IA)
- Autori ricerca: Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis, Yonghui Wu
- Crediti immagine: Jonathan Shen and Ruoming Pang