
In un post pubblicato su uno di blog ufficiali di Google nello scorso mese di dicembre, l’azienda ha presentato un nuovo sistema di sintesi vocale che vanta un livello di somiglianza con le reali voci umane davvero impressionante.
La ricerca, almeno nell’ambito Google, risulta così importante che la stessa azienda crede di aver raggiunto una nuova pietra miliare nei tentativi, che vanno avanti da qualche decennio, di rendere la voce sintetizzata dei computer indistinguibile dalla voce umana.
Nonostante i passi da gigante in queste tecniche, una voce prodotta da un software TTS (text-to-speech), quella che si può sentire quando si fa una ricerca con Google con il proprio smartphone, tanto per fare un esempio, risulta ancora distinguibile da una reale voce umana, almeno per gli orecchi più attenti e più avvezzi a queste tecnologie.
Tacotron 2 è il nome della nuova tecnologia utilizzata da Google che incorpora due sistemi TTS precedenti, WaveNet e il primo Tacotron. Il livello di fedeltà raggiunto da questa “seconda versione” di Tacotron si è avvalsa di nuovi modelli ottimizzati che mappano una sequenza di lettere correlandole ad una sequenza di varie caratteristiche prima di codificare l’audio.
Queste caratteristiche Riescono a catturare non solo la pronuncia delle valore ma anche tutte quelle varie sottigliezze del parlato umano, come ad esempio l’intonazione, i cambiamenti di velocità o di volume continui, eccetera, che, almeno ad oggi, rendono distinguibili il parlato sintetizzato da quello reale.
La stessa Google ha distribuito anche alcuni sample, che potete farlo partire qui sotto, che vedono la presenza di diversi file audio in coppia, uno relativo ad una frase realmente pronunciata da una donna, e l’alro relativo ad una frase di un software con tecnologia TTS Tacotron 2. Come si può sentire gli audio risultano praticamente indistinguibili.
Fonti e approfondimenti
- Research Blog: Tacotron 2: Generating Human-like Speech from Text (IA)
- [1712.05884] Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions (IA)
- Autori ricerca: Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis, Yonghui Wu
- Crediti immagine: Jonathan Shen and Ruoming Pang
Articoli correlati
- Segnali del cervello trasformati in voce sintetizzata con un nuovo dispositivo
- Baidu realizza software clonatore di voci utilizzando rete neurale
- Sistema che traduce i pensieri in parole sintetizzate al computer creato da ricercatori della Columbia
- Algoritmo imita voce di chiunque: è l’inizio di una nuova era per le fake news?
- Deepfake, compaiono le prime app su Google Play e sull’App Store
- Altri dettagli della nuova IA di Google che telefona per fare prenotazioni: ecco Duplex
- Terapia di coppia con intelligenza artificiale che analizza il tono di voce
- Macchine superano gli umani nella comprensione dei testi, è la prima volta
Questo blog non rappresenta una testata giornalistica in quanto viene aggiornato senza alcuna periodicità. Non può pertanto considerarsi un prodotto editoriale ai sensi della legge n° 62 del 7.03.2001.
L’autore del blog non è responsabile di altri siti collegati tramite link né del loro contenuto che può essere soggetto a variazioni nel tempo.
Questo sito usa i cookie per migliorare l'esperienza sul sito (Leggi di più)
notiziescientifiche.it partecipa al Programma Affiliazione Amazon EU, un programma di affiliazione che consente ai siti di percepire una commissione pubblicitaria pubblicizzando e fornendo link al sito Amazon.it