Deepmind n'en finit plus de développer son Intelligence artificielle dans divers domaines, et après le jeu de Go ou la réduction de l'énergie des Datacenters, c'est au tour de la synthèse vocale d'entrer dans le cadre des recherches de la filiale de Google.

Google a ainsi démontré que son IA était capable de produire des sons pour reproduire la voix humaine et réaliser des phrases sans l'aide de personne. Le logiciel baptisé WaveNet tire parti de l'IA de Deepmind.

WaveNet

La particularité du système est que contrairement à tout autre module de synthèse vocale comme les assistants Siri, ou Cortana que l'on connait, WaveNet ne se base pas sur des bibliothèques de mots préenregistrés. WaveNet génère des sons à partir de ce qu'il a entendu par le passé et il nécessite donc une forme d'apprentissage et profite ainsi d'une certaine forme d'expérience. Google explique ainsi que son IA n'a pas besoin de l'homme pour lui apporter des mots, mais pour lui apprendre comment parler.

En résulte une voix fluide et naturelle qui réussit à tromper son monde. Ces graphiques représentent comment des auditeurs ont classé les échantillons de voix qu'on leur a fait entendre en fonction de leur degré de "naturel".

L'avantage de WaveNet, c'est qu'il est possible pour l'IA de moduler sa voix, son intonation, son rythme, d'accentuer sa locution pour s'adapter au mieux à toutes les formes de langues. L'IA peut également à loisir changer de voix pour "incarner" plusieurs personnes complètement différentes en modifiant son timbre. En d'autres termes, WaveNet pourrait être l'imitateur parfait.

Source : Deepmind