WaveNet : L’intelligence artificielle prend la parole

WaveNet

Google a  présenté WaveNet, un nouveau système visant à améliorer les transcriptions de textes dans le but de les « humaniser » et de les rendre plus naturelles.

 

Faisant écho à notre article sur la recherche vocale sur les smartphones utilisant Siri ou Cortana, Google annonce un nouveau procédé de synthétisation vocale….

Après s’être frotté à la vision artificielle, Google se penche désormais sur une autre facette de l’intelligence artificielle : la transcription des textes en paroles. Les procédés utilisés actuellement, notamment ceux embarqués au sein des outils d’accessibilité, tels que Siri ou Cortana sonnent encore très « robotiques ». Google continue de miser sur le machine learning. Deepmind, une de ses filiales  à présenté au grand public le résultat de plusieurs années de recherche dans le domaine de la synthèse vocale.wavenet-voix-humaine-google

Ce nouveau programme appelé WaveNet promet des voix générées bien plus convaincantes que celles réalisées via des méthodes traditionnelles. Ces derniers reposent sur l’enregistrement de personnes avec une combinaison de mots basés sur la reconnaissance de textes. Il y a eu les travaux consistants à enchainer les mots mis bouts à bouts et ceux visant à synthétiser la diction.

Comme l’indique Google sur son site dédié à la technique WaveNet, les voix synthétisées s’appuient généralement sur deux procédés différents : mettre bout à bout au moins deux chaînes de caractères d’extraits sonores enregistrés ou l’utilisation d’un encodeur de voix afin de synthétiser artificiellement une voix humaine en variant les paramètres d’un signal sonore.

reseau-de-neurones-artificiels-cycorpGoogle a créé son projet WaveNet, lequel repose sur un réseau de neurones artificiels. Ce procédé est capable d’apprendre plus de 16 000 sons par seconde afin d’imiter au plus juste la diction et de générer par anticipation des modèles de sons à venir en fonction des précédents.

Le résultat est stupéfiant ! Une intonation plus naturelle, proche de celle d’un  être humain qui lirait les mêmes textes.

Voici ci-dessous en anglais les différences observées :

Parametric

 

WaveNet



Show Buttons
Hide Buttons