Reconnaissance vocale : IBM bat le record de Microsoft

Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

Actualités Reconnaissance vocale : IBM bat le record de Microsoft

Publié le 14 mars 2017 à 13:35 par Jérôme G.

Lire sur mobile

IBM fait mieux que Microsoft Research en matière de reconnaissance vocale. Pourtant, IBM ne revendique pas faire aussi bien qu'une personne humaine comme l'a fait Microsoft.

Fin 2016, Microsoft Research a mis en avant une percée en matière de reconnaissance vocale avec une technologie capable de reconnaître des mots dans une conversation aussi bien que le ferait une personne. Un taux d'erreurs de 5,9 %.

IBM trouve à redire à ce record. En exploitant également des technologies de deep learning, IBM indique avoir obtenu un taux d'erreurs de 5,5 %. Pour autant, c'est un taux de 5,1 % qui est visé à l'avenir. IBM estime que c'est ce seuil qui détermine réellement une parité avec l'être humain.

La mesure a impliqué une collection de conversations téléphoniques entre deux adultes qui ne se connaissent pas. Le corpus Switchboard. IBM explique avoir associé une architecture de réseaux de neurones récurrents et une technologie permettant de générer une voix artificielle avec trois modèles acoustiques dits forts.

Repeat that? Wait, no need! #IBM sets speech rec first (5.5%), decreasing error gap, now closer to human parity https://t.co/0hw6P129un pic.twitter.com/yctVFXCAYL
— IBM Watson (@IBMWatson) 8 mars 2017

Avec un autre corpus de conversations connu en tant que CallHome, le taux d'erreurs est par contre monté à 10,3 %. Cela reste un record mais la performance humaine dans des conditions similaires est évaluée à 6,8 %.

CallHome repose sur des conversations entre des membres d'une famille sur des sujets qui ne sont pas fixés à l'avance.