Fin 2016, Microsoft Research a mis en avant une percée en matière de reconnaissance vocale avec une technologie capable de reconnaître des mots dans une conversation aussi bien que le ferait une personne. Un taux d'erreurs de 5,9 %.

IBM trouve à redire à ce record. En exploitant également des technologies de deep learning, IBM indique avoir obtenu un taux d'erreurs de 5,5 %. Pour autant, c'est un taux de 5,1 % qui est visé à l'avenir. IBM estime que c'est ce seuil qui détermine réellement une parité avec l'être humain.

La mesure a impliqué une collection de conversations téléphoniques entre deux adultes qui ne se connaissent pas. Le corpus Switchboard. IBM explique avoir associé une architecture de réseaux de neurones récurrents et une technologie permettant de générer une voix artificielle avec trois modèles acoustiques dits forts.

Avec un autre corpus de conversations connu en tant que CallHome, le taux d'erreurs est par contre monté à 10,3 %. Cela reste un record mais la performance humaine dans des conditions similaires est évaluée à 6,8 %.

CallHome repose sur des conversations entre des membres d'une famille sur des sujets qui ne sont pas fixés à l'avance.