La reconnaissance vocale réellement au niveau de l'humain

Une nouvelle fois, Microsoft Research revendique une étape importante vers la parité entre un système de reconnaissance vocale et l'humain. Autrement dit, une technologie capable de reconnaître les mots dans une conversation, aussi bien qu'un transcripteur professionnel du genre humain.

L'année dernière, Microsoft avait déjà évoqué cette parité avec un système de transcription ayant atteint un taux d'erreur de 5,9 % pour une conversation humaine. Ce taux d'erreur a désormais été abaissé à 5,1 %, soit une parité réelle avec l'être humain.

C'est le corpus Switchboard qui fait foi. Il regroupe une collection de conversations téléphoniques entre deux adultes ne se connaissant pas et autour de sujets comme la politique, le sport.

Les chercheurs ont appliqué une série d'améliorations, dont au niveau de la modélisation acoustique en s'appuyant pour l'apprentissage automatique sur un " réseau de neurones à convolution " associé à une architecture bidirectionnelle de mémoire à court terme.

Ils soulignent également avoir renforcé le modèle de reconnaissance vocale en utilisant l'historique complet d'une conversation, afin que le modèle s'adapte à son contexte et prédise les prochains mots et phrases.

En tirant aussi parti de technologies de deep learning, IBM avait indiqué en mars dernier avoir obtenu un taux d'erreur de 5,5 % sur le corpus Switchboard, et un objectif ultérieur de 5,1 %. Avec un autre corpus de conversations CallHome, le taux d'erreur n'était pas aussi probant en comparaison avec la performance humaine.

Repeat that? Wait, no need! #IBM sets speech rec first (5.5%), decreasing error gap, now closer to human parity https://t.co/0hw6P129un pic.twitter.com/yctVFXCAYL
— IBM Watson (@IBMWatson) 8 mars 2017

Pour faire jeu égal avec l'humain, Microsoft écrit qu'il y a encore " de nombreux défis à relever " comme par exemple la reconnaissance vocale dans des environnements bruyants, ou avec les différents types de langues. Et d'ajouter :

" Nous avons en outre beaucoup de travail à faire pour apprendre aux ordinateurs non seulement à transcrire les mots parlés, mais aussi pour comprendre leur sens et signification. Passer de la reconnaissance vocale à la compréhension est la prochaine grande frontière pour la technologie. "