La reconnaissance vocale réellement au niveau de l'humain

Le par Jérôme G.  |  6 commentaire(s)

Un système de reconnaissance vocale de Microsoft obtient une précision améliorée avec un taux d'erreur de même nature qu'un transcripteur professionnel… et humain.

Cortana

Une nouvelle fois, Microsoft Research revendique une étape importante vers la parité entre un système de reconnaissance vocale et l'humain. Autrement dit, une technologie capable de reconnaître les mots dans une conversation, aussi bien qu'un transcripteur professionnel du genre humain.

L'année dernière, Microsoft avait déjà évoqué cette parité avec un système de transcription ayant atteint un taux d'erreur de 5,9 % pour une conversation humaine. Ce taux d'erreur a désormais été abaissé à 5,1 %, soit une parité réelle avec l'être humain.

C'est le corpus Switchboard qui fait foi. Il regroupe une collection de conversations téléphoniques entre deux adultes ne se connaissant pas et autour de sujets comme la politique, le sport.

Les chercheurs ont appliqué une série d'améliorations, dont au niveau de la modélisation acoustique en s'appuyant pour l'apprentissage automatique sur un " réseau de neurones à convolution " associé à une architecture bidirectionnelle de mémoire à court terme.

Ils soulignent également avoir renforcé le modèle de reconnaissance vocale en utilisant l'historique complet d'une conversation, afin que le modèle s'adapte à son contexte et prédise les prochains mots et phrases.

En tirant aussi parti de technologies de deep learning, IBM avait indiqué en mars dernier avoir obtenu un taux d'erreur de 5,5 % sur le corpus Switchboard, et un objectif ultérieur de 5,1 %. Avec un autre corpus de conversations CallHome, le taux d'erreur n'était pas aussi probant en comparaison avec la performance humaine.

Pour faire jeu égal avec l'humain, Microsoft écrit qu'il y a encore " de nombreux défis à relever " comme par exemple la reconnaissance vocale dans des environnements bruyants, ou avec les différents types de langues. Et d'ajouter :

" Nous avons en outre beaucoup de travail à faire pour apprendre aux ordinateurs non seulement à transcrire les mots parlés, mais aussi pour comprendre leur sens et signification. Passer de la reconnaissance vocale à la compréhension est la prochaine grande frontière pour la technologie. "

  • Partager ce contenu :
Cette page peut contenir des liens affiliés. Si vous achetez un produit depuis ces liens, le site marchand nous reversera une commission sans que cela n'impacte en rien le montant de votre achat. En savoir plus.
Complément d'information

Vos commentaires

Trier par : date / pertinence
mart666 offline Hors ligne VIP icone 12711 points
Le #1977093
C'est bien ! Mais il faudrait plus d'éducation à Cortana... Elle comprends super bien "Hé Cortana Éteinds l'ordinateur" mais elle refuse toujours de le faire...
LinuxUser offline Hors ligne VIP icone 17616 points
Le #1977094
5% c'est beaucoup de trouve (pour les humains).
Les conversations cest du type "chti vs marseillais" ou "texan vs new yorkais" non ?
lebonga offline Hors ligne VIP avatar 34018 points
Le #1977102
LinuxUser a écrit :

5% c'est beaucoup de trouve (pour les humains).
Les conversations cest du type "chti vs marseillais" ou "texan vs new yorkais" non ?


Clair que dès qu'il y a un accent particulier ou un défaut de prononciation, le taux de reconnaissance chute...
Misstigry offline Hors ligne VIP icone 5513 points
Le #1977115

Pendant ce temps là , on attend toujours Cortana sur android en France
Anonyme
Le #1977148
mart666 a écrit :

C'est bien ! Mais il faudrait plus d'éducation à Cortana... Elle comprends super bien "Hé Cortana Éteinds l'ordinateur" mais elle refuse toujours de le faire...


Le but c'est pas de t'aider, c'est de prendre ton empreinte vocale !
Anonyme
Le #1977149
La méthode kwé, …
C'est vraiment efficace ça ? Qu'en pense le nasdac sur microsoft aujourd'hui ?
Ça bande ou ça débande ?
icone Suivre les commentaires
Poster un commentaire