La reconnaissance vocale réellement au niveau de l'humain

Le par  |  6 commentaire(s)
Cortana

Un système de reconnaissance vocale de Microsoft obtient une précision améliorée avec un taux d'erreur de même nature qu'un transcripteur professionnel… et humain.

Une nouvelle fois, Microsoft Research revendique une étape importante vers la parité entre un système de reconnaissance vocale et l'humain. Autrement dit, une technologie capable de reconnaître les mots dans une conversation, aussi bien qu'un transcripteur professionnel du genre humain.

L'année dernière, Microsoft avait déjà évoqué cette parité avec un système de transcription ayant atteint un taux d'erreur de 5,9 % pour une conversation humaine. Ce taux d'erreur a désormais été abaissé à 5,1 %, soit une parité réelle avec l'être humain.

C'est le corpus Switchboard qui fait foi. Il regroupe une collection de conversations téléphoniques entre deux adultes ne se connaissant pas et autour de sujets comme la politique, le sport.

Les chercheurs ont appliqué une série d'améliorations, dont au niveau de la modélisation acoustique en s'appuyant pour l'apprentissage automatique sur un " réseau de neurones à convolution " associé à une architecture bidirectionnelle de mémoire à court terme.

Ils soulignent également avoir renforcé le modèle de reconnaissance vocale en utilisant l'historique complet d'une conversation, afin que le modèle s'adapte à son contexte et prédise les prochains mots et phrases.

En tirant aussi parti de technologies de deep learning, IBM avait indiqué en mars dernier avoir obtenu un taux d'erreur de 5,5 % sur le corpus Switchboard, et un objectif ultérieur de 5,1 %. Avec un autre corpus de conversations CallHome, le taux d'erreur n'était pas aussi probant en comparaison avec la performance humaine.

Pour faire jeu égal avec l'humain, Microsoft écrit qu'il y a encore " de nombreux défis à relever " comme par exemple la reconnaissance vocale dans des environnements bruyants, ou avec les différents types de langues. Et d'ajouter :

" Nous avons en outre beaucoup de travail à faire pour apprendre aux ordinateurs non seulement à transcrire les mots parlés, mais aussi pour comprendre leur sens et signification. Passer de la reconnaissance vocale à la compréhension est la prochaine grande frontière pour la technologie. "

Complément d'information

Vos commentaires

Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Le #1977093
C'est bien ! Mais il faudrait plus d'éducation à Cortana... Elle comprends super bien "Hé Cortana Éteinds l'ordinateur" mais elle refuse toujours de le faire...
Le #1977094
5% c'est beaucoup de trouve (pour les humains).
Les conversations cest du type "chti vs marseillais" ou "texan vs new yorkais" non ?
Le #1977102
LinuxUser a écrit :

5% c'est beaucoup de trouve (pour les humains).
Les conversations cest du type "chti vs marseillais" ou "texan vs new yorkais" non ?


Clair que dès qu'il y a un accent particulier ou un défaut de prononciation, le taux de reconnaissance chute...
Le #1977115

Pendant ce temps là , on attend toujours Cortana sur android en France
Le #1977148
mart666 a écrit :

C'est bien ! Mais il faudrait plus d'éducation à Cortana... Elle comprends super bien "Hé Cortana Éteinds l'ordinateur" mais elle refuse toujours de le faire...


Le but c'est pas de t'aider, c'est de prendre ton empreinte vocale !
Le #1977149
La méthode kwé, …
C'est vraiment efficace ça ? Qu'en pense le nasdac sur microsoft aujourd'hui ?
Ça bande ou ça débande ?
Suivre les commentaires
Poster un commentaire
Anonyme
:) ;) :D ^^ 8) :| :lol: :p :-/ :o :w00t: :roll: :( :cry: :facepalm:
:andy: :annoyed: :bandit: :alien: :ninja: :agent: :doh: :@ :sick: :kiss: :love: :sleep: :whistle: =]