Reconnaissance vocale : la meilleure API ?

Le
charline.blondeau
Bonjour,

J'étudie aujourd'hui la reconnaissance vocale, et dans le but
d'établir un logiciel performant et propre à mes besoins, je cherche
une API efficace.

Le cahier des charges est le suivant :
- l'API doit supporter la reconnaissance vocale du français (si
possible avec quelques mots en anglais sans que ça lui pose problème,
après je peux toujours essayer d'adapter dans l'application)
- elle devra traiter correctement le bruit de fond et les accents de
prononciation
- les machines destinées à recevoir l'application tourneront sous XP
et Vista
- elle doit minimiser le temps d'apprentissage de l'user (temps pour
lequel elle s'approprie les caractéristiques de sa voix : ton,
vitesse, volume, accent )

Quelques Speech API sont disponibles, comme :


* SAPI 5.3 (Speech API) de Windows, manipulable via des objets COM
ou directement en passant par la bibliothèque System.Speech du
framework .NET 3.0 . Seule la version 5.3 m'intéresse car c'est la
seule à prendre en charge le français. Je sais que cette version est
native sous Vista, et incluse dans le Windows SDK (utilisable sous
XP).


* SMAPI (Speech Managed API) fournie par IBM ViaVoice. Elle traite
uniquement la reconnaissance vocale (pas la synthèse, contrairement à
la précédente), et prend en charge le français. Elle est composée d=
e
deux APIs en réalité : la première comportant le moteur de
reconnaissance vocale, la deuxième qui compile les grammaires.


* JSAPI (Java Speech API) fournie également par IBM. Elle est
utilisable seulement pour des applications en Java. Pour l'instant, il
me reste quelques recherches à faire pour une documentation plus
complète



Mon problème est le suivant : j'ai trouvé pas mal de caractéristiques
sur ces API, la seule chose qui me manque, ce sont des points de vue,
des avis.

Quelqu'un a-t-il déja rencontré et mis en oeuvre ces API ? Qu'en
pensez-vous ? Lesquelles se valent ?
Ont-elles de bons taux de reconnaissance ? Une marge d'erreur
signifiante ? Un défaut particulier ?

Il est inutile de me coller des liens sur les logiciels existants sur
le marché, exploitant ou non les API citées : ce n'est pas ce que je
cherche. En revanche, s'il existe d'autres API non citées, ça
m'intéresse.
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Alex
Le #19173851


Mon problème est le suivant : j'ai trouvé pas mal de caractéristiques
sur ces API, la seule chose qui me manque, ce sont des points de vue,
des avis.



Quelqu'un a-t-il déja rencontré et mis en oeuvre ces API ? Qu'en
pensez-vous ? Lesquelles se valent ?
Ont-elles de bons taux de reconnaissance ? Une marge d'erreur
signifiante ? Un défaut particulier ?



Tu peux tester SAPI à partir du SDK Windows et des exemples fournis
(..SamplesCpp en C++)
J'ai testé la 5.1, donc en anglais.
Mais avec un vieux micro, ce qui doit être pénalisant pour l'entrée audio
(volume très faible, même en mettant au max par le panneau de config),
ce qui fait qu'il a du mal à reconnaitre les mots, ce qui n'est pas
exploitable dans ce cas (confond : "me" avec "made", "house" avec "how was
it" par exemple...)
Donc à tester avec un bon hardware.
charline.blondeau
Le #19180301
On 23 avr, 12:16, "Alex"


>Mon problème est le suivant : j'ai trouvé pas mal de caractéristiq ues
>sur ces API, la seule chose qui me manque, ce sont des points de vue,
>des avis.
>Quelqu'un a-t-il déja rencontré et mis en oeuvre ces API ? Qu'en
>pensez-vous ? Lesquelles se valent ?
>Ont-elles de bons taux de reconnaissance ? Une marge d'erreur
>signifiante ? Un défaut particulier ?

Tu peux tester SAPI à partir du SDK Windows et des exemples fournis
(..SamplesCpp en C++)
J'ai testé la 5.1, donc en anglais.
Mais avec un vieux micro, ce qui doit être pénalisant pour l'entrée audio
(volume très faible, même en mettant au max par le panneau de config) ,
ce qui fait qu'il a du mal à reconnaitre les mots, ce qui n'est pas
exploitable dans ce cas (confond : "me" avec "made", "house" avec "how wa s
it" par exemple...)
Donc à tester avec un bon hardware.



Nouveau problème : je teste avec le SDK Windows (contenant SAPI 5.3).
Impossible de lier la SAPI à mon projet (qui est en fait un sample
fourni par windows).

Au moment de charger la grammaire (LoadGrammar()) ou d'attacher le
micro au speechRecognitionEngine ( SetInputToDefaultAudioDevice() ),
il me retourne l'exception de plateforme non prise en charge
(PlatformNotSupportedException), c'est-à-dire qu'il ne trouve pas le
moteur SAPI.

Pourtant, la synthèse vocale est fonctionnelle dans le même morceau de
code ...

J'ai pourtant bien ajouté la référence vers System.Speech ... Y a-t-i l
autre chose à faire ?
Alex
Le #19181091


Au moment de charger la grammaire (LoadGrammar()) ou d'attacher le
micro au speechRecognitionEngine ( SetInputToDefaultAudioDevice() ),
il me retourne l'exception de plateforme non prise en charge
(PlatformNotSupportedException), c'est-à-dire qu'il ne trouve pas le
moteur SAPI.
Pourtant, la synthèse vocale est fonctionnelle dans le même morceau de
code ...
J'ai pourtant bien ajouté la référence vers System.Speech ... Y a-t-il
autre chose à faire ?



Il y a marqué ça :

" Certain functionality within the System.Speech.* namespaces depend on SAPI
5.3, but Microsoft has no plans to redistribute SAPI 5.3 binaries down-level
to Windows XP or Windows Server 2003. If a managed application that depends
upon this advanced functionality is run on one of these older operating
systems, a PlatformNotSupportedException will be thrown. "

sur http://msdn.microsoft.com/en-us/library/bb756992.aspx
charline.blondeau
Le #19181261
On 24 avr, 13:43, "Alex"


>Au moment de charger la grammaire (LoadGrammar()) ou d'attacher le
>micro au speechRecognitionEngine ( SetInputToDefaultAudioDevice() ),
>il me retourne l'exception de plateforme non prise en charge
>(PlatformNotSupportedException), c'est-à-dire qu'il ne trouve pas le
>moteur SAPI.
>Pourtant, la synthèse vocale est fonctionnelle dans le même morceau de
>code ...
>J'ai pourtant bien ajouté la référence vers System.Speech ... Y a- t-il
>autre chose à faire ?

Il y a marqué ça :

" Certain functionality within the System.Speech.* namespaces depend on S API
5.3, but Microsoft has no plans to redistribute SAPI 5.3 binaries down-le vel
to Windows XP or Windows Server 2003. If a managed application that depen ds
upon this advanced functionality is run on one of these older operating
systems, a PlatformNotSupportedException will be thrown. "

surhttp://msdn.microsoft.com/en-us/library/bb756992.aspx



Ah !... Merci.
Grmbl.

Et d'après vous, si je développe une telle application sous Vista, il
risque d'y avoir des erreurs à l'exécution sur un XP ?
Alex
Le #19181351


Et d'après vous, si je développe une telle application sous Vista, il
risque d'y avoir des erreurs à l'exécution sur un XP ?



Oui, d'après ce qu'il est dit sur MSDN et les gens de MS, si on utilise les
spécifités de la 5.3 non-implémentées en 5.1
et du fait que MS n'a pas (pour l'instant ?) prévu de redistribuable pour la
5.3
ce thread par exemple : http://minilien.com/?Id8kXnXqlq
charline.blondeau
Le #19181441
On 24 avr, 14:16, "Alex"


>Et d'après vous, si je développe une telle application sous Vista, i l
>risque d'y avoir des erreurs à l'exécution sur un XP ?

Oui, d'après ce qu'il est dit sur MSDN et les gens de MS, si on utilise les
spécifités de la 5.3 non-implémentées en 5.1
et du fait que MS n'a pas (pour l'instant ?) prévu de redistribuable po ur la
5.3
ce thread par exemple :  http://minilien.com/?Id8kXnXqlq



Bien ...
Connaissez-vous une autre API que celle-ci, et pour laquelle il me
serait possible de développer une appli avec reconnaissance vocale en
français ?
Alex
Le #19182361


Bien ...
Connaissez-vous une autre API que celle-ci, et pour laquelle il me
serait possible de développer une appli avec reconnaissance vocale en
français ?



En Freeware, je ne pense pas qu'il y en ait d'autres aussi avancées que
celles que tu as citées..
(pas testé les projets Open Source listés sur sur
http://en.wikipedia.org/wiki/Speech_recognition)
Publicité
Poster une réponse
Anonyme