Synthèse Vocale

Alain

03/06/2005 à 22:01

déjà que sans imposer le langage c'est pas simple, imposer un API java
c'est pointu...

hors de Java tu trouvera des moteurs gratuits (projets européens je crois)
SpeechMill/le moulin a parolle
et un moteur de synthèse Mbrola.

au pire tu couple le code (C je suppose) via du TCP (ou corba), ou
bêtement system.exec()...
il devrait falloir modifier le code pour le couplage.

Je cherche une API java qui puisse convertir du texte en voix et enregistrer
cette voix en .wav

flipouk

03/06/2005 à 23:13

BV wrote:

Bonjour,

Je cherche une API java qui puisse convertir du texte en voix et enregistrer
cette voix en .wav

Merci

Java Speech API:

http://java.sun.com/products/java-media/speech/
Ou alors, en OpenSource, FreeTTS:
http://freetts.sourceforge.net/docs/index.php
F.

--
,_,
(O,O) Plus je connais les hommes,
( ) Plus j'aime ma machine
-"-"----------------------------------------------
Flipouk. GNU/Linux, MacOSX et Java : même combat !
--------------------------------------------------

Kupee

06/06/2005 à 10:12

flipouk wrote:

Java Speech API:
http://java.sun.com/products/java-media/speech/
Ou alors, en OpenSource, FreeTTS:
http://freetts.sourceforge.net/docs/index.php
F.

Je crois d'ailleurs que la Java Speech API n'a pas d'implémentation chez
Sun et que la page n'est qu'une specification dont FreeTTS est une
implémentation parmis d'autres

vc.spam

06/06/2005 à 12:05

Bonjour,

Je cherche une API java qui puisse convertir du texte en voix et enregist rer
cette voix en .wav

Merci

Salut,

ça c'est une question pour moi!!! je suis le "Mr Java" d'une boite de
synthèse vocale (Acapela, pour info)... :-)

Effectivement, c'est vers java speech qu'il faut se tourner. Il éxiste
d'autres API mais elles sont propriétaires...
Mais ça n'est qu'une API, ça n'est pas un moteur. Il faut donc
trouver un moteur de synthèse qui supporte cette API. Je ne connais
pas FreeTTS mais je sais que ça ne nous fait pas de concurrence, donc
je suppose que la qualité n'est pas la même ou que la license exclu
tout usage commercial... Après tu as principalement trois boites de
speech au monde (après de nombreuses concentrations): Nuance/Scansoft,
Acapela, Loquendo. Je ne vais pas te faire l'article ici, ça n'est pas
le lieu, je te laisse faire tes comparaisons par toi même. Les prix
varient vraiment en fonction de l'usage envisagé... En plus du prix et
de la qualité des voix, il faut penser au déploiement. Les voix de
hautes qualités font plusieurs dizaine de Mo (chez nous jusqu'a 120Mo
en 22kHz). Si on met l'ensembles des voix dispo en 22kHz on arrive à
+/- 2.3 Go, c'est conséquent. Nous on propose des version bcp plus
légères en fonction des besoins et également une version
client/serveur du produit pour éviter d'installer ça partout. Je ne
sais pas éxactement ce que propose la concurrence à ce niveau, donc
je ne dis pas ça pour t'orienter vers acapela. Mais c'est une question
à se poser avant d'acheter...

Concernant la qualité des voix, il faut vraiment écouter les voix en
situation dans ton application et écouter toutes les voix. Dans une
même société, la qualité varie en fonction des langues et des
usages. Généralement les fournisseurs sont très forts dans les
langues de chez eux (Scansoft sont les meilleurs pour l'anglais US et
les voix nord-américaines (Canada - Méxique). Loquendo pour
l'Italien. Acapela pour le Français le Néerlandais, le Flamand et le
Suédois. De même sur nos deux voix féminines françaises, l'une est
plus adaptés pour les textes courts genre directifs (instructions de
guidage GPS par exemple), l'autre est bonne pour les textes longs
(articles de journaux et cie...).

A savoir aussi, qu'il y a différents types de boites. Scansoft qui est
une énorme boite américaine, Loquendo boite Italienne sucursale de
l'équivalent italien de France Telecom. Acapela, PME européenne
(Belgique, France, Suède).
En général, loquendo et nous sommes plus cher que scansoft mais je
pense honnêtement qu'on ne peut pas comparer les prestations de
services. C'est un peu comme des meubles BUT et des meubles fait par un
menuisier. La qualité est comparable pour la plupart des usages, par
contre, chez BUT aucune chance d'avoir du sur-mesure ou même de parler
à un "technicien" qui sait faire autre chose que se servir d'une
visseuse. Et évidemment, si un barreau de chaise se décole, tu te
démmmerdes. Mais bon, c'est pas un jugement en soi. Si t'es bricoleur
et que tu peux te démerder pour les petits ajustements, t'a intérêt
à aller chez BUT... Je dis ça pour comparer Scansoft et nous,
parceque je ne connais pas vraiment loquendo (jusqu'à il y a peu de
temps ils travaillaient surtout avec des leurs actionnaires (Telecom
Italia) donc les clients avec qui on parlent ne nous donnaient pas
d'avis. Et comme je suis techos, je ne parle pas souvent aux clients,
si ça t'intéresse je peux poser la question...

Pour la sortie wav ça n'est pas supportée par la spec de l'API (qui
en beta-beta version depuis au moins deux ans). Au niveau sortie son,
l'API est évasive, il faut supporter la sortie carte son, pour le
reste c'est un peu... comment dire... pas prévu.

Chez Acapela, comme on l'a fait au départ pour des applis télécom on
a une sortie buffer. On peut donc faire ce qu'on veut du signal, et
donc une sortie fichier. Actuellement on propose la sortie raw comme
exemple, mais (jolie coïncidence) aujourd'hui je vais implémenter la
sortie wav pour un mon soft :-)
Par contre, c'est basé sur une extension propriétaire de l'API,
forcément vu que c'est pas dans la spec ouverte. Enfin bon, c'est
juste une extension de la classe de la spec avec qq méthode pour
gérer la sortie son de manière custom...

Bon ben voilà, t'en as déjà pas mal là.

Voilà, si t'as des questions n'hésites pas...

A+

Vincent

Bonjour,

Je cherche une API java qui puisse convertir du texte en voix et enregist rer
cette voix en .wav

Merci

Salut,

ça c'est une question pour moi!!! je suis le "Mr Java" d'une boite de
synthèse vocale (Acapela, pour info)... :-)

Effectivement, c'est vers java speech qu'il faut se tourner. Il éxiste
d'autres API mais elles sont propriétaires...
Mais ça n'est qu'une API, ça n'est pas un moteur. Il faut donc
trouver un moteur de synthèse qui supporte cette API. Je ne connais
pas FreeTTS mais je sais que ça ne nous fait pas de concurrence, donc
je suppose que la qualité n'est pas la même ou que la license exclu
tout usage commercial... Après tu as principalement trois boites de
speech au monde (après de nombreuses concentrations): Nuance/Scansoft,
Acapela, Loquendo. Je ne vais pas te faire l'article ici, ça n'est pas
le lieu, je te laisse faire tes comparaisons par toi même. Les prix
varient vraiment en fonction de l'usage envisagé... En plus du prix et
de la qualité des voix, il faut penser au déploiement. Les voix de
hautes qualités font plusieurs dizaine de Mo (chez nous jusqu'a 120Mo
en 22kHz). Si on met l'ensembles des voix dispo en 22kHz on arrive à
+/- 2.3 Go, c'est conséquent. Nous on propose des version bcp plus
légères en fonction des besoins et également une version
client/serveur du produit pour éviter d'installer ça partout. Je ne
sais pas éxactement ce que propose la concurrence à ce niveau, donc
je ne dis pas ça pour t'orienter vers acapela. Mais c'est une question
à se poser avant d'acheter...

Concernant la qualité des voix, il faut vraiment écouter les voix en
situation dans ton application et écouter toutes les voix. Dans une
même société, la qualité varie en fonction des langues et des
usages. Généralement les fournisseurs sont très forts dans les
langues de chez eux (Scansoft sont les meilleurs pour l'anglais US et
les voix nord-américaines (Canada - Méxique). Loquendo pour
l'Italien. Acapela pour le Français le Néerlandais, le Flamand et le
Suédois. De même sur nos deux voix féminines françaises, l'une est
plus adaptés pour les textes courts genre directifs (instructions de
guidage GPS par exemple), l'autre est bonne pour les textes longs
(articles de journaux et cie...).

A savoir aussi, qu'il y a différents types de boites. Scansoft qui est
une énorme boite américaine, Loquendo boite Italienne sucursale de
l'équivalent italien de France Telecom. Acapela, PME européenne
(Belgique, France, Suède).
En général, loquendo et nous sommes plus cher que scansoft mais je
pense honnêtement qu'on ne peut pas comparer les prestations de
services. C'est un peu comme des meubles BUT et des meubles fait par un
menuisier. La qualité est comparable pour la plupart des usages, par
contre, chez BUT aucune chance d'avoir du sur-mesure ou même de parler
à un "technicien" qui sait faire autre chose que se servir d'une
visseuse. Et évidemment, si un barreau de chaise se décole, tu te
démmmerdes. Mais bon, c'est pas un jugement en soi. Si t'es bricoleur
et que tu peux te démerder pour les petits ajustements, t'a intérêt
à aller chez BUT... Je dis ça pour comparer Scansoft et nous,
parceque je ne connais pas vraiment loquendo (jusqu'à il y a peu de
temps ils travaillaient surtout avec des leurs actionnaires (Telecom
Italia) donc les clients avec qui on parlent ne nous donnaient pas
d'avis. Et comme je suis techos, je ne parle pas souvent aux clients,
si ça t'intéresse je peux poser la question...

Pour la sortie wav ça n'est pas supportée par la spec de l'API (qui
en beta-beta version depuis au moins deux ans). Au niveau sortie son,
l'API est évasive, il faut supporter la sortie carte son, pour le
reste c'est un peu... comment dire... pas prévu.

Chez Acapela, comme on l'a fait au départ pour des applis télécom on
a une sortie buffer. On peut donc faire ce qu'on veut du signal, et
donc une sortie fichier. Actuellement on propose la sortie raw comme
exemple, mais (jolie coïncidence) aujourd'hui je vais implémenter la
sortie wav pour un mon soft :-)
Par contre, c'est basé sur une extension propriétaire de l'API,
forcément vu que c'est pas dans la spec ouverte. Enfin bon, c'est
juste une extension de la classe de la spec avec qq méthode pour
gérer la sortie son de manière custom...

Bon ben voilà, t'en as déjà pas mal là.

Voilà, si t'as des questions n'hésites pas...

A+

Vincent

Vous avez filtré cet utilisateur ! Consultez son message

Bonjour,

Je cherche une API java qui puisse convertir du texte en voix et enregist rer
cette voix en .wav

Merci

Salut,

ça c'est une question pour moi!!! je suis le "Mr Java" d'une boite de
synthèse vocale (Acapela, pour info)... :-)

Effectivement, c'est vers java speech qu'il faut se tourner. Il éxiste
d'autres API mais elles sont propriétaires...
Mais ça n'est qu'une API, ça n'est pas un moteur. Il faut donc
trouver un moteur de synthèse qui supporte cette API. Je ne connais
pas FreeTTS mais je sais que ça ne nous fait pas de concurrence, donc
je suppose que la qualité n'est pas la même ou que la license exclu
tout usage commercial... Après tu as principalement trois boites de
speech au monde (après de nombreuses concentrations): Nuance/Scansoft,
Acapela, Loquendo. Je ne vais pas te faire l'article ici, ça n'est pas
le lieu, je te laisse faire tes comparaisons par toi même. Les prix
varient vraiment en fonction de l'usage envisagé... En plus du prix et
de la qualité des voix, il faut penser au déploiement. Les voix de
hautes qualités font plusieurs dizaine de Mo (chez nous jusqu'a 120Mo
en 22kHz). Si on met l'ensembles des voix dispo en 22kHz on arrive à
+/- 2.3 Go, c'est conséquent. Nous on propose des version bcp plus
légères en fonction des besoins et également une version
client/serveur du produit pour éviter d'installer ça partout. Je ne
sais pas éxactement ce que propose la concurrence à ce niveau, donc
je ne dis pas ça pour t'orienter vers acapela. Mais c'est une question
à se poser avant d'acheter...

Concernant la qualité des voix, il faut vraiment écouter les voix en
situation dans ton application et écouter toutes les voix. Dans une
même société, la qualité varie en fonction des langues et des
usages. Généralement les fournisseurs sont très forts dans les
langues de chez eux (Scansoft sont les meilleurs pour l'anglais US et
les voix nord-américaines (Canada - Méxique). Loquendo pour
l'Italien. Acapela pour le Français le Néerlandais, le Flamand et le
Suédois. De même sur nos deux voix féminines françaises, l'une est
plus adaptés pour les textes courts genre directifs (instructions de
guidage GPS par exemple), l'autre est bonne pour les textes longs
(articles de journaux et cie...).

A savoir aussi, qu'il y a différents types de boites. Scansoft qui est
une énorme boite américaine, Loquendo boite Italienne sucursale de
l'équivalent italien de France Telecom. Acapela, PME européenne
(Belgique, France, Suède).
En général, loquendo et nous sommes plus cher que scansoft mais je
pense honnêtement qu'on ne peut pas comparer les prestations de
services. C'est un peu comme des meubles BUT et des meubles fait par un
menuisier. La qualité est comparable pour la plupart des usages, par
contre, chez BUT aucune chance d'avoir du sur-mesure ou même de parler
à un "technicien" qui sait faire autre chose que se servir d'une
visseuse. Et évidemment, si un barreau de chaise se décole, tu te
démmmerdes. Mais bon, c'est pas un jugement en soi. Si t'es bricoleur
et que tu peux te démerder pour les petits ajustements, t'a intérêt
à aller chez BUT... Je dis ça pour comparer Scansoft et nous,
parceque je ne connais pas vraiment loquendo (jusqu'à il y a peu de
temps ils travaillaient surtout avec des leurs actionnaires (Telecom
Italia) donc les clients avec qui on parlent ne nous donnaient pas
d'avis. Et comme je suis techos, je ne parle pas souvent aux clients,
si ça t'intéresse je peux poser la question...

Pour la sortie wav ça n'est pas supportée par la spec de l'API (qui
en beta-beta version depuis au moins deux ans). Au niveau sortie son,
l'API est évasive, il faut supporter la sortie carte son, pour le
reste c'est un peu... comment dire... pas prévu.

Chez Acapela, comme on l'a fait au départ pour des applis télécom on
a une sortie buffer. On peut donc faire ce qu'on veut du signal, et
donc une sortie fichier. Actuellement on propose la sortie raw comme
exemple, mais (jolie coïncidence) aujourd'hui je vais implémenter la
sortie wav pour un mon soft :-)
Par contre, c'est basé sur une extension propriétaire de l'API,
forcément vu que c'est pas dans la spec ouverte. Enfin bon, c'est
juste une extension de la classe de la spec avec qq méthode pour
gérer la sortie son de manière custom...

Bon ben voilà, t'en as déjà pas mal là.

Voilà, si t'as des questions n'hésites pas...

A+

Vincent

Synthèse Vocale

4 réponses

Veuillez sélectionner un problème