Cela tombe bien, kop ne semble pas utiliser FreeBSD.
JRD. A une époque (révolue) de Usenet, on murmurait que la signature était proportionnel à l'orgueil (péché mortel). -- jerome (dot) drapeau <at> free (dot) fr http://jerome.drapeau.free.fr La critique est aisée, l'art est difficile.
Bonsoir,
Laurent <email.address@libre.fr> wrote:
kop wrote:
Bonjour
Quel OCR utilisez-vous ?
Je n'utilise pas d'OCR.
Cela tombe bien, kop ne semble pas utiliser FreeBSD.
JRD.
A une époque (révolue) de Usenet, on murmurait que la signature était
proportionnel à l'orgueil (péché mortel).
--
jerome (dot) drapeau <at> free (dot) fr
http://jerome.drapeau.free.fr
La critique est aisée, l'art est difficile.
Cela tombe bien, kop ne semble pas utiliser FreeBSD.
JRD. A une époque (révolue) de Usenet, on murmurait que la signature était proportionnel à l'orgueil (péché mortel). -- jerome (dot) drapeau <at> free (dot) fr http://jerome.drapeau.free.fr La critique est aisée, l'art est difficile.
Juste par curiosité, quels sont les problèmes rencontrés ? Et sur quels types de documents se produisent les échecs ?
Car c'est vrai, gocr n'est pas performant pour les documents manuscrits. Mais par contre, sur des imprimés, je trouve qu'il ne s'en sort pas mal.
-- David LE BOURGEOIS
kop
Le Sat, 12 Feb 2005 13:45:16 +0100, David LE BOURGEOIS a écrit :
J'ai testé mais sans grand résultat.
Juste par curiosité, quels sont les problèmes rencontrés ? Et sur quels types de documents se produisent les échecs ?
Car c'est vrai, gocr n'est pas performant pour les documents manuscrits. Mais par contre, sur des imprimés, je trouve qu'il ne s'en sort pas mal.
Salut
Il y a d'une part des textes imprimés fontes arial 12, les accents ont du mal à passer, d'autre part des tableaux composés genre comptabilité. Les documents scannés sont issus d'un xerox Workcenter, on n'a pas beaucoup de contrôle sur les paramètres. Je précise que je cherche non pour moi, mais pour un ami qui en aura un usage professionnel et qui ne voit pas d'inconvénients à acheter un produit. Personnellement, la licence me gène, j'aurai préféré du GPL.
J'ai au moins réussi à le faire passer sous Linux Debian, OpenOffice, et MySQL pour la base de données.
Bye
Le Sat, 12 Feb 2005 13:45:16 +0100, David LE BOURGEOIS a écrit :
J'ai testé mais sans grand résultat.
Juste par curiosité, quels sont les problèmes rencontrés ? Et sur
quels types de documents se produisent les échecs ?
Car c'est vrai, gocr n'est pas performant pour les documents manuscrits.
Mais par contre, sur des imprimés, je trouve qu'il ne s'en sort pas
mal.
Salut
Il y a d'une part des textes imprimés fontes arial 12, les accents ont du
mal à passer, d'autre part des tableaux composés genre comptabilité.
Les documents scannés sont issus d'un xerox Workcenter, on n'a pas
beaucoup de contrôle sur les paramètres.
Je précise que je cherche non pour moi, mais pour un ami qui en aura
un usage professionnel et qui ne voit pas d'inconvénients à acheter
un produit. Personnellement, la licence me gène, j'aurai préféré du
GPL.
J'ai au moins réussi à le faire passer sous Linux Debian, OpenOffice,
et MySQL pour la base de données.
Le Sat, 12 Feb 2005 13:45:16 +0100, David LE BOURGEOIS a écrit :
J'ai testé mais sans grand résultat.
Juste par curiosité, quels sont les problèmes rencontrés ? Et sur quels types de documents se produisent les échecs ?
Car c'est vrai, gocr n'est pas performant pour les documents manuscrits. Mais par contre, sur des imprimés, je trouve qu'il ne s'en sort pas mal.
Salut
Il y a d'une part des textes imprimés fontes arial 12, les accents ont du mal à passer, d'autre part des tableaux composés genre comptabilité. Les documents scannés sont issus d'un xerox Workcenter, on n'a pas beaucoup de contrôle sur les paramètres. Je précise que je cherche non pour moi, mais pour un ami qui en aura un usage professionnel et qui ne voit pas d'inconvénients à acheter un produit. Personnellement, la licence me gène, j'aurai préféré du GPL.
J'ai au moins réussi à le faire passer sous Linux Debian, OpenOffice, et MySQL pour la base de données.
Bye
Blaise Potard
kop wrote:
J'ai testé mais sans grand résultat.
Juste par curiosité, quels sont les problèmes rencontrés ? Et sur quels types de documents se produisent les échecs ?
Car c'est vrai, gocr n'est pas performant pour les documents manuscrits. Mais par contre, sur des imprimés, je trouve qu'il ne s'en sort pas mal.
Salut
Il y a d'une part des textes imprimés fontes arial 12, les accents ont du mal à passer, d'autre part des tableaux composés genre comptabilité. Les documents scannés sont issus d'un xerox Workcenter, on n'a pas beaucoup de contrôle sur les paramètres. Je précise que je cherche non pour moi, mais pour un ami qui en aura un usage professionnel et qui ne voit pas d'inconvénients à acheter un produit. Personnellement, la licence me gène, j'aurai préféré du GPL.
Le gros problème avec les logiciels d'OCR (ou de reconnaissance vocal), c'est que les algo sont connus (essentiellement quelques algos bêtes : réseaux de neurones ou HMM) mais que la réussite du système tient surtout aux réglages des constantes dans les algo et sur un travail d'apprentissage sur un corpus énorme de textes divers ; les algos seuls ne donnent rien. Les différents réglages demandent des heures et des heures de travail, et le processus d'apprentissage nécessite de travailler sur un corpus conséquent. Évidemment, il faut payer très cher pour avoir accès à un tel corpus. Comme il y a malheureusement assez peu de chance qu'un corpus suffisant soit un jour librement accessible, il y a également très peu de chance qu'un logiciel correct d'OCR devienne disponible en GPL (à moins qu'un labo décide subitement de rendre un investissement de plusieurs années public...).
kop wrote:
J'ai testé mais sans grand résultat.
Juste par curiosité, quels sont les problèmes rencontrés ? Et sur
quels types de documents se produisent les échecs ?
Car c'est vrai, gocr n'est pas performant pour les documents manuscrits.
Mais par contre, sur des imprimés, je trouve qu'il ne s'en sort pas
mal.
Salut
Il y a d'une part des textes imprimés fontes arial 12, les accents ont du
mal à passer, d'autre part des tableaux composés genre comptabilité.
Les documents scannés sont issus d'un xerox Workcenter, on n'a pas
beaucoup de contrôle sur les paramètres.
Je précise que je cherche non pour moi, mais pour un ami qui en aura
un usage professionnel et qui ne voit pas d'inconvénients à acheter
un produit. Personnellement, la licence me gène, j'aurai préféré du
GPL.
Le gros problème avec les logiciels d'OCR (ou de reconnaissance vocal),
c'est que les algo sont connus (essentiellement quelques algos bêtes :
réseaux de neurones ou HMM) mais que la réussite du système tient
surtout aux réglages des constantes dans les algo et sur un travail
d'apprentissage sur un corpus énorme de textes divers ; les algos seuls
ne donnent rien. Les différents réglages demandent des heures et des
heures de travail, et le processus d'apprentissage nécessite de
travailler sur un corpus conséquent. Évidemment, il faut payer très cher
pour avoir accès à un tel corpus. Comme il y a malheureusement assez peu
de chance qu'un corpus suffisant soit un jour librement accessible, il y
a également très peu de chance qu'un logiciel correct d'OCR devienne
disponible en GPL (à moins qu'un labo décide subitement de rendre un
investissement de plusieurs années public...).
Juste par curiosité, quels sont les problèmes rencontrés ? Et sur quels types de documents se produisent les échecs ?
Car c'est vrai, gocr n'est pas performant pour les documents manuscrits. Mais par contre, sur des imprimés, je trouve qu'il ne s'en sort pas mal.
Salut
Il y a d'une part des textes imprimés fontes arial 12, les accents ont du mal à passer, d'autre part des tableaux composés genre comptabilité. Les documents scannés sont issus d'un xerox Workcenter, on n'a pas beaucoup de contrôle sur les paramètres. Je précise que je cherche non pour moi, mais pour un ami qui en aura un usage professionnel et qui ne voit pas d'inconvénients à acheter un produit. Personnellement, la licence me gène, j'aurai préféré du GPL.
Le gros problème avec les logiciels d'OCR (ou de reconnaissance vocal), c'est que les algo sont connus (essentiellement quelques algos bêtes : réseaux de neurones ou HMM) mais que la réussite du système tient surtout aux réglages des constantes dans les algo et sur un travail d'apprentissage sur un corpus énorme de textes divers ; les algos seuls ne donnent rien. Les différents réglages demandent des heures et des heures de travail, et le processus d'apprentissage nécessite de travailler sur un corpus conséquent. Évidemment, il faut payer très cher pour avoir accès à un tel corpus. Comme il y a malheureusement assez peu de chance qu'un corpus suffisant soit un jour librement accessible, il y a également très peu de chance qu'un logiciel correct d'OCR devienne disponible en GPL (à moins qu'un labo décide subitement de rendre un investissement de plusieurs années public...).
Nicolas George
Blaise Potard wrote in message <cuvdt6$prb$:
Comme il y a malheureusement assez peu de chance qu'un corpus suffisant soit un jour librement accessible
PGDP a une somme assez considérable de textes scannés et traduits en texte (avec relecture manuelle).
Blaise Potard wrote in message <cuvdt6$prb$1@arcturus.ciril.fr>:
Comme il y a malheureusement assez peu
de chance qu'un corpus suffisant soit un jour librement accessible
PGDP a une somme assez considérable de textes scannés et traduits en texte
(avec relecture manuelle).
Comme il y a malheureusement assez peu de chance qu'un corpus suffisant soit un jour librement accessible
PGDP a une somme assez considérable de textes scannés et traduits en texte (avec relecture manuelle).
Blaise Potard
Nicolas George wrote:
Blaise Potard wrote in message <cuvdt6$prb$:
Comme il y a malheureusement assez peu de chance qu'un corpus suffisant soit un jour librement accessible
PGDP a une somme assez considérable de textes scannés et traduits en texte (avec relecture manuelle).
Effectivement, je ne savais pas qu'ils en étaient à ce point. En fait, je travaille dans le domaine de la parole et encore une fois j'ai parlé sans réfléchir, en supposant qu'en OCR ils étaient aussi mal lotis qu'en parole. Bon, ceci dit, l'écrasante majorité des livres sont en anglais, ce qui ne doit pas aider pour les accents, je ne sais pas trop comment les polices sont réparties, et il n'y a apparemment aucun ouvrage manuscrit. Ceci dit, ça doit être suffisant (en fait j'ai aucune idée de la quantité de données utlisées dans les solutions commerciales pour faire l'apprentissage ; dans notre labo, je sais que rien que pour faire un modèle de langage du français, on utilise les numéros du Monde depuis 1987, soit a peu près 3Go de texte...). Par curiosité : tu sais si il y a déjà un projet qui utilise ces données pour un faire un système de reconnaissance ? J'ai regardé rapidement, mais apparemment personne n'a l'air de le faire.
Nicolas George wrote:
Blaise Potard wrote in message <cuvdt6$prb$1@arcturus.ciril.fr>:
Comme il y a malheureusement assez peu
de chance qu'un corpus suffisant soit un jour librement accessible
PGDP a une somme assez considérable de textes scannés et traduits en texte
(avec relecture manuelle).
Effectivement, je ne savais pas qu'ils en étaient à ce point. En fait,
je travaille dans le domaine de la parole et encore une fois j'ai parlé
sans réfléchir, en supposant qu'en OCR ils étaient aussi mal lotis qu'en
parole. Bon, ceci dit, l'écrasante majorité des livres sont en anglais,
ce qui ne doit pas aider pour les accents, je ne sais pas trop comment
les polices sont réparties, et il n'y a apparemment aucun ouvrage
manuscrit. Ceci dit, ça doit être suffisant (en fait j'ai aucune idée de
la quantité de données utlisées dans les solutions commerciales pour
faire l'apprentissage ; dans notre labo, je sais que rien que pour faire
un modèle de langage du français, on utilise les numéros du Monde depuis
1987, soit a peu près 3Go de texte...). Par curiosité : tu sais si
il y a déjà un projet qui utilise ces données pour un faire un système
de reconnaissance ? J'ai regardé rapidement, mais apparemment personne
n'a l'air de le faire.
Comme il y a malheureusement assez peu de chance qu'un corpus suffisant soit un jour librement accessible
PGDP a une somme assez considérable de textes scannés et traduits en texte (avec relecture manuelle).
Effectivement, je ne savais pas qu'ils en étaient à ce point. En fait, je travaille dans le domaine de la parole et encore une fois j'ai parlé sans réfléchir, en supposant qu'en OCR ils étaient aussi mal lotis qu'en parole. Bon, ceci dit, l'écrasante majorité des livres sont en anglais, ce qui ne doit pas aider pour les accents, je ne sais pas trop comment les polices sont réparties, et il n'y a apparemment aucun ouvrage manuscrit. Ceci dit, ça doit être suffisant (en fait j'ai aucune idée de la quantité de données utlisées dans les solutions commerciales pour faire l'apprentissage ; dans notre labo, je sais que rien que pour faire un modèle de langage du français, on utilise les numéros du Monde depuis 1987, soit a peu près 3Go de texte...). Par curiosité : tu sais si il y a déjà un projet qui utilise ces données pour un faire un système de reconnaissance ? J'ai regardé rapidement, mais apparemment personne n'a l'air de le faire.
kop
Le Wed, 16 Feb 2005 19:31:39 +0100, Blaise Potard a écrit :
Nicolas George wrote:
Blaise Potard wrote in message <cuvdt6$prb$:
Comme il y a malheureusement assez peu de chance qu'un corpus suffisant soit un jour librement accessible
PGDP a une somme assez considérable de textes scannés et traduits en texte (avec relecture manuelle).
Effectivement, je ne savais pas qu'ils en étaient à ce point. En fait, je travaille dans le domaine de la parole et encore une fois j'ai parlé sans réfléchir, en supposant qu'en OCR ils étaient aussi mal lotis qu'en parole. Bon, ceci dit, l'écrasante majorité des livres sont en anglais, ce qui ne doit pas aider pour les accents, je ne sais pas trop comment les polices sont réparties, et il n'y a apparemment aucun ouvrage manuscrit. Ceci dit, ça doit être suffisant (en fait j'ai aucune idée de la quantité de données utlisées dans les solutions commerciales pour faire l'apprentissage ; dans notre labo, je sais que rien que pour faire un modèle de langage du français, on utilise les numéros du Monde depuis 1987, soit a peu près 3Go de texte...). Par curiosité : tu sais si il y a déjà un projet qui utilise ces données pour un faire un système de reconnaissance ? J'ai regardé rapidement, mais apparemment personne n'a l'air de le faire.
Salut
Merci à tous. J'ai testé l'OCR de Vividata, excellent résultats, mais leur licence.... Il faut donner l'adresse mac de la carte réseau eth0, supposons que celle-ci soit sur la CM et que l'on upgrade le PC, et que vividata n'existe plus, on l'a mauvaise... Je vais aussi essayer l'OCR d'Abbyy et je vous tiens au courant.
Bye
Le Wed, 16 Feb 2005 19:31:39 +0100, Blaise Potard a écrit :
Nicolas George wrote:
Blaise Potard wrote in message <cuvdt6$prb$1@arcturus.ciril.fr>:
Comme il y a malheureusement assez peu
de chance qu'un corpus suffisant soit un jour librement accessible
PGDP a une somme assez considérable de textes scannés et traduits en
texte (avec relecture manuelle).
Effectivement, je ne savais pas qu'ils en étaient à ce point. En fait,
je travaille dans le domaine de la parole et encore une fois j'ai parlé
sans réfléchir, en supposant qu'en OCR ils étaient aussi mal lotis
qu'en parole. Bon, ceci dit, l'écrasante majorité des livres sont en
anglais, ce qui ne doit pas aider pour les accents, je ne sais pas trop
comment les polices sont réparties, et il n'y a apparemment aucun ouvrage
manuscrit. Ceci dit, ça doit être suffisant (en fait j'ai aucune idée
de la quantité de données utlisées dans les solutions commerciales pour
faire l'apprentissage ; dans notre labo, je sais que rien que pour faire
un modèle de langage du français, on utilise les numéros du Monde
depuis 1987, soit a peu près 3Go de texte...). Par curiosité : tu sais
si il y a déjà un projet qui utilise ces données pour un faire un
système de reconnaissance ? J'ai regardé rapidement, mais apparemment
personne n'a l'air de le faire.
Salut
Merci à tous.
J'ai testé l'OCR de Vividata, excellent résultats, mais leur licence....
Il faut donner l'adresse mac de la carte réseau eth0, supposons que
celle-ci soit sur la CM et que l'on upgrade le PC, et que vividata
n'existe plus, on l'a mauvaise...
Je vais aussi essayer l'OCR d'Abbyy et je vous tiens au courant.
Le Wed, 16 Feb 2005 19:31:39 +0100, Blaise Potard a écrit :
Nicolas George wrote:
Blaise Potard wrote in message <cuvdt6$prb$:
Comme il y a malheureusement assez peu de chance qu'un corpus suffisant soit un jour librement accessible
PGDP a une somme assez considérable de textes scannés et traduits en texte (avec relecture manuelle).
Effectivement, je ne savais pas qu'ils en étaient à ce point. En fait, je travaille dans le domaine de la parole et encore une fois j'ai parlé sans réfléchir, en supposant qu'en OCR ils étaient aussi mal lotis qu'en parole. Bon, ceci dit, l'écrasante majorité des livres sont en anglais, ce qui ne doit pas aider pour les accents, je ne sais pas trop comment les polices sont réparties, et il n'y a apparemment aucun ouvrage manuscrit. Ceci dit, ça doit être suffisant (en fait j'ai aucune idée de la quantité de données utlisées dans les solutions commerciales pour faire l'apprentissage ; dans notre labo, je sais que rien que pour faire un modèle de langage du français, on utilise les numéros du Monde depuis 1987, soit a peu près 3Go de texte...). Par curiosité : tu sais si il y a déjà un projet qui utilise ces données pour un faire un système de reconnaissance ? J'ai regardé rapidement, mais apparemment personne n'a l'air de le faire.
Salut
Merci à tous. J'ai testé l'OCR de Vividata, excellent résultats, mais leur licence.... Il faut donner l'adresse mac de la carte réseau eth0, supposons que celle-ci soit sur la CM et que l'on upgrade le PC, et que vividata n'existe plus, on l'a mauvaise... Je vais aussi essayer l'OCR d'Abbyy et je vous tiens au courant.