Quel OCR

Laurent

10/02/2005 à 19:31

kop wrote:

Bonjour

Quel OCR utilisez-vous ?

Merci d'avance

Je n'utilise pas d'OCR.

--
Laurent, newbie FreeBSD'iste ;-)
_____ ____ ____ ____ ____ _ _
| ___| __ ___ ___| __ ) ___|| _ | _ ___ ___| | _____ | |
| |_ | '__/ _ / _ _ ___ | | | | | |_) / _ / __| |/ / __| | |
| _|| | | __/ __/ |_) |__) | |_| | | _ < (_) | (__| <__ |_|
|_| |_| ___|___|____/____/|____/ |_| ____/ ___|_|____/ (_)

JRD

10/02/2005 à 20:41

Bonsoir,

Laurent wrote:

kop wrote:
Bonjour

Quel OCR utilisez-vous ?
Je n'utilise pas d'OCR.

Cela tombe bien, kop ne semble pas utiliser FreeBSD.

JRD.
A une époque (révolue) de Usenet, on murmurait que la signature était
proportionnel à l'orgueil (péché mortel).
--
jerome (dot) drapeau <at> free (dot) fr
http://jerome.drapeau.free.fr
La critique est aisée, l'art est difficile.

David LE BOURGEOIS

10/02/2005 à 22:55

Bonjour

Bonsoir.

Quel OCR utilisez-vous ?

gocr.

--
David LE BOURGEOIS

kop

11/02/2005 à 12:26

Le Thu, 10 Feb 2005 22:55:27 +0100, David LE BOURGEOIS a écrit :

Bonjour

Bonsoir.

Quel OCR utilisez-vous ?

gocr.
Merci de ta réponse.

J'ai testé mais sans grand résultat.
J'ai l'impression qu'il faudra me tourner vers un soft propriétaire comme
XTR lite.

Bye

David LE BOURGEOIS

12/02/2005 à 13:45

J'ai testé mais sans grand résultat.

Juste par curiosité, quels sont les problèmes rencontrés ?
Et sur quels types de documents se produisent les échecs ?

Car c'est vrai, gocr n'est pas performant pour les documents manuscrits.
Mais par contre, sur des imprimés, je trouve qu'il ne s'en sort pas mal.

--
David LE BOURGEOIS

kop

12/02/2005 à 21:02

Le Sat, 12 Feb 2005 13:45:16 +0100, David LE BOURGEOIS a écrit :

J'ai testé mais sans grand résultat.

Juste par curiosité, quels sont les problèmes rencontrés ? Et sur
quels types de documents se produisent les échecs ?

Car c'est vrai, gocr n'est pas performant pour les documents manuscrits.
Mais par contre, sur des imprimés, je trouve qu'il ne s'en sort pas
mal.

Salut

Il y a d'une part des textes imprimés fontes arial 12, les accents ont du
mal à passer, d'autre part des tableaux composés genre comptabilité.
Les documents scannés sont issus d'un xerox Workcenter, on n'a pas
beaucoup de contrôle sur les paramètres.
Je précise que je cherche non pour moi, mais pour un ami qui en aura
un usage professionnel et qui ne voit pas d'inconvénients à acheter
un produit. Personnellement, la licence me gène, j'aurai préféré du
GPL.

J'ai au moins réussi à le faire passer sous Linux Debian, OpenOffice,
et MySQL pour la base de données.

Bye

Blaise Potard

16/02/2005 à 13:21

kop wrote:

J'ai testé mais sans grand résultat.

Juste par curiosité, quels sont les problèmes rencontrés ? Et sur
quels types de documents se produisent les échecs ?

Car c'est vrai, gocr n'est pas performant pour les documents manuscrits.
Mais par contre, sur des imprimés, je trouve qu'il ne s'en sort pas
mal.

Salut

Il y a d'une part des textes imprimés fontes arial 12, les accents ont du
mal à passer, d'autre part des tableaux composés genre comptabilité.
Les documents scannés sont issus d'un xerox Workcenter, on n'a pas
beaucoup de contrôle sur les paramètres.
Je précise que je cherche non pour moi, mais pour un ami qui en aura
un usage professionnel et qui ne voit pas d'inconvénients à acheter
un produit. Personnellement, la licence me gène, j'aurai préféré du
GPL.

Le gros problème avec les logiciels d'OCR (ou de reconnaissance vocal),
c'est que les algo sont connus (essentiellement quelques algos bêtes :
réseaux de neurones ou HMM) mais que la réussite du système tient
surtout aux réglages des constantes dans les algo et sur un travail
d'apprentissage sur un corpus énorme de textes divers ; les algos seuls
ne donnent rien. Les différents réglages demandent des heures et des
heures de travail, et le processus d'apprentissage nécessite de
travailler sur un corpus conséquent. Évidemment, il faut payer très cher
pour avoir accès à un tel corpus. Comme il y a malheureusement assez peu
de chance qu'un corpus suffisant soit un jour librement accessible, il y
a également très peu de chance qu'un logiciel correct d'OCR devienne
disponible en GPL (à moins qu'un labo décide subitement de rendre un
investissement de plusieurs années public...).

Nicolas George

16/02/2005 à 15:41

Blaise Potard wrote in message <cuvdt6$prb$:

Comme il y a malheureusement assez peu
de chance qu'un corpus suffisant soit un jour librement accessible

PGDP a une somme assez considérable de textes scannés et traduits en texte
(avec relecture manuelle).

Blaise Potard

16/02/2005 à 19:31

Nicolas George wrote:

Blaise Potard wrote in message <cuvdt6$prb$:

Comme il y a malheureusement assez peu
de chance qu'un corpus suffisant soit un jour librement accessible

PGDP a une somme assez considérable de textes scannés et traduits en texte
(avec relecture manuelle).

Effectivement, je ne savais pas qu'ils en étaient à ce point. En fait,
je travaille dans le domaine de la parole et encore une fois j'ai parlé
sans réfléchir, en supposant qu'en OCR ils étaient aussi mal lotis qu'en
parole. Bon, ceci dit, l'écrasante majorité des livres sont en anglais,
ce qui ne doit pas aider pour les accents, je ne sais pas trop comment
les polices sont réparties, et il n'y a apparemment aucun ouvrage
manuscrit. Ceci dit, ça doit être suffisant (en fait j'ai aucune idée de
la quantité de données utlisées dans les solutions commerciales pour
faire l'apprentissage ; dans notre labo, je sais que rien que pour faire
un modèle de langage du français, on utilise les numéros du Monde depuis
1987, soit a peu près 3Go de texte...). Par curiosité : tu sais si
il y a déjà un projet qui utilise ces données pour un faire un système
de reconnaissance ? J'ai regardé rapidement, mais apparemment personne
n'a l'air de le faire.

kop

17/02/2005 à 19:40

Le Wed, 16 Feb 2005 19:31:39 +0100, Blaise Potard a écrit :

Nicolas George wrote:
Blaise Potard wrote in message <cuvdt6$prb$:

Comme il y a malheureusement assez peu
de chance qu'un corpus suffisant soit un jour librement accessible

PGDP a une somme assez considérable de textes scannés et traduits en
texte (avec relecture manuelle).

Effectivement, je ne savais pas qu'ils en étaient à ce point. En fait,
je travaille dans le domaine de la parole et encore une fois j'ai parlé
sans réfléchir, en supposant qu'en OCR ils étaient aussi mal lotis
qu'en parole. Bon, ceci dit, l'écrasante majorité des livres sont en
anglais, ce qui ne doit pas aider pour les accents, je ne sais pas trop
comment les polices sont réparties, et il n'y a apparemment aucun ouvrage
manuscrit. Ceci dit, ça doit être suffisant (en fait j'ai aucune idée
de la quantité de données utlisées dans les solutions commerciales pour
faire l'apprentissage ; dans notre labo, je sais que rien que pour faire
un modèle de langage du français, on utilise les numéros du Monde
depuis 1987, soit a peu près 3Go de texte...). Par curiosité : tu sais
si il y a déjà un projet qui utilise ces données pour un faire un
système de reconnaissance ? J'ai regardé rapidement, mais apparemment
personne n'a l'air de le faire.

Salut

Merci à tous.
J'ai testé l'OCR de Vividata, excellent résultats, mais leur licence....
Il faut donner l'adresse mac de la carte réseau eth0, supposons que
celle-ci soit sur la CM et que l'on upgrade le PC, et que vividata
n'existe plus, on l'a mauvaise...
Je vais aussi essayer l'OCR d'Abbyy et je vous tiens au courant.

Bye

Quel OCR

10 réponses

Veuillez sélectionner un problème