OVH Cloud OVH Cloud

Quel OCR

15 réponses
Avatar
kop
Bonjour

Quel OCR utilisez-vous ?

Merci d'avance

10 réponses

1 2
Avatar
Laurent
kop wrote:
Bonjour

Quel OCR utilisez-vous ?

Merci d'avance



Je n'utilise pas d'OCR.

--
Laurent, newbie FreeBSD'iste ;-)
_____ ____ ____ ____ ____ _ _
| ___| __ ___ ___| __ ) ___|| _ | _ ___ ___| | _____ | |
| |_ | '__/ _ / _ _ ___ | | | | | |_) / _ / __| |/ / __| | |
| _|| | | __/ __/ |_) |__) | |_| | | _ < (_) | (__| <__ |_|
|_| |_| ___|___|____/____/|____/ |_| ____/ ___|_|____/ (_)

Avatar
JRD
Bonsoir,

Laurent wrote:
kop wrote:
Bonjour

Quel OCR utilisez-vous ?
Je n'utilise pas d'OCR.



Cela tombe bien, kop ne semble pas utiliser FreeBSD.

JRD.
A une époque (révolue) de Usenet, on murmurait que la signature était
proportionnel à l'orgueil (péché mortel).
--
jerome (dot) drapeau <at> free (dot) fr
http://jerome.drapeau.free.fr
La critique est aisée, l'art est difficile.


Avatar
David LE BOURGEOIS
Bonjour


Bonsoir.

Quel OCR utilisez-vous ?


gocr.

--
David LE BOURGEOIS

Avatar
kop
Le Thu, 10 Feb 2005 22:55:27 +0100, David LE BOURGEOIS a écrit :

Bonjour


Bonsoir.

Quel OCR utilisez-vous ?


gocr.
Merci de ta réponse.

J'ai testé mais sans grand résultat.
J'ai l'impression qu'il faudra me tourner vers un soft propriétaire comme
XTR lite.

Bye


Avatar
David LE BOURGEOIS

J'ai testé mais sans grand résultat.


Juste par curiosité, quels sont les problèmes rencontrés ?
Et sur quels types de documents se produisent les échecs ?

Car c'est vrai, gocr n'est pas performant pour les documents manuscrits.
Mais par contre, sur des imprimés, je trouve qu'il ne s'en sort pas mal.

--
David LE BOURGEOIS

Avatar
kop
Le Sat, 12 Feb 2005 13:45:16 +0100, David LE BOURGEOIS a écrit :


J'ai testé mais sans grand résultat.


Juste par curiosité, quels sont les problèmes rencontrés ? Et sur
quels types de documents se produisent les échecs ?

Car c'est vrai, gocr n'est pas performant pour les documents manuscrits.
Mais par contre, sur des imprimés, je trouve qu'il ne s'en sort pas
mal.


Salut

Il y a d'une part des textes imprimés fontes arial 12, les accents ont du
mal à passer, d'autre part des tableaux composés genre comptabilité.
Les documents scannés sont issus d'un xerox Workcenter, on n'a pas
beaucoup de contrôle sur les paramètres.
Je précise que je cherche non pour moi, mais pour un ami qui en aura
un usage professionnel et qui ne voit pas d'inconvénients à acheter
un produit. Personnellement, la licence me gène, j'aurai préféré du
GPL.

J'ai au moins réussi à le faire passer sous Linux Debian, OpenOffice,
et MySQL pour la base de données.

Bye


Avatar
Blaise Potard
kop wrote:




J'ai testé mais sans grand résultat.


Juste par curiosité, quels sont les problèmes rencontrés ? Et sur
quels types de documents se produisent les échecs ?

Car c'est vrai, gocr n'est pas performant pour les documents manuscrits.
Mais par contre, sur des imprimés, je trouve qu'il ne s'en sort pas
mal.



Salut

Il y a d'une part des textes imprimés fontes arial 12, les accents ont du
mal à passer, d'autre part des tableaux composés genre comptabilité.
Les documents scannés sont issus d'un xerox Workcenter, on n'a pas
beaucoup de contrôle sur les paramètres.
Je précise que je cherche non pour moi, mais pour un ami qui en aura
un usage professionnel et qui ne voit pas d'inconvénients à acheter
un produit. Personnellement, la licence me gène, j'aurai préféré du
GPL.



Le gros problème avec les logiciels d'OCR (ou de reconnaissance vocal),
c'est que les algo sont connus (essentiellement quelques algos bêtes :
réseaux de neurones ou HMM) mais que la réussite du système tient
surtout aux réglages des constantes dans les algo et sur un travail
d'apprentissage sur un corpus énorme de textes divers ; les algos seuls
ne donnent rien. Les différents réglages demandent des heures et des
heures de travail, et le processus d'apprentissage nécessite de
travailler sur un corpus conséquent. Évidemment, il faut payer très cher
pour avoir accès à un tel corpus. Comme il y a malheureusement assez peu
de chance qu'un corpus suffisant soit un jour librement accessible, il y
a également très peu de chance qu'un logiciel correct d'OCR devienne
disponible en GPL (à moins qu'un labo décide subitement de rendre un
investissement de plusieurs années public...).



Avatar
Nicolas George
Blaise Potard wrote in message <cuvdt6$prb$:
Comme il y a malheureusement assez peu
de chance qu'un corpus suffisant soit un jour librement accessible


PGDP a une somme assez considérable de textes scannés et traduits en texte
(avec relecture manuelle).

Avatar
Blaise Potard
Nicolas George wrote:
Blaise Potard wrote in message <cuvdt6$prb$:

Comme il y a malheureusement assez peu
de chance qu'un corpus suffisant soit un jour librement accessible



PGDP a une somme assez considérable de textes scannés et traduits en texte
(avec relecture manuelle).


Effectivement, je ne savais pas qu'ils en étaient à ce point. En fait,
je travaille dans le domaine de la parole et encore une fois j'ai parlé
sans réfléchir, en supposant qu'en OCR ils étaient aussi mal lotis qu'en
parole. Bon, ceci dit, l'écrasante majorité des livres sont en anglais,
ce qui ne doit pas aider pour les accents, je ne sais pas trop comment
les polices sont réparties, et il n'y a apparemment aucun ouvrage
manuscrit. Ceci dit, ça doit être suffisant (en fait j'ai aucune idée de
la quantité de données utlisées dans les solutions commerciales pour
faire l'apprentissage ; dans notre labo, je sais que rien que pour faire
un modèle de langage du français, on utilise les numéros du Monde depuis
1987, soit a peu près 3Go de texte...). Par curiosité : tu sais si
il y a déjà un projet qui utilise ces données pour un faire un système
de reconnaissance ? J'ai regardé rapidement, mais apparemment personne
n'a l'air de le faire.


Avatar
kop
Le Wed, 16 Feb 2005 19:31:39 +0100, Blaise Potard a écrit :

Nicolas George wrote:
Blaise Potard wrote in message <cuvdt6$prb$:

Comme il y a malheureusement assez peu
de chance qu'un corpus suffisant soit un jour librement accessible



PGDP a une somme assez considérable de textes scannés et traduits en
texte (avec relecture manuelle).


Effectivement, je ne savais pas qu'ils en étaient à ce point. En fait,
je travaille dans le domaine de la parole et encore une fois j'ai parlé
sans réfléchir, en supposant qu'en OCR ils étaient aussi mal lotis
qu'en parole. Bon, ceci dit, l'écrasante majorité des livres sont en
anglais, ce qui ne doit pas aider pour les accents, je ne sais pas trop
comment les polices sont réparties, et il n'y a apparemment aucun ouvrage
manuscrit. Ceci dit, ça doit être suffisant (en fait j'ai aucune idée
de la quantité de données utlisées dans les solutions commerciales pour
faire l'apprentissage ; dans notre labo, je sais que rien que pour faire
un modèle de langage du français, on utilise les numéros du Monde
depuis 1987, soit a peu près 3Go de texte...). Par curiosité : tu sais
si il y a déjà un projet qui utilise ces données pour un faire un
système de reconnaissance ? J'ai regardé rapidement, mais apparemment
personne n'a l'air de le faire.


Salut

Merci à tous.
J'ai testé l'OCR de Vividata, excellent résultats, mais leur licence....
Il faut donner l'adresse mac de la carte réseau eth0, supposons que
celle-ci soit sur la CM et que l'on upgrade le PC, et que vividata
n'existe plus, on l'a mauvaise...
Je vais aussi essayer l'OCR d'Abbyy et je vous tiens au courant.

Bye



1 2