OCR à documents écrits à la machine à écrire

Le
Sever P A
=_Part_13136_16601565.1229619817026
Content-Type: text/plain; charset=ISO-8859-1
Content-Transfer-Encoding: quoted-printable
Content-Disposition: inline

Bonjour à tous,

Voici que je dois passer le OCR (Optical Character Recognition) à plusier=
s
documents écrits ça fait longtemps à la machine à écrire. Ce sont=
en
français, donc une fois convertis à pdf, je viens de prouver le *tesser=
act*
français et le résultat a été désastreux. La chose a pu millorer =
un peu en
utilisant le *GOCR*, mais le résultat obtenu a été également inacce=
ptable

Pouvez me recommander un outil un peu plus adéquate à cet tâche ?

Merci en avance

Sev.

=_Part_13136_16601565.1229619817026
Content-Type: text/html; charset=ISO-8859-1
Content-Transfer-Encoding: quoted-printable
Content-Disposition: inline

Bonjour à tous,<br><br>Voici que je dois passer le OCR (Optical Character=
Recognition) à plusiers documents écrits ça fait longtemps à la ma=
chine à écrire. Ce sont en français, donc une fois convertis à pdf,=
je viens de prouver le *tesseract* français et le résultat a été d=
ésastreux. La chose a pu millorer un peu en utilisant le *GOCR*, mais le =
résultat obtenu a été également inacceptable<br>
<br>Pouvez me recommander un outil un peu plus adéquate à cet tâche ?=
<br><br>Merci en avance<br><br>Sev.<br><br><br>

=_Part_13136_16601565.1229619817026--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Alain Vaugham
Le #18175451
--nextPart1977697.M7GTC3yED4
Content-Type: text/plain;
charset="utf-8"
Content-Transfer-Encoding: quoted-printable
Content-Disposition: inline

Le jeudi 18 décembre 2008 18:03, Sever P A a écrit :
| français et le résultat a été désastreux. La cho se a pu millorer un peu en
| utilisant le *GOCR*, mais le résultat obtenu a été ég alement
| inacceptable...
|
| Pouvez me recommander un outil un peu plus adéquate à cet tà ¢che ?

Je n'ai pas de réponse précise. Désolé.
Juste un retour d'expérience. Peut-être HS.

Avec des outils non libres, moi non plus je n'ai jamais eu de résultat s
satisfaisants même si les pièces à scanner ne comportaient q ue les
cinquante/soixante caractères les plus utilisés de la langue angl aise.

Les résulats les moins mauvais étaient obtenus si l'alignement ho rizontal
des lignes à "OCRiser" était le plus horizontal possible par rapp ort à
l'alignement du scanner. Le changement de graisse, les séquences avec des
points ou des virgules était très mal reconnus ainsi que les docu ments
ayant un faible contraste.
Bref : totalement inexploitables.

Mes tentatives se sont donc arrêtées mais récemment j'ai ren contré des gens
qui traitaient des fax. Le traitement consistait à "OCRiser" une zone
prédéfinie afin de repérer un identifiant précis à partir d'un numéro de
fax commun. Le texte extrait permettait de rédiger automatiquement un email
avec le fax en pièce jointe et de le transmettre à son seul desti nataire.

Si il est possible d'obtenir un très bon résultat à partir d 'une
reconnaissance sur une petite zone alors peut-être est-ce une voie de
recherche?

Je serai très intéressé par le résultat de tes futures recherches.

--
Cordialement,

Alain Vaugham
--------------------------------------------------------
[PUB] Signature numérique GPG de ce courrier: 0xD26D18BC

--nextPart1977697.M7GTC3yED4
Content-Type: application/pgp-signature

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.6 (GNU/Linux)

iD8DBQBJSsyklMPLZNJtGLwRAqWqAJ9/EC+iumAmIcZA5NvvbKbpKn5qoACgz8F3
uhq4NxOKRvIqRFTtGARjipo =pJbu
-----END PGP SIGNATURE-----

--nextPart1977697.M7GTC3yED4--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Iznogood
Le #18175741
Le Thu, 18 Dec 2008 23:20:17 +0100
Alain Vaugham
Le jeudi 18 décembre 2008 18:03, Sever P A a écrit :
| français et le résultat a été désastreux. La c hose a pu millorer un peu en
| utilisant le *GOCR*, mais le résultat obtenu a été à ©galement
| inacceptable...
|
| Pouvez me recommander un outil un peu plus adéquate à cet t âche ?

Je n'ai pas de réponse précise. Désolé.
Juste un retour d'expérience. Peut-être HS.



tesseract sous ubuntu


Avec des outils non libres, moi non plus je n'ai jamais eu de résult ats
satisfaisants même si les pièces à scanner ne comportaient que les
cinquante/soixante caractères les plus utilisés de la langue an glaise.

Les résulats les moins mauvais étaient obtenus si l'alignement horizontal
des lignes à "OCRiser" était le plus horizontal possible par ra pport à
l'alignement du scanner. Le changement de graisse, les séquences ave c des
points ou des virgules était très mal reconnus ainsi que les do cuments
ayant un faible contraste.
Bref : totalement inexploitables.

Mes tentatives se sont donc arrêtées mais récemment j'ai r encontré des gens
qui traitaient des fax. Le traitement consistait à "OCRiser" une zon e
prédéfinie afin de repérer un identifiant précis à   partir d'un numéro de
fax commun. Le texte extrait permettait de rédiger automatiquement u n email
avec le fax en pièce jointe et de le transmettre à son seul des tinataire.

Si il est possible d'obtenir un très bon résultat à partir d'une
reconnaissance sur une petite zone alors peut-être est-ce une voie d e
recherche?

Je serai très intéressé par le résultat de tes future s recherches.

--
Cordialement,

Alain Vaugham
--------------------------------------------------------
[PUB] Signature numérique GPG de ce courrier: 0xD26D18BC



--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Gaëtan PERRIER
Le #18175881
Le Thu, 18 Dec 2008 18:03:37 +0100
"Sever P A"
Bonjour à tous,

Voici que je dois passer le OCR (Optical Character Recognition) à plusiers
documents écrits ça fait longtemps à la machine à écrire. Ce sont en
français, donc une fois convertis à pdf, je viens de prouver le *tesseract*
français et le résultat a été désastreux. La chose a pu millorer un peu en
utilisant le *GOCR*, mais le résultat obtenu a été également inacceptable...

Pouvez me recommander un outil un peu plus adéquate à cet tâche ?




apt-get install tesseract-ocr dispo sous debian

marche vraiment bien.

Gaëtan

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Daniel Caillibaud
Le #18206891
Gaëtan PERRIER a écrit :
[...] je viens de prouver le *tesseract* français et le résultat a été désastreux. [...]

Pouvez me recommander un outil un peu plus adéquate à cet tâche ?



apt-get install tesseract-ocr



C'est la blague du vendredi où il y a des cas où tesseract fonctionne ?

--
Daniel

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Iznogood
Le #18207141
Le Tue, 23 Dec 2008 10:22:12 +0100
Daniel Caillibaud
Gaëtan PERRIER a écrit :
>> [...] je viens de prouver le *tesseract* français et le résu ltat a été désastreux. [...]
>>
>> Pouvez me recommander un outil un peu plus adéquate à cet t âche ?
>
> apt-get install tesseract-ocr

C'est la blague du vendredi où il y a des cas où tesseract fonc tionne ?



Il fonctionne très bien mais n'accepte que du .tif et si possible noir
et blanc


--
Daniel

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact .org




--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Alexandre
Le #18217191
(3ème envoi du même mail... je ne comprends pas que je n'arrive pas à
poster sur la liste...)

Le mardi 23 décembre de l'année 2008, vers 10 heures et 22 minutes,
Daniel Caillibaud écrivait:
Gaëtan PERRIER a écrit :
[...] je viens de prouver le *tesseract* français et le résultat a
été désastreux. [...]

Pouvez me recommander un outil un peu plus adéquate à cet tâche ?



apt-get install tesseract-ocr



C'est la blague du vendredi où il y a des cas où tesseract fonctionne
?




je viens de tester un document de 3 pages scanné en pdf

convert -density 300 image.pdf image.tif
tesseract image.tif essai -l fra
résultat: près de 1% d'erreurs!

par contre si j'utilise la commande:
convert image.pdf image.tif : 100% d'erreurs

convert -density 150 image.pdf image.tif : 50% d'erreurs
...


Donc tout dépend de la qualité du tif au départ.


--
---()()()----()()()----()()()--)()()(----)()()(----)()()(---
-()----()--()-()-----()----()--)(----)(-----)(-)(--)(----)(-
()----()----()()()----()()()----)()()(----)()()(----)(----)(

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Publicité
Poster une réponse
Anonyme