OCR à documents écrits à la machine à écrire

Alain Vaugham

18/12/2008 à 23:30

--nextPart1977697.M7GTC3yED4
Content-Type: text/plain;
charset="utf-8"
Content-Transfer-Encoding: quoted-printable
Content-Disposition: inline

Le jeudi 18 dÃ©cembre 2008 18:03, Sever P A a Ã©critÂ :
| franÃ§ais et le rÃ©sultat a Ã©tÃ© dÃ©sastreux. La cho se a pu millorer un peu en
| utilisant le *GOCR*, mais le rÃ©sultat obtenu a Ã©tÃ© Ã©g alement
| inacceptable...
|
| Pouvez me recommander un outil un peu plus adÃ©quate Ã cet tÃ ¢che ?

Je n'ai pas de rÃ©ponse prÃ©cise. DÃ©solÃ©.
Juste un retour d'expÃ©rience. Peut-Ãªtre HS.

Avec des outils non libres, moi non plus je n'ai jamais eu de rÃ©sultat s
satisfaisants mÃªme si les piÃ¨ces Ã scanner ne comportaient q ue les
cinquante/soixante caractÃ¨res les plus utilisÃ©s de la langue angl aise.

Les rÃ©sulats les moins mauvais Ã©taient obtenus si l'alignement ho rizontal
des lignes Ã "OCRiser" Ã©tait le plus horizontal possible par rapp ort Ã
l'alignement du scanner. Le changement de graisse, les sÃ©quences avec des
points ou des virgules Ã©tait trÃ¨s mal reconnus ainsi que les docu ments
ayant un faible contraste.
Bref : totalement inexploitables.

Mes tentatives se sont donc arrÃªtÃ©es mais rÃ©cemment j'ai ren contrÃ© des gens
qui traitaient des fax. Le traitement consistait Ã "OCRiser" une zone
prÃ©dÃ©finie afin de repÃ©rer un identifiant prÃ©cis Ã partir d'un numÃ©ro de
fax commun. Le texte extrait permettait de rÃ©diger automatiquement un email
avec le fax en piÃ¨ce jointe et de le transmettre Ã son seul desti nataire.

Si il est possible d'obtenir un trÃ¨s bon rÃ©sultat Ã partir d 'une
reconnaissance sur une petite zone alors peut-Ãªtre est-ce une voie de
recherche?

Je serai trÃ¨s intÃ©ressÃ© par le rÃ©sultat de tes futures recherches.

--
Cordialement,

Alain Vaugham
--------------------------------------------------------
[PUB] Signature numÃ©rique GPG de ce courrier: 0xD26D18BC

--nextPart1977697.M7GTC3yED4
Content-Type: application/pgp-signature

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.6 (GNU/Linux)

iD8DBQBJSsyklMPLZNJtGLwRAqWqAJ9/EC+iumAmIcZA5NvvbKbpKn5qoACgz8F3
uhq4NxOKRvIqRFTtGARjipo =pJbu
-----END PGP SIGNATURE-----

--nextPart1977697.M7GTC3yED4--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact

--nextPart1977697.M7GTC3yED4
Content-Type: text/plain;
charset="utf-8"
Content-Transfer-Encoding: quoted-printable
Content-Disposition: inline

Le jeudi 18 dÃ©cembre 2008 18:03, Sever P A a Ã©critÂ :
| franÃ§ais et le rÃ©sultat a Ã©tÃ© dÃ©sastreux. La cho se a pu millorer un peu en
| utilisant le *GOCR*, mais le rÃ©sultat obtenu a Ã©tÃ© Ã©g alement
| inacceptable...
|
| Pouvez me recommander un outil un peu plus adÃ©quate Ã cet tÃ ¢che ?

Je n'ai pas de rÃ©ponse prÃ©cise. DÃ©solÃ©.
Juste un retour d'expÃ©rience. Peut-Ãªtre HS.

Avec des outils non libres, moi non plus je n'ai jamais eu de rÃ©sultat s
satisfaisants mÃªme si les piÃ¨ces Ã scanner ne comportaient q ue les
cinquante/soixante caractÃ¨res les plus utilisÃ©s de la langue angl aise.

Les rÃ©sulats les moins mauvais Ã©taient obtenus si l'alignement ho rizontal
des lignes Ã "OCRiser" Ã©tait le plus horizontal possible par rapp ort Ã
l'alignement du scanner. Le changement de graisse, les sÃ©quences avec des
points ou des virgules Ã©tait trÃ¨s mal reconnus ainsi que les docu ments
ayant un faible contraste.
Bref : totalement inexploitables.

Mes tentatives se sont donc arrÃªtÃ©es mais rÃ©cemment j'ai ren contrÃ© des gens
qui traitaient des fax. Le traitement consistait Ã "OCRiser" une zone
prÃ©dÃ©finie afin de repÃ©rer un identifiant prÃ©cis Ã partir d'un numÃ©ro de
fax commun. Le texte extrait permettait de rÃ©diger automatiquement un email
avec le fax en piÃ¨ce jointe et de le transmettre Ã son seul desti nataire.

Si il est possible d'obtenir un trÃ¨s bon rÃ©sultat Ã partir d 'une
reconnaissance sur une petite zone alors peut-Ãªtre est-ce une voie de
recherche?

Je serai trÃ¨s intÃ©ressÃ© par le rÃ©sultat de tes futures recherches.

--
Cordialement,

Alain Vaugham
--------------------------------------------------------
[PUB] Signature numÃ©rique GPG de ce courrier: 0xD26D18BC

--nextPart1977697.M7GTC3yED4
Content-Type: application/pgp-signature

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.6 (GNU/Linux)

iD8DBQBJSsyklMPLZNJtGLwRAqWqAJ9/EC+iumAmIcZA5NvvbKbpKn5qoACgz8F3
uhq4NxOKRvIqRFTtGARjipo =pJbu
-----END PGP SIGNATURE-----

--nextPart1977697.M7GTC3yED4--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org

Vous avez filtré cet utilisateur ! Consultez son message

--nextPart1977697.M7GTC3yED4
Content-Type: text/plain;
charset="utf-8"
Content-Transfer-Encoding: quoted-printable
Content-Disposition: inline

Le jeudi 18 dÃ©cembre 2008 18:03, Sever P A a Ã©critÂ :
| franÃ§ais et le rÃ©sultat a Ã©tÃ© dÃ©sastreux. La cho se a pu millorer un peu en
| utilisant le *GOCR*, mais le rÃ©sultat obtenu a Ã©tÃ© Ã©g alement
| inacceptable...
|
| Pouvez me recommander un outil un peu plus adÃ©quate Ã cet tÃ ¢che ?

Je n'ai pas de rÃ©ponse prÃ©cise. DÃ©solÃ©.
Juste un retour d'expÃ©rience. Peut-Ãªtre HS.

Avec des outils non libres, moi non plus je n'ai jamais eu de rÃ©sultat s
satisfaisants mÃªme si les piÃ¨ces Ã scanner ne comportaient q ue les
cinquante/soixante caractÃ¨res les plus utilisÃ©s de la langue angl aise.

Les rÃ©sulats les moins mauvais Ã©taient obtenus si l'alignement ho rizontal
des lignes Ã "OCRiser" Ã©tait le plus horizontal possible par rapp ort Ã
l'alignement du scanner. Le changement de graisse, les sÃ©quences avec des
points ou des virgules Ã©tait trÃ¨s mal reconnus ainsi que les docu ments
ayant un faible contraste.
Bref : totalement inexploitables.

Mes tentatives se sont donc arrÃªtÃ©es mais rÃ©cemment j'ai ren contrÃ© des gens
qui traitaient des fax. Le traitement consistait Ã "OCRiser" une zone
prÃ©dÃ©finie afin de repÃ©rer un identifiant prÃ©cis Ã partir d'un numÃ©ro de
fax commun. Le texte extrait permettait de rÃ©diger automatiquement un email
avec le fax en piÃ¨ce jointe et de le transmettre Ã son seul desti nataire.

Si il est possible d'obtenir un trÃ¨s bon rÃ©sultat Ã partir d 'une
reconnaissance sur une petite zone alors peut-Ãªtre est-ce une voie de
recherche?

Je serai trÃ¨s intÃ©ressÃ© par le rÃ©sultat de tes futures recherches.

--
Cordialement,

Alain Vaugham
--------------------------------------------------------
[PUB] Signature numÃ©rique GPG de ce courrier: 0xD26D18BC

--nextPart1977697.M7GTC3yED4
Content-Type: application/pgp-signature

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.6 (GNU/Linux)

iD8DBQBJSsyklMPLZNJtGLwRAqWqAJ9/EC+iumAmIcZA5NvvbKbpKn5qoACgz8F3
uhq4NxOKRvIqRFTtGARjipo =pJbu
-----END PGP SIGNATURE-----

--nextPart1977697.M7GTC3yED4--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact

Iznogood

19/12/2008 à 00:10

Le Thu, 18 Dec 2008 23:20:17 +0100
Alain Vaugham a Ã©crit :

Le jeudi 18 dÃ©cembre 2008 18:03, Sever P A a Ã©critÂ :
| franÃ§ais et le rÃ©sultat a Ã©tÃ© dÃ©sastreux. La c hose a pu millorer un peu en
| utilisant le *GOCR*, mais le rÃ©sultat obtenu a Ã©tÃ© Ã ©galement
| inacceptable...
|
| Pouvez me recommander un outil un peu plus adÃ©quate Ã cet t Ã¢che ?

Je n'ai pas de rÃ©ponse prÃ©cise. DÃ©solÃ©.
Juste un retour d'expÃ©rience. Peut-Ãªtre HS.

tesseract sous ubuntu

Avec des outils non libres, moi non plus je n'ai jamais eu de rÃ©sult ats
satisfaisants mÃªme si les piÃ¨ces Ã scanner ne comportaient que les
cinquante/soixante caractÃ¨res les plus utilisÃ©s de la langue an glaise.

Les rÃ©sulats les moins mauvais Ã©taient obtenus si l'alignement horizontal
des lignes Ã "OCRiser" Ã©tait le plus horizontal possible par ra pport Ã
l'alignement du scanner. Le changement de graisse, les sÃ©quences ave c des
points ou des virgules Ã©tait trÃ¨s mal reconnus ainsi que les do cuments
ayant un faible contraste.
Bref : totalement inexploitables.

Mes tentatives se sont donc arrÃªtÃ©es mais rÃ©cemment j'ai r encontrÃ© des gens
qui traitaient des fax. Le traitement consistait Ã "OCRiser" une zon e
prÃ©dÃ©finie afin de repÃ©rer un identifiant prÃ©cis Ã partir d'un numÃ©ro de
fax commun. Le texte extrait permettait de rÃ©diger automatiquement u n email
avec le fax en piÃ¨ce jointe et de le transmettre Ã son seul des tinataire.

Si il est possible d'obtenir un trÃ¨s bon rÃ©sultat Ã partir d'une
reconnaissance sur une petite zone alors peut-Ãªtre est-ce une voie d e
recherche?

Je serai trÃ¨s intÃ©ressÃ© par le rÃ©sultat de tes future s recherches.

--
Cordialement,

Alain Vaugham
--------------------------------------------------------
[PUB] Signature numÃ©rique GPG de ce courrier: 0xD26D18BC

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact

Le Thu, 18 Dec 2008 23:20:17 +0100
Alain Vaugham <alain@vaugham.com> a Ã©crit :

Le jeudi 18 dÃ©cembre 2008 18:03, Sever P A a Ã©critÂ :
| franÃ§ais et le rÃ©sultat a Ã©tÃ© dÃ©sastreux. La c hose a pu millorer un peu en
| utilisant le *GOCR*, mais le rÃ©sultat obtenu a Ã©tÃ© Ã ©galement
| inacceptable...
|
| Pouvez me recommander un outil un peu plus adÃ©quate Ã cet t Ã¢che ?

Je n'ai pas de rÃ©ponse prÃ©cise. DÃ©solÃ©.
Juste un retour d'expÃ©rience. Peut-Ãªtre HS.

tesseract sous ubuntu

Avec des outils non libres, moi non plus je n'ai jamais eu de rÃ©sult ats
satisfaisants mÃªme si les piÃ¨ces Ã scanner ne comportaient que les
cinquante/soixante caractÃ¨res les plus utilisÃ©s de la langue an glaise.

Les rÃ©sulats les moins mauvais Ã©taient obtenus si l'alignement horizontal
des lignes Ã "OCRiser" Ã©tait le plus horizontal possible par ra pport Ã
l'alignement du scanner. Le changement de graisse, les sÃ©quences ave c des
points ou des virgules Ã©tait trÃ¨s mal reconnus ainsi que les do cuments
ayant un faible contraste.
Bref : totalement inexploitables.

Mes tentatives se sont donc arrÃªtÃ©es mais rÃ©cemment j'ai r encontrÃ© des gens
qui traitaient des fax. Le traitement consistait Ã "OCRiser" une zon e
prÃ©dÃ©finie afin de repÃ©rer un identifiant prÃ©cis Ã partir d'un numÃ©ro de
fax commun. Le texte extrait permettait de rÃ©diger automatiquement u n email
avec le fax en piÃ¨ce jointe et de le transmettre Ã son seul des tinataire.

Si il est possible d'obtenir un trÃ¨s bon rÃ©sultat Ã partir d'une
reconnaissance sur une petite zone alors peut-Ãªtre est-ce une voie d e
recherche?

Je serai trÃ¨s intÃ©ressÃ© par le rÃ©sultat de tes future s recherches.

--
Cordialement,

Alain Vaugham
--------------------------------------------------------
[PUB] Signature numÃ©rique GPG de ce courrier: 0xD26D18BC

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org

Vous avez filtré cet utilisateur ! Consultez son message

Le Thu, 18 Dec 2008 23:20:17 +0100
Alain Vaugham a Ã©crit :

Le jeudi 18 dÃ©cembre 2008 18:03, Sever P A a Ã©critÂ :
| franÃ§ais et le rÃ©sultat a Ã©tÃ© dÃ©sastreux. La c hose a pu millorer un peu en
| utilisant le *GOCR*, mais le rÃ©sultat obtenu a Ã©tÃ© Ã ©galement
| inacceptable...
|
| Pouvez me recommander un outil un peu plus adÃ©quate Ã cet t Ã¢che ?

Je n'ai pas de rÃ©ponse prÃ©cise. DÃ©solÃ©.
Juste un retour d'expÃ©rience. Peut-Ãªtre HS.

tesseract sous ubuntu

Avec des outils non libres, moi non plus je n'ai jamais eu de rÃ©sult ats
satisfaisants mÃªme si les piÃ¨ces Ã scanner ne comportaient que les
cinquante/soixante caractÃ¨res les plus utilisÃ©s de la langue an glaise.

Les rÃ©sulats les moins mauvais Ã©taient obtenus si l'alignement horizontal
des lignes Ã "OCRiser" Ã©tait le plus horizontal possible par ra pport Ã
l'alignement du scanner. Le changement de graisse, les sÃ©quences ave c des
points ou des virgules Ã©tait trÃ¨s mal reconnus ainsi que les do cuments
ayant un faible contraste.
Bref : totalement inexploitables.

Mes tentatives se sont donc arrÃªtÃ©es mais rÃ©cemment j'ai r encontrÃ© des gens
qui traitaient des fax. Le traitement consistait Ã "OCRiser" une zon e
prÃ©dÃ©finie afin de repÃ©rer un identifiant prÃ©cis Ã partir d'un numÃ©ro de
fax commun. Le texte extrait permettait de rÃ©diger automatiquement u n email
avec le fax en piÃ¨ce jointe et de le transmettre Ã son seul des tinataire.

Si il est possible d'obtenir un trÃ¨s bon rÃ©sultat Ã partir d'une
reconnaissance sur une petite zone alors peut-Ãªtre est-ce une voie d e
recherche?

Je serai trÃ¨s intÃ©ressÃ© par le rÃ©sultat de tes future s recherches.

--
Cordialement,

Alain Vaugham
--------------------------------------------------------
[PUB] Signature numÃ©rique GPG de ce courrier: 0xD26D18BC

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact

Gaëtan PERRIER

19/12/2008 à 00:20

Le Thu, 18 Dec 2008 18:03:37 +0100
"Sever P A" a écrit:

Bonjour à tous,

Voici que je dois passer le OCR (Optical Character Recognition) à plusiers
documents écrits ça fait longtemps à la machine à écrire. Ce sont en
français, donc une fois convertis à pdf, je viens de prouver le *tesseract*
français et le résultat a été désastreux. La chose a pu millorer un peu en
utilisant le *GOCR*, mais le résultat obtenu a été également inacceptable...

Pouvez me recommander un outil un peu plus adéquate à cet tâche ?

apt-get install tesseract-ocr dispo sous debian

marche vraiment bien.

Gaëtan

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact

Daniel Caillibaud

23/12/2008 à 10:30

Gaëtan PERRIER a écrit :

[...] je viens de prouver le *tesseract* français et le résultat a été désastreux. [...]

Pouvez me recommander un outil un peu plus adéquate à cet tâche ?

apt-get install tesseract-ocr

C'est la blague du vendredi où il y a des cas où tesseract fonctionne ?

--
Daniel

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact

Iznogood

23/12/2008 à 10:50

GaÃ«tan PERRIER a Ã©crit :
>> [...] je viens de prouver le *tesseract* franÃ§ais et le rÃ©su ltat a Ã©tÃ© dÃ©sastreux. [...]
>>
>> Pouvez me recommander un outil un peu plus adÃ©quate Ã cet t Ã¢che ?
>
> apt-get install tesseract-ocr

C'est la blague du vendredi oÃ¹ il y a des cas oÃ¹ tesseract fonc tionne ?

Il fonctionne trÃ¨s bien mais n'accepte que du .tif et si possible noir
et blanc

--
Daniel

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact .org

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact

Alexandre

24/12/2008 à 20:00

(3ème envoi du même mail... je ne comprends pas que je n'arrive pas à
poster sur la liste...)

Le mardi 23 décembre de l'année 2008, vers 10 heures et 22 minutes,
Daniel Caillibaud écrivait:

Gaëtan PERRIER a écrit :
[...] je viens de prouver le *tesseract* français et le résultat a
été désastreux. [...]

Pouvez me recommander un outil un peu plus adéquate à cet tâche ?

apt-get install tesseract-ocr

C'est la blague du vendredi où il y a des cas où tesseract fonctionne
?

je viens de tester un document de 3 pages scanné en pdf

convert -density 300 image.pdf image.tif
tesseract image.tif essai -l fra
résultat: près de 1% d'erreurs!

par contre si j'utilise la commande:
convert image.pdf image.tif : 100% d'erreurs

convert -density 150 image.pdf image.tif : 50% d'erreurs
...

Donc tout dépend de la qualité du tif au départ.

--
---()()()----()()()----()()()--)()()(----)()()(----)()()(---
-()----()--()-()-----()----()--)(----)(-----)(-)(--)(----)(-
()----()----()()()----()()()----)()()(----)()()(----)(----)(

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact

OCR à documents écrits à la machine à écrire

6 réponses

Veuillez sélectionner un problème