pdf sans texte

11 réponses

wcth

17/04/2012 à 16:13

Bonjour,

Certains pdf ne contiennent pas de texte (par exemple des scans). Donc
"pdftotext" appliqué à ces pdf ne donne rien.
Existe-t'il un logiciel (un script ?) permettant de créer un texte à
partir d'un pdf (en utilisant un logiciel d'OCR appliqué à chaque page)
et créant un nouveau pdf de même apparence que l'ancien mais contenant
le texte ?

Merci

10 réponses

1 2

jacques_guezenec

17/04/2012 à 17:37

Le 17/04/2012 16:13, wcth a écrit :

Bonjour,

Certains pdf ne contiennent pas de texte (par exemple des scans). Donc
"pdftotext" appliqué à ces pdf ne donne rien.
Existe-t'il un logiciel (un script ?) permettant de créer un texte à
partir d'un pdf (en utilisant un logiciel d'OCR appliqué à chaque page)
et créant un nouveau pdf de même apparence que l'ancien mais contenant
le texte ?

Merci

Seule solution que j'ai trouvé à ce jour: passer pour un fois sous
Windows et faire un OCR (Finereader, Omnipage).
Si quelqu'un a une solution sous Linux, je suis aussi preneur... (Les
OCR sous Linux sont en dessous de tout pour le moment, du moins les 5 ou
6 que j'ai testé).
Sur le web, il y a des sites de conversion (http://convertpdftoword.net/
par exemple). Mais avec un résultat peu convaincant.

Sergio

17/04/2012 à 18:30

Le Tue, 17 Apr 2012 17:37:27 +0200, jacques_guezenec a écrit :

Seule solution que j'ai trouvé à ce jour: passer pour un fois sous
Windows et faire un OCR (Finereader, Omnipage). Si quelqu'un a une
solution sous Linux, je suis aussi preneur... (Les OCR sous Linux sont
en dessous de tout pour le moment, du moins les 5 ou 6 que j'ai testé).

J'utilise Cuneiform (dans les dépôts Ubuntu). Il fait une assez bonne
reconnaissance et gère bien le français (et autres langues[¹]). Bien sûr,
il faut l'interfacer avec une clicodrome... Par exemple, ça marche bien
avec XSane.

[¹]Pour les russophiles, il a été développé pas des russes, donc pas de
problème avec la langue de Bakounine.
--
Serge http://leserged.online.fr/
Mon blog: http://cahierdesergio.free.fr/
Soutenez le libre: http://www.framasoft.org

geo cherchetout

17/04/2012 à 18:54

Le 17/04/2012 17:37, *jacques_guezenec* a écrit fort à propos :

Seule solution que j'ai trouvé à ce jour: passer pour un fois sous
Windows et faire un OCR (Finereader, Omnipage).
Si quelqu'un a une solution sous Linux, je suis aussi preneur... (Les
OCR sous Linux sont en dessous de tout pour le moment, du moins les 5 ou
6 que j'ai testé).

Abbyy propose une version de FineReader pour linux, qui s'utilise en ligne
de commande. Hélas, trop cher pour moi, mais pas forcément pour toi...
http://france.abbyy.com/ocr_sdk_linux/overview/

jacques_guezenec

17/04/2012 à 21:56

Le 17/04/2012 18:54, geo cherchetout a écrit :

Le 17/04/2012 17:37, *jacques_guezenec* a écrit fort à propos :

Seule solution que j'ai trouvé à ce jour: passer pour un fois sous
Windows et faire un OCR (Finereader, Omnipage).
Si quelqu'un a une solution sous Linux, je suis aussi preneur... (Les
OCR sous Linux sont en dessous de tout pour le moment, du moins les 5 ou
6 que j'ai testé).

Abbyy propose une version de FineReader pour linux, qui s'utilise en
ligne de commande. Hélas, trop cher pour moi, mais pas forcément pour
toi...
http://france.abbyy.com/ocr_sdk_linux/overview/

Si si, beaucoup trop chère pour moi :-)
Les versions Windows me viennent du bureau (et sont assez anciennes,
mais bon).

Emmanuel Florac

21/04/2012 à 21:06

Le Tue, 17 Apr 2012 16:30:31 +0000, Sergio a écrit:

J'utilise Cuneiform (dans les dépôts Ubuntu). Il fait une assez bonne
reconnaissance et gère bien le français (et autres langues[¹]). Bien
sûr, il faut l'interfacer avec une clicodrome... Par exemple, ça marche
bien avec XSane.

Intéressant, j'avais justement testé avec tesseract de google (qu'ils
utilisent a priori donc doit fonctionner) et les résultats sont
absolument inexploitables... À voir avec celui ci donc.

--
I am not a vegetarian because I love animals; I am a vegetarian
because I hate plants.
A. Whitney Brown

Fabien LE LEZ

22/04/2012 à 01:43

On 21 Apr 2012 19:06:47 GMT, Emmanuel Florac :

j'avais justement testé avec tesseract de google (qu'ils
utilisent a priori donc doit fonctionner) et les résultats sont
absolument inexploitables...

Si je ne m'abuse, Tesseract ne s'occupe que de la partie
"reconnaissance de caractères". Il faut donc une étape de filtrage
avant.
(Je me goure peut-être ; j'ai regardé tout ça d'assez loin.)

Emmanuel Florac

22/04/2012 à 17:44

Le Sun, 22 Apr 2012 01:43:33 +0200, Fabien LE LEZ a écrit:

Si je ne m'abuse, Tesseract ne s'occupe que de la partie "reconnaissance
de caractères". Il faut donc une étape de filtrage avant. (Je me goure
peut-être ; j'ai regardé tout ça d'assez loin.)

Ça expliquerait le caractère particulièrement immonde des résultats, je
n'ai pas réussi mieux que reconnaître un caractère de loin en loin :)

--
Ce qu'il y a d'enivrant dans le mauvais goût c'est le plaisir
aristocratique de déplaire.
C. Baudelaire.

JKB

22/04/2012 à 19:13

Le 22 Apr 2012 15:44:35 GMT,
Emmanuel Florac écrivait :

Le Sun, 22 Apr 2012 01:43:33 +0200, Fabien LE LEZ a écrit:

Si je ne m'abuse, Tesseract ne s'occupe que de la partie "reconnaissance
de caractères". Il faut donc une étape de filtrage avant. (Je me goure
peut-être ; j'ai regardé tout ça d'assez loin.)

Ça expliquerait le caractère particulièrement immonde des résultats, je
n'ai pas réussi mieux que reconnaître un caractère de loin en loin :)

Chez moi, ça fonctionne plutôt pas mal... Enfin, il faut le coupler
à un truc comm xsane ou avoir un seul bloc de texte par image.

JKB

--
Si votre demande me parvient sur carte perforée, je titiouaillerai très
volontiers une réponse...
=> http://grincheux.de-charybde-en-scylla.fr

Emmanuel Florac

25/04/2012 à 17:19

Le Sun, 22 Apr 2012 17:13:14 +0000, JKB a écrit:

Chez moi, ça fonctionne plutôt pas mal... Enfin, il faut le coupler à un
truc comm xsane ou avoir un seul bloc de texte par image.

Pitié, explique moi comment tu fais. Ça ne marche absolument pas chez
moi, exemple live, une image JPEG avec des numéros de série (scan de BL),
super contrastée, coupée pour avoir juste le bon texte :

http://i.imgur.com/bJq3D.jpg

Pour info, ça doit donner une série de caractères commençant par HZ1V
comme HZ1VZKGVL, tout en majuscules. Tesseract donne ceci:

nzwxzsl
nnwurm

mx.snvL

rm mm.
nzwml
nnxsm
uzexnul
nzÂ¢vÂ»<zwL
nnxsm
nzmssol
Hzfuzem
mwsm
mxsm

wxr.=.L

uzvLzvL

aÂ¢xsea.

nnxsm
rmwwl
mxsun
Hzvrrm

mvvÂ»/m

nzÂ¢wuuwÂ»

etc. Inutile de dire que ça ne m'aide pas beaucoup pour récupérer les
infos dans les scans ou les fax :)

--
Si non confectus non reficiat.

franssoa

25/04/2012 à 18:16

Le 25. 04. 12 17:19, Emmanuel Florac a écrit :

Pitié, explique moi comment tu fais. Ça ne marche absolument pas chez
moi, exemple live, une image JPEG avec des numéros de série (scan de BL),
super contrastée, coupée pour avoir juste le bon texte :
HZ1VKZGL HZ1VYM.XL HZ1U989L HZ1V3SML

J'ai testé ton image en la passant à 200dpi dans la même taille physique
(de 328x311 pixels à 906x859) et en 1 bit, sauvé en tif, et j'obtiens avec

tesseract a.tif a -l fra

le résultat

HZ1VKZGL HZ1VYM.XL HZ1U989L HZ1V3SML
HZ1WUHML HZ1WUUWL HZ1W60NL HZ1W1L3L
HZ1XSOYL HZ1XT1 NL HZ1XS03L HZ1W6KVL
HZ1N68BL HZ1VYMNL HZ1N5BRL HZ1RTAJL
HZ1VL39L HZ1WUTAL HZ1W5S7L HZ1VZTZL
HZ1XS8ZL HZ1XT09L HZ1W623L HZ1W1YVL
HZ1XTJUL HZ1XT2GL HZ1XS3XL HZ1WJ64L
HZ1VKZWL HZ1WOJHL HZ1VDZ7L HZ1V55EL
HZ1XS12L HZ1XSROL HZ1W60VL HZ1W1LRL
HZ1XSEOL HZ1XT1 PL HZ1XS23L HZ1W9M4L
HZ1U26DL HZ1VYMUL HZ1U8ZDL HZ1UB11L
HZ1W5Y3L HZ1WUTHL HZ1W5SKL HZ1W07JL
HZ1XS9LL HZ1XTOJL HZ1WHF'VL H.Z1W4SKL
HZ1XTL5L HZ1XT3DL HZ1XSKOL HZ1WJAXL
HZ1VL2VL HZ1WUS5L HZ1W24UL HZ1VEPJL
HZ1XSGBL HZ1XT06L HZ1W61PL HZ1W1TPL
HZ1XSY3L HZ1XT23L HZ1XS2NL HZ1WH5NL
HZ1W649L HZ1WUTKL HZ1W5WJL HZ1WOUOL
HZ1XSA8L HZ1XTOLL HZ1XRZWL HZIWBHBL
HZ1XTTPL HZ1XT3GL HZ1XSY2L HZIWFWAL

franssoa

1 2

pdf sans texte

10 réponses

Veuillez sélectionner un problème