pdf sans texte

Le
wcth
Bonjour,

Certains pdf ne contiennent pas de texte (par exemple des scans). Donc
"pdftotext" appliqué à ces pdf ne donne rien.
Existe-t'il un logiciel (un script ?) permettant de créer un texte à
partir d'un pdf (en utilisant un logiciel d'OCR appliqué à chaque page)
et créant un nouveau pdf de même apparence que l'ancien mais contenant
le texte ?

Merci
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses Page 1 / 2
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
jacques_guezenec
Le #24410631
Le 17/04/2012 16:13, wcth a écrit :
Bonjour,

Certains pdf ne contiennent pas de texte (par exemple des scans). Donc
"pdftotext" appliqué à ces pdf ne donne rien.
Existe-t'il un logiciel (un script ?) permettant de créer un texte à
partir d'un pdf (en utilisant un logiciel d'OCR appliqué à chaque page)
et créant un nouveau pdf de même apparence que l'ancien mais contenant
le texte ?

Merci




Seule solution que j'ai trouvé à ce jour: passer pour un fois sous
Windows et faire un OCR (Finereader, Omnipage).
Si quelqu'un a une solution sous Linux, je suis aussi preneur... (Les
OCR sous Linux sont en dessous de tout pour le moment, du moins les 5 ou
6 que j'ai testé).
Sur le web, il y a des sites de conversion (http://convertpdftoword.net/
par exemple). Mais avec un résultat peu convaincant.
Sergio
Le #24410711
Le Tue, 17 Apr 2012 17:37:27 +0200, jacques_guezenec a écrit :

Seule solution que j'ai trouvé à ce jour: passer pour un fois sous
Windows et faire un OCR (Finereader, Omnipage). Si quelqu'un a une
solution sous Linux, je suis aussi preneur... (Les OCR sous Linux sont
en dessous de tout pour le moment, du moins les 5 ou 6 que j'ai testé).



J'utilise Cuneiform (dans les dépôts Ubuntu). Il fait une assez bonne
reconnaissance et gère bien le français (et autres langues[¹]). Bien sûr,
il faut l'interfacer avec une clicodrome... Par exemple, ça marche bien
avec XSane.

[¹]Pour les russophiles, il a été développé pas des russes, donc pas de
problème avec la langue de Bakounine.
--
Serge http://leserged.online.fr/
Mon blog: http://cahierdesergio.free.fr/
Soutenez le libre: http://www.framasoft.org
geo cherchetout
Le #24410771
Le 17/04/2012 17:37, *jacques_guezenec* a écrit fort à propos :

Seule solution que j'ai trouvé à ce jour: passer pour un fois sous
Windows et faire un OCR (Finereader, Omnipage).
Si quelqu'un a une solution sous Linux, je suis aussi preneur... (Les
OCR sous Linux sont en dessous de tout pour le moment, du moins les 5 ou
6 que j'ai testé).



Abbyy propose une version de FineReader pour linux, qui s'utilise en ligne
de commande. Hélas, trop cher pour moi, mais pas forcément pour toi...
http://france.abbyy.com/ocr_sdk_linux/overview/
jacques_guezenec
Le #24410971
Le 17/04/2012 18:54, geo cherchetout a écrit :
Le 17/04/2012 17:37, *jacques_guezenec* a écrit fort à propos :

Seule solution que j'ai trouvé à ce jour: passer pour un fois sous
Windows et faire un OCR (Finereader, Omnipage).
Si quelqu'un a une solution sous Linux, je suis aussi preneur... (Les
OCR sous Linux sont en dessous de tout pour le moment, du moins les 5 ou
6 que j'ai testé).



Abbyy propose une version de FineReader pour linux, qui s'utilise en
ligne de commande. Hélas, trop cher pour moi, mais pas forcément pour
toi...
http://france.abbyy.com/ocr_sdk_linux/overview/


Si si, beaucoup trop chère pour moi :-)
Les versions Windows me viennent du bureau (et sont assez anciennes,
mais bon).
Emmanuel Florac
Le #24421161
Le Tue, 17 Apr 2012 16:30:31 +0000, Sergio a écrit:


J'utilise Cuneiform (dans les dépôts Ubuntu). Il fait une assez bonne
reconnaissance et gère bien le français (et autres langues[¹]). Bien
sûr, il faut l'interfacer avec une clicodrome... Par exemple, ça marche
bien avec XSane.



Intéressant, j'avais justement testé avec tesseract de google (qu'ils
utilisent a priori donc doit fonctionner) et les résultats sont
absolument inexploitables... À voir avec celui ci donc.

--
I am not a vegetarian because I love animals; I am a vegetarian
because I hate plants.
A. Whitney Brown
Fabien LE LEZ
Le #24421571
On 21 Apr 2012 19:06:47 GMT, Emmanuel Florac
j'avais justement testé avec tesseract de google (qu'ils
utilisent a priori donc doit fonctionner) et les résultats sont
absolument inexploitables...



Si je ne m'abuse, Tesseract ne s'occupe que de la partie
"reconnaissance de caractères". Il faut donc une étape de filtrage
avant.
(Je me goure peut-être ; j'ai regardé tout ça d'assez loin.)
Emmanuel Florac
Le #24422461
Le Sun, 22 Apr 2012 01:43:33 +0200, Fabien LE LEZ a écrit:


Si je ne m'abuse, Tesseract ne s'occupe que de la partie "reconnaissance
de caractères". Il faut donc une étape de filtrage avant. (Je me goure
peut-être ; j'ai regardé tout ça d'assez loin.)



Ça expliquerait le caractère particulièrement immonde des résultats, je
n'ai pas réussi mieux que reconnaître un caractère de loin en loin :)

--
Ce qu'il y a d'enivrant dans le mauvais goût c'est le plaisir
aristocratique de déplaire.
C. Baudelaire.
JKB
Le #24422591
Le 22 Apr 2012 15:44:35 GMT,
Emmanuel Florac
Le Sun, 22 Apr 2012 01:43:33 +0200, Fabien LE LEZ a écrit:


Si je ne m'abuse, Tesseract ne s'occupe que de la partie "reconnaissance
de caractères". Il faut donc une étape de filtrage avant. (Je me goure
peut-être ; j'ai regardé tout ça d'assez loin.)



Ça expliquerait le caractère particulièrement immonde des résultats, je
n'ai pas réussi mieux que reconnaître un caractère de loin en loin :)



Chez moi, ça fonctionne plutôt pas mal... Enfin, il faut le coupler
à un truc comm xsane ou avoir un seul bloc de texte par image.

JKB

--
Si votre demande me parvient sur carte perforée, je titiouaillerai très
volontiers une réponse...
=> http://grincheux.de-charybde-en-scylla.fr
Emmanuel Florac
Le #24429561
Le Sun, 22 Apr 2012 17:13:14 +0000, JKB a écrit:

Chez moi, ça fonctionne plutôt pas mal... Enfin, il faut le coupler à un
truc comm xsane ou avoir un seul bloc de texte par image.



Pitié, explique moi comment tu fais. Ça ne marche absolument pas chez
moi, exemple live, une image JPEG avec des numéros de série (scan de BL),
super contrastée, coupée pour avoir juste le bon texte :

http://i.imgur.com/bJq3D.jpg

Pour info, ça doit donner une série de caractères commençant par HZ1V
comme HZ1VZKGVL, tout en majuscules. Tesseract donne ceci:

nzwxzsl
nnwurm
mx.snvL


rm mm.
nzwml
nnxsm
uzexnul
nz¢v»<zwL
nnxsm
nzmssol
Hzfuzem
mwsm
mxsm
wxr.=.L


uzvLzvL
a¢xsea.


nnxsm
rmwwl
mxsun
Hzvrrm
mvv»/m


nz¢wuuw»

etc. Inutile de dire que ça ne m'aide pas beaucoup pour récupérer les
infos dans les scans ou les fax :)

--
Si non confectus non reficiat.
franssoa
Le #24429781
Le 25. 04. 12 17:19, Emmanuel Florac a écrit :
Pitié, explique moi comment tu fais. Ça ne marche absolument pas chez
moi, exemple live, une image JPEG avec des numéros de série (scan de BL),
super contrastée, coupée pour avoir juste le bon texte :
HZ1VKZGL HZ1VYM.XL HZ1U989L HZ1V3SML



J'ai testé ton image en la passant à 200dpi dans la même taille physique
(de 328x311 pixels à 906x859) et en 1 bit, sauvé en tif, et j'obtiens avec

tesseract a.tif a -l fra

le résultat

HZ1VKZGL HZ1VYM.XL HZ1U989L HZ1V3SML
HZ1WUHML HZ1WUUWL HZ1W60NL HZ1W1L3L
HZ1XSOYL HZ1XT1 NL HZ1XS03L HZ1W6KVL
HZ1N68BL HZ1VYMNL HZ1N5BRL HZ1RTAJL
HZ1VL39L HZ1WUTAL HZ1W5S7L HZ1VZTZL
HZ1XS8ZL HZ1XT09L HZ1W623L HZ1W1YVL
HZ1XTJUL HZ1XT2GL HZ1XS3XL HZ1WJ64L
HZ1VKZWL HZ1WOJHL HZ1VDZ7L HZ1V55EL
HZ1XS12L HZ1XSROL HZ1W60VL HZ1W1LRL
HZ1XSEOL HZ1XT1 PL HZ1XS23L HZ1W9M4L
HZ1U26DL HZ1VYMUL HZ1U8ZDL HZ1UB11L
HZ1W5Y3L HZ1WUTHL HZ1W5SKL HZ1W07JL
HZ1XS9LL HZ1XTOJL HZ1WHF'VL H.Z1W4SKL
HZ1XTL5L HZ1XT3DL HZ1XSKOL HZ1WJAXL
HZ1VL2VL HZ1WUS5L HZ1W24UL HZ1VEPJL
HZ1XSGBL HZ1XT06L HZ1W61PL HZ1W1TPL
HZ1XSY3L HZ1XT23L HZ1XS2NL HZ1WH5NL
HZ1W649L HZ1WUTKL HZ1W5WJL HZ1WOUOL
HZ1XSA8L HZ1XTOLL HZ1XRZWL HZIWBHBL
HZ1XTTPL HZ1XT3GL HZ1XSY2L HZIWFWAL


franssoa
Publicité
Poster une réponse
Anonyme