pdf sans texte
Le
wcth

Bonjour,
Certains pdf ne contiennent pas de texte (par exemple des scans). Donc
"pdftotext" appliqué à ces pdf ne donne rien.
Existe-t'il un logiciel (un script ?) permettant de créer un texte à
partir d'un pdf (en utilisant un logiciel d'OCR appliqué à chaque page)
et créant un nouveau pdf de même apparence que l'ancien mais contenant
le texte ?
Merci
Certains pdf ne contiennent pas de texte (par exemple des scans). Donc
"pdftotext" appliqué à ces pdf ne donne rien.
Existe-t'il un logiciel (un script ?) permettant de créer un texte à
partir d'un pdf (en utilisant un logiciel d'OCR appliqué à chaque page)
et créant un nouveau pdf de même apparence que l'ancien mais contenant
le texte ?
Merci
Seule solution que j'ai trouvé à ce jour: passer pour un fois sous
Windows et faire un OCR (Finereader, Omnipage).
Si quelqu'un a une solution sous Linux, je suis aussi preneur... (Les
OCR sous Linux sont en dessous de tout pour le moment, du moins les 5 ou
6 que j'ai testé).
Sur le web, il y a des sites de conversion (http://convertpdftoword.net/
par exemple). Mais avec un résultat peu convaincant.
J'utilise Cuneiform (dans les dépôts Ubuntu). Il fait une assez bonne
reconnaissance et gère bien le français (et autres langues[¹]). Bien sûr,
il faut l'interfacer avec une clicodrome... Par exemple, ça marche bien
avec XSane.
[¹]Pour les russophiles, il a été développé pas des russes, donc pas de
problème avec la langue de Bakounine.
--
Serge http://leserged.online.fr/
Mon blog: http://cahierdesergio.free.fr/
Soutenez le libre: http://www.framasoft.org
Abbyy propose une version de FineReader pour linux, qui s'utilise en ligne
de commande. Hélas, trop cher pour moi, mais pas forcément pour toi...
http://france.abbyy.com/ocr_sdk_linux/overview/
Si si, beaucoup trop chère pour moi :-)
Les versions Windows me viennent du bureau (et sont assez anciennes,
mais bon).
Intéressant, j'avais justement testé avec tesseract de google (qu'ils
utilisent a priori donc doit fonctionner) et les résultats sont
absolument inexploitables... À voir avec celui ci donc.
--
I am not a vegetarian because I love animals; I am a vegetarian
because I hate plants.
A. Whitney Brown
Si je ne m'abuse, Tesseract ne s'occupe que de la partie
"reconnaissance de caractères". Il faut donc une étape de filtrage
avant.
(Je me goure peut-être ; j'ai regardé tout ça d'assez loin.)
Ça expliquerait le caractère particulièrement immonde des résultats, je
n'ai pas réussi mieux que reconnaître un caractère de loin en loin :)
--
Ce qu'il y a d'enivrant dans le mauvais goût c'est le plaisir
aristocratique de déplaire.
C. Baudelaire.
Emmanuel Florac
Chez moi, ça fonctionne plutôt pas mal... Enfin, il faut le coupler
à un truc comm xsane ou avoir un seul bloc de texte par image.
JKB
--
Si votre demande me parvient sur carte perforée, je titiouaillerai très
volontiers une réponse...
=> http://grincheux.de-charybde-en-scylla.fr
Pitié, explique moi comment tu fais. Ça ne marche absolument pas chez
moi, exemple live, une image JPEG avec des numéros de série (scan de BL),
super contrastée, coupée pour avoir juste le bon texte :
http://i.imgur.com/bJq3D.jpg
Pour info, ça doit donner une série de caractères commençant par HZ1V
comme HZ1VZKGVL, tout en majuscules. Tesseract donne ceci:
nzwxzsl
nnwurm
rm mm.
nzwml
nnxsm
uzexnul
nz¢v»<zwL
nnxsm
nzmssol
Hzfuzem
mwsm
mxsm
uzvLzvL
nnxsm
rmwwl
mxsun
Hzvrrm
nz¢wuuw»
etc. Inutile de dire que ça ne m'aide pas beaucoup pour récupérer les
infos dans les scans ou les fax :)
--
Si non confectus non reficiat.
J'ai testé ton image en la passant à 200dpi dans la même taille physique
(de 328x311 pixels à 906x859) et en 1 bit, sauvé en tif, et j'obtiens avec
tesseract a.tif a -l fra
le résultat
HZ1VKZGL HZ1VYM.XL HZ1U989L HZ1V3SML
HZ1WUHML HZ1WUUWL HZ1W60NL HZ1W1L3L
HZ1XSOYL HZ1XT1 NL HZ1XS03L HZ1W6KVL
HZ1N68BL HZ1VYMNL HZ1N5BRL HZ1RTAJL
HZ1VL39L HZ1WUTAL HZ1W5S7L HZ1VZTZL
HZ1XS8ZL HZ1XT09L HZ1W623L HZ1W1YVL
HZ1XTJUL HZ1XT2GL HZ1XS3XL HZ1WJ64L
HZ1VKZWL HZ1WOJHL HZ1VDZ7L HZ1V55EL
HZ1XS12L HZ1XSROL HZ1W60VL HZ1W1LRL
HZ1XSEOL HZ1XT1 PL HZ1XS23L HZ1W9M4L
HZ1U26DL HZ1VYMUL HZ1U8ZDL HZ1UB11L
HZ1W5Y3L HZ1WUTHL HZ1W5SKL HZ1W07JL
HZ1XS9LL HZ1XTOJL HZ1WHF'VL H.Z1W4SKL
HZ1XTL5L HZ1XT3DL HZ1XSKOL HZ1WJAXL
HZ1VL2VL HZ1WUS5L HZ1W24UL HZ1VEPJL
HZ1XSGBL HZ1XT06L HZ1W61PL HZ1W1TPL
HZ1XSY3L HZ1XT23L HZ1XS2NL HZ1WH5NL
HZ1W649L HZ1WUTKL HZ1W5WJL HZ1WOUOL
HZ1XSA8L HZ1XTOLL HZ1XRZWL HZIWBHBL
HZ1XTTPL HZ1XT3GL HZ1XSY2L HZIWFWAL
franssoa