Certains pdf ne contiennent pas de texte (par exemple des scans). Donc
"pdftotext" appliqué à ces pdf ne donne rien.
Existe-t'il un logiciel (un script ?) permettant de créer un texte à
partir d'un pdf (en utilisant un logiciel d'OCR appliqué à chaque page)
et créant un nouveau pdf de même apparence que l'ancien mais contenant
le texte ?
Certains pdf ne contiennent pas de texte (par exemple des scans). Donc "pdftotext" appliqué à ces pdf ne donne rien. Existe-t'il un logiciel (un script ?) permettant de créer un texte à partir d'un pdf (en utilisant un logiciel d'OCR appliqué à chaque page) et créant un nouveau pdf de même apparence que l'ancien mais contenant le texte ?
Merci
Seule solution que j'ai trouvé à ce jour: passer pour un fois sous Windows et faire un OCR (Finereader, Omnipage). Si quelqu'un a une solution sous Linux, je suis aussi preneur... (Les OCR sous Linux sont en dessous de tout pour le moment, du moins les 5 ou 6 que j'ai testé). Sur le web, il y a des sites de conversion (http://convertpdftoword.net/ par exemple). Mais avec un résultat peu convaincant.
Le 17/04/2012 16:13, wcth a écrit :
Bonjour,
Certains pdf ne contiennent pas de texte (par exemple des scans). Donc
"pdftotext" appliqué à ces pdf ne donne rien.
Existe-t'il un logiciel (un script ?) permettant de créer un texte à
partir d'un pdf (en utilisant un logiciel d'OCR appliqué à chaque page)
et créant un nouveau pdf de même apparence que l'ancien mais contenant
le texte ?
Merci
Seule solution que j'ai trouvé à ce jour: passer pour un fois sous
Windows et faire un OCR (Finereader, Omnipage).
Si quelqu'un a une solution sous Linux, je suis aussi preneur... (Les
OCR sous Linux sont en dessous de tout pour le moment, du moins les 5 ou
6 que j'ai testé).
Sur le web, il y a des sites de conversion (http://convertpdftoword.net/
par exemple). Mais avec un résultat peu convaincant.
Certains pdf ne contiennent pas de texte (par exemple des scans). Donc "pdftotext" appliqué à ces pdf ne donne rien. Existe-t'il un logiciel (un script ?) permettant de créer un texte à partir d'un pdf (en utilisant un logiciel d'OCR appliqué à chaque page) et créant un nouveau pdf de même apparence que l'ancien mais contenant le texte ?
Merci
Seule solution que j'ai trouvé à ce jour: passer pour un fois sous Windows et faire un OCR (Finereader, Omnipage). Si quelqu'un a une solution sous Linux, je suis aussi preneur... (Les OCR sous Linux sont en dessous de tout pour le moment, du moins les 5 ou 6 que j'ai testé). Sur le web, il y a des sites de conversion (http://convertpdftoword.net/ par exemple). Mais avec un résultat peu convaincant.
Sergio
Le Tue, 17 Apr 2012 17:37:27 +0200, jacques_guezenec a écrit :
Seule solution que j'ai trouvé à ce jour: passer pour un fois sous Windows et faire un OCR (Finereader, Omnipage). Si quelqu'un a une solution sous Linux, je suis aussi preneur... (Les OCR sous Linux sont en dessous de tout pour le moment, du moins les 5 ou 6 que j'ai testé).
J'utilise Cuneiform (dans les dépôts Ubuntu). Il fait une assez bonne reconnaissance et gère bien le français (et autres langues[¹]). Bien sûr, il faut l'interfacer avec une clicodrome... Par exemple, ça marche bien avec XSane.
[¹]Pour les russophiles, il a été développé pas des russes, donc pas de problème avec la langue de Bakounine. -- Serge http://leserged.online.fr/ Mon blog: http://cahierdesergio.free.fr/ Soutenez le libre: http://www.framasoft.org
Le Tue, 17 Apr 2012 17:37:27 +0200, jacques_guezenec a écrit :
Seule solution que j'ai trouvé à ce jour: passer pour un fois sous
Windows et faire un OCR (Finereader, Omnipage). Si quelqu'un a une
solution sous Linux, je suis aussi preneur... (Les OCR sous Linux sont
en dessous de tout pour le moment, du moins les 5 ou 6 que j'ai testé).
J'utilise Cuneiform (dans les dépôts Ubuntu). Il fait une assez bonne
reconnaissance et gère bien le français (et autres langues[¹]). Bien sûr,
il faut l'interfacer avec une clicodrome... Par exemple, ça marche bien
avec XSane.
[¹]Pour les russophiles, il a été développé pas des russes, donc pas de
problème avec la langue de Bakounine.
--
Serge http://leserged.online.fr/
Mon blog: http://cahierdesergio.free.fr/
Soutenez le libre: http://www.framasoft.org
Le Tue, 17 Apr 2012 17:37:27 +0200, jacques_guezenec a écrit :
Seule solution que j'ai trouvé à ce jour: passer pour un fois sous Windows et faire un OCR (Finereader, Omnipage). Si quelqu'un a une solution sous Linux, je suis aussi preneur... (Les OCR sous Linux sont en dessous de tout pour le moment, du moins les 5 ou 6 que j'ai testé).
J'utilise Cuneiform (dans les dépôts Ubuntu). Il fait une assez bonne reconnaissance et gère bien le français (et autres langues[¹]). Bien sûr, il faut l'interfacer avec une clicodrome... Par exemple, ça marche bien avec XSane.
[¹]Pour les russophiles, il a été développé pas des russes, donc pas de problème avec la langue de Bakounine. -- Serge http://leserged.online.fr/ Mon blog: http://cahierdesergio.free.fr/ Soutenez le libre: http://www.framasoft.org
geo cherchetout
Le 17/04/2012 17:37, *jacques_guezenec* a écrit fort à propos :
Seule solution que j'ai trouvé à ce jour: passer pour un fois sous Windows et faire un OCR (Finereader, Omnipage). Si quelqu'un a une solution sous Linux, je suis aussi preneur... (Les OCR sous Linux sont en dessous de tout pour le moment, du moins les 5 ou 6 que j'ai testé).
Abbyy propose une version de FineReader pour linux, qui s'utilise en ligne de commande. Hélas, trop cher pour moi, mais pas forcément pour toi... http://france.abbyy.com/ocr_sdk_linux/overview/
Le 17/04/2012 17:37, *jacques_guezenec* a écrit fort à propos :
Seule solution que j'ai trouvé à ce jour: passer pour un fois sous
Windows et faire un OCR (Finereader, Omnipage).
Si quelqu'un a une solution sous Linux, je suis aussi preneur... (Les
OCR sous Linux sont en dessous de tout pour le moment, du moins les 5 ou
6 que j'ai testé).
Abbyy propose une version de FineReader pour linux, qui s'utilise en ligne
de commande. Hélas, trop cher pour moi, mais pas forcément pour toi...
http://france.abbyy.com/ocr_sdk_linux/overview/
Le 17/04/2012 17:37, *jacques_guezenec* a écrit fort à propos :
Seule solution que j'ai trouvé à ce jour: passer pour un fois sous Windows et faire un OCR (Finereader, Omnipage). Si quelqu'un a une solution sous Linux, je suis aussi preneur... (Les OCR sous Linux sont en dessous de tout pour le moment, du moins les 5 ou 6 que j'ai testé).
Abbyy propose une version de FineReader pour linux, qui s'utilise en ligne de commande. Hélas, trop cher pour moi, mais pas forcément pour toi... http://france.abbyy.com/ocr_sdk_linux/overview/
jacques_guezenec
Le 17/04/2012 18:54, geo cherchetout a écrit :
Le 17/04/2012 17:37, *jacques_guezenec* a écrit fort à propos :
Seule solution que j'ai trouvé à ce jour: passer pour un fois sous Windows et faire un OCR (Finereader, Omnipage). Si quelqu'un a une solution sous Linux, je suis aussi preneur... (Les OCR sous Linux sont en dessous de tout pour le moment, du moins les 5 ou 6 que j'ai testé).
Abbyy propose une version de FineReader pour linux, qui s'utilise en ligne de commande. Hélas, trop cher pour moi, mais pas forcément pour toi... http://france.abbyy.com/ocr_sdk_linux/overview/
Si si, beaucoup trop chère pour moi :-) Les versions Windows me viennent du bureau (et sont assez anciennes, mais bon).
Le 17/04/2012 18:54, geo cherchetout a écrit :
Le 17/04/2012 17:37, *jacques_guezenec* a écrit fort à propos :
Seule solution que j'ai trouvé à ce jour: passer pour un fois sous
Windows et faire un OCR (Finereader, Omnipage).
Si quelqu'un a une solution sous Linux, je suis aussi preneur... (Les
OCR sous Linux sont en dessous de tout pour le moment, du moins les 5 ou
6 que j'ai testé).
Abbyy propose une version de FineReader pour linux, qui s'utilise en
ligne de commande. Hélas, trop cher pour moi, mais pas forcément pour
toi...
http://france.abbyy.com/ocr_sdk_linux/overview/
Si si, beaucoup trop chère pour moi :-)
Les versions Windows me viennent du bureau (et sont assez anciennes,
mais bon).
Le 17/04/2012 17:37, *jacques_guezenec* a écrit fort à propos :
Seule solution que j'ai trouvé à ce jour: passer pour un fois sous Windows et faire un OCR (Finereader, Omnipage). Si quelqu'un a une solution sous Linux, je suis aussi preneur... (Les OCR sous Linux sont en dessous de tout pour le moment, du moins les 5 ou 6 que j'ai testé).
Abbyy propose une version de FineReader pour linux, qui s'utilise en ligne de commande. Hélas, trop cher pour moi, mais pas forcément pour toi... http://france.abbyy.com/ocr_sdk_linux/overview/
Si si, beaucoup trop chère pour moi :-) Les versions Windows me viennent du bureau (et sont assez anciennes, mais bon).
Emmanuel Florac
Le Tue, 17 Apr 2012 16:30:31 +0000, Sergio a écrit:
J'utilise Cuneiform (dans les dépôts Ubuntu). Il fait une assez bonne reconnaissance et gère bien le français (et autres langues[¹]). Bien sûr, il faut l'interfacer avec une clicodrome... Par exemple, ça marche bien avec XSane.
Intéressant, j'avais justement testé avec tesseract de google (qu'ils utilisent a priori donc doit fonctionner) et les résultats sont absolument inexploitables... À voir avec celui ci donc.
-- I am not a vegetarian because I love animals; I am a vegetarian because I hate plants. A. Whitney Brown
Le Tue, 17 Apr 2012 16:30:31 +0000, Sergio a écrit:
J'utilise Cuneiform (dans les dépôts Ubuntu). Il fait une assez bonne
reconnaissance et gère bien le français (et autres langues[¹]). Bien
sûr, il faut l'interfacer avec une clicodrome... Par exemple, ça marche
bien avec XSane.
Intéressant, j'avais justement testé avec tesseract de google (qu'ils
utilisent a priori donc doit fonctionner) et les résultats sont
absolument inexploitables... À voir avec celui ci donc.
--
I am not a vegetarian because I love animals; I am a vegetarian
because I hate plants.
A. Whitney Brown
Le Tue, 17 Apr 2012 16:30:31 +0000, Sergio a écrit:
J'utilise Cuneiform (dans les dépôts Ubuntu). Il fait une assez bonne reconnaissance et gère bien le français (et autres langues[¹]). Bien sûr, il faut l'interfacer avec une clicodrome... Par exemple, ça marche bien avec XSane.
Intéressant, j'avais justement testé avec tesseract de google (qu'ils utilisent a priori donc doit fonctionner) et les résultats sont absolument inexploitables... À voir avec celui ci donc.
-- I am not a vegetarian because I love animals; I am a vegetarian because I hate plants. A. Whitney Brown
Fabien LE LEZ
On 21 Apr 2012 19:06:47 GMT, Emmanuel Florac :
j'avais justement testé avec tesseract de google (qu'ils utilisent a priori donc doit fonctionner) et les résultats sont absolument inexploitables...
Si je ne m'abuse, Tesseract ne s'occupe que de la partie "reconnaissance de caractères". Il faut donc une étape de filtrage avant. (Je me goure peut-être ; j'ai regardé tout ça d'assez loin.)
On 21 Apr 2012 19:06:47 GMT, Emmanuel Florac <eflorac@imaginet.fr>:
j'avais justement testé avec tesseract de google (qu'ils
utilisent a priori donc doit fonctionner) et les résultats sont
absolument inexploitables...
Si je ne m'abuse, Tesseract ne s'occupe que de la partie
"reconnaissance de caractères". Il faut donc une étape de filtrage
avant.
(Je me goure peut-être ; j'ai regardé tout ça d'assez loin.)
j'avais justement testé avec tesseract de google (qu'ils utilisent a priori donc doit fonctionner) et les résultats sont absolument inexploitables...
Si je ne m'abuse, Tesseract ne s'occupe que de la partie "reconnaissance de caractères". Il faut donc une étape de filtrage avant. (Je me goure peut-être ; j'ai regardé tout ça d'assez loin.)
Emmanuel Florac
Le Sun, 22 Apr 2012 01:43:33 +0200, Fabien LE LEZ a écrit:
Si je ne m'abuse, Tesseract ne s'occupe que de la partie "reconnaissance de caractères". Il faut donc une étape de filtrage avant. (Je me goure peut-être ; j'ai regardé tout ça d'assez loin.)
Ça expliquerait le caractère particulièrement immonde des résultats, je n'ai pas réussi mieux que reconnaître un caractère de loin en loin :)
-- Ce qu'il y a d'enivrant dans le mauvais goût c'est le plaisir aristocratique de déplaire. C. Baudelaire.
Le Sun, 22 Apr 2012 01:43:33 +0200, Fabien LE LEZ a écrit:
Si je ne m'abuse, Tesseract ne s'occupe que de la partie "reconnaissance
de caractères". Il faut donc une étape de filtrage avant. (Je me goure
peut-être ; j'ai regardé tout ça d'assez loin.)
Ça expliquerait le caractère particulièrement immonde des résultats, je
n'ai pas réussi mieux que reconnaître un caractère de loin en loin :)
--
Ce qu'il y a d'enivrant dans le mauvais goût c'est le plaisir
aristocratique de déplaire.
C. Baudelaire.
Le Sun, 22 Apr 2012 01:43:33 +0200, Fabien LE LEZ a écrit:
Si je ne m'abuse, Tesseract ne s'occupe que de la partie "reconnaissance de caractères". Il faut donc une étape de filtrage avant. (Je me goure peut-être ; j'ai regardé tout ça d'assez loin.)
Ça expliquerait le caractère particulièrement immonde des résultats, je n'ai pas réussi mieux que reconnaître un caractère de loin en loin :)
-- Ce qu'il y a d'enivrant dans le mauvais goût c'est le plaisir aristocratique de déplaire. C. Baudelaire.
JKB
Le 22 Apr 2012 15:44:35 GMT, Emmanuel Florac écrivait :
Le Sun, 22 Apr 2012 01:43:33 +0200, Fabien LE LEZ a écrit:
Si je ne m'abuse, Tesseract ne s'occupe que de la partie "reconnaissance de caractères". Il faut donc une étape de filtrage avant. (Je me goure peut-être ; j'ai regardé tout ça d'assez loin.)
Ça expliquerait le caractère particulièrement immonde des résultats, je n'ai pas réussi mieux que reconnaître un caractère de loin en loin :)
Chez moi, ça fonctionne plutôt pas mal... Enfin, il faut le coupler à un truc comm xsane ou avoir un seul bloc de texte par image.
JKB
-- Si votre demande me parvient sur carte perforée, je titiouaillerai très volontiers une réponse... => http://grincheux.de-charybde-en-scylla.fr
Le Sun, 22 Apr 2012 01:43:33 +0200, Fabien LE LEZ a écrit:
Si je ne m'abuse, Tesseract ne s'occupe que de la partie "reconnaissance
de caractères". Il faut donc une étape de filtrage avant. (Je me goure
peut-être ; j'ai regardé tout ça d'assez loin.)
Ça expliquerait le caractère particulièrement immonde des résultats, je
n'ai pas réussi mieux que reconnaître un caractère de loin en loin :)
Chez moi, ça fonctionne plutôt pas mal... Enfin, il faut le coupler
à un truc comm xsane ou avoir un seul bloc de texte par image.
JKB
--
Si votre demande me parvient sur carte perforée, je titiouaillerai très
volontiers une réponse...
=> http://grincheux.de-charybde-en-scylla.fr
Le 22 Apr 2012 15:44:35 GMT, Emmanuel Florac écrivait :
Le Sun, 22 Apr 2012 01:43:33 +0200, Fabien LE LEZ a écrit:
Si je ne m'abuse, Tesseract ne s'occupe que de la partie "reconnaissance de caractères". Il faut donc une étape de filtrage avant. (Je me goure peut-être ; j'ai regardé tout ça d'assez loin.)
Ça expliquerait le caractère particulièrement immonde des résultats, je n'ai pas réussi mieux que reconnaître un caractère de loin en loin :)
Chez moi, ça fonctionne plutôt pas mal... Enfin, il faut le coupler à un truc comm xsane ou avoir un seul bloc de texte par image.
JKB
-- Si votre demande me parvient sur carte perforée, je titiouaillerai très volontiers une réponse... => http://grincheux.de-charybde-en-scylla.fr
Emmanuel Florac
Le Sun, 22 Apr 2012 17:13:14 +0000, JKB a écrit:
Chez moi, ça fonctionne plutôt pas mal... Enfin, il faut le coupler à un truc comm xsane ou avoir un seul bloc de texte par image.
Pitié, explique moi comment tu fais. Ça ne marche absolument pas chez moi, exemple live, une image JPEG avec des numéros de série (scan de BL), super contrastée, coupée pour avoir juste le bon texte :
http://i.imgur.com/bJq3D.jpg
Pour info, ça doit donner une série de caractères commençant par HZ1V comme HZ1VZKGVL, tout en majuscules. Tesseract donne ceci:
etc. Inutile de dire que ça ne m'aide pas beaucoup pour récupérer les infos dans les scans ou les fax :)
-- Si non confectus non reficiat.
Le Sun, 22 Apr 2012 17:13:14 +0000, JKB a écrit:
Chez moi, ça fonctionne plutôt pas mal... Enfin, il faut le coupler à un
truc comm xsane ou avoir un seul bloc de texte par image.
Pitié, explique moi comment tu fais. Ça ne marche absolument pas chez
moi, exemple live, une image JPEG avec des numéros de série (scan de BL),
super contrastée, coupée pour avoir juste le bon texte :
http://i.imgur.com/bJq3D.jpg
Pour info, ça doit donner une série de caractères commençant par HZ1V
comme HZ1VZKGVL, tout en majuscules. Tesseract donne ceci:
Chez moi, ça fonctionne plutôt pas mal... Enfin, il faut le coupler à un truc comm xsane ou avoir un seul bloc de texte par image.
Pitié, explique moi comment tu fais. Ça ne marche absolument pas chez moi, exemple live, une image JPEG avec des numéros de série (scan de BL), super contrastée, coupée pour avoir juste le bon texte :
http://i.imgur.com/bJq3D.jpg
Pour info, ça doit donner une série de caractères commençant par HZ1V comme HZ1VZKGVL, tout en majuscules. Tesseract donne ceci:
etc. Inutile de dire que ça ne m'aide pas beaucoup pour récupérer les infos dans les scans ou les fax :)
-- Si non confectus non reficiat.
franssoa
Le 25. 04. 12 17:19, Emmanuel Florac a écrit :
Pitié, explique moi comment tu fais. Ça ne marche absolument pas chez moi, exemple live, une image JPEG avec des numéros de série (scan de BL), super contrastée, coupée pour avoir juste le bon texte : HZ1VKZGL HZ1VYM.XL HZ1U989L HZ1V3SML
J'ai testé ton image en la passant à 200dpi dans la même taille physique (de 328x311 pixels à 906x859) et en 1 bit, sauvé en tif, et j'obtiens avec
Pitié, explique moi comment tu fais. Ça ne marche absolument pas chez
moi, exemple live, une image JPEG avec des numéros de série (scan de BL),
super contrastée, coupée pour avoir juste le bon texte :
HZ1VKZGL HZ1VYM.XL HZ1U989L HZ1V3SML
J'ai testé ton image en la passant à 200dpi dans la même taille physique
(de 328x311 pixels à 906x859) et en 1 bit, sauvé en tif, et j'obtiens avec
Pitié, explique moi comment tu fais. Ça ne marche absolument pas chez moi, exemple live, une image JPEG avec des numéros de série (scan de BL), super contrastée, coupée pour avoir juste le bon texte : HZ1VKZGL HZ1VYM.XL HZ1U989L HZ1V3SML
J'ai testé ton image en la passant à 200dpi dans la même taille physique (de 328x311 pixels à 906x859) et en 1 bit, sauvé en tif, et j'obtiens avec