Impression dans un fichier

Maurice Krait

09/03/2008 à 09:04

Pourquoi ne pas ouvrir directement le PDF dans le logiciel d'OCR ?
(fonctionne très bien par exemple avec Abbyy FineReader 7 Pro)

J'ai effectivement essayé, mais ABBYY me dit "page non reconnue" ???
Merci de ta suggestion.

Maurice Krait

09/03/2008 à 09:05

Pourquoi ne pas ouvrir directement le PDF dans le logiciel d'OCR ?
(fonctionne très bien par exemple avec Abbyy FineReader 7 Pro)

En faisant cela tu récupère une image et non du texte.

Normalement, l'OCR fournit un fichier word , donc du texte (s'il arrive
à retrouver le texte dans son analyse ).

Maurice Krait

09/03/2008 à 09:08

Alain Blanchard >

Pourquoi ne pas ouvrir directement le PDF dans le logiciel d'OCR ?
(fonctionne très bien par exemple avec Abbyy FineReader 7 Pro)

En faisant cela tu récupère une image et non du texte.

Non, non
Abbyy FineReader est un logiciel d'OCR
Tu peux ouvrir une image mais aussi bien un document PDF
(en tout cas au moins depuis la v7 que j'ai)
Ensuite tu lance la reconnaissance comme s'il s'agissait d'une image.
Cela fonctionne parfaitement bien
(à condition que ton pdf ne soit pas protégé)

Étonnant les progrès des logiciels d'OCR: mon premier (un truc livré avec
un scanner à main Logitech), peinait sur un simple texte. AFR lit un
tableau "en vrac" et m'en fait même un document XLS, sépare les images etc.

Entièrement d'accord . J'ai ausssi commencé avec le scanner à main
Logitech : c'était la galère pour récupérer un texte un peu large
(feuille 21x27) !!
La reconnaissance des diférents blocs est maintenant formidable ; j'ai
ABBYY version V 6/

Maurice Krait

09/03/2008 à 09:09

Bonjour à tous !

"Maurice Krait" a écrit dans le message
news:47d13fa6$0$21143$

Bonjour,
J'ai voulu imprimer un fichier PDF depuis Adobe Reader en choisissant
dans la fenêtre de l'imprimante les options "imprimer dans un fichier"
et "imprimer comme une image" . J'espérais récupérer le contenu du
document sous forme d'un fichier .bmp; quand j'essaye d'ouvrir ce
fichier comme si c'était un fichier bmp, on me dit que le format est
invalide.
..........

Et si tu ouvres ton PDF avec Adobe Reader --»
tu peux alors le convertir en RTF (Rich Text Format) compatible Word.
(Tu peux même le convertir en HTML ).
Pour ce faire fait "enregistrer sous" et choisis .rtf
(ou .html avec CSS)

? non ?
j'ai plus Adobe :o)
Non, ca ne marche pas ,surement à cause de la protection du fichier PDF

Laurent Jumet

09/03/2008 à 10:08

Hello Maurice !

Maurice Krait wrote:

Pourquoi ne pas ouvrir directement le PDF dans le logiciel d'OCR ?
(fonctionne très bien par exemple avec Abbyy FineReader 7 Pro)

J'ai effectivement essayé, mais ABBYY me dit "page non reconnue" ???
Merci de ta suggestion.

Tu dois ouvrir ton PDF dans PDFCreator et le sauver en BMP (une seule page) ou en TIFF (plusieurs pages). Ensuite tu demandes à FineReader de faire l'OCR sur l'image.

--
Laurent Jumet - Point de Chat, Liège, BELGIUM
KeyID: 0xCFAF704C
[Restore address to laurent.jumet for e-mail reply.]

Maurice Krait

10/03/2008 à 12:42

Hello Maurice !

Maurice Krait wrote:

Pourquoi ne pas ouvrir directement le PDF dans le logiciel d'OCR ?
(fonctionne très bien par exemple avec Abbyy FineReader 7 Pro)

J'ai effectivement essayé, mais ABBYY me dit "page non reconnue" ???
Merci de ta suggestion.

Tu dois ouvrir ton PDF dans PDFCreator et le sauver en BMP (une seule page) ou en TIFF (plusieurs pages).
Ensuite tu demandes à FineReader de faire l'OCR sur l'image.

Je n'ai pas essayé car je suis persuadé que PDF Creator va refuser
d'ouvrir le fichier PDF à cause de la protection.

Mea culpa, j'ai cherché trop loin.

L'utilisation de l'OCR n'a fait que rajouter un problème; si la page
n'était pas reconnue par l'OCR c'est que le fichier PDF contenait dans
la même page du texte en deux langues différentes. En réglant la langue
dans ABBYY, j'ai obtenu une reconnaissance du contenu de la page, mais
d'ailleurs pas très bonne, alors que la copie d'écran est correcte.
Je ne comprends d'ailleurs pas bien pourquoi la reconnaissance par l'OCR
ne sefait pas car les deux langues étaient en alphabet latin. En fait
, je croyais que l'OCR ne reconnaissait que les caractères d'une
écriture et ne s'occupait pas de la langue ; en fait, apparemment, il
cherche confirmation dans un lexique . En tout cas, il manque dans ABBYY
une option pour désactiver la reconnaissance de la langue et se
contenter de reconnaître les caractères ( lettres, chiffres, signes tels
que tiret, parenthèses, apostrophes, etc).

La solution, c'est d'ouvrir le fichier dans Adobe Reader et de faire une
copie d'écran ( j'utilise Snag It) et de sauvegarder la copie d'écran en
mode jpg, que je peux transférer sur mon mobile et lire. Il me reste à
faire une copie d'écran pour chacune des pages du document PDF. Bien
sûr, c'aurait été mieux si j'avais pu traiter le document complet en une
seule fois, et là , je reviens à mon idée première : comment, depuis
Adobe Reader, imprimer dans un fichier qui ne contienne que les
caractères imprimables .

Merci à tous ceux qui se sont intéressés à mon problème.

Hello Maurice !

Maurice Krait <mkrait@club-internet.fr> wrote:

Pourquoi ne pas ouvrir directement le PDF dans le logiciel d'OCR ?
(fonctionne très bien par exemple avec Abbyy FineReader 7 Pro)

J'ai effectivement essayé, mais ABBYY me dit "page non reconnue" ???
Merci de ta suggestion.

Tu dois ouvrir ton PDF dans PDFCreator et le sauver en BMP (une seule page) ou en TIFF (plusieurs pages).
Ensuite tu demandes à FineReader de faire l'OCR sur l'image.

Je n'ai pas essayé car je suis persuadé que PDF Creator va refuser
d'ouvrir le fichier PDF à cause de la protection.

Mea culpa, j'ai cherché trop loin.

L'utilisation de l'OCR n'a fait que rajouter un problème; si la page
n'était pas reconnue par l'OCR c'est que le fichier PDF contenait dans
la même page du texte en deux langues différentes. En réglant la langue
dans ABBYY, j'ai obtenu une reconnaissance du contenu de la page, mais
d'ailleurs pas très bonne, alors que la copie d'écran est correcte.
Je ne comprends d'ailleurs pas bien pourquoi la reconnaissance par l'OCR
ne sefait pas car les deux langues étaient en alphabet latin. En fait
, je croyais que l'OCR ne reconnaissait que les caractères d'une
écriture et ne s'occupait pas de la langue ; en fait, apparemment, il
cherche confirmation dans un lexique . En tout cas, il manque dans ABBYY
une option pour désactiver la reconnaissance de la langue et se
contenter de reconnaître les caractères ( lettres, chiffres, signes tels
que tiret, parenthèses, apostrophes, etc).

La solution, c'est d'ouvrir le fichier dans Adobe Reader et de faire une
copie d'écran ( j'utilise Snag It) et de sauvegarder la copie d'écran en
mode jpg, que je peux transférer sur mon mobile et lire. Il me reste à
faire une copie d'écran pour chacune des pages du document PDF. Bien
sûr, c'aurait été mieux si j'avais pu traiter le document complet en une
seule fois, et là , je reviens à mon idée première : comment, depuis
Adobe Reader, imprimer dans un fichier qui ne contienne que les
caractères imprimables .

Merci à tous ceux qui se sont intéressés à mon problème.

Vous avez filtré cet utilisateur ! Consultez son message

Hello Maurice !

Maurice Krait wrote:

Pourquoi ne pas ouvrir directement le PDF dans le logiciel d'OCR ?
(fonctionne très bien par exemple avec Abbyy FineReader 7 Pro)

J'ai effectivement essayé, mais ABBYY me dit "page non reconnue" ???
Merci de ta suggestion.

Tu dois ouvrir ton PDF dans PDFCreator et le sauver en BMP (une seule page) ou en TIFF (plusieurs pages).
Ensuite tu demandes à FineReader de faire l'OCR sur l'image.

Je n'ai pas essayé car je suis persuadé que PDF Creator va refuser
d'ouvrir le fichier PDF à cause de la protection.

Mea culpa, j'ai cherché trop loin.

L'utilisation de l'OCR n'a fait que rajouter un problème; si la page
n'était pas reconnue par l'OCR c'est que le fichier PDF contenait dans
la même page du texte en deux langues différentes. En réglant la langue
dans ABBYY, j'ai obtenu une reconnaissance du contenu de la page, mais
d'ailleurs pas très bonne, alors que la copie d'écran est correcte.
Je ne comprends d'ailleurs pas bien pourquoi la reconnaissance par l'OCR
ne sefait pas car les deux langues étaient en alphabet latin. En fait
, je croyais que l'OCR ne reconnaissait que les caractères d'une
écriture et ne s'occupait pas de la langue ; en fait, apparemment, il
cherche confirmation dans un lexique . En tout cas, il manque dans ABBYY
une option pour désactiver la reconnaissance de la langue et se
contenter de reconnaître les caractères ( lettres, chiffres, signes tels
que tiret, parenthèses, apostrophes, etc).

La solution, c'est d'ouvrir le fichier dans Adobe Reader et de faire une
copie d'écran ( j'utilise Snag It) et de sauvegarder la copie d'écran en
mode jpg, que je peux transférer sur mon mobile et lire. Il me reste à
faire une copie d'écran pour chacune des pages du document PDF. Bien
sûr, c'aurait été mieux si j'avais pu traiter le document complet en une
seule fois, et là , je reviens à mon idée première : comment, depuis
Adobe Reader, imprimer dans un fichier qui ne contienne que les
caractères imprimables .

Merci à tous ceux qui se sont intéressés à mon problème.

Impression dans un fichier

6 réponses

Veuillez sélectionner un problème