Convertion de fichiers PDF ou PostScript

6 réponses

Alex Bernier

02/07/2004 à 09:40

Bonjour,

Je dispose d'un fichier PDF qui doit bien faire plus de 500 pages.
Pour faciliter son traitement, je cherche à le "couper" et à le convertir
en fichier TIFF par exemple (1 fichier TIFF par page, donc 500 au final...).
Comment feriez-vous cela?
A la limite je peux d'abord convertir le document en PostScript, mais je ne
sais pas trop quoi faire ensuite... il y a bien ps2pnm, mais ce format ne me
satisfait pas (ne n'obtient qu'une très faible résolution, et comme c'est
pour de l'OCR, c'est problématique).

Merci d'avance,

Alex
---

--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org

6 réponses

Nooks L. Affro

02/07/2004 à 10:10

Bonjour,

Essaie (utilisant ghostscript):

gs -dNOPAUSE -q -r300x300 -sDEVICE=tifflzw -dBATCH -sOutputFile=sortie%d.tif fichier_entree.pdf

Tu auras une liste de tiffs (sortie*.tif) , un pour chaque page.

Voir gs --help pour une liste de devices (tiff ou autres).

Nooks

On Fri, Jul 02, 2004 at 09:09:51AM +0200, Alex Bernier wrote:

Bonjour,

Je dispose d'un fichier PDF qui doit bien faire plus de 500 pages.
Pour faciliter son traitement, je cherche à le "couper" et à le convertir
en fichier TIFF par exemple (1 fichier TIFF par page, donc 500 au final...).
Comment feriez-vous cela?
A la limite je peux d'abord convertir le document en PostScript, mais je ne
sais pas trop quoi faire ensuite... il y a bien ps2pnm, mais ce format ne me
satisfait pas (ne n'obtient qu'une très faible résolution, et comme c'est
pour de l'OCR, c'est problématique).

Merci d'avance,

Alex
---

--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact

--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact

Milou

02/07/2004 à 11:30

Le Fri, 2 Jul 2004 09:09:51 +0200
Alex Bernier a écrit:

Bonjour,

Bonjour,

Je dispose d'un fichier PDF qui doit bien faire plus de 500 pages.
Pour faciliter son traitement, je cherche à le "couper" et à le
convertir en fichier TIFF par exemple (1 fichier TIFF par page, donc
500 au final...). Comment feriez-vous cela?
A la limite je peux d'abord convertir le document en PostScript, mais
je ne sais pas trop quoi faire ensuite... il y a bien ps2pnm, mais ce
format ne me satisfait pas (ne n'obtient qu'une très faible
résolution, et comme c'est pour de l'OCR, c'est problématique).

Et tu as essayé 'pdftotext' (paquet xpdf-utils)?

Tu en ressors un .txt que tu arranger un peu après et tu te passes de
l'ocr... (à moins bien sur que l'ocr soit le but de la manoeuvre hein?)

mil
--
Partout où la religion règne, ne voyons-nous pas des peuples asservis ?
-+- Paul D'Holbach -+-

Yves Rutschle

02/07/2004 à 12:00

On Fri, Jul 02, 2004 at 09:09:51AM +0200, Alex Bernier wrote:

A la limite je peux d'abord convertir le document en PostScript, mais je ne
sais pas trop quoi faire ensuite... il y a bien ps2pnm, mais ce format ne me
satisfait pas (ne n'obtient qu'une très faible résolution, et comme c'est
pour de l'OCR, c'est problématique).

De l'OCR?! Si tu veux récupérer le contenu du pdf en fichier
texte, pdftotext dans le paquet xpdf-utils marche très très
bien.

Y.

--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact

Nooks L. Affro

02/07/2004 à 12:00

Ca c'est sur , de plus le texte de pdftotext est bien de meilleure qualite
que le resultat de l'OCR. Mais une question quand meme , quel outil OCR
utilises-tu ?

Nooks

On Fri, Jul 02, 2004 at 10:21:24AM +0200, Milou wrote:

Tu en ressors un .txt que tu arranger un peu après et tu te passes de
l'ocr... (à moins bien sur que l'ocr soit le but de la manoeuvre hein?)

mil
--
Partout où la religion règne, ne voyons-nous pas des peuples asservis ?
-+- Paul D'Holbach -+-

Vincent Lefevre

02/07/2004 à 14:00

On 2004-07-02 10:34:48 +0100, Yves Rutschle wrote:

De l'OCR?! Si tu veux récupérer le contenu du pdf en fichier
texte, pdftotext dans le paquet xpdf-utils marche très très
bien.

Uniquement sur de l'ASCII. Dès qu'on a des caractères accentués, par
exemple, le résultat est mauvais.

Tout ça à supposer que le PDF a été généré à partir d'un fichier
texte, et non par scan...

--
Vincent Lefèvre - Web: <http://www.vinc17.org/>
100% validated (X)HTML - Acorn / RISC OS / ARM, free software, YP17,
Championnat International des Jeux Mathématiques et Logiques, etc.
Work: CR INRIA - computer arithmetic / SPACES project at LORIA

--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact

Seki

02/07/2004 à 14:50

Salut,

Le 2 juil. 2004, à 9:57, Nooks L. Affro a écrit :

Essaie (utilisant ghostscript):

gs -dNOPAUSE -q -r300x300 -sDEVICE=tifflzw -dBATCH
-sOutputFile=sortie%d.tif fichier_entree.pdf

Tu peux aussi rajouter -dFirstPage=n -dLastPage=n pour travailler sur
une portion du document.

Sébastien Kirche=

Convertion de fichiers PDF ou PostScript

6 réponses

Veuillez sélectionner un problème