OVH Cloud OVH Cloud

Convertion de fichiers PDF ou PostScript

6 réponses
Avatar
Alex Bernier
Bonjour,

Je dispose d'un fichier PDF qui doit bien faire plus de 500 pages.
Pour faciliter son traitement, je cherche à le "couper" et à le convertir
en fichier TIFF par exemple (1 fichier TIFF par page, donc 500 au final...).
Comment feriez-vous cela?
A la limite je peux d'abord convertir le document en PostScript, mais je ne
sais pas trop quoi faire ensuite... il y a bien ps2pnm, mais ce format ne me
satisfait pas (ne n'obtient qu'une très faible résolution, et comme c'est
pour de l'OCR, c'est problématique).

Merci d'avance,

Alex
---


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org

6 réponses

Avatar
Nooks L. Affro
Bonjour,

Essaie (utilisant ghostscript):

gs -dNOPAUSE -q -r300x300 -sDEVICE=tifflzw -dBATCH -sOutputFile=sortie%d.tif fichier_entree.pdf


Tu auras une liste de tiffs (sortie*.tif) , un pour chaque page.

Voir gs --help pour une liste de devices (tiff ou autres).

Nooks


On Fri, Jul 02, 2004 at 09:09:51AM +0200, Alex Bernier wrote:
Bonjour,

Je dispose d'un fichier PDF qui doit bien faire plus de 500 pages.
Pour faciliter son traitement, je cherche à le "couper" et à le convertir
en fichier TIFF par exemple (1 fichier TIFF par page, donc 500 au final...).
Comment feriez-vous cela?
A la limite je peux d'abord convertir le document en PostScript, mais je ne
sais pas trop quoi faire ensuite... il y a bien ps2pnm, mais ce format ne me
satisfait pas (ne n'obtient qu'une très faible résolution, et comme c'est
pour de l'OCR, c'est problématique).

Merci d'avance,

Alex
---


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact






--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Milou
Le Fri, 2 Jul 2004 09:09:51 +0200
Alex Bernier a écrit:

Bonjour,


Bonjour,

Je dispose d'un fichier PDF qui doit bien faire plus de 500 pages.
Pour faciliter son traitement, je cherche à le "couper" et à le
convertir en fichier TIFF par exemple (1 fichier TIFF par page, donc
500 au final...). Comment feriez-vous cela?
A la limite je peux d'abord convertir le document en PostScript, mais
je ne sais pas trop quoi faire ensuite... il y a bien ps2pnm, mais ce
format ne me satisfait pas (ne n'obtient qu'une très faible
résolution, et comme c'est pour de l'OCR, c'est problématique).


Et tu as essayé 'pdftotext' (paquet xpdf-utils)?

Tu en ressors un .txt que tu arranger un peu après et tu te passes de
l'ocr... (à moins bien sur que l'ocr soit le but de la manoeuvre hein?)

mil
--
Partout où la religion règne, ne voyons-nous pas des peuples asservis ?
-+- Paul D'Holbach -+-
Avatar
Yves Rutschle
On Fri, Jul 02, 2004 at 09:09:51AM +0200, Alex Bernier wrote:
A la limite je peux d'abord convertir le document en PostScript, mais je ne
sais pas trop quoi faire ensuite... il y a bien ps2pnm, mais ce format ne me
satisfait pas (ne n'obtient qu'une très faible résolution, et comme c'est
pour de l'OCR, c'est problématique).



De l'OCR?! Si tu veux récupérer le contenu du pdf en fichier
texte, pdftotext dans le paquet xpdf-utils marche très très
bien.

Y.


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Nooks L. Affro
Ca c'est sur , de plus le texte de pdftotext est bien de meilleure qualite
que le resultat de l'OCR. Mais une question quand meme , quel outil OCR
utilises-tu ?

Nooks


On Fri, Jul 02, 2004 at 10:21:24AM +0200, Milou wrote:

Tu en ressors un .txt que tu arranger un peu après et tu te passes de
l'ocr... (à moins bien sur que l'ocr soit le but de la manoeuvre hein?)

mil
--
Partout où la religion règne, ne voyons-nous pas des peuples asservis ?
-+- Paul D'Holbach -+-






--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Vincent Lefevre
On 2004-07-02 10:34:48 +0100, Yves Rutschle wrote:
De l'OCR?! Si tu veux récupérer le contenu du pdf en fichier
texte, pdftotext dans le paquet xpdf-utils marche très très
bien.



Uniquement sur de l'ASCII. Dès qu'on a des caractères accentués, par
exemple, le résultat est mauvais.

Tout ça à supposer que le PDF a été généré à partir d'un fichier
texte, et non par scan...

--
Vincent Lefèvre - Web: <http://www.vinc17.org/>
100% validated (X)HTML - Acorn / RISC OS / ARM, free software, YP17,
Championnat International des Jeux Mathématiques et Logiques, etc.
Work: CR INRIA - computer arithmetic / SPACES project at LORIA


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Seki
Salut,

Le 2 juil. 2004, à 9:57, Nooks L. Affro a écrit :

Essaie (utilisant ghostscript):

gs -dNOPAUSE -q -r300x300 -sDEVICE=tifflzw -dBATCH
-sOutputFile=sortie%d.tif fichier_entree.pdf



Tu peux aussi rajouter -dFirstPage=n -dLastPage=n pour travailler sur
une portion du document.

Sébastien Kirche=