Je dispose d'un fichier PDF qui doit bien faire plus de 500 pages.
Pour faciliter son traitement, je cherche à le "couper" et à le convertir
en fichier TIFF par exemple (1 fichier TIFF par page, donc 500 au final...).
Comment feriez-vous cela?
A la limite je peux d'abord convertir le document en PostScript, mais je ne
sais pas trop quoi faire ensuite... il y a bien ps2pnm, mais ce format ne me
satisfait pas (ne n'obtient qu'une très faible résolution, et comme c'est
pour de l'OCR, c'est problématique).
Merci d'avance,
Alex
---
--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org
Tu auras une liste de tiffs (sortie*.tif) , un pour chaque page.
Voir gs --help pour une liste de devices (tiff ou autres).
Nooks
On Fri, Jul 02, 2004 at 09:09:51AM +0200, Alex Bernier wrote:
Bonjour,
Je dispose d'un fichier PDF qui doit bien faire plus de 500 pages. Pour faciliter son traitement, je cherche à le "couper" et à le convertir en fichier TIFF par exemple (1 fichier TIFF par page, donc 500 au final...). Comment feriez-vous cela? A la limite je peux d'abord convertir le document en PostScript, mais je ne sais pas trop quoi faire ensuite... il y a bien ps2pnm, mais ce format ne me satisfait pas (ne n'obtient qu'une très faible résolution, et comme c'est pour de l'OCR, c'est problématique).
Merci d'avance,
Alex ---
-- Pensez à lire la FAQ de la liste avant de poser une question : http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to with a subject of "unsubscribe". Trouble? Contact
-- Pensez à lire la FAQ de la liste avant de poser une question : http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to with a subject of "unsubscribe". Trouble? Contact
Tu auras une liste de tiffs (sortie*.tif) , un pour chaque page.
Voir gs --help pour une liste de devices (tiff ou autres).
Nooks
On Fri, Jul 02, 2004 at 09:09:51AM +0200, Alex Bernier wrote:
Bonjour,
Je dispose d'un fichier PDF qui doit bien faire plus de 500 pages.
Pour faciliter son traitement, je cherche à le "couper" et à le convertir
en fichier TIFF par exemple (1 fichier TIFF par page, donc 500 au final...).
Comment feriez-vous cela?
A la limite je peux d'abord convertir le document en PostScript, mais je ne
sais pas trop quoi faire ensuite... il y a bien ps2pnm, mais ce format ne me
satisfait pas (ne n'obtient qu'une très faible résolution, et comme c'est
pour de l'OCR, c'est problématique).
Merci d'avance,
Alex
---
--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org
--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org
Tu auras une liste de tiffs (sortie*.tif) , un pour chaque page.
Voir gs --help pour une liste de devices (tiff ou autres).
Nooks
On Fri, Jul 02, 2004 at 09:09:51AM +0200, Alex Bernier wrote:
Bonjour,
Je dispose d'un fichier PDF qui doit bien faire plus de 500 pages. Pour faciliter son traitement, je cherche à le "couper" et à le convertir en fichier TIFF par exemple (1 fichier TIFF par page, donc 500 au final...). Comment feriez-vous cela? A la limite je peux d'abord convertir le document en PostScript, mais je ne sais pas trop quoi faire ensuite... il y a bien ps2pnm, mais ce format ne me satisfait pas (ne n'obtient qu'une très faible résolution, et comme c'est pour de l'OCR, c'est problématique).
Merci d'avance,
Alex ---
-- Pensez à lire la FAQ de la liste avant de poser une question : http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to with a subject of "unsubscribe". Trouble? Contact
-- Pensez à lire la FAQ de la liste avant de poser une question : http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to with a subject of "unsubscribe". Trouble? Contact
Milou
Le Fri, 2 Jul 2004 09:09:51 +0200 Alex Bernier a écrit:
Bonjour,
Bonjour,
Je dispose d'un fichier PDF qui doit bien faire plus de 500 pages. Pour faciliter son traitement, je cherche à le "couper" et à le convertir en fichier TIFF par exemple (1 fichier TIFF par page, donc 500 au final...). Comment feriez-vous cela? A la limite je peux d'abord convertir le document en PostScript, mais je ne sais pas trop quoi faire ensuite... il y a bien ps2pnm, mais ce format ne me satisfait pas (ne n'obtient qu'une très faible résolution, et comme c'est pour de l'OCR, c'est problématique).
Et tu as essayé 'pdftotext' (paquet xpdf-utils)?
Tu en ressors un .txt que tu arranger un peu après et tu te passes de l'ocr... (à moins bien sur que l'ocr soit le but de la manoeuvre hein?)
mil -- Partout où la religion règne, ne voyons-nous pas des peuples asservis ? -+- Paul D'Holbach -+-
Le Fri, 2 Jul 2004 09:09:51 +0200
Alex Bernier <alex.bernier@free.fr> a écrit:
Bonjour,
Bonjour,
Je dispose d'un fichier PDF qui doit bien faire plus de 500 pages.
Pour faciliter son traitement, je cherche à le "couper" et à le
convertir en fichier TIFF par exemple (1 fichier TIFF par page, donc
500 au final...). Comment feriez-vous cela?
A la limite je peux d'abord convertir le document en PostScript, mais
je ne sais pas trop quoi faire ensuite... il y a bien ps2pnm, mais ce
format ne me satisfait pas (ne n'obtient qu'une très faible
résolution, et comme c'est pour de l'OCR, c'est problématique).
Et tu as essayé 'pdftotext' (paquet xpdf-utils)?
Tu en ressors un .txt que tu arranger un peu après et tu te passes de
l'ocr... (à moins bien sur que l'ocr soit le but de la manoeuvre hein?)
mil
--
Partout où la religion règne, ne voyons-nous pas des peuples asservis ?
-+- Paul D'Holbach -+-
Le Fri, 2 Jul 2004 09:09:51 +0200 Alex Bernier a écrit:
Bonjour,
Bonjour,
Je dispose d'un fichier PDF qui doit bien faire plus de 500 pages. Pour faciliter son traitement, je cherche à le "couper" et à le convertir en fichier TIFF par exemple (1 fichier TIFF par page, donc 500 au final...). Comment feriez-vous cela? A la limite je peux d'abord convertir le document en PostScript, mais je ne sais pas trop quoi faire ensuite... il y a bien ps2pnm, mais ce format ne me satisfait pas (ne n'obtient qu'une très faible résolution, et comme c'est pour de l'OCR, c'est problématique).
Et tu as essayé 'pdftotext' (paquet xpdf-utils)?
Tu en ressors un .txt que tu arranger un peu après et tu te passes de l'ocr... (à moins bien sur que l'ocr soit le but de la manoeuvre hein?)
mil -- Partout où la religion règne, ne voyons-nous pas des peuples asservis ? -+- Paul D'Holbach -+-
Yves Rutschle
On Fri, Jul 02, 2004 at 09:09:51AM +0200, Alex Bernier wrote:
A la limite je peux d'abord convertir le document en PostScript, mais je ne sais pas trop quoi faire ensuite... il y a bien ps2pnm, mais ce format ne me satisfait pas (ne n'obtient qu'une très faible résolution, et comme c'est pour de l'OCR, c'est problématique).
De l'OCR?! Si tu veux récupérer le contenu du pdf en fichier texte, pdftotext dans le paquet xpdf-utils marche très très bien.
Y.
-- Pensez à lire la FAQ de la liste avant de poser une question : http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to with a subject of "unsubscribe". Trouble? Contact
On Fri, Jul 02, 2004 at 09:09:51AM +0200, Alex Bernier wrote:
A la limite je peux d'abord convertir le document en PostScript, mais je ne
sais pas trop quoi faire ensuite... il y a bien ps2pnm, mais ce format ne me
satisfait pas (ne n'obtient qu'une très faible résolution, et comme c'est
pour de l'OCR, c'est problématique).
De l'OCR?! Si tu veux récupérer le contenu du pdf en fichier
texte, pdftotext dans le paquet xpdf-utils marche très très
bien.
Y.
--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org
On Fri, Jul 02, 2004 at 09:09:51AM +0200, Alex Bernier wrote:
A la limite je peux d'abord convertir le document en PostScript, mais je ne sais pas trop quoi faire ensuite... il y a bien ps2pnm, mais ce format ne me satisfait pas (ne n'obtient qu'une très faible résolution, et comme c'est pour de l'OCR, c'est problématique).
De l'OCR?! Si tu veux récupérer le contenu du pdf en fichier texte, pdftotext dans le paquet xpdf-utils marche très très bien.
Y.
-- Pensez à lire la FAQ de la liste avant de poser une question : http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to with a subject of "unsubscribe". Trouble? Contact
Nooks L. Affro
Ca c'est sur , de plus le texte de pdftotext est bien de meilleure qualite que le resultat de l'OCR. Mais une question quand meme , quel outil OCR utilises-tu ?
Nooks
On Fri, Jul 02, 2004 at 10:21:24AM +0200, Milou wrote:
Tu en ressors un .txt que tu arranger un peu après et tu te passes de l'ocr... (à moins bien sur que l'ocr soit le but de la manoeuvre hein?)
mil -- Partout où la religion règne, ne voyons-nous pas des peuples asservis ? -+- Paul D'Holbach -+-
-- Pensez à lire la FAQ de la liste avant de poser une question : http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to with a subject of "unsubscribe". Trouble? Contact
Ca c'est sur , de plus le texte de pdftotext est bien de meilleure qualite
que le resultat de l'OCR. Mais une question quand meme , quel outil OCR
utilises-tu ?
Nooks
On Fri, Jul 02, 2004 at 10:21:24AM +0200, Milou wrote:
Tu en ressors un .txt que tu arranger un peu après et tu te passes de
l'ocr... (à moins bien sur que l'ocr soit le but de la manoeuvre hein?)
mil
--
Partout où la religion règne, ne voyons-nous pas des peuples asservis ?
-+- Paul D'Holbach -+-
--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org
Ca c'est sur , de plus le texte de pdftotext est bien de meilleure qualite que le resultat de l'OCR. Mais une question quand meme , quel outil OCR utilises-tu ?
Nooks
On Fri, Jul 02, 2004 at 10:21:24AM +0200, Milou wrote:
Tu en ressors un .txt que tu arranger un peu après et tu te passes de l'ocr... (à moins bien sur que l'ocr soit le but de la manoeuvre hein?)
mil -- Partout où la religion règne, ne voyons-nous pas des peuples asservis ? -+- Paul D'Holbach -+-
-- Pensez à lire la FAQ de la liste avant de poser une question : http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to with a subject of "unsubscribe". Trouble? Contact
Vincent Lefevre
On 2004-07-02 10:34:48 +0100, Yves Rutschle wrote:
De l'OCR?! Si tu veux récupérer le contenu du pdf en fichier texte, pdftotext dans le paquet xpdf-utils marche très très bien.
Uniquement sur de l'ASCII. Dès qu'on a des caractères accentués, par exemple, le résultat est mauvais.
Tout ça à supposer que le PDF a été généré à partir d'un fichier texte, et non par scan...
-- Vincent Lefèvre - Web: <http://www.vinc17.org/> 100% validated (X)HTML - Acorn / RISC OS / ARM, free software, YP17, Championnat International des Jeux Mathématiques et Logiques, etc. Work: CR INRIA - computer arithmetic / SPACES project at LORIA
-- Pensez à lire la FAQ de la liste avant de poser une question : http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to with a subject of "unsubscribe". Trouble? Contact
On 2004-07-02 10:34:48 +0100, Yves Rutschle wrote:
De l'OCR?! Si tu veux récupérer le contenu du pdf en fichier
texte, pdftotext dans le paquet xpdf-utils marche très très
bien.
Uniquement sur de l'ASCII. Dès qu'on a des caractères accentués, par
exemple, le résultat est mauvais.
Tout ça à supposer que le PDF a été généré à partir d'un fichier
texte, et non par scan...
--
Vincent Lefèvre <vincent@vinc17.org> - Web: <http://www.vinc17.org/>
100% validated (X)HTML - Acorn / RISC OS / ARM, free software, YP17,
Championnat International des Jeux Mathématiques et Logiques, etc.
Work: CR INRIA - computer arithmetic / SPACES project at LORIA
--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org