Le mardi 22 février 2005 à 12:09 +0100, philippe L a écrit :
Bonjour,
Bonjour,
Je cherche une appli qui transforme des PDF en fichier text, ou une norme standard le tous en ligne de commande ... çà existe ?
Je te propose un pdf2ps puis un ps2ascii (les deux sont dans gs-common).
Merci !
De rien.
Philippe
Fabrice.
--=-gm0qSgLq9dvQXt8Wvd0V Content-Type: application/pgp-signature; name=signature.asc Content-Description: Ceci est une partie de message =?ISO-8859-1?Q?numériquement?= =?ISO-8859-1?Q?_signée? -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.0 (GNU/Linux)
Le mardi 22 février 2005 à 12:09 +0100, philippe L a écrit :
Bonjour,
Bonjour,
Je cherche une appli qui transforme des PDF en fichier text, ou une
norme standard le tous en ligne de commande ...
çà existe ?
Je te propose un pdf2ps puis un ps2ascii (les deux sont dans gs-common).
Merci !
De rien.
Philippe
Fabrice.
--=-gm0qSgLq9dvQXt8Wvd0V
Content-Type: application/pgp-signature; name=signature.asc
Content-Description: Ceci est une partie de message
=?ISO-8859-1?Q?numériquement?= =?ISO-8859-1?Q?_signée?
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.0 (GNU/Linux)
Le mardi 22 février 2005 à 12:09 +0100, philippe L a écrit :
Bonjour,
Bonjour,
Je cherche une appli qui transforme des PDF en fichier text, ou une norme standard le tous en ligne de commande ... çà existe ?
Je te propose un pdf2ps puis un ps2ascii (les deux sont dans gs-common).
Merci !
De rien.
Philippe
Fabrice.
--=-gm0qSgLq9dvQXt8Wvd0V Content-Type: application/pgp-signature; name=signature.asc Content-Description: Ceci est une partie de message =?ISO-8859-1?Q?numériquement?= =?ISO-8859-1?Q?_signée? -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.0 (GNU/Linux)
Le Mardi 22 Février 2005 14:21, Jean-Michel OLTRA a écrit :
bonjour,
Le mardi 22 février 2005, toto a écrit...
> pdftotext ?
J'ai essayé ce truc déjà (et c'est pourquoi je n'ai pas répondu): c'est horrible !
pas du tout Klaus
Yves Rutschle
On Tue, Feb 22, 2005 at 06:57:42PM +0100, Klaus Becker wrote:
> > pdftotext ? > J'ai essayé ce truc déjà (et c'est pourquoi je n'ai pas répondu): c'est > horrible ! pas du tout
Ça ne marche pas du tout avec les caractères accentués générés par pdflatex.
Il me semble l'avoir vu marché avec d'autres caractères accentués, cela dit... et l'avoir vu marché superbement avec de l'anglais (en conservant les colonnes du document original et tout...).
Mon point de vue sur pdftotext est qu'il faut l'essayer au coup par coup.
Y.
-- Pensez à lire la FAQ de la liste avant de poser une question : http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to with a subject of "unsubscribe". Trouble? Contact
On Tue, Feb 22, 2005 at 06:57:42PM +0100, Klaus Becker wrote:
> > pdftotext ?
> J'ai essayé ce truc déjà (et c'est pourquoi je n'ai pas répondu): c'est
> horrible !
pas du tout
Ça ne marche pas du tout avec les caractères accentués
générés par pdflatex.
Il me semble l'avoir vu marché avec d'autres caractères
accentués, cela dit... et l'avoir vu marché superbement avec
de l'anglais (en conservant les colonnes du document
original et tout...).
Mon point de vue sur pdftotext est qu'il faut l'essayer au
coup par coup.
Y.
--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org
On Tue, Feb 22, 2005 at 06:57:42PM +0100, Klaus Becker wrote:
> > pdftotext ? > J'ai essayé ce truc déjà (et c'est pourquoi je n'ai pas répondu): c'est > horrible ! pas du tout
Ça ne marche pas du tout avec les caractères accentués générés par pdflatex.
Il me semble l'avoir vu marché avec d'autres caractères accentués, cela dit... et l'avoir vu marché superbement avec de l'anglais (en conservant les colonnes du document original et tout...).
Mon point de vue sur pdftotext est qu'il faut l'essayer au coup par coup.
Y.
-- Pensez à lire la FAQ de la liste avant de poser une question : http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to with a subject of "unsubscribe". Trouble? Contact
Jean-Michel OLTRA
bonjour,
Le mardi 22 février 2005, Yves Rutschle a écrit...
Ça ne marche pas du tout avec les caractères accentués générés par pdflatex.
Gagné! Faudrait que j'essaye avec d'autres fichiers. J'ai été trop affirmatif.
Il me semble l'avoir vu marché avec d'autres caractères accentués, cela dit... et l'avoir vu marché superbement avec de l'anglais (en conservant les colonnes du document original et tout...).
C'est sûr, il y a beaucoup de caractères accentués en anglaisdots
-- jm
-- Pensez à lire la FAQ de la liste avant de poser une question : http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to with a subject of "unsubscribe". Trouble? Contact
bonjour,
Le mardi 22 février 2005, Yves Rutschle a écrit...
Ça ne marche pas du tout avec les caractères accentués
générés par pdflatex.
Gagné! Faudrait que j'essaye avec d'autres fichiers. J'ai été trop
affirmatif.
Il me semble l'avoir vu marché avec d'autres caractères
accentués, cela dit... et l'avoir vu marché superbement avec
de l'anglais (en conservant les colonnes du document
original et tout...).
C'est sûr, il y a beaucoup de caractères accentués en anglaisdots
--
jm
--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org
Le mardi 22 février 2005, Yves Rutschle a écrit...
Ça ne marche pas du tout avec les caractères accentués générés par pdflatex.
Gagné! Faudrait que j'essaye avec d'autres fichiers. J'ai été trop affirmatif.
Il me semble l'avoir vu marché avec d'autres caractères accentués, cela dit... et l'avoir vu marché superbement avec de l'anglais (en conservant les colonnes du document original et tout...).
C'est sûr, il y a beaucoup de caractères accentués en anglaisdots
-- jm
-- Pensez à lire la FAQ de la liste avant de poser une question : http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to with a subject of "unsubscribe". Trouble? Contact
Sylvain Sauvage
Tue, 22 Feb 2005 21:28:57 +0100, Jean-Michel OLTRA a écrit :
bonjour,
Le mardi 22 février 2005, Yves Rutschle a écrit...
> Ça ne marche pas du tout avec les caractères accentués > générés par pdflatex.
Gagné! Faudrait que j'essaye avec d'autres fichiers. J'ai été trop affirmatif.
Il faut jouer avec les options d'encodage, mais c'est pas évident. Sinon, je crois m'être débrouillé une fois en passant par le postscri pt.
-- Sylvain Sauvage
Tue, 22 Feb 2005 21:28:57 +0100, Jean-Michel OLTRA a écrit :
bonjour,
Le mardi 22 février 2005, Yves Rutschle a écrit...
> Ça ne marche pas du tout avec les caractères accentués
> générés par pdflatex.
Gagné! Faudrait que j'essaye avec d'autres fichiers. J'ai été trop
affirmatif.
Il faut jouer avec les options d'encodage, mais c'est pas évident.
Sinon, je crois m'être débrouillé une fois en passant par le postscri pt.
Tue, 22 Feb 2005 21:28:57 +0100, Jean-Michel OLTRA a écrit :
bonjour,
Le mardi 22 février 2005, Yves Rutschle a écrit...
> Ça ne marche pas du tout avec les caractères accentués > générés par pdflatex.
Gagné! Faudrait que j'essaye avec d'autres fichiers. J'ai été trop affirmatif.
Il faut jouer avec les options d'encodage, mais c'est pas évident. Sinon, je crois m'être débrouillé une fois en passant par le postscri pt.
-- Sylvain Sauvage
Yves Rutschle
On Tue, Feb 22, 2005 at 09:28:57PM +0100, Jean-Michel OLTRA wrote:
Gagné! Faudrait que j'essaye avec d'autres fichiers. J'ai été trop affirmatif.
Il me semble en avoir vu qui marchait, mais c'était y'a longtemps...
C'est sûr, il y a beaucoup de caractères accentués en anglaisdots
Touché, café, à la carte, apéritif, déjà-vu, crème fraîche (n'essayez jamais « cream », c'est pas du tout pareil), fiancé... il y en a plein, really :-)
Y.
-- Pensez à lire la FAQ de la liste avant de poser une question : http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to with a subject of "unsubscribe". Trouble? Contact
On Tue, Feb 22, 2005 at 09:28:57PM +0100, Jean-Michel OLTRA wrote:
Gagné! Faudrait que j'essaye avec d'autres fichiers. J'ai été trop
affirmatif.
Il me semble en avoir vu qui marchait, mais c'était y'a
longtemps...
C'est sûr, il y a beaucoup de caractères accentués en anglaisdots
Touché, café, à la carte, apéritif, déjà-vu, crème fraîche
(n'essayez jamais « cream », c'est pas du tout pareil),
fiancé... il y en a plein, really :-)
Y.
--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org
On Tue, Feb 22, 2005 at 09:28:57PM +0100, Jean-Michel OLTRA wrote:
Gagné! Faudrait que j'essaye avec d'autres fichiers. J'ai été trop affirmatif.
Il me semble en avoir vu qui marchait, mais c'était y'a longtemps...
C'est sûr, il y a beaucoup de caractères accentués en anglaisdots
Touché, café, à la carte, apéritif, déjà-vu, crème fraîche (n'essayez jamais « cream », c'est pas du tout pareil), fiancé... il y en a plein, really :-)
Y.
-- Pensez à lire la FAQ de la liste avant de poser une question : http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to with a subject of "unsubscribe". Trouble? Contact
Sylvain Sauvage
Tue, 22 Feb 2005 22:15:34 +0000, Yves Rutschle a écrit :
On Tue, Feb 22, 2005 at 09:28:57PM +0100, Jean-Michel OLTRA wrote: > Gagné! Faudrait que j'essaye avec d'autres fichiers. J'ai été trop > affirmatif.
Il me semble en avoir vu qui marchait, mais c'était y'a longtemps...
> C'est sûr, il y a beaucoup de caractères accentués en anglaisdots
Touché, café, à la carte, apéritif, déjà-vu, crème fraîche (n'essayez jamais « cream », c'est pas du tout pareil), fiancé... il y en a plein, really :-)
Et « Münster » aussi :
« « English is a straightforward, frank, honest, open-hearted, no-nonsense language, which has little truck with such devilish devious devices as accents; indeed U.S. editors and printers are often thrown into a dither when a foreign word insinuates itself into the language. However there is one word on which Americans seem to have closed ranks, printing it confidently, courageously, and almost invariably complete with accent---the cheese presented to us as Münster.
Unfortunately, Munster doesn't take an accent. » - Waverley Root, The International Herald Tribune, mardi 18 mai 1982, p.8 » - The TeXBook
:oP
(Pfiou, citation de citation...)
-- Sylvain Sauvage
Tue, 22 Feb 2005 22:15:34 +0000, Yves Rutschle a écrit :
On Tue, Feb 22, 2005 at 09:28:57PM +0100, Jean-Michel OLTRA wrote:
> Gagné! Faudrait que j'essaye avec d'autres fichiers. J'ai été trop
> affirmatif.
Il me semble en avoir vu qui marchait, mais c'était y'a
longtemps...
> C'est sûr, il y a beaucoup de caractères accentués en anglaisdots
Touché, café, à la carte, apéritif, déjà-vu, crème fraîche
(n'essayez jamais « cream », c'est pas du tout pareil),
fiancé... il y en a plein, really :-)
Et « Münster » aussi :
«
«
English is a straightforward, frank, honest, open-hearted, no-nonsense
language, which has little truck with such devilish devious devices as
accents; indeed U.S. editors and printers are often thrown into a dither
when a foreign word insinuates itself into the language. However there
is one word on which Americans seem to have closed ranks, printing it
confidently, courageously, and almost invariably complete with
accent---the cheese presented to us as Münster.
Unfortunately, Munster doesn't take an accent.
» - Waverley Root,
The International Herald Tribune, mardi 18 mai 1982, p.8
» - The TeXBook
Tue, 22 Feb 2005 22:15:34 +0000, Yves Rutschle a écrit :
On Tue, Feb 22, 2005 at 09:28:57PM +0100, Jean-Michel OLTRA wrote: > Gagné! Faudrait que j'essaye avec d'autres fichiers. J'ai été trop > affirmatif.
Il me semble en avoir vu qui marchait, mais c'était y'a longtemps...
> C'est sûr, il y a beaucoup de caractères accentués en anglaisdots
Touché, café, à la carte, apéritif, déjà-vu, crème fraîche (n'essayez jamais « cream », c'est pas du tout pareil), fiancé... il y en a plein, really :-)
Et « Münster » aussi :
« « English is a straightforward, frank, honest, open-hearted, no-nonsense language, which has little truck with such devilish devious devices as accents; indeed U.S. editors and printers are often thrown into a dither when a foreign word insinuates itself into the language. However there is one word on which Americans seem to have closed ranks, printing it confidently, courageously, and almost invariably complete with accent---the cheese presented to us as Münster.
Unfortunately, Munster doesn't take an accent. » - Waverley Root, The International Herald Tribune, mardi 18 mai 1982, p.8 » - The TeXBook
:oP
(Pfiou, citation de citation...)
-- Sylvain Sauvage
Nooks L. Affro
On Tue, Feb 22, 2005 at 12:09:30PM +0100, philippe L wrote:
Bonjour,
Je cherche une appli qui transforme des PDF en fichier text, ou une norme standard le tous en ligne de commande ... çà existe ?
Ca depend beaucoup de l'origine du pdf. Le pdf gener'e par latex sera plus difficile que celui gener'e par firefox->print. C'est li'e a des consideratons de conception du module impression/conversion l'appli d'origine, s'il supporte du postscript unicode ou pas , ou bien s'il inclut la police dans le code postscript gener'e ou l'int`egre sous forme d'images bitmaps de caracteres, ...
La "technique" garantie est de transformer le pdf en image (avec gs , device pbm), histoire de se liberer de son origine, et de faire passer un moteur OCR sur l'image. Ca depend quand meme de la precision de l'OCR en question.
Malheureusement, des OCRs sous linux, il y en a pas des milliers. Je connais gocr : http://jocr.sourceforge.net/
Nooks,
-- Pensez à lire la FAQ de la liste avant de poser une question : http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to with a subject of "unsubscribe". Trouble? Contact
On Tue, Feb 22, 2005 at 12:09:30PM +0100, philippe L wrote:
Bonjour,
Je cherche une appli qui transforme des PDF en fichier text, ou une
norme standard le tous en ligne de commande ...
çà existe ?
Ca depend beaucoup de l'origine du pdf. Le pdf gener'e par latex sera plus
difficile que celui gener'e par firefox->print. C'est li'e a des
consideratons de conception du module impression/conversion l'appli d'origine, s'il supporte du postscript unicode ou pas , ou bien s'il inclut la police dans le code postscript gener'e ou l'int`egre sous forme d'images bitmaps de caracteres, ...
La "technique" garantie est de transformer le pdf en image
(avec gs , device pbm), histoire de se liberer de son origine,
et de faire passer un moteur OCR sur l'image. Ca depend quand meme de la precision de l'OCR en question.
Malheureusement, des OCRs sous linux, il y en a pas des milliers. Je connais gocr : http://jocr.sourceforge.net/
Nooks,
--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org
On Tue, Feb 22, 2005 at 12:09:30PM +0100, philippe L wrote:
Bonjour,
Je cherche une appli qui transforme des PDF en fichier text, ou une norme standard le tous en ligne de commande ... çà existe ?
Ca depend beaucoup de l'origine du pdf. Le pdf gener'e par latex sera plus difficile que celui gener'e par firefox->print. C'est li'e a des consideratons de conception du module impression/conversion l'appli d'origine, s'il supporte du postscript unicode ou pas , ou bien s'il inclut la police dans le code postscript gener'e ou l'int`egre sous forme d'images bitmaps de caracteres, ...
La "technique" garantie est de transformer le pdf en image (avec gs , device pbm), histoire de se liberer de son origine, et de faire passer un moteur OCR sur l'image. Ca depend quand meme de la precision de l'OCR en question.
Malheureusement, des OCRs sous linux, il y en a pas des milliers. Je connais gocr : http://jocr.sourceforge.net/
Nooks,
-- Pensez à lire la FAQ de la liste avant de poser une question : http://wiki.debian.net/?DebianFrench
Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"
To UNSUBSCRIBE, email to with a subject of "unsubscribe". Trouble? Contact