Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

Conversion de PDF en format texte

10 réponses
Avatar
philippe L
Bonjour,

Je cherche une appli qui transforme des PDF en fichier text, ou une
norme standard le tous en ligne de commande ...
=E7=E0 existe ?

Merci !

Philippe

10 réponses

Avatar
toto
philippe L a écrit :
Bonjour,

Je cherche une appli qui transforme des PDF en fichier text, ou une
norme standard le tous en ligne de commande ...
çà existe ?




pdftotext ?

man pdftotext :
pdftotext - Portable Document Format (PDF) to text converter


--
Toto

echo '16i[q]sa[ln0=aln100%Pln100/snlbx]sbA0D4D465452snlbxq'|dc


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Peix Fabrice
--=-gm0qSgLq9dvQXt8Wvd0V
Content-Type: text/plain; charset=ISO-8859-15
Content-Transfer-Encoding: quoted-printable

Le mardi 22 février 2005 à 12:09 +0100, philippe L a écrit :
Bonjour,




Bonjour,

Je cherche une appli qui transforme des PDF en fichier text, ou une
norme standard le tous en ligne de commande ...
çà existe ?




Je te propose un pdf2ps puis un ps2ascii (les deux sont dans gs-common).

Merci !




De rien.

Philippe



Fabrice.

--=-gm0qSgLq9dvQXt8Wvd0V
Content-Type: application/pgp-signature; name=signature.asc
Content-Description: Ceci est une partie de message
=?ISO-8859-1?Q?numériquement?= =?ISO-8859-1?Q?_signée?
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.0 (GNU/Linux)

iD8DBQBCGxa+FZzpYXQHU8gRAixMAJwLBBaYez2Bik4s5DS72a5lftkLaQCdEPIM
hnD3JF79WM83kyz3l7WF7Pw =zVXz
-----END PGP SIGNATURE-----

--=-gm0qSgLq9dvQXt8Wvd0V--


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Jean-Michel OLTRA
bonjour,


Le mardi 22 février 2005, toto a écrit...



pdftotext ?



J'ai essayé ce truc déjà (et c'est pourquoi je n'ai pas répondu): c'est
horrible !

--
jm


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Klaus Becker
Le Mardi 22 Février 2005 14:21, Jean-Michel OLTRA a écrit :
bonjour,


Le mardi 22 février 2005, toto a écrit...

> pdftotext ?

J'ai essayé ce truc déjà (et c'est pourquoi je n'ai pas répondu): c'est
horrible !



pas du tout
Klaus
Avatar
Yves Rutschle
On Tue, Feb 22, 2005 at 06:57:42PM +0100, Klaus Becker wrote:
> > pdftotext ?
> J'ai essayé ce truc déjà (et c'est pourquoi je n'ai pas répondu): c'est
> horrible !
pas du tout



Ça ne marche pas du tout avec les caractères accentués
générés par pdflatex.

Il me semble l'avoir vu marché avec d'autres caractères
accentués, cela dit... et l'avoir vu marché superbement avec
de l'anglais (en conservant les colonnes du document
original et tout...).

Mon point de vue sur pdftotext est qu'il faut l'essayer au
coup par coup.

Y.


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Jean-Michel OLTRA
bonjour,


Le mardi 22 février 2005, Yves Rutschle a écrit...


Ça ne marche pas du tout avec les caractères accentués
générés par pdflatex.



Gagné! Faudrait que j'essaye avec d'autres fichiers. J'ai été trop
affirmatif.

Il me semble l'avoir vu marché avec d'autres caractères
accentués, cela dit... et l'avoir vu marché superbement avec
de l'anglais (en conservant les colonnes du document
original et tout...).



C'est sûr, il y a beaucoup de caractères accentués en anglaisdots

--
jm


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Sylvain Sauvage
Tue, 22 Feb 2005 21:28:57 +0100, Jean-Michel OLTRA a écrit :
bonjour,

Le mardi 22 février 2005, Yves Rutschle a écrit...

> Ça ne marche pas du tout avec les caractères accentués
> générés par pdflatex.

Gagné! Faudrait que j'essaye avec d'autres fichiers. J'ai été trop
affirmatif.



Il faut jouer avec les options d'encodage, mais c'est pas évident.
Sinon, je crois m'être débrouillé une fois en passant par le postscri pt.

--
Sylvain Sauvage
Avatar
Yves Rutschle
On Tue, Feb 22, 2005 at 09:28:57PM +0100, Jean-Michel OLTRA wrote:
Gagné! Faudrait que j'essaye avec d'autres fichiers. J'ai été trop
affirmatif.



Il me semble en avoir vu qui marchait, mais c'était y'a
longtemps...

C'est sûr, il y a beaucoup de caractères accentués en anglaisdots



Touché, café, à la carte, apéritif, déjà-vu, crème fraîche
(n'essayez jamais « cream », c'est pas du tout pareil),
fiancé... il y en a plein, really :-)

Y.


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Sylvain Sauvage
Tue, 22 Feb 2005 22:15:34 +0000, Yves Rutschle a écrit :
On Tue, Feb 22, 2005 at 09:28:57PM +0100, Jean-Michel OLTRA wrote:
> Gagné! Faudrait que j'essaye avec d'autres fichiers. J'ai été trop
> affirmatif.

Il me semble en avoir vu qui marchait, mais c'était y'a
longtemps...

> C'est sûr, il y a beaucoup de caractères accentués en anglaisdots

Touché, café, à la carte, apéritif, déjà-vu, crème fraîche
(n'essayez jamais « cream », c'est pas du tout pareil),
fiancé... il y en a plein, really :-)



Et « Münster » aussi :

«
«
English is a straightforward, frank, honest, open-hearted, no-nonsense
language, which has little truck with such devilish devious devices as
accents; indeed U.S. editors and printers are often thrown into a dither
when a foreign word insinuates itself into the language. However there
is one word on which Americans seem to have closed ranks, printing it
confidently, courageously, and almost invariably complete with
accent---the cheese presented to us as Münster.

Unfortunately, Munster doesn't take an accent.
» - Waverley Root,
The International Herald Tribune, mardi 18 mai 1982, p.8
» - The TeXBook

:oP

(Pfiou, citation de citation...)

--
Sylvain Sauvage
Avatar
Nooks L. Affro
On Tue, Feb 22, 2005 at 12:09:30PM +0100, philippe L wrote:
Bonjour,

Je cherche une appli qui transforme des PDF en fichier text, ou une
norme standard le tous en ligne de commande ...
çà existe ?



Ca depend beaucoup de l'origine du pdf. Le pdf gener'e par latex sera plus
difficile que celui gener'e par firefox->print. C'est li'e a des
consideratons de conception du module impression/conversion l'appli d'origine, s'il supporte du postscript unicode ou pas , ou bien s'il inclut la police dans le code postscript gener'e ou l'int`egre sous forme d'images bitmaps de caracteres, ...

La "technique" garantie est de transformer le pdf en image
(avec gs , device pbm), histoire de se liberer de son origine,
et de faire passer un moteur OCR sur l'image. Ca depend quand meme de la precision de l'OCR en question.

Malheureusement, des OCRs sous linux, il y en a pas des milliers. Je connais gocr : http://jocr.sourceforge.net/

Nooks,


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact