ps(img?)totext

4 réponses

Pascal Ganier

10/01/2004 à 00:07

J'ai un (gros) fichier portant l'extension .ps (un dictionnaire).
J'aimerais le convertir en fichier texte afin de profiter du contenu.
J'ai sous linux déjà essayé la commande pstotext qui n'a rien donné.
Le document est probablement le rsultat d'une numérisation.
Chaque page se présente sous la forme de deux colonnes de texte qui peuvent
à leur tour être divisées en deux.
Comment au final obtenir mon fichier de données? Quelle pourrait être la
procédure?
Déjà comment retrouver le format initial des fichiers qui ont produit le
fichier final?
Comment convertir chaque page en image?
Comment convertir chaque image en fichier de données (reconnaissance de
caractère? si numérisation)
Je suis dans l'attente de la moindre suggestion pour chacun de ces points
indépendemment.
Merci
PG

4 réponses

Mjules

09/01/2004 à 22:28

Pascal Ganier wrote:

J'ai un (gros) fichier portant l'extension .ps (un dictionnaire).
J'aimerais le convertir en fichier texte afin de profiter du contenu.
J'ai sous linux déjà essayé la commande pstotext qui n'a rien donné.
Le document est probablement le rsultat d'une numérisation.
Chaque page se présente sous la forme de deux colonnes de texte qui
peuvent à leur tour être divisées en deux.
Comment au final obtenir mon fichier de données? Quelle pourrait être la
procédure?
Déjà comment retrouver le format initial des fichiers qui ont produit le
fichier final?
Comment convertir chaque page en image?
Comment convertir chaque image en fichier de données (reconnaissance de
caractère? si numérisation)
Je suis dans l'attente de la moindre suggestion pour chacun de ces points
indépendemment.
Merci
PG

bonjour,

si c'est un document numériser puis convertis en postscript, je pense que la
seule solution est l'OCR.

sous win, certains soft d'OCR (Omnipage je crois) permette de faire ça
directement sur des PDF ; peut-être le font ils aussi avec du postscript.

Zigomar

10/01/2004 à 08:40

"Pascal Ganier" Wrote:

Salut,

Télécharge les utilitaires Ghostscript et Ghostview, qui te transformeront
to fichier PS en fichier PDF, et aussi *n'importe quel* autre fichier
imprimable en PS et ensuite en PDF, mais ceci uniquement sous WIN.
www.ghostscript.com
Pour Linux (GNU Ghostscript) l'adresse de téléchargement est:
ftp://mirror.cs.wisc.edu/pub/mirrors/ghost/gnu/
Pour les infos:
http://linux.about.com/gi/dynamic/offsite.htm?site=http%3A%2F%2Fwww.gnu.org%
2Fsoftware%2Fghostscript%2Fghostscript.html

@+
Marco

Prakash Countcham

10/01/2004 à 14:18

Bonjour,

Le sujet s'éloigne de (La)TeX (ya des forums sur le postscript), mais je
vais quand même donner des pistes...

Pascal Ganier wrote:

J'ai un (gros) fichier portant l'extension .ps (un dictionnaire).
J'aimerais le convertir en fichier texte afin de profiter du contenu.
J'ai sous linux déjà essayé la commande pstotext qui n'a rien donné.

As-tu essayé pstoascii ?

Le document est probablement le rsultat d'une numérisation.

Regarde le contenu avec more pour en être sûr.

[...]

Déjà comment retrouver le format initial des fichiers qui ont produit le
fichier final?

Il y a souvent des commentaires en début de fichier postscript qui précisent
le logiciel utilisé pour la génération.

Comment convertir chaque page en image?

Un fichier postscript peut être vu comme une image. Sinon ImageMagick peut
convertir des fichiers postscripts vers un grand nombre de formats d'image.
pstoedit peut aussi convertir un ps vers du code latex (admirez le retour à
la charte !).

Comment convertir chaque image en fichier de données (reconnaissance de
caractère? si numérisation)

Utiliser un logiciel de reconnaissance de caractères (OCR) comme clara ou
gocr (qui sont libres).

--
Prakash

Eric Streit

16/01/2004 à 16:26

Bonjour,

Le 09-01-2004, Pascal Ganier a écrit :

J'ai un (gros) fichier portant l'extension .ps (un dictionnaire).
J'aimerais le convertir en fichier texte afin de profiter du contenu.
J'ai sous linux déjà essayé la commande pstotext qui n'a rien donné.
Le document est probablement le rsultat d'une numérisation.
Chaque page se présente sous la forme de deux colonnes de texte qui peuvent
à leur tour être divisées en deux.
Comment au final obtenir mon fichier de données? Quelle pourrait être la
procédure?
Déjà comment retrouver le format initial des fichiers qui ont produit le
fichier final?
Comment convertir chaque page en image?
Comment convertir chaque image en fichier de données (reconnaissance de
caractère? si numérisation)
Je suis dans l'attente de la moindre suggestion pour chacun de ces points
indépendemment.
Merci
PG

apparemment, les pages sont stockées sous forme d'image, et non pas de
texte, donc, le seul moyen est d'utiliser un logiciel d'OCR. Sous Linux,
il y a gocr, kooka, xocr, clara tous libres et FineReader (payant)

Et peut-être d'autres ...

Eric!
----

ps(img?)totext

4 réponses

Veuillez sélectionner un problème