J'ai un (gros) fichier portant l'extension .ps (un dictionnaire).
J'aimerais le convertir en fichier texte afin de profiter du contenu.
J'ai sous linux déjà essayé la commande pstotext qui n'a rien donné.
Le document est probablement le rsultat d'une numérisation.
Chaque page se présente sous la forme de deux colonnes de texte qui peuvent
à leur tour être divisées en deux.
Comment au final obtenir mon fichier de données? Quelle pourrait être la
procédure?
Déjà comment retrouver le format initial des fichiers qui ont produit le
fichier final?
Comment convertir chaque page en image?
Comment convertir chaque image en fichier de données (reconnaissance de
caractère? si numérisation)
Je suis dans l'attente de la moindre suggestion pour chacun de ces points
indépendemment.
Merci
PG
Cette action est irreversible, confirmez la suppression du commentaire ?
Signaler le commentaire
Veuillez sélectionner un problème
Nudité
Violence
Harcèlement
Fraude
Vente illégale
Discours haineux
Terrorisme
Autre
Mjules
Pascal Ganier wrote:
J'ai un (gros) fichier portant l'extension .ps (un dictionnaire). J'aimerais le convertir en fichier texte afin de profiter du contenu. J'ai sous linux déjà essayé la commande pstotext qui n'a rien donné. Le document est probablement le rsultat d'une numérisation. Chaque page se présente sous la forme de deux colonnes de texte qui peuvent à leur tour être divisées en deux. Comment au final obtenir mon fichier de données? Quelle pourrait être la procédure? Déjà comment retrouver le format initial des fichiers qui ont produit le fichier final? Comment convertir chaque page en image? Comment convertir chaque image en fichier de données (reconnaissance de caractère? si numérisation) Je suis dans l'attente de la moindre suggestion pour chacun de ces points indépendemment. Merci PG
bonjour,
si c'est un document numériser puis convertis en postscript, je pense que la seule solution est l'OCR.
sous win, certains soft d'OCR (Omnipage je crois) permette de faire ça directement sur des PDF ; peut-être le font ils aussi avec du postscript.
Pascal Ganier wrote:
J'ai un (gros) fichier portant l'extension .ps (un dictionnaire).
J'aimerais le convertir en fichier texte afin de profiter du contenu.
J'ai sous linux déjà essayé la commande pstotext qui n'a rien donné.
Le document est probablement le rsultat d'une numérisation.
Chaque page se présente sous la forme de deux colonnes de texte qui
peuvent à leur tour être divisées en deux.
Comment au final obtenir mon fichier de données? Quelle pourrait être la
procédure?
Déjà comment retrouver le format initial des fichiers qui ont produit le
fichier final?
Comment convertir chaque page en image?
Comment convertir chaque image en fichier de données (reconnaissance de
caractère? si numérisation)
Je suis dans l'attente de la moindre suggestion pour chacun de ces points
indépendemment.
Merci
PG
bonjour,
si c'est un document numériser puis convertis en postscript, je pense que la
seule solution est l'OCR.
sous win, certains soft d'OCR (Omnipage je crois) permette de faire ça
directement sur des PDF ; peut-être le font ils aussi avec du postscript.
J'ai un (gros) fichier portant l'extension .ps (un dictionnaire). J'aimerais le convertir en fichier texte afin de profiter du contenu. J'ai sous linux déjà essayé la commande pstotext qui n'a rien donné. Le document est probablement le rsultat d'une numérisation. Chaque page se présente sous la forme de deux colonnes de texte qui peuvent à leur tour être divisées en deux. Comment au final obtenir mon fichier de données? Quelle pourrait être la procédure? Déjà comment retrouver le format initial des fichiers qui ont produit le fichier final? Comment convertir chaque page en image? Comment convertir chaque image en fichier de données (reconnaissance de caractère? si numérisation) Je suis dans l'attente de la moindre suggestion pour chacun de ces points indépendemment. Merci PG
bonjour,
si c'est un document numériser puis convertis en postscript, je pense que la seule solution est l'OCR.
sous win, certains soft d'OCR (Omnipage je crois) permette de faire ça directement sur des PDF ; peut-être le font ils aussi avec du postscript.
Zigomar
"Pascal Ganier" Wrote:
Salut,
Télécharge les utilitaires Ghostscript et Ghostview, qui te transformeront to fichier PS en fichier PDF, et aussi *n'importe quel* autre fichier imprimable en PS et ensuite en PDF, mais ceci uniquement sous WIN. www.ghostscript.com Pour Linux (GNU Ghostscript) l'adresse de téléchargement est: ftp://mirror.cs.wisc.edu/pub/mirrors/ghost/gnu/ Pour les infos: http://linux.about.com/gi/dynamic/offsite.htm?site=http%3A%2F%2Fwww.gnu.org% 2Fsoftware%2Fghostscript%2Fghostscript.html
@+ Marco
"Pascal Ganier" Wrote:
Salut,
Télécharge les utilitaires Ghostscript et Ghostview, qui te transformeront
to fichier PS en fichier PDF, et aussi *n'importe quel* autre fichier
imprimable en PS et ensuite en PDF, mais ceci uniquement sous WIN.
www.ghostscript.com
Pour Linux (GNU Ghostscript) l'adresse de téléchargement est:
ftp://mirror.cs.wisc.edu/pub/mirrors/ghost/gnu/
Pour les infos:
http://linux.about.com/gi/dynamic/offsite.htm?site=http%3A%2F%2Fwww.gnu.org%
2Fsoftware%2Fghostscript%2Fghostscript.html
Télécharge les utilitaires Ghostscript et Ghostview, qui te transformeront to fichier PS en fichier PDF, et aussi *n'importe quel* autre fichier imprimable en PS et ensuite en PDF, mais ceci uniquement sous WIN. www.ghostscript.com Pour Linux (GNU Ghostscript) l'adresse de téléchargement est: ftp://mirror.cs.wisc.edu/pub/mirrors/ghost/gnu/ Pour les infos: http://linux.about.com/gi/dynamic/offsite.htm?site=http%3A%2F%2Fwww.gnu.org% 2Fsoftware%2Fghostscript%2Fghostscript.html
@+ Marco
Prakash Countcham
Bonjour,
Le sujet s'éloigne de (La)TeX (ya des forums sur le postscript), mais je vais quand même donner des pistes...
Pascal Ganier wrote:
J'ai un (gros) fichier portant l'extension .ps (un dictionnaire). J'aimerais le convertir en fichier texte afin de profiter du contenu. J'ai sous linux déjà essayé la commande pstotext qui n'a rien donné.
As-tu essayé pstoascii ?
Le document est probablement le rsultat d'une numérisation.
Regarde le contenu avec more pour en être sûr.
[...]
Déjà comment retrouver le format initial des fichiers qui ont produit le fichier final?
Il y a souvent des commentaires en début de fichier postscript qui précisent le logiciel utilisé pour la génération.
Comment convertir chaque page en image?
Un fichier postscript peut être vu comme une image. Sinon ImageMagick peut convertir des fichiers postscripts vers un grand nombre de formats d'image. pstoedit peut aussi convertir un ps vers du code latex (admirez le retour à la charte !).
Comment convertir chaque image en fichier de données (reconnaissance de caractère? si numérisation)
Utiliser un logiciel de reconnaissance de caractères (OCR) comme clara ou gocr (qui sont libres).
-- Prakash
Bonjour,
Le sujet s'éloigne de (La)TeX (ya des forums sur le postscript), mais je
vais quand même donner des pistes...
Pascal Ganier wrote:
J'ai un (gros) fichier portant l'extension .ps (un dictionnaire).
J'aimerais le convertir en fichier texte afin de profiter du contenu.
J'ai sous linux déjà essayé la commande pstotext qui n'a rien donné.
As-tu essayé pstoascii ?
Le document est probablement le rsultat d'une numérisation.
Regarde le contenu avec more pour en être sûr.
[...]
Déjà comment retrouver le format initial des fichiers qui ont produit le
fichier final?
Il y a souvent des commentaires en début de fichier postscript qui précisent
le logiciel utilisé pour la génération.
Comment convertir chaque page en image?
Un fichier postscript peut être vu comme une image. Sinon ImageMagick peut
convertir des fichiers postscripts vers un grand nombre de formats d'image.
pstoedit peut aussi convertir un ps vers du code latex (admirez le retour à
la charte !).
Comment convertir chaque image en fichier de données (reconnaissance de
caractère? si numérisation)
Utiliser un logiciel de reconnaissance de caractères (OCR) comme clara ou
gocr (qui sont libres).
Le sujet s'éloigne de (La)TeX (ya des forums sur le postscript), mais je vais quand même donner des pistes...
Pascal Ganier wrote:
J'ai un (gros) fichier portant l'extension .ps (un dictionnaire). J'aimerais le convertir en fichier texte afin de profiter du contenu. J'ai sous linux déjà essayé la commande pstotext qui n'a rien donné.
As-tu essayé pstoascii ?
Le document est probablement le rsultat d'une numérisation.
Regarde le contenu avec more pour en être sûr.
[...]
Déjà comment retrouver le format initial des fichiers qui ont produit le fichier final?
Il y a souvent des commentaires en début de fichier postscript qui précisent le logiciel utilisé pour la génération.
Comment convertir chaque page en image?
Un fichier postscript peut être vu comme une image. Sinon ImageMagick peut convertir des fichiers postscripts vers un grand nombre de formats d'image. pstoedit peut aussi convertir un ps vers du code latex (admirez le retour à la charte !).
Comment convertir chaque image en fichier de données (reconnaissance de caractère? si numérisation)
Utiliser un logiciel de reconnaissance de caractères (OCR) comme clara ou gocr (qui sont libres).
-- Prakash
Eric Streit
Bonjour,
Le 09-01-2004, Pascal Ganier a écrit :
J'ai un (gros) fichier portant l'extension .ps (un dictionnaire). J'aimerais le convertir en fichier texte afin de profiter du contenu. J'ai sous linux déjà essayé la commande pstotext qui n'a rien donné. Le document est probablement le rsultat d'une numérisation. Chaque page se présente sous la forme de deux colonnes de texte qui peuvent à leur tour être divisées en deux. Comment au final obtenir mon fichier de données? Quelle pourrait être la procédure? Déjà comment retrouver le format initial des fichiers qui ont produit le fichier final? Comment convertir chaque page en image? Comment convertir chaque image en fichier de données (reconnaissance de caractère? si numérisation) Je suis dans l'attente de la moindre suggestion pour chacun de ces points indépendemment. Merci PG
apparemment, les pages sont stockées sous forme d'image, et non pas de texte, donc, le seul moyen est d'utiliser un logiciel d'OCR. Sous Linux, il y a gocr, kooka, xocr, clara tous libres et FineReader (payant)
Et peut-être d'autres ...
Eric! ----
Bonjour,
Le 09-01-2004, Pascal Ganier <NIL@NIL.FR> a écrit :
J'ai un (gros) fichier portant l'extension .ps (un dictionnaire).
J'aimerais le convertir en fichier texte afin de profiter du contenu.
J'ai sous linux déjà essayé la commande pstotext qui n'a rien donné.
Le document est probablement le rsultat d'une numérisation.
Chaque page se présente sous la forme de deux colonnes de texte qui peuvent
à leur tour être divisées en deux.
Comment au final obtenir mon fichier de données? Quelle pourrait être la
procédure?
Déjà comment retrouver le format initial des fichiers qui ont produit le
fichier final?
Comment convertir chaque page en image?
Comment convertir chaque image en fichier de données (reconnaissance de
caractère? si numérisation)
Je suis dans l'attente de la moindre suggestion pour chacun de ces points
indépendemment.
Merci
PG
apparemment, les pages sont stockées sous forme d'image, et non pas de
texte, donc, le seul moyen est d'utiliser un logiciel d'OCR. Sous Linux,
il y a gocr, kooka, xocr, clara tous libres et FineReader (payant)
J'ai un (gros) fichier portant l'extension .ps (un dictionnaire). J'aimerais le convertir en fichier texte afin de profiter du contenu. J'ai sous linux déjà essayé la commande pstotext qui n'a rien donné. Le document est probablement le rsultat d'une numérisation. Chaque page se présente sous la forme de deux colonnes de texte qui peuvent à leur tour être divisées en deux. Comment au final obtenir mon fichier de données? Quelle pourrait être la procédure? Déjà comment retrouver le format initial des fichiers qui ont produit le fichier final? Comment convertir chaque page en image? Comment convertir chaque image en fichier de données (reconnaissance de caractère? si numérisation) Je suis dans l'attente de la moindre suggestion pour chacun de ces points indépendemment. Merci PG
apparemment, les pages sont stockées sous forme d'image, et non pas de texte, donc, le seul moyen est d'utiliser un logiciel d'OCR. Sous Linux, il y a gocr, kooka, xocr, clara tous libres et FineReader (payant)