[un peu hs] Conversion PDF vers texte avec étiquetage des images

Le
Dominique Asselineau
Bonjour,

Je cherche un moyen de convertir du PDF en texte tout en extrayant les
images et en conservant des étiquettes à leur place dans le texte. En
d'autres termes je cherche à combiner les utilitaires pdftotext et
pdfimages mais en incluant dans le texte produit par pdftotext les
références vers les images extraites.

En plus de la doc de ces 2 utilitaires j'ai également regardé celle du
fichier de configuration xpdfrc mais je n'ai rein remarqué. Peut-être
faut-il combiner plusieurs paramètres pour obtenir cette
fonctionnalités ?

En pratique il s'agit d'extraire des notations de parties d'échecs,
lesquelles contiennent des figurines pour indiquer les pièces dans
l'énoncé même des parties. Ces figurines pourraient être assimilées à
une fonte mais sans trop savoir comment m'y prendre.

Quelqu'un aurait-il l'expérience de ce type de traitement ?
J'ai bien tenté de passer par un pdftohtml du paquet poppler-utils mais
en vain.

dom
--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/20110126222520.GA5969@telecom-paristech.fr
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Bernard Schoenacker
Le #23056851
Le Wed, 26 Jan 2011 23:25:20 +0100,
Dominique Asselineau
Bonjour,

Je cherche un moyen de convertir du PDF en texte tout en extrayant les
images et en conservant des étiquettes à leur place dans le texte. En
d'autres termes je cherche à combiner les utilitaires pdftotext et
pdfimages mais en incluant dans le texte produit par pdftotext les
références vers les images extraites.

En plus de la doc de ces 2 utilitaires j'ai également regardé celle du
fichier de configuration xpdfrc mais je n'ai rein remarqué. Peut-être
faut-il combiner plusieurs paramètres pour obtenir cette
fonctionnalités ?

En pratique il s'agit d'extraire des notations de parties d'échecs,
lesquelles contiennent des figurines pour indiquer les pièces dans
l'énoncé même des parties. Ces figurines pourraient être assimil ées à
une fonte mais sans trop savoir comment m'y prendre.

Quelqu'un aurait-il l'expérience de ce type de traitement ?
J'ai bien tenté de passer par un pdftohtml du paquet poppler-utils
mais en vain.

dom




bonjour,



voici mon idée :

-a) pdftohtml (obtenir les images)
-b) ps2ascii ( obtenir le texte )

l'autre analyse consisterai à utiliser une feuille de style
xml et de basculer sur xmlto

tout dépend de l'origine du document et comment il a été générer


slt
bernard


--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Dominique Asselineau
Le #23057381
Bernard Schoenacker wrote on Thu, Jan 27, 2011 at 08:50:49AM +0100
Le Wed, 26 Jan 2011 23:25:20 +0100,
Dominique Asselineau
> Bonjour,
>
> Je cherche un moyen de convertir du PDF en texte tout en extrayant les
> images et en conservant des étiquettes à leur place dans le texte. En
> d'autres termes je cherche à combiner les utilitaires pdftotext et
> pdfimages mais en incluant dans le texte produit par pdftotext les
> références vers les images extraites.
>
> En plus de la doc de ces 2 utilitaires j'ai également regardé celle du
> fichier de configuration xpdfrc mais je n'ai rein remarqué. Peut-être
> faut-il combiner plusieurs paramètres pour obtenir cette
> fonctionnalités ?
>
> En pratique il s'agit d'extraire des notations de parties d'échecs,
> lesquelles contiennent des figurines pour indiquer les pièces dans
> l'énoncé même des parties. Ces figurines pourraient être assimilées à
> une fonte mais sans trop savoir comment m'y prendre.
>
> Quelqu'un aurait-il l'expérience de ce type de traitement ?
> J'ai bien tenté de passer par un pdftohtml du paquet poppler-utils
> mais en vain.
>
> dom


bonjour,



voici mon idée :

-a) pdftohtml (obtenir les images)



J'avais bien essayé justement pdftohtml en vain. En fait, les
figurines de pièces d'échecs incluses dans le texte, sont représentées
non pas par des images mais par une fonte spécifique non retranscrite
par pdftotext.

Il faut donc que je trouve le moyen de mapper cette fonte dans quelque
chose récupérable par pdftotext. Il m'a semblé voir des pistes dans
ce sens dans le man du fichier de conf xpdfrc.

dom
--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Samuel Cifuentes-Favini
Le #23060251
Bonjour

peut-être une piste :
du temps ou je lisais beaucoup à propos de LaTex, il m'a semblé
croiser de la doc sur les polices "chess"
c'est surement l'une d'entre elles qui à été utilisée lors de la
génération de ton PDF

si tu as les sources de ces documents, ce sera sans pb

sinon, j'ai croisé quelques polices "chess" téléchargeables

et là, meme pas besoin de pdf2quelquechose, tu pourras sans doute
faire des chercher/remplacer avec OpenOffice

en espérant que ceci te donnera une piste

SC






Le 27 janvier 2011 13:07, Dominique Asselineau
Bernard Schoenacker wrote on Thu, Jan 27, 2011 at 08:50:49AM +0100
Le Wed, 26 Jan 2011 23:25:20 +0100,
Dominique Asselineau
> Bonjour,
>
> Je cherche un moyen de convertir du PDF en texte tout en extrayant les
> images et en conservant des étiquettes à leur place dans le texte.  En
> d'autres termes je cherche à combiner les utilitaires pdftotext et
> pdfimages mais en incluant dans le texte produit par pdftotext les
> références vers les images extraites.
>
> En plus de la doc de ces 2 utilitaires j'ai également regardé cell e du
> fichier de configuration xpdfrc mais je n'ai rein remarqué.  Peut- être
> faut-il combiner plusieurs paramètres pour obtenir cette
> fonctionnalités ?
>
> En pratique il s'agit d'extraire des notations de parties d'échecs,
> lesquelles contiennent des figurines pour indiquer les pièces dans
> l'énoncé même des parties.  Ces figurines pourraient être as similées à
> une fonte mais sans trop savoir comment m'y prendre.
>
> Quelqu'un aurait-il l'expérience de ce type de traitement ?
> J'ai bien tenté de passer par un pdftohtml du paquet poppler-utils
> mais en vain.
>
> dom


bonjour,



      voici mon idée :

      -a) pdftohtml  (obtenir les images)



J'avais bien essayé justement pdftohtml en vain.  En fait, les
figurines de pièces d'échecs incluses dans le texte, sont représent ées
non pas par des images mais par une fonte spécifique non retranscrite
par pdftotext.

Il faut donc que je trouve le moyen de mapper cette fonte dans quelque
chose récupérable par pdftotext.  Il m'a semblé voir des pistes d ans
ce sens dans le man du fichier de conf xpdfrc.

dom
--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/ .fr





--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/AANLkTi=wYCf2+
Bernard Schoenacker
Le #23060321
Bonjour,

merci d'avoir proposé openoffice à Dominique Asselineau, mais
il n'utilise aucun environnement graphique, mais une plage
braille ...

félicitation pour avoir joué le gaston lagaffe de service...

slt
bernard

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
J
Le #23062901
Le vendredi 28 janvier 2011 à 09:49 +0100, Bernard Schoenacker a écrit :

merci d'avoir proposé openoffice à Dominique Asselineau, mais
il n'utilise aucun environnement graphique, mais une plage
braille ...

félicitation pour avoir joué le gaston lagaffe de service...

slt
bernard





Euh, je n'ai pas vu ça clairement dans l'énoncé mais j'ai peut-être raté
un mail.

Ceci étant, je me demande si un lien vers un fichier à convertir ne
ferait pas avancer le business plus que l'ironie et une description
approximative.

Amicalement
--
Jérôme
"Les flocons... quand il y en a un, ça va. C'est quand il y en a
plusieurs que ça pose problème."

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Publicité
Poster une réponse
Anonyme