[un peu hs] Conversion PDF vers texte avec étiquetage des images

Bernard Schoenacker

27/01/2011 à 09:00

Le Wed, 26 Jan 2011 23:25:20 +0100,
Dominique Asselineau a écrit :

Bonjour,

Je cherche un moyen de convertir du PDF en texte tout en extrayant les
images et en conservant des étiquettes à leur place dans le texte. En
d'autres termes je cherche à combiner les utilitaires pdftotext et
pdfimages mais en incluant dans le texte produit par pdftotext les
références vers les images extraites.

En plus de la doc de ces 2 utilitaires j'ai également regardé celle du
fichier de configuration xpdfrc mais je n'ai rein remarqué. Peut-être
faut-il combiner plusieurs paramètres pour obtenir cette
fonctionnalités ?

En pratique il s'agit d'extraire des notations de parties d'échecs,
lesquelles contiennent des figurines pour indiquer les pièces dans
l'énoncé même des parties. Ces figurines pourraient être assimil ées à
une fonte mais sans trop savoir comment m'y prendre.

Quelqu'un aurait-il l'expérience de ce type de traitement ?
J'ai bien tenté de passer par un pdftohtml du paquet poppler-utils
mais en vain.

dom

bonjour,

voici mon idée :

-a) pdftohtml (obtenir les images)
-b) ps2ascii ( obtenir le texte )

l'autre analyse consisterai à utiliser une feuille de style
xml et de basculer sur xmlto

tout dépend de l'origine du document et comment il a été générer

slt
bernard

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/

Dominique Asselineau

27/01/2011 à 13:10

Bernard Schoenacker wrote on Thu, Jan 27, 2011 at 08:50:49AM +0100

Le Wed, 26 Jan 2011 23:25:20 +0100,
Dominique Asselineau a écrit :

> Bonjour,
>
> Je cherche un moyen de convertir du PDF en texte tout en extrayant les
> images et en conservant des étiquettes à leur place dans le texte. En
> d'autres termes je cherche à combiner les utilitaires pdftotext et
> pdfimages mais en incluant dans le texte produit par pdftotext les
> références vers les images extraites.
>
> En plus de la doc de ces 2 utilitaires j'ai également regardé celle du
> fichier de configuration xpdfrc mais je n'ai rein remarqué. Peut-être
> faut-il combiner plusieurs paramètres pour obtenir cette
> fonctionnalités ?
>
> En pratique il s'agit d'extraire des notations de parties d'échecs,
> lesquelles contiennent des figurines pour indiquer les pièces dans
> l'énoncé même des parties. Ces figurines pourraient être assimilées à
> une fonte mais sans trop savoir comment m'y prendre.
>
> Quelqu'un aurait-il l'expérience de ce type de traitement ?
> J'ai bien tenté de passer par un pdftohtml du paquet poppler-utils
> mais en vain.
>
> dom

bonjour,

voici mon idée :

-a) pdftohtml (obtenir les images)

J'avais bien essayé justement pdftohtml en vain. En fait, les
figurines de pièces d'échecs incluses dans le texte, sont représentées
non pas par des images mais par une fonte spécifique non retranscrite
par pdftotext.

Il faut donc que je trouve le moyen de mapper cette fonte dans quelque
chose récupérable par pdftotext. Il m'a semblé voir des pistes dans
ce sens dans le man du fichier de conf xpdfrc.

dom
--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/

Bernard Schoenacker wrote on Thu, Jan 27, 2011 at 08:50:49AM +0100

Le Wed, 26 Jan 2011 23:25:20 +0100,
Dominique Asselineau <asseline@telecom-paristech.fr> a écrit :

> Bonjour,
>
> Je cherche un moyen de convertir du PDF en texte tout en extrayant les
> images et en conservant des étiquettes à leur place dans le texte. En
> d'autres termes je cherche à combiner les utilitaires pdftotext et
> pdfimages mais en incluant dans le texte produit par pdftotext les
> références vers les images extraites.
>
> En plus de la doc de ces 2 utilitaires j'ai également regardé celle du
> fichier de configuration xpdfrc mais je n'ai rein remarqué. Peut-être
> faut-il combiner plusieurs paramètres pour obtenir cette
> fonctionnalités ?
>
> En pratique il s'agit d'extraire des notations de parties d'échecs,
> lesquelles contiennent des figurines pour indiquer les pièces dans
> l'énoncé même des parties. Ces figurines pourraient être assimilées à
> une fonte mais sans trop savoir comment m'y prendre.
>
> Quelqu'un aurait-il l'expérience de ce type de traitement ?
> J'ai bien tenté de passer par un pdftohtml du paquet poppler-utils
> mais en vain.
>
> dom

bonjour,

voici mon idée :

-a) pdftohtml (obtenir les images)

J'avais bien essayé justement pdftohtml en vain. En fait, les
figurines de pièces d'échecs incluses dans le texte, sont représentées
non pas par des images mais par une fonte spécifique non retranscrite
par pdftotext.

Il faut donc que je trouve le moyen de mapper cette fonte dans quelque
chose récupérable par pdftotext. Il m'a semblé voir des pistes dans
ce sens dans le man du fichier de conf xpdfrc.

dom
--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/20110127120737.GA19288@telecom-paristech.fr

Samuel Cifuentes-Favini

28/01/2011 à 09:20

Bonjour

peut-être une piste :
du temps ou je lisais beaucoup à propos de LaTex, il m'a semblé
croiser de la doc sur les polices "chess"
c'est surement l'une d'entre elles qui à été utilisée lors de la
génération de ton PDF

si tu as les sources de ces documents, ce sera sans pb

sinon, j'ai croisé quelques polices "chess" téléchargeables

et là, meme pas besoin de pdf2quelquechose, tu pourras sans doute
faire des chercher/remplacer avec OpenOffice

en espérant que ceci te donnera une piste

SC

Le 27 janvier 2011 13:07, Dominique Asselineau
a écrit :

Bernard Schoenacker wrote on Thu, Jan 27, 2011 at 08:50:49AM +0100
Le Wed, 26 Jan 2011 23:25:20 +0100,
Dominique Asselineau a écrit :

> Bonjour,
>
> Je cherche un moyen de convertir du PDF en texte tout en extrayant les
> images et en conservant des étiquettes à leur place dans le texte. En
> d'autres termes je cherche à combiner les utilitaires pdftotext et
> pdfimages mais en incluant dans le texte produit par pdftotext les
> références vers les images extraites.
>
> En plus de la doc de ces 2 utilitaires j'ai également regardé cell e du
> fichier de configuration xpdfrc mais je n'ai rein remarqué. Peut- être
> faut-il combiner plusieurs paramètres pour obtenir cette
> fonctionnalités ?
>
> En pratique il s'agit d'extraire des notations de parties d'échecs,
> lesquelles contiennent des figurines pour indiquer les pièces dans
> l'énoncé même des parties. Ces figurines pourraient être as similées à
> une fonte mais sans trop savoir comment m'y prendre.
>
> Quelqu'un aurait-il l'expérience de ce type de traitement ?
> J'ai bien tenté de passer par un pdftohtml du paquet poppler-utils
> mais en vain.
>
> dom

bonjour,

voici mon idée :

-a) pdftohtml (obtenir les images)

J'avais bien essayé justement pdftohtml en vain. En fait, les
figurines de pièces d'échecs incluses dans le texte, sont représent ées
non pas par des images mais par une fonte spécifique non retranscrite
par pdftotext.

Il faut donc que je trouve le moyen de mapper cette fonte dans quelque
chose récupérable par pdftotext. Il m'a semblé voir des pistes d ans
ce sens dans le man du fichier de conf xpdfrc.

dom
--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/ .fr

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/AANLkTi=wYCf2+

Bonjour

peut-être une piste :
du temps ou je lisais beaucoup à propos de LaTex, il m'a semblé
croiser de la doc sur les polices "chess"
c'est surement l'une d'entre elles qui à été utilisée lors de la
génération de ton PDF

si tu as les sources de ces documents, ce sera sans pb

sinon, j'ai croisé quelques polices "chess" téléchargeables

et là, meme pas besoin de pdf2quelquechose, tu pourras sans doute
faire des chercher/remplacer avec OpenOffice

en espérant que ceci te donnera une piste

SC

Le 27 janvier 2011 13:07, Dominique Asselineau
<asseline@telecom-paristech.fr> a écrit :

Bernard Schoenacker wrote on Thu, Jan 27, 2011 at 08:50:49AM +0100

Le Wed, 26 Jan 2011 23:25:20 +0100,
Dominique Asselineau <asseline@telecom-paristech.fr> a écrit :

> Bonjour,
>
> Je cherche un moyen de convertir du PDF en texte tout en extrayant les
> images et en conservant des étiquettes à leur place dans le texte. En
> d'autres termes je cherche à combiner les utilitaires pdftotext et
> pdfimages mais en incluant dans le texte produit par pdftotext les
> références vers les images extraites.
>
> En plus de la doc de ces 2 utilitaires j'ai également regardé cell e du
> fichier de configuration xpdfrc mais je n'ai rein remarqué. Peut- être
> faut-il combiner plusieurs paramètres pour obtenir cette
> fonctionnalités ?
>
> En pratique il s'agit d'extraire des notations de parties d'échecs,
> lesquelles contiennent des figurines pour indiquer les pièces dans
> l'énoncé même des parties. Ces figurines pourraient être as similées à
> une fonte mais sans trop savoir comment m'y prendre.
>
> Quelqu'un aurait-il l'expérience de ce type de traitement ?
> J'ai bien tenté de passer par un pdftohtml du paquet poppler-utils
> mais en vain.
>
> dom

bonjour,

voici mon idée :

-a) pdftohtml (obtenir les images)

J'avais bien essayé justement pdftohtml en vain. En fait, les
figurines de pièces d'échecs incluses dans le texte, sont représent ées
non pas par des images mais par une fonte spécifique non retranscrite
par pdftotext.

Il faut donc que je trouve le moyen de mapper cette fonte dans quelque
chose récupérable par pdftotext. Il m'a semblé voir des pistes d ans
ce sens dans le man du fichier de conf xpdfrc.

dom
--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/20110127120737.GA19288@telecom-paristech .fr

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/AANLkTi=wYCf2+o50tLxpkZWi3C1EaHssX-2TmBV44tyE@mail.gmail.com

Vous avez filtré cet utilisateur ! Consultez son message

Bonjour

peut-être une piste :
du temps ou je lisais beaucoup à propos de LaTex, il m'a semblé
croiser de la doc sur les polices "chess"
c'est surement l'une d'entre elles qui à été utilisée lors de la
génération de ton PDF

si tu as les sources de ces documents, ce sera sans pb

sinon, j'ai croisé quelques polices "chess" téléchargeables

et là, meme pas besoin de pdf2quelquechose, tu pourras sans doute
faire des chercher/remplacer avec OpenOffice

en espérant que ceci te donnera une piste

SC

Le 27 janvier 2011 13:07, Dominique Asselineau
a écrit :

Bernard Schoenacker wrote on Thu, Jan 27, 2011 at 08:50:49AM +0100
Le Wed, 26 Jan 2011 23:25:20 +0100,
Dominique Asselineau a écrit :

> Bonjour,
>
> Je cherche un moyen de convertir du PDF en texte tout en extrayant les
> images et en conservant des étiquettes à leur place dans le texte. En
> d'autres termes je cherche à combiner les utilitaires pdftotext et
> pdfimages mais en incluant dans le texte produit par pdftotext les
> références vers les images extraites.
>
> En plus de la doc de ces 2 utilitaires j'ai également regardé cell e du
> fichier de configuration xpdfrc mais je n'ai rein remarqué. Peut- être
> faut-il combiner plusieurs paramètres pour obtenir cette
> fonctionnalités ?
>
> En pratique il s'agit d'extraire des notations de parties d'échecs,
> lesquelles contiennent des figurines pour indiquer les pièces dans
> l'énoncé même des parties. Ces figurines pourraient être as similées à
> une fonte mais sans trop savoir comment m'y prendre.
>
> Quelqu'un aurait-il l'expérience de ce type de traitement ?
> J'ai bien tenté de passer par un pdftohtml du paquet poppler-utils
> mais en vain.
>
> dom

bonjour,

voici mon idée :

-a) pdftohtml (obtenir les images)

J'avais bien essayé justement pdftohtml en vain. En fait, les
figurines de pièces d'échecs incluses dans le texte, sont représent ées
non pas par des images mais par une fonte spécifique non retranscrite
par pdftotext.

Il faut donc que je trouve le moyen de mapper cette fonte dans quelque
chose récupérable par pdftotext. Il m'a semblé voir des pistes d ans
ce sens dans le man du fichier de conf xpdfrc.

dom
--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/ .fr

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/AANLkTi=wYCf2+

Bernard Schoenacker

28/01/2011 à 10:00

Bonjour,

merci d'avoir proposé openoffice à Dominique Asselineau, mais
il n'utilise aucun environnement graphique, mais une plage
braille ...

félicitation pour avoir joué le gaston lagaffe de service...

slt
bernard

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/

J

29/01/2011 à 00:20

Le vendredi 28 janvier 2011 à 09:49 +0100, Bernard Schoenacker a écrit :

merci d'avoir proposé openoffice à Dominique Asselineau, mais
il n'utilise aucun environnement graphique, mais une plage
braille ...

félicitation pour avoir joué le gaston lagaffe de service...

slt
bernard

Euh, je n'ai pas vu ça clairement dans l'énoncé mais j'ai peut-être raté
un mail.

Ceci étant, je me demande si un lien vers un fichier à convertir ne
ferait pas avancer le business plus que l'ironie et une description
approximative.

Amicalement
--
Jérôme
"Les flocons... quand il y en a un, ça va. C'est quand il y en a
plusieurs que ça pose problème."

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/

[un peu hs] Conversion PDF vers texte avec étiquetage des images

5 réponses

Veuillez sélectionner un problème