transformer du pdf en html ?

20 réponses

unbewusst.sein

20/04/2008 à 12:16

je souhaite transformer le document "Ecma-262.pdf", qui n'a pas de lien
hypertexte en html.

j'ai essayé par google qui a jugé que :
Impossible d'afficher l'intégralité de la pièce jointe, car le fichier
est trop volumineux.

le document fait 706ko/188 pages

je cherche donc un outil pour le convertir en html, voire xml, le but
étant d'en faire un "panel" pour firefox et/ou opera comme sur :
<http://people.opera.com/rijk/panels/panelizer.html>.
--
Une Bévue

10 réponses

1 2

h.sainct

20/04/2008 à 13:47

il y a un projet unix GNU nommé pdftohtml qui fait ça sur sourceforge;
je ne sais pas s'il y a une version osx toute compilée...

--
Frédérique & Hervé Sainct, [fr,es,en,it]
Frédérique's initial is missing in front of the above address
l'initiale de Frédérique manque devant l'adresse email ci-dessus

unbewusst.sein

20/04/2008 à 15:40

Frédérique & Hervé Sainct wrote:

il y a un projet unix GNU nommé pdftohtml qui fait ça sur sourceforge;
je ne sais pas s'il y a une version osx toute compilée...

ok, merci beaucoup, je peux me contenter d'un truc en ligne de commande.

pour l'instant, j'ai procédé à trois essais :

- Google : il faut s'envoyer à soi-même le fichier pdf en fichier
attaché d'un email et, à la réception, demander à la visualiser en html.
manque de pot, celui que je voulait convertir est trop lourd pour Google
;

- Adobe, sur le convertisseur online ça n'a pas marché, par email si
mais il manque les images dans le résultat et la présentation est
nettement moins bonne que celle de Google ;

- deskUNPDF (version d'essai d'un produit commercial) semble correct
mais ne convertit qu'une page en "trial".

--
Une Bévue

Paul Gaborit

20/04/2008 à 17:39

À (at) Sun, 20 Apr 2008 15:40:49 +0200,
(Une Bévue) écrivait (wrote):

- Google : il faut s'envoyer à soi-même le fichier pdf en fichier
attaché d'un email et, à la réception, demander à la visualiser en html.
manque de pot, celui que je voulait convertir est trop lourd pour Google

Il existe des outils permettant d'extraire une ou plusieurs pages d'un
fichier PDF (pdftk ou le package 'pdfpages' de TeX).

--
Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>

unbewusst.sein

20/04/2008 à 17:56

Paul Gaborit wrote:

Il existe des outils permettant d'extraire une ou plusieurs pages d'un
fichier PDF (pdftk ou le package 'pdfpages' de TeX).

ok, merci pour l'info.

j'ai installé la v 4 de pdftohtml par MacPorts.

ça marche pas mal.
--
Une Bévue

Henripasdespammerci

20/04/2008 à 17:59

Une Bévue wrote:

je souhaite transformer le document "Ecma-262.pdf", qui n'a pas de lien
hypertexte en html.

j'ai essayé par google qui a jugé que :
Impossible d'afficher l'intégralité de la pièce jointe, car le fichier
est trop volumineux.

le document fait 706ko/188 pages

je cherche donc un outil pour le convertir en html, voire xml, le but
étant d'en faire un "panel" pour firefox et/ou opera comme sur :
<http://people.opera.com/rijk/panels/panelizer.html>.

On peut faire ça en deux temps
- convertir le PDF en texte via n'importe quel logiciel d'OCR
- convertir le fichier texte obtenu en fichier html

Maintenant 188 pages ... pfou !

Henri

--
Henri Balmain
http://freenours.org

unbewusst.sein

20/04/2008 à 18:46

Henri Balmain wrote:

On peut faire ça en deux temps
- convertir le PDF en texte via n'importe quel logiciel d'OCR
- convertir le fichier texte obtenu en fichier html

Maintenant 188 pages ... pfou !

effectivement "pfou !"

c'est fait (c'est la spec ECMA-262), c'est en ligne, "brut de fonderie"
donc simplement après :

$ sudo port install pdftohtml
blahblah...

puis :

$ pdftohtml -c -dev jpeg Ecma-262.pdf

ça donne :

<http://thoraval.yvon.free.fr/ECMA-262/>

je ne pige pas pourquoi il y a "Microsoft..." dans le titre...
--
Une Bévue

laurent.pertois

21/04/2008 à 01:22

Une Bévue wrote:

je ne pige pas pourquoi il y a "Microsoft..." dans le titre...

Certainement que le document a été écrit dans Word et que lors de la
transformation en PDF l'info a été conservée. Ouvre le PDF dans Preview
et affiche l'inspecteur, dans un des onglets tu auras ce genre d'infos.

--
Politically Correct Unix - UTILITIES
The "touch" command has been removed from the standard distribution due
to its inappropriate use by high-level managers.

unbewusst.sein

21/04/2008 à 06:54

Laurent Pertois wrote:

Certainement que le document a été écrit dans Word et que lors de la
transformation en PDF l'info a été conservée. Ouvre le PDF dans Preview
et affiche l'inspecteur, dans un des onglets tu auras ce genre d'infos.

Oui effectivement, c'est exactement le même texte :
Titre Microsoft Word - Ecma-262.doc

j'avoue ne pas comprendre qu'on puisse (en dehors du détail technique)
laisser microsoft dans un titre.

--
Une Bévue

Henripasdespammerci

21/04/2008 à 07:31

Une Bévue wrote:

Laurent Pertois wrote:

Certainement que le document a été écrit dans Word et que lors de la
transformation en PDF l'info a été conservée. Ouvre le PDF dans Preview
et affiche l'inspecteur, dans un des onglets tu auras ce genre d'infos.

Oui effectivement, c'est exactement le même texte :
Titre Microsoft Word - Ecma-262.doc

j'avoue ne pas comprendre qu'on puisse (en dehors du détail technique)
laisser microsoft dans un titre.

c'est facile à corriger ;-)

Par contre il n'y aurait pas une petite option dans pdftohtml pour
choisir un autre titre pour la page générée ?

Henri

--
Henri Balmain
http://freenours.org

unbewusst.sein

21/04/2008 à 09:26

Henri Balmain wrote:

c'est facile à corriger ;-)

Par contre il n'y aurait pas une petite option dans pdftohtml pour
choisir un autre titre pour la page générée ?

écoutes, le "man" est plutôt laconique...

je l'ai sous les yeux, non, il n'y a pas cette option, par contre tu
peux choisir, c'est ce que je suis en train de faire, de sortir le
document en xml, et là, ça doit-être manipulable avec xslt, amha...

c'est justement ce que je souhaite faire car la page d'index (enfin la
frame d'index) est bêbête, du genre :

<A href="Ecma-262-1.html" target="contents" >Page 1</a><br>
<A href="Ecma-262-2.html" target="contents" >Page 2</a><br>
<A href="Ecma-262-3.html" target="contents" >Page 3</a><br>

etc

ce qui n'est pas très informatif ;-)

--
Une Bévue

1 2

transformer du pdf en html ?

10 réponses

Veuillez sélectionner un problème