Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

transformer du pdf en html ?

20 réponses
Avatar
unbewusst.sein
je souhaite transformer le document "Ecma-262.pdf", qui n'a pas de lien
hypertexte en html.

j'ai essayé par google qui a jugé que :
Impossible d'afficher l'intégralité de la pièce jointe, car le fichier
est trop volumineux.

le document fait 706ko/188 pages

je cherche donc un outil pour le convertir en html, voire xml, le but
étant d'en faire un "panel" pour firefox et/ou opera comme sur :
<http://people.opera.com/rijk/panels/panelizer.html>.
--
Une Bévue

10 réponses

1 2
Avatar
h.sainct
il y a un projet unix GNU nommé pdftohtml qui fait ça sur sourceforge;
je ne sais pas s'il y a une version osx toute compilée...


--
Frédérique & Hervé Sainct, [fr,es,en,it]
Frédérique's initial is missing in front of the above address
l'initiale de Frédérique manque devant l'adresse email ci-dessus
Avatar
unbewusst.sein
Frédérique & Hervé Sainct wrote:

il y a un projet unix GNU nommé pdftohtml qui fait ça sur sourceforge;
je ne sais pas s'il y a une version osx toute compilée...


ok, merci beaucoup, je peux me contenter d'un truc en ligne de commande.

pour l'instant, j'ai procédé à trois essais :

- Google : il faut s'envoyer à soi-même le fichier pdf en fichier
attaché d'un email et, à la réception, demander à la visualiser en html.
manque de pot, celui que je voulait convertir est trop lourd pour Google
;

- Adobe, sur le convertisseur online ça n'a pas marché, par email si
mais il manque les images dans le résultat et la présentation est
nettement moins bonne que celle de Google ;

- deskUNPDF (version d'essai d'un produit commercial) semble correct
mais ne convertit qu'une page en "trial".

--
Une Bévue

Avatar
Paul Gaborit
À (at) Sun, 20 Apr 2008 15:40:49 +0200,
(Une Bévue) écrivait (wrote):
- Google : il faut s'envoyer à soi-même le fichier pdf en fichier
attaché d'un email et, à la réception, demander à la visualiser en html.
manque de pot, celui que je voulait convertir est trop lourd pour Google


Il existe des outils permettant d'extraire une ou plusieurs pages d'un
fichier PDF (pdftk ou le package 'pdfpages' de TeX).

--
Paul Gaborit - <http://perso.enstimac.fr/~gaborit/&gt;

Avatar
unbewusst.sein
Paul Gaborit wrote:


Il existe des outils permettant d'extraire une ou plusieurs pages d'un
fichier PDF (pdftk ou le package 'pdfpages' de TeX).


ok, merci pour l'info.

j'ai installé la v 4 de pdftohtml par MacPorts.

ça marche pas mal.
--
Une Bévue

Avatar
Henripasdespammerci
Une Bévue wrote:

je souhaite transformer le document "Ecma-262.pdf", qui n'a pas de lien
hypertexte en html.

j'ai essayé par google qui a jugé que :
Impossible d'afficher l'intégralité de la pièce jointe, car le fichier
est trop volumineux.

le document fait 706ko/188 pages

je cherche donc un outil pour le convertir en html, voire xml, le but
étant d'en faire un "panel" pour firefox et/ou opera comme sur :
<http://people.opera.com/rijk/panels/panelizer.html&gt;.


On peut faire ça en deux temps
- convertir le PDF en texte via n'importe quel logiciel d'OCR
- convertir le fichier texte obtenu en fichier html

Maintenant 188 pages ... pfou !

Henri


--
Henri Balmain
http://freenours.org

Avatar
unbewusst.sein
Henri Balmain wrote:


On peut faire ça en deux temps
- convertir le PDF en texte via n'importe quel logiciel d'OCR
- convertir le fichier texte obtenu en fichier html

Maintenant 188 pages ... pfou !


effectivement "pfou !"

c'est fait (c'est la spec ECMA-262), c'est en ligne, "brut de fonderie"
donc simplement après :

$ sudo port install pdftohtml
blahblah...

puis :

$ pdftohtml -c -dev jpeg Ecma-262.pdf

ça donne :

<http://thoraval.yvon.free.fr/ECMA-262/&gt;

je ne pige pas pourquoi il y a "Microsoft..." dans le titre...
--
Une Bévue

Avatar
laurent.pertois
Une Bévue wrote:

je ne pige pas pourquoi il y a "Microsoft..." dans le titre...


Certainement que le document a été écrit dans Word et que lors de la
transformation en PDF l'info a été conservée. Ouvre le PDF dans Preview
et affiche l'inspecteur, dans un des onglets tu auras ce genre d'infos.

--
Politically Correct Unix - UTILITIES
The "touch" command has been removed from the standard distribution due
to its inappropriate use by high-level managers.

Avatar
unbewusst.sein
Laurent Pertois wrote:


Certainement que le document a été écrit dans Word et que lors de la
transformation en PDF l'info a été conservée. Ouvre le PDF dans Preview
et affiche l'inspecteur, dans un des onglets tu auras ce genre d'infos.


Oui effectivement, c'est exactement le même texte :
Titre Microsoft Word - Ecma-262.doc

j'avoue ne pas comprendre qu'on puisse (en dehors du détail technique)
laisser microsoft dans un titre.

--
Une Bévue

Avatar
Henripasdespammerci
Une Bévue wrote:

Laurent Pertois wrote:


Certainement que le document a été écrit dans Word et que lors de la
transformation en PDF l'info a été conservée. Ouvre le PDF dans Preview
et affiche l'inspecteur, dans un des onglets tu auras ce genre d'infos.


Oui effectivement, c'est exactement le même texte :
Titre Microsoft Word - Ecma-262.doc

j'avoue ne pas comprendre qu'on puisse (en dehors du détail technique)
laisser microsoft dans un titre.


c'est facile à corriger ;-)

Par contre il n'y aurait pas une petite option dans pdftohtml pour
choisir un autre titre pour la page générée ?

Henri

--
Henri Balmain
http://freenours.org


Avatar
unbewusst.sein
Henri Balmain wrote:

c'est facile à corriger ;-)

Par contre il n'y aurait pas une petite option dans pdftohtml pour
choisir un autre titre pour la page générée ?


écoutes, le "man" est plutôt laconique...

je l'ai sous les yeux, non, il n'y a pas cette option, par contre tu
peux choisir, c'est ce que je suis en train de faire, de sortir le
document en xml, et là, ça doit-être manipulable avec xslt, amha...

c'est justement ce que je souhaite faire car la page d'index (enfin la
frame d'index) est bêbête, du genre :

<A href="Ecma-262-1.html" target="contents" >Page 1</a><br>
<A href="Ecma-262-2.html" target="contents" >Page 2</a><br>
<A href="Ecma-262-3.html" target="contents" >Page 3</a><br>

etc

ce qui n'est pas très informatif ;-)

--
Une Bévue

1 2