OVH Cloud OVH Cloud

Comment enregistrer une page web en XML, RTF ou DOC(dont les images)

4 réponses
Avatar
silexian
bonjour

l'objet de départ est une page web avec des images GIF et JPEG.
Il faudrait enregistrer ça sous un format lisible par Word, idéalement
du DOC ou du RTF.

idées :
- écrire du RTF (le DOC semble impossible à générer sur Unix)
- renommer un fichier HTML ou XML en .DOC, Word l'ouvre quand même
- coder les images en base 64 pour les intégrer dans le fichier (HTML
?)

contraintes :
- je suis sous Linux/Unix donc pas de librairie DOM ...
- le prix doit avoisinner les 0 euros , voire même en dessous :)
- pas de PDF puisqu'on doit pouvoir écrire dans les fichiers.

ça fait 2 jours que je cherche et je n'y arrive pas.
Merci.

4 réponses

Avatar
Stephane Santon
Bonjour,

l'objet de départ est une page web avec des images GIF et JPEG.
Il faudrait enregistrer ça sous un format lisible par Word, idéalement
du DOC ou du RTF.
- écrire du RTF (le DOC semble impossible à générer sur Unix)


Ouvrir la page Web avec OpenOffice.org et l'enregistrer au format
DOC/RTF/... ??

--
** Anti-Spam : ajouter [usenet] dans l'objet pour ne pas être rejeté.

Cordialement, Stéphane *** http://www.team-santonum.com
Loisirs, nature, arts, technologie : accueil en Charente-Maritime

Avatar
Jean-Marc Molina
Il faudrait enregistrer ça sous un format lisible par Word, idéalement
du DOC ou du RTF.


Si mes souvenirs sont bons, Word sait lire le HTML depuis au moins la
version 2000, que j'utilisais avant... de passer à OpenOffice.org, une suite
bureautique libre et gratuite, qui intègre un éditeur WYSIWYG HTML :).

Donc tu peux parfaitement en rester au HTML et t'en servir comme format
d'échange, au moins tu es certain que tout le monde peut lire tes documents.
Par contre cela implique que tes documents devront être archivés avant
d'être échangés ce qui est assez contraignant.

- écrire du RTF (le DOC semble impossible à générer sur Unix)


J'y connais pas grand chose mais là je pense à DocBook ou encore Latex, des
noms qui me viennent. Pour ma part j'en reste au HTML, au format
OpenOffice.org (XML) ou au PDF qu'on peut générer à partir d'un script PHP.

- renommer un fichier HTML ou XML en .DOC, Word l'ouvre quand même


Le format d'un fichier ne repose pas que sur l'extension, il ne s'agit que
d'un moyen pour l'utilisateur de faire la différence entre tel ou tel type
de fichier. Donc renommer un fichier ne change en rien son contenu, donc son
format. Un document HTML « Document.html » ne devient pas un document PDF en
le renommant en « Document.pdf » par exemple.

- coder les images en base 64 pour les intégrer dans le fichier (HTML?)


C'est une solution possible, transformer le document HTML en un message MIME
par exemple. Ce dernier pourrait contenir plusieurs corps MIME : contenu
texte, images JPG... Ce format est utilisé pour les courriels par exemple,
tu peux jeter un coup d'oil aux packages Mail de PEAR pour en savoir plus.
Ca tiendra en quelques lignes pour transformer ton document, l'avantage
c'est que ton document HTML sera intact. Par contre fais bien attention que
tes images sont dans le même répertoire que ton document HTML sinon le
package Mail de PEAR ne les trouvera pas, oui je sais c'est con mais c'est
comme ça :). Donc à ne pas mettre dans un sous-répertoire « images » par
exemple.

- je suis sous Linux/Unix donc pas de librairie DOM ...


Tu peux te servir du package XML de PEAR ou des fonctions XML de PHP (je ne
parle pas des classes/fonctions DOM XML de PHP). Tu pourrais par exemple
générer un document OpenOffice.org (XML) avec ça mais ca reste assez corsé
comme boulot, peut-être que ca existe même déjà, à chercher sur les
répertoires de scripts genre HotScripts.com.

- le prix doit avoisinner les 0 euros , voire même en dessous :)


Si tu trouves un script bien fait pour quelques ? je te conseille de pas
passer à côté. Si tu peux pas débourser 100? pour un script tu peux toujours
revendre les vieilles chaussettes de ta grand-mère :).

- pas de PDF puisqu'on doit pouvoir écrire dans les fichiers.


En effet PDF est plutôt un format pour échanger des documents.

Pour résumer :
- HTML/MIME format des courriels (texte + images)
- Document OpenOffice.org (format XML qui suit une logique
contenu/présentation comme XHTML/CSS par exemple)

Je te déconseille de chercher un moyen pour générer un document au format
propriétaire Word, même si la dernière suite a introduit un format XML, à
moitié ouvert, mais ouvert quand même on va dire :D.

JM

Avatar
Stephane Pineau
Le 12 May 2004 15:25:53 GMT, Jean-Marc Molina
écrivait:

Si mes souvenirs sont bons, Word sait lire le HTML depuis au moins la
version 2000, que j'utilisais avant...


Même la version Word 97 pouvait relire du HTM.

Après reste à définir comment Word à accès aux fichiers... si c'est via un
réseau local pas de problème, si par contre c'est par un transfert de
fichiers (mail, disque...etc) il faut penser à résoudre tous les chemins
d'accès (genre faire pointer tous les liens images sur ./) et transmettre le
html+images que l'utisateur copie dans un dossier unique. C'est certain que
c'est loin d'être aussi pratique qu'un format de fichier "embarqué".

Côté scripts de conversion il y a :

http://sourceforge.net/projects/php-doc-xls-gen/ projet qui semble au point
mort depuis 2001 et je doute qu'il intègre la gestion des images.

http://www.paggard.com/projects/rtf.generator/ qui semble gérer
l'embarquement des images mais -> 50USD

Les contraintes indiquées ne sont toutefois pas assez explicites à mon sens
pour orienter vers une solution :

1) Quel version de Word est visée ? toutes ? à partir d'une version précise
?
* Ex: à partir de la version 2003 tu peux trouver le format xml documenté
lu par word.

2) Quel est le moyen de diffusion ? Accès direct par Lan, Intranet, Internet
Accès déporté par messagerie, disques ?
* En accès direct, il suffit d'indiquer un lien vers une page que
l'utilisateur copie dans son word
* En accès déporté, ca signifie soit un format de fichier embarquant les
images, soit des utilisateurs un tant soit peu formés pour dézipper (par ex)
un fichier dans lequel tu embarques la totalité de ta page+images, ou qui
sache farie un copié collé (dans ce cas tu fais un envoi par mail avec le
bon mime/type html , l'utilisateur n'a plus ca faire un copier collé du mail
dans un doc word)

3) S'agit-il d'un besoin ponctuel, ou d'une opération périodique
* Vu le temps passé, 2jours à y réfléchir, je suppose qu'il s'agit d'une
opération périodique et qui plus est orientée vers un minimum d'opérations
manuelles...
* Utiliser des scripts capables de faire la conversion dans un format
embarquant les images lisibe directement par word (RTF semble dans ce cas le
plus adapté à défaut d'un script d'export en .doc natif)
* Utiliser un script qui prépare un .zip des fichiers html+img, charge à
l'utilisateur de s'en dépatouiller
* Utilsier un script qui envoi un mail html à l'utilisateur, charge à lui de
faire un copier/coller dans word (ou utiliser la fonction modifier le
message avec word s'ils utilisent Outlook)
* Interfacer un script avec un logiciel tiers se chargeant de la conversion.
On a parlé d'Ooo... Si on automatiser ca ca risque d'être coton...faut
arriver à lancer Oooh depuis un script, programmer dans Ooh la partie
lecture/sauvegarde/conversion... même si je pense que ca doit être plus
facile sous Linux, ca ne me semble pas vrailment une solution très viable

Si les utilsateurs on un accès intranet ou internet le plus simple reste t
de mettre les fichiers à dispo un serveur http: ensuite il leur suffit
juste de connaitre l'adresse et d'y accéder par le menu "fichier", "Ouvrir
sur le web" de word et basta...Enfin si la version de word le permet...

Cdlt,
Stéph'
--
AcroDict : Dictionnaire francophone des acronymes informatiques
<URL:http://www.teaser.fr/~spineau/acrodict/index.htm>
PHP Page : Script PHP3 Gratuits (Forum, Gestionnaires BDD, etc..)
<URL:http://steph.pineau.free.fr/php/index.php>

Avatar
Jean-Marc Molina
Interfacer un script avec un logiciel tiers se chargeant de la conversion.
On a parlé d'Ooo... Si on automatiser ca ca risque d'être coton...faut

arriver à lancer Oooh depuis un script, programmer dans Ooh la partie
lecture/sauvegarde/conversion... même si je pense que ca doit être plus
facile sous Linux, ca ne me semble pas vrailment une solution très viable

Justement d'après moi c'est la solution la plus fiable. Je ne connais pas
assez OOo pour proposer une solution mais dans l'idée il suffirait
d'utiliser les interfaces proposées par OOo/son SDK. Il existe une sorte de
protocoles à la COM de Microsoft pour accéder à toute la richesse des
fonctionnalités proposer par OOo. Voir les rubriques SDK et API du site
officiel.

JM