[hs?] docx to html

Le
Tony
Je travaille sous le framework 3.0
Je cherche à effectuer une transformation d'un document docx (OpenXML) en
html sans word sous la main.
Le procédé qui parait le plus plausible semble être l'association d'une
feuille de style xslt à ce document.

Le seul projet qui semble interessant est le projet de Cyril Durand qui
s'appelle docx2html mais ce dernier semble pret uniquement à nous montrer sa
tête, son cv et ses présentations power point.
Je ne trouve pas d'aide sérieuse sur le sujet notamment sur la gestion des
images.

Toute aide sera la bienvenue

Merci
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Cyril
Le #12151401
Bonjour,

As tu essayé de contacter l'auteur ? je crois que non !

Sache que je ne fais pas que montrer ma tête, mon CV et mes présentations
powerpoint ... j'ai aussi un blog avec plusieurs posts qui aident de
nombreuses personnes et plus de 5700 réponses sur les forums de CodeS-SourceS
...

Bref contact moi (http://blogs.developpeur.org/cyril/contact.aspx) au lieu
de dire n'importe quoi ;-)

Pour info : docx2html sera un jour public mais par manque de temps je ne
l'ai encore pas fait ...

"Tony" a écrit :

Je travaille sous le framework 3.0
Je cherche à effectuer une transformation d'un document docx (OpenXML) en
html sans word sous la main.
Le procédé qui parait le plus plausible semble être l'association d'une
feuille de style xslt à ce document.

Le seul projet qui semble interessant est le projet de Cyril Durand qui
s'appelle docx2html mais ce dernier semble pret uniquement à nous montrer sa
tête, son cv et ses présentations power point.
Je ne trouve pas d'aide sérieuse sur le sujet notamment sur la gestion des
images.

Toute aide sera la bienvenue

Merci





Tony
Le #12151391
Pour tout dire, ma pointe d'ironie provient d'un mélange entre l'agacement
de voir fleurir trop de blogs à la gloire de leurs auteurs, l'énervement de
ne rien trouver sur le sujet et au fait que ta publication sur la
transformation de docx en html nous laisse réellement sur notre faim.
Je te prie de bien vouloir accepter mes excuses pour ce débordement
inapproprié.

Je fais ici un point de l'avancement de mes recherches de façon à ce que le
sujet reste ouvert aux autres :
- la base étant le fichier document.xml, je remarque premièrement que les
balises xml utilisées par word 2003 et word 2007 ne sont pas les même !
- la transformation en html se fait par l'attribution d'une feuille de style
xslt, toutes celles trouvées sur le net sont beaucoup trop light
- la seule feuille de style qui semble interessante est celle livrée dans
Share Point Server mais je ne sais pas si j'ai le droit de la redistribuer
- malgré l'association de la feuille de style xslt de nombreuses choses ne
sont pas gérées pour peu que le document word utilise les styles word (donc
non présent dans document.xml et géré avec une relationship)
- les images doivent être gérées à part (extraction).
- il faut afficher les images non pas en taille réelle mais dans la taille
définie dans le document.
- l'extraction des images ne suffit pas car il faut les resizer sinon
l'affichage des images dans l'html (dans la taille défini dans le document)
n'est pas propre (ce que fait d'ailleurs word lors d'un enregistrement en
html).
- SharePoint ne gère pas les images

Voici un ensemble de problèmatique sur lesquelles je travaille actuellement
et ce n'est pas une mince affaire !
Je ne sais pas si le projet docx2html va aussi loin compte tenu qu'il est
destiné uniquement à la publication d'articles sur le web et que donc par
conséquent ces articles sont assez structurés d'origine (titre, corps,
images).

Toutes réactions et/ou commentaires sont les bienvenues.

"Cyril"
Bonjour,

As tu essayé de contacter l'auteur ? je crois que non !

Sache que je ne fais pas que montrer ma tête, mon CV et mes présentations
powerpoint ... j'ai aussi un blog avec plusieurs posts qui aident de
nombreuses personnes et plus de 5700 réponses sur les forums de
CodeS-SourceS
...

Bref contact moi (http://blogs.developpeur.org/cyril/contact.aspx) au lieu
de dire n'importe quoi ;-)

Pour info : docx2html sera un jour public mais par manque de temps je ne
l'ai encore pas fait ...

"Tony" a écrit :

Je travaille sous le framework 3.0
Je cherche à effectuer une transformation d'un document docx (OpenXML) en
html sans word sous la main.
Le procédé qui parait le plus plausible semble être l'association d'une
feuille de style xslt à ce document.

Le seul projet qui semble interessant est le projet de Cyril Durand qui
s'appelle docx2html mais ce dernier semble pret uniquement à nous montrer
sa
tête, son cv et ses présentations power point.
Je ne trouve pas d'aide sérieuse sur le sujet notamment sur la gestion
des
images.

Toute aide sera la bienvenue

Merci







Laurent Jordi
Le #12151381
Salut,

J'attendais ta réaction pour intervenir...

J'aimerais que tu précises quel est ton objectif "A quelles fins" désires tu
faire ce travail. J'aimerais m'assurer que tu prennes la bonne direction.

Bien à toi

Laurent


"Tony" e6Fv0X1$
Pour tout dire, ma pointe d'ironie provient d'un mélange entre l'agacement
de voir fleurir trop de blogs à la gloire de leurs auteurs, l'énervement
de ne rien trouver sur le sujet et au fait que ta publication sur la
transformation de docx en html nous laisse réellement sur notre faim.
Je te prie de bien vouloir accepter mes excuses pour ce débordement
inapproprié.

Je fais ici un point de l'avancement de mes recherches de façon à ce que
le sujet reste ouvert aux autres :
- la base étant le fichier document.xml, je remarque premièrement que les
balises xml utilisées par word 2003 et word 2007 ne sont pas les même !
- la transformation en html se fait par l'attribution d'une feuille de
style xslt, toutes celles trouvées sur le net sont beaucoup trop light
- la seule feuille de style qui semble interessante est celle livrée dans
Share Point Server mais je ne sais pas si j'ai le droit de la redistribuer
- malgré l'association de la feuille de style xslt de nombreuses choses ne
sont pas gérées pour peu que le document word utilise les styles word
(donc non présent dans document.xml et géré avec une relationship)
- les images doivent être gérées à part (extraction).
- il faut afficher les images non pas en taille réelle mais dans la taille
définie dans le document.
- l'extraction des images ne suffit pas car il faut les resizer sinon
l'affichage des images dans l'html (dans la taille défini dans le
document) n'est pas propre (ce que fait d'ailleurs word lors d'un
enregistrement en html).
- SharePoint ne gère pas les images

Voici un ensemble de problèmatique sur lesquelles je travaille
actuellement et ce n'est pas une mince affaire !
Je ne sais pas si le projet docx2html va aussi loin compte tenu qu'il est
destiné uniquement à la publication d'articles sur le web et que donc par
conséquent ces articles sont assez structurés d'origine (titre, corps,
images).

Toutes réactions et/ou commentaires sont les bienvenues.

"Cyril"
Bonjour,

As tu essayé de contacter l'auteur ? je crois que non !

Sache que je ne fais pas que montrer ma tête, mon CV et mes présentations
powerpoint ... j'ai aussi un blog avec plusieurs posts qui aident de
nombreuses personnes et plus de 5700 réponses sur les forums de
CodeS-SourceS
...

Bref contact moi (http://blogs.developpeur.org/cyril/contact.aspx) au
lieu
de dire n'importe quoi ;-)

Pour info : docx2html sera un jour public mais par manque de temps je ne
l'ai encore pas fait ...

"Tony" a écrit :

Je travaille sous le framework 3.0
Je cherche à effectuer une transformation d'un document docx (OpenXML)
en
html sans word sous la main.
Le procédé qui parait le plus plausible semble être l'association d'une
feuille de style xslt à ce document.

Le seul projet qui semble interessant est le projet de Cyril Durand qui
s'appelle docx2html mais ce dernier semble pret uniquement à nous
montrer sa
tête, son cv et ses présentations power point.
Je ne trouve pas d'aide sérieuse sur le sujet notamment sur la gestion
des
images.

Toute aide sera la bienvenue

Merci











Tony
Le #12151371
Je souhaite "simplement" faire une transformation d'un fichier docx en html
à partir d'un serveur via asp.net sans avoir à installer Word sur ce serveur
puisque OpenXml est un format ouvert donc beaucoup plus facile à manipuler
que du .doc pur !
ça c'est pour le coté technique, sinon pour la finalité générale c'est
simplement pour faciliter encore et toujours l'accès à de la documentation,
des articles, ...
c'est de la publication comme peut le faire Cyril mais avec des documents
docx de toute origine.

Prends-je la bonne direction ? ;o)

Tony


"Laurent Jordi" %23vJ7DP2$
Salut,

J'attendais ta réaction pour intervenir...

J'aimerais que tu précises quel est ton objectif "A quelles fins" désires
tu faire ce travail. J'aimerais m'assurer que tu prennes la bonne
direction.

Bien à toi

Laurent


"Tony" e6Fv0X1$
Pour tout dire, ma pointe d'ironie provient d'un mélange entre
l'agacement de voir fleurir trop de blogs à la gloire de leurs auteurs,
l'énervement de ne rien trouver sur le sujet et au fait que ta
publication sur la transformation de docx en html nous laisse réellement
sur notre faim.
Je te prie de bien vouloir accepter mes excuses pour ce débordement
inapproprié.

Je fais ici un point de l'avancement de mes recherches de façon à ce que
le sujet reste ouvert aux autres :
- la base étant le fichier document.xml, je remarque premièrement que les
balises xml utilisées par word 2003 et word 2007 ne sont pas les même !
- la transformation en html se fait par l'attribution d'une feuille de
style xslt, toutes celles trouvées sur le net sont beaucoup trop light
- la seule feuille de style qui semble interessante est celle livrée dans
Share Point Server mais je ne sais pas si j'ai le droit de la
redistribuer
- malgré l'association de la feuille de style xslt de nombreuses choses
ne sont pas gérées pour peu que le document word utilise les styles word
(donc non présent dans document.xml et géré avec une relationship)
- les images doivent être gérées à part (extraction).
- il faut afficher les images non pas en taille réelle mais dans la
taille définie dans le document.
- l'extraction des images ne suffit pas car il faut les resizer sinon
l'affichage des images dans l'html (dans la taille défini dans le
document) n'est pas propre (ce que fait d'ailleurs word lors d'un
enregistrement en html).
- SharePoint ne gère pas les images

Voici un ensemble de problèmatique sur lesquelles je travaille
actuellement et ce n'est pas une mince affaire !
Je ne sais pas si le projet docx2html va aussi loin compte tenu qu'il est
destiné uniquement à la publication d'articles sur le web et que donc par
conséquent ces articles sont assez structurés d'origine (titre, corps,
images).

Toutes réactions et/ou commentaires sont les bienvenues.

"Cyril" news:
Bonjour,

As tu essayé de contacter l'auteur ? je crois que non !

Sache que je ne fais pas que montrer ma tête, mon CV et mes
présentations
powerpoint ... j'ai aussi un blog avec plusieurs posts qui aident de
nombreuses personnes et plus de 5700 réponses sur les forums de
CodeS-SourceS
...

Bref contact moi (http://blogs.developpeur.org/cyril/contact.aspx) au
lieu
de dire n'importe quoi ;-)

Pour info : docx2html sera un jour public mais par manque de temps je ne
l'ai encore pas fait ...

"Tony" a écrit :

Je travaille sous le framework 3.0
Je cherche à effectuer une transformation d'un document docx (OpenXML)
en
html sans word sous la main.
Le procédé qui parait le plus plausible semble être l'association d'une
feuille de style xslt à ce document.

Le seul projet qui semble interessant est le projet de Cyril Durand qui
s'appelle docx2html mais ce dernier semble pret uniquement à nous
montrer sa
tête, son cv et ses présentations power point.
Je ne trouve pas d'aide sérieuse sur le sujet notamment sur la gestion
des
images.

Toute aide sera la bienvenue

Merci















Laurent Jordi
Le #12151341
Salut,

Personnellement je fais beaucoup de gestion de contenu. Passer d'un format à
l'autre, même si c'est l'esprit de l'Open XML c'est encore un peu utopique.
En particulier à cause des nombreux objets flottants... les formes les
images etc. De plus, si j'ai bien compris, il s'agit de documents
utilisateurs qui ont forcément leurs petites habitudes qui ne vont pas
toujours dans le sens de la logique.

Comme d'habitude, Microsoft a innové en solo (ça a dû énerver pas mal de
monde), du coup, ils se sont vu refuser l'adoption de l'open XML comme un
standard.
http://www.pcinpact.com/actu/news/37714-microsoft-open-xml-ecma-international.htm?vc=1

Il existe un plug in office 2007 qui permet de publier n'importe quel
document office au format PDF. immense avantage de ce plug in par rapport à
une imprimante pdf virtuelle est qu'il conserve intact les signets et les
liens qui sont créés par les utilisateurs.
http://www.microsoft.com/downloads/details.aspx?FamilyIDM951911-3e7e-4ae6-b059-a2e79ed87041&DisplayLang=fr

Comme les moteurs de recherche type Google sont capables d'explorer les PDF,
j'ai opté pour ce format qui conserve intact la mise en page d'origine.

Le PDF est le seul standard de fait non HTML qui est parfaitement compatible
avec quasiment toutes les plateformes. C'est pourquoi, et bien que ça ne
réponde pas tout à fait à ta question, je t'invite à explorer cette piste
qui me parait beaucoup moins hasardeuse que celle que tu as décidé
d'emprunter.

Bien à toi

Laurent Jordi
http://www.ezlogic.mc
http://www.laurentjordi.net


"Tony" %23IoZEB3$
Je souhaite "simplement" faire une transformation d'un fichier docx en
html à partir d'un serveur via asp.net sans avoir à installer Word sur ce
serveur puisque OpenXml est un format ouvert donc beaucoup plus facile à
manipuler que du .doc pur !
ça c'est pour le coté technique, sinon pour la finalité générale c'est
simplement pour faciliter encore et toujours l'accès à de la
documentation, des articles, ...
c'est de la publication comme peut le faire Cyril mais avec des documents
docx de toute origine.

Prends-je la bonne direction ? ;o)

Tony


"Laurent Jordi" %23vJ7DP2$
Salut,

J'attendais ta réaction pour intervenir...

J'aimerais que tu précises quel est ton objectif "A quelles fins" désires
tu faire ce travail. J'aimerais m'assurer que tu prennes la bonne
direction.

Bien à toi

Laurent


"Tony" news: e6Fv0X1$
Pour tout dire, ma pointe d'ironie provient d'un mélange entre
l'agacement de voir fleurir trop de blogs à la gloire de leurs auteurs,
l'énervement de ne rien trouver sur le sujet et au fait que ta
publication sur la transformation de docx en html nous laisse réellement
sur notre faim.
Je te prie de bien vouloir accepter mes excuses pour ce débordement
inapproprié.

Je fais ici un point de l'avancement de mes recherches de façon à ce que
le sujet reste ouvert aux autres :
- la base étant le fichier document.xml, je remarque premièrement que
les balises xml utilisées par word 2003 et word 2007 ne sont pas les
même !
- la transformation en html se fait par l'attribution d'une feuille de
style xslt, toutes celles trouvées sur le net sont beaucoup trop light
- la seule feuille de style qui semble interessante est celle livrée
dans Share Point Server mais je ne sais pas si j'ai le droit de la
redistribuer
- malgré l'association de la feuille de style xslt de nombreuses choses
ne sont pas gérées pour peu que le document word utilise les styles word
(donc non présent dans document.xml et géré avec une relationship)
- les images doivent être gérées à part (extraction).
- il faut afficher les images non pas en taille réelle mais dans la
taille définie dans le document.
- l'extraction des images ne suffit pas car il faut les resizer sinon
l'affichage des images dans l'html (dans la taille défini dans le
document) n'est pas propre (ce que fait d'ailleurs word lors d'un
enregistrement en html).
- SharePoint ne gère pas les images

Voici un ensemble de problèmatique sur lesquelles je travaille
actuellement et ce n'est pas une mince affaire !
Je ne sais pas si le projet docx2html va aussi loin compte tenu qu'il
est destiné uniquement à la publication d'articles sur le web et que
donc par conséquent ces articles sont assez structurés d'origine (titre,
corps, images).

Toutes réactions et/ou commentaires sont les bienvenues.

"Cyril" news:
Bonjour,

As tu essayé de contacter l'auteur ? je crois que non !

Sache que je ne fais pas que montrer ma tête, mon CV et mes
présentations
powerpoint ... j'ai aussi un blog avec plusieurs posts qui aident de
nombreuses personnes et plus de 5700 réponses sur les forums de
CodeS-SourceS
...

Bref contact moi (http://blogs.developpeur.org/cyril/contact.aspx) au
lieu
de dire n'importe quoi ;-)

Pour info : docx2html sera un jour public mais par manque de temps je
ne
l'ai encore pas fait ...

"Tony" a écrit :

Je travaille sous le framework 3.0
Je cherche à effectuer une transformation d'un document docx (OpenXML)
en
html sans word sous la main.
Le procédé qui parait le plus plausible semble être l'association
d'une
feuille de style xslt à ce document.

Le seul projet qui semble interessant est le projet de Cyril Durand
qui
s'appelle docx2html mais ce dernier semble pret uniquement à nous
montrer sa
tête, son cv et ses présentations power point.
Je ne trouve pas d'aide sérieuse sur le sujet notamment sur la gestion
des
images.

Toute aide sera la bienvenue

Merci



















Tony
Le #12151301
Merci pour tout analyse mais je précise 2 choses :
d'une part je suis d'accord avec toi sur le fait que tu ne répondes pas
franchement à ma question et d'autre part je m'interesse également au format
pdf (qui a également ses avanatages et ses inconvénients) mais de la même
manière je souhaite travailler coté serveur sans word installé dessus comme
je l'ai déjà précisé donc le plugin pdf office 2007 ne me sera pas très
utile surtout sous word 2003.
Mais on s'éloigne là de l'objectif html qui certes est peut-être utopique
mais n'a jamais été aussi proche de la réalité dans les conditions évoquées.

Tony

"Laurent Jordi"
Salut,

Personnellement je fais beaucoup de gestion de contenu. Passer d'un format
à l'autre, même si c'est l'esprit de l'Open XML c'est encore un peu
utopique. En particulier à cause des nombreux objets flottants... les
formes les images etc. De plus, si j'ai bien compris, il s'agit de
documents utilisateurs qui ont forcément leurs petites habitudes qui ne
vont pas toujours dans le sens de la logique.

Comme d'habitude, Microsoft a innové en solo (ça a dû énerver pas mal de
monde), du coup, ils se sont vu refuser l'adoption de l'open XML comme un
standard.
http://www.pcinpact.com/actu/news/37714-microsoft-open-xml-ecma-international.htm?vc=1

Il existe un plug in office 2007 qui permet de publier n'importe quel
document office au format PDF. immense avantage de ce plug in par rapport
à une imprimante pdf virtuelle est qu'il conserve intact les signets et
les liens qui sont créés par les utilisateurs.
http://www.microsoft.com/downloads/details.aspx?FamilyIDM951911-3e7e-4ae6-b059-a2e79ed87041&DisplayLang=fr

Comme les moteurs de recherche type Google sont capables d'explorer les
PDF, j'ai opté pour ce format qui conserve intact la mise en page
d'origine.

Le PDF est le seul standard de fait non HTML qui est parfaitement
compatible avec quasiment toutes les plateformes. C'est pourquoi, et bien
que ça ne réponde pas tout à fait à ta question, je t'invite à explorer
cette piste qui me parait beaucoup moins hasardeuse que celle que tu as
décidé d'emprunter.

Bien à toi

Laurent Jordi
http://www.ezlogic.mc
http://www.laurentjordi.net


"Tony" %23IoZEB3$
Je souhaite "simplement" faire une transformation d'un fichier docx en
html à partir d'un serveur via asp.net sans avoir à installer Word sur ce
serveur puisque OpenXml est un format ouvert donc beaucoup plus facile à
manipuler que du .doc pur !
ça c'est pour le coté technique, sinon pour la finalité générale c'est
simplement pour faciliter encore et toujours l'accès à de la
documentation, des articles, ...
c'est de la publication comme peut le faire Cyril mais avec des documents
docx de toute origine.

Prends-je la bonne direction ? ;o)

Tony


"Laurent Jordi" %23vJ7DP2$
Salut,

J'attendais ta réaction pour intervenir...

J'aimerais que tu précises quel est ton objectif "A quelles fins"
désires tu faire ce travail. J'aimerais m'assurer que tu prennes la
bonne direction.

Bien à toi

Laurent


"Tony" news: e6Fv0X1$
Pour tout dire, ma pointe d'ironie provient d'un mélange entre
l'agacement de voir fleurir trop de blogs à la gloire de leurs auteurs,
l'énervement de ne rien trouver sur le sujet et au fait que ta
publication sur la transformation de docx en html nous laisse
réellement sur notre faim.
Je te prie de bien vouloir accepter mes excuses pour ce débordement
inapproprié.

Je fais ici un point de l'avancement de mes recherches de façon à ce
que le sujet reste ouvert aux autres :
- la base étant le fichier document.xml, je remarque premièrement que
les balises xml utilisées par word 2003 et word 2007 ne sont pas les
même !
- la transformation en html se fait par l'attribution d'une feuille de
style xslt, toutes celles trouvées sur le net sont beaucoup trop light
- la seule feuille de style qui semble interessante est celle livrée
dans Share Point Server mais je ne sais pas si j'ai le droit de la
redistribuer
- malgré l'association de la feuille de style xslt de nombreuses choses
ne sont pas gérées pour peu que le document word utilise les styles
word (donc non présent dans document.xml et géré avec une relationship)
- les images doivent être gérées à part (extraction).
- il faut afficher les images non pas en taille réelle mais dans la
taille définie dans le document.
- l'extraction des images ne suffit pas car il faut les resizer sinon
l'affichage des images dans l'html (dans la taille défini dans le
document) n'est pas propre (ce que fait d'ailleurs word lors d'un
enregistrement en html).
- SharePoint ne gère pas les images

Voici un ensemble de problèmatique sur lesquelles je travaille
actuellement et ce n'est pas une mince affaire !
Je ne sais pas si le projet docx2html va aussi loin compte tenu qu'il
est destiné uniquement à la publication d'articles sur le web et que
donc par conséquent ces articles sont assez structurés d'origine
(titre, corps, images).

Toutes réactions et/ou commentaires sont les bienvenues.

"Cyril" news:
Bonjour,

As tu essayé de contacter l'auteur ? je crois que non !

Sache que je ne fais pas que montrer ma tête, mon CV et mes
présentations
powerpoint ... j'ai aussi un blog avec plusieurs posts qui aident de
nombreuses personnes et plus de 5700 réponses sur les forums de
CodeS-SourceS
...

Bref contact moi (http://blogs.developpeur.org/cyril/contact.aspx) au
lieu
de dire n'importe quoi ;-)

Pour info : docx2html sera un jour public mais par manque de temps je
ne
l'ai encore pas fait ...

"Tony" a écrit :

Je travaille sous le framework 3.0
Je cherche à effectuer une transformation d'un document docx
(OpenXML) en
html sans word sous la main.
Le procédé qui parait le plus plausible semble être l'association
d'une
feuille de style xslt à ce document.

Le seul projet qui semble interessant est le projet de Cyril Durand
qui
s'appelle docx2html mais ce dernier semble pret uniquement à nous
montrer sa
tête, son cv et ses présentations power point.
Je ne trouve pas d'aide sérieuse sur le sujet notamment sur la
gestion des
images.

Toute aide sera la bienvenue

Merci























Laurent Jordi
Le #12151291
Re,

Pour tous les autres logiciels, y compris les logiciels non microsoft, il
existe un CutePDFPrinter qui est simplissime à déployer qui se comporte
comme une imprimante normale.

Concernant open xml, j'ai commencé à l'étudier, lorsque j'ai vu que ce ne
serait pas un standard, j'ai mis cette option en stand by le temps que les
grands pontes se mettent d'accord...

++

Laurent


"Tony"
Merci pour tout analyse mais je précise 2 choses :
d'une part je suis d'accord avec toi sur le fait que tu ne répondes pas
franchement à ma question et d'autre part je m'interesse également au
format pdf (qui a également ses avanatages et ses inconvénients) mais de
la même manière je souhaite travailler coté serveur sans word installé
dessus comme je l'ai déjà précisé donc le plugin pdf office 2007 ne me
sera pas très utile surtout sous word 2003.
Mais on s'éloigne là de l'objectif html qui certes est peut-être utopique
mais n'a jamais été aussi proche de la réalité dans les conditions
évoquées.

Tony

"Laurent Jordi"
Salut,

Personnellement je fais beaucoup de gestion de contenu. Passer d'un
format à l'autre, même si c'est l'esprit de l'Open XML c'est encore un
peu utopique. En particulier à cause des nombreux objets flottants... les
formes les images etc. De plus, si j'ai bien compris, il s'agit de
documents utilisateurs qui ont forcément leurs petites habitudes qui ne
vont pas toujours dans le sens de la logique.

Comme d'habitude, Microsoft a innové en solo (ça a dû énerver pas mal de
monde), du coup, ils se sont vu refuser l'adoption de l'open XML comme un
standard.
http://www.pcinpact.com/actu/news/37714-microsoft-open-xml-ecma-international.htm?vc=1

Il existe un plug in office 2007 qui permet de publier n'importe quel
document office au format PDF. immense avantage de ce plug in par rapport
à une imprimante pdf virtuelle est qu'il conserve intact les signets et
les liens qui sont créés par les utilisateurs.
http://www.microsoft.com/downloads/details.aspx?FamilyIDM951911-3e7e-4ae6-b059-a2e79ed87041&DisplayLang=fr

Comme les moteurs de recherche type Google sont capables d'explorer les
PDF, j'ai opté pour ce format qui conserve intact la mise en page
d'origine.

Le PDF est le seul standard de fait non HTML qui est parfaitement
compatible avec quasiment toutes les plateformes. C'est pourquoi, et bien
que ça ne réponde pas tout à fait à ta question, je t'invite à explorer
cette piste qui me parait beaucoup moins hasardeuse que celle que tu as
décidé d'emprunter.

Bien à toi

Laurent Jordi
http://www.ezlogic.mc
http://www.laurentjordi.net


"Tony" news: %23IoZEB3$
Je souhaite "simplement" faire une transformation d'un fichier docx en
html à partir d'un serveur via asp.net sans avoir à installer Word sur
ce serveur puisque OpenXml est un format ouvert donc beaucoup plus
facile à manipuler que du .doc pur !
ça c'est pour le coté technique, sinon pour la finalité générale c'est
simplement pour faciliter encore et toujours l'accès à de la
documentation, des articles, ...
c'est de la publication comme peut le faire Cyril mais avec des
documents docx de toute origine.

Prends-je la bonne direction ? ;o)

Tony


"Laurent Jordi" %23vJ7DP2$
Salut,

J'attendais ta réaction pour intervenir...

J'aimerais que tu précises quel est ton objectif "A quelles fins"
désires tu faire ce travail. J'aimerais m'assurer que tu prennes la
bonne direction.

Bien à toi

Laurent


"Tony" news: e6Fv0X1$
Pour tout dire, ma pointe d'ironie provient d'un mélange entre
l'agacement de voir fleurir trop de blogs à la gloire de leurs
auteurs, l'énervement de ne rien trouver sur le sujet et au fait que
ta publication sur la transformation de docx en html nous laisse
réellement sur notre faim.
Je te prie de bien vouloir accepter mes excuses pour ce débordement
inapproprié.

Je fais ici un point de l'avancement de mes recherches de façon à ce
que le sujet reste ouvert aux autres :
- la base étant le fichier document.xml, je remarque premièrement que
les balises xml utilisées par word 2003 et word 2007 ne sont pas les
même !
- la transformation en html se fait par l'attribution d'une feuille de
style xslt, toutes celles trouvées sur le net sont beaucoup trop light
- la seule feuille de style qui semble interessante est celle livrée
dans Share Point Server mais je ne sais pas si j'ai le droit de la
redistribuer
- malgré l'association de la feuille de style xslt de nombreuses
choses ne sont pas gérées pour peu que le document word utilise les
styles word (donc non présent dans document.xml et géré avec une
relationship)
- les images doivent être gérées à part (extraction).
- il faut afficher les images non pas en taille réelle mais dans la
taille définie dans le document.
- l'extraction des images ne suffit pas car il faut les resizer sinon
l'affichage des images dans l'html (dans la taille défini dans le
document) n'est pas propre (ce que fait d'ailleurs word lors d'un
enregistrement en html).
- SharePoint ne gère pas les images

Voici un ensemble de problèmatique sur lesquelles je travaille
actuellement et ce n'est pas une mince affaire !
Je ne sais pas si le projet docx2html va aussi loin compte tenu qu'il
est destiné uniquement à la publication d'articles sur le web et que
donc par conséquent ces articles sont assez structurés d'origine
(titre, corps, images).

Toutes réactions et/ou commentaires sont les bienvenues.

"Cyril" news:
Bonjour,

As tu essayé de contacter l'auteur ? je crois que non !

Sache que je ne fais pas que montrer ma tête, mon CV et mes
présentations
powerpoint ... j'ai aussi un blog avec plusieurs posts qui aident de
nombreuses personnes et plus de 5700 réponses sur les forums de
CodeS-SourceS
...

Bref contact moi (http://blogs.developpeur.org/cyril/contact.aspx) au
lieu
de dire n'importe quoi ;-)

Pour info : docx2html sera un jour public mais par manque de temps je
ne
l'ai encore pas fait ...

"Tony" a écrit :

Je travaille sous le framework 3.0
Je cherche à effectuer une transformation d'un document docx
(OpenXML) en
html sans word sous la main.
Le procédé qui parait le plus plausible semble être l'association
d'une
feuille de style xslt à ce document.

Le seul projet qui semble interessant est le projet de Cyril Durand
qui
s'appelle docx2html mais ce dernier semble pret uniquement à nous
montrer sa
tête, son cv et ses présentations power point.
Je ne trouve pas d'aide sérieuse sur le sujet notamment sur la
gestion des
images.

Toute aide sera la bienvenue

Merci



























Publicité
Poster une réponse
Anonyme