docx vers autre format exploitable
Le
Bernard

Bonjour à tous,
Je crois que MS a trouvé un moyen - parmi d'autres - pour ennuyer
sérieusement les Linuxiens. Il s'agit du nouveau format 'docx'. A la
lecture des documents trouvés dans les archives des listes Debian, ou
via Google, j'ai trouvé plusieurs solutions, lesquelles paraissent loin
de satisfaire tout le monde ; nombreux sont ceux qui y ont consacré de
nombreuses heures sans trouver de solution qui les satisfassent, sauf à
faire l'acquisition de MS Office 2007 pour récupérer - sous MSWIN - les
documents et les resauvegarder en .doc ou autre.
Pour ma part, je dispose de OO 2.4 sous Lenny Là, vous allez vous
rhabiller, car il n'y a apparemment aucune possibilité. Sous le PC de
mon association, j'ai OO 3.2 sous Squeeze, lequel est sensé ouvrir les
fichiers .docx. Là dessus, mon fichier .docs fait mine de vouloir
s'ouvrir mais çà dure indéfiniment Pour un fichier de moins de 200
Ko, le sablier est toujours actif après 30 minutes !! Un test avec 'top'
me révèle alors que 'soffice.bin' tourne toujours et accapare 100% de la
CPU avec 5.9% de la mémoire vive. J'ai essayé sur plusieurs fichiers,
avec toujours le même résultat. La seule façon d'en sortir est de faire
un KILL sur le PID de soffice.
Alors, après une recherche via Google, j'ai trouvé un outil en ligne à
l'adresse suivante : http://www.conv2pdf.com qui m'a permis de récupérer
ledit fichier .docx au format pdf A ceci près que le fichier pdf
obtenu, je ne puis rien en faire. Il s'agit d'un tableau, que je
souhaite récupérer au format csv (champs séparés par des point
virgules), mais je ne sais pas faire à partir d'un fichier pdf. J'ai
bien utilisé pdf2txt, mais çà m'a délivré un fichier texte parfaitement
inexploitable (champs séparés non par des tab ou points virgules etc
mais par de simples espaces, sans compter que ce qui devrait être des
titres de colonnes sont en ligne de texte, et autres détails qui rendent
le texte parfaitement inexploitable pour mon projet.
Existerait il un outil sous Linux qui convertisse les pdf en autre chose
qu'en texte simple ? Ou alors, comment ouvrir, sous Linux, un fichier
.docx et le resauvegarder en un format exploitable ?
Merci d'avance pour votre aide.
Bernard
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/4EDE2164.1070506@teaser.fr
Je crois que MS a trouvé un moyen - parmi d'autres - pour ennuyer
sérieusement les Linuxiens. Il s'agit du nouveau format 'docx'. A la
lecture des documents trouvés dans les archives des listes Debian, ou
via Google, j'ai trouvé plusieurs solutions, lesquelles paraissent loin
de satisfaire tout le monde ; nombreux sont ceux qui y ont consacré de
nombreuses heures sans trouver de solution qui les satisfassent, sauf à
faire l'acquisition de MS Office 2007 pour récupérer - sous MSWIN - les
documents et les resauvegarder en .doc ou autre.
Pour ma part, je dispose de OO 2.4 sous Lenny Là, vous allez vous
rhabiller, car il n'y a apparemment aucune possibilité. Sous le PC de
mon association, j'ai OO 3.2 sous Squeeze, lequel est sensé ouvrir les
fichiers .docx. Là dessus, mon fichier .docs fait mine de vouloir
s'ouvrir mais çà dure indéfiniment Pour un fichier de moins de 200
Ko, le sablier est toujours actif après 30 minutes !! Un test avec 'top'
me révèle alors que 'soffice.bin' tourne toujours et accapare 100% de la
CPU avec 5.9% de la mémoire vive. J'ai essayé sur plusieurs fichiers,
avec toujours le même résultat. La seule façon d'en sortir est de faire
un KILL sur le PID de soffice.
Alors, après une recherche via Google, j'ai trouvé un outil en ligne à
l'adresse suivante : http://www.conv2pdf.com qui m'a permis de récupérer
ledit fichier .docx au format pdf A ceci près que le fichier pdf
obtenu, je ne puis rien en faire. Il s'agit d'un tableau, que je
souhaite récupérer au format csv (champs séparés par des point
virgules), mais je ne sais pas faire à partir d'un fichier pdf. J'ai
bien utilisé pdf2txt, mais çà m'a délivré un fichier texte parfaitement
inexploitable (champs séparés non par des tab ou points virgules etc
mais par de simples espaces, sans compter que ce qui devrait être des
titres de colonnes sont en ligne de texte, et autres détails qui rendent
le texte parfaitement inexploitable pour mon projet.
Existerait il un outil sous Linux qui convertisse les pdf en autre chose
qu'en texte simple ? Ou alors, comment ouvrir, sous Linux, un fichier
.docx et le resauvegarder en un format exploitable ?
Merci d'avance pour votre aide.
Bernard
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/4EDE2164.1070506@teaser.fr
Dans ce genre de cas, je crois qu'une bonne solution (si elle est
possible) serait de demander à l'auteur du fichier docx une version txt
ou autre, surtout s'il s'agit de données tabulées.
Le pire c'est que docx est décrit dans une norme iso, mais que dans la
pratique, il paraît bien difficile d'en faire quelque chose. Pas mal
d'utilisateurs Windows autour de moi ont aussi ce problème.
Il existe aussi le très bon antiword, et peut être qu'il supporte le
docx.
Nicolas
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
le 06/12/2011 15:06, Bernard a écrit:
Je n'ai pas de souci avec LibreOffice 3.4.4 sous Sid. Je reçois des docx
simples, c'est-à-dire sans mise en page complexe. Quelques décalages
sont à noter mais je peux au moins récupérer le contenu.
Tu as essayé d'ouvrir le pdf dans LibreOffice Impress voire Inkscape ?
Cordialement,
Samy
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Je te conseil le convertisseur suivant : http://katana.oooninja.com/w/
Ou bien de migrer vers LibreOffice 3.3 ou + qui support relativement bien le format docx.
++
Mourad
Le 06/12/2011 15:06, Bernard a écrit :
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Pour l'instant, aucun fichier docx n'a "résisté" à LibreOffice 3.4.4
(fork d'OO) que j'installe sur les postes utilisateurs.
De rien.
Je précise que je demande systématiquement un fichier dans un format pdf
ou txt à tout interlocuteur m'envoyant les bouses de M$ en signalant que
je ne dispose pas des 700€ nécessaires à l'achat de la licence. Par
ailleurs, je leur fait un petit laius sur Open Office, formats ouverts
versus fermés, toussa. Ok, 90% des interlocuteurs s'en contre-foutent.
Mais je table sur les 10% restant ;)
a+
f.
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/4ede3573$0$2834$
+1
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/4ede6c6b$0$20611$
moi-meme
bonjour,
j'ai déjà eu quelques document docx et j'ai simplement décompacté
l'archive pour en sortir les données textuelles ....
en général il s'agit d'un volume.zip
slt
bernard
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
je confirme.
mais il est tellement plus simple d'utiliser libreoffice :-))
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/4edf2485$0$25899$
moi-meme
bonjour,
attention, il n'estr pas toujours possible d'avoir libreoffice
sous la main : cli + ncusres ....
résultat, il faut connaîtres les différentes métodes pouvant
servir à obtenir le document ( format texte ) ...
reste à voir comment remettre en forme un tableur ...
slt
bernard
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
--------------enigA1C0707BD65EEDBEAE77BEA8
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: quoted-printable
Le 07/12/2011 05:03, Bernard Schoenacker a écrit :
Ãa dépend du nombre de document à convertirâ¦
unoconv permet de faire les conversions de formats pris en charge par
libreoffice en ligne de commande.
Amicalement
David
--------------enigA1C0707BD65EEDBEAE77BEA8
Content-Type: application/pgp-signature; name="signature.asc"
Content-Description: OpenPGP digital signature
Content-Disposition: attachment; filename="signature.asc"
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.11 (GNU/Linux)
iQIcBAEBCAAGBQJO4BcZAAoJELgqIXr9/gnyJGsP/irl/IxXPJ0Hs25Omc0BGIMI
KZjKtlv+sNMJJSX40XiMHZHOiZXRqTXWFZfjuOT+4Tfp6uauBvun6ufXbI8dnL+i
7L9ya90gA55NHVWPRVM/dYB/TB+XoW3PcAHlME+Kd2DF3TnhgECiNuJbSrw9ZDwk
cRiLSYuUpMGISOHXcwB7JJ0zaZW4Sz37o7LBkVFGS+eAqgxUJiJC9kfJ09/Gygkx
kkCBGVAcX3T+HV3P4ju+cxZUdN9+p8NebXEPgOpct1LtqZiSSZ3px0RB2BlXqMx6
pWl135bAaAiVGuMY9SQz/OVG2f+1LSeV1XNMAqqRV5EH7cWpRlfTX0oTm1P4L38e
7/eqfjqVb7ywc5KakHvcqY2oD4NJTvYTySiN+HwRRL1fILQRF9vlDzhaDfydLLpN
bTGduRl0+KBvOW/WtAUjsSj3VJ4y0MO60rgsPyNqa1sD/iOstQG2hjU2EFSf5PO5
4+9cFZD8N7QQmmFUptDVud///47GtMH9G6lEhFiStc9mbKVQ6PFSKLa7sZdbDaAZ
vTodmrXlqFl0Yq590xsmVa9UIhGlfwD3pTpqMp6AFSrcTraQ0pdxVGhdtz+Ex/b/
+7NuzE9tHDByuCh3VWSZRWUf6H2ujsPAgIIz7lGopqJJ9VDsOccpVXKGcNrjOd6F
Zj0dRdaDiu4RvaqWzl+2
=GKmv
-----END PGP SIGNATURE-----
--------------enigA1C0707BD65EEDBEAE77BEA8--
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/jbp4uq$h1e$
Après mes échecs avec OpenOffice - confirmés avec LibreOffice - pour la
récupération de documents .docx, de nouveaux tests m'ont un peu éclairé
sur la possible nature du problème. En deux mots, j'ai essayé d'ouvrir
un fichier de même provenance et acabit, mais beaucoup plus petit. Et
là, Ô surprise, çà a fonctionné avec LibreOffice ! Il s'agissait d'un
tableau Word (format docx) d'une seule page, que j'ai donc pu récupérer
et resauvegarder au format .odt puis .csv après avoir transformé le
tableau en texte. Ensuite, je suis passé au second fichier de la liste,
lequel faisait 165K en l'état, ce qui, une fois décompressé par unzip et
analyse du répertoire généré, faisait environ 8 Mo. Eh bien ce fichier
là s'est également ouvert, après environ deux minutes de moulinage.
C'était également impeccable et j'ai pu resauvegarder comme précédemment
précisé. Le tableau faisait 137 pages. Ensuite, passage au troisième
fichier, de taille 231 Ko, c'est à dire à peine 50% plus gros que le
précédent. C'estoit le fichier que j'avais essayé en premier. Et là
Bernique ! Après 133 minutes, soit plus de deux heures, çà moulinait
toujours et j'ai du faire un killall pour arrèter le processus. Quant au
dernier fichier, d'une taille de 248 Ko, même résultat : toujours rien
après 175 minutes, c'est à dire près de trois heures (il ne s'agissait
donc pas d'un unique fichier possiblement corrompu ; il semble bien que
çà échoue à partir d'une taille limite)
J'attends vos commentaires. Est-ce qu'il manquerait l'activation d'un
système de fichiers temporaires permettant au logiciel de travailler en
swap dans les cas où la mémoire est insuffisante ? Sur ce système, il
semble que je dispose de quelque chose comme 2 Go de RAM.
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/