Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

docx vers autre format exploitable

12 réponses
Avatar
Bernard
Bonjour à tous,

Je crois que MS a trouvé un moyen - parmi d'autres - pour ennuyer
sérieusement les Linuxiens. Il s'agit du nouveau format 'docx'. A la
lecture des documents trouvés dans les archives des listes Debian, ou
via Google, j'ai trouvé plusieurs solutions, lesquelles paraissent loin
de satisfaire tout le monde ; nombreux sont ceux qui y ont consacré de
nombreuses heures sans trouver de solution qui les satisfassent, sauf à
faire l'acquisition de MS Office 2007 pour récupérer - sous MSWIN - les
documents et les resauvegarder en .doc ou autre.

Pour ma part, je dispose de OO 2.4 sous Lenny... Là, vous allez vous
rhabiller, car il n'y a apparemment aucune possibilité. Sous le PC de
mon association, j'ai OO 3.2 sous Squeeze, lequel est sensé ouvrir les
fichiers .docx. Là dessus, mon fichier .docs fait mine de vouloir
s'ouvrir... mais çà dure indéfiniment... Pour un fichier de moins de 200
Ko, le sablier est toujours actif après 30 minutes !! Un test avec 'top'
me révèle alors que 'soffice.bin' tourne toujours et accapare 100% de la
CPU avec 5.9% de la mémoire vive. J'ai essayé sur plusieurs fichiers,
avec toujours le même résultat. La seule façon d'en sortir est de faire
un KILL sur le PID de soffice.

Alors, après une recherche via Google, j'ai trouvé un outil en ligne à
l'adresse suivante : http://www.conv2pdf.com qui m'a permis de récupérer
ledit fichier .docx au format pdf... A ceci près que le fichier pdf
obtenu, je ne puis rien en faire. Il s'agit d'un tableau, que je
souhaite récupérer au format csv (champs séparés par des point
virgules), mais je ne sais pas faire à partir d'un fichier pdf. J'ai
bien utilisé pdf2txt, mais çà m'a délivré un fichier texte parfaitement
inexploitable (champs séparés non par des tab ou points virgules etc...
mais par de simples espaces, sans compter que ce qui devrait être des
titres de colonnes sont en ligne de texte, et autres détails qui rendent
le texte parfaitement inexploitable pour mon projet.

Existerait il un outil sous Linux qui convertisse les pdf en autre chose
qu'en texte simple ? Ou alors, comment ouvrir, sous Linux, un fichier
.docx et le resauvegarder en un format exploitable ?

Merci d'avance pour votre aide.

Bernard

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/4EDE2164.1070506@teaser.fr

10 réponses

1 2
Avatar
Nicolas Bercher
Bernard a écrit :
Existerait il un outil sous Linux qui convertisse les pdf en autre chose
qu'en texte simple ? Ou alors, comment ouvrir, sous Linux, un fichier
.docx et le resauvegarder en un format exploitable ?



Dans ce genre de cas, je crois qu'une bonne solution (si elle est
possible) serait de demander à l'auteur du fichier docx une version txt
ou autre, surtout s'il s'agit de données tabulées.

Le pire c'est que docx est décrit dans une norme iso, mais que dans la
pratique, il paraît bien difficile d'en faire quelque chose. Pas mal
d'utilisateurs Windows autour de moi ont aussi ce problème.

Il existe aussi le très bon antiword, et peut être qu'il supporte le
docx.

Nicolas

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Avatar
Samy Mezani
Bonjour

le 06/12/2011 15:06, Bernard a écrit:
rhabiller, car il n'y a apparemment aucune possibilité. Sous le PC de
mon association, j'ai OO 3.2 sous Squeeze, lequel est sensé ouvrir les
fichiers .docx. Là dessus, mon fichier .docs fait mine de vouloir
s'ouvrir... mais çà dure indéfiniment... Pour un fichier de moins de 200



Je n'ai pas de souci avec LibreOffice 3.4.4 sous Sid. Je reçois des docx
simples, c'est-à-dire sans mise en page complexe. Quelques décalages
sont à noter mais je peux au moins récupérer le contenu.

Existerait il un outil sous Linux qui convertisse les pdf en autre chose
qu'en texte simple ? Ou alors, comment ouvrir, sous Linux, un fichier



Tu as essayé d'ouvrir le pdf dans LibreOffice Impress voire Inkscape ?

Cordialement,
Samy

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Avatar
C. Mourad Jaber
Bonjour,

Je te conseil le convertisseur suivant : http://katana.oooninja.com/w/

Ou bien de migrer vers LibreOffice 3.3 ou + qui support relativement bien le format docx.

++

Mourad

Le 06/12/2011 15:06, Bernard a écrit :
Bonjour à tous,

Je crois que MS a trouvé un moyen - parmi d'autres - pour ennuyer sérieusement les
Linuxiens. Il s'agit du nouveau format 'docx'. A la lecture des documents trouvés dans
les archives des listes Debian, ou via Google, j'ai trouvé plusieurs solutions,
lesquelles paraissent loin de satisfaire tout le monde ; nombreux sont ceux qui y ont
consacré de nombreuses heures sans trouver de solution qui les satisfassent, sauf à
faire l'acquisition de MS Office 2007 pour récupérer - sous MSWIN - les documents et les
resauvegarder en .doc ou autre.

Pour ma part, je dispose de OO 2.4 sous Lenny... Là, vous allez vous rhabiller, car il
n'y a apparemment aucune possibilité. Sous le PC de mon association, j'ai OO 3.2 sous
Squeeze, lequel est sensé ouvrir les fichiers .docx. Là dessus, mon fichier .docs fait
mine de vouloir s'ouvrir... mais çà dure indéfiniment... Pour un fichier de moins de 200
Ko, le sablier est toujours actif après 30 minutes !! Un test avec 'top' me révèle alors
que 'soffice.bin' tourne toujours et accapare 100% de la CPU avec 5.9% de la mémoire
vive. J'ai essayé sur plusieurs fichiers, avec toujours le même résultat. La seule façon
d'en sortir est de faire un KILL sur le PID de soffice.

Alors, après une recherche via Google, j'ai trouvé un outil en ligne à l'adresse
suivante : http://www.conv2pdf.com qui m'a permis de récupérer ledit fichier .docx au
format pdf... A ceci près que le fichier pdf obtenu, je ne puis rien en faire. Il s'agit
d'un tableau, que je souhaite récupérer au format csv (champs séparés par des point
virgules), mais je ne sais pas faire à partir d'un fichier pdf. J'ai bien utilisé
pdf2txt, mais çà m'a délivré un fichier texte parfaitement inexploitable (champs séparés
non par des tab ou points virgules etc... mais par de simples espaces, sans compter que
ce qui devrait être des titres de colonnes sont en ligne de texte, et autres détails qui
rendent le texte parfaitement inexploitable pour mon projet.

Existerait il un outil sous Linux qui convertisse les pdf en autre chose qu'en texte
simple ? Ou alors, comment ouvrir, sous Linux, un fichier .docx et le resauvegarder en
un format exploitable ?

Merci d'avance pour votre aide.

Bernard




--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Avatar
fabrice régnier
'lut,

Existerait il un outil sous Linux qui convertisse les pdf en autre chose
qu'en texte simple ? Ou alors, comment ouvrir, sous Linux, un fichier
..docx et le resauvegarder en un format exploitable ?


Pour l'instant, aucun fichier docx n'a "résisté" à LibreOffice 3.4.4
(fork d'OO) que j'installe sur les postes utilisateurs.

Merci d'avance pour votre aide.


De rien.

Je précise que je demande systématiquement un fichier dans un format pdf
ou txt à tout interlocuteur m'envoyant les bouses de M$ en signalant que
je ne dispose pas des 700€ nécessaires à l'achat de la licence. Par
ailleurs, je leur fait un petit laius sur Open Office, formats ouverts
versus fermés, toussa. Ok, 90% des interlocuteurs s'en contre-foutent.
Mais je table sur les 10% restant ;)

a+

f.

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/4ede3573$0$2834$
Avatar
moi-meme
Le Tue, 06 Dec 2011 16:10:02 +0100, Samy Mezani a écrit :

Je n'ai pas de souci avec LibreOffice 3.4.4 sous Sid. Je reçois des docx
simples, c'est-à-dire sans mise en page complexe. Quelques décalages
sont à noter mais je peux au moins récupérer le contenu.



+1

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/4ede6c6b$0$20611$
Avatar
Bernard Schoenacker
Le 06 Dec 2011 19:26:35 GMT,
moi-meme a écrit :

Le Tue, 06 Dec 2011 16:10:02 +0100, Samy Mezani a écrit :

> Je n'ai pas de souci avec LibreOffice 3.4.4 sous Sid. Je reçois des
> docx simples, c'est-à-dire sans mise en page complexe. Quelques
> décalages sont à noter mais je peux au moins récupérer le contenu.

+1



bonjour,

j'ai déjà eu quelques document docx et j'ai simplement décompacté
l'archive pour en sortir les données textuelles ....

en général il s'agit d'un volume.zip

slt
bernard

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Avatar
moi-meme
Le Tue, 06 Dec 2011 21:10:01 +0100, Bernard Schoenacker a écrit :

j'ai déjà eu quelques document docx et j'ai simplement décompacté
l'archive pour en sortir les données textuelles ....

en général il s'agit d'un volume.zip



je confirme.
mais il est tellement plus simple d'utiliser libreoffice :-))

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/4edf2485$0$25899$
Avatar
Bernard Schoenacker
Le 07 Dec 2011 08:32:05 GMT,
moi-meme a écrit :

Le Tue, 06 Dec 2011 21:10:01 +0100, Bernard Schoenacker a écrit :

> j'ai déjà eu quelques document docx et j'ai simplement
> décompacté l'archive pour en sortir les données textuelles ....
>
> en général il s'agit d'un volume.zip

je confirme.
mais il est tellement plus simple d'utiliser libreoffice :-))



bonjour,


attention, il n'estr pas toujours possible d'avoir libreoffice
sous la main : cli + ncusres ....


résultat, il faut connaîtres les différentes métodes pouvant
servir à obtenir le document ( format texte ) ...


reste à voir comment remettre en forme un tableur ...


slt
bernard

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Avatar
David Prévot
This is an OpenPGP/MIME signed message (RFC 2440 and 3156)
--------------enigA1C0707BD65EEDBEAE77BEA8
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: quoted-printable

Le 07/12/2011 05:03, Bernard Schoenacker a écrit :
Le 07 Dec 2011 08:32:05 GMT,
moi-meme a écrit :

mais il est tellement plus simple d'utiliser libreoffice :-))





Ça dépend du nombre de document à convertir…

attention, il n'estr pas toujours possible d'avoir libreoffice
sous la main : cli + ncusres ....


résultat, il faut connaîtres les différentes métod es pouvant
servir à obtenir le document ( format texte ) ...



unoconv permet de faire les conversions de formats pris en charge par
libreoffice en ligne de commande.

Amicalement

David


--------------enigA1C0707BD65EEDBEAE77BEA8
Content-Type: application/pgp-signature; name="signature.asc"
Content-Description: OpenPGP digital signature
Content-Disposition: attachment; filename="signature.asc"

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.11 (GNU/Linux)

iQIcBAEBCAAGBQJO4BcZAAoJELgqIXr9/gnyJGsP/irl/IxXPJ0Hs25Omc0BGIMI
KZjKtlv+sNMJJSX40XiMHZHOiZXRqTXWFZfjuOT+4Tfp6uauBvun6ufXbI8dnL+i
7L9ya90gA55NHVWPRVM/dYB/TB+XoW3PcAHlME+Kd2DF3TnhgECiNuJbSrw9ZDwk
cRiLSYuUpMGISOHXcwB7JJ0zaZW4Sz37o7LBkVFGS+eAqgxUJiJC9kfJ09/Gygkx
kkCBGVAcX3T+HV3P4ju+cxZUdN9+p8NebXEPgOpct1LtqZiSSZ3px0RB2BlXqMx6
pWl135bAaAiVGuMY9SQz/OVG2f+1LSeV1XNMAqqRV5EH7cWpRlfTX0oTm1P4L38e
7/eqfjqVb7ywc5KakHvcqY2oD4NJTvYTySiN+HwRRL1fILQRF9vlDzhaDfydLLpN
bTGduRl0+KBvOW/WtAUjsSj3VJ4y0MO60rgsPyNqa1sD/iOstQG2hjU2EFSf5PO5
4+9cFZD8N7QQmmFUptDVud///47GtMH9G6lEhFiStc9mbKVQ6PFSKLa7sZdbDaAZ
vTodmrXlqFl0Yq590xsmVa9UIhGlfwD3pTpqMp6AFSrcTraQ0pdxVGhdtz+Ex/b/
+7NuzE9tHDByuCh3VWSZRWUf6H2ujsPAgIIz7lGopqJJ9VDsOccpVXKGcNrjOd6F
Zj0dRdaDiu4RvaqWzl+2
=GKmv
-----END PGP SIGNATURE-----

--------------enigA1C0707BD65EEDBEAE77BEA8--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/jbp4uq$h1e$
Avatar
Bernard
Samy Mezani wrote:
Bonjour

le 06/12/2011 15:06, Bernard a écrit:
rhabiller, car il n'y a apparemment aucune possibilité. Sous le PC de
mon association, j'ai OO 3.2 sous Squeeze, lequel est sensé ouvrir les
fichiers .docx. Là dessus, mon fichier .docs fait mine de vouloir
s'ouvrir... mais çà dure indéfiniment... Pour un fichier de moins de 200



Je n'ai pas de souci avec LibreOffice 3.4.4 sous Sid. Je reçois des
docx simples, c'est-à-dire sans mise en page complexe. Quelques
décalages sont à noter mais je peux au moins récupérer le contenu.




Après mes échecs avec OpenOffice - confirmés avec LibreOffice - pour la
récupération de documents .docx, de nouveaux tests m'ont un peu éclairé
sur la possible nature du problème. En deux mots, j'ai essayé d'ouvrir
un fichier de même provenance et acabit, mais beaucoup plus petit. Et
là, Ô surprise, çà a fonctionné avec LibreOffice ! Il s'agissait d'un
tableau Word (format docx) d'une seule page, que j'ai donc pu récupérer
et resauvegarder au format .odt puis .csv après avoir transformé le
tableau en texte. Ensuite, je suis passé au second fichier de la liste,
lequel faisait 165K en l'état, ce qui, une fois décompressé par unzip et
analyse du répertoire généré, faisait environ 8 Mo. Eh bien ce fichier
là s'est également ouvert, après environ deux minutes de moulinage.
C'était également impeccable et j'ai pu resauvegarder comme précédemment
précisé. Le tableau faisait 137 pages. Ensuite, passage au troisième
fichier, de taille 231 Ko, c'est à dire à peine 50% plus gros que le
précédent. C'estoit le fichier que j'avais essayé en premier. Et là
Bernique ! Après 133 minutes, soit plus de deux heures, çà moulinait
toujours et j'ai du faire un killall pour arrèter le processus. Quant au
dernier fichier, d'une taille de 248 Ko, même résultat : toujours rien
après 175 minutes, c'est à dire près de trois heures (il ne s'agissait
donc pas d'un unique fichier possiblement corrompu ; il semble bien que
çà échoue à partir d'une taille limite)

J'attends vos commentaires. Est-ce qu'il manquerait l'activation d'un
système de fichiers temporaires permettant au logiciel de travailler en
swap dans les cas où la mémoire est insuffisante ? Sur ce système, il
semble que je dispose de quelque chose comme 2 Go de RAM.

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
1 2