Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

docx vers autre format exploitable

12 réponses
Avatar
Bernard
Bonjour à tous,

Je crois que MS a trouvé un moyen - parmi d'autres - pour ennuyer
sérieusement les Linuxiens. Il s'agit du nouveau format 'docx'. A la
lecture des documents trouvés dans les archives des listes Debian, ou
via Google, j'ai trouvé plusieurs solutions, lesquelles paraissent loin
de satisfaire tout le monde ; nombreux sont ceux qui y ont consacré de
nombreuses heures sans trouver de solution qui les satisfassent, sauf à
faire l'acquisition de MS Office 2007 pour récupérer - sous MSWIN - les
documents et les resauvegarder en .doc ou autre.

Pour ma part, je dispose de OO 2.4 sous Lenny... Là, vous allez vous
rhabiller, car il n'y a apparemment aucune possibilité. Sous le PC de
mon association, j'ai OO 3.2 sous Squeeze, lequel est sensé ouvrir les
fichiers .docx. Là dessus, mon fichier .docs fait mine de vouloir
s'ouvrir... mais çà dure indéfiniment... Pour un fichier de moins de 200
Ko, le sablier est toujours actif après 30 minutes !! Un test avec 'top'
me révèle alors que 'soffice.bin' tourne toujours et accapare 100% de la
CPU avec 5.9% de la mémoire vive. J'ai essayé sur plusieurs fichiers,
avec toujours le même résultat. La seule façon d'en sortir est de faire
un KILL sur le PID de soffice.

Alors, après une recherche via Google, j'ai trouvé un outil en ligne à
l'adresse suivante : http://www.conv2pdf.com qui m'a permis de récupérer
ledit fichier .docx au format pdf... A ceci près que le fichier pdf
obtenu, je ne puis rien en faire. Il s'agit d'un tableau, que je
souhaite récupérer au format csv (champs séparés par des point
virgules), mais je ne sais pas faire à partir d'un fichier pdf. J'ai
bien utilisé pdf2txt, mais çà m'a délivré un fichier texte parfaitement
inexploitable (champs séparés non par des tab ou points virgules etc...
mais par de simples espaces, sans compter que ce qui devrait être des
titres de colonnes sont en ligne de texte, et autres détails qui rendent
le texte parfaitement inexploitable pour mon projet.

Existerait il un outil sous Linux qui convertisse les pdf en autre chose
qu'en texte simple ? Ou alors, comment ouvrir, sous Linux, un fichier
.docx et le resauvegarder en un format exploitable ?

Merci d'avance pour votre aide.

Bernard

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/4EDE2164.1070506@teaser.fr

2 réponses

1 2
Avatar
Jean-Yves F. Barbier
On Thu, 08 Dec 2011 22:26:23 +0100
Bernard wrote:

Quant au
dernier fichier, d'une taille de 248 Ko, même résultat : toujou rs rien
après 175 minutes, c'est à dire près de trois heures (il n e s'agissait
donc pas d'un unique fichier possiblement corrompu ; il semble bien que
çà échoue à partir d'une taille limite)

J'attends vos commentaires. Est-ce qu'il manquerait l'activation d'un
système de fichiers temporaires permettant au logiciel de travailler en
swap dans les cas où la mémoire est insuffisante ? Sur ce syst ème, il
semble que je dispose de quelque chose comme 2 Go de RAM.



Pas spécialement, il semble que cela soit un process par itératio ns
sensiblement comparable à ce que ferait un tri bubble où la
progression du temps de traitement est directement proportionnelle
au carré du Nb d'éléments.

C'est soit un défaut d'intégration, soit une obligation, auquel c as
ça limitera toujours la taille max d'un .docx traitable.

--
... the MYSTERIANS are in here with my CORDUROY SOAP DISH!!

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Avatar
Frédéric Massot
Le 08/12/2011 22:26, Bernard a écrit :
Samy Mezani wrote:
Bonjour

le 06/12/2011 15:06, Bernard a écrit:
rhabiller, car il n'y a apparemment aucune possibilité. Sous le PC de
mon association, j'ai OO 3.2 sous Squeeze, lequel est sensé ouvrir les
fichiers .docx. Là dessus, mon fichier .docs fait mine de vouloir
s'ouvrir... mais çà dure indéfiniment... Pour un fichier de moins de 200



Je n'ai pas de souci avec LibreOffice 3.4.4 sous Sid. Je reçois des
docx simples, c'est-à-dire sans mise en page complexe. Quelques
décalages sont à noter mais je peux au moins récupérer le contenu.




Après mes échecs avec OpenOffice - confirmés avec LibreOffice - pour la
récupération de documents .docx, de nouveaux tests m'ont un peu éclairé
sur la possible nature du problème. En deux mots, j'ai essayé d'ouvrir
un fichier de même provenance et acabit, mais beaucoup plus petit. Et
là, Ô surprise, çà a fonctionné avec LibreOffice ! Il s'agissait d'un
tableau Word (format docx) d'une seule page, que j'ai donc pu récupérer
et resauvegarder au format .odt puis .csv après avoir transformé le
tableau en texte. Ensuite, je suis passé au second fichier de la liste,
lequel faisait 165K en l'état, ce qui, une fois décompressé par unzip et
analyse du répertoire généré, faisait environ 8 Mo. Eh bien ce fichier
là s'est également ouvert, après environ deux minutes de moulinage.
C'était également impeccable et j'ai pu resauvegarder comme précédemment
précisé. Le tableau faisait 137 pages. Ensuite, passage au troisième
fichier, de taille 231 Ko, c'est à dire à peine 50% plus gros que le
précédent. C'estoit le fichier que j'avais essayé en premier. Et là
Bernique ! Après 133 minutes, soit plus de deux heures, çà moulinait
toujours et j'ai du faire un killall pour arrèter le processus. Quant au
dernier fichier, d'une taille de 248 Ko, même résultat : toujours rien
après 175 minutes, c'est à dire près de trois heures (il ne s'agissait
donc pas d'un unique fichier possiblement corrompu ; il semble bien que
çà échoue à partir d'une taille limite)



Si le fichier n'est pas confidentiel ou privé, tu peux ouvrir un rapport
de bug sur le bugzilla de LibreOffice :

https://bugs.freedesktop.org

Il y a peut être quelque chose à améliorer.


--
============================================= | FRÉDÉRIC MASSOT |
| http://www.juliana-multimedia.com |
| mailto: |
==========================Þbian=GNU/Linux==
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
1 2