Caract

Le
Lucas Levrel
Bonjour,

Depuis quelques temps je reçois des fichiers – probablement produits sous
Windows ou Office online – où les lettres accentuées sont encodées
bizarrement, par exemple deux octets D0 92 pour é, ou D0 9A pour è. En
utf-8, D0 92 c'est « B majuscule cyrillique », mon système affiche B. En
point de code Unicode, c'est un idéogramme (syllabes Hangul) Avez-vous
une idée du codage utilisé ?

--
LL
Ἕν οἶδα ὅτι οὐδὲν οἶδα (Σωκράτης)
C'est mieux avé les accents (F. Patte)
Vos réponses Page 1 / 3
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Dominique
Le #26490905
Le 02/10/2018 à 17:36, Lucas Levrel a écrit :
Bonjour,

Bonjour,
Avez-vous une idée du codage utilisé ?


Difficile à dire. Il faudrait sans doute tester différents encodages et
trouver celui qui va bien.
Ce problème de codage n'existe que pour certains mails ou pour tous ?
--
Dominique
Courriel : dominique point sextant ate orange en France
Esto quod es
Lucas Levrel
Le #26490944
Le 2 octobre 2018, à 19:01, Dominique a écrit :
Difficile à dire. Il faudrait sans doute tester différents encodages et
trouver celui qui va bien.

OK, mais quoi tester ?
Ce problème de codage n'existe que pour certains mails ou pour tous ?

C'est très épisodique, et je pense que je l'ai aussi rencontré sur des
fichiers téléchargés. À la réflexion c'est peut-être seulement dans des
archives zip : un archiveur moisi sous Windows ?
--
LL
Ἕν οἶδα ὅτι οὐδὲν οἶδα (Σωκράτης)
C'est mieux avé les accents (F. Patte)
Francois Lafont
Le #26490961
Bonjour,
On 10/02/2018 10:54 PM, Lucas Levrel wrote:
OK, mais quoi tester ?

Je vais peut-être dire une bêtise mais, en supposant que ton fichier (avec
son nom étrange) se trouve dans le répertoire /toto/ et qu'il est le seul dans
ce répertoire, un truc du genre ça ne donne pas l'encodage utilisé ?
ls /toto/ > /tmp/f.txt
file /tmp/f.txt
À+
--
François Lafont
JC_Et
Le #26491017
Le 02/10/2018 à 17:36, Lucas Levrel a écrit :
Depuis quelques temps je reçois des fichiers – probablement produits
sous Windows ou Office online – où les lettres accentuées sont encodées
bizarrement,

il existe normalement de règles ou conventions pour les noms de fichiers
- N'utiliser que des chiffres, des lettres NON accentuées et des _
(tirets de soulignement), le tiret simple peut être utilisé mais évitez
dans tous les cas les signes avec accent et caractères spéciaux.
- Ne jamais inclure d'espace dans le nom du fichier.
! mais pour ça il faut que les utilisateurs aient un minimum de
formation de base de l’informatique ;)

--
JC E.
Jean-Baptiste Faure
Le #26491023
Le 02/10/2018 à 22:54, Lucas Levrel a écrit :
Le 2 octobre 2018, à 19:01, Dominique a écrit :
Difficile à dire. Il faudrait sans doute tester différents encodages et
trouver celui qui va bien.

OK, mais quoi tester ?

Et faire un copier-coller de la chaîne de caractères dans un éditeur de
texte qui sait [tenter de] deviner l'encodage utilisé ? JEdit fait ça et
permet de rouvrir le fichier avec l'encodage de son choix.
--
Seuls des formats ouverts peuvent assurer la pérennité de vos documents
Fran=c3=a7ois Patte
Le #26491022
Le 03/10/2018 à 10:35, JC_Et a écrit :
Le 02/10/2018 à 17:36, Lucas Levrel a écrit :
Depuis quelques temps je reçois des fichiers – probablement produits
sous Windows ou Office online – où les lettres accentuées sont
encodées bizarrement,

il existe normalement de règles ou conventions pour les noms de fichiers
- N'utiliser que des chiffres, des lettres NON accentuées et des _
(tirets de soulignement), le tiret simple peut être utilisé mais évitez
dans tous les cas les signes avec accent et caractères spéciaux.
- Ne jamais inclure d'espace dans le nom du fichier.
! mais pour ça il faut que les utilisateurs aient un minimum de
formation de base de l’informatique ;)

Ces règles et conventions ne sont-elles pas en train d'évoluer? Sous
linux, la variable LANG positionnée sur Fr_fr-utf8, utiliser des lettres
accentuées dans le nom de fichiers ne pose auncun problèmes, sur l'ordi
avec lequel ils ont été créés et dans des échanges avec d'autres ordi
configurés de même ou avec des macs.
Pour les espaces, les dernières version de linux acceptent les espaces
dans les noms fichiers: la commande ls entoure le nom d'un fichier dont
le nom contient des espaces, avec de simples quotes et si le nom
contient une apostrophe (l'aventure) une double quote.
La touche tab complète très bien les noms de fichiers comportant une espace.



--
François Patte
Université Paris Descartes
Lucas Levrel
Le #26491085
Le 3 octobre 2018, à 00:13, Francois Lafont a écrit :
On 10/02/2018 10:54 PM, Lucas Levrel wrote:
OK, mais quoi tester ?

Je vais peut-être dire une bêtise mais, en supposant que ton fichier (avec
son nom étrange) se trouve dans le répertoire /toto/ et qu'il est le seul
dans
ce répertoire, un truc du genre ça ne donne pas l'encodage utilisé ?
ls /toto/ > /tmp/f.txt
file /tmp/f.txt

Merci, bonne idée mais ça donne UTF-8.
--
LL
Ἕν οἶδα ὅτι οὐδὲν οἶδα (Σωκράτης)
C'est mieux avé les accents (F. Patte)
Lucas Levrel
Le #26491084
Le 3 octobre 2018, à 11:01, Jean-Baptiste Faure a écrit :
Le 02/10/2018 à 22:54, Lucas Levrel a écrit :
Le 2 octobre 2018, à 19:01, Dominique a écrit :
Difficile à dire. Il faudrait sans doute tester différents encodages et
trouver celui qui va bien.

OK, mais quoi tester ?

Et faire un copier-coller de la chaîne de caractères dans un éditeur de
texte qui sait [tenter de] deviner l'encodage utilisé ? JEdit fait ça et
permet de rouvrir le fichier avec l'encodage de son choix.

Emacs pense que c'est de l'UTF-8. Leafpad aussi. Sous Emacs il y a
foultitude d'encodages connus, mais qu'essayer ? Si quelqu'un a des idées
de codage multi-octets...
--
LL
Ἕν οἶδα ὅτι οὐδὲν οἶδα (Σωκράτης)
C'est mieux avé les accents (F. Patte)
Doug713705
Le #26491089
Le 2018-10-03, Lucas Levrel nous expliquait dans
fr.comp.os.linux.configuration
(
Le 3 octobre 2018, à 00:13, Francois Lafont a écrit :
On 10/02/2018 10:54 PM, Lucas Levrel wrote:
OK, mais quoi tester ?

Je vais peut-être dire une bêtise mais, en supposant que ton fichier (avec
son nom étrange) se trouve dans le répertoire /toto/ et qu'il est le seul
dans
ce répertoire, un truc du genre ça ne donne pas l'encodage utilisé ?
ls /toto/ > /tmp/f.txt
file /tmp/f.txt

Merci, bonne idée mais ça donne UTF-8.

Sauf que tu viensi probablement de tester l'encodage de la sortie de ls et non pas
l'encodage du nom de fichier.
Il me semble que si ton environnement étais configuré en ISO8859-15 tu aurais obtenu
iso-8859-15.
À vérifier.
--
Je ne connaîtrai rien de tes habitudes
Il se peut même que tu sois décédée
Mais j'demanderai ta main pour la couper
-- H.F. Thiéfaine, L'ascenceur de 22H43
Fran=c3=a7ois Patte
Le #26491145
Le 03/10/2018 à 14:26, Lucas Levrel a écrit :
Le 3 octobre 2018, à 11:01, Jean-Baptiste Faure a écrit :
Le 02/10/2018 à 22:54, Lucas Levrel a écrit :
Le 2 octobre 2018, à 19:01, Dominique a écrit :
Difficile à dire. Il faudrait sans doute tester différents encodages et
trouver celui qui va bien.

OK, mais quoi tester ?

Et faire un copier-coller de la chaîne de caractères dans un éditeur de
texte qui sait [tenter de] deviner l'encodage utilisé ? JEdit fait ça et
permet de rouvrir le fichier avec l'encodage de son choix.

Emacs pense que c'est de l'UTF-8. Leafpad aussi. Sous Emacs il y a
foultitude d'encodages connus, mais qu'essayer ?

Alt-x <ret> describe char <ret>
Peut-être....
--
François Patte
Université Paris Descartes
Publicité
Poster une réponse
Anonyme