Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

ASCII, iso-8859-x ou UTF-8

18 réponses
Avatar
Tonton Th
Bonsoir.

J'ai là des fichiers "texte" qui doivent théoriquement être en ascii,
et pas en iso-machin ou utf-42.

Quel est le moyen le plus simple, dans un Unix "générique", et en
utilisant les outils de base, de détecter si ce fichier contient
autre chose que du vrai ascii ?

tTh.

--
Ma coiffeuse est formidable - http://sonia.buvette.org/

10 réponses

1 2
Avatar
Nicolas George
Tonton Th , dans le message <4cc236cc$0$3391$, a
écrit :
Quel est le moyen le plus simple, dans un Unix "générique", et en
utilisant les outils de base, de détecter si ce fichier contient
autre chose que du vrai ascii ?



Euh... grep ?
Avatar
Damien Wyart
* Tonton Th in fr.comp.os.unix:
Quel est le moyen le plus simple, dans un Unix "générique", et en
utilisant les outils de base, de détecter si ce fichier contient autre
chose que du vrai ascii ?



Avec "file", sous Linux, cela fonctionne bien.

--
DW
Avatar
geo cherchetout
Le 23/10/2010 03:13, *Tonton Th* a écrit fort à propos :
Bonsoir.

J'ai là des fichiers "texte" qui doivent théoriquement être en ascii,
et pas en iso-machin ou utf-42.

Quel est le moyen le plus simple, dans un Unix "générique", et en
utilisant les outils de base, de détecter si ce fichier contient
autre chose que du vrai ascii ?

tTh.




Sous Linux, utrac m'a parfois bien rendu service. http://utrac.sourceforge.net/
Avatar
Marc
Tonton Th wrote:

J'ai là des fichiers "texte" qui doivent théoriquement être en ascii,
et pas en iso-machin ou utf-42.

Quel est le moyen le plus simple, dans un Unix "générique", et en
utilisant les outils de base, de détecter si ce fichier contient
autre chose que du vrai ascii ?



Juste pour la diversité des réponses : on peut demander à iconv de
convertir d'ascii en ascii.
Avatar
Tonton Th
On 10/23/2010 10:19 AM, Nicolas George wrote:

Quel est le moyen le plus simple, dans un Unix "générique", et en
utilisant les outils de base, de détecter si ce fichier contient
autre chose que du vrai ascii ?



Euh... grep ?



Ah oui, peut-être. Avec une savante combinaison de [:alnum:],
[:cntrl:], [:digit:] et leurs petits camarades. Éventuellement
en remplaçant la locale par C...

--
Ma coiffeuse est formidable - http://sonia.buvette.org/
Avatar
Tonton Th
On 10/23/2010 10:19 AM, Damien Wyart wrote:

Quel est le moyen le plus simple, dans un Unix "générique", et en
utilisant les outils de base, de détecter si ce fichier contient autre
chose que du vrai ascii ?



Avec "file", sous Linux, cela fonctionne bien.



Bonne piste, mais est-ce générique ?

--
Ma coiffeuse est formidable - http://sonia.buvette.org/
Avatar
JKB
Le Sat, 23 Oct 2010 13:31:36 +0200,
Tonton Th écrivait :
On 10/23/2010 10:19 AM, Damien Wyart wrote:

Quel est le moyen le plus simple, dans un Unix "générique", et en
utilisant les outils de base, de détecter si ce fichier contient autre
chose que du vrai ascii ?



Avec "file", sous Linux, cela fonctionne bien.



Bonne piste, mais est-ce générique ?



Seulement si tu prends la version de NetBSD qui est la seule patchée
pour tourner partout. Le file de base est un truc moisi avec des tas
de problèmes d'alignement. Dit autrement, ça ne fonctionne que sous
x86 ;-)

JKB

--
Si votre demande me parvient sur carte perforée, je titiouaillerai très
volontiers une réponse...
=> http://grincheux.de-charybde-en-scylla.fr
Avatar
Nicolas George
Tonton Th , dans le message <4cc2b45f$0$12073$, a
écrit :
Ah oui, peut-être. Avec une savante combinaison de [:alnum:],
[:cntrl:], [:digit:] et leurs petits camarades.



'[^ -~]', et tu rajoutes explicitement les caractères de contrôle que tu
veux autoriser dans tes fichiers.

Éventuellement
en remplaçant la locale par C...



Avoir autre chose, à part à la rigueur dans LC_CTYPE et éventuellement dans
LC_MESSAGES si on est mauvais en anglais, c'est de toutes façons du suicide.
Avatar
Erwan David
Nicolas George <nicolas$ écrivait :

Tonton Th , dans le message <4cc2b45f$0$12073$, a
écrit :
Ah oui, peut-être. Avec une savante combinaison de [:alnum:],
[:cntrl:], [:digit:] et leurs petits camarades.



'[^ -~]', et tu rajoutes explicitement les caractères de contrôle que tu
veux autoriser dans tes fichiers.

Éventuellement
en remplaçant la locale par C...



Avoir autre chose, à part à la rigueur dans LC_CTYPE et éventuellement dans
LC_MESSAGES si on est mauvais en anglais, c'est de toutes façons du suicide.



Dans LC_CTIME aussi. J'ai horreur qu'on m'indique 3:00 PM...

--
Le travail n'est pas une bonne chose. Si ça l'était,
les riches l'auraient accaparé
Avatar
Doug713705
Dans fr.comp.os.unix Nicolas George nous expliquait:

Tonton Th , dans le message <4cc2b45f$0$12073$, a
écrit :
Ah oui, peut-être. Avec une savante combinaison de [:alnum:],
[:cntrl:], [:digit:] et leurs petits camarades.



'[^ -~]', et tu rajoutes explicitement les caractères de contrôle que tu
veux autoriser dans tes fichiers.

Éventuellement
en remplaçant la locale par C...



Avoir autre chose, à part à la rigueur dans LC_CTYPE et éventuellement dans
LC_MESSAGES si on est mauvais en anglais, c'est de toutes façons du suicide.



Gnîîî ? Pour quelles raisons ?
Je ne sais pas si mes choix sont judicieux mais quelques arguments
m'aideraient.
Les messages en anglais ne me gênent aucunement mais il faut bien que
quelqu'un lise les versions localisées ;-)

:~$ locale
LANG=fr_FR.UTF-8
LC_CTYPE="fr_FR.UTF-8"
LC_NUMERIC="fr_FR.UTF-8"
LC_TIME="fr_FR.UTF-8"
LC_COLLATE=C
LC_MONETARY="fr_FR.UTF-8"
LC_MESSAGES="fr_FR.UTF-8"
LC_PAPER="fr_FR.UTF-8"
LC_NAME="fr_FR.UTF-8"
LC_ADDRESS="fr_FR.UTF-8"
LC_TELEPHONE="fr_FR.UTF-8"
LC_MEASUREMENT="fr_FR.UTF-8"
LC_IDENTIFICATION="fr_FR.UTF-8"

Alleluïa, je suis encore vivant !

--
@+
Doug - Linux user #307925 - Slackware64 roulaize ;-)
[ Plus ou moins avec une chance de peut-être ]
1 2