ASCII, iso-8859-x ou UTF-8

Le
Tonton Th
Bonsoir.

J'ai là des fichiers "texte" qui doivent théoriquement être en ascii,
et pas en iso-machin ou utf-42.

Quel est le moyen le plus simple, dans un Unix "générique", et en
utilisant les outils de base, de détecter si ce fichier contient
autre chose que du vrai ascii ?

tTh.

--
Ma coiffeuse est formidable - http://sonia.buvette.org/
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses Page 1 / 2
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Nicolas George
Le #22708421
Tonton Th , dans le message écrit :
Quel est le moyen le plus simple, dans un Unix "générique", et en
utilisant les outils de base, de détecter si ce fichier contient
autre chose que du vrai ascii ?



Euh... grep ?
Damien Wyart
Le #22708411
* Tonton Th
Quel est le moyen le plus simple, dans un Unix "générique", et en
utilisant les outils de base, de détecter si ce fichier contient autre
chose que du vrai ascii ?



Avec "file", sous Linux, cela fonctionne bien.

--
DW
geo cherchetout
Le #22708491
Le 23/10/2010 03:13, *Tonton Th* a écrit fort à propos :
Bonsoir.

J'ai là des fichiers "texte" qui doivent théoriquement être en ascii,
et pas en iso-machin ou utf-42.

Quel est le moyen le plus simple, dans un Unix "générique", et en
utilisant les outils de base, de détecter si ce fichier contient
autre chose que du vrai ascii ?

tTh.




Sous Linux, utrac m'a parfois bien rendu service. http://utrac.sourceforge.net/
Marc
Le #22708631
Tonton Th wrote:

J'ai là des fichiers "texte" qui doivent théoriquement être en ascii,
et pas en iso-machin ou utf-42.

Quel est le moyen le plus simple, dans un Unix "générique", et en
utilisant les outils de base, de détecter si ce fichier contient
autre chose que du vrai ascii ?



Juste pour la diversité des réponses : on peut demander à iconv de
convertir d'ascii en ascii.
Tonton Th
Le #22708951
On 10/23/2010 10:19 AM, Nicolas George wrote:

Quel est le moyen le plus simple, dans un Unix "générique", et en
utilisant les outils de base, de détecter si ce fichier contient
autre chose que du vrai ascii ?



Euh... grep ?



Ah oui, peut-être. Avec une savante combinaison de [:alnum:],
[:cntrl:], [:digit:] et leurs petits camarades. Éventuellement
en remplaçant la locale par C...

--
Ma coiffeuse est formidable - http://sonia.buvette.org/
Tonton Th
Le #22709191
On 10/23/2010 10:19 AM, Damien Wyart wrote:

Quel est le moyen le plus simple, dans un Unix "générique", et en
utilisant les outils de base, de détecter si ce fichier contient autre
chose que du vrai ascii ?



Avec "file", sous Linux, cela fonctionne bien.



Bonne piste, mais est-ce générique ?

--
Ma coiffeuse est formidable - http://sonia.buvette.org/
JKB
Le #22709491
Le Sat, 23 Oct 2010 13:31:36 +0200,
Tonton Th
On 10/23/2010 10:19 AM, Damien Wyart wrote:

Quel est le moyen le plus simple, dans un Unix "générique", et en
utilisant les outils de base, de détecter si ce fichier contient autre
chose que du vrai ascii ?



Avec "file", sous Linux, cela fonctionne bien.



Bonne piste, mais est-ce générique ?



Seulement si tu prends la version de NetBSD qui est la seule patchée
pour tourner partout. Le file de base est un truc moisi avec des tas
de problèmes d'alignement. Dit autrement, ça ne fonctionne que sous
x86 ;-)

JKB

--
Si votre demande me parvient sur carte perforée, je titiouaillerai très
volontiers une réponse...
=> http://grincheux.de-charybde-en-scylla.fr
Nicolas George
Le #22709731
Tonton Th , dans le message écrit :
Ah oui, peut-être. Avec une savante combinaison de [:alnum:],
[:cntrl:], [:digit:] et leurs petits camarades.



'[^ -~]', et tu rajoutes explicitement les caractères de contrôle que tu
veux autoriser dans tes fichiers.

Éventuellement
en remplaçant la locale par C...



Avoir autre chose, à part à la rigueur dans LC_CTYPE et éventuellement dans
LC_MESSAGES si on est mauvais en anglais, c'est de toutes façons du suicide.
Erwan David
Le #22710081
Nicolas George
Tonton Th , dans le message écrit :
Ah oui, peut-être. Avec une savante combinaison de [:alnum:],
[:cntrl:], [:digit:] et leurs petits camarades.



'[^ -~]', et tu rajoutes explicitement les caractères de contrôle que tu
veux autoriser dans tes fichiers.

Éventuellement
en remplaçant la locale par C...



Avoir autre chose, à part à la rigueur dans LC_CTYPE et éventuellement dans
LC_MESSAGES si on est mauvais en anglais, c'est de toutes façons du suicide.



Dans LC_CTIME aussi. J'ai horreur qu'on m'indique 3:00 PM...

--
Le travail n'est pas une bonne chose. Si ça l'était,
les riches l'auraient accaparé
Doug713705
Le #22710171
Dans fr.comp.os.unix Nicolas George nous expliquait:

Tonton Th , dans le message écrit :
Ah oui, peut-être. Avec une savante combinaison de [:alnum:],
[:cntrl:], [:digit:] et leurs petits camarades.



'[^ -~]', et tu rajoutes explicitement les caractères de contrôle que tu
veux autoriser dans tes fichiers.

Éventuellement
en remplaçant la locale par C...



Avoir autre chose, à part à la rigueur dans LC_CTYPE et éventuellement dans
LC_MESSAGES si on est mauvais en anglais, c'est de toutes façons du suicide.



Gnîîî ? Pour quelles raisons ?
Je ne sais pas si mes choix sont judicieux mais quelques arguments
m'aideraient.
Les messages en anglais ne me gênent aucunement mais il faut bien que
quelqu'un lise les versions localisées ;-)

:~$ locale
LANG=fr_FR.UTF-8
LC_CTYPE="fr_FR.UTF-8"
LC_NUMERIC="fr_FR.UTF-8"
LC_TIME="fr_FR.UTF-8"
LC_COLLATE=C
LC_MONETARY="fr_FR.UTF-8"
LC_MESSAGES="fr_FR.UTF-8"
LC_PAPER="fr_FR.UTF-8"
LC_NAME="fr_FR.UTF-8"
LC_ADDRESS="fr_FR.UTF-8"
LC_TELEPHONE="fr_FR.UTF-8"
LC_MEASUREMENT="fr_FR.UTF-8"
LC_IDENTIFICATION="fr_FR.UTF-8"

Alleluïa, je suis encore vivant !

--
@+
Doug - Linux user #307925 - Slackware64 roulaize ;-)
[ Plus ou moins avec une chance de peut-être ]
Publicité
Poster une réponse
Anonyme