grep - accent

Stephane Dupille

02/02/2006 à 16:17

Comment peut-on faire un grep sur un mot qui a un accent.
Grep "été" texte.txt

Comme ça :
[gimli] ~/Temp> echo "été" > toto
[gimli] ~/Temp> grep été toto
été

En gros ça marche si l'ensemble shell/terminal utilise le même
charset que le fichier.

--
PR> tu es en avance d'un an pour le nouveau millénaire
il me semble que (2000) est bien le nouveau millenaire justement
par contre on change de siecle l'annee prochaine en 2001
-+- kiboot in http://www.le-gnu.net : Émile énerve pour l'an d'Émile.

nicolas_laurent545

02/02/2006 à 18:31

J'ai fait la commande suivante:
[gimli] ~/Temp> grep "été" texte.txt > été.txt
gimli: command not found
C'est quoi gimli ??
Merci de votre aide

lhabert

02/02/2006 à 18:37

:

J'ai fait la commande suivante:
[gimli] ~/Temp> grep "été" texte.txt > été.txt
gimli: command not found
C'est quoi gimli ??
Merci de votre aide

Le monsieur avait copié collé toute la ligne, invite du shell comprise. A
priori, gimli est le nom de sa machine, et il le fait afficher entre
crochets dans son invite, avant le répertoire courant, et le « > » qui
sépare avec la commande qu'il tape. Note que tu dois avoir dans le
répertoire courant un fichier « grep » qui est apparu, à cause du « >
grep »... Tu peux l'effacer.

Pascal Bourguignon

02/02/2006 à 18:41

Stephane Dupille writes:

Comment peut-on faire un grep sur un mot qui a un accent.
Grep "été" texte.txt

Comme ça :
[gimli] ~/Temp> echo "été" > toto
[gimli] ~/Temp> grep été toto
été

En gros ça marche si l'ensemble shell/terminal utilise le même
charset que le fichier.

Mais il faut faire attention au codage du fichier. Par exemple, en
unicode, plusieurs séquences différentes peuvent encoder le même
caractère. Par exemple é peut être codé avec un seul code: #x000E9
ou avec une séquence de deux codes: #x00065 #x00301. Il faut donc que
grep sache lire correctement un encodage unicode et convertir et
comparer correctement les caractères.

--
__Pascal Bourguignon__ http://www.informatimago.com/

WARNING: This product warps space and time in its vicinity.

Vincent Lefevre

03/02/2006 à 00:10

Dans l'article ,
Pascal Bourguignon écrit:

Mais il faut faire attention au codage du fichier. Par exemple, en
unicode, plusieurs séquences différentes peuvent encoder le même
caractère. Par exemple é peut être codé avec un seul code: #x000E9
ou avec une séquence de deux codes: #x00065 #x00301. Il faut donc que
grep sache lire correctement un encodage unicode et convertir et
comparer correctement les caractères.

En plus, le comportement de grep dépend des locales, alors qu'il n'y
a aucune raison que le ou les fichiers soient encodés dans le même
encodage que ce que spécifient les locales (en tout cas aujourd'hui,
dans un monde où les machines sont multi-utilisateurs et/ou sont
connectées en réseau). Bref, pour l'i18n, les fichiers text/plain
sont à bannir (ou passer complètement en UTF-8 uniquement).

--
Vincent Lefèvre - Web: <http://www.vinc17.org/>
100% accessible validated (X)HTML - Blog: <http://www.vinc17.org/blog/>
Work: CR INRIA - computer arithmetic / SPACES project at LORIA

grep - accent

5 réponses

Veuillez sélectionner un problème