OVH Cloud OVH Cloud

grep - accent

5 réponses
Avatar
nicolas_laurent545
Comment peut-on faire un grep sur un mot qui a un accent.
Grep "=E9t=E9" texte.txt

5 réponses

Avatar
Stephane Dupille
Comment peut-on faire un grep sur un mot qui a un accent.
Grep "été" texte.txt


Comme ça :
[gimli] ~/Temp> echo "été" > toto
[gimli] ~/Temp> grep été toto
été

En gros ça marche si l'ensemble shell/terminal utilise le même
charset que le fichier.


--
PR> tu es en avance d'un an pour le nouveau millénaire
il me semble que (2000) est bien le nouveau millenaire justement
par contre on change de siecle l'annee prochaine en 2001
-+- kiboot in http://www.le-gnu.net : Émile énerve pour l'an d'Émile.

Avatar
nicolas_laurent545
J'ai fait la commande suivante:
[gimli] ~/Temp> grep "été" texte.txt > été.txt
gimli: command not found
C'est quoi gimli ??
Merci de votre aide
Avatar
lhabert
:

J'ai fait la commande suivante:
[gimli] ~/Temp> grep "été" texte.txt > été.txt
gimli: command not found
C'est quoi gimli ??
Merci de votre aide



Le monsieur avait copié collé toute la ligne, invite du shell comprise. A
priori, gimli est le nom de sa machine, et il le fait afficher entre
crochets dans son invite, avant le répertoire courant, et le « > » qui
sépare avec la commande qu'il tape. Note que tu dois avoir dans le
répertoire courant un fichier « grep » qui est apparu, à cause du « >
grep »... Tu peux l'effacer.

Avatar
Pascal Bourguignon
Stephane Dupille writes:

Comment peut-on faire un grep sur un mot qui a un accent.
Grep "été" texte.txt


Comme ça :
[gimli] ~/Temp> echo "été" > toto
[gimli] ~/Temp> grep été toto
été

En gros ça marche si l'ensemble shell/terminal utilise le même
charset que le fichier.


Mais il faut faire attention au codage du fichier. Par exemple, en
unicode, plusieurs séquences différentes peuvent encoder le même
caractère. Par exemple é peut être codé avec un seul code: #x000E9
ou avec une séquence de deux codes: #x00065 #x00301. Il faut donc que
grep sache lire correctement un encodage unicode et convertir et
comparer correctement les caractères.

--
__Pascal Bourguignon__ http://www.informatimago.com/

WARNING: This product warps space and time in its vicinity.


Avatar
Vincent Lefevre
Dans l'article ,
Pascal Bourguignon écrit:

Mais il faut faire attention au codage du fichier. Par exemple, en
unicode, plusieurs séquences différentes peuvent encoder le même
caractère. Par exemple é peut être codé avec un seul code: #x000E9
ou avec une séquence de deux codes: #x00065 #x00301. Il faut donc que
grep sache lire correctement un encodage unicode et convertir et
comparer correctement les caractères.


En plus, le comportement de grep dépend des locales, alors qu'il n'y
a aucune raison que le ou les fichiers soient encodés dans le même
encodage que ce que spécifient les locales (en tout cas aujourd'hui,
dans un monde où les machines sont multi-utilisateurs et/ou sont
connectées en réseau). Bref, pour l'i18n, les fichiers text/plain
sont à bannir (ou passer complètement en UTF-8 uniquement).

--
Vincent Lefèvre - Web: <http://www.vinc17.org/>
100% accessible validated (X)HTML - Blog: <http://www.vinc17.org/blog/>
Work: CR INRIA - computer arithmetic / SPACES project at LORIA