Récupérer le code d'un caractère

2 réponses

31/08/2006 à 10:03

Bonjour, je ne connais pas le Perl, mais je pense que ce sera l'outil
le plus adapté pour une ligne d'un script shell que je suis en train
d'écrire. À un endroit, je dois filtrer la sortie standard du processus
précédent, pour que tout caractère non ASCII (on a affaire à de l'UTF-8)
soit converti en son "numeric character reference" : 葉

Je suppose qu'une seule ligne de commande doit suffire (lancement de perl
y compris), mais je ne sais comment faire. Pouvez-vous m'aider ?

--
dd

2 réponses

Nicolas George

31/08/2006 à 10:34

dd wrote in message <44f697ef$0$7642$:

Bonjour, je ne connais pas le Perl, mais je pense que ce sera l'outil
le plus adapté pour une ligne d'un script shell que je suis en train
d'écrire. À un endroit, je dois filtrer la sortie standard du processus
précédent, pour que tout caractère non ASCII (on a affaire à de l'UTF-8)
soit converti en son "numeric character reference" : 葉

La première chose à faire est de passer l'entrée standard en mode de
conversion UTF-8 -> Unicode :

binmode STDIN, ":utf8";

ensuite, la fonction ord permet d'obtenir le code, et un s/.../.../ge me
semble tout à fait adapté :

s/([^x00-x7E])/sprintf "&#x%04x;", ord $1/ge

Klaus

31/08/2006 à 11:35

dd wrote:

Bonjour, je ne connais pas le Perl,

je propose donc http://perl.enstimac.fr/DocFr/perlintro.html

mais je pense que ce sera l'outil
le plus adaptÃ© pour une ligne d'un script shell que je suis en train
d'Ã©crire. Ã un endroit, je dois filtrer la sortie standard du p rocessus
prÃ©cÃ©dent, pour que tout caractÃ¨re non ASCII

ce sont donc tout caractÃ¨re du code hors de 0..127
( ou en octal: hors de 00..177 )

(on a affaire Ã de l'UTF-8)
soit converti en son "numeric character reference" : 葉

voir http://perldoc.perl.org/perlunicode.html
(je suis dÃ©solÃ©, c'est en VO, je n'ai pas trouvÃ© une traduct ion
franÃ§aise)

Sur mon systÃ¨me Windows XP, j'ai crÃ©Ã© un petit fichier de te st
("data.txt") codÃ© en utf8 sous "notepad.exe". Le type de codage est
inscrit directement dans le fichier "data.txt" (voir dans notepad menu
"File" / "Save As..." / "Encoding UTF-8") --> donc perl sait dÃ©jÃ
l'encodage UTF-8. Sinon, je serais obligÃ© de dire "use encoding
'utf8';" dans mon programme.

Voici le contenu de mon fichier "data.txt":
=======================
ZÐ
I Ð°ÐÐ»
Ð¸CDÃ©#
&Ã§Ã %Ã¹
Â£$Â¨Ã§Ã¯
=======================

Je suppose qu'une seule ligne de commande doit suffire (lancement de perl
y compris), mais je ne sais comment faire. Pouvez-vous m'aider ?

C:>perl -pe "s/[^00-177]/sprintf(q{&#%d;}, ord $&)/ge" data.txt

voici le rÃ©sultat:
=======================
ï»¿ZÐ
I Ð°ÐÐ»
Ð¸CDÃ©#
&Ã§Ã %Ã¹
Â£$Â¨Ã§Ã¯
=======================

voir aussi http://perl.enstimac.fr/DocFr/perlrun.html

Récupérer le code d'un caractère

2 réponses

Veuillez sélectionner un problème