utf8

Nicolas George

03/08/2007 à 18:04

ana wrote in message <46b346bb$0$5069$:

j'ai un texte html utf8 mais codé en dur i.e
" سنوات طويلة"

Corrigeons :

Déjà, l'écriture correcte est « UTF-8 ».

Ensuite, ce que tu montres ici n'est pas du tout de l'UTF-8. C'est une
écriture sous forme d'entités numériques (telles que définies par le SGML ou
le XML). Les numéros écrits sont les codes Unicode des caractères. UTF-8 est
une manière de représenter ces codes sous la forme d'un ou plusieurs octets
chacun. Par exemple, le caractère U+0633 « ARABIC LETTER SEEN », qui en
entité numérique s'écrit « س » (ou « س »), se représente en
UTF-8 par la succession de deux octets 0xD8 0xB3.

le browser affiche bien du texte en arabe utf8, pas de probleme ;-)

mais je souhaite faire une recherche sur ce texte d'un mot utf8 "ققق "
acrit en arabe utf8 mais pas codé en &#xxxx;

Fais lire ton document HTML par une bibliothèque prévue pour lire du HTML ou
du XML (personnellement, j'utilise XML::LibXML, mais il y en a d'autre).
Cette bibliothèque (si elle est bonne) décodera correctement les entités, et
donnera une chaîne de caractères Unicode.

Paul Gaborit

03/08/2007 à 18:22

Ã (at) 03 Aug 2007 15:16:11 GMT,
ana Ã©crivait (wrote):

j'ai un texte html utf8 mais codÃ© en dur i.e
" سنوات طويلة"

Que le HTML soit encodÃ© ou non en utf-8 importe peu s'il n'utilise que
des entitÃ©s (nommÃ©es ou, comme ici, numÃ©riques).

Si il est effectivement encodÃ© en utf-8, pouquoi y mettre des
entitÃ©s ? Pourquoi ne pas utiliser directement les caractÃ¨res utf -8
correspondant ?

Le mieux serait de changer la maniÃ¨re dont ce HTML est gÃ©nÃ©r Ã©.

le browser affiche bien du texte en arabe utf8, pas de probleme ;-)

Encore heureux ! ;-)

mais je souhaite faire une recherche sur ce texte d'un mot utf8 "Ù ÙÙ "
Ã©crit en arabe utf8 mais pas codÃ© en &#xxxx;

Je n'ai pas rÃ©ussi Ã voir votre mot avec la police que j'utilise
actuellement. Mais je vous fais confiance sur le fait que c'est bien
de l'arabe ! ;-)

Gardez ce mot en utf-8. Il est trÃ¨s bien comme Ã§a.

voila j'ai essaye plusisers methode mais aucune qui marche.
si quelqu'un pourait m'aider ca serait tres cool.

enfin il y'a deus facon de faire:
transformer le texte en vrai arabe

C'est la bonne mÃ©thode.

ou
transformer le mot en utf8 code &#xxxx;

Non !!!

mais je ne sais pas comment.

(Je pensais que le CHECK Encode::FB_HTMLCREF savait dÃ©coder les
entitÃ©s puisqu'il sait les produire, mais je n'ai pas rÃ©ussi Ã le
faire marcher dans l'autre sens.)

On peut le faire "Ã la main" en utilisant les expressions
rationnelles. En supposant que $html contient le flot d'octets de
votre text HTML :

(my $text = $html) =~ s/&#(d+);/chr($1)/ge;
# $text contient de vrais caractÃ¨res en utf-8

Mais pour Ãªtre sÃ»r de traiter tous les cas (les entitÃ©s nomm Ã©es en
particulier), il vaut mieux utiliser HTML::Entities :

use HTML::Entities;

my $text = decode_entities($html);
# $text contient de vrais caractÃ¨res en utf-8

Mais il reste encore un problÃ¨me : toutes les entitÃ©s sont alors
dÃ©codÃ©es mÃªme les > et autres "... Ce qui fait que v otre HTML
n'est plus valide. Il ne faudrait donc conserver les entitÃ©s de base
(&, <, >, ", ') telles quelles mais HTML::Entities ne le permet pas.

Conclusion : pour lire votre HTML, il vaut mieux utiliser un vrai
parser HTML (par exemple HTML::Parser) qui saura extraire uniquement
les noeuds textuels (et non les balises ou attributs) en les
convertissant au passage en utf-8 propre et faire la recherche
uniquement dans ces noeuds textuels !

--
Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>
Perl en franÃ§ais - <http://perl.enstimac.fr/>

Ã (at) 03 Aug 2007 15:16:11 GMT,
ana <bidon@wanadoo.fr> Ã©crivait (wrote):

j'ai un texte html utf8 mais codÃ© en dur i.e
" سنوات طويلة"

Que le HTML soit encodÃ© ou non en utf-8 importe peu s'il n'utilise que
des entitÃ©s (nommÃ©es ou, comme ici, numÃ©riques).

Si il est effectivement encodÃ© en utf-8, pouquoi y mettre des
entitÃ©s ? Pourquoi ne pas utiliser directement les caractÃ¨res utf -8
correspondant ?

Le mieux serait de changer la maniÃ¨re dont ce HTML est gÃ©nÃ©r Ã©.

le browser affiche bien du texte en arabe utf8, pas de probleme ;-)

Encore heureux ! ;-)

mais je souhaite faire une recherche sur ce texte d'un mot utf8 "Ù ÙÙ "
Ã©crit en arabe utf8 mais pas codÃ© en &#xxxx;

Je n'ai pas rÃ©ussi Ã voir votre mot avec la police que j'utilise
actuellement. Mais je vous fais confiance sur le fait que c'est bien
de l'arabe ! ;-)

Gardez ce mot en utf-8. Il est trÃ¨s bien comme Ã§a.

voila j'ai essaye plusisers methode mais aucune qui marche.
si quelqu'un pourait m'aider ca serait tres cool.

enfin il y'a deus facon de faire:
transformer le texte en vrai arabe

C'est la bonne mÃ©thode.

ou
transformer le mot en utf8 code &#xxxx;

Non !!!

mais je ne sais pas comment.

(Je pensais que le CHECK Encode::FB_HTMLCREF savait dÃ©coder les
entitÃ©s puisqu'il sait les produire, mais je n'ai pas rÃ©ussi Ã le
faire marcher dans l'autre sens.)

On peut le faire "Ã la main" en utilisant les expressions
rationnelles. En supposant que $html contient le flot d'octets de
votre text HTML :

(my $text = $html) =~ s/&#(d+);/chr($1)/ge;
# $text contient de vrais caractÃ¨res en utf-8

Mais pour Ãªtre sÃ»r de traiter tous les cas (les entitÃ©s nomm Ã©es en
particulier), il vaut mieux utiliser HTML::Entities :

use HTML::Entities;

my $text = decode_entities($html);
# $text contient de vrais caractÃ¨res en utf-8

Mais il reste encore un problÃ¨me : toutes les entitÃ©s sont alors
dÃ©codÃ©es mÃªme les > et autres "... Ce qui fait que v otre HTML
n'est plus valide. Il ne faudrait donc conserver les entitÃ©s de base
(&, <, >, ", ') telles quelles mais HTML::Entities ne le permet pas.

Conclusion : pour lire votre HTML, il vaut mieux utiliser un vrai
parser HTML (par exemple HTML::Parser) qui saura extraire uniquement
les noeuds textuels (et non les balises ou attributs) en les
convertissant au passage en utf-8 propre et faire la recherche
uniquement dans ces noeuds textuels !

--
Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>
Perl en franÃ§ais - <http://perl.enstimac.fr/>

Vous avez filtré cet utilisateur ! Consultez son message

Ã (at) 03 Aug 2007 15:16:11 GMT,
ana Ã©crivait (wrote):

j'ai un texte html utf8 mais codÃ© en dur i.e
" سنوات طويلة"

Que le HTML soit encodÃ© ou non en utf-8 importe peu s'il n'utilise que
des entitÃ©s (nommÃ©es ou, comme ici, numÃ©riques).

Si il est effectivement encodÃ© en utf-8, pouquoi y mettre des
entitÃ©s ? Pourquoi ne pas utiliser directement les caractÃ¨res utf -8
correspondant ?

Le mieux serait de changer la maniÃ¨re dont ce HTML est gÃ©nÃ©r Ã©.

le browser affiche bien du texte en arabe utf8, pas de probleme ;-)

Encore heureux ! ;-)

mais je souhaite faire une recherche sur ce texte d'un mot utf8 "Ù ÙÙ "
Ã©crit en arabe utf8 mais pas codÃ© en &#xxxx;

Je n'ai pas rÃ©ussi Ã voir votre mot avec la police que j'utilise
actuellement. Mais je vous fais confiance sur le fait que c'est bien
de l'arabe ! ;-)

Gardez ce mot en utf-8. Il est trÃ¨s bien comme Ã§a.

voila j'ai essaye plusisers methode mais aucune qui marche.
si quelqu'un pourait m'aider ca serait tres cool.

enfin il y'a deus facon de faire:
transformer le texte en vrai arabe

ou
transformer le mot en utf8 code &#xxxx;

Non !!!

mais je ne sais pas comment.

(Je pensais que le CHECK Encode::FB_HTMLCREF savait dÃ©coder les
entitÃ©s puisqu'il sait les produire, mais je n'ai pas rÃ©ussi Ã le
faire marcher dans l'autre sens.)

On peut le faire "Ã la main" en utilisant les expressions
rationnelles. En supposant que $html contient le flot d'octets de
votre text HTML :

(my $text = $html) =~ s/&#(d+);/chr($1)/ge;
# $text contient de vrais caractÃ¨res en utf-8

Mais pour Ãªtre sÃ»r de traiter tous les cas (les entitÃ©s nomm Ã©es en
particulier), il vaut mieux utiliser HTML::Entities :

use HTML::Entities;

my $text = decode_entities($html);
# $text contient de vrais caractÃ¨res en utf-8

Mais il reste encore un problÃ¨me : toutes les entitÃ©s sont alors
dÃ©codÃ©es mÃªme les > et autres "... Ce qui fait que v otre HTML
n'est plus valide. Il ne faudrait donc conserver les entitÃ©s de base
(&, <, >, ", ') telles quelles mais HTML::Entities ne le permet pas.

Conclusion : pour lire votre HTML, il vaut mieux utiliser un vrai
parser HTML (par exemple HTML::Parser) qui saura extraire uniquement
les noeuds textuels (et non les balises ou attributs) en les
convertissant au passage en utf-8 propre et faire la recherche
uniquement dans ces noeuds textuels !

--
Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>
Perl en franÃ§ais - <http://perl.enstimac.fr/>

ana

03/08/2007 à 22:40

bonsoir,

Ah je vous remercie beaucoup pour votre aide,
je m'en suis sortie avec HTML::Entities;

merci aussi pour les explications sur l'UTF-8 ;-)

par contre j'ai decouvert un bug sur mysql,
on ne peut pas inserer 2 colonnes en utf-8
j'etais obliger d'inserer une colonne et de faire un update sur la 2me
colonne.
je vais faire des tests avec un deuxieme exemple et j'enverais un rapport
de bug a mysql

merci a vous encors une fois.

Paul Gaborit

03/08/2007 à 23:39

À (at) 03 Aug 2007 20:40:58 GMT,
ana écrivait (wrote):

par contre j'ai decouvert un bug sur mysql,
on ne peut pas inserer 2 colonnes en utf-8
j'etais obliger d'inserer une colonne et de faire un update sur la 2me
colonne.
je vais faire des tests avec un deuxieme exemple et j'enverais un rapport
de bug a mysql

Cela m'étonnerait beaucoup que ce bug soit réel !

Faites-vous cela en Perl ? Avec DBI ?

--
Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>
Perl en français - <http://perl.enstimac.fr/>

utf8

4 réponses

Veuillez sélectionner un problème