Cette action est irreversible, confirmez la suppression du commentaire ?
Signaler le commentaire
Veuillez sélectionner un problème
Nudité
Violence
Harcèlement
Fraude
Vente illégale
Discours haineux
Terrorisme
Autre
Nicolas George
ana wrote in message <46b346bb$0$5069$:
j'ai un texte html utf8 mais codé en dur i.e " سنوات طويلة"
Corrigeons :
Déjà, l'écriture correcte est « UTF-8 ».
Ensuite, ce que tu montres ici n'est pas du tout de l'UTF-8. C'est une écriture sous forme d'entités numériques (telles que définies par le SGML ou le XML). Les numéros écrits sont les codes Unicode des caractères. UTF-8 est une manière de représenter ces codes sous la forme d'un ou plusieurs octets chacun. Par exemple, le caractère U+0633 « ARABIC LETTER SEEN », qui en entité numérique s'écrit « س » (ou « س »), se représente en UTF-8 par la succession de deux octets 0xD8 0xB3.
le browser affiche bien du texte en arabe utf8, pas de probleme ;-)
mais je souhaite faire une recherche sur ce texte d'un mot utf8 "ققق " acrit en arabe utf8 mais pas codé en &#xxxx;
Fais lire ton document HTML par une bibliothèque prévue pour lire du HTML ou du XML (personnellement, j'utilise XML::LibXML, mais il y en a d'autre). Cette bibliothèque (si elle est bonne) décodera correctement les entités, et donnera une chaîne de caractères Unicode.
ana wrote in message <46b346bb$0$5069$ba4acef3@news.orange.fr>:
j'ai un texte html utf8 mais codé en dur i.e
" سنوات طويلة"
Corrigeons :
Déjà, l'écriture correcte est « UTF-8 ».
Ensuite, ce que tu montres ici n'est pas du tout de l'UTF-8. C'est une
écriture sous forme d'entités numériques (telles que définies par le SGML ou
le XML). Les numéros écrits sont les codes Unicode des caractères. UTF-8 est
une manière de représenter ces codes sous la forme d'un ou plusieurs octets
chacun. Par exemple, le caractère U+0633 « ARABIC LETTER SEEN », qui en
entité numérique s'écrit « س » (ou « س »), se représente en
UTF-8 par la succession de deux octets 0xD8 0xB3.
le browser affiche bien du texte en arabe utf8, pas de probleme ;-)
mais je souhaite faire une recherche sur ce texte d'un mot utf8 "ققق "
acrit en arabe utf8 mais pas codé en &#xxxx;
Fais lire ton document HTML par une bibliothèque prévue pour lire du HTML ou
du XML (personnellement, j'utilise XML::LibXML, mais il y en a d'autre).
Cette bibliothèque (si elle est bonne) décodera correctement les entités, et
donnera une chaîne de caractères Unicode.
j'ai un texte html utf8 mais codé en dur i.e " سنوات طويلة"
Corrigeons :
Déjà, l'écriture correcte est « UTF-8 ».
Ensuite, ce que tu montres ici n'est pas du tout de l'UTF-8. C'est une écriture sous forme d'entités numériques (telles que définies par le SGML ou le XML). Les numéros écrits sont les codes Unicode des caractères. UTF-8 est une manière de représenter ces codes sous la forme d'un ou plusieurs octets chacun. Par exemple, le caractère U+0633 « ARABIC LETTER SEEN », qui en entité numérique s'écrit « س » (ou « س »), se représente en UTF-8 par la succession de deux octets 0xD8 0xB3.
le browser affiche bien du texte en arabe utf8, pas de probleme ;-)
mais je souhaite faire une recherche sur ce texte d'un mot utf8 "ققق " acrit en arabe utf8 mais pas codé en &#xxxx;
Fais lire ton document HTML par une bibliothèque prévue pour lire du HTML ou du XML (personnellement, j'utilise XML::LibXML, mais il y en a d'autre). Cette bibliothèque (si elle est bonne) décodera correctement les entités, et donnera une chaîne de caractères Unicode.
Conclusion : pour lire votre HTML, il vaut mieux utiliser un vrai parser HTML (par exemple HTML::Parser) qui saura extraire uniquement les noeuds textuels (et non les balises ou attributs) en les convertissant au passage en utf-8 propre et faire la recherche uniquement dans ces noeuds textuels !
-- Paul Gaborit - <http://perso.enstimac.fr/~gaborit/> Perl en français - <http://perl.enstimac.fr/>
Conclusion : pour lire votre HTML, il vaut mieux utiliser un vrai
parser HTML (par exemple HTML::Parser) qui saura extraire uniquement
les noeuds textuels (et non les balises ou attributs) en les
convertissant au passage en utf-8 propre et faire la recherche
uniquement dans ces noeuds textuels !
--
Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>
Perl en français - <http://perl.enstimac.fr/>
Conclusion : pour lire votre HTML, il vaut mieux utiliser un vrai parser HTML (par exemple HTML::Parser) qui saura extraire uniquement les noeuds textuels (et non les balises ou attributs) en les convertissant au passage en utf-8 propre et faire la recherche uniquement dans ces noeuds textuels !
-- Paul Gaborit - <http://perso.enstimac.fr/~gaborit/> Perl en français - <http://perl.enstimac.fr/>
ana
bonsoir,
Ah je vous remercie beaucoup pour votre aide, je m'en suis sortie avec HTML::Entities;
merci aussi pour les explications sur l'UTF-8 ;-)
par contre j'ai decouvert un bug sur mysql, on ne peut pas inserer 2 colonnes en utf-8 j'etais obliger d'inserer une colonne et de faire un update sur la 2me colonne. je vais faire des tests avec un deuxieme exemple et j'enverais un rapport de bug a mysql
merci a vous encors une fois.
bonsoir,
Ah je vous remercie beaucoup pour votre aide,
je m'en suis sortie avec HTML::Entities;
merci aussi pour les explications sur l'UTF-8 ;-)
par contre j'ai decouvert un bug sur mysql,
on ne peut pas inserer 2 colonnes en utf-8
j'etais obliger d'inserer une colonne et de faire un update sur la 2me
colonne.
je vais faire des tests avec un deuxieme exemple et j'enverais un rapport
de bug a mysql
Ah je vous remercie beaucoup pour votre aide, je m'en suis sortie avec HTML::Entities;
merci aussi pour les explications sur l'UTF-8 ;-)
par contre j'ai decouvert un bug sur mysql, on ne peut pas inserer 2 colonnes en utf-8 j'etais obliger d'inserer une colonne et de faire un update sur la 2me colonne. je vais faire des tests avec un deuxieme exemple et j'enverais un rapport de bug a mysql
merci a vous encors une fois.
Paul Gaborit
À (at) 03 Aug 2007 20:40:58 GMT, ana écrivait (wrote):
par contre j'ai decouvert un bug sur mysql, on ne peut pas inserer 2 colonnes en utf-8 j'etais obliger d'inserer une colonne et de faire un update sur la 2me colonne. je vais faire des tests avec un deuxieme exemple et j'enverais un rapport de bug a mysql
Cela m'étonnerait beaucoup que ce bug soit réel !
Faites-vous cela en Perl ? Avec DBI ?
-- Paul Gaborit - <http://perso.enstimac.fr/~gaborit/> Perl en français - <http://perl.enstimac.fr/>
À (at) 03 Aug 2007 20:40:58 GMT,
ana <bidon@wanadoo.fr> écrivait (wrote):
par contre j'ai decouvert un bug sur mysql,
on ne peut pas inserer 2 colonnes en utf-8
j'etais obliger d'inserer une colonne et de faire un update sur la 2me
colonne.
je vais faire des tests avec un deuxieme exemple et j'enverais un rapport
de bug a mysql
Cela m'étonnerait beaucoup que ce bug soit réel !
Faites-vous cela en Perl ? Avec DBI ?
--
Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>
Perl en français - <http://perl.enstimac.fr/>
À (at) 03 Aug 2007 20:40:58 GMT, ana écrivait (wrote):
par contre j'ai decouvert un bug sur mysql, on ne peut pas inserer 2 colonnes en utf-8 j'etais obliger d'inserer une colonne et de faire un update sur la 2me colonne. je vais faire des tests avec un deuxieme exemple et j'enverais un rapport de bug a mysql
Cela m'étonnerait beaucoup que ce bug soit réel !
Faites-vous cela en Perl ? Avec DBI ?
-- Paul Gaborit - <http://perso.enstimac.fr/~gaborit/> Perl en français - <http://perl.enstimac.fr/>