Bonjour,
J'utilise html::tagparser pour obtenir des mots arabes codé en utf8 (je test avec IsUTF8 pour vérifier), je veux les convertir en ISO-8859-1 (caractères arabes codés par &#NNNN; ou NNNN sont des décimal).
J'ai essayé:
encode('utf8', $string, Encode::FB_HTMLCREF); ça donne de caractères différents de &#NNNN (j'utilise un print simple de perl);
encode('ascii', $string, Encode::FB_HTMLCREF); ça donne des caractères &#NNN qui ne sont pas de l'arabe!
Cette action est irreversible, confirmez la suppression du commentaire ?
Signaler le commentaire
Veuillez sélectionner un problème
Nudité
Violence
Harcèlement
Fraude
Vente illégale
Discours haineux
Terrorisme
Autre
Nicolas George
elho wrote in message :
J'utilise html::tagparser pour obtenir des mots arabes codé en utf8 (je test avec IsUTF8 pour vérifier), je veux les convertir en ISO-8859-1 (caractères arabes codés par &#NNNN; ou NNNN sont des décimal).
Ça n'a rien à voir avec de l'ISO-8859-1, c'est un codage des caractères type HTML/XML, qui a lieu au niveau au dessus dans la couche des protocoles.
encode('ascii', $string, Encode::FB_HTMLCREF); ça donne des caractères &#NNN qui ne sont pas de l'arabe!
Ça devrait marcher, pourtant.
elho wrote in message <9YqdnbC-XNnc1dvU4p2dnAA@giganews.com>:
J'utilise html::tagparser pour obtenir des mots arabes codé en utf8 (je test
avec IsUTF8 pour vérifier), je veux les convertir en ISO-8859-1 (caractères
arabes codés par &#NNNN; ou NNNN sont des décimal).
Ça n'a rien à voir avec de l'ISO-8859-1, c'est un codage des caractères type
HTML/XML, qui a lieu au niveau au dessus dans la couche des protocoles.
encode('ascii', $string, Encode::FB_HTMLCREF); ça donne des caractères &#NNN
qui ne sont pas de l'arabe!
J'utilise html::tagparser pour obtenir des mots arabes codé en utf8 (je test avec IsUTF8 pour vérifier), je veux les convertir en ISO-8859-1 (caractères arabes codés par &#NNNN; ou NNNN sont des décimal).
Ça n'a rien à voir avec de l'ISO-8859-1, c'est un codage des caractères type HTML/XML, qui a lieu au niveau au dessus dans la couche des protocoles.
encode('ascii', $string, Encode::FB_HTMLCREF); ça donne des caractères &#NNN qui ne sont pas de l'arabe!
Ça devrait marcher, pourtant.
Paul Gaborit
À (at) 15 Dec 2008 14:53:03 GMT, Nicolas George <nicolas$ écrivait (wrote):
elho wrote in message :
J'utilise html::tagparser pour obtenir des mots arabes codé en utf8 (je test avec IsUTF8 pour vérifier), je veux les convertir en ISO-8859-1 (caractères arabes codés par &#NNNN; ou NNNN sont des décimal).
Ça n'a rien à voir avec de l'ISO-8859-1, c'est un codage des caractères type HTML/XML, qui a lieu au niveau au dessus dans la couche des protocoles.
Tout à fait d'accord.
encode('ascii', $string, Encode::FB_HTMLCREF); ça donne des caractères &#NNN qui ne sont pas de l'arabe!
Ça devrait marcher, pourtant.
En théorie oui. Mais il y a quelques temps (un ou deux ans), j'avais constaté quelques dysfonctionnements avec Encode::FB_HTMLCREF ou son pendant XML (qui ont peut-être été corrigés dans les versions récentes de Perl).
Peut-on voir un bout de code qui ne fonctionne pas et savoir sur quelle version de Perl ça ne marche pas ?
-- Paul Gaborit - <http://perso.enstimac.fr/~gaborit/> Perl en français - <http://perl.enstimac.fr/>
À (at) 15 Dec 2008 14:53:03 GMT,
Nicolas George <nicolas$george@salle-s.org> écrivait (wrote):
elho wrote in message <9YqdnbC-XNnc1dvU4p2dnAA@giganews.com>:
J'utilise html::tagparser pour obtenir des mots arabes codé en utf8 (je test
avec IsUTF8 pour vérifier), je veux les convertir en ISO-8859-1 (caractères
arabes codés par &#NNNN; ou NNNN sont des décimal).
Ça n'a rien à voir avec de l'ISO-8859-1, c'est un codage des caractères type
HTML/XML, qui a lieu au niveau au dessus dans la couche des protocoles.
Tout à fait d'accord.
encode('ascii', $string, Encode::FB_HTMLCREF); ça donne des caractères &#NNN
qui ne sont pas de l'arabe!
Ça devrait marcher, pourtant.
En théorie oui. Mais il y a quelques temps (un ou deux ans), j'avais
constaté quelques dysfonctionnements avec Encode::FB_HTMLCREF ou son
pendant XML (qui ont peut-être été corrigés dans les versions récentes
de Perl).
Peut-on voir un bout de code qui ne fonctionne pas et savoir sur
quelle version de Perl ça ne marche pas ?
--
Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>
Perl en français - <http://perl.enstimac.fr/>
À (at) 15 Dec 2008 14:53:03 GMT, Nicolas George <nicolas$ écrivait (wrote):
elho wrote in message :
J'utilise html::tagparser pour obtenir des mots arabes codé en utf8 (je test avec IsUTF8 pour vérifier), je veux les convertir en ISO-8859-1 (caractères arabes codés par &#NNNN; ou NNNN sont des décimal).
Ça n'a rien à voir avec de l'ISO-8859-1, c'est un codage des caractères type HTML/XML, qui a lieu au niveau au dessus dans la couche des protocoles.
Tout à fait d'accord.
encode('ascii', $string, Encode::FB_HTMLCREF); ça donne des caractères &#NNN qui ne sont pas de l'arabe!
Ça devrait marcher, pourtant.
En théorie oui. Mais il y a quelques temps (un ou deux ans), j'avais constaté quelques dysfonctionnements avec Encode::FB_HTMLCREF ou son pendant XML (qui ont peut-être été corrigés dans les versions récentes de Perl).
Peut-on voir un bout de code qui ne fonctionne pas et savoir sur quelle version de Perl ça ne marche pas ?
-- Paul Gaborit - <http://perso.enstimac.fr/~gaborit/> Perl en français - <http://perl.enstimac.fr/>
elho
Paul Gaborit a écrit le 15/12/2008 à 18h37 :
À (at) 15 Dec 2008 14:53:03 GMT, Nicolas George <nicolas$ écrivait (wrote):
elho wrote in message :
J'utilise html::tagparser pour obtenir des mots arabes codé en utf8 (je test avec IsUTF8 pour vérifier), je veux les convertir en ISO-8859-1 (caractères arabes codés par &#NNNN; ou NNNN sont des décimal).
Ça n'a rien à voir avec de l'ISO-8859-1, c'est un codage des caractères type HTML/XML, qui a lieu au niveau au dessus dans la couche des protocoles.
Tout à fait d'accord.
encode('ascii', $string, Encode::FB_HTMLCREF); ça donne des caractères &#NNN qui ne sont pas de l'arabe!
Ça devrait marcher, pourtant.
En théorie oui. Mais il y a quelques temps (un ou deux ans), j'avais constaté quelques dysfonctionnements avec Encode::FB_HTMLCREF ou son pendant XML (qui ont peut-être été corrigés dans les versions récentes de Perl).
Peut-on voir un bout de code qui ne fonctionne pas et savoir sur quelle version de Perl ça ne marche pas ?
-- Paul Gaborit - <http://perso.enstimac.fr/~gaborit/> Perl en français - <http://perl.enstimac.fr/>
Votre aide est précieuse, merci. Voici le bout de code qui me tracasse:
use URI::Fetch; use html::tagparser; use IsUTF8;
#ici j'obtient le titre d'une page enutilisant HTML::TagParser
$url = "http://localhost/rossoum.html"; my $html = HTML::TagParser->new( $url ); my @list = $html->getElementsByTagName( "title" ); foreach my $elem ( @list ) { my $tagname = $elem->tagName; my $attr = $elem->attributes; my $text = $elem->innerText; $title = $text; }
#ici je teste ke c'est du utf-8 print IsUTF8::isUTF8($title);
À (at) 15 Dec 2008 14:53:03 GMT,
Nicolas George <nicolas$ écrivait (wrote):
elho wrote in message :
J'utilise html::tagparser pour obtenir des mots arabes codé en utf8
(je test
avec IsUTF8 pour vérifier), je veux les convertir en ISO-8859-1
(caractères
arabes codés par &#NNNN; ou NNNN sont des décimal).
Ça n'a rien à voir avec de l'ISO-8859-1, c'est un codage des
caractères type
HTML/XML, qui a lieu au niveau au dessus dans la couche des protocoles.
Tout à fait d'accord.
encode('ascii', $string, Encode::FB_HTMLCREF); ça donne des
caractères &#NNN
qui ne sont pas de l'arabe!
Ça devrait marcher, pourtant.
En théorie oui. Mais il y a quelques temps (un ou deux ans), j'avais
constaté quelques dysfonctionnements avec Encode::FB_HTMLCREF ou son
pendant XML (qui ont peut-être été corrigés dans les
versions récentes
de Perl).
Peut-on voir un bout de code qui ne fonctionne pas et savoir sur
quelle version de Perl ça ne marche pas ?
--
Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>
Perl en français - <http://perl.enstimac.fr/>
Votre aide est précieuse, merci. Voici le bout de code qui me tracasse:
use URI::Fetch;
use html::tagparser;
use IsUTF8;
#ici j'obtient le titre d'une page enutilisant HTML::TagParser
$url = "http://localhost/rossoum.html";
my $html = HTML::TagParser->new( $url );
my @list = $html->getElementsByTagName( "title" );
foreach my $elem ( @list )
{
my $tagname = $elem->tagName;
my $attr = $elem->attributes;
my $text = $elem->innerText;
$title = $text;
}
#ici je teste ke c'est du utf-8
print IsUTF8::isUTF8($title);
À (at) 15 Dec 2008 14:53:03 GMT, Nicolas George <nicolas$ écrivait (wrote):
elho wrote in message :
J'utilise html::tagparser pour obtenir des mots arabes codé en utf8 (je test avec IsUTF8 pour vérifier), je veux les convertir en ISO-8859-1 (caractères arabes codés par &#NNNN; ou NNNN sont des décimal).
Ça n'a rien à voir avec de l'ISO-8859-1, c'est un codage des caractères type HTML/XML, qui a lieu au niveau au dessus dans la couche des protocoles.
Tout à fait d'accord.
encode('ascii', $string, Encode::FB_HTMLCREF); ça donne des caractères &#NNN qui ne sont pas de l'arabe!
Ça devrait marcher, pourtant.
En théorie oui. Mais il y a quelques temps (un ou deux ans), j'avais constaté quelques dysfonctionnements avec Encode::FB_HTMLCREF ou son pendant XML (qui ont peut-être été corrigés dans les versions récentes de Perl).
Peut-on voir un bout de code qui ne fonctionne pas et savoir sur quelle version de Perl ça ne marche pas ?
-- Paul Gaborit - <http://perso.enstimac.fr/~gaborit/> Perl en français - <http://perl.enstimac.fr/>
Votre aide est précieuse, merci. Voici le bout de code qui me tracasse:
use URI::Fetch; use html::tagparser; use IsUTF8;
#ici j'obtient le titre d'une page enutilisant HTML::TagParser
$url = "http://localhost/rossoum.html"; my $html = HTML::TagParser->new( $url ); my @list = $html->getElementsByTagName( "title" ); foreach my $elem ( @list ) { my $tagname = $elem->tagName; my $attr = $elem->attributes; my $text = $elem->innerText; $title = $text; }
#ici je teste ke c'est du utf-8 print IsUTF8::isUTF8($title);