Format texte

Le
John-Pet
Bonjours

je recupere sur internet le code source d'une page HTML

quand je retraite derrière certain caractères ne sont pas lisibles
exemple
Djépi se transforme en Dg@©pi
n° en n&deg

comment faire pour que mon texte soit lisble
une tranformation s'impose , mais laquelle

merci

JP

--
Adresse mail : john-pet@wanadoo.fr
Ceci est une signature automatique de MesNews.
Site : http://www.mesnews.net
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Fred
Le #15398231
Dans : news:,
John-Pet disait :
Bonjours



Bonjour,

je recupere sur internet le code source d'une page HTML

quand je retraite derrière certain caractères ne sont pas lisibles
exemple
Djépi se transforme en Dg@©pi
n° en n&deg

comment faire pour que mon texte soit lisble
une tranformation s'impose , mais laquelle



Deux transformations en fait :

La première concerne le jeu de caractères. Visiblement cette page est en
utf-8. Mais cela peut varier selon les pages et il faudra alors examiner
le contenu pour en extraire le charset.

La deuxième concerne le remplacement des entités html par le caractères
correspondant. Il est d'ailleurs curieux qu'une page en utf-8 utilise
ces entités.
ex :
&eacute; <=> é
&agrave; <=> à
etc ... Fait une recherche sur les entités html ou html entities pour
les retrouver toutes.

Pour le premier point, il faut passer par les API ou reprogrammer un
algorithme de conversion utf-8 -> Unicode
http://www.codyx.org/snippet_ainsi-vers-utf8-vice-versa_54.aspx

--
Fred
http://www.cerber mail.com/?3kA6ftaCvT (enlever l'espace)
John-Pet
Le #15398111
Ok merci Fred
je vais regarder tout çà

JP

Fred a écrit :
Dans : news:,
John-Pet disait :
Bonjours



Bonjour,

je recupere sur internet le code source d'une page HTML

quand je retraite derrière certain caractères ne sont pas lisibles
exemple
Djépi se transforme en Dg@©pi
n° en n&deg

comment faire pour que mon texte soit lisble
une tranformation s'impose , mais laquelle



Deux transformations en fait :

La première concerne le jeu de caractères. Visiblement cette page est en
utf-8. Mais cela peut varier selon les pages et il faudra alors examiner le
contenu pour en extraire le charset.

La deuxième concerne le remplacement des entités html par le caractères
correspondant. Il est d'ailleurs curieux qu'une page en utf-8 utilise ces
entités.
ex :
&eacute; <=> é
&agrave; <=> à
etc ... Fait une recherche sur les entités html ou html entities pour les
retrouver toutes.

Pour le premier point, il faut passer par les API ou reprogrammer un
algorithme de conversion utf-8 -> Unicode
http://www.codyx.org/snippet_ainsi-vers-utf8-vice-versa_54.aspx



--
Adresse mail :
Ceci est une signature automatique de MesNews.
Site : http://www.mesnews.net
Publicité
Poster une réponse
Anonyme