GNT sans publicité, site mobile, fonctionnalitées exclusives...

deviner le charset d'un fichier html local

Le
pere.noel
j'ai une petite appli qui transforme des fichiers html locaux :

html -> xhtml -> ajout d'un menu -> publication (en xhtml mais avec
l'extension html.

bon, la conversion html -> xhtml se fait par tidy, à qui je dois donner
le charset entrant (en sortie je bascule tout en UTF-8)

là j'ai un problème de détection, je vien de faire un petit script ruby
qui détecte le charset, résultat des courses : 10 fichiers sur 26 n'ont
pas défini le charset dans une balise meta.

sur "fr.comp.infosystemes.www.auteurs" "on" me dit que cette balise
n'est qu'un pis-aller.

qu'il faut utiliser l'en-tête HTTP, ce qui n'est pas possible dans mon
cas vu que les fichiers sont locaux, sauvegardés dans un répertoire

perso je pense attribuer "US-ASCII" à tous les fichiers qui ne déclarent
pas leur charset, par ce que c'est mieux que rien.

notes que je converti tout en UTF-8 pparce que j'ajoute de l'UTF-8 à la
page en question.

pensez-vous que ce soit uen bonne idée ???

savez vous qqc sur l'autodéttection du charset par les navigateurs ?

--
une bévue
Lire les 21 réponses

Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses Page 1 / 5
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
lap
Le #1912868
savez vous qqc sur l'autodéttection du charset par les navigateurs ?


As-tu testé la commande file(1) ?

LaP

pere.noel
Le #1912861
lap

As-tu testé la commande file(1) ?


ben non, bonne idée, ça doit-être plus effeicace que mon script ???

alors si je regarde une de celle qui n'a pas le charset inclu :
file -i Apple-env-var.html
Apple-env-var.html: text/html



file Apple-env-var.html
Apple-env-var.html: HTML document text



une de celles dont je connais le charset, par mon script :
file fonts-list-tiger.html
fonts-list-tiger.html: HTML document text


(avec l'option -i ou --mime ça ne donne pas + le charset contrairement à
ce que prétend le man...)

mais bon, je n'ai eu qu'un coup d'oeil rapide au man qui parle bien de
la détection du charset et même du langage...

merci pour l'info !

--
une bévue

Eric Jacoboni
Le #1912857
(Une bévue) writes:

savez vous qqc sur l'autodéttection du charset par les navigateurs ?


Ça ne répond pas à ta question, mais pour régler cet histoire
d'encodage, je n'utilise que des entités HTML : aucun accent ou autre
caractère spécifique. Comme ça, je n'ai jamais de problèmes :)

--
Eric Jacoboni, ne il y a 1445970928 secondes

Eric Jacoboni
Le #1912855
jose.campos+ (José Campos) writes:

C'est pourtant tellement reposant de coller un charset utf-8 oukifo
et ensuite de taper sans soucis ;-)


Ah, mais je tape sans souci : avec les accents et tout le toutim... Je
fais simplement une passe de conversion du fichier avant de le mettre
en ligne, c'est tout.

--
Eric Jacoboni, ne il y a 1445971443 secondes

pere.noel
Le #1912853
Eric Jacoboni

Ça ne répond pas à ta question, mais pour régler cet histoire
d'encodage, je n'utilise que des entités HTML : aucun accent ou autre
caractère spécifique. Comme ça, je n'ai jamais de problèmes :)


ouiais, ok, mais les entités il faut les déclarer, parce que je mouline
coome ça :

html -- (via tidy) -> xhtml

xhtml -- (via xsltproc pour ajout d'un menu en utf-8) --> xhtml

mais bon, c'est une idée de passer par des entités, encore faut-il que
je file à tidy le bon charset, car c'est lui quiva faire la conversion
char value sup à 127 -> entité.

le fichier original je n'en suis pas maître, sinon j'aurais réglè ça par
de l'utf-8 ;-)
--
une bévue

Publicité
Suivre les réponses
Poster une réponse
Anonyme