OVH Cloud OVH Cloud

Encodage automatique

39 réponses
Avatar
Denis Beauregard
Bonjour,


Est-ce que Seamonkey est devenu fou en abandonnant la détection du
jeu de caractère passé dans une méta et en ayant du UTF par défaut ?

Alors que mon site affichait toujours le bon jeu de caractères, voilà
qu'il est devenu illisible avec Seamonkey qui détecte du UTF8 au lieu
de 8859-1 ou WIndows 1252.

Par exemple

http://www.francogene.com/quebec--genealogy/115/115877.php

page qui commence avec

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html lang="en"><head>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html;
charset=iso-8859-1">

J'utilise Gecko/20110420 SeaMonkey/2.0.14 et Firefox 4.0.1.

J'ai 90000 pages à modifier si je dois changer mes en-têtes et je
n'ai plus accès à mon générateur de pages (il roulait sous Windows
98 en DOS, ce que Windows 7 familial n'autorise pas...).


Denis

10 réponses

1 2 3 4
Avatar
Denis Beauregard
Le Tue, 12 Jul 2011 11:28:44 +0200, Jean-Francois Ortolo
écrivait dans
fr.comp.infosystemes.www.auteurs:

Le 12/07/2011 11:03, SAM a écrit :

je ne sais pas trop ce qu'est un anti-aspirateur de site





Un dispositif qui empêche un visiteur de recopier un gros site. Dans
mon cas, c'est 3 sections de 30 000 pages.

cependant ... ne vaudrait-il pas mieux l'avoir dans le .htaccess ?





Impossible à paramétriser. De plus, certains aspirateurs ne sont
pas identifiés par le USER-AGENT.

ne surchargeant dont pas ni les pages ni les accès serveur
te libérant de ce soucis lors de la rédaction de nouvelles pages

<http://www.tutoriaux-excalibur.com/anti-aspirateur.htm>



Et... Qu'est-ce que donne un anti-aspirateur de site, avec les
visites des bots des moteurs de recherche, qui sont répétitives ?



Il suffit d'identifier les bots des moteurs de recherche et de les
laisser passer.

Celà ne gêne-t-il pas l'indexation des sites ?



Dans mon cas, ce qui nuit le plus, ce sont ceux qui copient des pages
de mon site et qui donnent l'impression que mon site a des pages en
double. En fait, j'utilise les alertes de Google et pratiquement tout
ce que je reçois, ce sont des alertes de sites qui recopient tout le
monde (avec des recherches factices depuis l'API de Yahoo par
exemple) et non des sites qui parleraient du mien.


Denis
Avatar
Pierre Goiffon
On 12/07/2011 01:56, Denis Beauregard wrote:
Tout est en latin-1 ou windows 1252.



Alors tout peut être servit en windows-1252, car ce codage est une
extensions de iso latin-1.
Cf l'excellent outil de Olivier : http://www.miakinen.net/vrac/charsets
Avatar
Pierre Goiffon
On 11/07/2011 17:08, Olivier Miakinen wrote:
Justement, le serveur doit fournir le jeu de caractères utilisé pour
dire quel est le jeu de caractères de la page, donc c'est un jeu
intermédiaire qui n'a pas à être conservé s'il est redéfini.



Si la page est livrée avec l'information de codage en entête http, quel
intérêt pour le navigateur d'aller lire le codage indiqué en meta et de
le rendre prioritaire ? Quels seraient les cas d'utilisations ??!???



Dans le 1er cas, c'est une décision de l'hébergeur



Mauvais hébergeur, changer d'hébergeur. ©

Si ton hébergeur ne met pas à ta disposition un moyen de choisir
les entêtes HTTP à envoyer avec tel ou tel document, c'est un très
mauvais hébergeur et tu devrais en changer le plus tôt possible.



C'est exactement là où je voulais en venir :)
Tous les serveurs http majeurs permettent de définir des entêtes
spécifiques sur certaines parties de contenu, et les hébergeurs
devraient tous laisser accès à ces fonctionnalités.
Avatar
Jean-Marc Desperrier
Denis Beauregard wrote:
pourquoi personne ne suggère comme faire un .htaccess
qui résoudrait ce problème ?



Voici un site qui explique en détail les diverses techniques :
http://www.askapache.com/htaccess/setting-charset-in-htaccess.html

La version de base est :
AddCharset UTF-8 .html

Il faut que l'hébergeur autorise au moins la surcharge des paramètres de
type FileInfo dans AllowOverride :
http://httpd.apache.org/docs/2.0/mod/core.html#allowoverride
Avatar
Denis Beauregard
Le Mon, 11 Jul 2011 11:35:11 -0400, Denis Beauregard
écrivait dans
fr.comp.infosystemes.www.auteurs:

P.S. Je sais que la solution est donnée sur une page comme
http://www.askapache.com/htaccess/setting-charset-in-htaccess.html
mais je suis surpris que personne n'a donné par réflexe cette
solution.



Correction faite. J'ai choisi cette solution dans le .htaccess :


<FilesMatch ".(htm|html|php)$">
ForceType 'text/html; charset=Windows-1252'
</FilesMatch>



J'ai choisi ce jeu au lieu du ISO parce que sur certaines pages,
j'ai remarqué que j'avais des apostrophes françaises qui sortent
bien avec cet encodage et pas avec ISO. Je ne sais pas si cela
sortira bien sur Mac et Linux.

Une page comme celle contient les accents

http://www.francogene.com/genealogie--quebec/999/index.php

et j'élimine les fameuses apostrophones françaises quand je
génère ces pages.

Mais je sais que j'ai d'autres pages avec ces apostrophes et
je ne sais pas comment trouver des pages sur mon site avec ce
caractère. L'outil de recherche de Windows 7 dit que j'en ai dans tous
les fichiers, ce qui est faux...


Denis
Avatar
Lea Gris
Le 12/07/2011 15:10, Pierre Goiffon a écrit :
On 12/07/2011 01:56, Denis Beauregard wrote:
Tout est en latin-1 ou windows 1252.



Alors tout peut être servit en windows-1252, car ce codage est une
extensions de iso latin-1.
Cf l'excellent outil de Olivier : http://www.miakinen.net/vrac/charsets



<troll type="hairy">
Comme une cellule de prison est l'extension d'une chambre d'hôtel.
</troll>

S'il faut à tout prix rester en codage 8bits, iso-8859-15 est une
meilleure extension standard.

Maintenant il n'y a aucune raison de ne pas passer à utf-8 du moment que
les en-têtes HTTP et l'encodage du texte est bien fait et bien traité
par l'application serveur.

--
Lea Gris
Avatar
Denis Beauregard
Le Wed, 13 Jul 2011 11:02:08 -0400, Denis Beauregard
écrivait dans
fr.comp.infosystemes.www.auteurs:

Le Mon, 11 Jul 2011 11:35:11 -0400, Denis Beauregard
écrivait dans
fr.comp.infosystemes.www.auteurs:

P.S. Je sais que la solution est donnée sur une page comme
http://www.askapache.com/htaccess/setting-charset-in-htaccess.html
mais je suis surpris que personne n'a donné par réflexe cette
solution.



Correction faite. J'ai choisi cette solution dans le .htaccess :


<FilesMatch ".(htm|html|php)$">
ForceType 'text/html; charset=Windows-1252'
</FilesMatch>



Effet secondaire : mon code PHP ne marche plus !!! Si j'enlève ces
lignes du .htaccess, le PHP fonctionne de nouveau...

Il me reste à vérifier les autres solutions.


Denis
Avatar
Olivier Miakinen
Le 12/07/2011 15:10, Pierre Goiffon a écrit :

Tout est en latin-1 ou windows 1252.



Alors tout peut être servi en windows-1252, car ce codage est une
extensions de iso latin-1.



Je ne recommande pas l'utilisation de windows-1252 dans l'absolu, mais
quitte à envoyer des caractères de ce jeu je suis d'accord qu'il vaut
mieux les annoncer correctement plutôt que de faire croire à de l'ISO.

Cf l'excellent outil de Olivier : http://www.miakinen.net/vrac/charsets



Merci pour la pub !
Avatar
Olivier Miakinen
Le 15/07/2011 02:11, Denis Beauregard a écrit :

Correction faite. J'ai choisi cette solution dans le .htaccess :

<FilesMatch ".(htm|html|php)$">
ForceType 'text/html; charset=Windows-1252'
</FilesMatch>



Effet secondaire : mon code PHP ne marche plus !!! Si j'enlève ces
lignes du .htaccess, le PHP fonctionne de nouveau...

Il me reste à vérifier les autres solutions.



Je parie pour :

<FilesMatch ".(htm|html|php)$">
AddDefaultCharset Windows-1252
</FilesMatch>
Avatar
Pierre Goiffon
On 15/07/2011 11:43, Olivier Miakinen wrote:
Tout est en latin-1 ou windows 1252.



Alors tout peut être servi en windows-1252, car ce codage est une
extensions de iso latin-1.



Je ne recommande pas l'utilisation de windows-1252 dans l'absolu



Lea Gris donnait la même réponse et également sans l'argumenter, je suis
curieux de connaître les raisons qui vous poussent l'un et l'autre à
cette position ?

Pour le web, je ne crois pas qu'il y ait aujourd'hui grande différence.
J'ai mémoire d'avoir vu plusieurs signalement de soucis avec ISO Latin-9
sur Netscape 4 et IE5 mac ou 5 et 5.5 Windows, mais on peut considérer
qu'il s'agit d'une histoire ancienne.
Par contre, pour les outils, je ne connais que bien peu ne serait-ce que
d'éditeurs qui supportent réellement et correctement ISO Latin-9.
Windows-1252 me semble par contre très largement répandu et supporté, et
à ma connaissance également sur Mac et Linux.
1 2 3 4