Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

encodage texte et r=c3=a9sultat htm

19 réponses
Avatar
docanski
Bonjour,

(voilà longtemps que je ne me suis plus exprimé ici ...)
Problème rencontré depuis quelques mois avec quelques pages mises à jour
dont l'affichage a changé malgré un "doctype" toujours identique.
Voici un exemple : http://armorance.free.fr/dinan5.htm et la page
d'accueil http://armorance.free.fr/ pourtant mises à jour de la même
façon et avec le même éditeur. Il s'agit de gedit sous l'OS Debian Stretch.
Mousepad refuse d'afficher les codes source sous prétexte qu'il ne
s'agit pas d'un format UTF8 valide ...
Quelqu'un peut m'expliquer ... et surtout me dépanner ?

Cordialement,
--
docanski

Guide des champignons d'Europe : http://mycorance.free.fr/
La vallée de la Rance maritime : http://valderance.free.fr/
Les côtes du nord de la Bretagne : http://docarmor.free.fr/
Forum boursier : http://docanski.free.fr/boursomania/

10 réponses

1 2
Avatar
Sergio
Le 03/06/2019 à 13:13, docanski a écrit :
Bonjour,
(voilà longtemps que je ne me suis plus exprimé ici ...)
Problème rencontré depuis quelques mois avec quelques pages mises à jour dont l'affichage a changé malgré un "doctype" toujours identique.
Voici un exemple : http://armorance.free.fr/dinan5.htm" target="_blank" class="text-blue hover:opacity-90 " style="word-break: break-all;" rel="noopener nofollow">http://armorance.free.fr/dinan5.htm et la page d'accueil http://armorance.free.fr/ pourtant mises à jour de la même façon et avec le même éditeur. Il s'agit de gedit sous l'OS
Debian Stretch.
Mousepad refuse d'afficher les codes source sous prétexte qu'il ne s'agit pas d'un format UTF8 valide ...
Quelqu'un peut m'expliquer ... et surtout me dépanner ?
Cordialement,

Pour les deux pages, il y a :
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
Donc pas de lézard, il faut que ce soit du 8859-1. Or si la page principale semble bien encodé en 8859-1, la page dinan5.htm est visiblement encodée en UTF-8.
AMHA, pour éviter les emmerdes, passe tout en UTF-8 avec "iconv" :
iconv -f iso-8859-1 -t utf-8 fichier-8859.html > ficher-utf8.html
Pour déterminer vite fait l'encodage d'un ficher, l'utilitaire "file" le déterminera.
Tu peux te faire un petit script pour automatiser tout ça...
--
Serge http://cahierdesergio.free.fr/
Soutenez le libre: http://www.framasoft.org
Avatar
Otomatic
docanski écrivait :
Voici un exemple : http://armorance.free.fr/dinan5.htm et la page

La page est déclarée iso-8859-1 :
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />

mais le contenu est codé utf-8.
Avatar
docanski
Otomatic a écrit le 03/06/2019 à 14:59 :
docanski écrivait :
Voici un exemple : http://armorance.free.fr/dinan5.htm et la page

La page est déclarée iso-8859-1 :
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />

mais le contenu est codé utf-8.

Comment a-t'il pu être codé en UTF-8 alors qu'il ne s'agissait que de la
correction de quelques lignes qui avait été écrites dans la page
d'origine en iso-8859-1, correction faite sans modifier ces
caractéristiques d'encodage ? Apparemment, Gedit enregistre
automatiquement en UTF-8, essai effectué sur d'autres pages. :-( Et
comment en revenir alors à afficher en iso ? Ni Gedit ni Mousepad ne me
le permettent.
--
docanski
Guide des champignons d'Europe : http://mycorance.free.fr/
La vallée de la Rance maritime : http://valderance.free.fr/
Les côtes du nord de la Bretagne : http://docarmor.free.fr/
Forum boursier : http://docanski.free.fr/boursomania/
Avatar
docanski
Sergio a écrit le 03/06/2019 à 13:51 :
Pour les deux pages, il y a :
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
Donc pas de lézard, il faut que ce soit du 8859-1. Or si la page
principale semble bien encodé en 8859-1, la page dinan5.htm est
visiblement encodée en UTF-8.

Visiblement ? Impossible à vérifier avec Gedit qui m'a servi pour éditer
cette page. D'autre part, il n'y a eu que correction de quelques lignes
dans dinan5.htm et simplement la date de mise à jour dans index.htm avec
le même éditeur.
Or la première est mal affichée et la seconde s'affiche correctement.
AMHA, pour éviter les emmerdes, passe tout en UTF-8 avec "iconv" :
iconv -f iso-8859-1 -t utf-8 fichier-8859.html > ficher-utf8.html

Heu ... je préfère éviter : j'ai des centaines de pages dans plusieurs
sites éditées dans les mêmes conditions depuis des années. Ce que je
veux, c'est en revenir à l'encodage original.
--
docanski
Guide des champignons d'Europe : http://mycorance.free.fr/
La vallée de la Rance maritime : http://valderance.free.fr/
Les côtes du nord de la Bretagne : http://docarmor.free.fr/
Forum boursier : http://docanski.free.fr/boursomania/
Avatar
Olivier Miakinen
Le 03/06/2019 16:01, docanski a écrit :
Voici un exemple : http://armorance.free.fr/dinan5.htm et la page

La page est déclarée iso-8859-1 :
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />

mais le contenu est codé utf-8.


Je le confirme.
Comment a-t'il pu être codé en UTF-8 alors qu'il ne s'agissait que de la
correction de quelques lignes qui avait été écrites dans la page
d'origine en iso-8859-1, correction faite sans modifier ces
caractéristiques d'encodage ? Apparemment, Gedit enregistre
automatiquement en UTF-8, essai effectué sur d'autres pages. :-(

La question concernant Gedit sera en charte sur le groupe traitant
des éditeurs de texte : fr.comp.applications.editeurs-de-texte
Et
comment en revenir alors à afficher en iso ? Ni Gedit ni Mousepad ne me
le permettent.

iconv -f UTF-8 -t ISO-8859-1
--
Olivier Miakinen
Avatar
Otomatic
docanski écrivait :
Heu ... je préfère éviter : j'ai des centaines de pages dans plusieurs
sites éditées dans les mêmes conditions depuis des années. Ce que je
veux, c'est en revenir à l'encodage original.

Depuis PHP 5.6, le jeu de caractères par défaut est utf-8 et, avec PHP
7.2/3 il se peut que, selon les hébergeurs, une entête :
header("content-type:text/html; charset=utf-8");
soit automatiquement envoyée sans demander l'avis de l'hébergé.
Or, cette entête PHP est prioritaire sur les balises <meta...> ce qui
fait que le jeu de caractère utilisé sera utf-8 avec des contenus codés
iso-8859-1. C'est déjà le cas avec le(s) serveurs test PHP 7 chez Free.
AMHA, pour éviter des problèmes futurs (Qui viennent de commencer avec
un éditeur de texte qui transcode et sauve en utf-8) il serait bien de
passer un peu de temps à passer toutes les pages en utf-8.
Pour tous les fichiers d'un dossier, même sur plusieurs niveaux, ce doit
être assez simple sous Linux, je l'ai bien fait sous Windows avec
UtraEdit et un script pour 9589 fichiers dans 897 dossiers sur quatre
niveaux.
--
Un ordinateur résout des problèmes que nous n'aurions pas sans lui
Technique aéronautique : http://aviatechno.net
Avatar
Olivier Miakinen
Le 03/06/2019 16:50, Otomatic a écrit :
Heu ... je préfère éviter : j'ai des centaines de pages dans plusieurs
sites éditées dans les mêmes conditions depuis des années. Ce que je
veux, c'est en revenir à l'encodage original.

Depuis PHP 5.6, le jeu de caractères par défaut est utf-8 et, avec PHP
7.2/3 il se peut que, selon les hébergeurs, une entête :
header("content-type:text/html; charset=utf-8");
soit automatiquement envoyée sans demander l'avis de l'hébergé.
Or, cette entête PHP est prioritaire sur les balises <meta...> ce qui
fait que le jeu de caractère utilisé sera utf-8 avec des contenus codés
iso-8859-1. C'est déjà le cas avec le(s) serveurs test PHP 7 chez Free.
AMHA, pour éviter des problèmes futurs (Qui viennent de commencer avec
un éditeur de texte qui transcode et sauve en utf-8) il serait bien de
passer un peu de temps à passer toutes les pages en utf-8.

Oui à tout.
Pour tous les fichiers d'un dossier, même sur plusieurs niveaux, ce doit
être assez simple sous Linux, je l'ai bien fait sous Windows avec
UtraEdit et un script pour 9589 fichiers dans 897 dossiers sur quatre
niveaux.

Oui :
'find' + 'iconv -f ISO-8859-1 -t UTF-8'
--
Olivier Miakinen
Avatar
docanski
Olivier Miakinen a écrit le 03/06/2019 à 16:54 :
Pour tous les fichiers d'un dossier, même sur plusieurs niveaux, ce doit
être assez simple sous Linux, je l'ai bien fait sous Windows avec
UtraEdit et un script pour 9589 fichiers dans 897 dossiers sur quatre
niveaux.

Oui :
'find' + 'iconv -f ISO-8859-1 -t UTF-8'

Je ne suis vraiment pas fan de la commande en ligne mais si cette
commande permet de corriger la totalité d'un dossier, je suis preneur.
Encore faut-il savoir comment s'en servir : à partir de chaque dossier ?
à l'intérieur de chaque dossier contenant les pages ? Elle me paraît
simpliste pour remplacer l'en-tête complète de toutes les pages ou
faudra-t'il le faire pour chacune à la mimine ?
Toujours est-il que j'ai remplacé l'ancienne en-tête de la page
incriminée par un
[code]
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"&gt;
<html xmlns="http://www.w3.org/1999/xhtml&quot; xml:lang="fr" lang="fr"
dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
[/code]
... et cela roule évidemment.
Il me reste cet étonnement : la page index n'a pas eu le même problème
que celle-là !
--
docanski
Guide des champignons d'Europe : http://mycorance.free.fr/
La vallée de la Rance maritime : http://valderance.free.fr/
Les côtes du nord de la Bretagne : http://docarmor.free.fr/
Forum boursier : http://docanski.free.fr/boursomania/
Avatar
docanski
docanski a écrit le 03/06/2019 à 17:08 :
  'find' + 'iconv -f ISO-8859-1 -t UTF-8'

Je ne suis vraiment pas fan de la commande en ligne mais si cette
commande permet de corriger la totalité d'un dossier, je suis preneur.

J'ai essayé à l'intérieur d'un dossier comportant ce genre de pages :
aucune réaction, la console de commande est muette.
--
docanski
Guide des champignons d'Europe : http://mycorance.free.fr/
La vallée de la Rance maritime : http://valderance.free.fr/
Les côtes du nord de la Bretagne : http://docarmor.free.fr/
Forum boursier : http://docanski.free.fr/boursomania/
Avatar
Denis Beauregard
Le Mon, 3 Jun 2019 17:20:39 +0200, docanski
écrivait dans
fr.comp.infosystemes.www.auteurs:
docanski a écrit le 03/06/2019 à 17:08 :
  'find' + 'iconv -f ISO-8859-1 -t UTF-8'

Je ne suis vraiment pas fan de la commande en ligne mais si cette
commande permet de corriger la totalité d'un dossier, je suis preneur.

J'ai essayé à l'intérieur d'un dossier comportant ce genre de pages :
aucune réaction, la console de commande est muette.

J'ai souvent des soucis avec ces commandes qui touchent un dossier
au complet. Ma solution: passer par un chiffrier !
Mon problème personnel est de renommer des fichiers, mais on peut
adapter à ton besoin !
toto.jpeg
toto.jpg
="ren "&a1&" "&b1
Et je copie la colonne C vers la console. Dans ton cas, une sauvegarde
est préférable.
Denis
1 2