encodage mal programmé ?

Eric Demeester

02/09/2014 à 10:33

Bonjour,

Denis Beauregard (Mon, 01 Sep 2014 19:02:27 -0400 - fr.comp.lang.php) :

Pour le passage à UTF-8, l'idéal est de tout convertir avec
notepad++ comme suggéré.

Pour des raisons que je n'ai pas entièrement comprises (on avait tenté
de me m'expliquer à l'époque sans grand succès), dans Notepad++, il faut
choisir comme encodage : UTF-8 sans BOM, adapté aux sites web, et pas
UFT-8 tout court.

Un autre truc à savoir : le serveur et la copie locale ne sont
pas identiques pour ce qui est de la gestion des accents. En
d'autres mots, cela peut marcher comme il faut sur son ordi et
pas sur le serveur. Donc, relire toutes les pages.

Cette vérification est utile, mais une fois les problèmes d'encodage
résolus, tant dans l'affichage du site (je renouvelle au passage le
conseil de passer en HTML5/CSS3, plus à la page, plus simples que 4.x et
offrant plus de possibilités) que dans les fonctions PHP, ça devrait
rouler.

Otomatic

02/09/2014 à 11:13

Eric Demeester écrivait :

Pour des raisons que je n'ai pas entièrement comprises (on avait tenté
de me m'expliquer à l'époque sans grand succès), dans Notepad++, il faut
choisir comme encodage : UTF-8 sans BOM, adapté aux sites web, et pas
UFT-8 tout court.

Parce que cette entête BOM ajoute des caractères « parasites » sur une
ou plusieurs pages HTML (générées par PHP), comme “ï»¿” ou, la
génération des pages donne une erreur du style Warning: Cannot modify
header information - headers already sent by …

Il y a une très grande probabilité pour qu'un ou plusieurs de vos
fichiers ait été sauvegardé avec une entête BOM, en anglais Byte Order
Mark, qui est - théoriquement - utilisée comme marqueur pour indiquer
que le texte est codé en UTF-8, UTF-16 ou UTF-32 et dans quel ordre sont
les octets d'un caractère UTF-16 ou UTF-32.

Pour UTF-16, le BOM est une séquence de deux octets FE FF au début de la
chaîne codée, pour indiquer que les caractères codés suivants utilisent
l'ordre poids fort en dernier (big-endian) ; ou FF FE pour indiquer
l'ordre poids faible en dernier (little-endian). Alors qu'UTF-8 n'a
aucun problème d'ordre des octets, un BOM codé en UTF-8 peut être mis
pour identifier un fichier comme UTF-8, mais ce n'est pas recommandé
puisque ce BOM ne sert à rien, l'ordre des octets étant fixe en UTF-8.

Si on utilise un éditeur de texte (ou autre logiciel éditeur
hexadécimal) qui permet de voir le fichier sous forme hexadécimale,
c'est à dire avec une suite d'octets qui en représente le contenu, on
peut voir si il y a des caractères supplémentaires (BOM) au début du
fichier.

Par exemple, en vue héxadécimale, le début d'un fichier.php normal est :

00000000 3C3F 7068 700D 0A2F 2A2A 2A2A 2A2A <?php..//******
0000000E 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************
0000001C 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************

Le même fichier avec entête BOM est :

00000000 EFBB BF3C 3F70 6870 0D0A 2F2A 2A2A ï»¿<?php..//***
0000000E 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************
0000001C 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************

On voit bien que trois octets sont insérés au début du fichier : EF BB
BF, c'est l'entête BOM. La plupart du temps, ces trois octets sont vus
comme caractères : “ï»¿” dans la fenêtre du navigateur ce qui permet de
déterminer qu'il s'agit bien d'une entête BOM.

Il faut toujours vérifier, lorsque l'on sauvegarde un fichier modifié,
que le logiciel donne une option “Sans BOM” ou que celle-ci fait partie
des Réglages ou Préférences du logiciel.

Lorsque l'on édite/modifie un fichier, bien faire attention aux options
ou préférences dudit logiciel :

Pas de transcodage automatique
Le fichier sauvegardé doit garder son codage d'origine, par exemple
pas de transcodage automatique ASCII -> UTF8
Pas d'ajout d'entête BOM si celle-ci n'existait pas

Faire aussi attention aux logiciels de téléchargement et de transfert de
fichiers (FTP) qui ne doivent, en aucune manière, modifier quoi que ce
soit.

Beaucoup de logiciels Windows (incluant Notepad) ajoutent un BOM aux
fichiers UTF-8 si on n'y prend pas garde. C'est pourquoi il est
recommandé d'utiliser Notepad++ (Gratuit :
http://notepad-plus.sourceforge.net/fr/site.htm) qui indique, en bas de
page, dans la barre d'état, diverses informations dont le codage du
fichier :

ANSI
ANSI as UTF-8 (C'est la version UTF-8 sans BOM)
UTF-8 (C'est la version UTF-8 avec BOM)
etc.

et qui permet, via le menu Encodage, de convertir d'un codage vers un
autre.

Ainsi, si on se retrouve, sans le vouloir, avec les caractères “ï»¿”, il
suffit d'ouvrir, avec Notepad++ le fichier incriminé, de changer le
codage via le menu Encodage .
--
Ce n'est pas parce qu'ils sont nombreux à avoir tort
qu'ils ont forcément raison. Coluche

Eric Demeester <eric.REMOVETHIS@mailody.org> écrivait :

Pour des raisons que je n'ai pas entièrement comprises (on avait tenté
de me m'expliquer à l'époque sans grand succès), dans Notepad++, il faut
choisir comme encodage : UTF-8 sans BOM, adapté aux sites web, et pas
UFT-8 tout court.

Parce que cette entête BOM ajoute des caractères « parasites » sur une
ou plusieurs pages HTML (générées par PHP), comme “ï»¿” ou, la
génération des pages donne une erreur du style Warning: Cannot modify
header information - headers already sent by …

Il y a une très grande probabilité pour qu'un ou plusieurs de vos
fichiers ait été sauvegardé avec une entête BOM, en anglais Byte Order
Mark, qui est - théoriquement - utilisée comme marqueur pour indiquer
que le texte est codé en UTF-8, UTF-16 ou UTF-32 et dans quel ordre sont
les octets d'un caractère UTF-16 ou UTF-32.

Pour UTF-16, le BOM est une séquence de deux octets FE FF au début de la
chaîne codée, pour indiquer que les caractères codés suivants utilisent
l'ordre poids fort en dernier (big-endian) ; ou FF FE pour indiquer
l'ordre poids faible en dernier (little-endian). Alors qu'UTF-8 n'a
aucun problème d'ordre des octets, un BOM codé en UTF-8 peut être mis
pour identifier un fichier comme UTF-8, mais ce n'est pas recommandé
puisque ce BOM ne sert à rien, l'ordre des octets étant fixe en UTF-8.

Si on utilise un éditeur de texte (ou autre logiciel éditeur
hexadécimal) qui permet de voir le fichier sous forme hexadécimale,
c'est à dire avec une suite d'octets qui en représente le contenu, on
peut voir si il y a des caractères supplémentaires (BOM) au début du
fichier.

Par exemple, en vue héxadécimale, le début d'un fichier.php normal est :

00000000 3C3F 7068 700D 0A2F 2A2A 2A2A 2A2A <?php..//******
0000000E 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************
0000001C 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************

Le même fichier avec entête BOM est :

00000000 EFBB BF3C 3F70 6870 0D0A 2F2A 2A2A ï»¿<?php..//***
0000000E 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************
0000001C 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************

On voit bien que trois octets sont insérés au début du fichier : EF BB
BF, c'est l'entête BOM. La plupart du temps, ces trois octets sont vus
comme caractères : “ï»¿” dans la fenêtre du navigateur ce qui permet de
déterminer qu'il s'agit bien d'une entête BOM.

Il faut toujours vérifier, lorsque l'on sauvegarde un fichier modifié,
que le logiciel donne une option “Sans BOM” ou que celle-ci fait partie
des Réglages ou Préférences du logiciel.

Lorsque l'on édite/modifie un fichier, bien faire attention aux options
ou préférences dudit logiciel :

Pas de transcodage automatique
Le fichier sauvegardé doit garder son codage d'origine, par exemple
pas de transcodage automatique ASCII -> UTF8
Pas d'ajout d'entête BOM si celle-ci n'existait pas

Faire aussi attention aux logiciels de téléchargement et de transfert de
fichiers (FTP) qui ne doivent, en aucune manière, modifier quoi que ce
soit.

Beaucoup de logiciels Windows (incluant Notepad) ajoutent un BOM aux
fichiers UTF-8 si on n'y prend pas garde. C'est pourquoi il est
recommandé d'utiliser Notepad++ (Gratuit :
http://notepad-plus.sourceforge.net/fr/site.htm) qui indique, en bas de
page, dans la barre d'état, diverses informations dont le codage du
fichier :

ANSI
ANSI as UTF-8 (C'est la version UTF-8 sans BOM)
UTF-8 (C'est la version UTF-8 avec BOM)
etc.

et qui permet, via le menu Encodage, de convertir d'un codage vers un
autre.

Ainsi, si on se retrouve, sans le vouloir, avec les caractères “ï»¿”, il
suffit d'ouvrir, avec Notepad++ le fichier incriminé, de changer le
codage via le menu Encodage .
--
Ce n'est pas parce qu'ils sont nombreux à avoir tort
qu'ils ont forcément raison. Coluche

Vous avez filtré cet utilisateur ! Consultez son message

Eric Demeester écrivait :

Pour des raisons que je n'ai pas entièrement comprises (on avait tenté
de me m'expliquer à l'époque sans grand succès), dans Notepad++, il faut
choisir comme encodage : UTF-8 sans BOM, adapté aux sites web, et pas
UFT-8 tout court.

Parce que cette entête BOM ajoute des caractères « parasites » sur une
ou plusieurs pages HTML (générées par PHP), comme “ï»¿” ou, la
génération des pages donne une erreur du style Warning: Cannot modify
header information - headers already sent by …

Il y a une très grande probabilité pour qu'un ou plusieurs de vos
fichiers ait été sauvegardé avec une entête BOM, en anglais Byte Order
Mark, qui est - théoriquement - utilisée comme marqueur pour indiquer
que le texte est codé en UTF-8, UTF-16 ou UTF-32 et dans quel ordre sont
les octets d'un caractère UTF-16 ou UTF-32.

Pour UTF-16, le BOM est une séquence de deux octets FE FF au début de la
chaîne codée, pour indiquer que les caractères codés suivants utilisent
l'ordre poids fort en dernier (big-endian) ; ou FF FE pour indiquer
l'ordre poids faible en dernier (little-endian). Alors qu'UTF-8 n'a
aucun problème d'ordre des octets, un BOM codé en UTF-8 peut être mis
pour identifier un fichier comme UTF-8, mais ce n'est pas recommandé
puisque ce BOM ne sert à rien, l'ordre des octets étant fixe en UTF-8.

Si on utilise un éditeur de texte (ou autre logiciel éditeur
hexadécimal) qui permet de voir le fichier sous forme hexadécimale,
c'est à dire avec une suite d'octets qui en représente le contenu, on
peut voir si il y a des caractères supplémentaires (BOM) au début du
fichier.

Par exemple, en vue héxadécimale, le début d'un fichier.php normal est :

00000000 3C3F 7068 700D 0A2F 2A2A 2A2A 2A2A <?php..//******
0000000E 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************
0000001C 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************

Le même fichier avec entête BOM est :

00000000 EFBB BF3C 3F70 6870 0D0A 2F2A 2A2A ï»¿<?php..//***
0000000E 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************
0000001C 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************

On voit bien que trois octets sont insérés au début du fichier : EF BB
BF, c'est l'entête BOM. La plupart du temps, ces trois octets sont vus
comme caractères : “ï»¿” dans la fenêtre du navigateur ce qui permet de
déterminer qu'il s'agit bien d'une entête BOM.

Il faut toujours vérifier, lorsque l'on sauvegarde un fichier modifié,
que le logiciel donne une option “Sans BOM” ou que celle-ci fait partie
des Réglages ou Préférences du logiciel.

Lorsque l'on édite/modifie un fichier, bien faire attention aux options
ou préférences dudit logiciel :

Pas de transcodage automatique
Le fichier sauvegardé doit garder son codage d'origine, par exemple
pas de transcodage automatique ASCII -> UTF8
Pas d'ajout d'entête BOM si celle-ci n'existait pas

Faire aussi attention aux logiciels de téléchargement et de transfert de
fichiers (FTP) qui ne doivent, en aucune manière, modifier quoi que ce
soit.

Beaucoup de logiciels Windows (incluant Notepad) ajoutent un BOM aux
fichiers UTF-8 si on n'y prend pas garde. C'est pourquoi il est
recommandé d'utiliser Notepad++ (Gratuit :
http://notepad-plus.sourceforge.net/fr/site.htm) qui indique, en bas de
page, dans la barre d'état, diverses informations dont le codage du
fichier :

ANSI
ANSI as UTF-8 (C'est la version UTF-8 sans BOM)
UTF-8 (C'est la version UTF-8 avec BOM)
etc.

et qui permet, via le menu Encodage, de convertir d'un codage vers un
autre.

Ainsi, si on se retrouve, sans le vouloir, avec les caractères “ï»¿”, il
suffit d'ouvrir, avec Notepad++ le fichier incriminé, de changer le
codage via le menu Encodage .
--
Ce n'est pas parce qu'ils sont nombreux à avoir tort
qu'ils ont forcément raison. Coluche

Olivier Miakinen

02/09/2014 à 11:36

Le 02/09/2014 11:13, Otomatic répondait à Éric Demeester :

Pour des raisons que je n'ai pas entièrement comprises (on avait tenté
de me m'expliquer à l'époque sans grand succès), dans Notepad++, il faut
choisir comme encodage : UTF-8 sans BOM, adapté aux sites web, et pas
UFT-8 tout court.

Je ne sais pas si cette nouvelle tentative d'explication sera ou non
couronnée de succès, d'autant que je vais ajouter mon grain de sel
aux explications très claires d'Otomatic...

Parce que cette entête BOM ajoute des caractères « parasites » sur une
ou plusieurs pages HTML (générées par PHP), comme “ï»¿” ou, la
génération des pages donne une erreur du style Warning: Cannot modify
header information - headers already sent by …

Oui et oui. Je précise que ces caractères “ï»¿” ne sont visibles sous
cette forme que si l'on lit le fichier comme si c'était du Latin-1 ou
équivalent. Ils sont invisibles si on le lit en tant qu'UTF-8, mais
néanmoins présents (et potentiellement nuisibles).

Il y a une très grande probabilité pour qu'un ou plusieurs de vos
fichiers ait été sauvegardé avec une entête BOM, en anglais Byte Order
Mark, qui est - théoriquement - utilisée comme marqueur pour indiquer
que le texte est codé en UTF-8, UTF-16 ou UTF-32 et dans quel ordre sont
les octets d'un caractère UTF-16 ou UTF-32.

Pour UTF-16, le BOM est une séquence de deux octets FE FF au début de la
chaîne codée, pour indiquer que les caractères codés suivants utilisent
l'ordre poids fort en dernier (big-endian) ; ou FF FE pour indiquer
l'ordre poids faible en dernier (little-endian). Alors qu'UTF-8 n'a
aucun problème d'ordre des octets, un BOM codé en UTF-8 peut être mis
pour identifier un fichier comme UTF-8, mais ce n'est pas recommandé
puisque ce BOM ne sert à rien, l'ordre des octets étant fixe en UTF-8.

J'ajoute que le BOM en UTF-8 est d'autant plus inutile que UTF-8 est
très facile à reconnaître : je n'ai entendu parler de confusion possible
que dans le cas d'un fichier en chinois de 4 octets.

Si on utilise un éditeur de texte (ou autre logiciel éditeur
hexadécimal) qui permet de voir le fichier sous forme hexadécimale,
c'est à dire avec une suite d'octets qui en représente le contenu, on
peut voir si il y a des caractères supplémentaires (BOM) au début du
fichier.

Par exemple, en vue héxadécimale, le début d'un fichier.php normal est :

00000000 3C3F 7068 700D 0A2F 2A2A 2A2A 2A2A <?php..//******
0000000E 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************
0000001C 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************

Le même fichier avec entête BOM est :

00000000 EFBB BF3C 3F70 6870 0D0A 2F2A 2A2A ï»¿<?php..//***
0000000E 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************
0000001C 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************

On voit bien que trois octets sont insérés au début du fichier : EF BB
BF, c'est l'entête BOM. La plupart du temps, ces trois octets sont vus
comme caractères : “ï»¿” dans la fenêtre du navigateur ce qui permet de
déterminer qu'il s'agit bien d'une entête BOM.

Encore une fois, on ne verra ces caractères qu'en iso-8859-1, Win-1252
ou équivalent. Un BOM peut très bien passer inaperçu tout en étant
nuisible dans de nombreux cas.

Il faut toujours vérifier, lorsque l'on sauvegarde un fichier modifié,
que le logiciel donne une option “Sans BOM” ou que celle-ci fait partie
des Réglages ou Préférences du logiciel.

Lorsque l'on édite/modifie un fichier, bien faire attention aux options
ou préférences dudit logiciel :

Pas de transcodage automatique
Le fichier sauvegardé doit garder son codage d'origine, par exemple
pas de transcodage automatique ASCII -> UTF8
Pas d'ajout d'entête BOM si celle-ci n'existait pas

Faire aussi attention aux logiciels de téléchargement et de transfert de
fichiers (FTP) qui ne doivent, en aucune manière, modifier quoi que ce
soit.

Oui à tout (si ce n'est qu'un transcodage ASCII -> UTF-8 est une
opération qui ne fait rien, pourvu qu'il s'agisse d'UTF-8 simple, sans
BOM).

Beaucoup de logiciels Windows (incluant Notepad) ajoutent un BOM aux
fichiers UTF-8 si on n'y prend pas garde. C'est pourquoi il est
recommandé d'utiliser Notepad++ (Gratuit :
http://notepad-plus.sourceforge.net/fr/site.htm) qui indique, en bas de
page, dans la barre d'état, diverses informations dont le codage du
fichier :

ANSI
ANSI as UTF-8 (C'est la version UTF-8 sans BOM)
UTF-8 (C'est la version UTF-8 avec BOM)
etc.

Beurk ! « ANSI as UTF-8 » pour de l'UTF-8 sans BOM ? Qui a pu avoir
le cerveau assez dérangé pour inventer une telle dénomination ? Et
« UTF-8 » seulement pour la version avec BOM ? Tout est fait pour
tromper l'utilisateur, on dirait. :-(

et qui permet, via le menu Encodage, de convertir d'un codage vers un
autre.

Ainsi, si on se retrouve, sans le vouloir, avec les caractères “ï»¿”, il
suffit d'ouvrir, avec Notepad++ le fichier incriminé, de changer le
codage via le menu Encodage .

Ok.

Cordialement,
--
Olivier Miakinen

Le 02/09/2014 11:13, Otomatic répondait à Éric Demeester :

Pour des raisons que je n'ai pas entièrement comprises (on avait tenté
de me m'expliquer à l'époque sans grand succès), dans Notepad++, il faut
choisir comme encodage : UTF-8 sans BOM, adapté aux sites web, et pas
UFT-8 tout court.

Je ne sais pas si cette nouvelle tentative d'explication sera ou non
couronnée de succès, d'autant que je vais ajouter mon grain de sel
aux explications très claires d'Otomatic...

Parce que cette entête BOM ajoute des caractères « parasites » sur une
ou plusieurs pages HTML (générées par PHP), comme “ï»¿” ou, la
génération des pages donne une erreur du style Warning: Cannot modify
header information - headers already sent by …

Oui et oui. Je précise que ces caractères “ï»¿” ne sont visibles sous
cette forme que si l'on lit le fichier comme si c'était du Latin-1 ou
équivalent. Ils sont invisibles si on le lit en tant qu'UTF-8, mais
néanmoins présents (et potentiellement nuisibles).

Il y a une très grande probabilité pour qu'un ou plusieurs de vos
fichiers ait été sauvegardé avec une entête BOM, en anglais Byte Order
Mark, qui est - théoriquement - utilisée comme marqueur pour indiquer
que le texte est codé en UTF-8, UTF-16 ou UTF-32 et dans quel ordre sont
les octets d'un caractère UTF-16 ou UTF-32.

Pour UTF-16, le BOM est une séquence de deux octets FE FF au début de la
chaîne codée, pour indiquer que les caractères codés suivants utilisent
l'ordre poids fort en dernier (big-endian) ; ou FF FE pour indiquer
l'ordre poids faible en dernier (little-endian). Alors qu'UTF-8 n'a
aucun problème d'ordre des octets, un BOM codé en UTF-8 peut être mis
pour identifier un fichier comme UTF-8, mais ce n'est pas recommandé
puisque ce BOM ne sert à rien, l'ordre des octets étant fixe en UTF-8.

J'ajoute que le BOM en UTF-8 est d'autant plus inutile que UTF-8 est
très facile à reconnaître : je n'ai entendu parler de confusion possible
que dans le cas d'un fichier en chinois de 4 octets.

Si on utilise un éditeur de texte (ou autre logiciel éditeur
hexadécimal) qui permet de voir le fichier sous forme hexadécimale,
c'est à dire avec une suite d'octets qui en représente le contenu, on
peut voir si il y a des caractères supplémentaires (BOM) au début du
fichier.

Par exemple, en vue héxadécimale, le début d'un fichier.php normal est :

00000000 3C3F 7068 700D 0A2F 2A2A 2A2A 2A2A <?php..//******
0000000E 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************
0000001C 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************

Le même fichier avec entête BOM est :

00000000 EFBB BF3C 3F70 6870 0D0A 2F2A 2A2A ï»¿<?php..//***
0000000E 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************
0000001C 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************

On voit bien que trois octets sont insérés au début du fichier : EF BB
BF, c'est l'entête BOM. La plupart du temps, ces trois octets sont vus
comme caractères : “ï»¿” dans la fenêtre du navigateur ce qui permet de
déterminer qu'il s'agit bien d'une entête BOM.

Encore une fois, on ne verra ces caractères qu'en iso-8859-1, Win-1252
ou équivalent. Un BOM peut très bien passer inaperçu tout en étant
nuisible dans de nombreux cas.

Il faut toujours vérifier, lorsque l'on sauvegarde un fichier modifié,
que le logiciel donne une option “Sans BOM” ou que celle-ci fait partie
des Réglages ou Préférences du logiciel.

Lorsque l'on édite/modifie un fichier, bien faire attention aux options
ou préférences dudit logiciel :

Pas de transcodage automatique
Le fichier sauvegardé doit garder son codage d'origine, par exemple
pas de transcodage automatique ASCII -> UTF8
Pas d'ajout d'entête BOM si celle-ci n'existait pas

Faire aussi attention aux logiciels de téléchargement et de transfert de
fichiers (FTP) qui ne doivent, en aucune manière, modifier quoi que ce
soit.

Oui à tout (si ce n'est qu'un transcodage ASCII -> UTF-8 est une
opération qui ne fait rien, pourvu qu'il s'agisse d'UTF-8 simple, sans
BOM).

Beaucoup de logiciels Windows (incluant Notepad) ajoutent un BOM aux
fichiers UTF-8 si on n'y prend pas garde. C'est pourquoi il est
recommandé d'utiliser Notepad++ (Gratuit :
http://notepad-plus.sourceforge.net/fr/site.htm) qui indique, en bas de
page, dans la barre d'état, diverses informations dont le codage du
fichier :

ANSI
ANSI as UTF-8 (C'est la version UTF-8 sans BOM)
UTF-8 (C'est la version UTF-8 avec BOM)
etc.

Beurk ! « ANSI as UTF-8 » pour de l'UTF-8 sans BOM ? Qui a pu avoir
le cerveau assez dérangé pour inventer une telle dénomination ? Et
« UTF-8 » seulement pour la version avec BOM ? Tout est fait pour
tromper l'utilisateur, on dirait. :-(

et qui permet, via le menu Encodage, de convertir d'un codage vers un
autre.

Ainsi, si on se retrouve, sans le vouloir, avec les caractères “ï»¿”, il
suffit d'ouvrir, avec Notepad++ le fichier incriminé, de changer le
codage via le menu Encodage .

Ok.

Cordialement,
--
Olivier Miakinen

Vous avez filtré cet utilisateur ! Consultez son message

Le 02/09/2014 11:13, Otomatic répondait à Éric Demeester :

Pour des raisons que je n'ai pas entièrement comprises (on avait tenté
de me m'expliquer à l'époque sans grand succès), dans Notepad++, il faut
choisir comme encodage : UTF-8 sans BOM, adapté aux sites web, et pas
UFT-8 tout court.

Je ne sais pas si cette nouvelle tentative d'explication sera ou non
couronnée de succès, d'autant que je vais ajouter mon grain de sel
aux explications très claires d'Otomatic...

Parce que cette entête BOM ajoute des caractères « parasites » sur une
ou plusieurs pages HTML (générées par PHP), comme “ï»¿” ou, la
génération des pages donne une erreur du style Warning: Cannot modify
header information - headers already sent by …

Oui et oui. Je précise que ces caractères “ï»¿” ne sont visibles sous
cette forme que si l'on lit le fichier comme si c'était du Latin-1 ou
équivalent. Ils sont invisibles si on le lit en tant qu'UTF-8, mais
néanmoins présents (et potentiellement nuisibles).

Il y a une très grande probabilité pour qu'un ou plusieurs de vos
fichiers ait été sauvegardé avec une entête BOM, en anglais Byte Order
Mark, qui est - théoriquement - utilisée comme marqueur pour indiquer
que le texte est codé en UTF-8, UTF-16 ou UTF-32 et dans quel ordre sont
les octets d'un caractère UTF-16 ou UTF-32.

Pour UTF-16, le BOM est une séquence de deux octets FE FF au début de la
chaîne codée, pour indiquer que les caractères codés suivants utilisent
l'ordre poids fort en dernier (big-endian) ; ou FF FE pour indiquer
l'ordre poids faible en dernier (little-endian). Alors qu'UTF-8 n'a
aucun problème d'ordre des octets, un BOM codé en UTF-8 peut être mis
pour identifier un fichier comme UTF-8, mais ce n'est pas recommandé
puisque ce BOM ne sert à rien, l'ordre des octets étant fixe en UTF-8.

J'ajoute que le BOM en UTF-8 est d'autant plus inutile que UTF-8 est
très facile à reconnaître : je n'ai entendu parler de confusion possible
que dans le cas d'un fichier en chinois de 4 octets.

Si on utilise un éditeur de texte (ou autre logiciel éditeur
hexadécimal) qui permet de voir le fichier sous forme hexadécimale,
c'est à dire avec une suite d'octets qui en représente le contenu, on
peut voir si il y a des caractères supplémentaires (BOM) au début du
fichier.

Par exemple, en vue héxadécimale, le début d'un fichier.php normal est :

00000000 3C3F 7068 700D 0A2F 2A2A 2A2A 2A2A <?php..//******
0000000E 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************
0000001C 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************

Le même fichier avec entête BOM est :

00000000 EFBB BF3C 3F70 6870 0D0A 2F2A 2A2A ï»¿<?php..//***
0000000E 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************
0000001C 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A 2A2A **************

On voit bien que trois octets sont insérés au début du fichier : EF BB
BF, c'est l'entête BOM. La plupart du temps, ces trois octets sont vus
comme caractères : “ï»¿” dans la fenêtre du navigateur ce qui permet de
déterminer qu'il s'agit bien d'une entête BOM.

Encore une fois, on ne verra ces caractères qu'en iso-8859-1, Win-1252
ou équivalent. Un BOM peut très bien passer inaperçu tout en étant
nuisible dans de nombreux cas.

Il faut toujours vérifier, lorsque l'on sauvegarde un fichier modifié,
que le logiciel donne une option “Sans BOM” ou que celle-ci fait partie
des Réglages ou Préférences du logiciel.

Lorsque l'on édite/modifie un fichier, bien faire attention aux options
ou préférences dudit logiciel :

Pas de transcodage automatique
Le fichier sauvegardé doit garder son codage d'origine, par exemple
pas de transcodage automatique ASCII -> UTF8
Pas d'ajout d'entête BOM si celle-ci n'existait pas

Faire aussi attention aux logiciels de téléchargement et de transfert de
fichiers (FTP) qui ne doivent, en aucune manière, modifier quoi que ce
soit.

Oui à tout (si ce n'est qu'un transcodage ASCII -> UTF-8 est une
opération qui ne fait rien, pourvu qu'il s'agisse d'UTF-8 simple, sans
BOM).

Beaucoup de logiciels Windows (incluant Notepad) ajoutent un BOM aux
fichiers UTF-8 si on n'y prend pas garde. C'est pourquoi il est
recommandé d'utiliser Notepad++ (Gratuit :
http://notepad-plus.sourceforge.net/fr/site.htm) qui indique, en bas de
page, dans la barre d'état, diverses informations dont le codage du
fichier :

ANSI
ANSI as UTF-8 (C'est la version UTF-8 sans BOM)
UTF-8 (C'est la version UTF-8 avec BOM)
etc.

Beurk ! « ANSI as UTF-8 » pour de l'UTF-8 sans BOM ? Qui a pu avoir
le cerveau assez dérangé pour inventer une telle dénomination ? Et
« UTF-8 » seulement pour la version avec BOM ? Tout est fait pour
tromper l'utilisateur, on dirait. :-(

et qui permet, via le menu Encodage, de convertir d'un codage vers un
autre.

Ainsi, si on se retrouve, sans le vouloir, avec les caractères “ï»¿”, il
suffit d'ouvrir, avec Notepad++ le fichier incriminé, de changer le
codage via le menu Encodage .

Ok.

Cordialement,
--
Olivier Miakinen

alainL

02/09/2014 à 11:36

Parfait, ça marche !
Un grand merci et bonne journée.

AlainL

http://autourdalos.fr

Le 02/09/2014 10:17, Olivier Miakinen a écrit :

htmlspecialchars($donneesligne[...], ENT_QUOTES|ENT_SUBSTITUTE,
"ISO-8859-1");

Otomatic

02/09/2014 à 14:48

Olivier Miakinen <om+ écrivait :

> ANSI
> ANSI as UTF-8 (C'est la version UTF-8 sans BOM)
> UTF-8 (C'est la version UTF-8 avec BOM)
> etc.

Beurk ! « ANSI as UTF-8 » pour de l'UTF-8 sans BOM ? Qui a pu avoir
le cerveau assez dérangé pour inventer une telle dénomination ? Et
« UTF-8 » seulement pour la version avec BOM ? Tout est fait pour
tromper l'utilisateur, on dirait. :-(

J'avais demandé à ce que ce soit modifié pour éviter de « tromper »
l'utilisateur.
Maintenant, c'est :
- 'UTF-8 w/o BOM' pour UTF-8 sans BOM
- 'UTF-8' pour UTF-8 avec BOM
--
Ce n'est pas parce qu'ils sont nombreux à avoir tort
qu'ils ont forcément raison. Coluche

Olivier Miakinen

02/09/2014 à 15:01

Le 02/09/2014 14:48, Otomatic a écrit :

> ANSI as UTF-8 (C'est la version UTF-8 sans BOM)
> UTF-8 (C'est la version UTF-8 avec BOM)

[...] Tout est fait pour tromper l'utilisateur, on dirait. :-(

J'avais demandé à ce que ce soit modifié pour éviter de « tromper »
l'utilisateur.
Maintenant, c'est :
- 'UTF-8 w/o BOM' pour UTF-8 sans BOM
- 'UTF-8' pour UTF-8 avec BOM

Même si j'aurais préféré respectivement 'UTF-8 w/o BOM' et 'UTF-8
with BOM', voire 'UTF-8' et 'UTF-8 with BOM', c'est déjà beaucoup
mieux. Merci de l'avoir demandé... et obtenu !

Denis Beauregard

02/09/2014 à 15:06

Le Tue, 02 Sep 2014 14:48:52 +0200, Otomatic
écrivait dans fr.comp.lang.php:

Olivier Miakinen <om+ écrivait :

> ANSI
> ANSI as UTF-8 (C'est la version UTF-8 sans BOM)
> UTF-8 (C'est la version UTF-8 avec BOM)
> etc.

Beurk ! « ANSI as UTF-8 » pour de l'UTF-8 sans BOM ? Qui a pu avoir
le cerveau assez dérangé pour inventer une telle dénomination ? Et
« UTF-8 » seulement pour la version avec BOM ? Tout est fait pour
tromper l'utilisateur, on dirait. :-(

J'avais demandé à ce que ce soit modifié pour éviter de « tromper »
l'utilisateur.
Maintenant, c'est :
- 'UTF-8 w/o BOM' pour UTF-8 sans BOM
- 'UTF-8' pour UTF-8 avec BOM

J'ai la version française et je pense que j'ai toujours lu

Encoder en UTF-8 (sans BOM)

Je ne me rappelle pas avoir lu ANSI pour UTF-8 mais je n'utilise que
depuis 2 ou 3 ans.

Denis

Otomatic

02/09/2014 à 15:35

Denis Beauregard
écrivait :

Encoder en UTF-8 (sans BOM)

Je ne me rappelle pas avoir lu ANSI pour UTF-8 mais je n'utilise que
depuis 2 ou 3 ans.

Ce dont je « parlais », c'est ce qui est indiqué dans la ligne d'état,
pas des intitulés des options du menu de transcodage.

Otomatic

02/09/2014 à 15:35

Olivier Miakinen <om+ écrivait :

Même si j'aurais préféré respectivement 'UTF-8 w/o BOM' et 'UTF-8
with BOM', voire 'UTF-8' et 'UTF-8 with BOM', c'est déjà beaucoup
mieux. Merci de l'avoir demandé... et obtenu !

Et moi aussi !
Je préfère l'explicite à l'implicite(1). Mais, c'est mieux que rien.
Du coup, je viens de faire une demande similaire pour UltraEdit.

(1) En tant qu'ancien contrôleur qualité principal dans l'aéronautique,
je faisais appliquer :
Tout ce qui n'est pas explicitement autorisé est implicitement interdit.
--
Envoyé depuis mon Apple ][ Europlus et
Carte Appletell en réversible 1200/75

Eric Demeester

02/09/2014 à 15:57

Denis Beauregard (Tue, 02 Sep 2014 09:06:06 -0400 - fr.comp.lang.php) :

J'ai la version française et je pense que j'ai toujours lu
Encoder en UTF-8 (sans BOM)

C'est bien ça.

Je ne me rappelle pas avoir lu ANSI pour UTF-8 mais je n'utilise que
depuis 2 ou 3 ans.

Au delà de la réponse d'Automatic, il me semble qu'ANSI (dans le menu de
choix d'encodage) se rapporte à ce qu'on a choisi comme table dans
« Langues d'Europe occidentale », à savoir le plus communément
ISO-8859-1(5) ou cp1252 (Windows).

Quelqu'un pour confirmer ou infirmer cette interprétation pifométrique ?

encodage mal programmé ?

10 réponses

Veuillez sélectionner un problème