Encodage de caractére.

8 réponses

playload

26/11/2007 à 19:35

Salut a tous,

Ma question est simple... :

Existe-t-il une commande ou un moyen de déterminer le type d'encodage qui a
été utilisé sur un fichier texte ??? (isoxxxx, UTF-8, UTF-16...)

Même en ouvrant le fichier texte avec un éditeur hexa, je n'ai pas trouvé
d'entête d'information...

Merci pour votre aide.

8 réponses

doug713705

26/11/2007 à 21:28

Le lundi 26 novembre 2007 19:35, playload s'est exprimé de la sorte sur
fr.comp.os.linux.configuration :

Salut a tous,

Ma question est simple... :

Existe-t-il une commande ou un moyen de déterminer le type d'encodage qui
a été utilisé sur un fichier texte ??? (isoxxxx, UTF-8, UTF-16...)

Même en ouvrant le fichier texte avec un éditeur hexa, je n'ai pas trouvé
d'entête d'information...

file mon_fichier devrait le faire me semble t-il

--
[ Plus ou moins avec une chance de peut-être ]
- Pour me contacter, enlever nospam (2X) -

Olivier V

26/11/2007 à 22:07

Existe-t-il une commande ou un moyen de déterminer le type d'encodage qui
a été utilisé sur un fichier texte ??? (isoxxxx, UTF-8, UTF-16...)

Il y a file -i fichier.txt

Mais il me semble que l'iso-8859-1 est traité comme si c'était de
l'iso-8859-15.

Olivier V

geo cherchetout

26/11/2007 à 22:34

Le 26.11.2007 19:35, *playload* a écrit fort à propos :

Salut a tous,

Ma question est simple... :

Existe-t-il une commande ou un moyen de déterminer le type d'encodage qui a
été utilisé sur un fichier texte ??? (isoxxxx, UTF-8, UTF-16...)

Bonsoir,
utrac m'a déjà rendu ce service :
utrac -p fichier

moi-meme

27/11/2007 à 09:39

Olivier V wrote:
Il y a file -i fichier.txt

Mais il me semble que l'iso-8859-1 est traité comme si c'était de
l'iso-8859-15.

l'UTF-8 il le voit bien :facile

Nicolas George

27/11/2007 à 12:50

playload wrote in message <474b11f5$0$5695$:

Même en ouvrant le fichier texte avec un éditeur hexa, je n'ai pas trouvé
d'entête d'information...

C'est normal : c'est bien la définition d'un fichier texte, de ne pas avoir
d'entête particulier ni de format imposé.

mpg

27/11/2007 à 21:47

Le (on) mardi 27 novembre 2007 21:40, Erwan David a écrit (wrote) :

mpg écrivait :

Par contre, il est possible d'estimer (encore plus si on en connaît la
langue, mais on peut faire sans) la probabilité que le fichier soit dans
tel ou tel encodage, et même de le faire de façon assez précise si le
fichier est assez long : ce qui explique que ce genre de programme puisse
quand même être utile en pratique. Mais il faut savoir qu'il peut se
tromper.

surtout quand les 2 encodages encodent les même langues, et ont peu de
caractères différents, comme iso-8859-1 et iso-8859-15

Encore que, si une fichier comporte des octets de valeur comprise entre 128

et 143, il y a assez peut de chances que ce soit de l'iso-8859-1 : ce ces
des caratères de contrôle il me semble.

Dans l'autre sens, c'est plus dur. Et si on fait entrer en jeu des encodages
propriétaires voisins comme le cp1252, ça commence à me paraître très
douteux.

Manuel.

mpg

27/11/2007 à 21:51

Le (on) mardi 27 novembre 2007 21:47, mpg a écrit (wrote) :

Le (on) mardi 27 novembre 2007 21:40, Erwan David a écrit (wrote) :

mpg écrivait :

Par contre, il est possible d'estimer (encore plus si on en connaît la
langue, mais on peut faire sans) la probabilité que le fichier soit dans
tel ou tel encodage, et même de le faire de façon assez précise si le
fichier est assez long : ce qui explique que ce genre de programme
puisse quand même être utile en pratique. Mais il faut savoir qu'il peut
se tromper.

surtout quand les 2 encodages encodent les même langues, et ont peu de
caractères différents, comme iso-8859-1 et iso-8859-15

Encore que, si une fichier comporte des octets de valeur comprise entre

128 et 143, il y a assez peut de chances que ce soit de l'iso-8859-1 : ce
ces des caratères de contrôle il me semble.

Rhâzut, j'aurais du vérifier avant. Ce sont aussi des caractères de contrôle

en iso-8859-15. Avais confondu avec cp1252 qui lui, est un vrai
prolongement de iso-8859-1...

Bref, le principe reste : on a des chances de deviner juste, mais ça peut
aussi tomber faux assez facilement.

Manuel.

geo cherchetout

27/11/2007 à 23:54

Le 27.11.2007 21:51, *mpg* a écrit fort à propos :

Bref, le principe reste : on a des chances de deviner juste, mais ça peut
aussi tomber faux assez facilement.

Ce que confirme bien le man de utrac (que j'avais lu) :

Utrac is a tool (and a library) that recognize the charset and the end of
line type used in a text file. It can also convert it. In case of 8bits
charsets, recognition is not sure, so it can also assist the user to choose
the correct charset, for instance by filtering the text and displaying only
lines that matter.

Encodage de caractére.

8 réponses

Veuillez sélectionner un problème