Encodage de caractére.

Le
playload
Salut a tous,

Ma question est simple :

Existe-t-il une commande ou un moyen de déterminer le type d'encodage qui a
été utilisé sur un fichier texte ??? (isoxxxx, UTF-8, UTF-16)

Même en ouvrant le fichier texte avec un éditeur hexa, je n'ai pas trouvé
d'entête d'information

Merci pour votre aide.
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
doug713705
Le #1906902
Le lundi 26 novembre 2007 19:35, playload s'est exprimé de la sorte sur
fr.comp.os.linux.configuration :

Salut a tous,

Ma question est simple... :

Existe-t-il une commande ou un moyen de déterminer le type d'encodage qui
a été utilisé sur un fichier texte ??? (isoxxxx, UTF-8, UTF-16...)

Même en ouvrant le fichier texte avec un éditeur hexa, je n'ai pas trouvé
d'entête d'information...



file mon_fichier devrait le faire me semble t-il

--
[ Plus ou moins avec une chance de peut-être ]
- Pour me contacter, enlever nospam (2X) -

Olivier V
Le #1906901

Existe-t-il une commande ou un moyen de déterminer le type d'encodage qui
a été utilisé sur un fichier texte ??? (isoxxxx, UTF-8, UTF-16...)


Il y a file -i fichier.txt

Mais il me semble que l'iso-8859-1 est traité comme si c'était de
l'iso-8859-15.

Olivier V

geo cherchetout
Le #1906900
Le 26.11.2007 19:35, *playload* a écrit fort à propos :
Salut a tous,

Ma question est simple... :

Existe-t-il une commande ou un moyen de déterminer le type d'encodage qui a
été utilisé sur un fichier texte ??? (isoxxxx, UTF-8, UTF-16...)


Bonsoir,
utrac m'a déjà rendu ce service :
utrac -p fichier

moi-meme
Le #1906897
Olivier V wrote:
Il y a file -i fichier.txt
Mais il me semble que l'iso-8859-1 est traité comme si c'était de
l'iso-8859-15.


l'UTF-8 il le voit bien :facile

Nicolas George
Le #1906892
playload wrote in message
Même en ouvrant le fichier texte avec un éditeur hexa, je n'ai pas trouvé
d'entête d'information...


C'est normal : c'est bien la définition d'un fichier texte, de ne pas avoir
d'entête particulier ni de format imposé.

mpg
Le #1906874
Le (on) mardi 27 novembre 2007 21:40, Erwan David a écrit (wrote) :

mpg

Par contre, il est possible d'estimer (encore plus si on en connaît la
langue, mais on peut faire sans) la probabilité que le fichier soit dans
tel ou tel encodage, et même de le faire de façon assez précise si le
fichier est assez long : ce qui explique que ce genre de programme puisse
quand même être utile en pratique. Mais il faut savoir qu'il peut se
tromper.


surtout quand les 2 encodages encodent les même langues, et ont peu de
caractères différents, comme iso-8859-1 et iso-8859-15

Encore que, si une fichier comporte des octets de valeur comprise entre 128

et 143, il y a assez peut de chances que ce soit de l'iso-8859-1 : ce ces
des caratères de contrôle il me semble.

Dans l'autre sens, c'est plus dur. Et si on fait entrer en jeu des encodages
propriétaires voisins comme le cp1252, ça commence à me paraître très
douteux.

Manuel.


mpg
Le #1906873
Le (on) mardi 27 novembre 2007 21:47, mpg a écrit (wrote) :

Le (on) mardi 27 novembre 2007 21:40, Erwan David a écrit (wrote) :

mpg

Par contre, il est possible d'estimer (encore plus si on en connaît la
langue, mais on peut faire sans) la probabilité que le fichier soit dans
tel ou tel encodage, et même de le faire de façon assez précise si le
fichier est assez long : ce qui explique que ce genre de programme
puisse quand même être utile en pratique. Mais il faut savoir qu'il peut
se tromper.


surtout quand les 2 encodages encodent les même langues, et ont peu de
caractères différents, comme iso-8859-1 et iso-8859-15

Encore que, si une fichier comporte des octets de valeur comprise entre

128 et 143, il y a assez peut de chances que ce soit de l'iso-8859-1 : ce
ces des caratères de contrôle il me semble.

Rhâzut, j'aurais du vérifier avant. Ce sont aussi des caractères de contrôle

en iso-8859-15. Avais confondu avec cp1252 qui lui, est un vrai
prolongement de iso-8859-1...

Bref, le principe reste : on a des chances de deviner juste, mais ça peut
aussi tomber faux assez facilement.

Manuel.



geo cherchetout
Le #1906869
Le 27.11.2007 21:51, *mpg* a écrit fort à propos :

Bref, le principe reste : on a des chances de deviner juste, mais ça peut
aussi tomber faux assez facilement.


Ce que confirme bien le man de utrac (que j'avais lu) :

Utrac is a tool (and a library) that recognize the charset and the end of
line type used in a text file. It can also convert it. In case of 8bits
charsets, recognition is not sure, so it can also assist the user to choose
the correct charset, for instance by filtering the text and displaying only
lines that matter.

Publicité
Poster une réponse
Anonyme