Même en ouvrant le fichier texte avec un éditeur hexa, je n'ai pas trouvé d'entête d'information...
C'est normal : c'est bien la définition d'un fichier texte, de ne pas avoir d'entête particulier ni de format imposé.
mpg
Le (on) mardi 27 novembre 2007 21:40, Erwan David a écrit (wrote) :
mpg écrivait :
Par contre, il est possible d'estimer (encore plus si on en connaît la langue, mais on peut faire sans) la probabilité que le fichier soit dans tel ou tel encodage, et même de le faire de façon assez précise si le fichier est assez long : ce qui explique que ce genre de programme puisse quand même être utile en pratique. Mais il faut savoir qu'il peut se tromper.
surtout quand les 2 encodages encodent les même langues, et ont peu de caractères différents, comme iso-8859-1 et iso-8859-15
Encore que, si une fichier comporte des octets de valeur comprise entre 128
et 143, il y a assez peut de chances que ce soit de l'iso-8859-1 : ce ces des caratères de contrôle il me semble.
Dans l'autre sens, c'est plus dur. Et si on fait entrer en jeu des encodages propriétaires voisins comme le cp1252, ça commence à me paraître très douteux.
Manuel.
Le (on) mardi 27 novembre 2007 21:40, Erwan David a écrit (wrote) :
mpg <manuel.pg@free.fr> écrivait :
Par contre, il est possible d'estimer (encore plus si on en connaît la
langue, mais on peut faire sans) la probabilité que le fichier soit dans
tel ou tel encodage, et même de le faire de façon assez précise si le
fichier est assez long : ce qui explique que ce genre de programme puisse
quand même être utile en pratique. Mais il faut savoir qu'il peut se
tromper.
surtout quand les 2 encodages encodent les même langues, et ont peu de
caractères différents, comme iso-8859-1 et iso-8859-15
Encore que, si une fichier comporte des octets de valeur comprise entre 128
et 143, il y a assez peut de chances que ce soit de l'iso-8859-1 : ce ces
des caratères de contrôle il me semble.
Dans l'autre sens, c'est plus dur. Et si on fait entrer en jeu des encodages
propriétaires voisins comme le cp1252, ça commence à me paraître très
douteux.
Le (on) mardi 27 novembre 2007 21:40, Erwan David a écrit (wrote) :
mpg écrivait :
Par contre, il est possible d'estimer (encore plus si on en connaît la langue, mais on peut faire sans) la probabilité que le fichier soit dans tel ou tel encodage, et même de le faire de façon assez précise si le fichier est assez long : ce qui explique que ce genre de programme puisse quand même être utile en pratique. Mais il faut savoir qu'il peut se tromper.
surtout quand les 2 encodages encodent les même langues, et ont peu de caractères différents, comme iso-8859-1 et iso-8859-15
Encore que, si une fichier comporte des octets de valeur comprise entre 128
et 143, il y a assez peut de chances que ce soit de l'iso-8859-1 : ce ces des caratères de contrôle il me semble.
Dans l'autre sens, c'est plus dur. Et si on fait entrer en jeu des encodages propriétaires voisins comme le cp1252, ça commence à me paraître très douteux.
Manuel.
mpg
Le (on) mardi 27 novembre 2007 21:47, mpg a écrit (wrote) :
Le (on) mardi 27 novembre 2007 21:40, Erwan David a écrit (wrote) :
mpg écrivait :
Par contre, il est possible d'estimer (encore plus si on en connaît la langue, mais on peut faire sans) la probabilité que le fichier soit dans tel ou tel encodage, et même de le faire de façon assez précise si le fichier est assez long : ce qui explique que ce genre de programme puisse quand même être utile en pratique. Mais il faut savoir qu'il peut se tromper.
surtout quand les 2 encodages encodent les même langues, et ont peu de caractères différents, comme iso-8859-1 et iso-8859-15
Encore que, si une fichier comporte des octets de valeur comprise entre
128 et 143, il y a assez peut de chances que ce soit de l'iso-8859-1 : ce ces des caratères de contrôle il me semble.
Rhâzut, j'aurais du vérifier avant. Ce sont aussi des caractères de contrôle
en iso-8859-15. Avais confondu avec cp1252 qui lui, est un vrai prolongement de iso-8859-1...
Bref, le principe reste : on a des chances de deviner juste, mais ça peut aussi tomber faux assez facilement.
Manuel.
Le (on) mardi 27 novembre 2007 21:47, mpg a écrit (wrote) :
Le (on) mardi 27 novembre 2007 21:40, Erwan David a écrit (wrote) :
mpg <manuel.pg@free.fr> écrivait :
Par contre, il est possible d'estimer (encore plus si on en connaît la
langue, mais on peut faire sans) la probabilité que le fichier soit dans
tel ou tel encodage, et même de le faire de façon assez précise si le
fichier est assez long : ce qui explique que ce genre de programme
puisse quand même être utile en pratique. Mais il faut savoir qu'il peut
se tromper.
surtout quand les 2 encodages encodent les même langues, et ont peu de
caractères différents, comme iso-8859-1 et iso-8859-15
Encore que, si une fichier comporte des octets de valeur comprise entre
128 et 143, il y a assez peut de chances que ce soit de l'iso-8859-1 : ce
ces des caratères de contrôle il me semble.
Rhâzut, j'aurais du vérifier avant. Ce sont aussi des caractères de contrôle
en iso-8859-15. Avais confondu avec cp1252 qui lui, est un vrai
prolongement de iso-8859-1...
Bref, le principe reste : on a des chances de deviner juste, mais ça peut
aussi tomber faux assez facilement.
Le (on) mardi 27 novembre 2007 21:47, mpg a écrit (wrote) :
Le (on) mardi 27 novembre 2007 21:40, Erwan David a écrit (wrote) :
mpg écrivait :
Par contre, il est possible d'estimer (encore plus si on en connaît la langue, mais on peut faire sans) la probabilité que le fichier soit dans tel ou tel encodage, et même de le faire de façon assez précise si le fichier est assez long : ce qui explique que ce genre de programme puisse quand même être utile en pratique. Mais il faut savoir qu'il peut se tromper.
surtout quand les 2 encodages encodent les même langues, et ont peu de caractères différents, comme iso-8859-1 et iso-8859-15
Encore que, si une fichier comporte des octets de valeur comprise entre
128 et 143, il y a assez peut de chances que ce soit de l'iso-8859-1 : ce ces des caratères de contrôle il me semble.
Rhâzut, j'aurais du vérifier avant. Ce sont aussi des caractères de contrôle
en iso-8859-15. Avais confondu avec cp1252 qui lui, est un vrai prolongement de iso-8859-1...
Bref, le principe reste : on a des chances de deviner juste, mais ça peut aussi tomber faux assez facilement.
Manuel.
geo cherchetout
Le 27.11.2007 21:51, *mpg* a écrit fort à propos :
Bref, le principe reste : on a des chances de deviner juste, mais ça peut aussi tomber faux assez facilement.
Ce que confirme bien le man de utrac (que j'avais lu) :
Utrac is a tool (and a library) that recognize the charset and the end of line type used in a text file. It can also convert it. In case of 8bits charsets, recognition is not sure, so it can also assist the user to choose the correct charset, for instance by filtering the text and displaying only lines that matter.
Le 27.11.2007 21:51, *mpg* a écrit fort à propos :
Bref, le principe reste : on a des chances de deviner juste, mais ça peut
aussi tomber faux assez facilement.
Ce que confirme bien le man de utrac (que j'avais lu) :
Utrac is a tool (and a library) that recognize the charset and the end of
line type used in a text file. It can also convert it. In case of 8bits
charsets, recognition is not sure, so it can also assist the user to choose
the correct charset, for instance by filtering the text and displaying only
lines that matter.
Le 27.11.2007 21:51, *mpg* a écrit fort à propos :
Bref, le principe reste : on a des chances de deviner juste, mais ça peut aussi tomber faux assez facilement.
Ce que confirme bien le man de utrac (que j'avais lu) :
Utrac is a tool (and a library) that recognize the charset and the end of line type used in a text file. It can also convert it. In case of 8bits charsets, recognition is not sure, so it can also assist the user to choose the correct charset, for instance by filtering the text and displaying only lines that matter.