Bonjour a tous,
j'ai un souci avec un fichier (export enorme en XMl de data venant d'un
systeme proprio sous Windows) je dois parser ce fichier et j'ai des
plantages ...
J'ai tente un :
file -bi <monfic>
il me dit ISO-8859-1
les editeurs de texte genre UltraEdit le voient en ISO-8859-15
j'ai tente un recode -f UTF-8 <fic>
et apres 15mn de moulinage mon parser se plante au meme endroit...
D'ou ma question, il y a t'il des outils plus avances que file / recode
pour manipuler les charsets ?des algos de detection plus aboutis...
bref je ne sais pas quelle tactique adoptee car changer le file.encoding de
ma JVM ne marche pas en fonctionnant a tatons
<div dir="ltr">Bonjour a tous,<div>j'ai un souci avec un fichier (export enorme en XMl de data venant d'un systeme proprio sous Windows) je dois parser ce fichier et j'ai des plantages ...</div><div>J'ai tente un :</div>
<div>file -bi <monfic></div><div>il me dit ISO-8859-1</div><div><br></div><div>les editeurs de texte genre UltraEdit le voient en ISO-8859-15</div><div><br></div><div>j'ai tente un recode -f UTF-8 <fic></div>
<div>et apres 15mn de moulinage mon parser se plante au meme endroit...</div><div><br></div><div>D'ou ma question, il y a t'il des outils plus avances que file / recode pour manipuler les charsets ?des algos de detection plus aboutis...</div>
<div>bref je ne sais pas quelle tactique adoptee car changer le file.encoding de ma JVM ne marche pas en fonctionnant a tatons</div><div><br></div><div>cordialement<br clear="all"><div><div dir="ltr">J.MOLIERE - Mentor/J<br>
<br></div></div>
</div></div>
--001a11c3ecbc6432f704e22f5f3d--
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/CAEGYFEK2ee9UXUng+Rgc3ZwRn2CH=nSyn5ozUBwaazJ65SCGdg@mail.gmail.com
Cette action est irreversible, confirmez la suppression du commentaire ?
Signaler le commentaire
Veuillez sélectionner un problème
Nudité
Violence
Harcèlement
Fraude
Vente illégale
Discours haineux
Terrorisme
Autre
Yves Rutschle
On Tue, Jul 23, 2013 at 05:22:58PM +0200, jerome moliere wrote:
j'ai tente un recode -f UTF-8 <fic> et apres 15mn de moulinage mon parser se plante au meme endroit...
D'ou ma question, il y a t'il des outils plus avances que file / recode pour manipuler les charsets ?des algos de detection plus aboutis...
Je ne sais pas s'il est plus avancé ou plus stable, mais iconv semble faire exactement la même chose que recode...
Y.
-- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe" vers En cas de soucis, contactez EN ANGLAIS Archive: http://lists.debian.org/
On Tue, Jul 23, 2013 at 05:22:58PM +0200, jerome moliere wrote:
j'ai tente un recode -f UTF-8 <fic>
et apres 15mn de moulinage mon parser se plante au meme endroit...
D'ou ma question, il y a t'il des outils plus avances que file / recode
pour manipuler les charsets ?des algos de detection plus aboutis...
Je ne sais pas s'il est plus avancé ou plus stable, mais
iconv semble faire exactement la même chose que recode...
Y.
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/20130723152839.GR24499@naryves.com
On Tue, Jul 23, 2013 at 05:22:58PM +0200, jerome moliere wrote:
j'ai tente un recode -f UTF-8 <fic> et apres 15mn de moulinage mon parser se plante au meme endroit...
D'ou ma question, il y a t'il des outils plus avances que file / recode pour manipuler les charsets ?des algos de detection plus aboutis...
Je ne sais pas s'il est plus avancé ou plus stable, mais iconv semble faire exactement la même chose que recode...
Y.
-- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe" vers En cas de soucis, contactez EN ANGLAIS Archive: http://lists.debian.org/
Bernard Schoenacker
Le Tue, 23 Jul 2013 17:22:58 +0200, jerome moliere a écrit :
Bonjour a tous, j'ai un souci avec un fichier (export enorme en XMl de data venant d'un systeme proprio sous Windows) je dois parser ce fichier et j'ai des plantages ... J'ai tente un : file -bi <monfic> il me dit ISO-8859-1
les editeurs de texte genre UltraEdit le voient en ISO-8859-15
j'ai tente un recode -f UTF-8 <fic> et apres 15mn de moulinage mon parser se plante au meme endroit...
D'ou ma question, il y a t'il des outils plus avances que file / recode pour manipuler les charsets ?des algos de detection plus aboutis... bref je ne sais pas quelle tactique adoptee car changer le file.encoding de ma JVM ne marche pas en fonctionnant a tatons
cordialement J.MOLIERE - Mentor/J
Bonjour,
ne serait pas possible d'employer Iconv et de réencoder le fichier originel balte 1252 vers utf8 ?
slt bernard
-- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe" vers En cas de soucis, contactez EN ANGLAIS Archive: http://lists.debian.org/
Le Tue, 23 Jul 2013 17:22:58 +0200,
jerome moliere <jerome.moliere@gmail.com> a écrit :
Bonjour a tous,
j'ai un souci avec un fichier (export enorme en XMl de data venant
d'un systeme proprio sous Windows) je dois parser ce fichier et j'ai
des plantages ...
J'ai tente un :
file -bi <monfic>
il me dit ISO-8859-1
les editeurs de texte genre UltraEdit le voient en ISO-8859-15
j'ai tente un recode -f UTF-8 <fic>
et apres 15mn de moulinage mon parser se plante au meme endroit...
D'ou ma question, il y a t'il des outils plus avances que file /
recode pour manipuler les charsets ?des algos de detection plus
aboutis... bref je ne sais pas quelle tactique adoptee car changer le
file.encoding de ma JVM ne marche pas en fonctionnant a tatons
cordialement
J.MOLIERE - Mentor/J
Bonjour,
ne serait pas possible d'employer Iconv et de réencoder
le fichier originel balte 1252 vers utf8 ?
slt
bernard
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/20130723180431.75f8122d.bernard.schoenacker@free.fr
Le Tue, 23 Jul 2013 17:22:58 +0200, jerome moliere a écrit :
Bonjour a tous, j'ai un souci avec un fichier (export enorme en XMl de data venant d'un systeme proprio sous Windows) je dois parser ce fichier et j'ai des plantages ... J'ai tente un : file -bi <monfic> il me dit ISO-8859-1
les editeurs de texte genre UltraEdit le voient en ISO-8859-15
j'ai tente un recode -f UTF-8 <fic> et apres 15mn de moulinage mon parser se plante au meme endroit...
D'ou ma question, il y a t'il des outils plus avances que file / recode pour manipuler les charsets ?des algos de detection plus aboutis... bref je ne sais pas quelle tactique adoptee car changer le file.encoding de ma JVM ne marche pas en fonctionnant a tatons
cordialement J.MOLIERE - Mentor/J
Bonjour,
ne serait pas possible d'employer Iconv et de réencoder le fichier originel balte 1252 vers utf8 ?
slt bernard
-- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe" vers En cas de soucis, contactez EN ANGLAIS Archive: http://lists.debian.org/
merci a vous, en fait le probleme n'etait pas de l'encoding mais de la donnee reellement pourrie et comment l'exploiter avec un fichier XML de 4Go, vue la volumetrie du fichier j'avais abaisse mon niveau de traces .... Navre ..mais du coup j'ai fait mumuse avec iconv, que j'avais precedemment cherche avec aptitude et qui en fait vient preinstalle avec la libc...
> Bonjour a tous, > j'ai un souci avec un fichier (export enorme en XMl de data venant > d'un systeme proprio sous Windows) je dois parser ce fichier et j'ai > des plantages ... > J'ai tente un : > file -bi <monfic> > il me dit ISO-8859-1 > > les editeurs de texte genre UltraEdit le voient en ISO-8859-15 > > j'ai tente un recode -f UTF-8 <fic> > et apres 15mn de moulinage mon parser se plante au meme endroit... > > D'ou ma question, il y a t'il des outils plus avances que file / > recode pour manipuler les charsets ?des algos de detection plus > aboutis... bref je ne sais pas quelle tactique adoptee car changer le > file.encoding de ma JVM ne marche pas en fonctionnant a tatons > > cordialement > J.MOLIERE - Mentor/J
-- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe" vers En cas de soucis, contactez EN ANGLAIS Archive: http://lists.debian.org/ fr
<div dir="ltr">merci a vous, en fait le probleme n'etait pas de l' ;encoding mais de la donnee reellement pourrie et comment l'exploiter a vec un fichier XML de 4Go, vue la volumetrie du fichier j'avais abaisse mon niveau de traces ....<div>
-- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe" vers En cas de soucis, contactez EN ANGLAIS Archive: http://lists.debian.org/CAEGYFEJOE+
merci a vous, en fait le probleme n'etait pas de l'encoding mais de la
donnee reellement pourrie et comment l'exploiter avec un fichier XML de
4Go, vue la volumetrie du fichier j'avais abaisse mon niveau de traces ....
Navre ..mais du coup j'ai fait mumuse avec iconv, que j'avais precedemment
cherche avec aptitude et qui en fait vient preinstalle avec la libc...
> Bonjour a tous,
> j'ai un souci avec un fichier (export enorme en XMl de data venant
> d'un systeme proprio sous Windows) je dois parser ce fichier et j'ai
> des plantages ...
> J'ai tente un :
> file -bi <monfic>
> il me dit ISO-8859-1
>
> les editeurs de texte genre UltraEdit le voient en ISO-8859-15
>
> j'ai tente un recode -f UTF-8 <fic>
> et apres 15mn de moulinage mon parser se plante au meme endroit...
>
> D'ou ma question, il y a t'il des outils plus avances que file /
> recode pour manipuler les charsets ?des algos de detection plus
> aboutis... bref je ne sais pas quelle tactique adoptee car changer le
> file.encoding de ma JVM ne marche pas en fonctionnant a tatons
>
> cordialement
> J.MOLIERE - Mentor/J
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive:
http://lists.debian.org/20130723180431.75f8122d.bernard.schoenacker@free. fr
<div dir="ltr">merci a vous, en fait le probleme n'etait pas de l' ;encoding mais de la donnee reellement pourrie et comment l'exploiter a vec un fichier XML de 4Go, vue la volumetrie du fichier j'avais abaisse mon niveau de traces ....<div>
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/CAEGYFEJOE+YFF7JyVXfBPqHXA2a7ucvja4FjJxNdeAR_bm3O1g@mail.gmail.com
merci a vous, en fait le probleme n'etait pas de l'encoding mais de la donnee reellement pourrie et comment l'exploiter avec un fichier XML de 4Go, vue la volumetrie du fichier j'avais abaisse mon niveau de traces .... Navre ..mais du coup j'ai fait mumuse avec iconv, que j'avais precedemment cherche avec aptitude et qui en fait vient preinstalle avec la libc...
> Bonjour a tous, > j'ai un souci avec un fichier (export enorme en XMl de data venant > d'un systeme proprio sous Windows) je dois parser ce fichier et j'ai > des plantages ... > J'ai tente un : > file -bi <monfic> > il me dit ISO-8859-1 > > les editeurs de texte genre UltraEdit le voient en ISO-8859-15 > > j'ai tente un recode -f UTF-8 <fic> > et apres 15mn de moulinage mon parser se plante au meme endroit... > > D'ou ma question, il y a t'il des outils plus avances que file / > recode pour manipuler les charsets ?des algos de detection plus > aboutis... bref je ne sais pas quelle tactique adoptee car changer le > file.encoding de ma JVM ne marche pas en fonctionnant a tatons > > cordialement > J.MOLIERE - Mentor/J
-- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe" vers En cas de soucis, contactez EN ANGLAIS Archive: http://lists.debian.org/ fr
<div dir="ltr">merci a vous, en fait le probleme n'etait pas de l' ;encoding mais de la donnee reellement pourrie et comment l'exploiter a vec un fichier XML de 4Go, vue la volumetrie du fichier j'avais abaisse mon niveau de traces ....<div>
-- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe" vers En cas de soucis, contactez EN ANGLAIS Archive: http://lists.debian.org/CAEGYFEJOE+
merci a vous, en fait le probleme n'etait pas de l'encoding mais de la donnee reellement pourrie et comment l'exploiter avec un fichier XML de 4Go, vue la volumetrie du fichier [â¦]
merci a vous, en fait le probleme n'etait pas de l'encoding
mais de la donnee reellement pourrie et comment l'exploiter
avec un fichier XML de 4Go, vue la volumetrie du fichier [â¦]
[Au passage, ce serait bien dâapprendre à citerâ¦]
--
Sylvain Sauvage
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/1374668297.777KbM182G@earendil
merci a vous, en fait le probleme n'etait pas de l'encoding mais de la donnee reellement pourrie et comment l'exploiter avec un fichier XML de 4Go, vue la volumetrie du fichier [â¦]
Precision et rectification acceptees...Oui c'est bien de la taille du fichier et en voie de consequence du volume de donnes manipule dont je voulais parler...Maitre Capellovici du monde libre ? -) Tu as raison ces phrases toutes faites sont souvent stupides merci de m'avoir tacle judicieusement..-) Plus aucune semantique derriere ces juxtapositions incongrues de mots...
<div dir="ltr">Precision et rectification acceptees...Oui c'est bien de la taille du fichier et en voie de consequence du volume de donnes manip ule dont je voulais parler...Maitre Capellovici du monde libre ? -)<div>Tu as raison ces phrases toutes faites sont souvent stupides merci de m'av oir tacle judicieusement..-)</div>
<div>Plus aucune semantique derriere ces juxtapositions incongrues de mots. ..</div><div><br></div><div>Jerome</div></div><div class="gmail_extra"><b r clear="all"><div><div dir="ltr">J.MOLIERE - Mentor/J<br><br></div></d iv>
Precision et rectification acceptees...Oui c'est bien de la taille du
fichier et en voie de consequence du volume de donnes manipule dont je
voulais parler...Maitre Capellovici du monde libre ? -)
Tu as raison ces phrases toutes faites sont souvent stupides merci de
m'avoir tacle judicieusement..-)
Plus aucune semantique derriere ces juxtapositions incongrues de mots...
[Au passage, ce serait bien dâapprendre à citerâ¦]
--
Sylvain Sauvage
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/1374668297.777KbM182G@earendil
<div dir="ltr">Precision et rectification acceptees...Oui c'est bien de la taille du fichier et en voie de consequence du volume de donnes manip ule dont je voulais parler...Maitre Capellovici du monde libre ? -)<div>Tu as raison ces phrases toutes faites sont souvent stupides merci de m'av oir tacle judicieusement..-)</div>
<div>Plus aucune semantique derriere ces juxtapositions incongrues de mots. ..</div><div><br></div><div>Jerome</div></div><div class="gmail_extra"><b r clear="all"><div><div dir="ltr">J.MOLIERE - Mentor/J<br><br></div></d iv>
--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists
Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/CAEGYFEL8BTFBLLGgD50WW9ggm7ii9NZW-0MVowrDnZG8XKXVAQ@mail.gmail.com
Precision et rectification acceptees...Oui c'est bien de la taille du fichier et en voie de consequence du volume de donnes manipule dont je voulais parler...Maitre Capellovici du monde libre ? -) Tu as raison ces phrases toutes faites sont souvent stupides merci de m'avoir tacle judicieusement..-) Plus aucune semantique derriere ces juxtapositions incongrues de mots...
<div dir="ltr">Precision et rectification acceptees...Oui c'est bien de la taille du fichier et en voie de consequence du volume de donnes manip ule dont je voulais parler...Maitre Capellovici du monde libre ? -)<div>Tu as raison ces phrases toutes faites sont souvent stupides merci de m'av oir tacle judicieusement..-)</div>
<div>Plus aucune semantique derriere ces juxtapositions incongrues de mots. ..</div><div><br></div><div>Jerome</div></div><div class="gmail_extra"><b r clear="all"><div><div dir="ltr">J.MOLIERE - Mentor/J<br><br></div></d iv>