Encoding encore et toujours..

5 réponses
Avatar
jerome moliere
--001a11c3ecbc6432f704e22f5f3d
Content-Type: text/plain; charset=UTF-8

Bonjour a tous,
j'ai un souci avec un fichier (export enorme en XMl de data venant d'un
systeme proprio sous Windows) je dois parser ce fichier et j'ai des
plantages ...
J'ai tente un :
file -bi <monfic>
il me dit ISO-8859-1

les editeurs de texte genre UltraEdit le voient en ISO-8859-15

j'ai tente un recode -f UTF-8 <fic>
et apres 15mn de moulinage mon parser se plante au meme endroit...

D'ou ma question, il y a t'il des outils plus avances que file / recode
pour manipuler les charsets ?des algos de detection plus aboutis...
bref je ne sais pas quelle tactique adoptee car changer le file.encoding de
ma JVM ne marche pas en fonctionnant a tatons

cordialement
J.MOLIERE - Mentor/J

--001a11c3ecbc6432f704e22f5f3d
Content-Type: text/html; charset=UTF-8

<div dir="ltr">Bonjour a tous,<div>j&#39;ai un souci avec un fichier (export enorme en XMl de data venant d&#39;un systeme proprio sous Windows) je dois parser ce fichier et j&#39;ai des plantages ...</div><div>J&#39;ai tente un :</div>

<div>file -bi &lt;monfic&gt;</div><div>il me dit ISO-8859-1</div><div><br></div><div>les editeurs de texte genre UltraEdit le voient en ISO-8859-15</div><div><br></div><div>j&#39;ai tente un recode -f UTF-8 &lt;fic&gt;</div>

<div>et apres 15mn de moulinage mon parser se plante au meme endroit...</div><div><br></div><div>D&#39;ou ma question, il y a t&#39;il des outils plus avances que file / recode pour manipuler les charsets ?des algos de detection plus aboutis...</div>

<div>bref je ne sais pas quelle tactique adoptee car changer le file.encoding de ma JVM ne marche pas en fonctionnant a tatons</div><div><br></div><div>cordialement<br clear="all"><div><div dir="ltr">J.MOLIERE - Mentor/J<br>

<br></div></div>
</div></div>

--001a11c3ecbc6432f704e22f5f3d--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/CAEGYFEK2ee9UXUng+Rgc3ZwRn2CH=nSyn5ozUBwaazJ65SCGdg@mail.gmail.com

5 réponses

Avatar
Yves Rutschle
On Tue, Jul 23, 2013 at 05:22:58PM +0200, jerome moliere wrote:
j'ai tente un recode -f UTF-8 <fic>
et apres 15mn de moulinage mon parser se plante au meme endroit...

D'ou ma question, il y a t'il des outils plus avances que file / recode
pour manipuler les charsets ?des algos de detection plus aboutis...



Je ne sais pas s'il est plus avancé ou plus stable, mais
iconv semble faire exactement la même chose que recode...

Y.

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Avatar
Bernard Schoenacker
Le Tue, 23 Jul 2013 17:22:58 +0200,
jerome moliere a écrit :

Bonjour a tous,
j'ai un souci avec un fichier (export enorme en XMl de data venant
d'un systeme proprio sous Windows) je dois parser ce fichier et j'ai
des plantages ...
J'ai tente un :
file -bi <monfic>
il me dit ISO-8859-1

les editeurs de texte genre UltraEdit le voient en ISO-8859-15

j'ai tente un recode -f UTF-8 <fic>
et apres 15mn de moulinage mon parser se plante au meme endroit...

D'ou ma question, il y a t'il des outils plus avances que file /
recode pour manipuler les charsets ?des algos de detection plus
aboutis... bref je ne sais pas quelle tactique adoptee car changer le
file.encoding de ma JVM ne marche pas en fonctionnant a tatons

cordialement
J.MOLIERE - Mentor/J



Bonjour,

ne serait pas possible d'employer Iconv et de réencoder
le fichier originel balte 1252 vers utf8 ?


slt
bernard

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Avatar
jerome moliere
--001a11c34772db8cb304e23de223
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: quoted-printable

merci a vous, en fait le probleme n'etait pas de l'encoding mais de la
donnee reellement pourrie et comment l'exploiter avec un fichier XML de
4Go, vue la volumetrie du fichier j'avais abaisse mon niveau de traces ....
Navre ..mais du coup j'ai fait mumuse avec iconv, que j'avais precedemment
cherche avec aptitude et qui en fait vient preinstalle avec la libc...

merci encore
jerome

J.MOLIERE - Mentor/J



Le 23 juillet 2013 18:04, Bernard Schoenacker
a écrit :

Le Tue, 23 Jul 2013 17:22:58 +0200,
jerome moliere a écrit :

> Bonjour a tous,
> j'ai un souci avec un fichier (export enorme en XMl de data venant
> d'un systeme proprio sous Windows) je dois parser ce fichier et j'ai
> des plantages ...
> J'ai tente un :
> file -bi <monfic>
> il me dit ISO-8859-1
>
> les editeurs de texte genre UltraEdit le voient en ISO-8859-15
>
> j'ai tente un recode -f UTF-8 <fic>
> et apres 15mn de moulinage mon parser se plante au meme endroit...
>
> D'ou ma question, il y a t'il des outils plus avances que file /
> recode pour manipuler les charsets ?des algos de detection plus
> aboutis... bref je ne sais pas quelle tactique adoptee car changer le
> file.encoding de ma JVM ne marche pas en fonctionnant a tatons
>
> cordialement
> J.MOLIERE - Mentor/J

Bonjour,

ne serait pas possible d'employer Iconv et de réencoder
le fichier originel balte 1252 vers utf8 ?


slt
bernard

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive:
http://lists.debian.org/ fr





--001a11c34772db8cb304e23de223
Content-Type: text/html; charset=UTF-8
Content-Transfer-Encoding: quoted-printable

<div dir="ltr">merci a vous, en fait le probleme n&#39;etait pas de l&#39 ;encoding mais de la donnee reellement pourrie et comment l&#39;exploiter a vec un fichier XML de 4Go, vue la volumetrie du fichier j&#39;avais abaisse mon niveau de traces ....<div>

Navre ..mais du coup j&#39;ai fait mumuse avec iconv, que j&#39;avais prece demment cherche avec aptitude et qui en fait vient preinstalle avec la libc ...</div><div><br></div><div>merci encore</div><div>jerome</div></div>
<div class="gmail_extra">
<br clear="all"><div><div dir="ltr">J.MOLIERE - Mentor/J<br><br></div>< /div>
<br><br><div class="gmail_quote">Le 23 juillet 2013 18:04, Bernard Schoen acker <span dir="ltr">&lt;<a href="mailto:" target="_blank"></a>&gt;</span> a écrit : <br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-lef t:1px #ccc solid;padding-left:1ex">

Le Tue, 23 Jul 2013 17:22:58 +0200,<br>
jerome moliere &lt;<a href="mailto:">jerome.molie </a>&gt; a écrit :<br>
<div><div class="h5"><br>
&gt; Bonjour a tous,<br>
&gt; j&#39;ai un souci avec un fichier (export enorme en XMl de data venant <br>
&gt; d&#39;un systeme proprio sous Windows) je dois parser ce fichier et j& #39;ai<br>
&gt; des plantages ...<br>
&gt; J&#39;ai tente un :<br>
&gt; file -bi &lt;monfic&gt;<br>
&gt; il me dit ISO-8859-1<br>
&gt;<br>
&gt; les editeurs de texte genre UltraEdit le voient en ISO-8859-15<br>
&gt;<br>
&gt; j&#39;ai tente un recode -f UTF-8 &lt;fic&gt;<br>
&gt; et apres 15mn de moulinage mon parser se plante au meme endroit...<br>
&gt;<br>
&gt; D&#39;ou ma question, il y a t&#39;il des outils plus avances que file /<br>
&gt; recode pour manipuler les charsets ?des algos de detection plus<br>
&gt; aboutis... bref je ne sais pas quelle tactique adoptee car changer le< br>
&gt; file.encoding de ma JVM ne marche pas en fonctionnant a tatons<br>
&gt;<br>
&gt; cordialement<br>
&gt; J.MOLIERE - Mentor/J<br>
<br>
</div></div>Bonjour,<br>
<br>
        ne serait pas possible d&#39;employer Iconv et de réencoder<br>
        le fichier originel balte 1252 vers utf8 ?<br>
<br>
<br>
        slt<br>
        bernard<br>
<div class="im"><br>
--<br>
Lisez la FAQ de la liste avant de poser une question :<br>
<a href="http://wiki.debian.org/fr/FrenchLists" target="_blank">http:// wiki.debian.org/fr/FrenchLists</a><br>
<br>
Pour vous DESABONNER, envoyez un message avec comme objet &quot;unsubscribe &quot;<br>
vers <a href="mailto:">debian- </a><br>
En cas de soucis, contactez EN ANGLAIS <a href="mailto: ebian.org"></a><br>
</div>Archive: <a href="http://lists.debian.org/20130723180431.75f8122d.b " target="_blank">http://lists.debian.org/20130 </a><br>
<br>
</blockquote></div><br></div>

--001a11c34772db8cb304e23de223--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/CAEGYFEJOE+
Avatar
Sylvain L. Sauvage
’jour,

Le mercredi 24 juillet 2013 10:41:53 jerome moliere a écrit :
merci a vous, en fait le probleme n'etait pas de l'encoding
mais de la donnee reellement pourrie et comment l'exploiter
avec un fichier XML de 4Go, vue la volumetrie du fichier […]



Bonheurifié que ta problématique a été solutionna lisée dans
une temporalité écourtée mais c’est le *volume* des données ou
la taille du fichier. La volumétrie, c’est la mesure du vo lume,
donc la méthode ou la technique utilisée, pas le résulta t.

Juste parce que cette dérive m’énerve…

[Au passage, ce serait bien d’apprendre à citer…]

--
Sylvain Sauvage

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Avatar
jerome moliere
--001a11c3327af9291e04e2407e51
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: quoted-printable

Precision et rectification acceptees...Oui c'est bien de la taille du
fichier et en voie de consequence du volume de donnes manipule dont je
voulais parler...Maitre Capellovici du monde libre ? -)
Tu as raison ces phrases toutes faites sont souvent stupides merci de
m'avoir tacle judicieusement..-)
Plus aucune semantique derriere ces juxtapositions incongrues de mots...

Jerome

J.MOLIERE - Mentor/J



Le 24 juillet 2013 13:07, Sylvain L. Sauvage a
écrit :

’jour,

Le mercredi 24 juillet 2013 10:41:53 jerome moliere a écrit :
> merci a vous, en fait le probleme n'etait pas de l'encoding
> mais de la donnee reellement pourrie et comment l'exploiter
> avec un fichier XML de 4Go, vue la volumetrie du fichier […]

Bonheurifié que ta problématique a été solutionnali sée dans
une temporalité écourtée mais c’est le *volume* de s données ou
la taille du fichier. La volumétrie, c’est la mesure du volu me,
donc la méthode ou la technique utilisée, pas le résultat.

Juste parce que cette dérive m’énerve…

[Au passage, ce serait bien d’apprendre à citer…]

--
Sylvain Sauvage

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/





--001a11c3327af9291e04e2407e51
Content-Type: text/html; charset=UTF-8
Content-Transfer-Encoding: quoted-printable

<div dir="ltr">Precision et rectification acceptees...Oui c&#39;est bien de la taille du fichier et en voie de consequence du volume de donnes manip ule dont je voulais parler...Maitre Capellovici du monde libre ? -)<div>Tu as raison ces phrases toutes faites sont souvent stupides merci de m&#39;av oir tacle judicieusement..-)</div>

<div>Plus aucune semantique derriere ces juxtapositions incongrues de mots. ..</div><div><br></div><div>Jerome</div></div><div class="gmail_extra"><b r clear="all"><div><div dir="ltr">J.MOLIERE - Mentor/J<br><br></div></d iv>


<br><br><div class="gmail_quote">Le 24 juillet 2013 13:07, Sylvain L. Sau vage <span dir="ltr">&lt;<a href="mailto:" tar get="_blank"></a>&gt;</span> a écrit :<br>< blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

’jour,<br>
<br>
Le mercredi 24 juillet 2013 10:41:53 jerome moliere a écrit :<br>
&gt; merci a vous, en fait le probleme n&#39;etait pas de l&#39;encoding<br >
&gt; mais de la donnee reellement pourrie et comment l&#39;exploiter<br>
&gt; avec un fichier XML de 4Go, vue la volumetrie du fichier […]<b r>
<br>
  Bonheurifié que ta problématique a été solutionn alisée dans<br>
une temporalité écourtée mais c’est le *volume* des données ou<br>
la taille du fichier. La volumétrie, c’est la mesure du volume ,<br>
donc la méthode ou la technique utilisée, pas le résultat.<b r>
<br>
  Juste parce que cette dérive m’énerve…<br>
<br>
[Au passage, ce serait bien d’apprendre à citer…]<br>
<span class="HOEnZb"><font color="#888888"><br>
--<br>
 Sylvain Sauvage<br>
<br>
--<br>
Lisez la FAQ de la liste avant de poser une question :<br>
<a href="http://wiki.debian.org/fr/FrenchLists" target="_blank">http:// wiki.debian.org/fr/FrenchLists</a><br>
<br>
Pour vous DESABONNER, envoyez un message avec comme objet &quot;unsubscribe &quot;<br>
vers <a href="mailto:">debian- </a><br>
En cas de soucis, contactez EN ANGLAIS <a href="mailto: ebian.org"></a><br>
Archive: <a href="http://lists.debian.org/" target="_blank">http://lists.debian.org/</ a><br>
<br>
</font></span></blockquote></div><br></div>

--001a11c3327af9291e04e2407e51--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/