Auto-intern()

6 réponses

Alain Ketterlin

24/09/2009 à 15:51

Salut,

J'ai un script qui manipule de tr=C3=A8s gros dictionnaires, lus dans un
fichier et reconstruits =C3=A0 l'aide de eval(). Il y a l=C3=A0-dedans plei=
n de
cha=C3=AEnes de caract=C3=A8res, avec beaucoup de r=C3=A9p=C3=A9tition.

Malheureusement, la m=C3=A9moire utilis=C3=A9e s'envole (plus de 6 giga ave=
c 200
ou 300 mega de texte original). Y a-t-il une possibilit=C3=A9 que les cha=
=C3=AEnes
soient automatiquement pass=C3=A9es =C3=A0 intern() ? Ou bien dois-je le fa=
ire =C3=A0
la main ?

Merci d'avance.

-- Alain.

6 réponses

Alain BARTHE

25/09/2009 à 11:07

Alain Ketterlin a écrit :

Salut,

J'ai un script qui manipule de très gros dictionnaires, lus dans un
fichier et reconstruits à l'aide de eval(). Il y a là-dedans plein de
chaînes de caractères, avec beaucoup de répétition.

Malheureusement, la mémoire utilisée s'envole (plus de 6 giga avec 200
ou 300 mega de texte original). Y a-t-il une possibilité que les chaînes
soient automatiquement passées à intern() ? Ou bien dois-je le faire à
la main ?

Merci d'avance.

-- Alain.

Pourquoi le eval() ?

Je ferais plutôt :
- Lire dans le fichier cle + valeur puis
- dico [cle] = valeur

D'où vient le fichier texte ?
S'il est géré par un appli Python (ou autre), tu gagnerais peut être à
utiliser sqllite : moins de données en mémoire, les clés gérées par
l'index, etc...

Il faudrait un peu plus d'infos pour répondre au problème.

Alain Ketterlin

25/09/2009 à 13:39

Alain BARTHE writes:

J'ai un script qui manipule de trÃ¨s gros dictionnaires, lus dans un
fichier et reconstruits Ã l'aide de eval(). Il y a lÃ -dedans p lein de
chaÃ®nes de caractÃ¨res, avec beaucoup de rÃ©pÃ©tition.

Pourquoi le eval() ?

Je ferais plutÃ´t :
- Lire dans le fichier cle + valeur puis
- dico [cle] = valeur

En fait, mes structures sont un peu plus compliquÃ©es qu'un seul niveau
de dictionnaire. Il y a une grosse structure de premier niveau, dans
laquelle plein de dÃ©tails sont lus sous la forme de litÃ©raux pyth on
(typiquement, Ã chaque fois, un dictionnaire dont les valeurs sont des
listes dont les Ã©lÃ©ments sont des arbres dont les feuilles sont d es
chaines). J'ai un parser pour la "macro" structure, et il y a plein
d'appel Ã eval() (en gÃ©nÃ©ral, plusieurs milliers).

D'oÃ¹ vient le fichier texte ?

GÃ©nÃ©rÃ© par une appli Ã moi (qui n'est pas Ã©crite e n python). Ca me sert
Ã debugger et parcourir des structures assez complexes, pour faire des
tas de tests annexes, des affichages, etc. L'appli principale dump ses
structures, et tout le test est reportÃ© dans des scripts python.

S'il est gÃ©rÃ© par un appli Python (ou autre), tu gagnerais peut Ãªtre Ã
utiliser sqllite : moins de donnÃ©es en mÃ©moire, les clÃ©s g Ã©rÃ©es par
l'index, etc...

En fait, Ã§a me poserait plus de problÃ¨mes de passer tout dans une base
relationnelle. L'avantage de la manip, c'est justement d'Ã©viter des
transformations de structures de donnÃ©es.

J'ai fini par traverser le rÃ©sultat de chaque eval() pour recontruire
une structure identique mais dont les chaines sont internÃ©es. J'ai gag nÃ©
un tiers en volume. Ca devrait aller pour l'instant.

-- Alain.

Michel Claveau - MVP

26/09/2009 à 21:23

Bonsoir !

Pour un truc un peu similaire, j'utilise cPickle (dump pour enregistrer, load pour charger).

@+
--
Michel Claveau

Alain Ketterlin

28/09/2009 à 15:22

Alain BARTHE writes:

Effectivement, c'est un peu plus complexe qu'indiquÃ© dans le message
initial.

[...]

Oui, je ne voulais pas effrayer tout le monde avec mes usines Ã gaz.

Si le fichier Ã©tait gÃ©nÃ©rÃ© en python, tu aurais pu ut iliser pickle
pour dumper le dictionnaire.

[...]

J'avais essayÃ© pickle (en fait, cPickle) il y a quelques temps et
j'Ã©tais assez dÃ©Ã§u : Ã§a n'allait pas plus vite qu'un pa rser Ã©crit Ã la
main (Ã§a c'est normal), et les fichiers Ã©taient Ã peu prÃ ¨s de la mÃªme
taille (mais par dÃ©faut c'est en ASCII). Cela dit, je n'avais pas pous sÃ©
bien loin. Je rÃ©essaierai un de ces jours et je vous tiendrai au
courant.

Pour en revenir Ã ma question originale (l'utilisation plus ou moins
automatique de intern()), je suis tout de mÃªme surpris qu'il ne soit p as
plus facile d'utiliser ce mÃ©canisme : puisque les chaÃ®nes sont
immuables, autant en profiter.

Bref. Merci pour les idÃ©es.

-- Alain.

Alain Ketterlin

28/09/2009 à 15:25

"Michel Claveau - MVP"
writes:

Pour un truc un peu similaire, j'utilise cPickle (dump pour
enregistrer, load pour charger).

Avec le protocole version 2, alors ? J'avais fait une expÃ©rience peu
concluante avec le protocole 0 (voir mon autre message de ce jour). Cela
dit, dans mon cas, je n'Ã©cris pas, je ne fais que lire. Et, au passage,
pickle ne parle pas de intern(), ce qui est dÃ©cevant.

-- Alain.

Antoine Pitrou

30/09/2009 à 18:39

On Mon, 28 Sep 2009 15:22:06 +0200, Alain Ketterlin wrote:

Pour en revenir à ma question originale (l'utilisation plus ou moins
automatique de intern()), je suis tout de même surpris qu'il ne soit pas
plus facile d'utiliser ce mécanisme : puisque les chaînes sont
immuables, autant en profiter.

Vu sa taille, j'imagine que ton fichier est auto-généré.
Dans ce cas, tu peux explicitement appeler intern() dans ton
dictionnaire, par exemple en écrivant i('toto') au lieu de 'toto'.

Par exemple :

s = """ {i('a a'): i('b b'), i('b b'): i('c c')} """
d = eval(s, dict(i=intern))
[(id(k), id(v)) for k, v in d.items()]

[(28633200, 28633152), (28633152, 28632912)]

d = eval(s, dict(i=intern))
[(id(k), id(v)) for k, v in d.items()]

[(28633200, 28633152), (28633152, 28632912)]

Les ids sont les mêmes... Alors qu'en n'appelant pas intern() :

d = eval(s, dict(i=lambda x: x))
[(id(k), id(v)) for k, v in d.items()]

[(28632912, 28633152), (28633152, 28633200)]

d = eval(s, dict(i=lambda x: x))
[(id(k), id(v)) for k, v in d.items()]

[(28633056, 28633200), (28633200, 28632912)]

De nouvelles chaînes ont été créées et détruites.

a+

Antoine.

Auto-intern()

6 réponses

Veuillez sélectionner un problème