comparaison de fichier par clés de hash ?
Le
ptilou

Bonsoir,
J'ai de nombreux fichiers en double dans mon "home", et souhaite supprimer =
les doublettes.
Y a t'il une âme charitable pour me faire un script ou me dire si il en e=
xiste un sur cpam ?
Donc je souhaite une boucle qui écrit les clés de hash de chaque fichie=
r, puis une autre qui les comparent, et enfin une qui supprime les doublett=
es, voir dans certain cas les triplettes.
J’espère que je suis claire ?
Je n'arrive même pas à faire un "hello the word", merci d'être compr=
éhensif
Merci pour votre aide
Ptilou
PS : Pour perl j'utilise Debian ou mac os x 10.4.11 !
J'ai de nombreux fichiers en double dans mon "home", et souhaite supprimer =
les doublettes.
Y a t'il une âme charitable pour me faire un script ou me dire si il en e=
xiste un sur cpam ?
Donc je souhaite une boucle qui écrit les clés de hash de chaque fichie=
r, puis une autre qui les comparent, et enfin une qui supprime les doublett=
es, voir dans certain cas les triplettes.
J’espère que je suis claire ?
Je n'arrive même pas à faire un "hello the word", merci d'être compr=
éhensif
Merci pour votre aide
Ptilou
PS : Pour perl j'utilise Debian ou mac os x 10.4.11 !
http://search.cpan.org/~tommy/File-Util-3.27/Util.pod
http://search.cpan.org/~dmuey/Digest-MD5-File-0.07/File.pm
Une récursion et c'est bon.
--
XAv
In your pomp and all your glory you're a poorer man than me,
as you lick the boots of death born out of fear.
(Jethro Tull)
[...]
[...]
Pourquoi reinventer la roue ?
$ apt-cache search duplicate file
fdupes - identifies duplicate files within given directories
fslint - A utility to fix problems with filesystems' data, like duplicate files
rdfind - find duplicate files utility
simhash - generate similarity hashes to find nearly duplicate files
--
Stephane
Tiens, voici une version améiorée par moi d'un script trouvé ailleurs
(perlmonks sûrement).
http://pastebin.com/DJcQmutx
Le script recherche les doublons par hachage et propose de les effacer.
J'ai apporté les améliorations suivantes :
1° ignore les liens symboliques (pour d'évidentes raisons)
2° ajouter l'option -d permet de supprimer tous les doublons d'un coup
après une confirmation globale quand même (dangereux! mais pratique)
--
Ce qu'il y a d'enivrant dans le mauvais goût c'est le plaisir
aristocratique de déplaire.
C. Baudelaire.
Le lundi 17 octobre 2011 22:24:25 UTC+2, Emmanuel Florac a écrit :
J'ai essayé, sa m'élimine pas toutes les doublettes, mais celle qui ne sont pas éliminé, porte un nom différent genre fichier+(1) ...
Y a t'il une solution pour ces doublettes ?
Merci
Ptilou