OVH Cloud OVH Cloud

[HS] Outil magic comparaison de fichiers

3 réponses
Avatar
philippe L
Bonjour,

Je suis sous K3.4-2.6, et j'ai 20 g de fichiers,(2 DD de 10g), je
voulais savoir si il existe un outil pour trouver les doublettes ?

Merci !

Philippe


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org

3 réponses

Avatar
Basile STARYNKEVITCH
Le Tue, Jan 11, 2005 at 01:23:53PM +0100, philippe L écrivait/wrote:

Je suis sous K3.4-2.6, et j'ai 20 g de fichiers,(2 DD de 10g), je
voulais savoir si il existe un outil pour trouver les doublettes ?



Une solution approximative serait de calculer le md5sum de chaque
fichier, puis d'y detecter les doublons

find * -type f -exec md5sum '{}' ; | sort > /tmp/listemd5

ensuite, dans la liste (triée) ainsi obtenue, cherchez les lignes
consecutives ayant la même clef, par exemple
awk '{if ($1==prec) print $0; prec=$1}' /tmp/listemd5

Stricto sensu, ca vous detecte les collisions de clefs md5. Mais en
pratique, celles-ci sont tellement rares que vous ne trouverez que les
fichiers aux contenus identiques.

--
Basile STARYNKEVITCH http://starynkevitch.net/Basile/
email: basile<at>starynkevitch<dot>net
aliases: basile<at>tunes<dot>org = bstarynk<at>nerim<dot>net
8, rue de la Faïencerie, 92340 Bourg La Reine, France


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
philippe L
Bonjour,


On Tue, 11 Jan 2005 13:37:09 +0100, Basile STARYNKEVITCH
wrote:

[...]


Une solution approximative serait de calculer le md5sum de chaque
fichier, puis d'y detecter les doublons



Comment je calcul un md5 récursif sur l'arborésence du DD ?
J'ai des fichiers identique qui ont des nom différent, quelle solution
pour cela ?
Mais déjà avec cette solution j'aurais trié 90 % des fichiers !


find * -type f -exec md5sum '{}' ; | sort > /tmp/listemd5

ensuite, dans la liste (triée) ainsi obtenue, cherchez les lignes
consecutives ayant la même clef, par exemple
awk '{if ($1==prec) print $0; prec=$1}' /tmp/listemd5

Stricto sensu, ca vous detecte les collisions de clefs md5. Mais en
pratique, celles-ci sont tellement rares que vous ne trouverez que les
fichiers aux contenus identiques.




Je veux bien une solution "power-user" pour comparer, l'extention du
fichier et sa taille .

Merci

Philippe
Avatar
Frédéric Bothamy
* philippe L [2005-01-11 13:23] :
Bonjour,

Je suis sous K3.4-2.6, et j'ai 20 g de fichiers,(2 DD de 10g), je
voulais savoir si il existe un outil pour trouver les doublettes ?



fdupes -r /rep1 /rep2

(du paquet fdupes)


Fred

--
Comment poser les questions de manière intelligente ?
http://www.gnurou.org/documents/smart-questions-fr.html
Comment signaler efficacement un bug ?
http://www.chiark.greenend.org.uk/~sgtatham/bugs-fr.html


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact