Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

détection doublons ET suppression

15 réponses
Avatar
jip
bonjour
je dois chercher les images en 2 =E0 6 exemplaires dans environ 200
dossiers (chacun avec environ 35 vues) : les doublons ont une taille
identique mais un nom diff=E9rent sous la forme A_001.jpg, A_002.jpg,
etc B_001.jpg, etc...
Une id=E9e de logiciel qui d=E9tecte ET supprime automatiquement les
doublons (je suis sur que si la taille est identique la photo est en
double ou triple ou...) en laissant 1 exemplaire de chaque vue ?
Merci

5 réponses

1 2
Avatar
Jean Passe
"markorki" <moicestmarkorkichezorangefr> a écrit dans le message de groupe
de discussion : 4b741ce5$0$17481$
jip a écrit :
doublekiller, sans hésitation
fonctionne par comparaison de CRC ou MD5: imparable



Merci je vais regarder .
Et ça élimine automatiquement les doublons repérés ? ou il faut comme
beaucoup d'autres cocher ou selectionner les fichiers à supprimer ?



télécharge et tu verras: on peut éliminer ce qu'on veut, ça classe les
fichiers en groupes de multiples occurences, et on peut choisir de
garder le premier de chaque groupe, ou le dernier (un bouton pour tous
les doublons) ou choisir un par un en cochant.

En général, soit on a choisi l'ordre des répertoires pour savoir si on
va garder le premier de chaque ou le dernier, soit on vire au hasard
tous sauf 1 dans chaque groupe, et on regroupe ensuite tout dans le même
répertoire, mais alors le nommage peut obéir à des règles différentes;
il suffit alors de faire renommer avec une règle claire par XnView par
exemple...



A ce que je déduis par les affichages écrans de Doublekiller il n'y a pas
affichage des 2 images comparées, donc on travaille un peu à l'aveugle. Je
préfère voir ce que j'efface. La version 2.4 de AntiDupl que j'utilise
affiche les 2 images, les dimensions et le poids de chacune et aussi les
dossiers. Très simple. On choisi une ou l'autre ou aucune, ou remplacement
etc. Pas de problème à essayer il n'y a pas d'installation dans le système.
Je viens de mettre à jour avec la version 4 qui montre beaucoup plus de
possibilités tout en conservant la visualisations des images.

René
Avatar
markorki
Jean Passe a écrit :

"markorki" <moicestmarkorkichezorangefr> a écrit dans le message de
groupe de discussion : 4b741ce5$0$17481$
jip a écrit :
doublekiller, sans hésitation
fonctionne par comparaison de CRC ou MD5: imparable



Merci je vais regarder .
Et ça élimine automatiquement les doublons repérés ? ou il faut comme
beaucoup d'autres cocher ou selectionner les fichiers à supprimer ?



télécharge et tu verras: on peut éliminer ce qu'on veut, ça classe les
fichiers en groupes de multiples occurences, et on peut choisir de
garder le premier de chaque groupe, ou le dernier (un bouton pour tous
les doublons) ou choisir un par un en cochant.

En général, soit on a choisi l'ordre des répertoires pour savoir si on
va garder le premier de chaque ou le dernier, soit on vire au hasard
tous sauf 1 dans chaque groupe, et on regroupe ensuite tout dans le même
répertoire, mais alors le nommage peut obéir à des règles différentes;
il suffit alors de faire renommer avec une règle claire par XnView par
exemple...



A ce que je déduis par les affichages écrans de Doublekiller il n'y a
pas affichage des 2 images comparées, donc on travaille un peu à
l'aveugle. Je préfère voir ce que j'efface. La version 2.4 de AntiDupl
que j'utilise affiche les 2 images, les dimensions et le poids de
chacune et aussi les dossiers. Très simple. On choisi une ou l'autre ou
aucune, ou remplacement etc. Pas de problème à essayer il n'y a pas
d'installation dans le système. Je viens de mettre à jour avec la
version 4 qui montre beaucoup plus de possibilités tout en conservant la
visualisations des images.



Deux fichiers identiques, c'est non seulement la même image visible,
mais aussi les mêmes métadonnées, ce que ne donne pas, sauf épeluchage
attentif, le simple affichage des images côte à côte.

Deux fichiers de même taille qui ont le même MD5 sont **identiques** au
bit près (enfin, la probabilité d'erreurs se compensant est de l'ordre
de 1 sur le nombre d'atomes de l'univers). Ce critère est énormément
plus fiable que l'observation de 2 images.
Avatar
Jean Passe
"markorki" <moicestmarkorkichezorangefr> a écrit dans le message de groupe
de discussion : 4b742b4d$0$900$
Jean Passe a écrit :

"markorki" <moicestmarkorkichezorangefr> a écrit dans le message de
groupe de discussion : 4b741ce5$0$17481$
jip a écrit :
doublekiller, sans hésitation
fonctionne par comparaison de CRC ou MD5: imparable



Merci je vais regarder .
Et ça élimine automatiquement les doublons repérés ? ou il faut comme
beaucoup d'autres cocher ou selectionner les fichiers à supprimer ?



télécharge et tu verras: on peut éliminer ce qu'on veut, ça classe les
fichiers en groupes de multiples occurences, et on peut choisir de
garder le premier de chaque groupe, ou le dernier (un bouton pour tous
les doublons) ou choisir un par un en cochant.

En général, soit on a choisi l'ordre des répertoires pour savoir si on
va garder le premier de chaque ou le dernier, soit on vire au hasard
tous sauf 1 dans chaque groupe, et on regroupe ensuite tout dans le même
répertoire, mais alors le nommage peut obéir à des règles différentes;
il suffit alors de faire renommer avec une règle claire par XnView par
exemple...



A ce que je déduis par les affichages écrans de Doublekiller il n'y a pas
affichage des 2 images comparées, donc on travaille un peu à l'aveugle.
Je préfère voir ce que j'efface. La version 2.4 de AntiDupl que j'utilise
affiche les 2 images, les dimensions et le poids de chacune et aussi les
dossiers. Très simple. On choisi une ou l'autre ou aucune, ou
remplacement etc. Pas de problème à essayer il n'y a pas d'installation
dans le système. Je viens de mettre à jour avec la version 4 qui montre
beaucoup plus de possibilités tout en conservant la visualisations des
images.



Deux fichiers identiques, c'est non seulement la même image visible, mais
aussi les mêmes métadonnées, ce que ne donne pas, sauf épeluchage
attentif, le simple affichage des images côte à côte.



Deux images identiques visuellement avec des métadonnées différentes? Un
millième de seconde de différence. Ou alors je me suis amusé à modifier les
métadonnées.
Personnellement les métadonnées sont dans la base de données avec les
fichiers originaux.

Deux fichiers de même taille qui ont le même MD5 sont **identiques** au
bit près (enfin, la probabilité d'erreurs se compensant est de l'ordre de
1 sur le nombre d'atomes de l'univers). Ce critère est énormément plus
fiable que l'observation de 2 images.



Oui oui Antidupl compare les images de la même manière ce n'est pas par
l'observation visuelle. Le fait de voir les images permet de ne pas effacer
certains doublons que l'on désire conserver. On peut désirer trouver les
doublons dans un disque entier ou tout un lot de sous répertoires et décider
au cas par cas ce qui doit être effacé ou pas. Il y a aussi les images
presques identiques. Exemple: plusieurs photos du même visage ou les yeux
regardent un peu différemment. Les photos peuvent être identiques à 99 %; je
préfère savoir laquelle je vais éliminer. Deux fois le même paysage un jour
un peu venteux. J'ai déjà eu un logiciel qui en plus faisait clignoter les
différences même minimes mais il n'existe plus.

René
Avatar
Ofnuts
On 11/02/2010 14:18, jip wrote:
bonjour
je dois chercher les images en 2 à 6 exemplaires dans environ 200
dossiers (chacun avec environ 35 vues) : les doublons ont une taille
identique mais un nom différent sous la forme A_001.jpg, A_002.jpg,
etc B_001.jpg, etc...
Une idée de logiciel qui détecte ET supprime automatiquement les
doublons (je suis sur que si la taille est identique la photo est en
double ou triple ou...) en laissant 1 exemplaire de chaque vue ?
Merci



J'ai un bout de perl qui fait ça quelquepart(*). L'égalité de taille
n'est pas suffisante, les photos ont souvent toutes plus ou moins la
même taille(**). C'est un bon critère par contre pou limiter le calcul
d'un MD5 aux photos appartenant à des ensembles de photos de même taille.


(*) au départ écrit pour trouver des doublons de .ZIP sur un BBS, ce qui
ne nous rajeunit pas...

(**) Une des premières version de ce script qui utilisait une checksum
16 bits plutôt qu'un MD5 est une fois tombé sur deux ZIPs de même taille
et de même checksum, pourtant différents.
--
Bertrand
Avatar
Jean Passe
"Ofnuts" a écrit dans le message de groupe de
discussion : 4b747d73$0$19878$
On 11/02/2010 14:18, jip wrote:
bonjour
je dois chercher les images en 2 à 6 exemplaires dans environ 200
dossiers (chacun avec environ 35 vues) : les doublons ont une taille
identique mais un nom différent sous la forme A_001.jpg, A_002.jpg,
etc B_001.jpg, etc...
Une idée de logiciel qui détecte ET supprime automatiquement les
doublons (je suis sur que si la taille est identique la photo est en
double ou triple ou...) en laissant 1 exemplaire de chaque vue ?
Merci



J'ai un bout de perl qui fait ça quelquepart(*). L'égalité de taille n'est
pas suffisante, les photos ont souvent toutes plus ou moins la même
taille(**). C'est un bon critère par contre pou limiter le calcul d'un MD5
aux photos appartenant à des ensembles de photos de même taille.


(*) au départ écrit pour trouver des doublons de .ZIP sur un BBS, ce qui
ne nous rajeunit pas...

(**) Une des premières version de ce script qui utilisait une checksum 16
bits plutôt qu'un MD5 est une fois tombé sur deux ZIPs de même taille et
de même checksum, pourtant différents.
--
Bertrand



Je viens de faire un test avec AntiDupl en réglant la précision à 15%. Test
avec 5 images JPEG que j'ai modifiées; une agrandie à 250%; une réduite en
taille et qualité; une rendue floue; une pivotée de 90 %; une avec 50% plus
de luminosité. Le logiciel a trouvé 3 doublons: le flou, l'agrandie, la
réduite.
Un logiciel que j'ai eu jadis aurait fait mieux, mais il aurait aussi fait
trop. A 2% le logiciel trouve l'agrandie et la floue seulement. Et à 0% il
n'a rien trouvé.

René
1 2