rechercher les doublons

rechercher les doublons - Shell/Batch - Programmation

Marsh Posté le 06-01-2012 à 02:18:47    

Bonjour,
 
S'il suffisait simplement de rechercher les doublons dans un même répertoire, ça serait facile .... mais ça n'est pas de ça qu'il s'agit  :non:  
 
 
 
J'ai un répertoire qui contient plusieurs milliers de fichiers, répartis dans des centaines de sous-dossiers, pour un total de .... 300 Go environ.
Les fichiers sont de tout type.
Certains sont en double, en triple, et peut-être même +.
 
Le but du schmilblick est de les retrouver (automatiquement), et de les supprimer (manuellement).
 
 
La piste qui me passe par la tête est celle-ci :
1) lister tous les fichiers de tous les répertoire et sous-répertoire, avec le chemin d'accès complet.
* C'était tentant de voir du côté de "ls -R" , mais manque de bol le chemin d'accès serait indiqué pour chaque répertoire et non pour chaque fichier
* un basique "find *" fait donc mieux l'affaire. (Et évidemment on écrit le tout dans un fichier : "find * > liste.txt" )
 
(j'ai pas trouvé dans le man ls l'option miraculeuse qui permet d'afficher le chemin complet pour chaque fichier)
 
 
2) à partir de là j'aimerai que devant chaque ligne de liste.txt, ça soit indiqué la taille en octet.
là, ma mémoire flanche un peu. Comment on fait pour écrire quelque chose devant chaque ligne ? Et c'est quelle commande pour afficher la taille d'un fichier (un à un) en octet ?
 
Pour plus de commodité (voir plus loin), je pense qu'il faudrait séparer la taille et le chemin d'accès par un "," ou un ";".
 
 
3) ensuite il faudrait trier cette jolie longue liste (croissant ou décroissant, on s'en fout)
"sort -n liste.txt" ?
 
 
4) et, idéalement, il faudrait qu'à partir de liste.txt on puisse extraire les lignes dont la taille apparait en double (ou triple etc).
D'où l'utilité du "," ou ";" qui sépare la taille du chemin du fichier
 
Exemple : dans le fichier doublons.txt on aurait
213456 ; ./Documents/xxx/yyy/zzz/fichier-du-20110201.bla
213456 ; ./Documents/xxx/abc/mmm/oki/fichier-du-20110201.bla
213456 ; ./Documents/aaaaa/w/qsdf/fichier.bla
11209 ; ./Documents/prouik.plouf
11209 ; ./Documents/pppppppp/azeazea/prouiiiiik.plouf
etc....
 
 
A partir de là, c'est moi, manuellement, selon mon ressenti par rapport au nom du fichier et à son chemin, qui déciderai de copier telle ligne et de la coller dans un autre terminal avec un rm devant (pour l'effacer donc)
 
 
Note 1 :
Je me doute bien que la taille seule ne garantie pas que ce soit un doublons ou non. Mais j'en prends ma responsabilité et j'en fait mon affaire pour effacer manuellement (ou pas) les fichiers de mon choix
 
Note 2 :
J'ai oublié de préciser que je suis sous MAC OS X ;-)
(mais bon, ça ne devrait pas être très perturbant)
 
Note 3 :
Qui pourrait m'aider à pondre les lignes de commande adéquat pour ce dont j'ai besoin (ou ce que je souhaite faire) ?
 
 
Merci pour votre aide.
 
 

Reply

Marsh Posté le 06-01-2012 à 02:18:47   

Reply

Marsh Posté le 06-01-2012 à 04:36:21    

salut,
 

Code :
  1. find repertoire/ -type f -printf '%s %p\n' | sort -n | less #pour une visualisation immédiate, ou >fichier

Reply

Marsh Posté le 06-01-2012 à 12:04:13    

Merci watael pour cette réponse claire et rapide ...
 
Juste un mini-bémol : ça ne fonctionne pas car -printf est inconnu  (est-ce dû au fait que je sois sous MAC OS X ?)

Reply

Marsh Posté le 06-01-2012 à 13:44:50    

sous réserve que stat soit disponible, et qu'il le soit avec les mêmes options, sur mac

Code :
  1. find repertoire/ -type f -exec stat -c'%s %n' {} \;

Reply

Marsh Posté le 06-01-2012 à 13:55:59    

encore raté :-(
 
Grrr
 
 
 
$ find Documents/ -type f -exec stat -c'%s %n' {} \;
stat: illegal option -- c
usage: stat [-FlLnqrsx] [-f format] [-t timefmt] [file ...]
stat: illegal option -- c
usage: stat [-FlLnqrsx] [-f format] [-t timefmt] [file ...]
stat: illegal option -- c
usage: stat [-FlLnqrsx] [-f format] [-t timefmt] [file ...]
stat: illegal option -- c
usage: stat [-FlLnqrsx] [-f format] [-t timefmt] [file ...]
...

Reply

Marsh Posté le 06-01-2012 à 14:24:38    

sur la page man de GNU stat

Citation :

-c, --format=FORMAT

sur mac peut-être est-ce -f


Message édité par Profil supprimé le 06-01-2012 à 14:25:08
Reply

Marsh Posté le 07-01-2012 à 20:02:43    

paul-inn a écrit :


(j'ai pas trouvé dans le man ls l'option miraculeuse qui permet d'afficher le chemin complet pour chaque fichier)


Salut
Pas besoin d'option pour une commande X quand on peut le faire avec une commande Y

Code :
  1. find . -print


 

paul-inn a écrit :

A partir de là, c'est moi, manuellement, selon mon ressenti par rapport au nom du fichier et à son chemin, qui déciderai de copier telle ligne et de la coller dans un autre terminal avec un rm devant (pour l'effacer donc)


Pourquoi faire de l'à peu près ??? Tu as cmp qui t'indique si 2 fichiers sont identiques ou pas...


Message édité par Sve@r le 07-01-2012 à 20:03:11
Reply

Marsh Posté le 09-01-2012 à 16:30:13    

Effectivement, cmp indique si 2 fichiers sont identiques ou pas.
 
Reste plus qu'à trouver comment cmp peut comparer X milliers de fichiers, tous avec des chemins d'accès différents, et bien entendu de manière automatique ;-)

Reply

Marsh Posté le 10-01-2012 à 13:13:08    

paul-inn a écrit :

Effectivement, cmp indique si 2 fichiers sont identiques ou pas.
 
Reste plus qu'à trouver comment cmp peut comparer X milliers de fichiers, tous avec des chemins d'accès différents, et bien entendu de manière automatique ;-)


 
Soyons franc. L'algo de base serait
- je prends le premier fichier
- je compare ce fichier avec tous les autres
- je prends le second fichier
- je compare ce fichier avec tous les autres
etc etc. Mais pour n fichiers tu feras n*n comparaisons. Pas viable
 
Un algo plus fin pourrait être le suivant
1) tu établis une liste de fichiers triée par tailles. Ainsi "n" fichiers de taille identique seront placés ensemble dans la liste
2) tu mets en place 2 pointeurs: un pointeur vers le fichier en cours et un pointeur vers les fichiers suivants
3) tu décales ton pointeur courant vers le fichier suivant et tu places ton pointeur suivant au même niveau
4) tu décales le pointeur suivant sur le fichier suivant.
5) S'il a la même taille que le courant alors tu compares le courant et le suivant et tu agis en conséquence puis retour en 4
6) Si les tailles sont différentes, alors retour en 3
 
Ainsi, tu ne compares que les fichiers qui ont la même taille...

Reply

Marsh Posté le 22-05-2018 à 08:49:10    

Sve@r a écrit :


Bonjour,
Je me suis inspiré de cette discussion pour faire du ménage dans mes disques, et je crois avoir trouvé la commande ultime :
find /media /home /run/user/1000/gvfs -size +200M -type f  -printf '%s ;%c; ' -exec  /usr/bin/md5sum {}  \; |sed -e 's/ ./;/g'|sort -n -t";" -k1,3 > gros_fichier_doublons.csv
 
C'est très long (4h pour 2 disques de sauvegarde + /home), mais ça m'a libéré 230 Go !
 
 
 
Soyons franc. L'algo de base serait
- je prends le premier fichier
- je compare ce fichier avec tous les autres
- je prends le second fichier
- je compare ce fichier avec tous les autres
etc etc. Mais pour n fichiers tu feras n*n comparaisons. Pas viable
 
Un algo plus fin pourrait être le suivant
1) tu établis une liste de fichiers triée par tailles. Ainsi "n" fichiers de taille identique seront placés ensemble dans la liste
2) tu mets en place 2 pointeurs: un pointeur vers le fichier en cours et un pointeur vers les fichiers suivants
3) tu décales ton pointeur courant vers le fichier suivant et tu places ton pointeur suivant au même niveau
4) tu décales le pointeur suivant sur le fichier suivant.
5) S'il a la même taille que le courant alors tu compares le courant et le suivant et tu agis en conséquence puis retour en 4
6) Si les tailles sont différentes, alors retour en 3
 
Ainsi, tu ne compares que les fichiers qui ont la même taille...



---------------
Les cons ça ose tout ...  
Reply

Marsh Posté le 22-05-2018 à 08:49:10   

Reply

Marsh Posté le 31-05-2018 à 16:55:50    

Salut tout le monde !  :hello:  
 
Alors moi ça fait des années que je code plus... Du coup j'arrive à comprendre les lignes de code mais j'arrive pas à traduire l'algorithme ci-dessus en code (celui qui compare les tailles) ; quelqu'un pour m'aider ? :)
 
 
Merci d'avance !

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed