[gull] Petit problème de maths, pour créer de liens
Daniel Cordey
dc at mjt.ch
Thu May 1 14:01:03 CEST 2008
On Wednesday 30 April 2008, Félix Hauri wrote:
> Voici un petit problème de math, pour les férus de hashage.
Est-ce bien necessaire :-)
> Une des solutions (avant la compression) consiste à lier par liens durs
> tous les fichiers identiques, afin de conserver les structures de
> répertoires et l'intégrité des données, tout en rationnalisant l'espace
> occupé.
Sehr gut Felix :-)
> La première étape s'est déroulée en environ 6heures, pour la collecte des
> md5sums. Le deuxième, nettement plus contraignante pour le disque dur, à
> pris 3-4 jours...
> Au terme, j'ai récupéré 38Go, soit près de la moitié et mes répertoires
> sont intégres.
>...
Donc, sans repeter ce que Marc Mongenet a deja dit, je me pencherais sur la
necessite d'utiliser md5 sur tous les fichiers...
En effet, dans le but de perdre un minimum de temps, je me contanterais donc
d'etablir une liste croissee inode et... taille des fichiers... Puis, pour
tous les inodes ayant la meme taille, je calculerais le md*... A mon avis,
cela devrait retreindre drastiquement le nombre de calculs a effectuer...
Non ? Je pars du principe que, si un fichier a une taille differente, le fait
qu'il puisse exister, dans l'absolu, un md5 identique pour leur contenu ne
m'interesse pas, puisque je sais deja qu'il ont au moins 1 byte de
difference. Je me content donc de n'effectuer un calcul md5 que si j'ai deja
une identite potentiel entre eux, simplement base sur la taille. J'utilise
donc md5 (ou autre) pour lever ou confirmer le doute.
Au final, le resultat sera le meme que ce que tu as deja fait, mais il se peut
que cela prenne moisn de temps.
dc
More information about the gull
mailing list