[gull] Petit problème de maths, pour créer de liens

Daniel Cordey dc at mjt.ch
Thu May 1 14:01:03 CEST 2008


On Wednesday 30 April 2008, Félix Hauri wrote:

> Voici un petit problème de math, pour les férus de hashage.

Est-ce bien necessaire :-)

> Une des solutions (avant la compression) consiste à lier par liens durs
> tous les fichiers identiques, afin de conserver les structures de
> répertoires et l'intégrité des données, tout en rationnalisant l'espace
> occupé.

Sehr gut Felix :-)


> La première étape s'est déroulée en environ 6heures, pour la collecte des
> md5sums. Le deuxième, nettement plus contraignante pour le disque dur, à
> pris 3-4 jours...
> Au terme, j'ai récupéré 38Go, soit près de la moitié et mes répertoires
> sont intégres.
>...

Donc, sans repeter ce que Marc Mongenet a deja dit, je me pencherais sur la 
necessite d'utiliser md5 sur tous les fichiers...

En effet, dans le but de perdre un minimum de temps, je me contanterais donc 
d'etablir une liste croissee inode et... taille des fichiers... Puis, pour 
tous les inodes ayant la meme taille, je calculerais le md*... A mon avis, 
cela devrait retreindre drastiquement le nombre de calculs a effectuer... 
Non ? Je pars du principe que, si un fichier a une taille differente, le fait 
qu'il puisse exister, dans l'absolu, un md5 identique pour leur contenu ne 
m'interesse pas, puisque je sais deja qu'il ont au moins 1 byte de 
difference. Je me content donc de n'effectuer un calcul md5 que si j'ai deja 
une identite potentiel entre eux, simplement base sur la taille. J'utilise 
donc md5 (ou autre) pour lever ou confirmer le doute.

Au final, le resultat sera le meme que ce que tu as deja fait, mais il se peut 
que cela prenne moisn de temps.

dc



More information about the gull mailing list