[gull] Data Compressors

Daniel Cordey dc at mjt.ch
Tue Dec 27 14:24:53 CET 2005


On Tuesday 27 December 2005 13:52, Julien Künzi wrote:

> D'après ce que j'ai vu en parcourant en vitesse, gzip est l'un des
> plus rapides mais l'un des moins efficaces au niveau du taux de
> compression. Je ne vois pas en quoi cela fait de lui un meilleur
> programme.

Les differences de taux de compression ne sont souvent pas enormes. Dans 
certains cas, le meilleur a un gain de 13% et le moins bon 10%. Si l'on met 
trois fois moins de temps tout en perdant 3%... ca ne me semble pas 
epouvantable. Les fameux gains des meilleurs ne me paraisent pas vraiment 
importants. Attendre 8 minutes de plus pour obtenir quelques pourcents est 
assez cher paye. Toutefois, il se peut que pour certains ce gain soit 
absolument indispensable; comme par exemple une distribution Linux sur un cle 
USB. La question se resume a calculer le temps necessaire pour transferer un 
fichier d'un systeme a l'autre. Plus la vitesse de la ligne est faible, moins 
le temps de compression/decompression est important. Cela depend donc de 
cette vitesse. Dans un usage quotidien, il me semble important de disposer de 
programme de compression rapide. Les tests mentionnes ont ete effectues sur 
differents type de fichiers et sur des tailles ~200 MB a chaque fois. 
Certains programmes plus efficaces que gzip on parfois mis 4 a 6 fois plus de 
temps (jusqu'a dix minutes). S'il faut 10 minutes pour comprimer 200 MB, 
combien de temps faudra-t-il alors pour comprimer une base de donnee de 100 
GB ? 

gzip est issu de l'open-source, il y a encore d'autre solutions open-source 
pour compresser des fichiers. Elles sont fiables et tres performantes... 
pourquoi payer des programmes qui ne font pas mieux et qui ne peuvent pas 
etre ameliorer par des gens ne faisant pas partie des employes du 
fournisseur ?

> ils ne sont pas représentatifs pour les différentes méthodes de
> compression.

Ils sont relativement representatifs de ce que l'on manipule tous les jours. 
Faire la sauvegarde de repertoires d'utilisateurs va forcement implique un 
grand nombre de ces types de fichiers. Il est donc souhaitable de pouvoir le 
faire rapidement et avec un taux de compression acceptable.

Ne perdons pas de vue qu'un universitaire se preoccupe de le theorie et de 
l'efficacite de la methode dans son principe. C'est necessaire pour faire 
progresser ce domaine. L'administrateur d'un parc de machines ne comprend 
rien au theorie mathematiques des differents algorithmes. Il veut seimplement 
que cela fonctionne le plus vite possible et sans probleme... :-)

dc






More information about the gull mailing list