[gull] Data Compressors

Marc SCHAEFER schaefer at alphanet.ch
Wed Dec 28 18:42:24 CET 2005


On Tue, Dec 27, 2005 at 01:52:29PM +0100, Julien Künzi wrote:
> De toutes manières, des tests sur un seul fichier de chaque type,
> c'est rien que de la merde. C'est sûr que si un fichier JPEG est

C'est pour cela que la FAQ de comp.compression est une lecture
recommandée. Ils mettent à disposition un `jeu de test', qui permet
véritablement de comparer ce qui est comparable.

   http://www.faqs.org/faqs/compression-faq/

(viellie copie ici: http://archive.alphanet.ch/autofaq/compression-faq/)

gzip utilise du Lempel-Ziv (compression de sous-chaînes, bon taux de
compression pour les langues naturelles ou les fichiers structurés d'une
manière ou d'une autre: langage de programmation, XML, etc) suivie à
une compression entropique typique (Huffman, plutôt bon lorsque la
fréquence d'apparition d'un symbole donné est très différente).

Il y a quelques outils marrants sur http://www.fourmilab.ch/ en ce qui
concerne l'évaluation entropique d'un fichier.

Des compresseurs plus récents comme bzip2 utilisent un tri préalable
(réorganisation de blocks) qui améliore la compression de manière
impressionnante en particulier lors de la répétition de séquences
identiques à travers le fichier, mais utilise beaucoup plus de mémoire,
et plus de CPU à la compression.

Le gain est malgré tout impressionnant (comparer la taille d'une source
du kernel ou d'un fichier RMAIL ou news USENET).




More information about the gull mailing list