[gull] XML et archivage de documents

Marc Mongenet Marc.Mongenet at freesurf.ch
Tue Jan 6 13:25:01 CET 2004


pierre maitre wrote:
> Désolé d'occuper la ligne avec XML!
> L'archivage de documents à long terme est un sujet pour lequel je n'ai 
> pas encore trouvé de solution. Je me suis récemment battu avec des vieux 
> documents wordperfect qui n'ont pourtant pas 10 ans  (solution batarde: 
> le filtre wp2x), et j'imagine que si je n'entreprends rien j'aurais 
> bientôt les mêmes problèmes avec mes fichiers .doc  ou .sdw ou .sxw de 
> OpenOffice.
> 
> Je n'ai de loin pas tout compris avec XML, mais il me semble que c'est 
> un standard ouvert

http://www.w3.org/TR/REC-xml

> et que des documents sauvés dans ce format devraient 
> théoriquement pouvoir être lus pendant longtemps.

Il doivent utiliser les caractères Unicode encodés en UTF-8 ou UTF-16
ou alors l'encodage doit être explicitement déclaré (souvent ISO-8859-1
en occident). Donc on pourra effectivement lire qqch, longtemps.

En fait XML est un méta-langage, il décrit la syntaxe des langages
basés sur XML. En gros XML dit que si un langage a des
balises (<bla>), proprement imbriquées (<foo><bar>OK</bar></foo>,
<foo><bar>pas OK</foo></bar>), des attributs (<foo bar="baz">) et
des échappements &lt; &gt; &amp; pour < > &, alors ce langage est
compatible XML.

Comme on a vu avec GNUCash, si ce langage est mal documenté et
douteusement conçu, le résultat n'est pas forcément très pratique.

Je vois deux avantages à une sauvegarde XML:
1) C'est plus auto-documenté que du binaire.
2) Il existe une multitude d'outils et langages capables de parser
    du XML. Ces outils se contentent de reconnaître la structure
    (éléments, attributs, hiérarchie parent/fils/cousin...) du
    document. Après il faut écrire (ou trouver) un script qui fait
    ce qu'il faut. Comme le script XSLT qui était censé créé du
    HTML à partir du XML de GNUCash.

Ce n'est pas énorme mais déjà pas mal.


Marc Mongenet




More information about the gull mailing list