[gull] Locale, accent et Kubuntu

Yoan BLANC greut.lists at dosimple.ch
Fri Dec 9 10:24:39 CET 2005


Félix Hauri wrote:

>Partant du principe que chacun (sociétés ou particulier) y
>va de SA solution, le problème va récurer encore un moment...
>  
>
la panosse ?

>Il faut dire que choisir UTF-16 p.ex, revient quasiment à
>réduire sa capacité de stockage par deux. Par conséquent,
>chacun choisit entre la compatibilité internationale ou
>la rationalité...
>  
>
UTF-8 est à utiliser, **absolument**. Car même pour de l'HTML se balader 
avec ISO-8859-1(5) c'est pas top, à partir du moment où il y a des 
saisies utilisateurs, il est quasiment nécessaire de, à la main, écrire 
les entités spéciales (même PHP qui est censé le faire ne le fait pas 
parfaitement)

Et celui qui fait du XML en iso va au devant de grands risques.

“You see, this is one of the things about XML, a conformant XML 
processor is only *required* to accept "utf-8" and "utf-16". So it's 
possible that an XML processor could reject "Shift_JIS", or 
"ISO-2022-JP". Who knows, there might even be an XML processor out there 
that rejects well-formed XML encoded in "utf-32". The more I learn about 
character encoding the more I like "utf-8".”
-- http://bitworking.org/news/Character_Encoding_is_Hard

Et question taille :

“If the documents use English tag names (say XHTML or DocBook or SOAP)in 
conjunction with Asian PCDTA, the difference is even smaller. Atone 
point I experimented with switching between UTF-8 and UTF-16depending on 
language, and was surprised to find it really didn't make a big 
difference. For one real world example, I looked at the Japanese 
translation of the XML specification included in the W3C XML test suite. 
The UTF-8 version is 202K. The UTF-16 version is 305K, 50% larger! Of 
course, this can be highly dependent on the nature of the documents. An 
originally Japanese document with Japanese markup and no internal DTD 
subset might reverse these numbers, or at least bring them into parity.”
-- http://lists.w3.org/Archives/Public/www-tag/2004Mar/0020.html

UTF-16 à l'avantage de représenter sur moins d'octets les caractères CJK 
que UTF-8, sauf erreur c'est un des seuls avantages notable. Donc à 
moins d'avoir une bonne moitié de documents en chinois, japonais ou 
coréen UTF-16 n'est pas fait pour vous.

Yoan




More information about the gull mailing list