[gull] Locale, accent et Kubuntu
Yoan BLANC
greut.lists at dosimple.ch
Fri Dec 9 10:24:39 CET 2005
Félix Hauri wrote:
>Partant du principe que chacun (sociétés ou particulier) y
>va de SA solution, le problème va récurer encore un moment...
>
>
la panosse ?
>Il faut dire que choisir UTF-16 p.ex, revient quasiment à
>réduire sa capacité de stockage par deux. Par conséquent,
>chacun choisit entre la compatibilité internationale ou
>la rationalité...
>
>
UTF-8 est à utiliser, **absolument**. Car même pour de l'HTML se balader
avec ISO-8859-1(5) c'est pas top, à partir du moment où il y a des
saisies utilisateurs, il est quasiment nécessaire de, à la main, écrire
les entités spéciales (même PHP qui est censé le faire ne le fait pas
parfaitement)
Et celui qui fait du XML en iso va au devant de grands risques.
“You see, this is one of the things about XML, a conformant XML
processor is only *required* to accept "utf-8" and "utf-16". So it's
possible that an XML processor could reject "Shift_JIS", or
"ISO-2022-JP". Who knows, there might even be an XML processor out there
that rejects well-formed XML encoded in "utf-32". The more I learn about
character encoding the more I like "utf-8".”
-- http://bitworking.org/news/Character_Encoding_is_Hard
Et question taille :
“If the documents use English tag names (say XHTML or DocBook or SOAP)in
conjunction with Asian PCDTA, the difference is even smaller. Atone
point I experimented with switching between UTF-8 and UTF-16depending on
language, and was surprised to find it really didn't make a big
difference. For one real world example, I looked at the Japanese
translation of the XML specification included in the W3C XML test suite.
The UTF-8 version is 202K. The UTF-16 version is 305K, 50% larger! Of
course, this can be highly dependent on the nature of the documents. An
originally Japanese document with Japanese markup and no internal DTD
subset might reverse these numbers, or at least bring them into parity.”
-- http://lists.w3.org/Archives/Public/www-tag/2004Mar/0020.html
UTF-16 à l'avantage de représenter sur moins d'octets les caractères CJK
que UTF-8, sauf erreur c'est un des seuls avantages notable. Donc à
moins d'avoir une bonne moitié de documents en chinois, japonais ou
coréen UTF-16 n'est pas fait pour vous.
Yoan
More information about the gull
mailing list