[gull] Locale, accent et Kubuntu

Marc Mongenet marc.mongenet at gmail.com
Thu Dec 8 23:29:23 CET 2005


Le 08/12/05, Marc SCHAEFER<schaefer at alphanet.ch> a écrit :

> Par exemple, si l'on utilise p.ex. UTF-8, le `simple' code accentué
> ouest-européen se code sur 16 bits (1 caractère d'échappement, puis
> 1 caractère de code). L'ASCII 7 bit reste, cependant, compatible.

<pinaillage>
En UTF-8, le premier octet n'est pas vraiment un caractère d'échappement.
C'est en fait les premiers bits (les bits de poids fort) du premier octet qui
indiquent combien d'octets prend le codage du caractère. Le reste des bits
est utilisé pour contenir les bits de poids fort du code du caractère.
Si le premier bit vaut 0, on a affaire à un caractère sur un octet, les 7 bits
suivants codant le caractère, d'où la compatibilité avec US-ASCII.
Si les 3 trois premiers bits du premier octet valent 110 alors le caractère
est codé sur 2 octets. Les bits de poids fort des octets supplémentaires
valent toujours 10.
Mais c'est plus joliment expliqué sur
http://fr.wikipedia.org/wiki/UTF-8
PS : Je fais de la pub intéressée, j'ai contribué à l'article :-)
</pinaillage>

> En plus, il y a plusieurs façon de coder un caractère, suivant le
> préfixe utilisé: on peut le représenter sur 3, voire 4 bytes.

Mais on peut ajouter qu'un décodeur UTF-8 doit rejeter les
représentations qui prennent plus d'octets que nécessaire.

Marc Mongenet



More information about the gull mailing list