utf 8 - principales - ¿Cuál es la codificación de los caracteres chinos en Wikipedia?

sistema de numeracion chino caracteristicas principales (3)

El ejemplo que das es un IRI .

Los IRI utilizan la codificación UTF8. UTF8 implementa unicode, y en unicode, cada carácter tiene un punto de código , que está entre 0x4E00 y 0x9FFF (2 bytes) para todos los caracteres chinos.

Pero UTF8 no codifica caracteres simplemente almacenando su punto de código (UTF32 hace eso). En su lugar, utiliza un estándar más complejo , que hace que todos los ideogramas chinos tengan una longitud de 2 o 3 bytes.

Estaba mirando la codificación de los caracteres chinos en Wikipedia y tengo problemas para averiguar qué están usando. Por ejemplo, "的" se codifica como "% E7% 9A% 84" ( consulte aquí ). Eso es tres bytes, sin embargo, ninguna de las codificaciones descritas en esta página usa tres bytes para representar caracteres chinos. UTF-8, por ejemplo, utiliza 2 bytes.

Básicamente estoy tratando de hacer coincidir estos tres bytes con un carácter real. ¿Alguna sugerencia sobre qué codificación podría ser?

El encabezado de una página de wikipedia incluye esto:

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

Así que la página es UTF-8.

>>> c=''/xe7/x9a/x84''.decode(''utf8'') >>> c u''/u7684'' >>> print c 的 aunque Unicode lo codifica en 16 bits, utf8 lo descompone en 3 bytes.