utf 8 - principales - ¿Cuál es la codificación de los caracteres chinos en Wikipedia?
sistema de numeracion chino caracteristicas principales (3)
El ejemplo que das es un IRI .
Los IRI utilizan la codificación UTF8. UTF8 implementa unicode, y en unicode, cada carácter tiene un punto de código , que está entre 0x4E00 y 0x9FFF (2 bytes) para todos los caracteres chinos.
Pero UTF8 no codifica caracteres simplemente almacenando su punto de código (UTF32 hace eso). En su lugar, utiliza un estándar más complejo , que hace que todos los ideogramas chinos tengan una longitud de 2 o 3 bytes.
Estaba mirando la codificación de los caracteres chinos en Wikipedia y tengo problemas para averiguar qué están usando. Por ejemplo, "的" se codifica como "% E7% 9A% 84" ( consulte aquí ). Eso es tres bytes, sin embargo, ninguna de las codificaciones descritas en esta página usa tres bytes para representar caracteres chinos. UTF-8, por ejemplo, utiliza 2 bytes.
Básicamente estoy tratando de hacer coincidir estos tres bytes con un carácter real. ¿Alguna sugerencia sobre qué codificación podría ser?
El encabezado de una página de wikipedia incluye esto:
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
Así que la página es UTF-8.
>>> c=''/xe7/x9a/x84''.decode(''utf8'')
>>> c
u''/u7684''
>>> print c
的
aunque Unicode lo codifica en 16 bits, utf8 lo descompone en 3 bytes.