utf8 usepackage que number non inputenc hace error code characters unicode

usepackage - unicode number of characters



¿Cómo se diferencia GB18030 de Unicode? (2)

¿Cómo difiere el conjunto de códigos GB18030 chino de Unicode?

¿Qué técnicas especiales se requieren para manejar GB18030?

¿Hay alguna biblioteca (de código abierto) para manejar GB18030?


Según el artículo de Wikipedia sobre GB18030 , "GB18030 se puede considerar un formato de transformación Unicode (es decir, una codificación de todos los puntos de código Unicode) que mantiene la compatibilidad con un conjunto de caracteres heredado". Es decir, todos los caracteres Unicode se pueden codificar en GB18030, pero se codificarán con secuencias de bytes diferentes de las que se generarían con UTF-8 o UTF-16. El manejo de la codificación GB18030 no requiere más técnicas especiales que las requeridas para cualquier otra codificación que no sea Unicode.

El proyecto ICU es una biblioteca de código abierto (para C o Java) que tiene soporte completo para muchas codificaciones diferentes, incluido GB18030. La información sobre la conversión entre diferentes codificaciones con ICU se puede encontrar aquí .


¿Qué técnicas especiales se requieren para manejar GB18030?

Lo más importante a tener en cuenta es que, a diferencia de UTF-8, GB18030 permite que ocurran bytes ASCII dentro de la codificación de un carácter de múltiples bytes. (Por ejemplo, ''ß'' está codificado como los bytes 81 30 89 38 , que contiene la codificación ASCII de ''0'' y ''8''.) Esto significa que no puede usar una función de find / index orientada a un byte simple.