txt texto simbolos saber porque notas formato extraños este convertir contiene como codificacion caracteres cambiar bloc archivo aparecen unicode unicode-string

texto - formato unicode bloc de notas



Archivo Unicode en el bloc de notas (2)

¿Qué significa cuando guardo un archivo de texto como "Unicode" en el bloc de notas? ¿Es Utf-8, Utf-16 o Utf-32? Gracias por adelantado.


En el Bloc de notas, como en el software de Windows en general, "Unicode" como nombre de codificación significa UTF-16 Little Endian (UTF-16LE). (Primero pensé que no era UTF-16 real, porque Notepad ++ lo reconoce como UCS-2 y muestra el contenido como basura, pero al volver a verificar con BabelPad, llegué a la conclusión de que Notepad puede codificar correctamente incluso caracteres que no sean BMP).

Del mismo modo, "Unicode big endian" significa UTF-16 Big Endian. Y "ANSI" significa la codificación heredada nativa del sistema, por ejemplo, la codificación Windows-1252 de 8 bits en las versiones occidentales de Windows.


Todos estos formatos son "Unicode". Pero generalmente los editores en Mac y Windows significan UTF-8 con eso porque es compatible con ASCII debajo del código 128 IIRC. UTF-8 puede representar más códigos que solo 256 (que se ajusta a un solo byte de 8 bits) mediante el uso de un carácter especial, lo que significa que el siguiente byte también pertenece al mismo carácter.

Si observa la salida en el terminal, diga con vi, y si ve un espacio entre cada dos caracteres, entonces está viendo UTF-16 porque cada dos bytes forman un carácter. Lo que debería ver es que los caracteres no tienen espacios entre ellos, eso es una indicación de UTF-8.