utf-8 - que - qué es un archivo doc y docx
¿Codificación de caracteres de archivos DOC y DOCX de Microsoft Word? (0)
No estoy muy familiarizado con la codificación que usa Microsoft Word. Si alguien guarda un archivo .doc o .docx de Word, ¿cuál es la codificación estándar que se usa?
Supongo que no es UTF-8 ya que el texto resultante (pegado en un archivo de texto codificado en UTF-8) no respeta cierta puntuación (por ejemplo, comillas).
Por ejemplo, una palabra de apertura ''cita inteligente'' cuando se pega en un archivo de texto UTF-8, da como resultado un símbolo ì
. Si Word codifica realmente en UTF-8, ¿cómo Word intenta renderizar el carácter real UTF-8 ?
Editar
Después de investigar un poco, puedo ver que un archivo .docx de Microsoft Word es en realidad un formato comprimido. Al descomprimirlo, se descomprimen varios archivos .xml.
Sin embargo, la incapacidad de un archivo de texto codificado en UTF-8 para cumplir con estas citas ''inteligentes'' todavía es desconcertante. Cualquier información esclarecedora sería útil.