XML: codificación

Encodinges el proceso de convertir caracteres Unicode en su representación binaria equivalente. Cuando el procesador XML lee un documento XML, codifica el documento según el tipo de codificación. Por lo tanto, necesitamos especificar el tipo de codificación en la declaración XML.

Tipos de codificación

Existen principalmente dos tipos de codificación:

  • UTF-8
  • UTF-16

UTF significa Formato de transformación UCS , y UCS en sí mismo significa Conjunto de caracteres universal . El número 8 o 16 se refiere al número de bits que se utilizan para representar un carácter. Son 8 (1 a 4 bytes) o 16 (2 o 4 bytes). Para los documentos sin información de codificación, UTF-8 está configurado de forma predeterminada.

Sintaxis

El tipo de codificación se incluye en la sección de prólogo del documento XML. La sintaxis para la codificación UTF-8 es la siguiente:

<?xml version = "1.0" encoding = "UTF-8" standalone = "no" ?>

La sintaxis para la codificación UTF-16 es la siguiente:

<?xml version = "1.0" encoding = "UTF-16" standalone = "no" ?>

Ejemplo

El siguiente ejemplo muestra la declaración de codificación:

<?xml version = "1.0" encoding = "UTF-8" standalone = "no" ?>
<contact-info>
   <name>Tanmay Patil</name>
   <company>TutorialsPoint</company>
   <phone>(011) 123-4567</phone>
</contact-info>

En el ejemplo anterior encoding="UTF-8", especifica que se utilizan 8 bits para representar los caracteres. Para representar caracteres de 16 bits,UTF-16 se puede utilizar la codificación.

Los archivos XML codificados con UTF-8 tienden a ser de menor tamaño que los codificados con formato UTF-16.