HTML - Codificaciones de caracteres
La codificación de caracteres es un método para convertir bytes en caracteres. Para validar o mostrar un documento HTML correctamente, un programa debe elegir una codificación de caracteres adecuada.
El conjunto de caracteres o codificación de caracteres más común que se usa en las computadoras es ASCII: The American Standard Code for Information Interchange, y este es probablemente el conjunto de caracteres más utilizado para codificar texto electrónicamente.
La codificación ASCII solo admite el alfabeto latino en mayúsculas y minúsculas, los números del 0 al 9 y algunos caracteres adicionales que suman un total de 128 caracteres. Puede echar un vistazo al conjunto completo de caracteres ASCII imprimibles
Sin embargo, muchos idiomas usan caracteres latinos acentuados o alfabetos completamente diferentes. ASCII no se refiere a estos caracteres; por lo tanto, debe aprender sobre las codificaciones de caracteres si desea utilizar cualquier carácter que no sea ASCII.
La Organización Internacional de Normalización creó una variedad de juegos de caracteres para tratar con diferentes personajes nacionales. Para los documentos en inglés y en la mayoría de los demás idiomas de Europa occidental, se utiliza la codificación ISO-8859-1 ampliamente admitida.
Aquí está la lista de conjuntos de caracteres que se utilizan en todo el mundo junto con su descripción.
No Señor | Conjunto de caracteres y descripción |
---|---|
1 | ISO-8859-1 Alfabeto latino parte 1 Cubriendo América del Norte, Europa Occidental, América Latina, el Caribe, Canadá, África |
2 | ISO-8859-2 Alfabeto latino parte 2 Cubriendo Europa del Este |
3 | ISO-8859-3 Alfabeto latino parte 3 Cubriendo el sudeste de Europa, esperanto, varios otros |
4 | ISO-8859-4 Alfabeto latino parte 4 Cubriendo Escandinavia / Bálticos (y otros no en ISO-8859-1) |
5 | ISO-8859-5 Alfabeto latino / cirílico parte 5 |
6 | ISO-8859-6 Alfabeto latino / árabe parte 6 |
7 | ISO-8859-7 Alfabeto latino / griego parte 7 |
8 | ISO-8859-8 Alfabeto latino / hebreo parte 8 |
9 | ISO-8859-9 Alfabeto latino 5 parte 9 Igual que ISO-8859-1 excepto que los caracteres turcos reemplazan a los islandeses |
10 | ISO-8859-10 Latín 6 Latín 6 Lapona, Nórdica y Esquimal |
11 | ISO-8859-15 Lo mismo que ISO-8859-1 pero con más caracteres agregados |
12 | ISO-2022-JP Alfabeto latino / japonés, parte 1 |
13 | ISO-2022-JP-2 Alfabeto latino / japonés, parte 2 |
14 | ISO-2022-KR Alfabeto latino / coreano, parte 1 |
El Consorcio Unicode se creó para idear una forma de mostrar todos los caracteres de diferentes idiomas, en lugar de tener estos diferentes códigos de caracteres incompatibles para diferentes idiomas.
Por lo tanto, si desea crear documentos que utilicen caracteres de varios juegos de caracteres, podrá hacerlo utilizando codificaciones de caracteres Unicode individuales.
Por lo tanto, Unicode especifica codificaciones que pueden tratar con una cadena de formas especiales para dejar suficiente espacio para el enorme conjunto de caracteres que abarca. Estos se conocen como UTF8, UTF-16 y UTF-32.
No Señor | Conjunto de caracteres y descripción |
---|---|
1 | UTF-8 Un formato de traducción Unicode que viene en unidades de 8 bits, es decir, viene en bytes. Un carácter en UTF8 puede tener entre 1 y 4 bytes de longitud, lo que hace que UTF8 sea de ancho variable. |
2 | UTF-16 Un formato de traducción Unicode que viene en unidades de 16 bits, es decir, viene en cortos. Puede tener 1 o 2 pantalones cortos, lo que hace que el ancho de UTF16 sea variable. |
3 | UTF-32 Un formato de traducción Unicode que viene en unidades de 32 bits, es decir, viene en longitudes. Es un formato de ancho fijo y siempre mide 1 "de largo". |
Los primeros 256 caracteres de los juegos de caracteres Unicode corresponden a los 256 caracteres de ISO-8859-1.
De forma predeterminada, los procesadores HTML 4 deben admitir UTF-8, y se supone que los procesadores XML admiten UTF-8 y UTF-16; por lo tanto, todos los procesadores compatibles con XHTML también deben admitir UTF-16.