tipos texto español encodings declarar como codificacion codifica caracteres encoding character-encoding

encoding - texto - ¿Cuál es la codificación más común de cada idioma?



encodings (3)

El borrador de HTML5 contiene una tabla de codificaciones predeterminadas para idiomas , que refleja lo que se considera común. Sin embargo, tenga en cuenta que se supone que está basado en la configuración regional del usuario , es decir, el idioma del navegador o el sistema operativo, no el idioma del documento, obviamente porque este último suele ser desconocido, al menos antes de que realmente lea el documento. Basado en algún supuesto sobre la codificación.

Creo que en la práctica podría copiar la lista de codificaciones en un navegador web popular. Si funciona bien allí, probablemente funcione razonablemente bien en su aplicación. Los navegadores hacen algunas cosas inteligentes con la lista y su orden, pero en la práctica, creo que sería suficiente tener una lista corta como utf-8, utf-16, windows-1252, y quizás algunas otras, seguidas de una opción de obteniendo la lista completa. Tenga en cuenta que aunque utf-16 está prácticamente sin uso y es inútil para las páginas web, es común para los archivos de texto sin formato. Es importante nombrar bien las codificaciones, preferiblemente con un nombre común en inglés (u otro idioma) junto con el nombre del "conjunto de caracteres" de la IANA entre paréntesis, como lo hacen los navegadores.

Estoy desarrollando una aplicación de lector de texto plano. A veces, la aplicación no puede determinar automáticamente la codificación de un archivo, por lo que el usuario debe seleccionar una codificación de una lista de codificaciones. Si esta lista contiene todas las codificaciones compatibles, será demasiado larga. Quiero proporcionar una lista simplificada, solo contiene las codificaciones más comunes de cada idioma.

Esta es una relación que se me conoce:

  • Chino tradicional: Big5
  • Chino simplificado: GB18030
  • Japonés: Shift-JIS, EUC-JP
  • Ruso: KOI8-R

Si conoces la codificación más común de cualquier otro idioma, por favor, dímelo.


FWIW, aquí están las configuraciones regionales de Windows XP agrupadas por codificación de caracteres predeterminada:

  • Big5 : zh_HK, zh_MO, zh_TW
  • GBK (≈GB2312): zh_CN, zh_SG
  • Windows-31J (≈Shift_JIS): ja_JP
  • windows-874 (≈TIS-620, ISO-8859-11): th_TH
  • windows-949 (≈EUC-KR): ko_KR
  • windows-1250 : bs_BA, cs_CZ, hr_BA, hr_HR, hu_HU, pl_PL, ro_RO, sk_SK, sl_SI, sq_AL, sr_BA, sr_SP
  • windows-1251 : az_AZ, be_BY, bg_BG, kk_KZ, ky_KG, mk_MK, mn_MN, ru_RU, sr_BA, sr_SP, tt_RU, uk_UA, uz_UZ
  • windows-1252 (≈ISO-8859-1): af_ZA, arn_CL, ca_ES, cy_GB, da_DK, de_AT, de_CH, de_DE, de_LI, de_LU, en_AU, en_BZ, en_CA, es_CZ, es_ZM, es_ZM en_TT, en_US, en_ZA, en_ZW, es_AR, es_BO, es_CL, es_CO, es_CR, es_DO, es_EC, es_GT, es_HN, es_MN, es_MX, es_es_es_es_es_es_es_es_es_es_espanolicas_es_es_es_espanol_es_es_espanol_es_es_es_es_espanol_es_es_es_es_espanol_es_es_espanol_es_es_es_es_es_es_espanol_es_es_es_es_espanol_es_es_es_es_espanol_es_espanol fil_PH, fo_FO, fr_BE, fr_CA, fr_CH, fr_FR, fr_LU, fr_MC, fy_NL, ga_IE, gl_ES, id_ID, is_IS, it_CH, it_IT, it_IT, it_IT, n_n_y_in, n_n_y_in_in, nip_in_in_in_in_in_, n_n, n_n, n_p_y_in_in_in_in_, n_p_n_, n_n_, n_n_y_in ns_ZA, pt_BR, pt_PT, qu_BO, qu_EC, qu_PE, rm_CH, se_FI, se_NO, se_SE, sv_FI, sv_SE, sw_KE, tn_ZA, xh_ZA, zu_ZA
  • windows-1253 : el_GR
  • windows-1254 (≈ISO-8859-9): az_AZ, tr_TR, uz_UZ
  • windows-1255 : he_IL
  • windows-1256 : ar_AE, ar_BH, ar_DZ, ar_EG, ar_IQ, ar_JO, ar_KW, ar_LB, ar_LY, ar_MA, ar_OM, ar_QA, ar_SA, ar_SY, ar_TN, ar_YE, fa_IR, ps_AF, ur_PK
  • windows-1257 : et_EE, lt_LT, lv_LV
  • windows-1258 : vi_VN

y las codificaciones más comunes en general en la web :

  1. UTF-8 (89.2%)
  2. ISO-8859-1 (5.0%)
  3. Windows-1251 (1.6%)
  4. Shift JIS (0.9%)
  5. Windows-1252 (0.8%)
  6. GB2312 (0.7%)
  7. EUC-KR (0.4%)
  8. EUC-JP (0.3%)
  9. GBK (0.3%)
  10. ISO-8859-2 (0.2%)
  11. Windows-1250 (0.2%)
  12. ISO-8859-15 (0.1%)
  13. Windows-1256 (0.1%)
  14. ISO-8859-9 (0.1%)
  15. Big5 (0.1%)
  16. Windows-1254 (0.1%)
  17. Windows-874 (0.1%)

Recomendaría la estructura del menú como la utilizada por los navegadores. Por ejemplo, Firefox: Ver -> Codificación de caracteres -> Más codificación -> Asia oriental -> Chino / japonés / coreano. (ok, mas facil si solo miras). Y Ver -> Codificación -> Más en IE.

Puede parecer demasiado profundo y torpe, pero es muy familiar. Y no elimina las codificaciones útiles (¿por qué KOI8-R para ruso, por ejemplo? ¿Y qué sucede si uso Windows 1251 y no estoy en la lista?)