detectar - Cómo verificar la codificación de un archivo CSV
detectar codificacion de un archivo (4)
Tengo un archivo CSV y deseo entender su codificación. ¿Hay alguna opción de menú en Microsoft Excel que pueda ayudarme a detectarla?
O ¿necesito hacer uso de lenguajes de programación como C # o PHP para deducirlo?
En sistemas Linux, puede utilizar el comando de archivo . Le dará la codificación correcta.
Muestra:
file blah.csv
Salida:
blah.csv: ISO-8859 text, with very long lines
Puede abrir el archivo con el bloc de notas y luego ir a Archivo -> Guardar como. Junto al botón Guardar, habrá una lista desplegable de codificación y allí se seleccionará la codificación actual del archivo.
Si usa Python, simplemente use una función print () para verificar la codificación de un archivo csv. Por ejemplo:
with open(''file_name.csv'') as f:
print(f)
La salida es algo como esto:
<_io.TextIOWrapper name=''file_name.csv'' mode=''r'' encoding=''utf8''>
Utilice chardet https://github.com/chardet/chardet (la documentación es breve y fácil de leer).
Instale python, luego pip instale chardet, por último use el comando de línea de comando.
Lo probé bajo GB2312 y es bastante preciso. (Asegúrese de tener al menos unos pocos caracteres, la muestra con solo 1 carácter puede fallar fácilmente).
file
no es confiable como se puede ver.