www syntaxerror separar see por peps org non funciones for declared declarar coding caracter but python encoding utf-8

syntaxerror - ¿Por qué declarar unicode por cadena en python?



python utf 8 header (6)

Como han dicho otros, # coding: especifica la codificación en la que se guarda el archivo fuente. Aquí hay algunos ejemplos para ilustrar esto:

Un archivo guardado en el disco como cp437 (mi consola de codificación), pero no hay codificación declarada

b = ''über'' u = u''über'' print b,repr(b) print u,repr(u)

Salida:

File "C:/ex.py", line 1 SyntaxError: Non-ASCII character ''/x81'' in file C:/ex.py on line 1, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

Salida del archivo con # coding: cp437 agregado:

über ''/x81ber'' über u''/xfcber''

Al principio, Python no conocía la codificación y se quejaba del carácter no ASCII. Una vez que conocía la codificación, la cadena de bytes obtenía los bytes que estaban realmente en el disco. Para la cadena Unicode, Python leyó / x81, sabía que en cp437 era un ü , y lo decodificó en el punto de código Unicode para ü que es U + 00FC. Cuando se imprimió la cadena de bytes, Python envió directamente el valor hexadecimal 81 a la consola. Cuando se imprimió la cadena Unicode, Python detectó correctamente la codificación de mi consola como cp437 y tradujo Unicode ü al valor de cp437 para ü .

Esto es lo que sucede con un archivo declarado y guardado en UTF-8:

├╝ber ''/xc3/xbcber'' über u''/xfcber''

En UTF-8, ü se codifica como los bytes hexadecimales C3 BC , por lo que la cadena de bytes contiene esos bytes, pero la cadena Unicode es idéntica al primer ejemplo. Python leyó los dos bytes y lo decodificó correctamente. Python imprimió la cadena de bytes de forma incorrecta, porque envió los dos bytes UTF-8 que representan ü directamente a mi consola cp437.

Aquí el archivo se declara cp437, pero se guarda en UTF-8:

├╝ber ''/xc3/xbcber'' ├╝ber u''/u251c/u255dber''

La cadena de bytes todavía tiene los bytes en el disco (bytes hexadecimales UTF-8 C3 BC ), pero los interpreta como dos caracteres cp437 en lugar de un único carácter codificado en UTF-8. Esos dos caracteres fueron traducidos a puntos de código Unicode y todo se imprime incorrectamente.

Todavía estoy aprendiendo Python y tengo una duda:

En python 2.6.x generalmente declaro la codificación en el encabezado del archivo como este (como en PEP 0263 )

# -*- coding: utf-8 -*-

Después de eso, mis cadenas están escritas como de costumbre:

a = "A normal string without declared Unicode"

Pero cada vez que veo un código de proyecto de Python, la codificación no se declara en el encabezado. En cambio, se declara en cada cadena como esta:

a = u"A string with declared Unicode"

¿Cual es la diferencia? ¿Cuál es el propósito de esto? Sé que Python 2.6.x establece la codificación ASCII por defecto, pero puede ser anulada por la declaración del encabezado, entonces, ¿cuál es el punto de la declaración por cadena?

Adición: Parece que he mezclado la codificación de archivos con la codificación de cadenas. Gracias por explicarlo :)


Esas son dos cosas diferentes, como otros han mencionado.

Cuando especifica # -*- coding: utf-8 -*- , le está diciendo a Python que el archivo fuente que ha guardado es utf-8 . El valor predeterminado para Python 2 es ASCII (para Python 3 es utf-8 ). Esto solo afecta cómo el intérprete lee los caracteres en el archivo.

En general, probablemente no sea la mejor idea incorporar caracteres altos unicode en su archivo sin importar la codificación; puede utilizar cadenas de escape unicode, que funcionan en cualquiera de las codificaciones.

Cuando declaras una cadena con una u en el frente , como u''This is a string'' , le dice al compilador de Python que la cadena es Unicode, no bytes. Esto es manejado mayormente de forma transparente por el intérprete; la diferencia más obvia es que ahora puede incrustar caracteres Unicode en la cadena (es decir, u''/u2665'' ahora es legal). Puede utilizar from __future__ import unicode_literals para que sea el predeterminado.

Esto solo se aplica a Python 2; en Python 3, el valor predeterminado es Unicode, y debe especificar una b en el frente (como b''These are bytes'' , para declarar una secuencia de bytes).


Eso no establece el formato de la cadena; establece el formato del archivo. Incluso con ese encabezado, "hello" es una cadena de bytes, no una cadena Unicode. Para hacerlo Unicode, vas a tener que usar u"hello" todas partes. El encabezado es solo una pista de qué formato usar al leer el archivo .py .


Hice el siguiente módulo llamado unicoder para poder hacer la transformación en variables:

import sys import os def ustr(string): string = ''u"%s"''%string with open(''_unicoder.py'', ''w'') as script: script.write(''# -*- coding: utf-8 -*-/n'') script.write(''_ustr = %s''%string) import _unicoder value = _unicoder._ustr del _unicoder del sys.modules[''_unicoder''] os.system(''del _unicoder.py'') os.system(''del _unicoder.pyc'') return value

Luego, en su programa podría hacer lo siguiente:

# -*- coding: utf-8 -*- from unicoder import ustr txt = ''Hello, Unicode World'' txt = ustr(txt) print type(txt) # <type ''unicode''>


La definición del encabezado es definir la codificación del código en sí, no las cadenas resultantes en el tiempo de ejecución.

poner un carácter no ascii como 2 en el script python sin la definición del encabezado utf-8 emitirá un error de advertencia http://www.freeimagehosting.net/uploads/1ed15124c4.jpg


si está utilizando Python 2, agregue esto: from __future__ import unicode_literals