xa0 python text-processing

xa0 - normalize unicode python



Eliminar Chars en Python (4)

Para las urls, usando urlparse :

>>> import urlparse >>> parts = urlparse.urlsplit(''http://google.com/path/to/resource?query=spam#anchor'') >>> parts (''http'', ''google.com'', ''/path/to/resource'', ''query=spam'', ''anchor'') >>> urlparse.urlunsplit((parts[0], parts[1], '''', '''', '''')) ''http://google.com''

Para cadenas arbitrarias, usando re :

>>> import re >>> re.split(r''/b//b'', ''http://google.com/path/to/resource'', 1) [''http://google.com'', ''path/to/resource'']

¿Alguien sabe cómo eliminar todos los personajes detrás de un personaje específico?

Me gusta esto:

http://google.com/translate_t

dentro

http://google.com


Si conoce la posición del personaje, puede usar la sintaxis de corte para crear una nueva cadena:

In [2]: s1 = "abc123" In [3]: s2 = s1[:3] In [4]: print s2 abc

Para encontrar la posición, puede usar los métodos find() o index() de cadenas. Los métodos split() y partition() pueden ser útiles. Esos métodos están documentados en los documentos de Python para las secuencias .

Eliminar una parte de una cadena es imposible porque las cadenas son inmutables.

Si desea procesar las URL, definitivamente debe usar la biblioteca urlparse . Te permite dividir una URL en sus partes. Si solo desea eliminar una parte de la ruta del archivo, deberá hacerlo usted mismo.


si pregunta por una cadena abstracta y no por url, puede ir con:

>>> astring ="http://google.com/translate_t" >>> astring.rpartition(''/'')[0] http://google.com


str="http://google.com/translate_t" shortened=str[0:str.rfind("/")]

Deberías hacerlo. str [a: b] devuelve una subcadena en python. Y rfind se usa para encontrar el índice de una secuencia de caracteres, comenzando al final de la cadena.