resumen - Eliminar subcadena mediante el uso de Python
python para ingenieros pdf (2)
>>> import re
>>> st = " i think mabe 124 + <font color=/"black/"><font face=/"Times New Roman/">but I don''t have a big experience it just how I see it in my eyes <font color=/"green/"><font face=/"Arial/">fun stuff"
>>> re.sub("<.*?>","",st)
" i think mabe 124 + but I don''t have a big experience it just how I see it in my eyes fun stuff"
>>>
Ya extraigo algo de información de un foro. Es la cadena en bruto que tengo ahora:
string = ''i think mabe 124 + <font color="black"><font face="Times New Roman">but I don/'t have a big experience it just how I see it in my eyes <font color="green"><font face="Arial">fun stuff''
Lo que no me gusta es la cadena secundaria "<font color="black"><font face="Times New Roman">"
y "<font color="green"><font face="Arial">"
. Sí quiero guardar la otra parte de la cuerda excepto esto. Entonces el resultado debería ser así
resultString = "i think mabe 124 + but I don''t have a big experience it just how I see it in my eyes fun stuff"
¿Cómo podría hacer esto? En realidad usé una hermosa sopa para extraer la cadena de arriba de un foro. Ahora puedo preferir la expresión regular para eliminar la parte.
import re
re.sub(''<.*?>'', '''', string)
"i think mabe 124 + but I don''t have a big experience it just how I see it in my eyes fun stuff"
La función re.sub
toma una expresión regular y reemplaza todas las coincidencias en la cadena con el segundo parámetro. En este caso, estamos buscando todas las etiquetas ( ''<.*?>''
) Y reemplazándolas por nada ( ''''
).
El ?
se usa en re
para búsquedas no codiciosas.
Más sobre el re module