soup - web scraping python examples
Cómo escribir la salida en el archivo html con Python BeautifulSoup (2)
Simplemente convierta la instancia de soup
en cadena y escriba:
with open("output1.html", "w") as file:
file.write(str(soup))
Modifiqué un archivo html eliminando algunas de las etiquetas usando beautifulsoup
. Ahora quiero volver a escribir los resultados en un archivo html. Mi código:
from bs4 import BeautifulSoup
from bs4 import Comment
soup = BeautifulSoup(open(''1.html''),"html.parser")
[x.extract() for x in soup.find_all(''script'')]
[x.extract() for x in soup.find_all(''style'')]
[x.extract() for x in soup.find_all(''meta'')]
[x.extract() for x in soup.find_all(''noscript'')]
[x.extract() for x in soup.find_all(text=lambda text:isinstance(text, Comment))]
html =soup.contents
for i in html:
print i
html = soup.prettify("utf-8")
with open("output1.html", "wb") as file:
file.write(html)
Desde que utilicé soup.prettify, genera html como este:
<p>
<strong>
BATAM.TRIBUNNEWS.COM, BINTAN
</strong>
- Tradisi pedang pora mewarnai serah terima jabatan pejabat di
<a href="http://batam.tribunnews.com/tag/polres/" title="Polres">
Polres
</a>
<a href="http://batam.tribunnews.com/tag/bintan/" title="Bintan">
Bintan
</a>
, Senin (3/10/2016).
</p>
Quiero obtener el resultado como lo hago con la print i
:
<p><strong>BATAM.TRIBUNNEWS.COM, BINTAN</strong> - Tradisi pedang pora mewarnai serah terima jabatan pejabat di <a href="http://batam.tribunnews.com/tag/polres/" title="Polres">Polres</a> <a href="http://batam.tribunnews.com/tag/bintan/" title="Bintan">Bintan</a>, Senin (3/10/2016).</p>
<p>Empat perwira baru Senin itu diminta cepat bekerja. Tumpukan pekerjaan rumah sudah menanti di meja masing masing.</p>
¿Cómo puedo obtener un resultado igual que la print i
(es decir, para que la etiqueta y su contenido aparezcan en la misma línea)? Gracias.
Use unicode para estar seguro:
with open("output1.html", "w") as file:
file.write(unicode(soup))