with soup scraping info how from examples businesses beautifulsoup4 beautiful and python html beautifulsoup

soup - web scraping python examples



Cómo escribir la salida en el archivo html con Python BeautifulSoup (2)

Simplemente convierta la instancia de soup en cadena y escriba:

with open("output1.html", "w") as file: file.write(str(soup))

Modifiqué un archivo html eliminando algunas de las etiquetas usando beautifulsoup . Ahora quiero volver a escribir los resultados en un archivo html. Mi código:

from bs4 import BeautifulSoup from bs4 import Comment soup = BeautifulSoup(open(''1.html''),"html.parser") [x.extract() for x in soup.find_all(''script'')] [x.extract() for x in soup.find_all(''style'')] [x.extract() for x in soup.find_all(''meta'')] [x.extract() for x in soup.find_all(''noscript'')] [x.extract() for x in soup.find_all(text=lambda text:isinstance(text, Comment))] html =soup.contents for i in html: print i html = soup.prettify("utf-8") with open("output1.html", "wb") as file: file.write(html)

Desde que utilicé soup.prettify, genera html como este:

<p> <strong> BATAM.TRIBUNNEWS.COM, BINTAN </strong> - Tradisi pedang pora mewarnai serah terima jabatan pejabat di <a href="http://batam.tribunnews.com/tag/polres/" title="Polres"> Polres </a> <a href="http://batam.tribunnews.com/tag/bintan/" title="Bintan"> Bintan </a> , Senin (3/10/2016). </p>

Quiero obtener el resultado como lo hago con la print i :

<p><strong>BATAM.TRIBUNNEWS.COM, BINTAN</strong> - Tradisi pedang pora mewarnai serah terima jabatan pejabat di <a href="http://batam.tribunnews.com/tag/polres/" title="Polres">Polres</a> <a href="http://batam.tribunnews.com/tag/bintan/" title="Bintan">Bintan</a>, Senin (3/10/2016).</p> <p>Empat perwira baru Senin itu diminta cepat bekerja. Tumpukan pekerjaan rumah sudah menanti di meja masing masing.</p>

¿Cómo puedo obtener un resultado igual que la print i (es decir, para que la etiqueta y su contenido aparezcan en la misma línea)? Gracias.


Use unicode para estar seguro:

with open("output1.html", "w") as file: file.write(unicode(soup))