tutorial tag parser find_next_sibling python html

tag - python html parser



Descargue la página html y su contenido (3)

Lo que estás buscando es una herramienta de duplicación. Si quieres uno en Python, PyPI lista spider.py pero no tengo experiencia con él. Otros podrían ser mejores, pero no sé, uso ''wget'', que permite obtener el CSS y las imágenes. Esto probablemente haga lo que quiera (citando el manual )

Recupere solo una página HTML, pero asegúrese de que también se descarguen todos los elementos necesarios para que se muestre la página, como imágenes en línea y hojas de estilo externas. También asegúrese de que la página descargada haga referencia a los enlaces descargados.

wget -p --convert-links http://www.server.com/dir/page.html

¿Python tiene alguna forma de descargar toda la página html y sus contenidos (imágenes, css) a la carpeta local dada una url. Y actualizando el archivo html local para elegir contenido localmente.


Puedes usar el urlib:

import urllib.request opener = urllib.request.FancyURLopener({}) url = "http://.com/" f = opener.open(url) content = f.read()


Puede usar el módulo urllib para descargar URL individuales, pero esto solo devolverá los datos. No analizará el HTML y descargará automáticamente cosas como archivos e imágenes CSS.

Si desea descargar la página "completa" necesitará analizar el HTML y encontrar las otras cosas que necesita descargar. Puede usar algo como Beautiful Soup para analizar el HTML que recupera.

Esta pregunta tiene un código de muestra que hace exactamente eso.