tag - python html parser
Descargue la página html y su contenido (3)
Lo que estás buscando es una herramienta de duplicación. Si quieres uno en Python, PyPI lista spider.py pero no tengo experiencia con él. Otros podrían ser mejores, pero no sé, uso ''wget'', que permite obtener el CSS y las imágenes. Esto probablemente haga lo que quiera (citando el manual )
Recupere solo una página HTML, pero asegúrese de que también se descarguen todos los elementos necesarios para que se muestre la página, como imágenes en línea y hojas de estilo externas. También asegúrese de que la página descargada haga referencia a los enlaces descargados.
wget -p --convert-links http://www.server.com/dir/page.html
¿Python tiene alguna forma de descargar toda la página html y sus contenidos (imágenes, css) a la carpeta local dada una url. Y actualizando el archivo html local para elegir contenido localmente.
Puedes usar el urlib:
import urllib.request
opener = urllib.request.FancyURLopener({})
url = "http://.com/"
f = opener.open(url)
content = f.read()
Puede usar el módulo urllib
para descargar URL individuales, pero esto solo devolverá los datos. No analizará el HTML y descargará automáticamente cosas como archivos e imágenes CSS.
Si desea descargar la página "completa" necesitará analizar el HTML y encontrar las otras cosas que necesita descargar. Puede usar algo como Beautiful Soup para analizar el HTML que recupera.
Esta pregunta tiene un código de muestra que hace exactamente eso.