tutorial scraping rendered pages javascript python screen-scraping headless-browser

rendered - web scraping javascript tutorial



Navegador sin cabeza para Python(¡SE REQUIERE soporte Javascript!) (6)

Estoy a punto de escribir un controlador de Python para Zombie.js, "un marco liviano para probar el código JavaScript del lado del cliente en un entorno simulado".

Actualmente estoy parado en la resolución de un error en Node.js (antes de escribir más pruebas y más código), pero no duden en vigilar mi proyecto a medida que progresa:

https://github.com/ryanpetrello/python-zombie

Necesito un navegador sin cabeza que sea bastante fácil de usar (todavía soy bastante nuevo en Python y la programación en general) lo que me permitirá navegar a una página, iniciar sesión en un formulario que requiera Javascript y luego raspar la página web resultante buscar resultados que coincidan con ciertos criterios, hacer clic en casillas de verificación y hacer clic para descargar archivos. Todo esto requiere Javascript.

Escuché que un navegador sin cabeza es lo que quiero, los requisitos / preferencias son que puedo ejecutarlo desde Python, y preferiblemente que el script resultante sea compilable por py2exe (estoy escribiendo este programa para otros usuarios).

Hasta ahora, parece que Windmill PODRÍA ser lo que quiero, pero no estoy seguro.

¡Alguna idea apreciada!



La respuesta a esta pregunta fue Spynner


No hay muchos navegadores sin cabeza que admitan Javascript.

Podrías probar Zombie.js o Phantomjs . Esos no son Python, pero Javascript simple y esos realmente pueden hacer el trabajo.


Puede usar HTQL en combinación con IRobotSoft webscraper. Vea aquí ejemplos: http://htql.net/