rendered - web scraping javascript tutorial
Navegador sin cabeza para Python(¡SE REQUIERE soporte Javascript!) (6)
Estoy a punto de escribir un controlador de Python para Zombie.js, "un marco liviano para probar el código JavaScript del lado del cliente en un entorno simulado".
Actualmente estoy parado en la resolución de un error en Node.js (antes de escribir más pruebas y más código), pero no duden en vigilar mi proyecto a medida que progresa:
Necesito un navegador sin cabeza que sea bastante fácil de usar (todavía soy bastante nuevo en Python y la programación en general) lo que me permitirá navegar a una página, iniciar sesión en un formulario que requiera Javascript y luego raspar la página web resultante buscar resultados que coincidan con ciertos criterios, hacer clic en casillas de verificación y hacer clic para descargar archivos. Todo esto requiere Javascript.
Escuché que un navegador sin cabeza es lo que quiero, los requisitos / preferencias son que puedo ejecutarlo desde Python, y preferiblemente que el script resultante sea compilable por py2exe (estoy escribiendo este programa para otros usuarios).
Hasta ahora, parece que Windmill PODRÍA ser lo que quiero, pero no estoy seguro.
¡Alguna idea apreciada!
Intenta usar phantomjs, tiene un gran soporte de JavaScript. Entonces podrías ejecutarlo como un subproceso de una secuencia de comandos python
http://docs.python.org/library/subprocess.html
eso podría controlarlo.
La respuesta a esta pregunta fue Spynner
Puede usar HTQL en combinación con IRobotSoft webscraper. Vea aquí ejemplos: http://htql.net/
Uso webkit como un navegador sin cabeza en Python a través de pyqt / pyside:
http://www.riverbankcomputing.co.uk/software/pyqt/download
http://developer.qt.nokia.com/wiki/Category:LanguageBindings::PySide::Downloads
Particularmente me gusta webkit porque es fácil de configurar. Para Ubuntu, simplemente usa: sudo apt-get install python-qt4
Aquí hay un script de ejemplo:
http://webscraping.com/blog/Scraping-JavaScript-webpages-with-webkit/