screen-scraping - scraping - htmlunit example
Alternativa a HtmlUnit (6)
He estado investigando sobre los navegadores sin cabeza disponibles hasta la fecha y encontré que HtmlUnit se está usando bastante. ¿Tenemos alguna alternativa a HtmlUnit con una posible ventaja en comparación con HtmlUnit?
Gracias nayn
Por lo que sé, HtmlUnit` es el navegador sin cabeza más potente.
¿Qué problemas tienes con eso?
También recomendaría el selenio. La gran característica es que puede crear un cliente que abra una página del navegador para ver qué sucede en cada paso. Además, crear macros para pruebas automatizadas es otra buena característica. Sin embargo, si necesita desechar algo de información de la página web, HtmlUnit es mejor que el selenio.
Utilizo webkit como navegador sin cabeza, a través de los enlaces Python de Qt: http://www.riverbankcomputing.co.uk/static/Docs/PyQt4/html/qtwebkit.html
Webkit es el motor de renderizado usado por Chrome y Safari, y es muy flexible.
Una de mis razones para elegirlo sobre HtmlUnit fue la facilidad de configuración:
sudo apt-get install python-qt4
Voy a utilizar Selenium para mi caso de uso, ya que me ofrece el uso del navegador real y ninguna desviación de lo que se representaría en el mundo real en comparación con HtmlUnit. Estoy planeando usar Selenium2 que tiene integración con WebDriver y ofrece excelentes API y arreglos geniales. Gracias nayn
WebDriver con un framebuffer virtual es la única alternativa real. La ventaja es que utiliza un navegador real; la desventaja es que es más difícil de configurar, y la API es mucho más pobre.