scraping example screen-scraping web-crawler htmlunit headless-browser

screen-scraping - scraping - htmlunit example



Alternativa a HtmlUnit (6)

He estado investigando sobre los navegadores sin cabeza disponibles hasta la fecha y encontré que HtmlUnit se está usando bastante. ¿Tenemos alguna alternativa a HtmlUnit con una posible ventaja en comparación con HtmlUnit?

Gracias nayn


Hay muchas otras bibliotecas que puedes usar para esto.

  • Si necesita raspar datos base xml, use JTidy .
  • Si necesita raspar datos específicos de HTML, puede usar Jsoup .

Bueno, yo uso jsoup, es bastante más rápido que cualquier otra API.


Por lo que sé, HtmlUnit` es el navegador sin cabeza más potente.

¿Qué problemas tienes con eso?


También recomendaría el selenio. La gran característica es que puede crear un cliente que abra una página del navegador para ver qué sucede en cada paso. Además, crear macros para pruebas automatizadas es otra buena característica. Sin embargo, si necesita desechar algo de información de la página web, HtmlUnit es mejor que el selenio.



Voy a utilizar Selenium para mi caso de uso, ya que me ofrece el uso del navegador real y ninguna desviación de lo que se representaría en el mundo real en comparación con HtmlUnit. Estoy planeando usar Selenium2 que tiene integración con WebDriver y ofrece excelentes API y arreglos geniales. Gracias nayn


WebDriver con un framebuffer virtual es la única alternativa real. La ventaja es que utiliza un navegador real; la desventaja es que es más difícil de configurar, y la API es mucho más pobre.