with texto remove limpiar from escape convert allow php html screen-scraping

texto - php string with html tags



Raspado de HTML en Php (7)

Esta pregunta ya tiene una respuesta aquí:

He estado haciendo algunos html scraping en PHP usando expresiones regulares. Esto funciona, pero el resultado es quisquilloso y frágil. ¿Alguien ha utilizado algún paquete que brinde una solución más robusta? Una solución basada en configuración sería ideal, pero no soy exigente.


Me htmlSQL un poco trabajando con htmlSQL , que no es tanto una solución de alto nivel, sino realmente simple de htmlSQL .


Si la página que está raspando es válida X (HT) ML, entonces cualquiera de los analizadores XML integrados de PHP lo hará.

No he tenido mucho éxito con las bibliotecas de PHP para raspar. Si eres aventurero, puedes probar simplehtmldom . Recomendaría Hpricot para Ruby o Beautiful Soup para Python, que son excelentes analizadores para HTML.



También recomendaría ''Simple HTML DOM Parser''. Es una buena opción, especialmente si está familiarizado con los selectores de jQuery o JavaScript, entonces se encontrará en casa.

Incluso he blogueado sobre esto en el pasado.



Usando PHP para raspar HTML, recomendaría cURL + regexp o cURL + algunos analizadores DOM aunque personalmente uso cURL + regexp. Si tienes un sabor profundo de la expresión regular, a veces es más preciso.


Yo recomendaría PHP Simple HTML DOM Parser después de haber raspado el HTML de la página. Admite HTML no válido y proporciona una forma muy sencilla de manejar elementos HTML.