texto - php string with html tags
Raspado de HTML en Php (7)
Esta pregunta ya tiene una respuesta aquí:
- ¿Cómo se analiza y procesa HTML / XML en PHP? 28 respuestas
He estado haciendo algunos html scraping en PHP usando expresiones regulares. Esto funciona, pero el resultado es quisquilloso y frágil. ¿Alguien ha utilizado algún paquete que brinde una solución más robusta? Una solución basada en configuración sería ideal, pero no soy exigente.
Si la página que está raspando es válida X (HT) ML, entonces cualquiera de los analizadores XML integrados de PHP lo hará.
No he tenido mucho éxito con las bibliotecas de PHP para raspar. Si eres aventurero, puedes probar simplehtmldom . Recomendaría Hpricot para Ruby o Beautiful Soup para Python, que son excelentes analizadores para HTML.
También he tenido muy buenos resultados con el analizador de DOM Simple Html mencionado anteriormente. Y luego está la extensión ordenada para PHP que también funciona muy bien también.
También recomendaría ''Simple HTML DOM Parser''. Es una buena opción, especialmente si está familiarizado con los selectores de jQuery o JavaScript, entonces se encontrará en casa.
Tuve que usar curl en mi host 1and1.
http://www.quickscrape.com/ es lo que se me ocurrió con la clase Simple DOM.
Usando PHP para raspar HTML, recomendaría cURL + regexp o cURL + algunos analizadores DOM aunque personalmente uso cURL + regexp. Si tienes un sabor profundo de la expresión regular, a veces es más preciso.
Yo recomendaría PHP Simple HTML DOM Parser después de haber raspado el HTML de la página. Admite HTML no válido y proporciona una forma muy sencilla de manejar elementos HTML.