scraping read parser online htmlparser python import

read - Analizador de HTML en Python



python html scraping (8)

No recomiendo BeautifulSoup si quieres velocidad. lxml es mucho, mucho más rápido, y puedes recurrir al analizador de sopa de BS de lxml si el analizador predeterminado no funciona.

Usando la documentación de Python, encontré el analizador de HTML pero no tengo idea de qué biblioteca importar para usarlo, ¿cómo lo averiguo? (Teniendo en cuenta que no dice en la página).


Para el procesamiento de HTML en el mundo real, recomendaría BeautifulSoup . Es genial y quita gran parte del dolor. La instalación es fácil.



Puede estar interesado en lxml . Es un paquete separado y tiene componentes C, pero es el más rápido. También tiene una muy buena API, lo que le permite incluir fácilmente enlaces en documentos HTML, o formularios de lista, desinfectar HTML, y más. También tiene capacidades para analizar HTML no bien formado (es configurable).


También debe ver html5lib para Python, ya que trata de analizar el HTML de una manera que se parece mucho a lo que hacen los navegadores web, especialmente cuando se trata de HTML no válido (que es más del 90% de la web actual).


Tratar:

import HTMLParser

En Python 3.0, el módulo HTMLParser ha sido renombrado a html.parser, puedes verificarlo aquí

Python 3.0

import html.parser

Python 2.2 y superior

import HTMLParser



Probablemente quieras BeautifulSoup , mira el enlace para ver un ejemplo.

Pero en todo caso

>>> import HTMLParser >>> h = HTMLParser.HTMLParser() >>> h.feed(''<html></html>'') >>> h.get_starttag_text() ''<html>'' >>> h.close()