read - Analizador de HTML en Python

python html scraping (8)

No recomiendo BeautifulSoup si quieres velocidad. lxml es mucho, mucho más rápido, y puedes recurrir al analizador de sopa de BS de lxml si el analizador predeterminado no funciona.

Usando la documentación de Python, encontré el analizador de HTML pero no tengo idea de qué biblioteca importar para usarlo, ¿cómo lo averiguo? (Teniendo en cuenta que no dice en la página).

Para el procesamiento de HTML en el mundo real, recomendaría BeautifulSoup . Es genial y quita gran parte del dolor. La instalación es fácil.

Yo recomendaría utilizar el módulo Beautiful Soup en su lugar y tiene una buena documentación .

Puede estar interesado en lxml . Es un paquete separado y tiene componentes C, pero es el más rápido. También tiene una muy buena API, lo que le permite incluir fácilmente enlaces en documentos HTML, o formularios de lista, desinfectar HTML, y más. También tiene capacidades para analizar HTML no bien formado (es configurable).

También debe ver html5lib para Python, ya que trata de analizar el HTML de una manera que se parece mucho a lo que hacen los navegadores web, especialmente cuando se trata de HTML no válido (que es más del 90% de la web actual).

Tratar:

import HTMLParser

En Python 3.0, el módulo HTMLParser ha sido renombrado a html.parser, puedes verificarlo aquí

Python 3.0

import html.parser

Python 2.2 y superior

import HTMLParser

Hay un enlace a un ejemplo en la parte inferior de ( http://docs.python.org/2/library/htmlparser.html ), simplemente no funciona con el python original o python3. Tiene que ser python2 como dice en la parte superior.

Probablemente quieras BeautifulSoup , mira el enlace para ver un ejemplo.

Pero en todo caso

>>> import HTMLParser >>> h = HTMLParser.HTMLParser() >>> h.feed(''<html></html>'') >>> h.get_starttag_text() ''<html>'' >>> h.close()