tutorial - Análisis de HTML en Python

web scraping python (6)

Puede instalar lxml y muchos otros módulos de python de forma sencilla y sin problemas en Mac (OS X) utilizando Pallet, que es la GUI oficial de MacPorts.

El nombre del módulo es py27-lxml. Fácil como 1,2,3.

¿Cuál es mi mejor apuesta para analizar HTML si no puedo usar BeautifulSoup o lxml? Tengo un código que usa SGMLlib pero es un poco de bajo nivel y ahora está en desuso.

Yo preferiría si pudiera estorbar un poco de HTML malformado, aunque estoy bastante seguro de que la mayoría de las entradas estarán bastante limpias.

Python tiene un analizador de HTML nativo , sin embargo, el envoltorio de Tidy que sugirió Nick también sería una opción sólida. Tidy es una biblioteca muy común, (escrito en C ¿verdad?)

Tal vez µTidylib satisfaga sus necesidades?

html5lib es bueno:
http://code.google.com/p/html5lib/

Actualización: el enlace de arriba está roto. Se puede acceder a un espejo de terceros de arriba, desde https://github.com/html5lib/gcode-import

htql es bueno en el manejo de html malformados:

http://htql.net/

http://www.xmlhack.com/read.php?item=1392 http://sourceforge.net/projects/pirxx/

http://pyxml.sourceforge.net/topics/

No tengo mucha experiencia con Python, pero he usado Xerces (de la base Apache) en el pasado y lo encontré muy útil. La curva de aprendizaje tampoco está mal, aunque no provengo de una perspectiva de Python. Sugiero que lo consideres sin embargo. (Los primeros dos enlaces que he incluido discuten las interfaces de Python con Xerces y el último es el primer hit de google en "python xml").