una - tipos de etiquetas html

Cree un gran analizador: extraiga texto relevante de HTML/Blogs (2)

Estoy intentando crear un analizador HTML generalizado que funciona bien en las publicaciones de blog. Quiero apuntar mi analizador a la URL de la entrada específica y recuperar el texto limpio de la publicación. Mi enfoque básico (desde python) ha sido utilizar una combinación de BeautifulSoup / Urllib2, que está bien, pero se supone que conoce las etiquetas adecuadas para la entrada del blog. Alguien tiene mejores ideas?

Aquí hay algunos pensamientos que tal vez alguien podría expandir, que todavía no tengo suficiente conocimiento / conocimiento para implementar.

El programa ''lynx'' de Unix parece analizar las publicaciones del blog especialmente bien: ¿qué analizador utilizan, o cómo podría utilizarse?
¿Hay algún servicio / analizador que elimine automáticamente los anuncios basura, etc.?
En este caso, tuve la vaga idea de que puede ser una buena suposición de que las publicaciones del blog generalmente están contenidas en una determinada etiqueta definitoria con class = "entry" o algo similar. Por lo tanto, puede ser posible crear un algoritmo que encuentre las etiquetas adjuntas con el texto más limpio entre ellas. ¿Alguna idea sobre esto?

¡Gracias!

Chico, tengo la solución perfecta para ti.

El algoritmo de legibilidad de Arc90 hace exactamente esto. Dado el contenido HTML, selecciona el contenido del texto principal de la publicación del blog, ignorando los encabezados, pies de página, navegación, etc.

Aquí están las implementaciones en:

~~Estaré lanzando un puerto Perl a CPAN en un par de días.~~ Hecho.

¡Espero que esto ayude!

Hay proyectos que específicamente tratan de filtrar el ''ruido'' de una página determinada. Por lo general, la forma en que se hace esto es dando al algoritmo algunos ejemplos de un determinado tipo de página, y puede ver qué partes no cambian entre ellas. Dicho esto, tendrías que dar al algoritmo algunas páginas / publicaciones de ejemplo de cada blog que quisieras analizar. Por lo general, esto funciona bien cuando tiene un pequeño conjunto de sitios definidos que rastreará (sitios de noticias, por ejemplo). El algoritmo es básicamente detectar la plantilla que utilizan en HTML y seleccionar la parte interesante. No hay magia aquí, es dura e imperfecta.

Se puede encontrar un gran ejemplo de este algoritmo en el código fuente de EveryBlock.com que fue de código abierto. Vaya a everyblock.com/code y descargue el paquete "ebdata" y observe el módulo "templatemaker".

Y no quiero decir lo obvio, pero ¿ha considerado simplemente usar RSS de los blogs en cuestión? Por lo general, los campos tienen toda la publicación del blog, el título y otra información meta junto con ellos. Usar RSS va a ser mucho más simple que la solución anterior que mencioné.