android - Análisis del contenido que contiene etiquetas html con XMLPullParser

nested html-parsing (2)

Estoy construyendo una aplicación en Android usando XmlPullParser.

¿Cómo puedo obtener el contenido de un html formateado de esta manera?

<div class="content"> "Some text is here." <br> "some more text "<a class="link" href="adress">continues here</a> <br> </div>

Quiero analizar todo el contenido de esta manera:

"Some text is here. some more text continues here"

La parte "continúa aquí" también debe estar hipervinculada.

ADICIÓN después de algunos comentarios: HTML se coloca primero en Yahoo YQL y YQL genera un XML. Uso el archivo XML generado en el código. La parte antes mencionada que quiero analizar proviene del XML generado.

Tanto HTML como XML, aunque comparten sintaxis común en algunos casos, son diferentes . Creo que usar XmlPullParser para ese propósito no es una buena idea. Recomiendo usar uno de los varios analizadores HTML de Java para eso.

XmlPullParser está pensado para tratar con XML. Es realmente raro encontrar páginas XHMTL que estén bien estructuradas en la web. Un analizador XML esperaría datos formateados muy bien y no debería tolerar fallas. Por otro lado, HTML suele estar poco organizado.

Entonces, no, no es una buena idea. Deberías preferir otras bibliotecas como tagoup o geronimo .

PD: y lo mejor cuando haces una pregunta de pila sobre flujo es probar algo por ti mismo y, si está bloqueado, entonces pregunta. No de la otra manera.