parse from example java html xml parsing

java - from - parse html



analizar metaetiquetas en Java (3)

Tengo una colección de documentos HTML para la cual necesito analizar el contenido de las etiquetas <meta> en la sección <head>. Estas son las únicas etiquetas HTML cuyos valores me interesan, es decir, no necesito analizar nada en la sección <body>.

Intenté analizar estos valores utilizando el soporte XPath proporcionado por JDom. Sin embargo, esto no está funcionando demasiado bien porque gran parte del HTML en la sección <body> no es XML válido.

¿Alguien tiene alguna sugerencia sobre cómo puedo analizar estos valores de etiquetas de manera que se pueda tratar con HTML mal formado?

Saludos, Don


¡Si le conviene a su aplicación, puede usar Tidy para convertir HTML a XML válido, y luego usar tanto XPath como quiera!


Es probable que pueda utilizar el analizador HTML de Jericho . En particular, eche un vistazo a esto para ver cómo puede encontrar etiquetas específicas.


JTidy debería proporcionar un buen punto de partida para esto.