parser - Analizador HTML/XML para Java

read xml java 8 (7)

Bien:

no hay tantos analizadores de HTML buenos en Java como lo necesita, pero aquí hay algunas alternativas: http://java-source.net/open-source/html-parsers

Muy pocos de ellos admiten Javascript. En realidad, creo que tendrá que hacer esta parte usted mismo usando Rhino ( http://www.mozilla.org/rhino/ ).

Qué analizadores HTML tienen las siguientes características:

Rápido
A salvo de amenazas
Confiable y libre de errores
Parses HTML y XML
Maneja HTML erróneo
Tiene una implementación DOM
Admite etiquetas HTML4, JavaScript y CSS
Relativamente simple, API orientada a objetos

¿Qué analizador crees que es mejor?

Gracias.

Creo que HTML Cleaner es lo que estás buscando. Vea su announcement en TheServerSide para ver cómo se compara con JTidy, TagSoup, NekoHtml.

Echa un vistazo a Web Harvest . Es a la vez una biblioteca que puedes usar y una herramienta de extracción de datos, que a mí me parece que eso es exactamente lo que quieres hacer. Crea archivos de script XML para indicar al scraper cómo extraer la información que necesita y desde dónde. La GUI proporcionada es muy útil para probar rápidamente los scripts.

Consulte la página de muestras del proyecto para ver si encaja perfectamente con lo que intenta hacer.

Los más conocidos son NekoHTML y JTidy .

NekoHTML se basa en Xerces y proporciona un SAXParser adaptable simple que implementa la interfaz JavaSE de XMLReader .

JTidy está más interesado en formatear el código html en algo XML-valid, pero sigue siendo muy útil como analizador XML, produciendo un árbol DOM si es necesario.

Puede echar un vistazo a esta lista para ver otras alternativas.

Otra opción podría ser utilizar hpricot través de jRuby.

es probable que desee ver algo como ejecutar Mozilla en modo sin cabeza. Aquí hay un link para comenzar, estoy seguro de que puede usar Google para obtener más información.

El analizador de HTML de Validator.nu definitivamente. Es una implementación del algoritmo de análisis HTML5, y Gecko está en el proceso de reemplazar su propio analizador HTML con una traducción C ++ de este.

Apache Tika es la mejor opción. Apache recientemente ha extraído muchos subproyectos de los proyectos existentes y los ha hecho públicos. Tika es uno de ellos que anteriormente era un componente de Apache Lucene. Debido al apoyo y la reputación de Apache y al ampliamente utilizado proyecto matriz Lucene, debe ser una muy buena opción. Además, es de código abierto.

Una breve introducción del sitio web de Apache Tika:

El kit de herramientas de Apache Tika ™ detecta y extrae metadatos y contenido de texto estructurado de varios documentos utilizando bibliotecas de analizadores existentes.

Y los formatos compatibles son:

HyperText Markup Language XML and derived formats Microsoft Office document formats OpenDocument Format Portable Document Format Electronic Publication Format Rich Text Format Compression and packaging formats Text formats Audio formats Image formats Video formats Java class files and archives The mbox format