TIKA - Formatos de archivo

Formatos de archivo admitidos por Tika

La siguiente tabla muestra los formatos de archivo que admite Tika.

Formato de archivo Biblioteca de paquetes Clase en Tika
XML org.apache.tika.parser.xml XMLParser
HTML org.apache.tika.parser.html y utiliza la biblioteca de grupos de etiquetas HtmlParser
Documento compuesto de MS-Office Ole2 hasta 2007 ooxml 2007 en adelante

org.apache.tika.parser.microsoft

org.apache.tika.parser.microsoft.ooxml y usa la biblioteca Apache Poi

OfficeParser (ole2)

OOXMLParser (ooxml)

Formato OpenDocument openoffice org.apache.tika.parser.odf OpenOfficeParser
formato de documento portátil (PDF) org.apache.tika.parser.pdf y este paquete usa la biblioteca Apache PdfBox PDFParser
Formato de publicación electrónica (libros digitales) org.apache.tika.parser.epub EpubParser
Formato de texto enriquecido org.apache.tika.parser.rtf RTFParser
Formatos de compresión y empaque org.apache.tika.parser.pkg y este paquete usa la biblioteca de compresión común PackageParser y CompressorParser y sus subclases
Formato de texto org.apache.tika.parser.txt TXTParser
Formatos de distribución y alimentación org.apache.tika.parser.feed FeedParser
Formatos de audio org.apache.tika.parser.audio y org.apache.tika.parser.mp3 AudioParser MidiParser Mp3- para mp3parser
Analizadores de imágenes org.apache.tika.parser.jpeg JpegParser-para imágenes jpeg
Videoformatos org.apache.tika.parser.mp4 y org.apache.tika.parser.video este analizador utiliza internamente un algoritmo simple para analizar formatos de video flash Mp4parser FlvParser
archivos de clase java y archivos jar org.apache.tika.parser.asm ClassParser CompressorParser
Mobxformat (mensajes de correo electrónico) org.apache.tika.parser.mbox MobXParser
Formatos cad org.apache.tika.parser.dwg DWGParser
FontFormats org.apache.tika.parser.font TrueTypeParser
programas y bibliotecas ejecutables org.apache.tika.parser.executable ExecutableParser