TIKA - Formatos de archivo
Formatos de archivo admitidos por Tika
La siguiente tabla muestra los formatos de archivo que admite Tika.
Formato de archivo | Biblioteca de paquetes | Clase en Tika |
---|---|---|
XML | org.apache.tika.parser.xml | XMLParser |
HTML | org.apache.tika.parser.html y utiliza la biblioteca de grupos de etiquetas | HtmlParser |
Documento compuesto de MS-Office Ole2 hasta 2007 ooxml 2007 en adelante | org.apache.tika.parser.microsoft org.apache.tika.parser.microsoft.ooxml y usa la biblioteca Apache Poi |
OfficeParser (ole2) OOXMLParser (ooxml) |
Formato OpenDocument openoffice | org.apache.tika.parser.odf | OpenOfficeParser |
formato de documento portátil (PDF) | org.apache.tika.parser.pdf y este paquete usa la biblioteca Apache PdfBox | PDFParser |
Formato de publicación electrónica (libros digitales) | org.apache.tika.parser.epub | EpubParser |
Formato de texto enriquecido | org.apache.tika.parser.rtf | RTFParser |
Formatos de compresión y empaque | org.apache.tika.parser.pkg y este paquete usa la biblioteca de compresión común | PackageParser y CompressorParser y sus subclases |
Formato de texto | org.apache.tika.parser.txt | TXTParser |
Formatos de distribución y alimentación | org.apache.tika.parser.feed | FeedParser |
Formatos de audio | org.apache.tika.parser.audio y org.apache.tika.parser.mp3 | AudioParser MidiParser Mp3- para mp3parser |
Analizadores de imágenes | org.apache.tika.parser.jpeg | JpegParser-para imágenes jpeg |
Videoformatos | org.apache.tika.parser.mp4 y org.apache.tika.parser.video este analizador utiliza internamente un algoritmo simple para analizar formatos de video flash | Mp4parser FlvParser |
archivos de clase java y archivos jar | org.apache.tika.parser.asm | ClassParser CompressorParser |
Mobxformat (mensajes de correo electrónico) | org.apache.tika.parser.mbox | MobXParser |
Formatos cad | org.apache.tika.parser.dwg | DWGParser |
FontFormats | org.apache.tika.parser.font | TrueTypeParser |
programas y bibliotecas ejecutables | org.apache.tika.parser.executable | ExecutableParser |