TIKA - API referenciada

Los usuarios pueden incrustar Tika en sus aplicaciones utilizando la clase de fachada Tika. Tiene métodos para explorar todas las funcionalidades de Tika. Dado que es una clase de fachada, Tika abstrae la complejidad detrás de sus funciones. Además de esto, los usuarios también pueden utilizar las diversas clases de Tika en sus aplicaciones.

Clase Tika (fachada)

Esta es la clase más destacada de la biblioteca Tika y sigue el patrón de diseño de fachada. Por lo tanto, abstrae todas las implementaciones internas y proporciona métodos simples para acceder a las funcionalidades de Tika. La siguiente tabla enumera los constructores de esta clase junto con sus descripciones.

package - org.apache.tika

class - Tika

No Señor. Constructor y descripción
1

Tika ()

Utiliza la configuración predeterminada y construye la clase Tika.

2

Tika (Detector detector)

Crea una fachada Tika aceptando la instancia del detector como parámetro

3

Tika (Detector detector, Parser parser)

Crea una fachada Tika aceptando las instancias del detector y del analizador como parámetros.

4

Tika (Detector detector, Parser parser, Translator translator)

Crea una fachada Tika aceptando el detector, el analizador y la instancia del traductor como parámetros.

5

Tika (TikaConfig config)

Crea una fachada Tika aceptando el objeto de la clase TikaConfig como parámetro.

Métodos y descripción

Los siguientes son los métodos importantes de la clase de fachada Tika:

No Señor. Métodos y descripción
1

analizar gramaticalmenteToString (File archivo)

Este método y todas sus variantes analiza el archivo pasado como parámetro y devuelve el contenido de texto extraído en formato String. De forma predeterminada, la longitud de este parámetro de cadena es limitada.

2

En t getMaxStringLength ()

Devuelve la longitud máxima de cadenas devueltas por los métodos parseToString.

3

vacío setMaxStringLength (int maxStringLength)

Establece la longitud máxima de cadenas devueltas por los métodos parseToString.

4

Lector parse (File archivo)

Este método y todas sus variantes analiza el archivo pasado como parámetro y devuelve el contenido de texto extraído en forma de objeto java.io.reader.

5

Cuerda detect (InputStream corriente, Metadata metadatos)

Este método y todas sus variantes aceptan un objeto InputStream y un objeto Metadata como parámetros, detecta el tipo del documento dado y devuelve el nombre del tipo de documento como objeto String. Este método abstrae los mecanismos de detección utilizados por Tika.

6

Cuerda translate (InputStream texto, String lengua de llegada)

Este método y todas sus variantes acepta el objeto InputStream y un String que representa el idioma al que queremos que se traduzca nuestro texto, y traduce el texto dado al idioma deseado, intentando autodetectar el idioma fuente.

Interfaz del analizador

Esta es la interfaz que implementan todas las clases de analizadores del paquete Tika.

package - org.apache.tika.parser

Interface - Analizador

Métodos y descripción

El siguiente es el método importante de la interfaz de Tika Parser:

No Señor. Métodos y descripción
1

parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context)

Este método analiza el documento dado en una secuencia de eventos XHTML y SAX. Después del análisis, coloca el contenido del documento extraído en el objeto de la clase ContentHandler y los metadatos en el objeto de la clase Metadata.

Clase de metadatos

Esta clase implementa varias interfaces como CreativeCommons, Geographic, HttpHeaders, Message, MSOffice, ClimateForcast, TIFF, TikaMetadataKeys, TikaMimeKeys, Serializable para admitir varios modelos de datos. Las siguientes tablas enumeran los constructores y métodos de esta clase junto con sus descripciones.

package - org.apache.tika.metadata

class - metadatos

No Señor. Constructor y descripción
1

Metadata()

Construye metadatos nuevos y vacíos.

No Señor. Métodos y descripción
1

add (Property property, String value)

Agrega un mapeo de propiedad / valor de metadatos a un documento dado. Usando esta función, podemos establecer el valor de una propiedad.

2

add (String name, String value)

Agrega un mapeo de propiedad / valor de metadatos a un documento dado. Con este método, podemos establecer un nuevo valor de nombre para los metadatos existentes de un documento.

3

String get (Property property)

Devuelve el valor (si lo hay) de la propiedad de metadatos proporcionada.

4

String get (String name)

Devuelve el valor (si lo hay) del nombre de metadatos proporcionado.

5

Date getDate (Property property)

Devuelve el valor de la propiedad de metadatos de fecha.

6

String[] getValues (Property property)

Devuelve todos los valores de una propiedad de metadatos.

7

String[] getValues (String name)

Devuelve todos los valores de un nombre de metadatos determinado.

8

String[] names()

Devuelve todos los nombres de los elementos de metadatos en un objeto de metadatos.

9

set (Property property, Date date)

Establece el valor de fecha de la propiedad de metadatos dada

10

set(Property property, String[] values)

Establece varios valores en una propiedad de metadatos.

Clase de identificador de idioma

Esta clase identifica el idioma del contenido dado. Las siguientes tablas enumeran los constructores de esta clase junto con sus descripciones.

package - org.apache.tika.language

class - Identificador de idioma

No Señor. Constructor y descripción
1

LanguageIdentifier (LanguageProfile profile)

Crea una instancia del identificador de idioma. Aquí tienes que pasar un objeto LanguageProfile como parámetro.

2

LanguageIdentifier (String content)

Este constructor puede crear una instancia de un identificador de idioma pasando una cadena de contenido de texto.

No Señor. Métodos y descripción
1

String getLanguage ()

Devuelve el idioma dado al objeto LanguageIdentifier actual.