TIKA - Medio ambiente
Este capítulo lo lleva a través del proceso de configuración de Apache Tika en Windows y Linux. Es necesaria la administración de usuarios al instalar Apache Tika.
Requisitos del sistema
JDK | Java SE 2 JDK 1.6 o superior |
Memoria | 1 GB de RAM (recomendado) |
Espacio del disco | Sin requisito mínimo |
Versión del sistema operativo | Windows XP o superior, Linux |
Paso 1: verificar la instalación de Java
Para verificar la instalación de Java, abra la consola y ejecute lo siguiente java mando.
SO | Tarea | Mando |
---|---|---|
Ventanas | Abrir consola de comandos | \> java –version |
Linux | Terminal de comando abierto | $ java –version |
Si Java se ha instalado correctamente en su sistema, debería obtener uno de los siguientes resultados, dependiendo de la plataforma en la que esté trabajando.
SO | Salida |
---|---|
Ventanas | Versión de Java "1.7.0_60"
Entorno de tiempo de ejecución Java (TM) SE (compilación 1.7.0_60-b19) VM de servidor Java Hotspot (TM) de 64 bits (compilación 24.60-b09, modo mixto) |
Lunix | versión de Java "1.7.0_25" Entorno de tiempo de ejecución abierto de JDK (rhel-2.3.10.4.el6_4-x86_64) Abra la máquina virtual del servidor JDK de 64 bits (compilación 23.7-b01, modo mixto) |
Suponemos que los lectores de este tutorial tienen Java 1.7.0_60 instalado en su sistema antes de continuar con este tutorial.
En caso de que no tenga Java SDK, descargue su versión actual desde https://www.oracle.com/technetwork/java/javase/downloads/index.html and have it installed.
Paso 2: Configuración del entorno Java
Configure la variable de entorno JAVA_HOME para que apunte a la ubicación del directorio base donde Java está instalado en su máquina. Por ejemplo,
SO | Salida |
---|---|
Ventanas | Establezca la variable de entorno JAVA_HOME en C: \ ProgramFiles \ java \ jdk1.7.0_60 |
Linux | exportar JAVA_HOME = / usr / local / java-current |
Agregue la ruta completa de la ubicación del compilador de Java a la ruta del sistema.
SO | Salida |
---|---|
Ventanas | Agregue la cadena; C: \ Archivos de programa \ Java \ jdk1.7.0_60 \ bin hasta el final de la variable del sistema PATH. |
Linux | export PATH = $ PATH: $ JAVA_HOME / bin / |
Verifique el comando java-version desde el símbolo del sistema como se explicó anteriormente.
Paso 3: Configurar el entorno Apache Tika
Los programadores pueden integrar Apache Tika en su entorno utilizando
- Línea de comando,
- API de Tika,
- Interfaz de línea de comandos (CLI) de Tika,
- Interfaz gráfica de usuario (GUI) de Tika, o
- el código fuente.
Para cualquiera de estos enfoques, en primer lugar, debe descargar el código fuente de Tika.
Encontrará el código fuente de Tika en https://Tika.apache.org/download.html, donde encontrará dos enlaces -
apache-tika-1.6-src.zip - Contiene el código fuente de Tika, y
Tika -app-1.6.jar - Es un archivo jar que contiene la aplicación Tika.
Descarga estos dos archivos. A continuación se muestra una instantánea del sitio web oficial de Tika.
Después de descargar los archivos, configure la ruta de clase para el archivo jar tika-app-1.6.jar. Agregue la ruta completa del archivo jar como se muestra en la siguiente tabla.
SO | Salida |
---|---|
Ventanas | Agregue la cadena "C: \ jars \ Tika-app-1.6.jar" a la variable de entorno de usuario CLASSPATH |
Linux | Exportar CLASSPATH = $ CLASSPATH - /usr/share/jars/Tika-app-1.6.tar - |
Apache proporciona la aplicación Tika, una aplicación de interfaz gráfica de usuario (GUI) que utiliza Eclipse.
Tika-Maven Build usando Eclipse
Abra eclipse y cree un nuevo proyecto.
Si no tiene Maven en su Eclipse, configúrelo siguiendo los pasos dados.
Abra el enlace https://wiki.eclipse.org/M2E_updatesite_and_gittags . Allí encontrará las versiones del complemento m2e en formato tabular
Elija la última versión y guarde la ruta de la URL en la columna de URL p2.
Ahora vuelva a visitar eclipse, en la barra de menú, haga clic en Help, y elige Install New Software desde el menú desplegable
Haga clic en el Add, escriba el nombre que desee, ya que es opcional. Ahora pegue la URL guardada en elLocation campo.
Se agregará un nuevo complemento con el nombre que eligió en el paso anterior, marque la casilla de verificación al frente y haga clic en Next.
Continúe con la instalación. Una vez completado, reinicie Eclipse.
Ahora haga clic derecho en el proyecto, y en el configure opción, seleccione convert to maven project.
Aparece un nuevo asistente para crear un nuevo pom. Ingrese el ID de grupo como org.apache.tika, ingrese la última versión de Tika, seleccione elpackaging como jar y haga clic en Finish.
El proyecto Maven se instaló correctamente y su proyecto se convierte en Maven. Ahora tienes que configurar el archivo pom.xml.
Configurar el archivo XML
Obtenga la dependencia de Tika maven dehttps://mvnrepository.com/artifact/org.apache.tika
A continuación se muestra la dependencia completa de Maven de Apache Tika.
<dependency>
<groupId>org.apache.Tika</groupId>
<artifactId>Tika-core</artifactId>
<version>1.6</version>
<groupId>org.apache.Tika</groupId>
<artifactId> Tika-parsers</artifactId>
<version> 1.6</version>
<groupId> org.apache.Tika</groupId>
<artifactId>Tika</artifactId>
<version>1.6</version>
<groupId>org.apache.Tika</groupId>
< artifactId>Tika-serialization</artifactId>
< version>1.6< /version>
< groupId>org.apache.Tika< /groupId>
< artifactId>Tika-app< /artifactId>
< version>1.6< /version>
<groupId>org.apache.Tika</groupId>
<artifactId>Tika-bundle</artifactId>
<version>1.6</version>
</dependency>