Apache Solr - Terminología

En este capítulo, intentaremos comprender el significado real de algunos de los términos que se utilizan con frecuencia al trabajar en Solr.

Terminología general

La siguiente es una lista de términos generales que se utilizan en todos los tipos de configuraciones de Solr:

  • Instance - Como un tomcat instance o un jetty instance, este término se refiere al servidor de aplicaciones, que se ejecuta dentro de una JVM. El directorio de inicio de Solr proporciona una referencia a cada una de estas instancias de Solr, en las que se pueden configurar uno o más núcleos para que se ejecuten en cada instancia.

  • Core - Mientras ejecuta múltiples índices en su aplicación, puede tener múltiples núcleos en cada instancia, en lugar de múltiples instancias, cada una con un núcleo.

  • Home - El término $ SOLR_HOME se refiere al directorio de inicio que tiene toda la información sobre los núcleos y sus índices, configuraciones y dependencias.

  • Shard - En entornos distribuidos, los datos se dividen entre varias instancias de Solr, donde cada fragmento de datos se puede llamar como un Shard. Contiene un subconjunto de todo el índice.

Terminología de SolrCloud

En un capítulo anterior, discutimos cómo instalar Apache Solr en modo independiente. Tenga en cuenta que también podemos instalar Solr en modo distribuido (entorno de nube) donde Solr se instala en un patrón maestro-esclavo. En el modo distribuido, el índice se crea en el servidor maestro y se replica en uno o más servidores esclavos.

Los términos clave asociados con Solr Cloud son los siguientes:

  • Node - En la nube de Solr, cada instancia de Solr se considera una node.

  • Cluster - Todos los nodos del entorno combinados forman un cluster.

  • Collection - Un clúster tiene un índice lógico que se conoce como collection.

  • Shard - Un fragmento es una parte de la colección que tiene una o más réplicas del índice.

  • Replica - En Solr Core, una copia del fragmento que se ejecuta en un nodo se conoce como replica.

  • Leader - También es una réplica del fragmento, que distribuye las solicitudes de Solr Cloud a las réplicas restantes.

  • Zookeeper - Es un proyecto de Apache que Solr Cloud utiliza para la configuración y coordinación centralizada, para administrar el clúster y elegir un líder.

Archivos de configuración

Los archivos de configuración principales en Apache Solr son los siguientes:

  • Solr.xml- Es el archivo en el directorio $ SOLR_HOME que contiene información relacionada con Solr Cloud. Para cargar los núcleos, Solr se refiere a este archivo, que ayuda a identificarlos.

  • Solrconfig.xml - Este archivo contiene las definiciones y configuraciones específicas del núcleo relacionadas con el manejo de solicitudes y el formato de respuesta, junto con la indexación, configuración, administración de memoria y realización de confirmaciones.

  • Schema.xml - Este archivo contiene el esquema completo junto con los campos y tipos de campo.

  • Core.properties- Este archivo contiene las configuraciones específicas del núcleo. Es referido paracore discovery, ya que contiene el nombre del núcleo y la ruta del directorio de datos. Se puede utilizar en cualquier directorio, que luego se tratará como elcore directory.