Los motores de búsqueda

Introducción

Search Engine se refiere a una enorme base de datos de recursos de Internet como páginas web, grupos de noticias, programas, imágenes, etc. Ayuda a localizar información en la World Wide Web.

El usuario puede buscar cualquier información pasando la consulta en forma de palabras clave o frase. Luego busca información relevante en su base de datos y regresa al usuario.

Componentes del motor de búsqueda

Generalmente, hay tres componentes básicos de un motor de búsqueda que se enumeran a continuación:

  1. Rastreador web

  2. Database

  3. Interfaces de búsqueda

Rastreador web

También se conoce como spider o bots. Es un componente de software que atraviesa la web para recopilar información.

Base de datos

Toda la información de la web se almacena en una base de datos. Consiste en enormes recursos web.

Interfaces de búsqueda

Este componente es una interfaz entre el usuario y la base de datos. Ayuda al usuario a buscar en la base de datos.

Motor de búsqueda trabajando

El rastreador web, la base de datos y la interfaz de búsqueda son el componente principal de un motor de búsqueda que realmente hace que el motor de búsqueda funcione. Los motores de búsqueda utilizan la expresión booleana Y, O, NO para restringir y ampliar los resultados de una búsqueda. Los siguientes son los pasos que realiza el motor de búsqueda:

  • El motor de búsqueda busca la palabra clave en el índice de la base de datos predefinida en lugar de ir directamente a la web para buscar la palabra clave.

  • Luego usa software para buscar la información en la base de datos. Este componente de software se conoce como rastreador web.

  • Una vez que el rastreador web encuentra las páginas, el motor de búsqueda muestra las páginas web relevantes como resultado. Estas páginas web recuperadas generalmente incluyen el título de la página, el tamaño de la porción de texto, las primeras oraciones, etc.

Estos criterios de búsqueda pueden variar de un motor de búsqueda a otro. La información recuperada se clasifica según varios factores, como la frecuencia de las palabras clave, la relevancia de la información, los enlaces, etc.

  • El usuario puede hacer clic en cualquiera de los resultados de búsqueda para abrirlo.

Arquitectura

La arquitectura del motor de búsqueda consta de las tres capas básicas que se enumeran a continuación:

  • Recopilación y refinamiento de contenido.

  • Núcleo de búsqueda

  • Interfaces de usuario y aplicación

Procesamiento de motores de búsqueda

Proceso de indexación

El proceso de indexación consta de las siguientes tres tareas:

  • Adquisición de texto

  • Transformación de texto

  • Creación de índice

Adquisición de texto

Identifica y almacena documentos para indexar.

Transformación de texto

Transforma el documento en términos o características de índice.

Creación de índice

Toma términos de índice creados por transformaciones de texto y crea estructuras de datos para respaldar una búsqueda rápida.

Proceso de consulta

El proceso de consulta consta de las siguientes tres tareas:

  • La interacción del usuario

  • Ranking

  • Evaluation

La interacción del usuario

Admite la creación y el refinamiento de la consulta del usuario y muestra los resultados.

Clasificación

Utiliza consultas e índices para crear una lista clasificada de documentos.

Evaluación

Supervisa y mide la eficacia y la eficiencia. Se realiza sin conexión.

Ejemplos

Los siguientes son los varios motores de búsqueda disponibles en la actualidad:

Buscador Descripción
Google Originalmente se llamaba BackRub. Es el motor de búsqueda más popular a nivel mundial.
Bing Fue lanzado en 2009 por Microsoft. Es el último motor de búsqueda basado en web que también ofrece resultados de Yahoo.
Pedir Fue lanzado en 1996 y originalmente se conocía como Ask Jeeves. Incluye soporte para coincidencia, diccionario y pregunta de conversación.
AltaVista Fue lanzado por Digital Equipment Corporation en 1995. Desde 2003, funciona con tecnología de Yahoo.
Búsqueda de AOL Funciona con Google.
LYCOS Es el portal de Internet top 5 y la propiedad en línea número 13 más grande según Media Matrix.
Alexa Es una subsidiaria de Amazon y se utiliza para proporcionar información sobre el tráfico del sitio web.