Los motores de búsqueda
Introducción
Search Engine se refiere a una enorme base de datos de recursos de Internet como páginas web, grupos de noticias, programas, imágenes, etc. Ayuda a localizar información en la World Wide Web.
El usuario puede buscar cualquier información pasando la consulta en forma de palabras clave o frase. Luego busca información relevante en su base de datos y regresa al usuario.
Componentes del motor de búsqueda
Generalmente, hay tres componentes básicos de un motor de búsqueda que se enumeran a continuación:
Rastreador web
Database
Interfaces de búsqueda
Rastreador web
También se conoce como spider o bots. Es un componente de software que atraviesa la web para recopilar información.
Base de datos
Toda la información de la web se almacena en una base de datos. Consiste en enormes recursos web.
Interfaces de búsqueda
Este componente es una interfaz entre el usuario y la base de datos. Ayuda al usuario a buscar en la base de datos.
Motor de búsqueda trabajando
El rastreador web, la base de datos y la interfaz de búsqueda son el componente principal de un motor de búsqueda que realmente hace que el motor de búsqueda funcione. Los motores de búsqueda utilizan la expresión booleana Y, O, NO para restringir y ampliar los resultados de una búsqueda. Los siguientes son los pasos que realiza el motor de búsqueda:
El motor de búsqueda busca la palabra clave en el índice de la base de datos predefinida en lugar de ir directamente a la web para buscar la palabra clave.
Luego usa software para buscar la información en la base de datos. Este componente de software se conoce como rastreador web.
Una vez que el rastreador web encuentra las páginas, el motor de búsqueda muestra las páginas web relevantes como resultado. Estas páginas web recuperadas generalmente incluyen el título de la página, el tamaño de la porción de texto, las primeras oraciones, etc.
Estos criterios de búsqueda pueden variar de un motor de búsqueda a otro. La información recuperada se clasifica según varios factores, como la frecuencia de las palabras clave, la relevancia de la información, los enlaces, etc.
El usuario puede hacer clic en cualquiera de los resultados de búsqueda para abrirlo.
Arquitectura
La arquitectura del motor de búsqueda consta de las tres capas básicas que se enumeran a continuación:
Recopilación y refinamiento de contenido.
Núcleo de búsqueda
Interfaces de usuario y aplicación
Procesamiento de motores de búsqueda
Proceso de indexación
El proceso de indexación consta de las siguientes tres tareas:
Adquisición de texto
Transformación de texto
Creación de índice
Adquisición de texto
Identifica y almacena documentos para indexar.
Transformación de texto
Transforma el documento en términos o características de índice.
Creación de índice
Toma términos de índice creados por transformaciones de texto y crea estructuras de datos para respaldar una búsqueda rápida.
Proceso de consulta
El proceso de consulta consta de las siguientes tres tareas:
La interacción del usuario
Ranking
Evaluation
La interacción del usuario
Admite la creación y el refinamiento de la consulta del usuario y muestra los resultados.
Clasificación
Utiliza consultas e índices para crear una lista clasificada de documentos.
Evaluación
Supervisa y mide la eficacia y la eficiencia. Se realiza sin conexión.
Ejemplos
Los siguientes son los varios motores de búsqueda disponibles en la actualidad:
Buscador | Descripción |
---|---|
Originalmente se llamaba BackRub. Es el motor de búsqueda más popular a nivel mundial. | |
Bing | Fue lanzado en 2009 por Microsoft. Es el último motor de búsqueda basado en web que también ofrece resultados de Yahoo. |
Pedir | Fue lanzado en 1996 y originalmente se conocía como Ask Jeeves. Incluye soporte para coincidencia, diccionario y pregunta de conversación. |
AltaVista | Fue lanzado por Digital Equipment Corporation en 1995. Desde 2003, funciona con tecnología de Yahoo. |
Búsqueda de AOL | Funciona con Google. |
LYCOS | Es el portal de Internet top 5 y la propiedad en línea número 13 más grande según Media Matrix. |
Alexa | Es una subsidiaria de Amazon y se utiliza para proporcionar información sobre el tráfico del sitio web. |