vectores secuencial ordenamiento metodos lineal google ejemplo busqueda algoritmos algoritmo algorithm search ranking relevance

algorithm - secuencial - Buscar algoritmos de clasificación/relevancia



metodos de busqueda en vectores (5)

Creo que el ángulo aquí no es la recuperación en sí misma ... se trata de anotar la relevancia de la información recuperada (un enfoque más reactivo y pasivo) que luego se puede utilizar para mejorar el motor de búsqueda.

Supongo que puedes intentarlo

  1. knn en tfidf para recuperar información

  2. Etiquetar manualmente estos datos recuperados con un puntaje de relevancia

  3. Luego, regrese ese puntaje para predecir el puntaje para un resultado de búsqueda desentonado y oriéntelo.

Solo un pensamiento...

El tercer punto se basa realmente en el algoritmo de Rocchio. Puedes verlo aquí

Al desarrollar una base de datos de artículos en una Base de conocimiento (por ejemplo), ¿cuáles son las mejores formas de ordenar y mostrar las respuestas más relevantes a la pregunta de un usuario?

¿Utilizaría datos adicionales como la ponderación de palabras clave en función de si los usuarios anteriores encontraron el artículo de ayuda, o considera que un algoritmo simple de concordancia de palabras clave es suficiente?


Esa es una pregunta difícil, y las empresas como Google están haciendo un gran esfuerzo para abordar esta cuestión. Eche un vistazo a Google Enterprise Search Appliance o Exalead Enterprise Search .

Entonces, como opinión personal, no creo que ningún enfoque "ingenuo" vaya a mejorar mucho el resultado en comparación con la búsqueda de palabras clave ingenua y el ordenamiento por el número de visitas en los documentos.

Si tiene la posibilidad de exponer su base de conocimiento a la web, simplemente hágalo y deje que su motor de búsqueda favorito maneje la búsqueda por usted.


Tal vez el enfoque más simple y más ingenuo que dará resultados inmediatamente útiles sería implementar * tf-idf :

Las variaciones del esquema de ponderación tf-idf a menudo son utilizadas por los motores de búsqueda como una herramienta central para calificar y clasificar la relevancia de un documento dada una consulta del usuario. tf-idf se puede utilizar con éxito para el filtrado de palabras prohibidas en diversos campos temáticos, incluido el resumen y la clasificación del texto.

En una reciente pregunta mía relacionada, me enteré de un excelente libro gratuito sobre este tema que puedes descargar o leer en línea:

Una introducción a la recuperación de información


Un poco más de especificidad de su problema exacto sería bueno. Hay muchas técnicas diferentes que puedes usar. Muchos de estos son impulsados ​​por otros datos. Por supuesto, puede usar Lucene y crear sus propios índices. Hay enlaces para muchos idiomas a lucene. Avanzando hacia arriba también está el proyecto Solr , que es Lucene con muchas herramientas y funcionalidad adicional a su alrededor. Eso puede estar más en la línea de lo que estás buscando.

La intención es engañosa y la mayoría de los buscadores modernos confían en la intención estadística de ayudar en el orden de los resultados. Siempre puede tener un botón útil para este artículo y almacenar el texto de consulta que conduce a documentos útiles. Luego, podría agregar una capa de información al índice para impulsar palabras o frases específicas y ayudarlas a señalar ciertos documentos.

Algunas cosas para pensar ... ¿Cuántos documentos? ¿Cuál es la duración promedio? ¿Se actualizan con frecuencia? ¿Qué hacen los usuarios con los documentos? ¿Cómo se ve la propagación de palabras únicas a los documentos? (Más simplemente, es fácil hacer coincidir una consulta con un documento específico basado en características únicas comunes).

Si está en la web, siempre puede hacer un motor de búsqueda personalizado de Google que solo busque en su sitio, aunque puede encontrar que no es óptimo por una variedad de razones.

Siempre puede comenzar con un índice simple y gradualmente hacerlo más sofisticado hablando con los usuarios y capturando datos.


la coincidencia de palabras clave no es suficiente cuando se trata de preguntas, debe comprender el propósito, como dicen los joannes un tema muy candente en la búsqueda