algorithm - examples - ¿Cómo es Amazon Faceted Search tan rápido?
algorithms book (2)
Bueno, hay paralelización, pero una de las cosas que todos hacen al final de este tipo de cosas es ejecutar procesos lentos (como el análisis semántico de los contenidos de los libros) y poner una búsqueda rápida en la parte superior. Literalmente almacenan en caché los resultados de búsqueda en algunas bases de datos grandes, de modo que todo lo que tienen que hacer es realizar búsquedas en bases de datos en los resultados de búsqueda. Tal vez entendí mal la pregunta, pero es similar a lo que hace Google. No crees que sus arañas recorran la web de tus sitios cuando ingresas a un término de búsqueda, ¿verdad?
Busque un término en amazon.com, por ejemplo "desbordamiento de pila", y los resultados de búsqueda vuelven rápidamente.
En el lado izquierdo de la ventana, hay una búsqueda facetada que muestra en ciertas categorías, el recuento de productos que coinciden con ese término.
A continuación, puede profundizar en esos términos. Por ejemplo, hay 1.094 libros que coinciden con el término, que se divide en Computadoras e Internet (1003), Ciencia, etc.
Dado que la búsqueda de libros cubre los contenidos de algunos de esos libros, me parece que se trata de una hazaña muy impresionante.
¿Cómo hace Amazon? Paralelización masiva? por ejemplo, cada nodo sabe acerca de algunos productos?
Por cierto, vi que "desbordamiento de pila" aparece en el texto de "El alma de una máquina nueva", un libro que recuerdo de 1981
La respuesta corta es mucha indexación. La respuesta más larga es mucha indexación, mucha redundancia, mucho almacenamiento en caché y particiones inteligentes.
La verdadera respuesta es: lee este libro: http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
(Es gratis, y es muy bueno).