machine-learning - parecidas - stumbleupon login

Arquitectura y componentes esenciales del motor de recomendaciones de StumbleUpon (1)

Me gustaría saber cómo stumbleupon recomienda artículos para sus usuarios ?.

¿Está utilizando una red neuronal o algún tipo de algoritmo de aprendizaje automático o está recomendando artículos basados en lo que el usuario "gustó" o simplemente está recomendando artículos basados en las etiquetas en el área de intereses ?. Con las etiquetas me refiero a utilizar algo así como el filtrado colaborativo basado en elementos, etc.

Primero, no tengo conocimiento interno del motor de recomendaciones de S / U. Lo que sí sé es que aprendí este tema en los últimos años y estudié las fuentes disponibles públicamente (incluidas las publicaciones de StumbleUpon en el sitio de su empresa y en su blog) y, por supuesto, como usuario de StumbleUpon.

No he encontrado ni una sola fuente, autorizada o no, que se acerque a decir "así es como funciona el motor de recomendación S / U", dado que este es posiblemente el motor de recomendación más exitoso de todos los tiempos: las estadísticas son insanas, S / U representa más de la mitad de todas las referencias en Internet , y sustancialmente más que Facebook, a pesar de tener una fracción de los usuarios registrados que tiene Facebook (800 millones frente a 15 millones); Además, S / U no es realmente un sitio con un motor de recomendación, como decir, Amazon.com, sino que el sitio en sí es un motor de recomendación: hay un volumen sustancial de discusiones y chismes entre el grupo bastante pequeño de personas que construyen Recomendación Motores tales que, si se analiza detenidamente, creo que es posible descifrar de forma fiable los tipos de algoritmos utilizados, las fuentes de datos que se les suministran y cómo se conectan en un flujo de datos operativo.

La siguiente descripción se refiere a mi Diagrama en la parte inferior. Cada paso en el flujo de datos se indica con un número romano. Mi descripción procede hacia atrás, comenzando con el punto en el que se entrega la URL al usuario, por lo que en el uso real, el último paso es el último y el paso V, primero.

óvalos de color salmón => fuentes de datos

rectángulos azul claro => algoritmos predictivos

I. Una página web recomendada para un usuario de S / U es el último paso en un flujo de pasos múltiples

II. El Motor de recomendación de StumbleUpon se suministra con datos (páginas web) de tres fuentes distintas:

páginas web etiquetadas con etiquetas de tema que coinciden con sus intereses predeterminados s (temas que un usuario ha indicado como intereses, y que están disponibles para ver / revisar haciendo clic en la pestaña "Configuración" en la esquina superior derecha del usuario conectado) página);
páginas aprobadas socialmente (* páginas que le gustan a los amigos de este usuario *); y
páginas respaldadas por pares (* páginas que le gustan a usuarios similares *);

III. Esas fuentes a su vez son resultados devueltos por los algoritmos predictivos de StumbleUpon (los usuarios similares se refieren a los usuarios en el mismo clúster según lo determinado por un algoritmo de agrupamiento , que es quizás k-means).

IV. Los datos utilizados para Cluster Engine para entrenarlo se componen de páginas web anotadas con calificaciones de usuarios.

V. Este conjunto de datos (páginas web calificadas por los usuarios de StumbleUpon) también se usa para entrenar un clasificador supervisado ( p . Ej ., Perceptrón multicapa, máquina de vectores de soporte) La salida de este clasificador supervisado es una etiqueta de clase aplicada a una página web aún no calificado por un usuario.

La mejor fuente que he encontrado que discutió el motor de recomendaciones de SU en el contexto de otros sistemas de recomendación es esta publicación de BetaBeat .