machine-learning - regresion - problemas de clasificacion machine learning
Algoritmo de clasificación con valores perdidos y sesgo (2)
El problema es :
Se pidió a un conjunto de 5 usuarios independientes que calificaran 50 productos que se les habían otorgado. Los 50 productos habrían sido utilizados por los usuarios en algún momento. Algunos usuarios tienen más prejuicios hacia ciertos productos. Un usuario no completó realmente la encuesta y dio valores aleatorios. No es necesario que los usuarios califiquen todos los productos. Ahora, dado un conjunto de datos de 4 muestras, clasifique los productos según las calificaciones
datset :
product #user1 #user2 #user3 #user4 #user5
0 29 - 10 90 12
1 - - - - 7
2 - - 95 6 1
3 - - - - 2
4 - - - - 50
5 - 35 21 13 -
6 - - - - 5
7 4 - - 30 -
8 11 - - - 14
.
.
.
Cómo salir con una clasificación para los productos.
Este es un problema remodelado muy cercano al problema original.
Solución: Intenté limpiar los datos y completar los valores faltantes utilizando PCA y aplicar NMF, pero no estoy seguro de la solución.
Cualquier ayuda será muy apreciada
En este caso, se pueden usar dos métodos de imputación:
- Como todos lo intentarían al principio, rellene con el valor más probable, es decir, la media promedio.
- Predecir basado en otros atributos que se llama imputación por regresión.
En realidad, creo que el segundo método parece mejor para este conjunto de datos donde los usuarios clasifican principalmente más de un producto.
Además, si tiene otros conjuntos de datos que dependen de los usuarios, puede usarlos también para predecir los valores perdidos en este conjunto de datos.
Si no le importan los puntajes absolutos y está más interesado en una clasificación relativa consistente, puede ver su problema como una instancia del problema de agregación de rango : dada una lista de clasificaciones (parciales o totales), obtenga una clasificación de consenso que minimiza el desacuerdo total con los rankings de entrada. Hay varias formas posibles de formalizar el desacuerdo y postular condiciones razonables que deberían mantenerse. Un ejemplo de tal condición es el criterio de Condorcet : si un ítem derrota a cualquier otro ítem en votación por mayoría simple por parejas, entonces debe ocupar el primer lugar.
Este excelente documento contiene una buena motivación y revisión de la literatura de los enfoques de clasificación por consenso. La agregación óptima de Kemeny minimiza la distancia de Kendall-Tau, es decir, el recuento total de desacuerdos por pares entre listas. Si bien esta agregación óptima es NP-hard, los autores proponen enfoques heurísticos razonables.