tabla - limpieza de datos con python
Reducción de dimensión en datos categóricos con valores perdidos (2)
Tengo un modelo de regresión en el que la variable dependiente es continua, pero el noventa por ciento de las variables independientes son categóricas (tanto ordenadas como desordenadas) y alrededor del treinta por ciento de los registros tienen valores faltantes (para empeorar las cosas, faltan al azar sin ningún patrón, es decir, más de cuarenta y cinco por ciento de los datos tienen al menos un valor faltante). No existe una teoría a priori para elegir la especificación del modelo, por lo que una de las tareas clave es la reducción de la dimensión antes de ejecutar la regresión. Si bien tengo conocimiento de varios métodos para la reducción de dimensión para variables continuas, no conozco una literatura estadística similar para datos categóricos (excepto, quizás, como parte del análisis de correspondencia que es básicamente una variación del análisis de componentes principales en la tabla de frecuencia). Permítanme agregar también que el conjunto de datos es de tamaño moderado 500000 observaciones con 200 variables. Tengo dos preguntas.
- ¿Existe una buena referencia estadística sobre la reducción de dimensiones para datos categóricos junto con una imputación sólida (creo que el primer problema es la imputación y luego la reducción de dimensiones)?
- Esto está vinculado a la implementación del problema anterior. He usado R mucho antes y tiendo a usar las funciones de transferencia e imputación en gran medida para las variables continuas y uso una variación del método de árbol para imputar valores categóricos. Tengo un conocimiento práctico de Python, así que si hay algo bueno para este propósito, lo utilizaré. Cualquier puntero de implementación en Python o R será de gran ayuda. Gracias.
Con respecto a la imputación de datos categóricos, sugeriría verificar el paquete de mice . También eche un vistazo a esta presentation que explica cómo imputa los datos categóricos multivariados. Otro paquete para la imputación Mutliple de datos multivariados incompletos es Amelia . Amelia incluye alguna capacidad limitada para lidiar con variables ordinales y nominales.
En cuanto a la reducción de la dimensionalidad para los datos categóricos (es decir, una forma de organizar las variables en grupos homogéneos), sugeriría el método de Análisis de Correspondencia Múltiple que le dará las variables latentes que maximizan la homogeneidad de los grupos. De manera similar a lo que se hace en Análisis de componentes principales (PCA) y Análisis de factores, la solución MCA también se puede rotar para aumentar la simplicidad de los componentes. La idea detrás de una rotación es encontrar subconjuntos de variables que coincidan más claramente con los componentes rotados. Esto implica que maximizar la simplicidad de los componentes puede ayudar en la interpretación de factores y en la agrupación de variables. En R, los métodos MCA se incluyen en los paquetes ade4 , MASS , FactoMineR y ca (al menos). En cuanto a FactoMineR, puede usarlo a través de una interfaz gráfica si lo agrega como un menú adicional a los ya propuestos por el paquete Rcmdr, instalando RcmdrPlugin.FactoMineR
El 45% de los datos tienen al menos un valor faltante, dices. Esto es impresionante. Primero miraría si no hay patrón. Usted dice que faltan al azar. ¿Has probado para MAR? ¿Has probado para MAR para subgrupos?
Sin saber sus datos, primero observaría si no hay casos con muchos valores faltantes y veré si hay razones teóricas o prácticas para excluirlos. Las razones prácticas son la producción de los datos. Puede ser que no se observaron bien, la máquina que produce los datos no giraba todo el tiempo, la encuesta no cubría todos los países todo el tiempo, etc. Por ejemplo, tiene datos de encuestas sobre la ocupación actual, pero parte de la los encuestados están jubilados. Así que tienen que faltar (en el sistema). No puede reemplazar estos datos con algún valor computado.
Tal vez usted pueda recortar rebanadas de los casos y buscar las condiciones de producción de datos.