rpubs - randomforest r
R Importancia Variable de los Bosques Aleatorios (3)
Estoy tratando de usar el paquete de bosques aleatorios para la clasificación en R.
Las medidas de importancia variable enumeradas son:
- puntuación media de importancia sin procesar de la variable x para la clase 0
- puntuación de importancia bruta media de la variable x para la clase 1
MeanDecreaseAccuracy
-
MeanDecreaseGini
Ahora sé lo que estos "significan", ya que conozco sus definiciones. Lo que quiero saber es cómo usarlos.
Lo que realmente quiero saber es qué significan estos valores solo en el contexto de qué tan precisos son, qué es un buen valor, qué es un mal valor, cuáles son los máximos y mínimos, etc.
Si una variable tiene una MeanDecreaseAccuracy
o MeanDecreaseGini
alta, ¿significa eso que es importante o no? También cualquier información sobre puntajes brutos podría ser útil también. Quiero saber todo lo que hay que saber sobre estos números que es relevante para la aplicación de ellos.
Una explicación que use las palabras "error", "suma" o "permutada" sería menos útil que una explicación más simple que no implique ninguna discusión sobre cómo funcionan los bosques aleatorios.
Como si quisiera que alguien me explique cómo usar una radio, no esperaría que la explicación implique cómo una radio convierte las ondas de radio en sonido.
Una explicación que use las palabras "error", "suma" o "permutada" sería menos útil que una explicación más simple que no implique ninguna discusión sobre cómo funcionan los bosques aleatorios.
Como si quisiera que alguien me explique cómo usar una radio, no esperaría que la explicación implique cómo una radio convierte las ondas de radio en sonido.
¿Cómo explicaría qué significan los números en WKRP 100.5 FM "sin entrar en los detalles técnicos molestos de las frecuencias de onda? Francamente, los parámetros y los problemas de rendimiento relacionados con Random Forests son difíciles de entender incluso si comprende algunos términos técnicos.
Aquí está mi oportunidad de algunas respuestas:
-mean puntaje de importancia sin procesar de la variable x para la clase 0
-mean puntaje de importancia sin procesar de la variable x para la clase 1
Simplificando desde la página web de Random Forest, el puntaje de importancia sin importancia mide cuánto más útil que una variable de predicción es al azar para clasificar los datos con éxito.
-MeanDecreaseAccuracy
Creo que esto solo está en el módulo R , y creo que mide cuánta inclusión de este predictor en el modelo reduce el error de clasificación.
-MeanDecreaseGini
Gini se define como "inequidad" cuando se usa para describir la distribución de ingresos de una sociedad, o como una medida de "impureza de nodos" en la clasificación basada en árboles. Un bajo Gini (es decir, un mayor descenso en Gini) significa que una variable predictiva particular juega un papel más importante en la partición de los datos en las clases definidas. Es difícil describirlo sin hablar del hecho de que los datos en los árboles de clasificación se dividen en nodos individuales en función de los valores de los predictores. No tengo muy claro cómo esto se traduce en un mejor rendimiento.
La interpretabilidad es un poco difícil con Random Forests. Si bien RF es un clasificador extremadamente robusto, hace sus predicciones de forma democrática. Con esto quiero decir que construyes cientos o miles de árboles tomando un subconjunto aleatorio de tus variables y un subconjunto aleatorio de tus datos y construyes un árbol. Luego haga una predicción para todos los datos no seleccionados y guarde la predicción. Es robusto porque se adapta bien a los caprichos de su conjunto de datos (es decir, suaviza los valores altos / bajos al azar, parcelas / muestras fortuitas, midiendo lo mismo de 4 maneras diferentes, etc.). Sin embargo, si tiene algunas variables altamente correlacionadas, ambas pueden parecer importantes, ya que no siempre están incluidas en cada modelo.
Un enfoque potencial con bosques aleatorios puede ser ayudar a reducir sus predictores, luego cambiar a CART regular o probar el paquete PARTY para modelos de árbol basados en inferencia. Sin embargo, debe tener cuidado con los problemas de minería de datos y hacer inferencias sobre los parámetros.
Para su preocupación inmediata: valores más altos significan que las variables son más importantes. Esto debería ser cierto para todas las medidas que menciona.
Los bosques aleatorios te dan modelos bastante complejos, por lo que puede ser difícil interpretar las medidas de importancia. Si quiere entender fácilmente qué están haciendo sus variables, no use RF. Use modelos lineales o un árbol de decisión (no conjunto) en su lugar.
Tu dijiste:
Una explicación que use las palabras "error", "suma" o "permutada" sería menos útil que una explicación más simple que no implique ninguna discusión sobre cómo funcionan los bosques aleatorios.
Va a ser muy difícil explicar mucho más que lo anterior, a menos que entres y aprendas sobre bosques aleatorios. Supongo que se queja del manual o de la sección del manual de Breiman:
http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#varimp
Para descubrir qué tan importante es una variable, la llenan con basura aleatoria ("permuta") y luego ven cuánto disminuye la precisión de predicción. MeanDecreaseAccuracy y MeanDecreaseGini funcionan de esta manera. No estoy seguro de cuáles son los puntajes de importancia sin procesar.