studio - regresion lineal multiple en r
RandomForest en R colas de regresiĆ³n lineal mtry (1)
Lo que ha descubierto no es un sesgo inherente en los bosques aleatorios, sino simplemente una falla al ajustar adecuadamente los parámetros de ajuste en el modelo.
Usando sus datos de ejemplo:
rf = randomForest(x=predictors, y=response,mtry = 2,nodesize = 1)
plot(x1, response)
lines(x1, predict(rf, predictors), col="red")
Para sus datos reales, es probable que la mejora no sea tan marcada, por supuesto, y apuesto a que obtendrá más nodesize
de nodesize
que mtry
(la mtry
parte del trabajo lo hice aquí).
La razón por la cual los árboles normales no exhibieron este "sesgo" es porque, de forma predeterminada, buscan todas las variables para la mejor división.
Estoy usando el paquete randomForest en R (R versión 2.13.1, randomForest versión 4.6-2) para la regresión y noté un sesgo significativo en mis resultados: el error de predicción depende del valor de la variable de respuesta. Los valores altos están por debajo de lo predicho y los valores bajos están por encima de lo predicho. Al principio, sospeché que esto era una consecuencia de mis datos, pero el siguiente ejemplo simple muestra que esto es inherente al algoritmo de bosque aleatorio:
n = 50;
x1 = seq(1,n)
x2 = matrix(1, n, 1)
predictors = data.frame(x1=x1, x2=x2)
response = x2 + x1
rf = randomForest(x=predictors, y=response)
plot(x1, response)
lines(x1, predict(rf, predictors), col="red")
Sin duda, los métodos de árbol tienen sus limitaciones en lo que respecta a la linealidad, pero incluso el árbol de regresión más simple, por ejemplo, tree () en R, no muestra este sesgo. No puedo imaginar que la comunidad no lo sepa, pero no ha encontrado ninguna mención, ¿cómo se corrige en general? Gracias por cualquier comentario
EDITAR: El ejemplo para esta pregunta es erróneo, consulte "RandomForest para la regresión en el sesgo dependiente de la distribución R - respuesta" en el intercambio de la pila para un tratamiento mejorado https://stats.stackexchange.com/questions/28732/randomforest-for-regression -in-r-respuesta-distribución-dependiente-diagonal