scikit-learn - scikit - random forest sklearn example
Comprender el parĂ¡metro max_features en RandomForestRegressor (1)
Directamente de la documentación :
[
max_features
] es el tamaño de los subconjuntos aleatorios de características a considerar al dividir un nodo.
Así que max_features
es lo que llamas m . Cuando max_features="auto"
, m = p y no se realiza la selección del subconjunto de características en los árboles, por lo que el "bosque aleatorio" es en realidad un conjunto en bolsas de árboles de regresión ordinarios. Los documentos continúan para decir que
Los buenos valores predeterminados empíricos son
max_features=n_features
para problemas de regresión, ymax_features=sqrt(n_features)
para tareas de clasificación
Al establecer max_features
diferente, obtendrás un bosque "verdadero" al azar.
Al construir cada árbol en el bosque aleatorio usando muestras bootstrapped, para cada nodo terminal, seleccionamos m variables al azar de p variables para encontrar la mejor división (p es el número total de características en sus datos). Mis preguntas (para RandomForestRegressor) son:
1) ¿A qué corresponden max_features (m o p o algo más)?
2) ¿Se seleccionan m variables al azar de variables max_features (¿cuál es el valor de m)?
3) Si max_features corresponde a m, entonces ¿por qué querría establecerlo igual a p para la regresión (el valor predeterminado)? ¿Dónde está la aleatoriedad con esta configuración (es decir, cómo es diferente de embolsar)?
Gracias.