sklearn scikit run how forest example classifier boosting bagging scikit-learn

scikit-learn - scikit - random forest sklearn example



Comprender el parĂ¡metro max_features en RandomForestRegressor (1)

Directamente de la documentación :

[ max_features ] es el tamaño de los subconjuntos aleatorios de características a considerar al dividir un nodo.

Así que max_features es lo que llamas m . Cuando max_features="auto" , m = p y no se realiza la selección del subconjunto de características en los árboles, por lo que el "bosque aleatorio" es en realidad un conjunto en bolsas de árboles de regresión ordinarios. Los documentos continúan para decir que

Los buenos valores predeterminados empíricos son max_features=n_features para problemas de regresión, y max_features=sqrt(n_features) para tareas de clasificación

Al establecer max_features diferente, obtendrás un bosque "verdadero" al azar.

Al construir cada árbol en el bosque aleatorio usando muestras bootstrapped, para cada nodo terminal, seleccionamos m variables al azar de p variables para encontrar la mejor división (p es el número total de características en sus datos). Mis preguntas (para RandomForestRegressor) son:

1) ¿A qué corresponden max_features (m o p o algo más)?

2) ¿Se seleccionan m variables al azar de variables max_features (¿cuál es el valor de m)?

3) Si max_features corresponde a m, entonces ¿por qué querría establecerlo igual a p para la regresión (el valor predeterminado)? ¿Dónde está la aleatoriedad con esta configuración (es decir, cómo es diferente de embolsar)?

Gracias.