studio - random forest rbloggers
¿Qué significa el parámetro ''classwt'' en la función RandomForest en el paquete RandomForest en R? (1)
¿El ajuste de parámetros de classwt puede ser útil cuando tiene datos desbalanceados pesados - los antecedentes de las clases difieren mucho?
Sí, la configuración de valores de classwt podría ser útil para conjuntos de datos desequilibrados. Y estoy de acuerdo con joran, en que estos valores se transforman en probabilidades para muestrear datos de entrenamiento (según los argumentos de Breiman en su artículo original).
¿Cómo se configura classwt cuando en el conjunto de datos de entrenamiento con 3 clases tiene un vector de antecedentes igual a (p1, p2, p3), y en el conjunto de pruebas los anteriores son (q1, q2, q3)?
Para la formación simplemente puede especificar
rf <- randomForest(x=x, y=y, classwt=c(p1,p2,p3))
Para el conjunto de pruebas no se pueden usar datos previos: 1) no hay tal opción en el método de predicción del paquete randomForest; 2) los pesos solo tienen sentido para el entrenamiento del modelo y no para la predicción.
La página de ayuda para randomforest::randomforest()
dice:
"classwt - Anteriores de las clases. No es necesario sumar uno. Se ignora la regresión".
Podría configurar la classwt
parámetro classwt
cuando tiene datos desbalanceados pesados, es decir. ¿Los antecedentes de las clases difieren fuertemente?
¿Cómo debo configurar la classwt
al entrenar un modelo en un conjunto de datos con 3 clases con un vector de antecedentes igual a (p1, p2, p3), y en el conjunto de pruebas, los anteriores son (q1, q2, q3)?