studio renombrar recodificar factor etiquetas estandarizar define datos columnas r random-forest

renombrar - recodificar variables en r studio



¿Necesito normalizar(o escalar) datos para randomForest(paquete R)? (5)

Estoy haciendo una tarea de regresión. ¿Necesito normalizar (o escalar) los datos de randomForest (paquete R)? ¿Y es necesario escalar también los valores objetivo? Y si - Quiero usar la función de escala desde el paquete caret, pero no encontré cómo recuperar los datos (desincrustar, desnormalizar). ¿No conoces alguna otra función (en cualquier paquete) que sea útil con la normalización / desnormalización? Gracias, Milán


Adivina, ¿qué pasará en el siguiente ejemplo? Imagínese, tiene 20 funciones predictivas, 18 de ellas están en el rango [0; 10] y las otras 2 en el rango [0; 1,000,000] (tomadas de un ejemplo de la vida real). Pregunta 1: qué importancias de características asignará Random Forest. Pregunta 2: ¿qué pasará con la importancia de la función después de escalar las 2 características de gran alcance?

Escalar es importante. Es que Random Forest es menos sensible a la escala que a otros algoritmos y puede trabajar con funciones "aproximadamente" escaladas.


El escalado se hace para normalizar los datos de modo que no se dé prioridad a una característica en particular. El rol de escalamiento es mayormente importante en algoritmos que se basan en la distancia y requieren distancia euclidiana.

Random Forest es un modelo basado en árbol y, por lo tanto , no requiere escalamiento de características.

Este algoritmo requiere partición, incluso si aplica Normalización, entonces> el resultado sería el mismo.


No veo ninguna sugerencia ni en la página de ayuda ni en la viñeta que sugiera que es necesario escalar para una variable de regresión en randomForest . Este ejemplo en Stats Exchange tampoco usa escalado.

Copia de mi comentario: La función de scale no pertenece a pkg: caret. Es parte del paquete R "base". Hay una función sin unscale en los paquetes grt y DMwR que revertirá la transformación, o puede simplemente multiplicar por el atributo de escala y luego agregar los valores del atributo central.

Su concepción de por qué debe hacerse la "normalización" puede requerir un examen crítico. La prueba de no normalidad solo es necesaria después de que se realizan las regresiones y puede que no se necesite en absoluto si no hay suposiciones de normalidad en la metodología de bondad de ajuste. Entonces: ¿Por qué estás preguntando? La búsqueda en SO y Stats.Exchange podría ser útil: cita # 1 ; cita # 2 ; cita # 3

La función de boxcox es una boxcox comúnmente utilizada cuando uno no tiene conocimiento previo de qué debe ser una distribución y cuándo realmente necesita hacer una transformación. Existen muchas dificultades en la aplicación de transformaciones, por lo que el hecho de que tenga que hacer la pregunta genera dudas de que pueda necesitar más consultas o autoaprendizaje.


No, no es necesario escalar para bosques aleatorios.

  • La naturaleza de la RF es tal que los problemas de convergencia y precisión numérica, que a veces pueden alterar los algoritmos utilizados en la regresión logística y lineal, así como las redes neuronales, no son tan importantes. Debido a esto, no necesita transformar las variables a una escala común como lo haría con un NN.

  • No se obtiene ningún análogo de un coeficiente de regresión, que mide la relación entre cada variable de predicción y la respuesta. Debido a esto, tampoco es necesario considerar cómo interpretar dichos coeficientes, que es algo que se ve afectado por las escalas de medición variables.


Si va a agregar interacciones al conjunto de datos, es decir, una nueva variable es una función de otras variables (por lo general, una simple multiplicación), y no siente qué significa esa nueva variable (no puede interpretarla), entonces debe calcular esta variable usando variables escaladas.