simbolo resueltos regresion entre ejercicios ejemplo diferencia determinacion cuadrado correlacion coeficiente r statistics regression

resueltos - ¿Cuál es la diferencia entre R-cuadrado múltiple y R-cuadrado ajustado en una regresión de mínimos cuadrados de una sola variable?



r al cuadrado simbolo (4)

El "ajuste" en R-cuadrado ajustado está relacionado con el número de variables y el número de observaciones.

Si continúa agregando variables (predictores) a su modelo, R-cuadrado mejorará, es decir, los predictores aparecerán para explicar la varianza, pero parte de esa mejora puede deberse solo a la posibilidad. Así que R-cuadrado ajustado intenta corregir esto, teniendo en cuenta la relación (N-1) / (Nk-1) donde N = número de observaciones yk = número de variables (predictores).

Probablemente no sea una preocupación en su caso, ya que tiene una sola variante.

Algunas referencias:

  1. ¿Qué tan alto, R-cuadrado?
  2. Estadísticas de bondad de ajuste
  3. Regresión múltiple
  4. Re: Qué es "R ^ 2 ajustado" en regresión múltiple

¿Podría alguien explicarle a los estadísticamente ingenuos cuál es la diferencia entre Multiple R-squared y Adjusted R-squared ? Estoy haciendo un análisis de regresión de una sola variable de la siguiente manera:

v.lm <- lm(epm ~ n_days, data=v) print(summary(v.lm))

Resultados:

Call: lm(formula = epm ~ n_days, data = v) Residuals: Min 1Q Median 3Q Max -693.59 -325.79 53.34 302.46 964.95 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2550.39 92.15 27.677 <2e-16 *** n_days -13.12 5.39 -2.433 0.0216 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 410.1 on 28 degrees of freedom Multiple R-squared: 0.1746, Adjusted R-squared: 0.1451 F-statistic: 5.921 on 1 and 28 DF, p-value: 0.0216


El R-cuadrado ajustado está cerca, pero es diferente del valor de R2. En lugar de basarse en la suma de cuadrados SSR explicada y la suma total de cuadrados SSY, se basa en la varianza global (una cantidad que normalmente no calculamos), s2T = SSY / (n - 1) y la varianza de error MSE (de la tabla ANOVA) y se resuelve de esta manera: ajustado R-cuadrado = (s2T - MSE) / s2T.

Este enfoque proporciona una mejor base para juzgar la mejora en un ajuste debido a la adición de una variable explicativa, pero no tiene la simple interpretación resumida que tiene R2.

Si no me he equivocado, debe verificar los valores de R-cuadrado ajustado y R-cuadrado de la siguiente manera:

s2T <- sum(anova(v.lm)[[2]]) / sum(anova(v.lm)[[1]]) MSE <- anova(v.lm)[[3]][2] adj.R2 <- (s2T - MSE) / s2T

En el otro lado, R2 es: SSR / SSY, donde SSR = SSY - SSE

attach(v) SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2) SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2) SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2) R2 <- SSR / SSY


El R-cuadrado no depende del número de variables en el modelo. El ajustado R-cuadrado es.

El R-cuadrado ajustado agrega una penalización por agregar variables al modelo que no están correlacionadas con la variable que intentas explicar. Puedes usarlo para probar si una variable es relevante para lo que intentas explicar.

El R-cuadrado ajustado es R-cuadrado con algunas divisiones agregadas para hacerlo dependiente del número de variables en el modelo.


Tenga en cuenta que, además del número de variables predictivas, la fórmula ajustada R-cuadrado anterior también se ajusta para el tamaño de la muestra. Una pequeña muestra dará un R-cuadrado engañosamente grande.

Ping Yin y Xitao Fan, J. of Experimental Education 69 (2): 203-224, "Estimación del encogimiento de R-cuadrado en regresión múltiple", compara diferentes métodos para ajustar r-cuadrado y concluye que los comúnmente utilizados son no está bien. Recomiendan la fórmula Olkin & Pratt.

Sin embargo, he visto algunos indicios de que el tamaño de la población tiene un efecto mucho más grande que cualquiera de estas fórmulas. No estoy convencido de que ninguna de estas fórmulas sea lo suficientemente buena como para permitirle comparar regresiones hechas con tamaños de muestra muy diferentes (por ejemplo, 2.000 vs. 200.000 muestras, las fórmulas estándar casi no harían ningún ajuste basado en el tamaño de la muestra). Haría una validación cruzada para verificar el r-cuadrado en cada muestra.