test - Funciones de bondad de ajuste en R
prueba de normalidad en r (6)
¿Qué funciones utiliza en R para ajustar una curva a sus datos y probar qué tan bien se ajusta esa curva? ¿Qué resultados se consideran buenos?
Lo principal que debe asegurarse es que sus residuos se distribuyen normalmente. Desafortunadamente no estoy seguro de una manera automatizada de hacer eso.
qqnorm()
probablemente podría modificarse para encontrar la correlación entre los cuantiles de muestra y los cuantiles teóricos. Esencialmente, esto solo sería una interpretación numérica de la gráfica del cuantil normal. Tal vez sea útil proporcionar varios valores del coeficiente de correlación para diferentes rangos de cuantiles. Por ejemplo, si el coeficiente de correlación es cercano a 1 para el 97% medio de los datos y mucho más bajo en las colas, esto nos dice que la distribución de residuos es aproximadamente normal, con algo de diversión en las colas.
El sitio de Quick R tiene un buen resumen razonable de las funciones básicas utilizadas para ajustar los modelos y probar los ajustes, junto con el código de ejemplo de R:
La función nls()
( http://sekhon.berkeley.edu/stats/html/nls.html ) es bastante estándar para el ajuste de curvas no lineales de mínimos cuadrados. Chi cuadrado (la suma de los residuales al cuadrado) es la métrica que se optimiza en ese caso, pero no está normalizada, por lo que no puede usarla fácilmente para determinar qué tan bueno es el ajuste. Lo principal que debe asegurarse es que sus residuos se distribuyen normalmente. Desafortunadamente no estoy seguro de una manera automatizada de hacer eso.
Lo mejor es mantenerlo simple y ver si los métodos lineales funcionan "bien enuff". Usted puede juzgar su bondad de ajuste GENERALMENTE mirando juntos el estadístico R cuadrado Y F, juntos, nunca separados. Agregar variables a su modelo que no tengan relación con su variable dependiente puede aumentar R2, por lo que también debe considerar la estadística F.
También debe comparar su modelo con otros modelos anidados o más simples. Haga esto usando la prueba de razón de probabilidad de registro, siempre que las variables dependientes sean las mismas.
La prueba de Jarque-Bera es buena para probar la normalidad de la distribución residual.
Los caballos de batalla de ajuste de curva canónica en R son lm()
, glm()
y nls()
. Para mí, la bondad de ajuste es un subproblema en el problema más amplio de la selección de modelos. De hecho, el uso incorrecto de la bondad de ajuste (por ejemplo, mediante una regresión por pasos) puede dar lugar a un modelo mal especificado (consulte el libro de Harrell sobre "Estrategias de modelado de regresión"). En lugar de discutir el tema desde cero, recomiendo el libro de Harrell para lm
and glm
. La biblia de Venables y Ripley es concisa, pero vale la pena leerla. "La extensión del modelo lineal con R" de Faraway es completa y legible. nls no está cubierto en estas fuentes, pero la "Regresión no lineal con R" de Ritz & Streibig llena el vacío y es muy práctica.
Solo la primera parte de esa pregunta puede llenar libros enteros. Sólo algunas opciones rápidas:
-
lm()
para modelos lineales estándar -
glm()
para modelos lineales generalizados (por ejemplo, para regresión logística) -
rlm()
del paquete MASS para modelos lineales robustos -
lmrob()
del paquete robustbase para modelos lineales robustos -
loess()
para modelos no lineales / no paramétricos
Luego están los modelos de dominio específico como, por ejemplo, series de tiempo, microeconomometría, efectos mixtos y mucho más. Varias de las Vistas de Tarea como, por ejemplo, Econometrics discuten esto con más detalle. En cuanto a la bondad del ajuste, eso también es algo en lo que uno puede pasar fácilmente un libro entero discutiendo.