Estadísticas: regresión lineal
Una vez establecido el grado de relación entre variables mediante el análisis de correlación, es natural profundizar en la naturaleza de la relación. El análisis de regresión ayuda a determinar la relación de causa y efecto entre las variables. Es posible predecir el valor de otras variables (llamadas variables dependientes) si los valores de las variables independientes se pueden predecir usando un método gráfico o el método algebraico.
Método gráfico
Implica dibujar un diagrama de dispersión con variable independiente en el eje X y variable dependiente en el eje Y. Después de eso, se dibuja una línea de tal manera que atraviesa la mayor parte de la distribución, con los puntos restantes distribuidos casi uniformemente a ambos lados de la línea.
Una línea de regresión se conoce como la línea de mejor ajuste que resume el movimiento general de datos. Muestra los mejores valores medios de una variable correspondientes a los valores medios de la otra. La línea de regresión se basa en el criterio de que es una línea recta que minimiza la suma de las desviaciones al cuadrado entre los valores predichos y observados de la variable dependiente.
Método algebraico
El método algebraico desarrolla dos ecuaciones de regresión de X sobre Y e Y sobre X.
Ecuación de regresión de Y sobre X
$ {Y = a + bX} $
Donde -
$ {Y} $ = Variable dependiente
$ {X} $ = Variable independiente
$ {a} $ = Constante que muestra la intersección con el eje Y
$ {b} $ = Constante que muestra la pendiente de la línea
Los valores de ayb se obtienen mediante las siguientes ecuaciones normales:
$ {\ sum Y = Na + b \ sum X \\ [7pt] \ sum XY = a \ sum X + b \ sum X ^ 2} $
Donde -
$ {N} $ = Número de observaciones
Ecuación de regresión de X sobre Y
$ {X = a + bY} $
Donde -
$ {X} $ = Variable dependiente
$ {Y} $ = Variable independiente
$ {a} $ = Constante que muestra la intersección con el eje Y
$ {b} $ = Constante que muestra la pendiente de la línea
Los valores de ayb se obtienen mediante las siguientes ecuaciones normales:
$ {\ sum X = Na + b \ sum Y \\ [7pt] \ sum XY = a \ sum Y + b \ sum Y ^ 2} $
Donde -
$ {N} $ = Número de observaciones
Ejemplo
Problem Statement:
Un investigador ha descubierto que existe una correlación entre las tendencias de peso de padre e hijo. Ahora está interesado en desarrollar una ecuación de regresión en dos variables a partir de los datos proporcionados:
Peso del padre (en Kg) | 69 | 63 | 66 | 64 | 67 | 64 | 70 | 66 | 68 | 67 | sesenta y cinco | 71 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Peso del hijo (en Kg) | 70 | sesenta y cinco | 68 | sesenta y cinco | 69 | 66 | 68 | sesenta y cinco | 71 | 67 | 64 | 72 |
Desarrollar
Ecuación de regresión de Y sobre X.
Ecuación de regresión de Y.
Solution:
$ {X} $ | $ {X ^ 2} $ | $ {Y} $ | $ {Y ^ 2} $ | $ {XY} $ |
---|---|---|---|---|
69 | 4761 | 70 | 4900 | 4830 |
63 | 3969 | sesenta y cinco | 4225 | 4095 |
66 | 4356 | 68 | 4624 | 4488 |
64 | 4096 | sesenta y cinco | 4225 | 4160 |
67 | 4489 | 69 | 4761 | 4623 |
64 | 4096 | 66 | 4356 | 4224 |
70 | 4900 | 68 | 4624 | 4760 |
66 | 4356 | sesenta y cinco | 4225 | 4290 |
68 | 4624 | 71 | 5041 | 4828 |
67 | 4489 | 67 | 4489 | 4489 |
sesenta y cinco | 4225 | 64 | 4096 | 4160 |
71 | 5041 | 72 | 5184 | 5112 |
$ {\ sum X = 800} $ | $ {\ sum X ^ 2 = 53,402} $ | $ {\ sum Y = 810} $ | $ {\ sum Y ^ 2 = 54,750} $ | $ {\ sum XY = 54,059} $ |
Ecuación de regresión de Y sobre X
Y = a + bX
Donde, ayb se obtienen mediante ecuaciones normales
$ {\ Flecha derecha} $ 810 = 12a + 800b ... (i)
$ {\ Flecha derecha} $ 54049 = 800a + 53402 b ... (ii)
Multiplicando la ecuación (i) con 800 y la ecuación (ii) con 12, obtenemos:
96000 a + 640000 b = 648000 ... (iii)
96000 a + 640824 b = 648588 ... (iv)
Restar la ecuación (iv) de (iii)
-824 b = -588
$ {\ Rightarrow} $ b = -.0713
Sustituyendo el valor de b en la ecuación. (yo)
810 = 12a + 800 (-0,713)
810 = 12a + 570,4
12a = 239,6
$ {\ Rightarrow} $ a = 19,96
Por tanto, la ecuación Y en X se puede escribir como
Ecuación de regresión de X sobre Y
X = a + bY
Donde, ayb se obtienen mediante ecuaciones normales
$ {\ Flecha derecha} $ 800 = 12a + 810a + 810b ... (V)
$ {\ Rightarrow} $ 54,049 = 810a + 54, 750 ... (vi)
Multiplicando la ecuación (v) por 810 y la ecuación (vi) por 12, obtenemos
9720 a + 656100 b = 648000 ... (vii)
9720 a + 65700 b = 648588 ... (viii)
Restar eq viii de eq vii
900b = -588
$ {\ Rightarrow} $ b = 0.653
Sustituyendo el valor de b en la ecuación (v)
800 = 12a + 810 (0,653)
12a = 271.07
$ {\ Rightarrow} $ a = 22.58
Por tanto, la ecuación de regresión de X e Y es