Estadísticas: regresión lineal

Una vez establecido el grado de relación entre variables mediante el análisis de correlación, es natural profundizar en la naturaleza de la relación. El análisis de regresión ayuda a determinar la relación de causa y efecto entre las variables. Es posible predecir el valor de otras variables (llamadas variables dependientes) si los valores de las variables independientes se pueden predecir usando un método gráfico o el método algebraico.

Método gráfico

Implica dibujar un diagrama de dispersión con variable independiente en el eje X y variable dependiente en el eje Y. Después de eso, se dibuja una línea de tal manera que atraviesa la mayor parte de la distribución, con los puntos restantes distribuidos casi uniformemente a ambos lados de la línea.

Una línea de regresión se conoce como la línea de mejor ajuste que resume el movimiento general de datos. Muestra los mejores valores medios de una variable correspondientes a los valores medios de la otra. La línea de regresión se basa en el criterio de que es una línea recta que minimiza la suma de las desviaciones al cuadrado entre los valores predichos y observados de la variable dependiente.

Método algebraico

El método algebraico desarrolla dos ecuaciones de regresión de X sobre Y e Y sobre X.

Ecuación de regresión de Y sobre X

$ {Y = a + bX} $

Donde -

  • $ {Y} $ = Variable dependiente

  • $ {X} $ = Variable independiente

  • $ {a} $ = Constante que muestra la intersección con el eje Y

  • $ {b} $ = Constante que muestra la pendiente de la línea

Los valores de ayb se obtienen mediante las siguientes ecuaciones normales:

$ {\ sum Y = Na + b \ sum X \\ [7pt] \ sum XY = a \ sum X + b \ sum X ^ 2} $

Donde -

  • $ {N} $ = Número de observaciones

Ecuación de regresión de X sobre Y

$ {X = a + bY} $

Donde -

  • $ {X} $ = Variable dependiente

  • $ {Y} $ = Variable independiente

  • $ {a} $ = Constante que muestra la intersección con el eje Y

  • $ {b} $ = Constante que muestra la pendiente de la línea

Los valores de ayb se obtienen mediante las siguientes ecuaciones normales:

$ {\ sum X = Na + b \ sum Y \\ [7pt] \ sum XY = a \ sum Y + b \ sum Y ^ 2} $

Donde -

  • $ {N} $ = Número de observaciones

Ejemplo

Problem Statement:

Un investigador ha descubierto que existe una correlación entre las tendencias de peso de padre e hijo. Ahora está interesado en desarrollar una ecuación de regresión en dos variables a partir de los datos proporcionados:

Peso del padre (en Kg) 69 63 66 64 67 64 70 66 68 67 sesenta y cinco 71
Peso del hijo (en Kg) 70 sesenta y cinco 68 sesenta y cinco 69 66 68 sesenta y cinco 71 67 64 72

Desarrollar

  1. Ecuación de regresión de Y sobre X.

  2. Ecuación de regresión de Y.

Solution:

$ {X} $ $ {X ^ 2} $ $ {Y} $ $ {Y ^ 2} $ $ {XY} $
69 4761 70 4900 4830
63 3969 sesenta y cinco 4225 4095
66 4356 68 4624 4488
64 4096 sesenta y cinco 4225 4160
67 4489 69 4761 4623
64 4096 66 4356 4224
70 4900 68 4624 4760
66 4356 sesenta y cinco 4225 4290
68 4624 71 5041 4828
67 4489 67 4489 4489
sesenta y cinco 4225 64 4096 4160
71 5041 72 5184 5112
$ {\ sum X = 800} $ $ {\ sum X ^ 2 = 53,402} $ $ {\ sum Y = 810} $ $ {\ sum Y ^ 2 = 54,750} $ $ {\ sum XY = 54,059} $

Ecuación de regresión de Y sobre X

Y = a + bX

Donde, ayb se obtienen mediante ecuaciones normales

$ {\ sum Y = Na + b \ sum X \\ [7pt] \ sum XY = a \ sum X + b \ sum X ^ 2 \\ [7pt] Donde \ \ sum Y = 810, \ sum X = 800 , \ sum X ^ 2 = 53,402 \\ [7pt], \ sum XY = 54, 049, N = 12} $

$ {\ Flecha derecha} $ 810 = 12a + 800b ... (i)

$ {\ Flecha derecha} $ 54049 = 800a + 53402 b ... (ii)

Multiplicando la ecuación (i) con 800 y la ecuación (ii) con 12, obtenemos:

96000 a + 640000 b = 648000 ... (iii)

96000 a + 640824 b = 648588 ... (iv)

Restar la ecuación (iv) de (iii)

-824 b = -588

$ {\ Rightarrow} $ b = -.0713

Sustituyendo el valor de b en la ecuación. (yo)

810 = 12a + 800 (-0,713)

810 = 12a + 570,4

12a = 239,6

$ {\ Rightarrow} $ a = 19,96

Por tanto, la ecuación Y en X se puede escribir como

$ {Y = 19,96 - 0,713X} $

Ecuación de regresión de X sobre Y

X = a + bY

Donde, ayb se obtienen mediante ecuaciones normales

$ {\ sum X = Na + b \ sum Y \\ [7pt] \ sum XY = a \ sum Y + b \ sum Y ^ 2 \\ [7pt] Donde \ \ sum Y = 810, \ sum Y ^ 2 = 54,750 \\ [7pt], \ sum XY = 54, 049, N = 12} $

$ {\ Flecha derecha} $ 800 = 12a + 810a + 810b ... (V)

$ {\ Rightarrow} $ 54,049 = 810a + 54, 750 ... (vi)

Multiplicando la ecuación (v) por 810 y la ecuación (vi) por 12, obtenemos

9720 a + 656100 b = 648000 ... (vii)

9720 a + 65700 b = 648588 ... (viii)

Restar eq viii de eq vii

900b = -588

$ {\ Rightarrow} $ b = 0.653

Sustituyendo el valor de b en la ecuación (v)

800 = 12a + 810 (0,653)

12a = 271.07

$ {\ Rightarrow} $ a = 22.58

Por tanto, la ecuación de regresión de X e Y es

$ {X = 22.58 + 0.653Y} $