machine-learning - una - recta de regresión lineal

¿Cuál es la diferencia entre la regresión lineal y la regresión logística? (5)

Ambos son bastante similares en la solución de la solución, pero como otros han dicho, uno (Regresión logística) es para predecir una categoría "adecuada" (S / N o 1/0) y la otra (Regresión lineal) es para predecir un valor.

Entonces, si quiere predecir si tiene cáncer S / N (o una probabilidad), use logística. Si desea saber cuántos años vivirá, use Regresión lineal.

Cuando tenemos que predecir el valor de un resultado categorical (o discreto) utilizamos la regresión logística . Creo que utilizamos la regresión lineal para predecir también el valor de un resultado dados los valores de entrada.

Entonces, ¿cuál es la diferencia entre las dos metodologías?

En la regresión lineal, el resultado (variable dependiente) es continuo. Puede tener cualquiera de un número infinito de valores posibles. En la regresión logística, el resultado (variable dependiente) tiene solo un número limitado de valores posibles.

Por ejemplo, si X contiene el área en pies cuadrados de casas, e Y contiene el precio de venta correspondiente de esas casas, puede usar la regresión lineal para predecir el precio de venta en función del tamaño de la vivienda. Si bien el posible precio de venta puede no ser ninguno , existen tantos valores posibles que se elegiría un modelo de regresión lineal.

Si, en cambio, quisiera predecir, basándose en el tamaño, si una casa se vendería por más de $ 200K, usaría la regresión logística. Los posibles resultados son Sí, la casa se venderá por más de $ 200K o No, la casa no lo hará.

En pocas palabras, la regresión lineal es un algoritmo de regresión, que sobrepasa un posible valor continuo e infinito; la regresión logística se considera como un algoritmo clasificador binario, que emite la ''probabilidad'' de la entrada que pertenece a una etiqueta (0 o 1).

La diferencia básica:

La regresión lineal es básicamente un modelo de regresión que significa que dará un resultado no discreto / continuo de una función. Entonces este enfoque da el valor. Por ejemplo: dado x qué es f (x)

Por ejemplo, dado un conjunto de entrenamiento de diferentes factores y el precio de una propiedad después del entrenamiento, podemos proporcionar los factores necesarios para determinar cuál será el precio de la propiedad.

La regresión logística es básicamente un algoritmo de clasificación binario, lo que significa que aquí habrá una salida valorada discreta para la función. Por ejemplo: para un x dado si el umbral f (x)> lo clasifica como 1, si no, clasifíquelo como 0.

Por ejemplo, dado un conjunto de tamaño de tumor cerebral como datos de entrenamiento, podemos usar el tamaño como entrada para determinar si es un tumor benigno o maligno. Por lo tanto, aquí la salida es discreta ya sea 0 o 1.

* aquí la función es básicamente la función de hipótesis

Salida de regresión lineal como probabilidades
Es tentador usar la salida de regresión lineal como probabilidades, pero es un error porque la salida puede ser negativa y mayor que 1, mientras que la probabilidad no. Como la regresión en realidad podría producir probabilidades que podrían ser menores que 0, o incluso mayores que 1, se introdujo la regresión logística.
Fuente: http://gerardnico.com/wiki/data_mining/simple_logistic_regression
Salir
En la regresión lineal, el resultado (variable dependiente) es continuo. Puede tener cualquiera de un número infinito de valores posibles.
En la regresión logística, el resultado (variable dependiente) tiene solo un número limitado de valores posibles.
La variable dependiente
La regresión logística se usa cuando la variable de respuesta es de naturaleza categórica. Por ejemplo, sí / no, verdadero / falso, rojo / verde / azul, 1º / 2º / 3º / 4º, etc.
La regresión lineal se usa cuando la variable de respuesta es continua. Por ejemplo, peso, altura, cantidad de horas, etc.
Ecuación
La regresión lineal da una ecuación que es de la forma Y = mX + C, significa ecuación con grado 1.
Sin embargo, la regresión logística da una ecuación que es de la forma Y = e ^X + e ^-X
Interpretación del coeficiente
En la regresión lineal, la interpretación del coeficiente de las variables independientes es bastante sencilla (es decir, manteniendo constantes todas las demás variables, con un aumento de la unidad en esta variable, se espera que la variable dependiente aumente / disminuya en xxx).
Sin embargo, en la regresión logística, depende de la familia (binomial, Poisson, etc.) y el enlace (log, logit, reverse-log, etc.) que utiliza, la interpretación es diferente.
Técnica de minimización de errores
La regresión lineal utiliza el método de mínimos cuadrados ordinarios para minimizar los errores y llegar a un mejor ajuste posible, mientras que la regresión logística usa el método de máxima verosimilitud para llegar a la solución.
La regresión lineal generalmente se resuelve al minimizar el error de mínimos cuadrados del modelo a los datos, por lo tanto, los grandes errores se penalizan de forma cuadrática.
La regresión logística es todo lo contrario. El uso de la función de pérdida logística ocasiona que los errores grandes se penalicen a una constante asintóticamente.
Considere la regresión lineal en resultados categóricos {0, 1} para ver por qué esto es un problema. Si su modelo predice que el resultado es 38, cuando la verdad es 1, no ha perdido nada. La regresión lineal intentaría reducir ese 38, la logística no (tanto) ² .