Regresión logística en Python - Introducción

La regresión logística es un método estadístico de clasificación de objetos. Este capítulo dará una introducción a la regresión logística con la ayuda de algunos ejemplos.

Clasificación

Para comprender la regresión logística, debe saber qué significa clasificación. Consideremos los siguientes ejemplos para entender esto mejor:

  • Un médico clasifica el tumor como maligno o benigno.
  • Una transacción bancaria puede ser fraudulenta o genuina.

Durante muchos años, los humanos han realizado este tipo de tareas, aunque son propensos a errores. La pregunta es ¿podemos entrenar máquinas para que realicen estas tareas por nosotros con mayor precisión?

Un ejemplo de máquina que realiza la clasificación es el correo electrónico Clienten su máquina que clasifica cada correo entrante como "spam" o "no spam" y lo hace con una precisión bastante grande. La técnica estadística de regresión logística se ha aplicado con éxito en el cliente de correo electrónico. En este caso, hemos entrenado nuestra máquina para resolver un problema de clasificación.

La regresión logística es solo una parte del aprendizaje automático que se utiliza para resolver este tipo de problema de clasificación binaria. Hay varias otras técnicas de aprendizaje automático que ya están desarrolladas y se encuentran en la práctica para resolver otros tipos de problemas.

Si ha notado, en todos los ejemplos anteriores, el resultado de la predicación tiene solo dos valores: Sí o No. Los llamamos clases, para decir que decimos que nuestro clasificador clasifica los objetos en dos clases. En términos técnicos, podemos decir que el resultado o la variable objetivo es de naturaleza dicotómica.

Existen otros problemas de clasificación en los que la salida se puede clasificar en más de dos clases. Por ejemplo, si se le da una canasta llena de frutas, se le pide que separe frutas de diferentes tipos. Ahora, la canasta puede contener naranjas, manzanas, mangos, etc. Entonces, cuando separa las frutas, las separa en más de dos clases. Este es un problema de clasificación multivariante.