Regresión logística en Python: obtención de datos
Los pasos involucrados en la obtención de datos para realizar la regresión logística en Python se analizan en detalle en este capítulo.
Descarga de conjunto de datos
Si aún no ha descargado el conjunto de datos UCI mencionado anteriormente, descárguelo ahora desde aquí . Haga clic en la carpeta de datos. Verá la siguiente pantalla:
Descargue el archivo bank.zip haciendo clic en el enlace proporcionado. El archivo zip contiene los siguientes archivos:
Usaremos el archivo bank.csv para el desarrollo de nuestro modelo. El archivo bank-names.txt contiene la descripción de la base de datos que necesitará más adelante. Bank-full.csv contiene un conjunto de datos mucho más grande que puede utilizar para desarrollos más avanzados.
Aquí hemos incluido el archivo bank.csv en el zip de origen descargable. Este archivo contiene los campos delimitados por comas. También hemos realizado algunas modificaciones en el archivo. Se recomienda que utilice el archivo incluido en el código fuente del proyecto para su aprendizaje.
Cargando datos
Para cargar los datos del archivo csv que acaba de copiar, escriba la siguiente declaración y ejecute el código.
In [2]: df = pd.read_csv('bank.csv', header=0)
También podrá examinar los datos cargados ejecutando la siguiente declaración de código:
IN [3]: df.head()
Una vez que se ejecuta el comando, verá el siguiente resultado:
Básicamente, imprimió las primeras cinco filas de los datos cargados. Examine las 21 columnas presentes. Usaremos solo algunas columnas de estas para el desarrollo de nuestro modelo.
A continuación, necesitamos limpiar los datos. Los datos pueden contener algunas filas conNaN. Para eliminar tales filas, use el siguiente comando:
IN [4]: df = df.dropna()
Afortunadamente, bank.csv no contiene filas con NaN, por lo que este paso no es realmente necesario en nuestro caso. Sin embargo, en general, es difícil descubrir tales filas en una base de datos enorme. Por lo tanto, siempre es más seguro ejecutar la declaración anterior para limpiar los datos.
Note - Puede examinar fácilmente el tamaño de los datos en cualquier momento utilizando la siguiente declaración:
IN [5]: print (df.shape)
(41188, 21)
El número de filas y columnas se imprimirá en la salida como se muestra en la segunda línea de arriba.
Lo siguiente que debe hacer es examinar la idoneidad de cada columna para el modelo que estamos tratando de construir.