Seaborn: importación de conjuntos de datos y bibliotecas

En este capítulo, analizaremos cómo importar conjuntos de datos y bibliotecas. Comencemos por comprender cómo importar bibliotecas.

Importación de bibliotecas

Comencemos por importar Pandas, que es una gran biblioteca para administrar conjuntos de datos relacionales (formato de tabla). Seaborn es útil cuando se trata de DataFrames, que es la estructura de datos más utilizada para el análisis de datos.

El siguiente comando te ayudará a importar Pandas:

# Pandas for managing datasets
import pandas as pd

Ahora, importemos la biblioteca Matplotlib, que nos ayuda a personalizar nuestros gráficos.

# Matplotlib for additional customization
from matplotlib import pyplot as plt

Importaremos la biblioteca de Seaborn con el siguiente comando:

# Seaborn for plotting and styling
import seaborn as sb

Importación de conjuntos de datos

Hemos importado las bibliotecas necesarias. En esta sección, entenderemos cómo importar los conjuntos de datos necesarios.

Seaborn viene con algunos conjuntos de datos importantes en la biblioteca. Cuando se instala Seaborn, los conjuntos de datos se descargan automáticamente.

Puede utilizar cualquiera de estos conjuntos de datos para su aprendizaje. Con la ayuda de la siguiente función, puede cargar el conjunto de datos requerido

load_dataset()

Importando datos como Pandas DataFrame

En esta sección, importaremos un conjunto de datos. Este conjunto de datos se carga como Pandas DataFrame de forma predeterminada. Si hay alguna función en Pandas DataFrame, funciona en este DataFrame.

La siguiente línea de código le ayudará a importar el conjunto de datos:

# Seaborn for plotting and styling
import seaborn as sb
df = sb.load_dataset('tips')
print df.head()

La línea de código anterior generará el siguiente resultado:

total_bill  tip   sex    smoker day  time   size
0    16.99    1.01   Female  No    Sun  Dinner  2
1    10.34    1.66   Male    No    Sun  Dinner  3
2    21.01    3.50   Male    No    Sun  Dinner  3
3    23.68    3.31   Male    No    Sun  Dinner  2
4    24.59    3.61   Female  No    Sun  Dinner  4

Para ver todos los conjuntos de datos disponibles en la biblioteca de Seaborn, puede utilizar el siguiente comando con el get_dataset_names() funciona como se muestra a continuación -

import seaborn as sb
print sb.get_dataset_names()

La línea de código anterior devolverá la lista de conjuntos de datos disponibles como la siguiente salida

[u'anscombe', u'attention', u'brain_networks', u'car_crashes', u'dots', 
u'exercise', u'flights', u'fmri', u'gammas', u'iris', u'planets', u'tips', 
u'titanic']

DataFramesalmacenar datos en forma de cuadrículas rectangulares mediante las cuales los datos se pueden ver fácilmente. Cada fila de la cuadrícula rectangular contiene valores de una instancia y cada columna de la cuadrícula es un vector que contiene datos para una variable específica. Esto significa que las filas de un DataFrame no necesitan contener valores del mismo tipo de datos, pueden ser numéricos, de caracteres, lógicos, etc. Los DataFrames para Python vienen con la biblioteca Pandas y se definen como estructuras de datos etiquetadas bidimensionales. con tipos de columnas potencialmente diferentes.

Para obtener más detalles sobre DataFrames, visite nuestro tutorial sobre pandas.