Los diagramas de caja son una medida de qué tan bien distribuidos están los datos en un conjunto de datos. Divide el conjunto de datos en tres cuartiles. Este gráfico representa el mínimo, el máximo, la mediana, el primer cuartil y el tercer cuartil del conjunto de datos. También es útil para comparar la distribución de datos entre conjuntos de datos dibujando diagramas de caja para cada uno de ellos.
Dibujar un diagrama de caja
Boxplot se puede dibujar llamando a Series.box.plot () y DataFrame.box.plot (), o DataFrame.boxplot () para visualizar la distribución de valores dentro de cada columna.
Por ejemplo, aquí hay una gráfica de caja que representa cinco ensayos de 10 observaciones de una variable aleatoria uniforme en [0,1).
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(10, 5), columns=['A', 'B', 'C', 'D', 'E'])
df.plot.box(grid='True')
Sus output es como sigue -