Python - Prueba de chi-cuadrado

La prueba de chi-cuadrado es un método estadístico para determinar si dos variables categóricas tienen una correlación significativa entre ellas. Ambas variables deben ser de la misma población y deben ser categóricas como: Sí / No, Hombre / Mujer, Rojo / Verde, etc. Por ejemplo, podemos construir un conjunto de datos con observaciones sobre el patrón de compra de helados de las personas y tratar de correlacionar el género de una persona con el sabor del helado que prefieren. Si se encuentra una correlación, podemos planificar el stock adecuado de sabores conociendo el número de género de las personas que nos visitan.

Usamos varias funciones en la biblioteca numpy para realizar la prueba de chi-cuadrado.

from scipy import stats import numpy as np import matplotlib.pyplot as plt x = np.linspace(0, 10, 100) fig,ax = plt.subplots(1,1) linestyles = [':', '--', '-.', '-'] deg_of_freedom = [1, 4, 7, 6] for df, ls in zip(deg_of_freedom, linestyles): ax.plot(x, stats.chi2.pdf(x, df), linestyle=ls) plt.xlim(0, 10) plt.ylim(0, 0.4) plt.xlabel('Value') plt.ylabel('Frequency') plt.title('Chi-Square Distribution') plt.legend() plt.show()

Sus output es como sigue -