categorical - El equivalente más cercano de una variable de factor en Python Pandas
pandas categorical (3)
¿Cuál es el equivalente más cercano a una variable Factor R en los pandas de Python ?
Esta pregunta parece haber sido hace un año, pero como todavía está abierta, aquí hay una actualización. pandas ha introducido un dtype categorical
y funciona muy similar a los factors
en R. Por favor vea este enlace para más información:
http://pandas-docs.github.io/pandas-docs-travis/categorical.html
Reproducción de un fragmento del enlace anterior que muestra cómo crear una variable de "factor" en pandas.
In [1]: s = Series(["a","b","c","a"], dtype="category")
In [2]: s
Out[2]:
0 a
1 b
2 c
3 a
dtype: category
Categories (3, object): [a < b < c]
Si está buscando modelar, etc., hay muchas ventajas para el factor dentro de la biblioteca patsy . Admitiré haber luchado con esto yo mismo. Encontré estas diapositivas útiles. Ojalá pudiera dar un mejor ejemplo, pero esto es todo lo que he conseguido.
C # array containing category data
V # array containing numerical data
H = np.unique(C)
mydict = {}
for h in H:
mydict[h] = V[C==h]
boxplot(mydict.values(), labels=mydict.keys())