categorical python r pandas

categorical - El equivalente más cercano de una variable de factor en Python Pandas



pandas categorical (3)

¿Cuál es el equivalente más cercano a una variable Factor R en los pandas de Python ?


Esta pregunta parece haber sido hace un año, pero como todavía está abierta, aquí hay una actualización. pandas ha introducido un dtype categorical y funciona muy similar a los factors en R. Por favor vea este enlace para más información:

http://pandas-docs.github.io/pandas-docs-travis/categorical.html

Reproducción de un fragmento del enlace anterior que muestra cómo crear una variable de "factor" en pandas.

In [1]: s = Series(["a","b","c","a"], dtype="category") In [2]: s Out[2]: 0 a 1 b 2 c 3 a dtype: category Categories (3, object): [a < b < c]


Si está buscando modelar, etc., hay muchas ventajas para el factor dentro de la biblioteca patsy . Admitiré haber luchado con esto yo mismo. Encontré estas diapositivas útiles. Ojalá pudiera dar un mejor ejemplo, pero esto es todo lo que he conseguido.


C # array containing category data V # array containing numerical data H = np.unique(C) mydict = {} for h in H: mydict[h] = V[C==h] boxplot(mydict.values(), labels=mydict.keys())