multiple get_dummies columns python pandas scikit-learn categorical-data

python - columns - pandas get_dummies



Uso de pandas ''categórico'' dtype con sklearn (1)

¿Existe algún soporte en sklearn para usar el tipo de datos categóricos de Panda directamente en los modelos de adaptación? Por lo que he visto, sklearn no admite este tipo de datos, que es desafortunado porque el tipo de datos categórico codifica los datos categóricos y contiene el esquema de asignación de los datos. Además, la codificación categórica es puramente un problema de manejo / procesamiento de datos, por lo que parece más natural que sea manejado por Pandas.

Nota

Me doy cuenta de que hay varios métodos para codificar variables categóricas en Pandas y sklearn; eso no es lo que estoy preguntando.


Publicación cruzada desde el rastreador de problemas :

Creo que estas son al menos dos preguntas separadas: 1. Puedo / voy a aprender a apoyar los marcos de datos de pandas con características categóricas como entrada 2. Puedo / voy a aprender a operar en variables categóricas a través de tipos de datos categóricos de pandas.

  1. sería más o menos la conversión de todas las variables categóricas en características codificadas en caliente, también conocidas como columnas ficticias. Eso es realmente fácil de hacer para el usuario. Podríamos hacer eso "debajo del capó" en scikit-learn, pero complicaría el código y no veo un gran beneficio.

  2. Es básicamente imposible. Tener un tipo de datos categóricos sería bueno para los árboles, pero creo que los pandas no tienen una interfaz estable de nivel c, por lo que no podemos meternos con eso. Incluso si lo hubiera, aún requeriría una reescritura sustancial del código de árbol. No creo que sea útil para los estimadores que no son árboles.