with sklearn regresion logit logistica logistic forest example python scikit-learn classification

python - regresion - Regresión logística sklearn con clases desequilibradas.



regresion logistica en python (2)

@agentscully ¿Has leído el siguiente documento,

[SMOTE] ( https://www.jair.org/media/953/live-953-2037-jair.pdf ). He encontrado lo mismo muy informativo. Aquí está el enlace al Repo . Dependiendo de cómo vaya a equilibrar sus clases objetivo, puede utilizar

  • ''auto'' : ( está en desuso en la versión más reciente 0.17 ) o ''balanceado'' o especifique la proporción de clase usted mismo {0: 0.1, 1: 0.9}.
  • ''equilibrado'' : este modo ajusta los pesos de forma inversamente proporcional a las frecuencias de clase n_samples / (n_classes * np.bincount(y)

Déjame saber, si se necesita más información.

Estoy resolviendo un problema de clasificación con la regresión logística de sklearn en python.

Mi problema es general / genérico. Tengo un conjunto de datos con dos clases / resultado (positivo / negativo o 1/0), pero el conjunto está altamente desequilibrado. Hay ~ 5% de positivos y ~ 95% de negativos.

Sé que hay varias formas de lidiar con un problema desequilibrado como este, pero no he encontrado una buena explicación de cómo implementar correctamente el uso del paquete sklearn.

Lo que he hecho hasta ahora es construir un conjunto de entrenamiento equilibrado seleccionando entradas con un resultado positivo y un número igual de entradas negativas seleccionadas al azar. Luego, puedo entrenar el modelo para este conjunto, pero no sé cómo modificar el modelo para luego trabajar con el conjunto / población desequilibrado original.

¿Cuáles son los pasos específicos para hacer esto? He revisado la documentación y los ejemplos de Sklearn y no he encontrado una buena explicación.


¿Ha intentado pasar a su class_weight="auto" ? No todos los clasificadores en sklearn soportan esto, pero algunos lo hacen. Compruebe las cadenas de documentación.

También puede reequilibrar su conjunto de datos al soltar de forma aleatoria ejemplos negativos y / o sobre muestrear ejemplos positivos (+ posiblemente agregando un ligero ruido gaussiano).