machine logistic learning feature machine-learning linear-regression feature-extraction

machine learning - logistic - Regresión lineal:: Normalización(Vs) Normalización



logistic regression machine learning (2)

Eso tiene sentido porque la normalización y la estandarización hacen cosas diferentes.

La normalización transforma tus datos en un rango entre 0 y 1

La estandarización transforma sus datos de tal manera que la distribución resultante tiene una media de 0 y una desviación estándar de 1

La normalización / estandarización está diseñada para lograr un objetivo similar, que es crear características que tengan rangos similares entre sí. Queremos eso para que podamos estar seguros de que estamos capturando la información verdadera en una característica, y que no ponderemos en exceso una característica particular solo porque sus valores son mucho más grandes que otras características.

Si todas sus funciones están dentro de un rango similar entre sí, entonces no hay necesidad real de estandarizar / normalizar. Sin embargo, si algunas características naturalmente toman valores que son mucho más grandes / más pequeños que otros, entonces se requiere la normalización / estandarización

Si va a normalizar al menos una variable / característica, yo haría lo mismo para todas las demás también.

Estoy usando la regresión lineal para predecir los datos. Pero, estoy obteniendo resultados totalmente contrastantes cuando Normalizo (Vs) Estandarizar variables.

Normalización = x -xmin / xmax - xmin Normalización de puntuación cero = x - xmean / xstd

a) Also, when to Normalize (Vs) Standardize ? b) How Normalization affects Linear Regression? c) Is it okay if I don''t normalize all the attributes/lables in the linear regression?

Gracias santosh


Tenga en cuenta que los resultados pueden no ser necesariamente tan diferentes. Es posible que simplemente necesite diferentes parámetros para que las dos opciones den resultados similares.

Lo ideal es probar qué funciona mejor para tu problema. Si no puede pagar esto por alguna razón, la mayoría de los algoritmos probablemente se beneficiarán de la estandarización más que de la normalización.

Vea here algunos ejemplos de cuándo se debe preferir uno sobre el otro:

Por ejemplo, en los análisis de agrupamiento, la estandarización puede ser especialmente crucial para comparar similitudes entre características basadas en ciertas medidas de distancia. Otro ejemplo destacado es el Análisis de componentes principales, donde generalmente preferimos la estandarización sobre el escalamiento mínimo-máximo, ya que estamos interesados ​​en los componentes que maximizan la varianza (dependiendo de la pregunta y si el PCA calcula los componentes a través de la matriz de correlación en lugar de la matriz de covarianza; pero más sobre PCA en mi artículo anterior).

Sin embargo, esto no significa que la escala Min-Max no sea útil en absoluto. Una aplicación popular es el procesamiento de imágenes, donde las intensidades de los píxeles deben normalizarse para que se ajusten a un cierto rango (es decir, de 0 a 255 para el rango de colores RGB). Además, el algoritmo de red neuronal típico requiere datos que están en una escala de 0-1.

Una desventaja de la normalización sobre la estandarización es que pierde cierta información en los datos, especialmente sobre los valores atípicos.

También en la página enlazada, hay esta imagen:

Como puede ver, la escala agrupa todos los datos muy juntos, lo que puede no ser lo que desea. Podría hacer que los algoritmos como el descenso de gradiente demoren más en converger a la misma solución que lo harían en un conjunto de datos estandarizado, o incluso podrían hacer que sea imposible.

"Normalizar variables" realmente no tiene sentido. La terminología correcta es "normalizar / escalar las características". Si va a normalizar o escalar una característica, debe hacer lo mismo para el resto.