machine learning - plataforma - Normalice una característica en esta tabla
modelos predictivos machine learning (7)
Esto se ha convertido en una pregunta bastante frustrante, pero he preguntado en las discusiones de Coursera y no me ayudarán. Debajo está la pregunta:
Lo he equivocado 6 veces ahora. ¿Cómo normalizo la función? Las pistas son todo lo que estoy pidiendo.
Supongo que x_2 ^ (2) es el valor 5184, a menos que agregue la columna x_0 de 1, que no mencionan, pero ciertamente menciona en las conferencias cuando se habla de crear la matriz de diseño X. En cuyo caso x_2 ^ (2) sería el valor 72. Suponiendo que uno u otro es correcto (estoy jugando un juego de adivinanzas), ¿qué debería usar para normalizarlo? Habla de 3 formas diferentes de normalizar en las conferencias: una usando el valor máximo, otra con el rango / diferencia entre máx y min, y otra la desviación estándar: quieren una respuesta correcta a las centésimas . ¿Cuál debo usar? Esto es muy confuso
... use tanto la escala de entidades (dividiendo por el "máximo-mínimo" , o el rango, de una característica) como la normalización media.
Entonces, para cualquier característica individual f:
f_norm = (f - f_mean) / (f_max - f_min)
por ejemplo, para x2, (examen de mitad de período) ^ 2 = {7921, 5184, 8836, 4761}
> x2 <- c(7921, 5184, 8836, 4761)
> mean(x2)
6676
> max(x2) - min(x2)
4075
> (x2 - mean(x2)) / (max(x2) - min(x2))
0.306 -0.366 0.530 -0.470
De ahí la norma (5184) = 0.366
(usando el lenguaje R, que es genial para vectorizar expresiones como esta)
Estoy de acuerdo en que es confuso usaron la notación x2 (2) para significar x2 (norma) o x2 ''
EDITAR: en la práctica, todos llaman a la función scale(...)
integrada scale(...)
, que hace lo mismo.
"Supongo que x_2 ^ (2) es el valor 5184" ¿es esto porque es el segundo elemento de la lista y usa el subíndice _2? x_2 es solo una identidad variable en matemáticas, se aplica a todas las filas de la lista. Tenga en cuenta que el resultado del examen de mitad de período más alto (es decir, el que no está cuadrado) se reduce en la prueba final y el resultado medio más bajo en el medio plazo aumenta más para el resultado del examen final. Theta es un valor fijo, un coeficiente, por lo que en algún lugar su normalización de valores x_1 y x_2 debe convertirse (EDITAR: no negativo, menos de 1) para permitir este comportamiento. Eso debería darle una base inicial, identificando dónde está el punto de pivote.
Estoy tomando este curso en este momento y un error realmente trivial que hice la primera vez que respondí esta pregunta fue usando coma en lugar de punto en la respuesta, ya que lo hice a mano y en mi país usamos la coma para denotar decimales. Ej: (0,52 en vez de 0,52)
Entonces, en la segunda vez que lo intenté, utilicé el punto y funciona bien.
Para el mismo conjunto de entrenamiento, obtuve la pregunta como Q. ¿Cuál es la característica normalizada x ^ (3) _1?
Por lo tanto, el tercer entrenamiento ex y el primer rasgo hacen 94 en la tabla de arriba. Ahora, la forma normalizada es
x = (x - mean(x''s)) / range(x)
Los valores son:
x = 94
mean(89+72+94+69) / 4 = 81
range = 94 - 69 = 25
Normalized x = (94 - 81) / 25 = 0.52
Por lo general, normalizamos todos ellos para que tengan cero media y vayan entre [-1, 1].
Puede hacerlo fácilmente dividiendo por el máximo del valor absoluto y luego eliminar la media de las muestras.
Se está pidiendo que se normalice la segunda característica en la segunda columna utilizando tanto la escala de las funciones como la normalización media. Por lo tanto,
(5184 - 6675.5) / 4075 = -0.366
Tuve el mismo problema, en mi caso el problema era que estaba usando como promedio el máximo valor x2 (8836) menos el valor mínimo x2 (4761) dividido por dos, en lugar de la suma de cada valor x2 dividido por el número de ejemplos .