while weights used update the stochastic steepest performing optimizer method español deutsch descent below based machine-learning data-mining mathematical-optimization

machine learning - weights - ¿Cuál es la diferencia entre Gradient Descent y Newton''s Gradient Descent?



the steepest descent method (3)

En pocas palabras, pendiente descendente, solo da un pequeño paso hacia donde crees que está el cero y luego recalcula; El método de Newton, vas todo el camino hasta allí.

Entiendo lo que hace Gradient Descent. Básicamente trata de avanzar hacia la solución óptima local moviéndose lentamente hacia abajo en la curva. Estoy tratando de entender cuál es la diferencia real entre el descenso del gradiente del plan y el método de Newton.

De Wikipedia, leí esta breve línea "El método de Newton usa información de curvatura para tomar una ruta más directa". ¿Qué significa esto intuitivamente?



En un mínimo local (o máximo) x , la derivada de la función objetivo f desaparece: f''(x) = 0 (suponiendo suficiente suavidad de f ).

El descenso de gradiente intenta encontrar un mínimo x utilizando información de la primera derivada de f : simplemente sigue el descenso más pronunciado desde el punto actual. Esto es como rodar una pelota en el gráfico de f hasta que se detiene (mientras descuida la inercia).

El método de Newton intenta encontrar un punto x satisface f''(x) = 0 al aproximar f'' con una función lineal g y luego resolver explícitamente la raíz de esa función (esto se conoce como el método de búsqueda de la raíz de Newton). La raíz de g no es necesariamente la raíz de f'' , pero en muchas circunstancias es una buena suposición (el artículo de Wikipedia sobre el método de Newton para encontrar raíces tiene más información sobre los criterios de convergencia). Mientras se aproxima a f'' , el método de Newton hace uso de f'''' (la curvatura de f ). Esto significa que tiene mayores requisitos sobre la suavidad de f , pero también significa que (al usar más información) a menudo converge más rápido.