본문 바로가기

취업준비/인공지능

[AI Tech] 5주차 22-2차시 Gradient Descent Methods

22-2. Gradient Descent Models

1. Gradient Descent Methods

Stochastic gradient descent

단일 샘플에 의해 계산된 경사도로 업데이트하는 방법

Mini-batch gradient descent

데이터의 하위 집합에 의해 계산된 경사도로 업데이트 하는 방법

Batch gradient descent

모든 데이터에 의해 계산된 경사도로 업데이트 하는 방법

 

2. Batch-size Matters

It has been observed in practice that when using a larger batch there is a degradation in the quality of the model, as measured by its ability to generalize.
We... present numerical evidence that supports the view that large batch methods tend to converge to sharp minimizers of the training and testing functions. In contrast, small-batch methods consistently converge to flat minimizers... this is due to the inherent noise in the gradient estimation

Batch-size Matters

 

3. Optimizer

Gradient Descent

Weight

η: Learning rate, g_t: Gradient

Momentum

 

Momentum

β: momentum

a_(t+1): accumulation

한 번 흘러간 gradient descent를 어느 정도 유지시켜 준다.

Nesterov Accelerated Gradient

 

Nesterov
Momentum update

Momentum은 수렴하지 못하는 상황에서 Nesterov는 수렴할 수 있다.

Adagrad

 

Adagrad

Adagrad adapts the learning rate, performing larger updates for infrequent and smaller updates for frequent parameters.

G가 무한대로 가면 학습이 점점 멈춰지는 효과를 가져온다.

Adadelta

Adagrad가 가지는 G가 무한대로 가면 학습이 점점 멈춰지는 효과를 최대한 막는 방법.

Adadelta

다만, 데이터의 수가 커질수록 저장해야 하는 값이 기하급수적으로 증가한다.

RMSprop

unpublished 하고 Geoff Hinton 강좌에서 그가 제공한 적응형 학습률 방법이다.

RMSprop

η만 추가했을 뿐이다.

Adam

Adaptive Moment Estimation(Adam) leverages both past gradients and squared gradients.

Adam

Adam effectively combines momentum with an adaptive learning rate approach.

사실 이 네 개의 파라미터를 조절하는 것 역시 매우 중요하다.

 

 

 

 

© NAVER Connect Foundation. All Rights Reserved