22-2. Gradient Descent Models
1. Gradient Descent Methods
Stochastic gradient descent
단일 샘플에 의해 계산된 경사도로 업데이트하는 방법
Mini-batch gradient descent
데이터의 하위 집합에 의해 계산된 경사도로 업데이트 하는 방법
Batch gradient descent
모든 데이터에 의해 계산된 경사도로 업데이트 하는 방법
2. Batch-size Matters
It has been observed in practice that when using a larger batch there is a degradation in the quality of the model, as measured by its ability to generalize.
We... present numerical evidence that supports the view that large batch methods tend to converge to sharp minimizers of the training and testing functions. In contrast, small-batch methods consistently converge to flat minimizers... this is due to the inherent noise in the gradient estimation
3. Optimizer
Gradient Descent
η: Learning rate, g_t: Gradient
Momentum
β: momentum
a_(t+1): accumulation
한 번 흘러간 gradient descent를 어느 정도 유지시켜 준다.
Nesterov Accelerated Gradient
Momentum은 수렴하지 못하는 상황에서 Nesterov는 수렴할 수 있다.
Adagrad
Adagrad adapts the learning rate, performing larger updates for infrequent and smaller updates for frequent parameters.
G가 무한대로 가면 학습이 점점 멈춰지는 효과를 가져온다.
Adadelta
Adagrad가 가지는 G가 무한대로 가면 학습이 점점 멈춰지는 효과를 최대한 막는 방법.
다만, 데이터의 수가 커질수록 저장해야 하는 값이 기하급수적으로 증가한다.
RMSprop
unpublished 하고 Geoff Hinton 강좌에서 그가 제공한 적응형 학습률 방법이다.
η만 추가했을 뿐이다.
Adam
Adaptive Moment Estimation(Adam) leverages both past gradients and squared gradients.
Adam effectively combines momentum with an adaptive learning rate approach.
사실 이 네 개의 파라미터를 조절하는 것 역시 매우 중요하다.
© NAVER Connect Foundation. All Rights Reserved
'취업준비 > 인공지능' 카테고리의 다른 글
[AI Tech] 5주차 23-2차시 딥러닝 연습 (0) | 2024.02.16 |
---|---|
[AI Tech] 5주차 23-1차시 Regularization (0) | 2024.02.16 |
[AI Tech] 5주차 22-1차시 최적화의 주요 용어 이해하기 (0) | 2024.02.16 |
[AI Tech] 5주차 21-2차시 Quiz 8 (0) | 2024.02.13 |
[AI Tech] 5주차 21-1차시 뉴럴 네트워크 - MLP (0) | 2024.02.13 |