[AI Tech] 5주차 22-2차시 Gradient Descent Methods

22-2. Gradient Descent Models

1. Gradient Descent Methods

Stochastic gradient descent

단일 샘플에 의해 계산된 경사도로 업데이트하는 방법

Mini-batch gradient descent

데이터의 하위 집합에 의해 계산된 경사도로 업데이트 하는 방법

Batch gradient descent

모든 데이터에 의해 계산된 경사도로 업데이트 하는 방법

2. Batch-size Matters

It has been observed in practice that when using a larger batch there is a degradation in the quality of the model, as measured by its ability to generalize.

We... present numerical evidence that supports the view that large batch methods tend to converge to sharp minimizers of the training and testing functions. In contrast, small-batch methods consistently converge to flat minimizers... this is due to the inherent noise in the gradient estimation

3. Optimizer

Gradient Descent

η: Learning rate, g_t: Gradient

Momentum

β: momentum

a_(t+1): accumulation

한 번 흘러간 gradient descent를 어느 정도 유지시켜 준다.

Nesterov Accelerated Gradient

Momentum은 수렴하지 못하는 상황에서 Nesterov는 수렴할 수 있다.

Adagrad

Adagrad adapts the learning rate, performing larger updates for infrequent and smaller updates for frequent parameters.

G가 무한대로 가면 학습이 점점 멈춰지는 효과를 가져온다.

Adadelta

Adagrad가 가지는 G가 무한대로 가면 학습이 점점 멈춰지는 효과를 최대한 막는 방법.

다만, 데이터의 수가 커질수록 저장해야 하는 값이 기하급수적으로 증가한다.

RMSprop

unpublished 하고 Geoff Hinton 강좌에서 그가 제공한 적응형 학습률 방법이다.

η만 추가했을 뿐이다.

Adam

Adaptive Moment Estimation(Adam) leverages both past gradients and squared gradients.

Adam effectively combines momentum with an adaptive learning rate approach.

사실 이 네 개의 파라미터를 조절하는 것 역시 매우 중요하다.

저작자표시 비영리 변경금지

'취업준비 > 인공지능' 카테고리의 다른 글

[AI Tech] 5주차 23-2차시 딥러닝 연습 (0)	2024.02.16
[AI Tech] 5주차 23-1차시 Regularization (0)	2024.02.16
[AI Tech] 5주차 22-1차시 최적화의 주요 용어 이해하기 (0)	2024.02.16
[AI Tech] 5주차 21-2차시 Quiz 8 (0)	2024.02.13
[AI Tech] 5주차 21-1차시 뉴럴 네트워크 - MLP (0)	2024.02.13

후유카와의 전자공학 이야기

[AI Tech] 5주차 22-2차시 Gradient Descent Methods

22-2. Gradient Descent Models

1. Gradient Descent Methods

2. Batch-size Matters

3. Optimizer

'취업준비 > 인공지능' 카테고리의 다른 글

티스토리툴바

[AI Tech] 5주차 22-2차시 Gradient Descent Methods

22-2. Gradient Descent Models

1. Gradient Descent Methods

2. Batch-size Matters

3. Optimizer

'취업준비 > 인공지능' 카테고리의 다른 글

'취업준비/인공지능' Related Articles

티스토리툴바