Computer-Science

Optimization

Epoch
- 전체 데이터셋을 한 바퀴 순회하여 학습하는 것
(Mini-)Batch
- 전체 데이터셋을 여러 개의 작은 묶음으로 나누어 학습하는 방법
Iteration / Step
- 1-Epoch을 마치는데 필요한 Mini-Batch의 개수
  - 1-Epoch에서 Batch 단위로 학습을 완료한 것
- 1-epoch를 마치는데 필요한 파라미터 업데이트 횟수
  - 각 Mini-Batch마다 파라미터 업데이터가 한 번 씩 진행됨

Baseline 모델의 Batch Size와 Learning Rate를 알고 있을 때, Batch Size를 늘리거나 줄인다면, Learning Rate는 어떻게 조절해야 할까?

Baseline의 batch_size = 128, learning_rate=0.001이라고 가정
- if batch_size = 64로 1/2배 한다면
  - learning_rate=0.0005로 똑같이 1/2배 해줌
- if batch_size = 256로 2배 한다면
  - learning_rate=0.002로 똑같이 2배 해줌

Scalar derivative (스칼라 미분)
- 스칼라 미분의 경우, 미분값이 이름처럼 스칼라 값을 갖게 된다.
- 따라서 스칼라 미분을 하게 됐을 때는, 해당 지점에서의 순간기울기를 알 수 있다.
  - 순간기울기는 해당 지점에서의 속도로 파악할 수 있다.
- 순간기울기를 통해 방향을 예측할 수 있지만, 음과 양의 1차원 상에서 해석할 수 있을 정도로만 알 수 있다.
Gradient (그라디언트) $\bigtriangledown f$
- 그라디언트는 미분값이 벡터로 표현된다.
- 해당 지점에서 미분 연산이 적용된다는 것이 스칼라 미분과 공통적이지만, 해당 위치에서의 방향을 3차원 공간 상으로 해석할 수 있다는 차이점이 있다.
- $\bigtriangledown f$는 $f$의 값이 가장 가파르게 증가하는 방향을 나타낸다.
- Gradient Descent가 Global Minimum Loss에 수렴하기 위해서는, 가장 빨리 감소시키는 방향인 $-\bigtriangledown f$로 이동한다.

장점
1. weight 변수들에 대한 편미분 계수 값들의 차이가 클 때에도 빠르게 수렴할 수 있도록 도와준다.
2. Saddle Point나 Local Minimum에서 빠져나오도록 도와준다.

필요성
- 고정된 Learning Rate를 사용하는 경우, 모델이 Global Minimum Loss에 수렴하기 쉽지 않다. 따라서, 초기 학습 단계에서 큰 Learning Rate를 사용하여 Global Minimum Loss 주변에 빠르게 접근하고, 점차 Learning Rate를 줄여나가면서 Global Minimum Loss에 세부적으로 수렴하도록 사용한다.
동작 방식
- 앞서 말한대로, Learning Rate Decay의 철학은 초기 학습 단계에서는 큰 Learning Rate를 사용하고, 학습이 진행됨에 따라 점차 Learning Rate를 줄여나가는 것이다. Learning Rate Decay의 알고리즘은 여러가지가 있으며, 대표적으로 사용되는 Cosine Annealing 기법은 Learning Rate가 Cosine 함수 그래프처럼 변한다. 이외에도 Learning Rate가 Exponential 함수의 개형처럼 변하는 ExponentialLR 기법과, 사용자가 지정한 Step 마다 일정하게 Learning Rate가 줄어드는 StepLR 기법 등이 있다.

필요성
- 모델 학습 시, 초기 학습 단계부터 큰 Learning Rate를 사용하는 것은 학습의 불안정을 초래할 수 있다. 따라서, Warmup을 통해 작은 Learning Rate부터 학습을 시작해서 점차 늘려나가고, Warmup 이후에 고정된 Learning Rate를 사용하거나, Learning Rate Decay 기법을 사용한다.
동작 방식
- Warmup은 모델의 초기 학습 단계에서 점차 Learning Rate를 늘려나가는 것이다. 앞서 말한대로, Warmup 이후에는 고정된 Learning Rate를 사용하거나, Learning Rate Decay 기법을 사용한다.

This site is open source. Improve this page.