대표적인 Optimizers
- SGD (Stochastic Gradient Descent)
- 배치 내 단일 샘플 혹은 미니배치의 Gradient를 이용하여 파라미터를 업데이트
- Momentum(관성)을 추가하면 이전 Gradient의 속도를 고려하여 더 개선된 결과를 얻을 수 있음
- Adagrad
- 각 파라미터에 학습률을 동적으로 조절하여, 빈번하게 업데이트 되는 파라미터의 학습률을 감소
- RMSprop
- Adagrad의 단점을 개선하여, 학습률이 너무 빨리 감소하지 않도록 Gradient의 이동평균 사용
- Adam (Adaptive Moment Estimation)
- 모멘텀과 RMSProp의 아이디어를 결합하여, Momentum과 Scaling 인자를 함께 사용
- Adadelta
- RMSProp의 확장으로, learning rate 파라미터를 제거하며, Gradient의 윈도우 기반 이동평균을 사용
- Nadam
- Adam Optimizer에 Nesterov momentum을 추가한 방법
그 외 Optimizers
- LAMB (Layer-wise Adaptive Moments optimizer for Batch training)
- 대규모 배치 학습을 위해 Adam Optimizer 를 레이어별로 스케일링
- RAdam (Rectified Adam)
- Adam 의 학습률을 동적으로 조정하여, 초기 단계에서의 불안정성을 개선
- Lookahead
- 다른 최적화 기법들과 결합해서 사용할 수 있는 방법으로, '외부' 최적화 기법이 '내부' 최적화 기법보다 빠르게 학습하도록 함
- SAM (Sharpness-Aware Minimization)
- 일반화 개선을 목표로 함
- Madgrad
- Gradient 형태에 관계없이 일정한 학습률을 사용할 수 있도록 설계된 최적화 기법
- DiffGrad
- Gradient의 변화를 감지하여 Learning rate를 동적으로 조정하는 최적화 기법
'Deep Learning' 카테고리의 다른 글
opencv (0) | 2023.10.02 |
---|---|
seq-to-seq (0) | 2023.09.26 |
딥러닝 모델종류 (0) | 2023.09.14 |
STEPWISE feature selection (0) | 2023.09.14 |
Learning Curve (Learning Rate 조정) (0) | 2023.08.25 |