Optimizer 종류

Deep Learning

Kimhj 2023. 9. 17. 16:00

대표적인 Optimizers

SGD (Stochastic Gradient Descent)
- 배치 내 단일 샘플 혹은 미니배치의 Gradient를 이용하여 파라미터를 업데이트
- Momentum(관성)을 추가하면 이전 Gradient의 속도를 고려하여 더 개선된 결과를 얻을 수 있음
Adagrad
- 각 파라미터에 학습률을 동적으로 조절하여, 빈번하게 업데이트 되는 파라미터의 학습률을 감소
RMSprop
- Adagrad의 단점을 개선하여, 학습률이 너무 빨리 감소하지 않도록 Gradient의 이동평균 사용
Adam (Adaptive Moment Estimation)
- 모멘텀과 RMSProp의 아이디어를 결합하여, Momentum과 Scaling 인자를 함께 사용
Adadelta
- RMSProp의 확장으로, learning rate 파라미터를 제거하며, Gradient의 윈도우 기반 이동평균을 사용
Nadam
- Adam Optimizer에 Nesterov momentum을 추가한 방법

그 외 Optimizers

LAMB (Layer-wise Adaptive Moments optimizer for Batch training)
- 대규모 배치 학습을 위해 Adam Optimizer 를 레이어별로 스케일링
RAdam (Rectified Adam)
- Adam 의 학습률을 동적으로 조정하여, 초기 단계에서의 불안정성을 개선
Lookahead
- 다른 최적화 기법들과 결합해서 사용할 수 있는 방법으로, '외부' 최적화 기법이 '내부' 최적화 기법보다 빠르게 학습하도록 함
SAM (Sharpness-Aware Minimization)
- 일반화 개선을 목표로 함
Madgrad
- Gradient 형태에 관계없이 일정한 학습률을 사용할 수 있도록 설계된 최적화 기법
DiffGrad
- Gradient의 변화를 감지하여 Learning rate를 동적으로 조정하는 최적화 기법

opencv (0)	2023.10.02
seq-to-seq (0)	2023.09.26
딥러닝 모델종류 (0)	2023.09.14
STEPWISE feature selection (0)	2023.09.14
Learning Curve (Learning Rate 조정) (0)	2023.08.25

Hyungjun Kim

Find Values in Medical Data ! Bio-signal / EMR / Computer Vision / Medical Image

Hyungjun Kim