Deep Learning

Optimizer 종류

Kimhj 2023. 9. 17. 16:00

대표적인 Optimizers

  • SGD (Stochastic Gradient Descent)
    • 배치 내 단일 샘플 혹은 미니배치의 Gradient를 이용하여 파라미터를 업데이트
    • Momentum(관성)을 추가하면 이전 Gradient의 속도를 고려하여 더 개선된 결과를 얻을 수 있음
  • Adagrad
    • 각 파라미터에 학습률을 동적으로 조절하여, 빈번하게 업데이트 되는 파라미터의 학습률을 감소
  • RMSprop
    • Adagrad의 단점을 개선하여, 학습률이 너무 빨리 감소하지 않도록 Gradient의 이동평균 사용
  • Adam (Adaptive Moment Estimation)
    • 모멘텀과 RMSProp의 아이디어를 결합하여, Momentum과 Scaling 인자를 함께 사용
  • Adadelta
    • RMSProp의 확장으로, learning rate 파라미터를 제거하며, Gradient의 윈도우 기반 이동평균을 사용
  • Nadam
    • Adam Optimizer에 Nesterov momentum을 추가한 방법

 

그 외 Optimizers

  • LAMB (Layer-wise Adaptive Moments optimizer for Batch training)
    • 대규모 배치 학습을 위해 Adam Optimizer 를 레이어별로 스케일링
  • RAdam (Rectified Adam)
    • Adam 의 학습률을 동적으로 조정하여, 초기 단계에서의 불안정성을 개선
  • Lookahead
    • 다른 최적화 기법들과 결합해서 사용할 수 있는 방법으로, '외부' 최적화 기법이 '내부' 최적화 기법보다 빠르게 학습하도록 함
  • SAM (Sharpness-Aware Minimization)
    • 일반화 개선을 목표로 함
  • Madgrad
    • Gradient 형태에 관계없이 일정한 학습률을 사용할 수 있도록 설계된 최적화 기법
  • DiffGrad
    • Gradient의 변화를 감지하여 Learning rate를 동적으로 조정하는 최적화 기법

 

'Deep Learning' 카테고리의 다른 글

opencv  (0) 2023.10.02
seq-to-seq  (0) 2023.09.26
딥러닝 모델종류  (0) 2023.09.14
STEPWISE feature selection  (0) 2023.09.14
Learning Curve (Learning Rate 조정)  (0) 2023.08.25