대표적인 Optimizers SGD (Stochastic Gradient Descent) 배치 내 단일 샘플 혹은 미니배치의 Gradient를 이용하여 파라미터를 업데이트 Momentum(관성)을 추가하면 이전 Gradient의 속도를 고려하여 더 개선된 결과를 얻을 수 있음 Adagrad 각 파라미터에 학습률을 동적으로 조절하여, 빈번하게 업데이트 되는 파라미터의 학습률을 감소 RMSprop Adagrad의 단점을 개선하여, 학습률이 너무 빨리 감소하지 않도록 Gradient의 이동평균 사용 Adam (Adaptive Moment Estimation) 모멘텀과 RMSProp의 아이디어를 결합하여, Momentum과 Scaling 인자를 함께 사용 Adadelta RMSProp의 확장으로, learnin..