트랜스포머(Transformer) 개념, 설명

Deep Learning

Kimhj 2023. 10. 9. 18:57

트랜스포머는 2017년 구글에서 발표한 논문임. (원문 : Attention in all you need (https://arxiv.org/pdf/1706.03762.pdf)
트랜스포머 모델은 기존 RNN 구조(seq-to-seq )인 Encoder-Decoder 구조를 유지하면서 어텐션을 구현한 모델임.
RNN 구조의 한계
- RNN 기반 모델은 인코더에서 입력값을 하나의 벡터로 만들고, 디코더에서 벡터를 통해 출력값 시퀀스를 만들어내는 구조임.
- 인코더에서 입력시퀀스를 벡터로 압축할 때, 정보의 Loss가 발생할 수 있음.
- 장기 의존성 처리가 어렵고 입력/출력 길이가 고정되어 있음.
- 병렬화가 가능은 하지만, 제한되어 있음. (인코더와 디코더를 연결하기 위한 추가연산이 필요함)
이러한 문제점과 한계를 극복하기 위해 Transformer가 제안되었으며, NLP 분야뿐만 아니라 이미지 쪽에서도 SOTA 로 활용되고 있음.
주요 파라미터 (Torch Transformer documentation : https://pytorch.org/docs/stable/generated/torch.nn.Transformer.html)