Deep Learning

트랜스포머(Transformer) 개념, 설명

Kimhj 2023. 10. 9. 18:57
  • 트랜스포머는 2017년 구글에서 발표한 논문임. (원문 : Attention in all you need (https://arxiv.org/pdf/1706.03762.pdf)
  • 트랜스포머 모델은 기존 RNN 구조(seq-to-seq )인 Encoder-Decoder 구조를 유지하면서 어텐션을 구현한 모델임.
  • RNN 구조의 한계
    • RNN 기반 모델은 인코더에서 입력값을 하나의 벡터로 만들고, 디코더에서 벡터를 통해 출력값 시퀀스를 만들어내는 구조임.
    • 인코더에서 입력시퀀스를 벡터로 압축할 때, 정보의 Loss가 발생할 수 있음.
    • 장기 의존성 처리가 어렵고 입력/출력 길이가 고정되어 있음.
    • 병렬화가 가능은 하지만, 제한되어 있음. (인코더와 디코더를 연결하기 위한 추가연산이 필요함)
  • 이러한 문제점과 한계를 극복하기 위해 Transformer가 제안되었으며, NLP 분야뿐만 아니라 이미지 쪽에서도 SOTA 로 활용되고 있음.
  • 주요 파라미터 (Torch Transformer documentation : https://pytorch.org/docs/stable/generated/torch.nn.Transformer.html)

Transformer parameters

  • 모델 구조

출처 : https://ratsgo.github.io/nlpbook/docs/language_model/tr_self_attention/

 

  • Positional Encoding

 

  • Attention

 

  • Self-Attention

 

  •