비전 트랜스포머 모델은 기존의 컨볼루션 신경망(Convolutional Neural Network, CNN) 아키텍처 대신에 트랜스포머의 셀프 어텐션(Self-Attention) 메커니즘을 사용하여 이미지를 처리하는 모델임. 특징 트랜스포머 구조 적용: 비전 트랜스포머는 트랜스포머 아키텍처와 유사한 구조를 사용. 이미지를 처리하기 위해 2D 그리드로 나타낸 후, 각 위치의 정보를 셀프 어텐션으로 처리하며, 이를 통해 이미지 내의 전역 및 지역적인 패턴을 파악할 수 있음. 패치 표현: 이미지는 작은 패치(patch)로 나뉘어 표현되는데, 패치는 1D 벡터로 펼쳐진 후, 트랜스포머의 입력값으로 사용함. 이렇게 사용하면 이미지의 공간 정보(Spatial Information)가 유지되면서 효율적인 처리가 가능..