vision transformer1 Vision Transformer (AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE) 논문 발표 당시 Transformer는 NLP 분야의 표준으로 자리잡았는데, CV에서의 적용은 한정적이었다. CV에서 attention은 CNN과 함께 적용되거나, CNN 구조를 유지하면서 특정 컴포넌트만 대체하는 데 사용되었다. 본 논문에서는 pure transforemr를 image pathes의 시퀀스에 직접 적용하는 것이 image classification 분야에서 좋은 성능을 낸다는 것을 입증한다. ViT의 특징 기존 CNN 기반 SOTA 모델보다 성능이 좋으면서 Fine-Tuning 과정에서 더 적은 리소스로도 더 좋은 성능을 보여준다. 기존 Transformer 모델처럼 parameter의 한계가 아직 없다. 더 많은 데이터와 더 많은 parameter로 더 좋은 성능을 보여줄 수 있다. .. 2024. 1. 29. 이전 1 다음