본문 바로가기

ViT2

Vision Transformer (AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE) 논문 발표 당시 Transformer는 NLP 분야의 표준으로 자리잡았는데, CV에서의 적용은 한정적이었다. CV에서 attention은 CNN과 함께 적용되거나, CNN 구조를 유지하면서 특정 컴포넌트만 대체하는 데 사용되었다. 본 논문에서는 pure transforemr를 image pathes의 시퀀스에 직접 적용하는 것이 image classification 분야에서 좋은 성능을 낸다는 것을 입증한다. ViT의 특징 기존 CNN 기반 SOTA 모델보다 성능이 좋으면서 Fine-Tuning 과정에서 더 적은 리소스로도 더 좋은 성능을 보여준다. 기존 Transformer 모델처럼 parameter의 한계가 아직 없다. 더 많은 데이터와 더 많은 parameter로 더 좋은 성능을 보여줄 수 있다. .. 2024. 1. 29.
[논문리뷰] EfficientFormer: Vision Transformers at MobileNet Speed 1. Introduction 주요내용 1. ViT가 mobilenet만큼 빨라질 수 있을까? 2. 1번 의문점을 풀기 위해 ViT의 비효율성에 대해 분석 3. 효율적인 dimenstion-conststent한 ViT모델 제안 해당 논문은 FLOPs나 parameter수가 아닌 inference speed에 초점을 맞춤 3. On-device Latency Analysis of Vision Transformers 위 사진은 여러 모델의 latency를 iPhone12에서 측정한 결과이다. 이 실험을 통해 On-device inference speed에 악영향을 주는 요인을 분석했고, 결과는 다음과 같다. observation 1 : 큰 kernerl과 stride를 갖는 patch embedding이 mo.. 2023. 1. 3.