ComputerVision1 [논문리뷰] EfficientFormer: Vision Transformers at MobileNet Speed 1. Introduction 주요내용 1. ViT가 mobilenet만큼 빨라질 수 있을까? 2. 1번 의문점을 풀기 위해 ViT의 비효율성에 대해 분석 3. 효율적인 dimenstion-conststent한 ViT모델 제안 해당 논문은 FLOPs나 parameter수가 아닌 inference speed에 초점을 맞춤 3. On-device Latency Analysis of Vision Transformers 위 사진은 여러 모델의 latency를 iPhone12에서 측정한 결과이다. 이 실험을 통해 On-device inference speed에 악영향을 주는 요인을 분석했고, 결과는 다음과 같다. observation 1 : 큰 kernerl과 stride를 갖는 patch embedding이 mo.. 2023. 1. 3. 이전 1 다음