Transformer5 DETR : End-to-End Object Detection with Transformers 논문 발표 당시 최근까지 나온 detection 모델을 설명하기 위해서는 Region proposl, Anchor box, NMS 등 새로운 개념들이 많이 등장했다. 이런 개념들은 실제로 구현하기 어렵고 코드가 길어진다는 단점이 있었는데, 2020년 당시 Facebook(현 META)은 이런 개념들을 적용하지 않고 네트워크 구조가 단순하면서 end-to-end 학습이 가능한 DETR을 제안한다. 기존 Object detection 본 논문에서는 객체 인식을 bbox와 category라는 set을 예측하는 task로 정의한다. 이 때 기존의 모델들은 다수의 proposal, anchor, window center 등을 기반으로 set을 찾는 간접적인 방법에 기반을 두고 있다. 본 논문에서는 이러한 pipe.. 2024. 1. 25. Transformer Pytorch 코드 리뷰 기본 Transformer 구조 Pytorch에는 Transformer가 구현되어 있어, 이를 활용한 기본 구조를 만들면 다음과 같다. # nn모듈을 활용한 Transformer 기본구조 import torch import torch.nn as nn import torch.optim as optim class Transformer(nn.Module): def __init__(self, num_tokens, dim_model, num_heads, num_encoder_layers, num_decoder_layers, dropout_p, ): super().__init__() # Layers self.transformer = nn.Transformer( d_model=dim_model, nhead=num_h.. 2024. 1. 24. [논문리뷰] EfficientFormer: Vision Transformers at MobileNet Speed 1. Introduction 주요내용 1. ViT가 mobilenet만큼 빨라질 수 있을까? 2. 1번 의문점을 풀기 위해 ViT의 비효율성에 대해 분석 3. 효율적인 dimenstion-conststent한 ViT모델 제안 해당 논문은 FLOPs나 parameter수가 아닌 inference speed에 초점을 맞춤 3. On-device Latency Analysis of Vision Transformers 위 사진은 여러 모델의 latency를 iPhone12에서 측정한 결과이다. 이 실험을 통해 On-device inference speed에 악영향을 주는 요인을 분석했고, 결과는 다음과 같다. observation 1 : 큰 kernerl과 stride를 갖는 patch embedding이 mo.. 2023. 1. 3. [논문리뷰] BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding 이 논문을 읽기 전에 알면 좋겠다고 생각한 것(내가 몰랐던 것) 1. pre-trained language representation을 적용하는 두가지 전략 1) feature-based : 임베딩은 그대로 두고 그 위에 레이어만 학습 하는 방법 2) fine-tuning : 임베딩까지 모두 업데이트하는 기법 2. downstream Task -> 원래 목적으로 만들어진 모델을 fine-tuning할 때 쓰이는 task pre-trained 모델(상류) ------특정 task에 fine-tuning중----> 하류 -> 이때 특정 task가 downstream Task 3. ablation study -> 머신러닝, 딥러닝 논문에 나오는 단어인데 ablation은 절제라는 뜻으로 완성된 모델에서 ai시.. 2022. 2. 16. [논문리뷰] Attention is all you need Abstract 기존의 좋은 성능을 내는 모델들은 복잡한 recurrent나 convolutional neural network 구조에 인코더와 디코더로 구성된 모습이었다. 우리는 attention 메커니즘에만 베이스를 둔 Transformer라는 새로운 심플한 네트워크 아키테쳐를 제안한다. 두 개의 기계번역 task에서 이 모델은 더욱 병렬화가 가능하면서 더 적은 학습시간을 가지는 모습을 보여주었다. Introduction RNN모델들은 기계번역이나 시계열 모델링과 같은 부분에서 가장 좋은 성능을 보여왔다. 하지만 이 모델들은 병렬화에 대한 부분을 본질적으로 배제해왔고 이것은 긴 길이의 시퀀스에 치명적이다. attention 메커니즘은 input과 output의 거리에 상관없이 모델링할 수 있어 여러 .. 2022. 2. 15. 이전 1 다음