본문 바로가기

DL/Object detection13

DETR : End-to-End Object Detection with Transformers 논문 발표 당시 최근까지 나온 detection 모델을 설명하기 위해서는 Region proposl, Anchor box, NMS 등 새로운 개념들이 많이 등장했다. 이런 개념들은 실제로 구현하기 어렵고 코드가 길어진다는 단점이 있었는데, 2020년 당시 Facebook(현 META)은 이런 개념들을 적용하지 않고 네트워크 구조가 단순하면서 end-to-end 학습이 가능한 DETR을 제안한다. 기존 Object detection 본 논문에서는 객체 인식을 bbox와 category라는 set을 예측하는 task로 정의한다. 이 때 기존의 모델들은 다수의 proposal, anchor, window center 등을 기반으로 set을 찾는 간접적인 방법에 기반을 두고 있다. 본 논문에서는 이러한 pipe.. 2024. 1. 25.
EfficientDet CV 분야에서 모델의 효율성이 점점 더 중요해지고 있다. EfficientDet은 모델의 효율성을 상승시키기 위한 몇 가지 최적화 방법을 소개한다. Preview 시간이 흐르면서 detection 모델들의 성능이 계속 향상되었지만, 대부분 많은 파라미터를 가지고, 복잡한 구조로 다양한 Device에 적용이 어려웠다. 자율주행 차량 등 제약사항이 많은 곳에 사용되는 효율적인 모델들에 대한 필요성이 대두되었지만 그 요구사항들을 충족시키기 위해서는 해결해야할 근본적인 문제들이 있었다. 높은 정확성과 더 나은 효율을 동시에 달성하는 것이 가능한가? EfficientDet은 이 문제를 해결하기 위해 성능은 유지하면서 효율성을 증대시킬 수 있는 해결책을 두 가지 제시했다. 1. Efficient multi-scal.. 2024. 1. 24.
YOLO v4: Optimal Speed and Accuracy of Object Detection Main Ideas 본 논문에서는 모델의 성능을 개선하기 위한 접근법에 따라 다양한 방법을 조합하여 최고의 성능을 보이는 YOLO v4를 제안한다. New Ideas and Modifications Mosaic Mosaic는 본 논문에서 네 개의 학습이미지를 섞는 독자적은 Data augmentation 방법이다. 이미지를 섞음으로써 객체가 인식되는 일반적인 맥락에서 벗어난 관점을 제공한다. SAT(Self-Adverarial Training) 또 다른 독자적인 Data augmentation 방법으로, forward와 backward 두 번의 stage를 걸쳐 수행되는 Data augmentation 방법이다. 첫 번째 stage에서는 원본 이미지를 변형시켜, 이미지 내에 객체가 없는 것처럼 보이는 a.. 2024. 1. 24.
M2Det(M2Det: A Single-Shot Object Detector based on Multi-level Feature Pyramid Network) FPN의 한계 FPN은 classification task를 위해 설계된 backbone network로부터 Multi-scale feature maps를 추출하는데, 이를 통해 구성된 Feature Pyramid는 객체 인식 task를 수행하기 위해 충분히 representative하지 않다. Feature Pyramid의 각 Level의 feature map들은 주로 backbone network의 single-level-layer로부터 구성되어있고, 이로 인해 객체의 외형에 따른 인식 성능의 차이가 발생한다. 일반적으로 더 깊은 layer의 high-level feature는 classification task에 적합하고, 얕은 Layer의 low-level feature는 localization .. 2024. 1. 22.
YOLO v3 Main Ideas Bounding box Prediction YOLO v2는 bounding box 에측 시 t(x, y, w, h)를 구한 후 위 그림처럼 b(x, y, w, h)로 변형시켜 L2 loss를 통해 학습시켰다. 여기서 c(x, y)는 grid cell의 좌상단의 offset이다. 하지만 YOLO v3는 gt좌표를 위의 공식을 거꾸로 적용시켜 t로 변형 후 직접 t(x)와 직접 L1 loss를 통해 학습시키는 방식을 선택한다. 예측한 bbox 마다 objectness score를 Logistic 함수를 적용해 구한다. 또한 anchor box와 gt box와의 IoU 값이 가장 높은 box만 매칭시킨다. gt box에 할당되지 못한 bbox는 bbox regression loss를 만들지.. 2024. 1. 22.
[논문 리뷰] Object Detection in 20 Years: A Survey 조금 지난 것이지만 Object detection의 역사를 전반적으로 이해할 수 있는 Survey 논문에 대한 리뷰인데, Survey 논문의 특성상 구석구석 읽어봐야겠다는 생각으로 요약보다는 생략에 초점을 두었다. 따라서 리뷰보다는 번역과 생략이라고 할 수 있다!! Introduction Object detection은 사람, 동물, 차와 같은 객체들의 class를 인식하는 CV의 중요한 task이다. Object detection의 목표는 어떠한 객체가 있는지?를 계산하는 모델 및 기술을 개발하는 것이다. Object detection의 주요한 두 지표는 정확도와 속도이다. Object detection은 Instacne segmentation과 같은 다른 CV task를 위한 기초이다. 최근 딥러닝 .. 2024. 1. 19.
Mask R-CNN Instance Segmentation Instance Segmentation은 이미지에 존재하는 모든 객체를 탐시하는 동시에 각 인스턴스를 픽셀 단위로 분류하는 task이다. Semantic segmentation은 객체의 종류별로 구분을 한다는 차이점이 있다. Instance segmentation은 각 객체를 탐지하는 Object detection과 카테고리를 분류하는 Semantic segmentation이 결합되었다고 볼 수 있다. Mask R-CNN Mask R-CNN은 Faster R-CNN의 RPN이 출력한 RoI에 대하여 객체의 class를 예측하는 classification branch, bbox regression을 수행하는 bbox regression branch와 평행으로 segm.. 2024. 1. 18.
FPN (Feature Pyramid Networks for Object Detection) FPN 다양한 크기의 객체를 인식하는 것이 OD task의 핵심적인 문제이다. 기존의 방식대로면 모델의 추론 속도가 너무 느리며 메모리를 지나치게 많이 사용했다. FPN은 이를 통해 컴퓨팅 자원을 적게 차지하면서 다양한 크기의 객체를 인식하는 방법을 제시한다. Summary 원본 이미지를 Conv layer에 입력해 Forward pass를 진행하고, 각 stage마다 다른 scale을 가지는 4개의 Feature map을 추출한다. 이 과정을 Bottom-up pathway라고 하는데, 후에 Top-down pathway를 통해 각 feature map에 1x1 conv layer를 적용해 모두 256개의 channel을 가지도록 조정하고 Upsampling을 진행한다. 마지막으로 Lateral con.. 2024. 1. 17.
YOLO v2 YOLO v2 모델은 다양한 아이디어를 도입해 정확도와 속도 사이의 trade-off 균형을 잘 맞춰 좋은 성능을 보였다. Main ideas Better Batch Normalization 모든 conv layer 뒤에 BN을 추가하여 mAP 값이 2% 정도 향상되었고, 과적합 없이 기타 정규화 방식이나 dropout을 제거할 수 있었습니다. High Resolution Classifier v1 모델은 DarkNet의 입력 이미지 사이즈를 224x224로 사전 학습 시켰지만 detection task에서는 448x448 크기의 입력 이미지를 사용한다. 이는 모델이 object detection task를 학습하면서 동시에 새로운 입력 이미지 해상도에 적응해야 한다는 것이다. v2 모델은 처음부터 448.. 2024. 1. 15.