본문 바로가기

object detection8

DETR : End-to-End Object Detection with Transformers 논문 발표 당시 최근까지 나온 detection 모델을 설명하기 위해서는 Region proposl, Anchor box, NMS 등 새로운 개념들이 많이 등장했다. 이런 개념들은 실제로 구현하기 어렵고 코드가 길어진다는 단점이 있었는데, 2020년 당시 Facebook(현 META)은 이런 개념들을 적용하지 않고 네트워크 구조가 단순하면서 end-to-end 학습이 가능한 DETR을 제안한다. 기존 Object detection 본 논문에서는 객체 인식을 bbox와 category라는 set을 예측하는 task로 정의한다. 이 때 기존의 모델들은 다수의 proposal, anchor, window center 등을 기반으로 set을 찾는 간접적인 방법에 기반을 두고 있다. 본 논문에서는 이러한 pipe.. 2024. 1. 25.
EfficientDet CV 분야에서 모델의 효율성이 점점 더 중요해지고 있다. EfficientDet은 모델의 효율성을 상승시키기 위한 몇 가지 최적화 방법을 소개한다. Preview 시간이 흐르면서 detection 모델들의 성능이 계속 향상되었지만, 대부분 많은 파라미터를 가지고, 복잡한 구조로 다양한 Device에 적용이 어려웠다. 자율주행 차량 등 제약사항이 많은 곳에 사용되는 효율적인 모델들에 대한 필요성이 대두되었지만 그 요구사항들을 충족시키기 위해서는 해결해야할 근본적인 문제들이 있었다. 높은 정확성과 더 나은 효율을 동시에 달성하는 것이 가능한가? EfficientDet은 이 문제를 해결하기 위해 성능은 유지하면서 효율성을 증대시킬 수 있는 해결책을 두 가지 제시했다. 1. Efficient multi-scal.. 2024. 1. 24.
YOLO v4: Optimal Speed and Accuracy of Object Detection Main Ideas 본 논문에서는 모델의 성능을 개선하기 위한 접근법에 따라 다양한 방법을 조합하여 최고의 성능을 보이는 YOLO v4를 제안한다. New Ideas and Modifications Mosaic Mosaic는 본 논문에서 네 개의 학습이미지를 섞는 독자적은 Data augmentation 방법이다. 이미지를 섞음으로써 객체가 인식되는 일반적인 맥락에서 벗어난 관점을 제공한다. SAT(Self-Adverarial Training) 또 다른 독자적인 Data augmentation 방법으로, forward와 backward 두 번의 stage를 걸쳐 수행되는 Data augmentation 방법이다. 첫 번째 stage에서는 원본 이미지를 변형시켜, 이미지 내에 객체가 없는 것처럼 보이는 a.. 2024. 1. 24.
M2Det(M2Det: A Single-Shot Object Detector based on Multi-level Feature Pyramid Network) FPN의 한계 FPN은 classification task를 위해 설계된 backbone network로부터 Multi-scale feature maps를 추출하는데, 이를 통해 구성된 Feature Pyramid는 객체 인식 task를 수행하기 위해 충분히 representative하지 않다. Feature Pyramid의 각 Level의 feature map들은 주로 backbone network의 single-level-layer로부터 구성되어있고, 이로 인해 객체의 외형에 따른 인식 성능의 차이가 발생한다. 일반적으로 더 깊은 layer의 high-level feature는 classification task에 적합하고, 얕은 Layer의 low-level feature는 localization .. 2024. 1. 22.
[논문 리뷰] Object Detection in 20 Years: A Survey 조금 지난 것이지만 Object detection의 역사를 전반적으로 이해할 수 있는 Survey 논문에 대한 리뷰인데, Survey 논문의 특성상 구석구석 읽어봐야겠다는 생각으로 요약보다는 생략에 초점을 두었다. 따라서 리뷰보다는 번역과 생략이라고 할 수 있다!! Introduction Object detection은 사람, 동물, 차와 같은 객체들의 class를 인식하는 CV의 중요한 task이다. Object detection의 목표는 어떠한 객체가 있는지?를 계산하는 모델 및 기술을 개발하는 것이다. Object detection의 주요한 두 지표는 정확도와 속도이다. Object detection은 Instacne segmentation과 같은 다른 CV task를 위한 기초이다. 최근 딥러닝 .. 2024. 1. 19.
FPN (Feature Pyramid Networks for Object Detection) FPN 다양한 크기의 객체를 인식하는 것이 OD task의 핵심적인 문제이다. 기존의 방식대로면 모델의 추론 속도가 너무 느리며 메모리를 지나치게 많이 사용했다. FPN은 이를 통해 컴퓨팅 자원을 적게 차지하면서 다양한 크기의 객체를 인식하는 방법을 제시한다. Summary 원본 이미지를 Conv layer에 입력해 Forward pass를 진행하고, 각 stage마다 다른 scale을 가지는 4개의 Feature map을 추출한다. 이 과정을 Bottom-up pathway라고 하는데, 후에 Top-down pathway를 통해 각 feature map에 1x1 conv layer를 적용해 모두 256개의 channel을 가지도록 조정하고 Upsampling을 진행한다. 마지막으로 Lateral con.. 2024. 1. 17.
YOLO v2 YOLO v2 모델은 다양한 아이디어를 도입해 정확도와 속도 사이의 trade-off 균형을 잘 맞춰 좋은 성능을 보였다. Main ideas Better Batch Normalization 모든 conv layer 뒤에 BN을 추가하여 mAP 값이 2% 정도 향상되었고, 과적합 없이 기타 정규화 방식이나 dropout을 제거할 수 있었습니다. High Resolution Classifier v1 모델은 DarkNet의 입력 이미지 사이즈를 224x224로 사전 학습 시켰지만 detection task에서는 448x448 크기의 입력 이미지를 사용한다. 이는 모델이 object detection task를 학습하면서 동시에 새로운 입력 이미지 해상도에 적응해야 한다는 것이다. v2 모델은 처음부터 448.. 2024. 1. 15.
YOLO v1 Main ideas 1) 1-stage detector https://2021-01-06getstarted.tistory.com/74 R-CNN Introduction cv에서의 주요 task에 대한 설명은 다음과 같다. Classification : Single obeject에 대해서 object의 클래스를 분류하는 문제. Classification + Localization : Single object에 대해서 object의 위치를 bounding box 2021-01-06getstarted.tistory.com R-CNN과 달리 YOLO v1은 별도의 region proposals를 사용하지 않고 전체 이미지를 사용한다. 전체 이미지를 SXS 크기의 grid로 나눠준다. 객체의 중심이 특정 grid.. 2024. 1. 5.