반응형
Main Ideas
본 논문에서는 모델의 성능을 개선하기 위한 접근법에 따라 다양한 방법을 조합하여 최고의 성능을 보이는 YOLO v4를 제안한다.
New Ideas and Modifications
Mosaic
Mosaic는 본 논문에서 네 개의 학습이미지를 섞는 독자적은 Data augmentation 방법이다. 이미지를 섞음으로써 객체가 인식되는 일반적인 맥락에서 벗어난 관점을 제공한다.
SAT(Self-Adverarial Training)
또 다른 독자적인 Data augmentation 방법으로, forward와 backward 두 번의 stage를 걸쳐 수행되는 Data augmentation 방법이다. 첫 번째 stage에서는 원본 이미지를 변형시켜, 이미지 내에 객체가 없는 것처럼 보이는 adversarial attack을 가한다. 두 번째 stage에서는 변형된 이미지를 사용하여 학습한다.
Minor Modifications
- CmBN은 CBN을 변형시킨 버전으로, Cross mini-Batch Normalization을 의미합니다. 해당 방법은 하나의 batch에서 mini-batch 사이의 batch statistics를 수집한다.
- SAM에서 spatial-wise attention을 point-wise attention으로 변형한다
- PAN에서 shortcut connection을 concatenation으로 대체한다.
Architecture
YOLO v4의 구조와 사용된 다양한 기법은 아래와 같다.
Structure
- Backbone : CSPDarknet53
- Neck : SPP, PAN
- Head : YOLOv3
BoF for backbone
- CutMix and Mosaic data augmentation
- Dropblock regularization
- Class label smoothing
BoS for backbone
- Mish activation
- Cross-stage partial connections(CSP)
- Multi-input weighted residual connections(MiWRC)
BoF for detector
- CIoU-loss
- CmBN
- DropBlock regularization
- Mosaic data augmentation
- Self-Adversarial Training
- Eliminate grid sensitivity
- Using multiple anchors for a single ground truth
- Cosine annealing scheduler
- Optimal hyperparameters
- Random training shapes
Bag of Specials(BoS) for detector
- Mish activation
- SPP-block
- SAM-block
- PAN path-aggregation block
- DIoU-NMS
Experiments
- Classifier 학습 시 label smoothing, data augmentation이 주는 영향에 대한 실험
- Detector 학습 시 서로 다른 feature의 영향에 대한 실험
- Detector 학습 시 서로 다른 backbone과 pretrained weight의 영향에 대한 실험
- Detector 학습 시 mini-batch 크기에 따른 영향에 대한 실험
이러한 실험들을 근거로 YOLOv4는 다양한 detector들과의 성능을 비교한 결과 Pareto optimality 곡선에 위치한다. 이는 곧 추론 속도가 가장 빠르며 정확도 역시 가장 높음을 의미한다.
MS COCO 데이터셋에서 43.5%라는 AP 값을 보이며, Tesla V100 GPU에서 65FPS라는 매우 빠른 추론 속도를 보였다.
반응형
'DL > Object detection' 카테고리의 다른 글
DETR : End-to-End Object Detection with Transformers (2) | 2024.01.25 |
---|---|
EfficientDet (0) | 2024.01.24 |
M2Det(M2Det: A Single-Shot Object Detector based on Multi-level Feature Pyramid Network) (2) | 2024.01.22 |
YOLO v3 (0) | 2024.01.22 |
[논문 리뷰] Object Detection in 20 Years: A Survey (0) | 2024.01.19 |