본문 바로가기
DL/Object detection

YOLO v4: Optimal Speed and Accuracy of Object Detection

by hits_gold 2024. 1. 24.
반응형

Main Ideas

 본 논문에서는 모델의 성능을 개선하기 위한 접근법에 따라 다양한 방법을 조합하여 최고의 성능을 보이는 YOLO v4를 제안한다.

New Ideas and Modifications

Mosaic

 Mosaic는 본 논문에서 네 개의 학습이미지를 섞는 독자적은 Data augmentation 방법이다. 이미지를 섞음으로써 객체가 인식되는 일반적인 맥락에서 벗어난 관점을 제공한다.

 

SAT(Self-Adverarial Training)

 또 다른 독자적인 Data augmentation 방법으로, forward와 backward 두 번의 stage를 걸쳐 수행되는 Data augmentation 방법이다. 첫 번째 stage에서는 원본 이미지를 변형시켜, 이미지 내에 객체가 없는 것처럼 보이는 adversarial attack을 가한다. 두 번째 stage에서는 변형된 이미지를 사용하여 학습한다.

 

Minor Modifications

  • CmBN은 CBN을 변형시킨 버전으로, Cross mini-Batch Normalization을 의미합니다. 해당 방법은 하나의 batch에서 mini-batch 사이의 batch statistics를 수집한다. 

  • SAM에서 spatial-wise attention을 point-wise attention으로 변형한다
  • PAN에서 shortcut connection을 concatenation으로 대체한다.

Architecture

YOLO v4의 구조와 사용된 다양한 기법은 아래와 같다.

 

 Structure

  • Backbone : CSPDarknet53
  • Neck : SPP, PAN
  • Head : YOLOv3

BoF for backbone

  • CutMix and Mosaic data augmentation 
  • Dropblock regularization 
  • Class label smoothing 

BoS for backbone

  • Mish activation
  • Cross-stage partial connections(CSP)
  • Multi-input weighted residual connections(MiWRC)

BoF for detector

  • CIoU-loss
  • CmBN
  • DropBlock regularization 
  • Mosaic data augmentation
  • Self-Adversarial Training 
  • Eliminate grid sensitivity 
  • Using multiple anchors for a single ground truth 
  • Cosine annealing scheduler 
  • Optimal hyperparameters 
  • Random training shapes 

Bag of Specials(BoS) for detector

  • Mish activation 
  • SPP-block
  • SAM-block
  • PAN path-aggregation block
  • DIoU-NMS

Experiments

  1. Classifier 학습 시 label smoothing, data augmentation이 주는 영향에 대한 실험 
  2. Detector 학습 시 서로 다른 feature의 영향에 대한 실험 
  3. Detector 학습 시 서로 다른 backbone과 pretrained weight의 영향에 대한 실험 
  4. Detector 학습 시 mini-batch 크기에 따른 영향에 대한 실험 

 

 

 이러한 실험들을 근거로 YOLOv4는 다양한 detector들과의 성능을 비교한 결과 Pareto optimality 곡선에 위치한다. 이는 곧 추론 속도가 가장 빠르며 정확도 역시 가장 높음을 의미한다.

 MS COCO 데이터셋에서 43.5%라는 AP 값을 보이며, Tesla V100 GPU에서 65FPS라는 매우 빠른 추론 속도를 보였다.

반응형