cv8 YOLO v1 Main ideas 1) 1-stage detector https://2021-01-06getstarted.tistory.com/74 R-CNN Introduction cv에서의 주요 task에 대한 설명은 다음과 같다. Classification : Single obeject에 대해서 object의 클래스를 분류하는 문제. Classification + Localization : Single object에 대해서 object의 위치를 bounding box 2021-01-06getstarted.tistory.com R-CNN과 달리 YOLO v1은 별도의 region proposals를 사용하지 않고 전체 이미지를 사용한다. 전체 이미지를 SXS 크기의 grid로 나눠준다. 객체의 중심이 특정 grid.. 2024. 1. 5. Faster R-CNN Introduction R-CNN에서는 region proposal, classification, bounding box regression을 따로 수행했고, Fast R-CNN에서는 region proposal을 CNN에 통과시켜 classification, bounding box regression을 통합했다. 그러나 여전히 region proposal에 해당하는 selective search 알고리즘은 CNN 외부에서 연산하여 속도저하를 일으킨다. (Selective search 알고리즘은 CPU 상에서 동작하고 이로 인해 네트워크에서 병목현상이 발생하게 된다.) 따라서 Faster R-CNN에서는 detection에 쓰인 Conv feature를 region proposal network에도 공유.. 2024. 1. 5. R-CNN Introduction cv에서의 주요 task에 대한 설명은 다음과 같다. Classification : Single obeject에 대해서 object의 클래스를 분류하는 문제. Classification + Localization : Single object에 대해서 object의 위치를 bounding box로 찾고 (Localization) + 클래스를 분류하는 문제. (Classification) Object Detection : Multiple objects에서 각각의 object에 대해 Classification + Localization 수행. Instance Segmentation : Object Detection과 유사하지만, 다른점은 object의 위치를 bounding box가 아.. 2024. 1. 5. DenseNet 1. idea 당시 CNN의 연구에서 ResNet이 굉장한 성능을 보여주면서 short connection을 통해 효율적으로 모델을 학습시키는 형식으로 발전하고 있었다. DenseNet은 당시의 관점에 초점을 맞추어 feed forward에서 각 레이어들이 다른 모든 레이어들과 connection을 갖는 구조로 연구되었다. 이름에서 알 수 있듯이 DenseNet은 이전 레이어가 하위의 레이어와만 연결 구조를 갖는 것이 아니라 L(L+1)/2개의 connection을 갖는 Dense한 구조라고 할 수 있다. - DenseNet의 장점 기울기 소실 보완 feature propagation 강화 feature 재사용 권장 파라미터 수 감소 ResNet에 비해 직관적인 information, gradient f.. 2024. 1. 4. SPPNet 1. idea 기존 CNN은 입력 이미지 크기를 고정시켜야했다. 이를 위해 crop, wrap과 같은 방식을 적용하면 다음과 같이 전체 이미지에 대한 정보 손실이 발생한다는 문제점이 생긴다. 이러한 과정은 이미지에 대한 인식 정확도를 떨어뜨릴 수 있다. CNN이 고정된 크기의 입력 이미지를 필요로 하는 이유는 FC layer때문이다. SPPNet에서는 이러한 영향을 받지 않기 위해 Spatial Pyramid Pooling을 사용한다. 이 새로운 네트워크 구조는 이미지의 크기와 스케일에 영향을 받지 않고 고정 길이의 representation을 형성할 수 있다. SPPNet의 아이디어를 한 문장으로 정리하면 다음과 같다. "입력 이미지의 크기에 상관없이 Conv 연산을 진행하고, FC layer의 크기에.. 2024. 1. 4. GoogLeNet 전체구조 GoogleNet은 네트워크를 깊게 디자인하면서도 파라미터 수를 줄이면서 Overfitting을 방지하고자했다. 모델이 deep하더라도 연결이 sparse하다면 파라미터 수가 줄어들어 Overfitting을 방지하고, 연산 자체는 Dense하게 하는 것을 목표로 한다. 1. Inception module Inception module은 1X1, 3X3, 5X5 convolution 연산과 3X3 max pooling을 수행해 feature 효율적으로 추출하고자 한다. 1-1. naive inception 세 개의 convolution 연산을 보면 concat을 위해 feature map 크기를 28X28로 맞추기 위해 패딩값이 설정되어있는 것을 알수 있다. 또한 pooling layer의 경우 .. 2024. 1. 4. ResNet 1. Residual Block ResNet은 논문에서 Residual Block을 제안하였다. layer를 통과했을 때 Input과 output의 변화는 y = f(x)+x와 같은데, y는 x가 그대로 보존됨으로써 기존에 학습한 정보를 보존하고, 거기에 추가적으로 학습하는 정보를 의미하게 된다. 즉, Output에 이전 레이어에서 학습했던 정보를 연결함으로써 해당 층에서는 추가적으로 학습해야 할 정보만을 Mapping, 학습하게 된다. y=H(x)라고 할때, 학습이 진행되어 layer의 depth가 깊어질 수록, 즉 학습이 많이 될수록 x는 점점 출력값 H(x)에 근접하게 되어 추가 학습량 F(x)는 점점 작아져서 최종적으로 0에 근접하는 최소값으로 수렴된다. 따라서, H(x)=F(x)+x에서 추가 학.. 2024. 1. 4. [논문리뷰] EfficientFormer: Vision Transformers at MobileNet Speed 1. Introduction 주요내용 1. ViT가 mobilenet만큼 빨라질 수 있을까? 2. 1번 의문점을 풀기 위해 ViT의 비효율성에 대해 분석 3. 효율적인 dimenstion-conststent한 ViT모델 제안 해당 논문은 FLOPs나 parameter수가 아닌 inference speed에 초점을 맞춤 3. On-device Latency Analysis of Vision Transformers 위 사진은 여러 모델의 latency를 iPhone12에서 측정한 결과이다. 이 실험을 통해 On-device inference speed에 악영향을 주는 요인을 분석했고, 결과는 다음과 같다. observation 1 : 큰 kernerl과 stride를 갖는 patch embedding이 mo.. 2023. 1. 3. 이전 1 다음