본문 바로가기

DeepLearning29

YOLO v1 Main ideas 1) 1-stage detector https://2021-01-06getstarted.tistory.com/74 R-CNN Introduction cv에서의 주요 task에 대한 설명은 다음과 같다. Classification : Single obeject에 대해서 object의 클래스를 분류하는 문제. Classification + Localization : Single object에 대해서 object의 위치를 bounding box 2021-01-06getstarted.tistory.com R-CNN과 달리 YOLO v1은 별도의 region proposals를 사용하지 않고 전체 이미지를 사용한다. 전체 이미지를 SXS 크기의 grid로 나눠준다. 객체의 중심이 특정 grid.. 2024. 1. 5.
Faster R-CNN Introduction R-CNN에서는 region proposal, classification, bounding box regression을 따로 수행했고, Fast R-CNN에서는 region proposal을 CNN에 통과시켜 classification, bounding box regression을 통합했다. 그러나 여전히 region proposal에 해당하는 selective search 알고리즘은 CNN 외부에서 연산하여 속도저하를 일으킨다. (Selective search 알고리즘은 CPU 상에서 동작하고 이로 인해 네트워크에서 병목현상이 발생하게 된다.) 따라서 Faster R-CNN에서는 detection에 쓰인 Conv feature를 region proposal network에도 공유.. 2024. 1. 5.
R-CNN Introduction cv에서의 주요 task에 대한 설명은 다음과 같다. Classification : Single obeject에 대해서 object의 클래스를 분류하는 문제. Classification + Localization : Single object에 대해서 object의 위치를 bounding box로 찾고 (Localization) + 클래스를 분류하는 문제. (Classification) Object Detection : Multiple objects에서 각각의 object에 대해 Classification + Localization 수행. Instance Segmentation : Object Detection과 유사하지만, 다른점은 object의 위치를 bounding box가 아.. 2024. 1. 5.
DenseNet 1. idea 당시 CNN의 연구에서 ResNet이 굉장한 성능을 보여주면서 short connection을 통해 효율적으로 모델을 학습시키는 형식으로 발전하고 있었다. DenseNet은 당시의 관점에 초점을 맞추어 feed forward에서 각 레이어들이 다른 모든 레이어들과 connection을 갖는 구조로 연구되었다. 이름에서 알 수 있듯이 DenseNet은 이전 레이어가 하위의 레이어와만 연결 구조를 갖는 것이 아니라 L(L+1)/2개의 connection을 갖는 Dense한 구조라고 할 수 있다. - DenseNet의 장점 기울기 소실 보완 feature propagation 강화 feature 재사용 권장 파라미터 수 감소 ResNet에 비해 직관적인 information, gradient f.. 2024. 1. 4.
SPPNet 1. idea 기존 CNN은 입력 이미지 크기를 고정시켜야했다. 이를 위해 crop, wrap과 같은 방식을 적용하면 다음과 같이 전체 이미지에 대한 정보 손실이 발생한다는 문제점이 생긴다. 이러한 과정은 이미지에 대한 인식 정확도를 떨어뜨릴 수 있다. CNN이 고정된 크기의 입력 이미지를 필요로 하는 이유는 FC layer때문이다. SPPNet에서는 이러한 영향을 받지 않기 위해 Spatial Pyramid Pooling을 사용한다. 이 새로운 네트워크 구조는 이미지의 크기와 스케일에 영향을 받지 않고 고정 길이의 representation을 형성할 수 있다. SPPNet의 아이디어를 한 문장으로 정리하면 다음과 같다. "입력 이미지의 크기에 상관없이 Conv 연산을 진행하고, FC layer의 크기에.. 2024. 1. 4.
GoogLeNet 전체구조 GoogleNet은 네트워크를 깊게 디자인하면서도 파라미터 수를 줄이면서 Overfitting을 방지하고자했다. 모델이 deep하더라도 연결이 sparse하다면 파라미터 수가 줄어들어 Overfitting을 방지하고, 연산 자체는 Dense하게 하는 것을 목표로 한다. 1. Inception module Inception module은 1X1, 3X3, 5X5 convolution 연산과 3X3 max pooling을 수행해 feature 효율적으로 추출하고자 한다. 1-1. naive inception 세 개의 convolution 연산을 보면 concat을 위해 feature map 크기를 28X28로 맞추기 위해 패딩값이 설정되어있는 것을 알수 있다. 또한 pooling layer의 경우 .. 2024. 1. 4.
ResNet 1. Residual Block ResNet은 논문에서 Residual Block을 제안하였다. layer를 통과했을 때 Input과 output의 변화는 y = f(x)+x와 같은데, y는 x가 그대로 보존됨으로써 기존에 학습한 정보를 보존하고, 거기에 추가적으로 학습하는 정보를 의미하게 된다. 즉, Output에 이전 레이어에서 학습했던 정보를 연결함으로써 해당 층에서는 추가적으로 학습해야 할 정보만을 Mapping, 학습하게 된다. y=H(x)라고 할때, 학습이 진행되어 layer의 depth가 깊어질 수록, 즉 학습이 많이 될수록 x는 점점 출력값 H(x)에 근접하게 되어 추가 학습량 F(x)는 점점 작아져서 최종적으로 0에 근접하는 최소값으로 수렴된다. 따라서, H(x)=F(x)+x에서 추가 학.. 2024. 1. 4.
[논문리뷰] Mask guided Generation Method for Industrial Defect Images with Non-uniform Structures - MDGAN 코드구현 : https://github.com/hits-gold/MDGAN-pytorch 1. Contributions 결함이미지 생성에서 paired trainig input이 부족한 문제를 해결하는 pseudo-normal backgounds를 구성하고, CyclaGAN의 의존성을 피했다. MDGAN을 제안하고, 이것은 normal backgrounds, defect shape, defcet texture를 독립적으로 컨트롤한다. BRM(Background replacement module)는 normal background를 보존하고 binary annotation을 받아들인다. DDM(double discrimination module) 결함 영역과 전체 이미지에 동시에 집중하여 생성 이미지의 퀄.. 2023. 4. 12.
diffusion model quick search 생성 모델(Generative Models) 1. GAN : 묵시적으로 확률 분포 모델링 -> 모델 구성에 제한이 없어 결과물 quality up. 하지만 생성자+판별자와 모드 붕괴 등의 한계점이 존재 2. VAE : 오토 인코더의 파생형으로, 명시적으로 확률분포 모델링. 하지만 가능도가 아닌 ELBO를 통한 학습이라는 한계 3. Flow based : 단순 확률 분포에서 추출한 값에 여러 단계의 변환을 거쳐 복잡한 분포를 만드는 방법. 명시적인 가능도로 모델링한다는 장점과 결과물 quailty가 좋지만 변환 함수의 역함수가 존재해야한다는 제한이 있음. diffusion model - 기존 생성 모델들(GAN, VAE 등)은 latent space를 잘 형성하고, 각 값들을 정규 분포로 잘 만드는 방법을.. 2023. 3. 24.