본문 바로가기

DL/etc7

[논문리뷰] Mask guided Generation Method for Industrial Defect Images with Non-uniform Structures - MDGAN 코드구현 : https://github.com/hits-gold/MDGAN-pytorch 1. Contributions 결함이미지 생성에서 paired trainig input이 부족한 문제를 해결하는 pseudo-normal backgounds를 구성하고, CyclaGAN의 의존성을 피했다. MDGAN을 제안하고, 이것은 normal backgrounds, defect shape, defcet texture를 독립적으로 컨트롤한다. BRM(Background replacement module)는 normal background를 보존하고 binary annotation을 받아들인다. DDM(double discrimination module) 결함 영역과 전체 이미지에 동시에 집중하여 생성 이미지의 퀄.. 2023. 4. 12.
diffusion model quick search 생성 모델(Generative Models) 1. GAN : 묵시적으로 확률 분포 모델링 -> 모델 구성에 제한이 없어 결과물 quality up. 하지만 생성자+판별자와 모드 붕괴 등의 한계점이 존재 2. VAE : 오토 인코더의 파생형으로, 명시적으로 확률분포 모델링. 하지만 가능도가 아닌 ELBO를 통한 학습이라는 한계 3. Flow based : 단순 확률 분포에서 추출한 값에 여러 단계의 변환을 거쳐 복잡한 분포를 만드는 방법. 명시적인 가능도로 모델링한다는 장점과 결과물 quailty가 좋지만 변환 함수의 역함수가 존재해야한다는 제한이 있음. diffusion model - 기존 생성 모델들(GAN, VAE 등)은 latent space를 잘 형성하고, 각 값들을 정규 분포로 잘 만드는 방법을.. 2023. 3. 24.
[논문리뷰] TSM: Temporal Shift Module for Efficient Video Understanding Abstract Video understanding task에서 높은 정확도와 낮은 계산량은 도전과제로 키워지고있다. 2D CNN은 계산량이 적지만 temporal information을 활용하지 못한다는 단점이 있고, 3D CNN은 계산량이 많다는 단점이 있다. 이 논문에서 우리는 높은 효율성과 성능을 낼 수 있는 Temporal Shift Module을 제안한다. 이 모델은 2D CNN에 삽입되어 계산량과 파라미터 없이 temporal modeling이 가능하게 하여 2D 모델의 계산량과 3D 모델의 성능을 낼 수 있게 한다. Introduction 본 논문의 기여는 다음 네 가지로 요약된다. 1. 추가적인 계산량없이 시공간적 모델링이 가능하게 하는 temporal-shift라는 새로운 관점을 제시한.. 2023. 1. 22.
[논문리뷰] EfficientFormer: Vision Transformers at MobileNet Speed 1. Introduction 주요내용 1. ViT가 mobilenet만큼 빨라질 수 있을까? 2. 1번 의문점을 풀기 위해 ViT의 비효율성에 대해 분석 3. 효율적인 dimenstion-conststent한 ViT모델 제안 해당 논문은 FLOPs나 parameter수가 아닌 inference speed에 초점을 맞춤 3. On-device Latency Analysis of Vision Transformers 위 사진은 여러 모델의 latency를 iPhone12에서 측정한 결과이다. 이 실험을 통해 On-device inference speed에 악영향을 주는 요인을 분석했고, 결과는 다음과 같다. observation 1 : 큰 kernerl과 stride를 갖는 patch embedding이 mo.. 2023. 1. 3.
[논문리뷰] GolfDB: A Video Database for Golf Swing Sequencing Abstract 골프 스윙은 몸 전체를 능숙하 움직여야 하는 복잡한 움직임이다. 따라서 생물역학적 주제가 되기도 한다. 이 논문에서 우리는 골프 스윙의 주요 이벤트를 감지하고 골프 스윙 분석을 용이하게 하기 위한 골프 스윙 시퀀싱의 개념을 소개한다. 골프 스윙 시퀀스의 알관된 평가를 위해, 우리는 벤치마킹 데이터셋으로 GolfDB도 제안한다. 더욱이 레퍼런스 베이스라인처럼 골프 스윙 시퀀싱 성능을 평가하기 위해, 우리는 경량화된 딥러닝 모델인 SwingNet을 제안한다. 이것은 8개의 골프 스윙 이벤트를 평균 76.1%로 정확하게 감지하고 8개의 이벤트 중 6개를 91.8%로 정확하게 감지한다. 1. Introduction 1.1. Introduction 1. 골프는 여러 나라에서 많이 치고 배우는데 오.. 2022. 12. 28.
[논문리뷰] Zero-Shot Text-to-Image Generation [DALL-e] 들어가기 전 제로샷 : 학습 데이터가 아예 없어도 유연한 패턴인식을 할 수 있는 걸 의미한다. 제로샷 학습은 Transfer Learning에서 발전했음. MS-COCO : Microsoft사에서 만든 4세 아이가 쉽게 인식할 수 있는 91개 개체 유형의 사진이 포함된 총 250만개 레이블로 표시된 인스턴스 데이터셋으로 91개의 클래스와 328,000장의 이미지가 포함되어 있고 object 수는 2,500,000여 개 CUB-200 : 북미 새 200종 11,788개의 이미지를 포함하는 데이터셋으로 각 이미지에 대한 5개의 fine-grained 설명을 포함 fine-grained : 세밀한 class들을 분류하는 것 Reparametrization : VAE에서 encdoer의 출력값 mu&sigma.. 2022. 7. 30.
[논문리뷰] NEURAL MACHINE TRANSLATIONBY JOINTLY LEARNING TO ALIGN AND TRANSLATE Abstract 기계번역에서 이전의 통계기반 모델과 달리 neural machine 번역은 번역 성능을 최대화 시킬 수 있는 single neural network를 만드는데 초점을 둔다. 이 최근 neural machine들은 encoder-decoder 구조로 source sentence(input)를 고정 길이 벡터로 변환한다. 이 논문에서 고정길이 벡터가 기본적인 encoder-decoder 구조의 아키테쳐의 성능향상을 방해한다고 가정했다. 그리고 target과 관련있는 source sentence의 부분을 자동적으로 찾아내게하는 모델을 제시한다. Introduction 기존의 encoder-decoder방식의 문제점은 고정길이 벡터에 source sentence의 모든 정보를 담아야하는 것이고,.. 2022. 2. 9.