ALL100 diffusion model quick search 생성 모델(Generative Models) 1. GAN : 묵시적으로 확률 분포 모델링 -> 모델 구성에 제한이 없어 결과물 quality up. 하지만 생성자+판별자와 모드 붕괴 등의 한계점이 존재 2. VAE : 오토 인코더의 파생형으로, 명시적으로 확률분포 모델링. 하지만 가능도가 아닌 ELBO를 통한 학습이라는 한계 3. Flow based : 단순 확률 분포에서 추출한 값에 여러 단계의 변환을 거쳐 복잡한 분포를 만드는 방법. 명시적인 가능도로 모델링한다는 장점과 결과물 quailty가 좋지만 변환 함수의 역함수가 존재해야한다는 제한이 있음. diffusion model - 기존 생성 모델들(GAN, VAE 등)은 latent space를 잘 형성하고, 각 값들을 정규 분포로 잘 만드는 방법을.. 2023. 3. 24. [논문리뷰] TSM: Temporal Shift Module for Efficient Video Understanding Abstract Video understanding task에서 높은 정확도와 낮은 계산량은 도전과제로 키워지고있다. 2D CNN은 계산량이 적지만 temporal information을 활용하지 못한다는 단점이 있고, 3D CNN은 계산량이 많다는 단점이 있다. 이 논문에서 우리는 높은 효율성과 성능을 낼 수 있는 Temporal Shift Module을 제안한다. 이 모델은 2D CNN에 삽입되어 계산량과 파라미터 없이 temporal modeling이 가능하게 하여 2D 모델의 계산량과 3D 모델의 성능을 낼 수 있게 한다. Introduction 본 논문의 기여는 다음 네 가지로 요약된다. 1. 추가적인 계산량없이 시공간적 모델링이 가능하게 하는 temporal-shift라는 새로운 관점을 제시한.. 2023. 1. 22. [논문리뷰] EfficientFormer: Vision Transformers at MobileNet Speed 1. Introduction 주요내용 1. ViT가 mobilenet만큼 빨라질 수 있을까? 2. 1번 의문점을 풀기 위해 ViT의 비효율성에 대해 분석 3. 효율적인 dimenstion-conststent한 ViT모델 제안 해당 논문은 FLOPs나 parameter수가 아닌 inference speed에 초점을 맞춤 3. On-device Latency Analysis of Vision Transformers 위 사진은 여러 모델의 latency를 iPhone12에서 측정한 결과이다. 이 실험을 통해 On-device inference speed에 악영향을 주는 요인을 분석했고, 결과는 다음과 같다. observation 1 : 큰 kernerl과 stride를 갖는 patch embedding이 mo.. 2023. 1. 3. [논문리뷰] GolfDB: A Video Database for Golf Swing Sequencing Abstract 골프 스윙은 몸 전체를 능숙하 움직여야 하는 복잡한 움직임이다. 따라서 생물역학적 주제가 되기도 한다. 이 논문에서 우리는 골프 스윙의 주요 이벤트를 감지하고 골프 스윙 분석을 용이하게 하기 위한 골프 스윙 시퀀싱의 개념을 소개한다. 골프 스윙 시퀀스의 알관된 평가를 위해, 우리는 벤치마킹 데이터셋으로 GolfDB도 제안한다. 더욱이 레퍼런스 베이스라인처럼 골프 스윙 시퀀싱 성능을 평가하기 위해, 우리는 경량화된 딥러닝 모델인 SwingNet을 제안한다. 이것은 8개의 골프 스윙 이벤트를 평균 76.1%로 정확하게 감지하고 8개의 이벤트 중 6개를 91.8%로 정확하게 감지한다. 1. Introduction 1.1. Introduction 1. 골프는 여러 나라에서 많이 치고 배우는데 오.. 2022. 12. 28. [ML] SVM SVM (support vector machine) -> 매우 강력하고 선형이나 비선형 분류, 회귀, 이상치 탐색에도 사용할 수 있는 다목적 머신러닝 모델 -> 특히 복잡한 분류 문제에 잘 들어맞으며 작거나 중간 크기의 데이터셋에 적합함 1. 선형 SVM 분류 왼쪽 그래프의 실선같은 경우 학습 데이터에 대해 잘 분류하고 있으나, 경계가 너무 가까워 새로운 샘플에 대해 잘 작동하지 못할 수 있음 오른쪽 그래프의 실선은 제일 가까운 훈련샘플로부터 가장 멀리 떨어져 있음 -> large margin classification 도로 경계에 위치한 샘플(오른쪽 그래프의 동그라미로 표시된 샘플)에 의해 결정됨 -> 이러한 샘플을 support vector라고 부름 ** SVM은 특징(feature)들에 스케일에 민.. 2022. 8. 1. [논문리뷰] Zero-Shot Text-to-Image Generation [DALL-e] 들어가기 전 제로샷 : 학습 데이터가 아예 없어도 유연한 패턴인식을 할 수 있는 걸 의미한다. 제로샷 학습은 Transfer Learning에서 발전했음. MS-COCO : Microsoft사에서 만든 4세 아이가 쉽게 인식할 수 있는 91개 개체 유형의 사진이 포함된 총 250만개 레이블로 표시된 인스턴스 데이터셋으로 91개의 클래스와 328,000장의 이미지가 포함되어 있고 object 수는 2,500,000여 개 CUB-200 : 북미 새 200종 11,788개의 이미지를 포함하는 데이터셋으로 각 이미지에 대한 5개의 fine-grained 설명을 포함 fine-grained : 세밀한 class들을 분류하는 것 Reparametrization : VAE에서 encdoer의 출력값 mu&sigma.. 2022. 7. 30. 규제가 있는 선형 모델 1. 릿지 회귀 -> 학습 알고리즘을 데이터에 맞추면서 모델의 가중치가 가능한 작게 유지하려고 함 -> 규제항은 훈련하는 동안에만 비용 함수에 추가되고, 모델의 성능은 규제가 없는 성능 지표로 평가함 -> a는 모델을 얼마나 많이 규제할지 조절하는데, 0이면 선형회귀와 같아짐 2. 라쏘 회귀 -> 덜 중요한 특성의 가중치를 제거하려고 하는 경향 (가중치를 0으로 만듬) -> 자동으로 특성을 선택하여 sparse model을 만듬 (0이 아닌 특성의 가중치가 적음) 3. 엘라스틱넷 (라쏘 + 릿지 = 쏘릿) -> r을 통해 라쏘와 릿지 회귀의 혼합 비율을 조절함 1) 일반적으로 규제가 약간있는 것이 대부분의 경우에 좋아 평범한 선형 회귀는 피하는 것이 좋음 2) 기본적으로? -> 릿지 3) 특성이 몇 개뿐.. 2022. 7. 28. [논문리뷰] BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding 이 논문을 읽기 전에 알면 좋겠다고 생각한 것(내가 몰랐던 것) 1. pre-trained language representation을 적용하는 두가지 전략 1) feature-based : 임베딩은 그대로 두고 그 위에 레이어만 학습 하는 방법 2) fine-tuning : 임베딩까지 모두 업데이트하는 기법 2. downstream Task -> 원래 목적으로 만들어진 모델을 fine-tuning할 때 쓰이는 task pre-trained 모델(상류) ------특정 task에 fine-tuning중----> 하류 -> 이때 특정 task가 downstream Task 3. ablation study -> 머신러닝, 딥러닝 논문에 나오는 단어인데 ablation은 절제라는 뜻으로 완성된 모델에서 ai시.. 2022. 2. 16. [논문리뷰] Attention is all you need Abstract 기존의 좋은 성능을 내는 모델들은 복잡한 recurrent나 convolutional neural network 구조에 인코더와 디코더로 구성된 모습이었다. 우리는 attention 메커니즘에만 베이스를 둔 Transformer라는 새로운 심플한 네트워크 아키테쳐를 제안한다. 두 개의 기계번역 task에서 이 모델은 더욱 병렬화가 가능하면서 더 적은 학습시간을 가지는 모습을 보여주었다. Introduction RNN모델들은 기계번역이나 시계열 모델링과 같은 부분에서 가장 좋은 성능을 보여왔다. 하지만 이 모델들은 병렬화에 대한 부분을 본질적으로 배제해왔고 이것은 긴 길이의 시퀀스에 치명적이다. attention 메커니즘은 input과 output의 거리에 상관없이 모델링할 수 있어 여러 .. 2022. 2. 15. 이전 1 ··· 4 5 6 7 8 9 10 ··· 12 다음