DL/basic9 GPT-1 labeled data 기반의 supervised learning은 딥러닝 모델의 적용을 어렵게 하는 요인 중 하나이다. 이 경우 labeled data를 더 확보한는 것이 해결방안 중 하나이지만, 효율적이지 않다. 이러한 경우 unlabeled data로부터 정보를 추출할 수 있는 semi-supervised, unsupervised 모델은 더 많은 가치를 창출할 수 있다. 또 경우에 따라서 충분한 labeled data가 있음에도 unlabeled data로부터 좋은 representation을 학습하는 것이 더 큰 성능 향상을 불러오기도 한다. 이러한 지도학습의 데이터 부족 문제는 NLP에서 똑같이 적용되는데 이 때 Word 수준 이상의 unlabeled text data를 학습하는 것은 다음과 같.. 2024. 1. 16. ELMo ELMo 컴퓨터는 텍스트 자체보다 숫자를 더 잘 처리하기 때문에 NLP에서 텍스트를 숫자(벡터)로 바꾸는 여러 방법을 사용하는데 이를 Word Embedding이라고 한다. ELMo 등장 이 전에는 word2vec, GloVe와 같은 모델을 사용해 임베딩을 했으나, 이 모델들은 다의어의 모든 의미를 담아 내기 힘들다는 한계점을 가지고 있다. ELMo의 경우 같은 표기의 단어라도 문맥에 따라 단어의 의미를 결정하는 방식의 word embedding을 한다는 아이디어로 시작한다. ELMo는 큰 corpus에 대해 사전 학습된 bidrectional langauge model(bILM)을 사용한다. Bidirectional language models(biLM) input sequence가 N개인 token일.. 2024. 1. 16. DenseNet 1. idea 당시 CNN의 연구에서 ResNet이 굉장한 성능을 보여주면서 short connection을 통해 효율적으로 모델을 학습시키는 형식으로 발전하고 있었다. DenseNet은 당시의 관점에 초점을 맞추어 feed forward에서 각 레이어들이 다른 모든 레이어들과 connection을 갖는 구조로 연구되었다. 이름에서 알 수 있듯이 DenseNet은 이전 레이어가 하위의 레이어와만 연결 구조를 갖는 것이 아니라 L(L+1)/2개의 connection을 갖는 Dense한 구조라고 할 수 있다. - DenseNet의 장점 기울기 소실 보완 feature propagation 강화 feature 재사용 권장 파라미터 수 감소 ResNet에 비해 직관적인 information, gradient f.. 2024. 1. 4. SPPNet 1. idea 기존 CNN은 입력 이미지 크기를 고정시켜야했다. 이를 위해 crop, wrap과 같은 방식을 적용하면 다음과 같이 전체 이미지에 대한 정보 손실이 발생한다는 문제점이 생긴다. 이러한 과정은 이미지에 대한 인식 정확도를 떨어뜨릴 수 있다. CNN이 고정된 크기의 입력 이미지를 필요로 하는 이유는 FC layer때문이다. SPPNet에서는 이러한 영향을 받지 않기 위해 Spatial Pyramid Pooling을 사용한다. 이 새로운 네트워크 구조는 이미지의 크기와 스케일에 영향을 받지 않고 고정 길이의 representation을 형성할 수 있다. SPPNet의 아이디어를 한 문장으로 정리하면 다음과 같다. "입력 이미지의 크기에 상관없이 Conv 연산을 진행하고, FC layer의 크기에.. 2024. 1. 4. GoogLeNet 전체구조 GoogleNet은 네트워크를 깊게 디자인하면서도 파라미터 수를 줄이면서 Overfitting을 방지하고자했다. 모델이 deep하더라도 연결이 sparse하다면 파라미터 수가 줄어들어 Overfitting을 방지하고, 연산 자체는 Dense하게 하는 것을 목표로 한다. 1. Inception module Inception module은 1X1, 3X3, 5X5 convolution 연산과 3X3 max pooling을 수행해 feature 효율적으로 추출하고자 한다. 1-1. naive inception 세 개의 convolution 연산을 보면 concat을 위해 feature map 크기를 28X28로 맞추기 위해 패딩값이 설정되어있는 것을 알수 있다. 또한 pooling layer의 경우 .. 2024. 1. 4. ResNet 1. Residual Block ResNet은 논문에서 Residual Block을 제안하였다. layer를 통과했을 때 Input과 output의 변화는 y = f(x)+x와 같은데, y는 x가 그대로 보존됨으로써 기존에 학습한 정보를 보존하고, 거기에 추가적으로 학습하는 정보를 의미하게 된다. 즉, Output에 이전 레이어에서 학습했던 정보를 연결함으로써 해당 층에서는 추가적으로 학습해야 할 정보만을 Mapping, 학습하게 된다. y=H(x)라고 할때, 학습이 진행되어 layer의 depth가 깊어질 수록, 즉 학습이 많이 될수록 x는 점점 출력값 H(x)에 근접하게 되어 추가 학습량 F(x)는 점점 작아져서 최종적으로 0에 근접하는 최소값으로 수렴된다. 따라서, H(x)=F(x)+x에서 추가 학.. 2024. 1. 4. [논문리뷰] BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding 이 논문을 읽기 전에 알면 좋겠다고 생각한 것(내가 몰랐던 것) 1. pre-trained language representation을 적용하는 두가지 전략 1) feature-based : 임베딩은 그대로 두고 그 위에 레이어만 학습 하는 방법 2) fine-tuning : 임베딩까지 모두 업데이트하는 기법 2. downstream Task -> 원래 목적으로 만들어진 모델을 fine-tuning할 때 쓰이는 task pre-trained 모델(상류) ------특정 task에 fine-tuning중----> 하류 -> 이때 특정 task가 downstream Task 3. ablation study -> 머신러닝, 딥러닝 논문에 나오는 단어인데 ablation은 절제라는 뜻으로 완성된 모델에서 ai시.. 2022. 2. 16. [논문리뷰] Attention is all you need Abstract 기존의 좋은 성능을 내는 모델들은 복잡한 recurrent나 convolutional neural network 구조에 인코더와 디코더로 구성된 모습이었다. 우리는 attention 메커니즘에만 베이스를 둔 Transformer라는 새로운 심플한 네트워크 아키테쳐를 제안한다. 두 개의 기계번역 task에서 이 모델은 더욱 병렬화가 가능하면서 더 적은 학습시간을 가지는 모습을 보여주었다. Introduction RNN모델들은 기계번역이나 시계열 모델링과 같은 부분에서 가장 좋은 성능을 보여왔다. 하지만 이 모델들은 병렬화에 대한 부분을 본질적으로 배제해왔고 이것은 긴 길이의 시퀀스에 치명적이다. attention 메커니즘은 input과 output의 거리에 상관없이 모델링할 수 있어 여러 .. 2022. 2. 15. [논문리뷰]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks 이 논문을 읽기 전에 알면 좋겠다고 생각한 것(내가 몰랐던 것) 1) NAS : Neural architecture search, 예를 들어 CNN모델의 경우 task와 데이터셋에 따라 최적의 모델 구조가 달라지는데, 이를 자동으로 task에 가장 최적인 네트워크 구조를 편리하고 빠르게 탐색하는 방법론을 연구하는 분야 2) FLOPS : floating point operations per second ->초당 부동소수점연산(횟수) (모델의 효율성을 측정하는 용도인 듯) Abstract 지금의 CNN모델들은 자원(대표적으로 GPU성능인듯)이 허락하는 내에서 연산량을 키워왔다. 이 논문에서 심플하지만 효율적인 복합계수(compound coefficient)를 사용해 모델의 깊이/너비/해상도를 스케일링하는 .. 2022. 1. 23. 이전 1 다음