DL38 ELMo ELMo 컴퓨터는 텍스트 자체보다 숫자를 더 잘 처리하기 때문에 NLP에서 텍스트를 숫자(벡터)로 바꾸는 여러 방법을 사용하는데 이를 Word Embedding이라고 한다. ELMo 등장 이 전에는 word2vec, GloVe와 같은 모델을 사용해 임베딩을 했으나, 이 모델들은 다의어의 모든 의미를 담아 내기 힘들다는 한계점을 가지고 있다. ELMo의 경우 같은 표기의 단어라도 문맥에 따라 단어의 의미를 결정하는 방식의 word embedding을 한다는 아이디어로 시작한다. ELMo는 큰 corpus에 대해 사전 학습된 bidrectional langauge model(bILM)을 사용한다. Bidirectional language models(biLM) input sequence가 N개인 token일.. 2024. 1. 16. YOLO v2 YOLO v2 모델은 다양한 아이디어를 도입해 정확도와 속도 사이의 trade-off 균형을 잘 맞춰 좋은 성능을 보였다. Main ideas Better Batch Normalization 모든 conv layer 뒤에 BN을 추가하여 mAP 값이 2% 정도 향상되었고, 과적합 없이 기타 정규화 방식이나 dropout을 제거할 수 있었습니다. High Resolution Classifier v1 모델은 DarkNet의 입력 이미지 사이즈를 224x224로 사전 학습 시켰지만 detection task에서는 448x448 크기의 입력 이미지를 사용한다. 이는 모델이 object detection task를 학습하면서 동시에 새로운 입력 이미지 해상도에 적응해야 한다는 것이다. v2 모델은 처음부터 448.. 2024. 1. 15. YOLO v1 Main ideas 1) 1-stage detector https://2021-01-06getstarted.tistory.com/74 R-CNN Introduction cv에서의 주요 task에 대한 설명은 다음과 같다. Classification : Single obeject에 대해서 object의 클래스를 분류하는 문제. Classification + Localization : Single object에 대해서 object의 위치를 bounding box 2021-01-06getstarted.tistory.com R-CNN과 달리 YOLO v1은 별도의 region proposals를 사용하지 않고 전체 이미지를 사용한다. 전체 이미지를 SXS 크기의 grid로 나눠준다. 객체의 중심이 특정 grid.. 2024. 1. 5. Faster R-CNN Introduction R-CNN에서는 region proposal, classification, bounding box regression을 따로 수행했고, Fast R-CNN에서는 region proposal을 CNN에 통과시켜 classification, bounding box regression을 통합했다. 그러나 여전히 region proposal에 해당하는 selective search 알고리즘은 CNN 외부에서 연산하여 속도저하를 일으킨다. (Selective search 알고리즘은 CPU 상에서 동작하고 이로 인해 네트워크에서 병목현상이 발생하게 된다.) 따라서 Faster R-CNN에서는 detection에 쓰인 Conv feature를 region proposal network에도 공유.. 2024. 1. 5. Fast R-CNN Introduction 이전의 R-CNN은 다음과 같은 한계점들이 있었다. RoI마다 CNN연산을 수행해 속도가 느림 Multi-stage pipelines로 모델을 한 번에 학습시키지 못함 위와 같은 문제점들을 Fast R-CNN에서는 다음과 같이 극복한다. RoI Pooling CNN feature 추출부터 classification, bounding box regression까지 한 번에 학습 R-CNN이 나온 이후 이를 개선한 SPPNet이 나왔는데, Fast R-CNN은 SPPNet의 SPP layer를 사용하면서 이를 더 개선한 모델이라고 할 수 있다. Fast R-CNN Process Selective Search를 통해 RoI를 찾는다. 전체 이미지를 CNN에 통과시켜 feature map.. 2024. 1. 5. R-CNN Introduction cv에서의 주요 task에 대한 설명은 다음과 같다. Classification : Single obeject에 대해서 object의 클래스를 분류하는 문제. Classification + Localization : Single object에 대해서 object의 위치를 bounding box로 찾고 (Localization) + 클래스를 분류하는 문제. (Classification) Object Detection : Multiple objects에서 각각의 object에 대해 Classification + Localization 수행. Instance Segmentation : Object Detection과 유사하지만, 다른점은 object의 위치를 bounding box가 아.. 2024. 1. 5. DenseNet 1. idea 당시 CNN의 연구에서 ResNet이 굉장한 성능을 보여주면서 short connection을 통해 효율적으로 모델을 학습시키는 형식으로 발전하고 있었다. DenseNet은 당시의 관점에 초점을 맞추어 feed forward에서 각 레이어들이 다른 모든 레이어들과 connection을 갖는 구조로 연구되었다. 이름에서 알 수 있듯이 DenseNet은 이전 레이어가 하위의 레이어와만 연결 구조를 갖는 것이 아니라 L(L+1)/2개의 connection을 갖는 Dense한 구조라고 할 수 있다. - DenseNet의 장점 기울기 소실 보완 feature propagation 강화 feature 재사용 권장 파라미터 수 감소 ResNet에 비해 직관적인 information, gradient f.. 2024. 1. 4. SPPNet 1. idea 기존 CNN은 입력 이미지 크기를 고정시켜야했다. 이를 위해 crop, wrap과 같은 방식을 적용하면 다음과 같이 전체 이미지에 대한 정보 손실이 발생한다는 문제점이 생긴다. 이러한 과정은 이미지에 대한 인식 정확도를 떨어뜨릴 수 있다. CNN이 고정된 크기의 입력 이미지를 필요로 하는 이유는 FC layer때문이다. SPPNet에서는 이러한 영향을 받지 않기 위해 Spatial Pyramid Pooling을 사용한다. 이 새로운 네트워크 구조는 이미지의 크기와 스케일에 영향을 받지 않고 고정 길이의 representation을 형성할 수 있다. SPPNet의 아이디어를 한 문장으로 정리하면 다음과 같다. "입력 이미지의 크기에 상관없이 Conv 연산을 진행하고, FC layer의 크기에.. 2024. 1. 4. GoogLeNet 전체구조 GoogleNet은 네트워크를 깊게 디자인하면서도 파라미터 수를 줄이면서 Overfitting을 방지하고자했다. 모델이 deep하더라도 연결이 sparse하다면 파라미터 수가 줄어들어 Overfitting을 방지하고, 연산 자체는 Dense하게 하는 것을 목표로 한다. 1. Inception module Inception module은 1X1, 3X3, 5X5 convolution 연산과 3X3 max pooling을 수행해 feature 효율적으로 추출하고자 한다. 1-1. naive inception 세 개의 convolution 연산을 보면 concat을 위해 feature map 크기를 28X28로 맞추기 위해 패딩값이 설정되어있는 것을 알수 있다. 또한 pooling layer의 경우 .. 2024. 1. 4. 이전 1 2 3 4 5 다음