본문 바로가기

DL38

[논문리뷰] NEURAL MACHINE TRANSLATIONBY JOINTLY LEARNING TO ALIGN AND TRANSLATE Abstract 기계번역에서 이전의 통계기반 모델과 달리 neural machine 번역은 번역 성능을 최대화 시킬 수 있는 single neural network를 만드는데 초점을 둔다. 이 최근 neural machine들은 encoder-decoder 구조로 source sentence(input)를 고정 길이 벡터로 변환한다. 이 논문에서 고정길이 벡터가 기본적인 encoder-decoder 구조의 아키테쳐의 성능향상을 방해한다고 가정했다. 그리고 target과 관련있는 source sentence의 부분을 자동적으로 찾아내게하는 모델을 제시한다. Introduction 기존의 encoder-decoder방식의 문제점은 고정길이 벡터에 source sentence의 모든 정보를 담아야하는 것이고,.. 2022. 2. 9.
[논문리뷰]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks 이 논문을 읽기 전에 알면 좋겠다고 생각한 것(내가 몰랐던 것) 1) NAS : Neural architecture search, 예를 들어 CNN모델의 경우 task와 데이터셋에 따라 최적의 모델 구조가 달라지는데, 이를 자동으로 task에 가장 최적인 네트워크 구조를 편리하고 빠르게 탐색하는 방법론을 연구하는 분야 2) FLOPS : floating point operations per second ->초당 부동소수점연산(횟수) (모델의 효율성을 측정하는 용도인 듯) Abstract 지금의 CNN모델들은 자원(대표적으로 GPU성능인듯)이 허락하는 내에서 연산량을 키워왔다. 이 논문에서 심플하지만 효율적인 복합계수(compound coefficient)를 사용해 모델의 깊이/너비/해상도를 스케일링하는 .. 2022. 1. 23.