attention3 [논문리뷰] Attention is all you need Abstract 기존의 좋은 성능을 내는 모델들은 복잡한 recurrent나 convolutional neural network 구조에 인코더와 디코더로 구성된 모습이었다. 우리는 attention 메커니즘에만 베이스를 둔 Transformer라는 새로운 심플한 네트워크 아키테쳐를 제안한다. 두 개의 기계번역 task에서 이 모델은 더욱 병렬화가 가능하면서 더 적은 학습시간을 가지는 모습을 보여주었다. Introduction RNN모델들은 기계번역이나 시계열 모델링과 같은 부분에서 가장 좋은 성능을 보여왔다. 하지만 이 모델들은 병렬화에 대한 부분을 본질적으로 배제해왔고 이것은 긴 길이의 시퀀스에 치명적이다. attention 메커니즘은 input과 output의 거리에 상관없이 모델링할 수 있어 여러 .. 2022. 2. 15. [논문리뷰] NEURAL MACHINE TRANSLATIONBY JOINTLY LEARNING TO ALIGN AND TRANSLATE Abstract 기계번역에서 이전의 통계기반 모델과 달리 neural machine 번역은 번역 성능을 최대화 시킬 수 있는 single neural network를 만드는데 초점을 둔다. 이 최근 neural machine들은 encoder-decoder 구조로 source sentence(input)를 고정 길이 벡터로 변환한다. 이 논문에서 고정길이 벡터가 기본적인 encoder-decoder 구조의 아키테쳐의 성능향상을 방해한다고 가정했다. 그리고 target과 관련있는 source sentence의 부분을 자동적으로 찾아내게하는 모델을 제시한다. Introduction 기존의 encoder-decoder방식의 문제점은 고정길이 벡터에 source sentence의 모든 정보를 담아야하는 것이고,.. 2022. 2. 9. [Deeplearning Part.8-5] 어텐션 seq2seq의 문제점 seq2seq의 Encoder의 출력을 Decoder로 보낼 때 이 출력은 "고정 길이의 벡터"였습니다. 이 고정 길이의 벡터에 문제가 있습니다. Encoder에 입력된 데이터의 길이에 상관없이 항상 같은 길이의 벡터로 변환하기 때문입니다. 이제 이 seq2seq의 문제점들을 하나씩 개선시키며 어텐션 구조를 완성시켜보겠습니다. Encoder 개선 앞에서 얘기했던 문제를 개선하기 위해 입력 데이터의 길이에 따라 Encoder의 출력의 길이를 바꿔줍니다. hs에는 입력 문장(데이터)의 길이 만큼의 벡터들이 담기게 되었습니다. hs의 각 행벡터에는 해당 층에 입력된 데이터의 정보가 담겨있다고 볼 수 있습니다. Decoder 개선 1. 맥락 벡터 Encoder의 출력이 더 이상 고정 길이.. 2022. 1. 27. 이전 1 다음