Self-attention1 [논문리뷰] Attention is all you need Abstract 기존의 좋은 성능을 내는 모델들은 복잡한 recurrent나 convolutional neural network 구조에 인코더와 디코더로 구성된 모습이었다. 우리는 attention 메커니즘에만 베이스를 둔 Transformer라는 새로운 심플한 네트워크 아키테쳐를 제안한다. 두 개의 기계번역 task에서 이 모델은 더욱 병렬화가 가능하면서 더 적은 학습시간을 가지는 모습을 보여주었다. Introduction RNN모델들은 기계번역이나 시계열 모델링과 같은 부분에서 가장 좋은 성능을 보여왔다. 하지만 이 모델들은 병렬화에 대한 부분을 본질적으로 배제해왔고 이것은 긴 길이의 시퀀스에 치명적이다. attention 메커니즘은 input과 output의 거리에 상관없이 모델링할 수 있어 여러 .. 2022. 2. 15. 이전 1 다음