Attention Is All You Need 논문 출처 글 작성에 앞서 : 본 게시글은 개인 학습을 위한 것이므로 모델의 Architecuture에 관해 중점적으로 다루며, 모델의 학습 방법이나 성능에 대해서는 정리하지 않습니다. Model Architecture Encoder Encoder는 6개의 동일한 Layer의 stack으로 구성된다. 또한, 각 레이어는 (1) multi-head self-attention layer, (2) position-wise fully connected feed-forward layer 두 개의 sub-layer로 구성된다. 두 개의 sub-layer는 layer normalization을 거쳐 residual connection된다. 즉, 각 sublayer의 출력..