기존 RNN seq-to-seq 모델의 단점

Seq2seq 모델은 단어를 순차적으로 처리하는 encoder와 decoder 두 부분으로 나누어진 network 입니다. 아래 그림과 같은 기계번역 task를 예시로 들어보겠습니다. Input sentence는 ‘we are eating bread’이고, output sentence는 ‘estamos comiendo pan’ 입니다.

Untitled

구조를 간단히 정리해 보면,

Input sentence의 각각의 단어들은 embedding되어 $x_i$로 변환되고, hidden layer $h_i$는 $h_{i}=f(x_i, h_{i-1})$ ($f$: 임의의 layer) 의 식을 통해 얻어집니다. (RNN)
문장 전체를 대표하는 context vector $c$와 문장 번역의 첫 feature vector인 initial decoder state $s_0$를, 마지막 hidden layer $h_4$를 이용해 얻어냅니다.
이 두 vector $c,s$는 $s_i = g(y_{i-1},s_{i-1},c)$ ($g$: 임의의 layer) 의 식을 통해 예측 문장의 decoder state $s_i$를 얻어내고 이를 바탕으로 예측 단어 $y_i$를 도출합니다.

이 네트워크의 특징은 feature vector를 얻는 과정이 순차적으로 진행된다는 것입니다.

언뜻 보기에는 잘 만들어진 것 같아 보입니다. 하지만 만약 input으로 아주 긴 문장이 들어온다면 어떨까요?

이 때의 문제점은 input sentence 전체를 표현하는 context vector $c$가 문장의 길이에 무관한 fix-sized vector라는 것입니다. Sentence가 길어질수록 한정된 개수의 element로는 문장을 표현할 수 있는 능력을 점점 잃게 되는 것이죠.

이건 꽤나 중요한 문제인데, 이유는 이 context vector $c$는 모든 번역 단어를 예측하는 데 사용되기 때문입니다. 따라서 Input sentence가 길어질수록 번역 성능이 떨어지게 될 것입니다.

RNN Seq-to-seq 모델의 attention 개념 도입

사람들은 이 문제를 해결하기 위해 우선 각 단어를 예측할 때, 예측할 단어마다 다른 context vector를 사용하여 한정된 길이를 갖는 context vector의 부담을 줄이기로 했습니다.