On the Properties of Neural Machine Translation:
Encoder-Decoder Approaches (2014.10.07) - https://arxiv.org/abs/1409.1259
Research direction & Motivation
Main Purpose
Finding properties of Nueral Machine translation:
RNN Encoder-Decoder & grConv
Machine Translation 분야에 있어서 기존에 신경망을 활용한 기법 중 statistical한 방법을 사용하는 SMT라는 system이 존재하는데 논문에서는 이와 비교하여 RNN Encoder-Decoder 모델과 gated recursive convolutional neural network (grConv)를 분석했다. 어떠한 요소가 성능에 양향을 미치는지를 파악하고 신경망 기반의 모델의 장단점을 파악해 SMT system과 신경망을 통합하는 방향을 제시했다. 또한 제시된 두 모델들은 필요로 하는 memory가 이전의 방법들에 비해 매우 낮은편에 속하며 이러한 효율성이 신경망 기반의 기계번역에 있어서 실용적이라고 말하고있다.
Related research
이전에는 statistical bachine translation, 이른바 SMT system이 중심이되어왔다. 하지만 해당 방법은 매우 높은 메모리를 요구하는 단점이 존재했고 이를 신경망을 통해 극복함과 동시에 높은 수준의 성능을 이끌어내고자하는 연구들이 중심이되었다. 예를들면 Bilingual, parallel corpus로 부부터 conditional distribution을 학습하는 모델이 제시된바 있으며 convolutional n-gram model을 사용해 source sentence로부터 고정된 길이의 vector를 추출하는 방법도 제시되었다. RNN계열 모델에서는 LSTM을 이용해 encode하고, 마지막 hidden state에서 LSTM을 이용해 다시 decode를 하는 데에 사용되었으며 이와 유사하게 단순히 RNN만을 이용해 target에 대해 encode, decode system을 구축한 경우 등 매우 다양한 결과들이 존재했다.
해당 논문들의 공통적인 핵심은 Encoder는 가변적인 길이의 input을 입력 받아 고정된 길이의 vector를 출력하고 Decoder는 이에 기반해 가변적인 길이의 새로운 문장을 생성하는, Encoder-Decoder 구조에 뿌리를 두고 있다는 점이다.
Contribution
Experiments setting
실험에서는 두가지 모델을 사용한다. 첫번째는 gated hidden unit을 가진 RNNenc이며 두번째는 gated recursive convolutional neural network(grConv)다. English-to-French translation task를 통해 실험하며 이때 성능지표는 BLEU score를 기반으로 진행했다. 또한 SMT system과 비교할때, news-test2012, news-test2013을 SMT system을 tuning하는데 사용하였으며 test set으로 news-test2014를 선정했다. 이때 사용한 SMT system은 Moses이다.
컴퓨터 연산의 부하를 고려하여 데이터 문장의 최대길이는 30단어로 제한해서 진행했으며 자주 나타나는 상위 30,000단어들을 대상으로 RNNenc과 grConv를 학습했다. 최종적으로는 Beam-search 알고리즘을 적용해 번역을 도출했다.
실험은 Quantitative case와 Qualitive case, 두가지로 나뉜다.
Quantitative Analysis
저자는 신경망 기반 모델의 Quantitative property를 찾아내기 위해 두가지 점에 주목한다. 첫번째로 sentence의 길이에 따른 성능의 변화를 측정했다. 동일한 모델로 full length, 10-20 words에 대해 학습시켰으며 두 결과를 비교했다. 두번째로는 unknown words의 포함여부를 고려했다.
결과에 따르면 단일 모델로써는 Moses가 길이와 unknown words의 포함여부와 상관없이 월등히 높은 성능을 보여준다. 그러나 No UNK인 경우, 즉 unknown words를 포함하지 않은 경우에 모델간의 성능차이가 대폭 줄어든다. 유사하게, 10-20 words를 사용한 경우도 차이가 어느정도 감소한다.
특히 BLEU score 그래프를 보면, 문장의 길이를 증가시킴에 따라 성능의 차이는 더욱 명확해진다. 해당 실험 결과는 신경망 기반의 번역모델이 긴 문장을 처리함에 있어서 한계점을 가지고 있다는 것을 나타낸다. 결국 Encoder-decoder 구조상 고정된 길이의 vector representation으로 인해 긴 문장을 encode할 능력을 충분히 갖지 못하고있다고 볼 수 있다. 따라서 가변적인 문장길이를 encode함에 있어서 encoder의 수용량이 부족해 네트워크가 중요한 요소를 소실한다는 것이다.
Qualitative Analysis
Qualitative property는 번역된 문장의 detail한 요소들로 정의된다. 논문에서는 실제로 번역된 문장들을 의미론적인 관점과 문법적인 관점에서 이를 평가하고자 했다. 여기서도 길이에 따라 30단어 이상의 긴 문장, 10단어 미만의 짧은 문장을 나누었다. BLEU score와 무관하게 위에서와 마찬가지로 해석적인 측면에서 짧은 문장에서는 3가지 모두 좋은 번역을 보였으며, 반대로 긴 문장에서는 신경망 기반 모델의 성능저하가 눈에 띄게 나타났다.
부가적으로 grConv의 번역 문장에 대해 분석했는데, 흥미로운 점은 RNNenc에 비해 낮은 BLEU score에도 불구하고 문법적인 구조들을 자동으로 학습하는 모습을 보였다. 예를들면 "Obama is the President of the United States."라는 문장에서 "of the United States"와 "is the President of"를 우선적으로 결합하고 "Obama is" 와 "."을 합쳐서 문장을 구성했는데 이는 인간의 사고의 직관적인 측면과 부합한다.
결론적으로 본 논문에서는 neural machine translation의 성능을 문장 길이에 따라 큰 차이를 보이며 길이가 긴 문장에 대해 번역에 어려움이 있는 것을 알아냈다. 그러나 질적인면에서 보면 RNNenc, grConv 두 모델 모두 정확한 번역을 이끌어 낼 수 있다. 특히 grConv는 별도의 문장 구조에 대한 지도가 없어도 학습을 통해 input 문장의 문법적 구조를 재현해낸다. 이런 특성들은 기계번역에서의 신경망 기반 모델의 발전 가능성을 보여준다고 볼 수 있다.