亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Seq2Seq的生成式自動(dòng)問(wèn)答系統(tǒng)應(yīng)用與研究

2018-01-25 03:27:59李武波張蕾舒鑫

現(xiàn)代計(jì)算機(jī) 2017年36期

李武波，張蕾，舒鑫

（四川大學(xué)計(jì)算機(jī)學(xué)院，成都 610065）

0 引言

自然語(yǔ)言處理（Natural Language Processing）是人工智能研究的重要應(yīng)用方向。它的研究是使計(jì)算機(jī)理解人類(lèi)的語(yǔ)言。從詞性標(biāo)注、分詞、切詞等基礎(chǔ)的任務(wù)到語(yǔ)言模型[4]、機(jī)器翻譯[5-6]、自動(dòng)問(wèn)答[7-8]和對(duì)話(huà)系統(tǒng)[9]等復(fù)雜任務(wù)，自然語(yǔ)言處理的應(yīng)用場(chǎng)景非常的廣泛。

回復(fù)式網(wǎng)絡(luò)（Recurrent Neural Networks）[3]理論上是一種深度神經(jīng)網(wǎng)絡(luò)。它的特點(diǎn)是能處理任意長(zhǎng)度的輸入和輸出序列，因此回復(fù)式神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用在自然語(yǔ)言處理任務(wù)中。在語(yǔ)言模型任務(wù)中，Bengio通過(guò)回復(fù)式神經(jīng)網(wǎng)絡(luò)建模取得了很好的效果，超過(guò)了傳統(tǒng)的語(yǔ)言模型結(jié)構(gòu)[10]。神經(jīng)機(jī)器翻譯任務(wù)上，首次提出的Seq2Seq模型也是采用了回復(fù)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)建模并且取得了很大的成功[1,5]。可以說(shuō)Seq2Seq結(jié)構(gòu)的提出為序列到序列類(lèi)型任務(wù)的提供了一種新的基礎(chǔ)結(jié)構(gòu)。

自動(dòng)問(wèn)答系統(tǒng)也是一種序列到序列類(lèi)型的自然處理任務(wù)。在本文中，我們主要研究閱讀理解式的自動(dòng)問(wèn)答系統(tǒng)，該系統(tǒng)通過(guò)輸入短文本和問(wèn)題，自動(dòng)的生成問(wèn)題的答案。自動(dòng)問(wèn)答系統(tǒng)的難點(diǎn)在于其中可能包含復(fù)雜的邏輯推理和算術(shù)推理。因此，本文主要的研究?jī)?nèi)容的是Seq2Seq模型在自動(dòng)問(wèn)答系統(tǒng)中的推理部分的性能驗(yàn)證與分析。

1 背景

1.1 自動(dòng)問(wèn)答系統(tǒng)

在早期，自動(dòng)問(wèn)答系統(tǒng)是限制在醫(yī)療，教育等特定領(lǐng)域。特定領(lǐng)域的自動(dòng)問(wèn)答系統(tǒng)叫做封閉式自動(dòng)問(wèn)答系統(tǒng)，這種系統(tǒng)大部分是基于信息檢索和信息提取技術(shù)而成的。但是隨著技術(shù)的發(fā)展，越來(lái)越多的團(tuán)隊(duì)開(kāi)始研究開(kāi)放領(lǐng)域的自動(dòng)問(wèn)答系統(tǒng)（開(kāi)放式自動(dòng)問(wèn)答系統(tǒng)）。開(kāi)放式自動(dòng)問(wèn)答系統(tǒng)比封閉式的自動(dòng)問(wèn)答系統(tǒng)有更加廣泛的應(yīng)用場(chǎng)景并且不限制提問(wèn)內(nèi)容，因此不能簡(jiǎn)單地把信息檢索和提取技術(shù)直接應(yīng)用開(kāi)放式自動(dòng)問(wèn)答系統(tǒng)。

1.2 回復(fù)式神經(jīng)網(wǎng)絡(luò)

在深度學(xué)習(xí)中，回復(fù)式神經(jīng)網(wǎng)絡(luò)是一種常見(jiàn)的網(wǎng)絡(luò)結(jié)構(gòu)。如公式所示，在回復(fù)式神經(jīng)網(wǎng)絡(luò)，每一時(shí)刻的網(wǎng)絡(luò)輸出會(huì)同外部輸入一起再次輸入到網(wǎng)絡(luò)中，其計(jì)算方法如公式（1）所示。因此這樣的網(wǎng)絡(luò)結(jié)構(gòu)非常適合處理序列類(lèi)型的數(shù)據(jù)?；貜?fù)式神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用到了自然語(yǔ)言處理的各個(gè)任務(wù)中，例如神經(jīng)機(jī)器翻譯模型[1]，自動(dòng)問(wèn)答系統(tǒng)模型[8]以及語(yǔ)言模型等[10]。

1.3 門(mén)回復(fù)單元

門(mén)回復(fù)單元（Gate Recurrent Unit，GRU）是一種特殊的回復(fù)式神經(jīng)網(wǎng)絡(luò)，實(shí)驗(yàn)證明門(mén)回復(fù)單元在收斂性上優(yōu)于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（Long Short-Term Memory，LSTM）[11-12]。如圖1所示的是一個(gè)門(mén)回復(fù)單元的基礎(chǔ)結(jié)構(gòu)，它通過(guò)在回復(fù)式神經(jīng)網(wǎng)絡(luò)中添加更新門(mén)和重置門(mén)來(lái)解決回復(fù)式神經(jīng)網(wǎng)絡(luò)的梯度消失問(wèn)題。其中，門(mén)回復(fù)單元再i時(shí)刻的輸出hi，更新門(mén)ui以及重置門(mén)ri計(jì)算公式如公式（2）所示：

圖1 GRU結(jié)構(gòu)圖

其中W，U以及b為可訓(xùn)練的參數(shù)，⊙為矩陣的點(diǎn)乘。

2 模型

Seq2Seq主要思路是先將輸入序列編碼成一個(gè)向量，之后通過(guò)提取向量中的信息解析輸出序列。Seq2Seq結(jié)構(gòu)由編碼器和解碼器組成。其中，編碼器用于編碼輸入序列，而解碼器用于解析輸出序列。本文中的自動(dòng)問(wèn)答系統(tǒng)模型的網(wǎng)絡(luò)結(jié)構(gòu)是基于Seq2Seq的一種基礎(chǔ)結(jié)構(gòu)組成，其結(jié)構(gòu)如圖2所示。

圖2 網(wǎng)絡(luò)模型結(jié)構(gòu)

2.1 編碼模塊

編碼模塊由兩個(gè)編碼器組成，每個(gè)編碼器中包括一個(gè)一層的GRU。在本文的自動(dòng)問(wèn)答系統(tǒng)中，輸入序列是短文本標(biāo) 記為和問(wèn)題標(biāo)記為本文中是采用了預(yù)訓(xùn)的詞向量GloVe[13]，文本中的每一個(gè)詞輸入到GRU前會(huì)轉(zhuǎn)換成詞向量，在另一個(gè)問(wèn)題編碼器編碼問(wèn)題時(shí)也采用了同樣的方法。文本編碼器和問(wèn)題編碼器在t時(shí)刻的輸出分別標(biāo)記為ct和qt，計(jì)算方式如公式（3）和（4）所示：

編碼模塊的最終輸出是文本和問(wèn)題編碼器的最后一個(gè)時(shí)刻的輸出向量：短文表達(dá)c和一個(gè)問(wèn)題表達(dá)q。

2.2 生成模塊

生成模塊由一個(gè)解碼器組成，解碼器包括一個(gè)一層的GRU和一個(gè)Softmax層。解碼器在每一個(gè)時(shí)刻t都輸入問(wèn)題表達(dá)q和短文本表達(dá)c。為了讓輸出的字關(guān)聯(lián)度更強(qiáng)，本文中生成模塊的解碼器每一時(shí)刻還要輸入上一時(shí)刻Softmax層輸出的概率分布y。解碼器中GRU在t時(shí)刻輸出的向量at輸入到一個(gè)Softmax層預(yù)測(cè)t時(shí)刻生成的詞的概率分布yt，其中在時(shí)刻t，輸出的概率分布yt計(jì)算公式如公式（5）所示：

本文采用的誤差函數(shù)是交叉熵，網(wǎng)絡(luò)優(yōu)化目標(biāo)是最小化損失函數(shù)。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集

為了方便分析模型的推理能力，我們選擇了一個(gè)公開(kāi)的自動(dòng)問(wèn)答數(shù)據(jù)集bAbI-10k[2]來(lái)驗(yàn)證基于Seq2Seq的生成式自動(dòng)問(wèn)答系統(tǒng)。值得一提的是在驗(yàn)證過(guò)程中，我們不針對(duì)任務(wù)對(duì)模型進(jìn)行調(diào)整。

本文中采用的數(shù)據(jù)集是Facebook AI Research（FAIR）發(fā)布的一個(gè)公開(kāi)的自動(dòng)問(wèn)答的數(shù)據(jù)bAbI-10k。該數(shù)據(jù)集旨在檢驗(yàn)自動(dòng)問(wèn)答系統(tǒng)在各方面的推理能力。bAbI-10k數(shù)據(jù)集包括20種不同類(lèi)型的推理任務(wù)，每個(gè)任務(wù)包括訓(xùn)練集10k和測(cè)試集1k。我們將訓(xùn)練集隨機(jī)選取10%作為驗(yàn)證集，其余數(shù)據(jù)作為訓(xùn)練集。

3.2 評(píng)價(jià)標(biāo)準(zhǔn)

在自動(dòng)問(wèn)答任務(wù)中，評(píng)價(jià)標(biāo)準(zhǔn)一般是驗(yàn)證生成的答案和標(biāo)準(zhǔn)答案之間的偏差，在bAbI-10k數(shù)據(jù)集中評(píng)價(jià)標(biāo)準(zhǔn)是準(zhǔn)確率，即自動(dòng)問(wèn)答系統(tǒng)生成的答案序列和標(biāo)準(zhǔn)答案序列完全匹配的比率。

3.3 實(shí)驗(yàn)設(shè)計(jì)

本文主要探究Seq2Seq模型在自動(dòng)問(wèn)答系統(tǒng)中推理能力的驗(yàn)證和分析。在網(wǎng)絡(luò)結(jié)構(gòu)上，采用了基礎(chǔ)的seq2seq結(jié)構(gòu)，其中采用了GRU[11]作為編碼和解碼器。網(wǎng)絡(luò)參數(shù)上詞向量的維度大小為50，GRU的隱藏層神經(jīng)元為40，批量訓(xùn)練的樣本數(shù)量為64個(gè)數(shù)據(jù)，學(xué)習(xí)率為0.001，訓(xùn)練過(guò)程中使用反向傳播算法和Adam[14]優(yōu)化算法。所有參數(shù)的初始化采用正態(tài)分布。

3.4 結(jié)果與分析

通過(guò)20組實(shí)驗(yàn)發(fā)現(xiàn)，基于Seq2Seq的生成式自動(dòng)問(wèn)答系統(tǒng)在推理能力上有很大的潛力。如表1所示，在單依據(jù)推理任務(wù)（task 1），兩者關(guān)系推理任務(wù)（task4）等13項(xiàng)任務(wù)上表現(xiàn)出比較強(qiáng)的性能（準(zhǔn)確率超過(guò)90%），其他的推理任務(wù)例如不確定知識(shí)推理（task10），時(shí)間推理（task14）以及基礎(chǔ)演繹（task15）上表現(xiàn)出了一定的潛力。

表2所示展示了本文所提的模型和另一個(gè)結(jié)合詞袋模型（Bag of Words，BoW）和深度學(xué)習(xí)算法的自動(dòng)問(wèn)答模型（Dynamic Memory Networks，DMN）[8]在 bAbI-10k的部分任務(wù)上取得的成果?？梢钥闯鲈谝徊糠治恢藐P(guān)系推理上，本文提出的生成式自動(dòng)問(wèn)答模型的取得的成果更加優(yōu)秀。這表明得益于Seq2Seq的結(jié)構(gòu)，模型順序編碼輸入序列，并且能融合上文知識(shí)學(xué)習(xí)到文本中的相關(guān)的信息，例如位置和關(guān)系等信息，在生成答案的時(shí)候能正確做出推理。

表1 基于Seq2Seq的生成式自動(dòng)問(wèn)答系統(tǒng)在bAbI-10的結(jié)果

表2 DMN和本文提出的模型在bAbI-10k部分任務(wù)上的準(zhǔn)確率對(duì)比結(jié)果

4 結(jié)語(yǔ)

本文基于Seq2Seq設(shè)計(jì)并實(shí)現(xiàn)了一套生成式自動(dòng)問(wèn)答系統(tǒng)，并且通過(guò)公開(kāi)的數(shù)據(jù)集bAbI-10k全面的驗(yàn)證了本文提出的模型的性能。本文分析了基于Seq2Seq在自動(dòng)問(wèn)答系統(tǒng)在推理能力，并且設(shè)計(jì)了對(duì)比實(shí)驗(yàn)證明Seq2Seq模型在推理能力上的優(yōu)勢(shì)。雖然在結(jié)果上并未達(dá)到最好的效果，但是可以看出基于Seq2Seq的生成式自動(dòng)問(wèn)答系統(tǒng)在推理能力上具備巨大的潛力，今后，還需要在這一方向繼續(xù)研究。

[1]Cho,K.,et al.,Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation.Computer Science,2014.

[2]Weston,J.,et al.,Towards AI-Complete Question Answering:A Set of Prerequisite Toy Tasks.Computer Science,2015.

[3]Elman,J.L.,Distributed Representations,Simple Recurrent Networks,and Grammatical Structure.Machine Learning,1991.7（2-3）:195-225.

[4]Sundermeyer,M.,R.Schlüter,and H.Ney.LSTM Neural Networks for Language Modeling.in Interspeech，2012.

[5]Bahdanau,D.,K.Cho,and Y.Bengio,Neural Machine Translation by Jointly Learning to Align and Translate.Computer Science,2014.

[6]Sutskever,I.,O.Vinyals,and Q.V.Le,Sequence to Sequence Learning with Neural Networks.2014.4:3104-3112.

[7]Weston,J.,S.Chopra,and A.Bordes,Memory Networks.Eprint Arxiv,2014.

[8]Kumar,A.,et al.,Ask Me Anything:Dynamic Memory Networks for Natural Language Processing.2015:1378-1387.

[9]Vinyals,O.and Q.Le,A Neural Conversational Model.Computer Science,2015.

[10]Bengio,Y.,et al.,Neural Probabilistic Language Models,in Innovations in Machine Learning:Theory and Applications,D.E.Holmes and L.C.Jain,Editors.2006,Springer Berlin Heidelberg:Berlin,Heidelberg.p.137-186.

[11]Chung,J.,et al.,Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling.Eprint Arxiv,2014.

[12]Cho,K.,et al.,On the Properties of Neural Machine Translation:Encoder-Decoder Approaches.Computer Science,2014.

[13]Pennington,J.,R.Socher,and C.Manning.Glove:Global Vectors for Word Representation.in Conference on Empirical Methods in Natural Language Processing.2014.

[14]Kingma,D.P.and J.Ba,Adam:A Method for Stochastic Optimization.Computer Science,2014.