亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于動(dòng)態(tài)語(yǔ)義編碼雙向LSTM的中文語(yǔ)義相似度計(jì)算

2020-06-16 11:11:50初雅莉侯秀萍

計(jì)算機(jī)應(yīng)用與軟件 2020年6期

初雅莉鄭虹侯秀萍

(長(zhǎng)春工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院吉林長(zhǎng)春 130000)

0 引言

語(yǔ)義相似度是機(jī)器學(xué)習(xí)中相似性學(xué)習(xí)的一種，也是自然語(yǔ)言處理領(lǐng)域中研究的熱點(diǎn)，在問(wèn)答系統(tǒng)、信息檢索、機(jī)器翻譯和文本分類等若干應(yīng)用程序中影響也日益增加[1]。目前已經(jīng)有許多方法用來(lái)計(jì)算句子的語(yǔ)義相似性，本文將其分為兩類進(jìn)行闡述。

一類是通過(guò)分析句子詞法、語(yǔ)法和句法等多種結(jié)構(gòu)特征，結(jié)合多種距離度量方式獲取句子間的相似性。Wen等[2]對(duì)漢語(yǔ)句子進(jìn)行分詞，得到關(guān)鍵詞和普通詞。在句子中，關(guān)鍵詞的影響要高于普通詞，設(shè)置關(guān)鍵詞的權(quán)重大于普通詞的權(quán)重，通過(guò)對(duì)加權(quán)后的詞進(jìn)行匹配得到漢語(yǔ)句子的詞匯相似性，從而判斷AI聊天機(jī)器人的性能。Gokul等[3]結(jié)合單個(gè)單詞的同義詞、余弦相似度和Jaccard相似性計(jì)算兩句馬拉雅拉姆語(yǔ)的相似性。王智強(qiáng)等[4]提出一種基于篇章框架語(yǔ)義分析的答案句檢索和答案抽取方法。從語(yǔ)義相關(guān)的角度，融合基于知網(wǎng)語(yǔ)義、空間向量模型和詞袋模型計(jì)算句子間的相似度，從而檢索到與問(wèn)題相似的答案句。

另一類是結(jié)合深度學(xué)習(xí)方法進(jìn)行語(yǔ)義相似度計(jì)算。王元龍[5]提出了基于分層組合模式的句子組合模型，通過(guò)訓(xùn)練樹結(jié)構(gòu)的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)組合句子向量，得到句子的分布式向量表示，計(jì)算句子向量間的余弦相似度來(lái)得出句子間的相似性。Afzal等[6]建立了基于語(yǔ)義網(wǎng)模型和基于深度學(xué)習(xí)語(yǔ)義模型。其中，語(yǔ)義網(wǎng)模型用來(lái)比較句子中隱藏的語(yǔ)義含義，根據(jù)語(yǔ)義相似度和兩個(gè)句子中的詞序來(lái)計(jì)算句法相似度；基于深度學(xué)習(xí)語(yǔ)義模型建立在深度結(jié)構(gòu)化語(yǔ)義模型(Deep Structured Semantic Model,DSSM)之上，對(duì)文本片段的語(yǔ)義特征向量使用余弦相似性來(lái)測(cè)量該文本對(duì)之間的語(yǔ)義相似性，將兩個(gè)模型的結(jié)果進(jìn)行線性組合，分配相等的系數(shù)值為0.5，得出最終語(yǔ)義文本的相似度分?jǐn)?shù)。Agirre等[7]提出一種可解釋的語(yǔ)義文本相似度的多任務(wù)深度學(xué)習(xí)方法。Lopez-Gazpio等[8]將循環(huán)神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)應(yīng)用于可解釋的語(yǔ)義文本相似度。Mccrae等[9]提出了一個(gè)使用BiRNN獲取依賴上下文信息的軟對(duì)齊特征和BiLSTM計(jì)算兩個(gè)句子之間語(yǔ)義相似性的多特征系統(tǒng)。Ye等[10]提出基于遞歸神經(jīng)網(wǎng)絡(luò)編碼器-解碼器的架構(gòu)來(lái)測(cè)量句子之間的語(yǔ)義相似性。模型使用單向的循環(huán)神經(jīng)網(wǎng)絡(luò)，沒(méi)有對(duì)語(yǔ)義進(jìn)行充分的獲??；由于循環(huán)神經(jīng)網(wǎng)絡(luò)自身的短時(shí)記憶限制，使得模型對(duì)于長(zhǎng)句子處理的性能較低；在使用傳統(tǒng)編碼器-解碼器模型的固定語(yǔ)義編碼進(jìn)行解碼時(shí)，沒(méi)有考慮到在解碼過(guò)程中句子詞語(yǔ)的差異性。

基于以上幾點(diǎn)，本文對(duì)模型進(jìn)行以下改進(jìn)：

1) 編碼器-解碼器模型不再由RNN神經(jīng)網(wǎng)絡(luò)組成，改為雙向LSTM[11]神經(jīng)網(wǎng)絡(luò)，提取句子的正反兩個(gè)方向的語(yǔ)義特征并進(jìn)行結(jié)合，得到更加全面的句子語(yǔ)義信息。

2) 使用動(dòng)態(tài)語(yǔ)義編碼規(guī)則，調(diào)整語(yǔ)義編碼。解碼器在每個(gè)時(shí)間步運(yùn)行時(shí)，不再接收固定不變的語(yǔ)義編碼值，而是根據(jù)當(dāng)前已獲得信息，“回憶”標(biāo)準(zhǔn)句子中與當(dāng)前要預(yù)測(cè)結(jié)果相關(guān)的信息，增大相似信息的影響。

3) 將動(dòng)態(tài)語(yǔ)義編碼作為L(zhǎng)STM[12]基本單元輸入的一部分，使得相似信息存儲(chǔ)到基本單元中。

1 任務(wù)定義

本文的任務(wù)是對(duì)中文句子對(duì)進(jìn)行語(yǔ)義相似性的計(jì)算。在句子對(duì)中，前一句是句法、語(yǔ)義規(guī)范的標(biāo)準(zhǔn)句子；后一句是類似于人類的口語(yǔ)表達(dá)、句子規(guī)范性較差的自然句子。在進(jìn)行句子語(yǔ)義相似度計(jì)算之前，需要對(duì)中文句子進(jìn)行預(yù)處理。

首先使用“jieba”分詞工具對(duì)句子進(jìn)行分詞。本文使用元組來(lái)表示分詞后的句子，其中一個(gè)元素對(duì)應(yīng)一個(gè)詞語(yǔ)，相同的詞語(yǔ)也使用不同的元素進(jìn)行表示，元素所在元組中的位置即詞語(yǔ)在句子中的位置。

標(biāo)準(zhǔn)句子表示為：

與標(biāo)準(zhǔn)句子進(jìn)行語(yǔ)義相似性計(jì)算的自然句子表示為：

然后，對(duì)分詞后的數(shù)據(jù)進(jìn)行清洗。去停用詞和去標(biāo)點(diǎn)符號(hào)是自然語(yǔ)言處理中最常用的清洗方法，但是對(duì)于復(fù)雜的中文句子，去停用詞和去標(biāo)點(diǎn)符號(hào)并不能完全適用。本文沒(méi)有對(duì)句子進(jìn)行去停用詞的操作，僅去掉在中文句子中語(yǔ)義影響較弱的標(biāo)點(diǎn)符號(hào)和特殊符號(hào)，根據(jù)實(shí)驗(yàn)數(shù)據(jù)集的不同需求，對(duì)數(shù)據(jù)集中的字符進(jìn)行不同形式的數(shù)據(jù)清洗。在漢字?jǐn)?shù)據(jù)集中，保留僅含有漢字和常用標(biāo)點(diǎn)符號(hào)的句子對(duì)；在混合數(shù)據(jù)集中，僅刪除了對(duì)句子語(yǔ)義影響較弱的標(biāo)點(diǎn)符號(hào)和特殊符號(hào)；在原始數(shù)據(jù)集中，為了獲得更貼近生活中的自然表述，對(duì)數(shù)據(jù)沒(méi)有進(jìn)行任何的清洗操作。

最后使用Google開源的Word2vec工具，將最終處理后的詞語(yǔ)映射到高維空間上，得到詞語(yǔ)對(duì)應(yīng)的詞向量。使用Q和A分別表示標(biāo)準(zhǔn)句子、自然句子的向量形式：

Q=(q1,q2,…,qi,…,qn)

A=(a1,a2,…,at,…,am)

式中：qi∈Rwd為標(biāo)準(zhǔn)句子中第i個(gè)詞的向量表示，at∈Rwd為自然句子中第t個(gè)詞的向量表示，wd為詞向量的維度。

2 模型框架

本文模型采用雙向LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，充分提取句子的雙向語(yǔ)義特征，LSTM網(wǎng)絡(luò)雖然比RNN網(wǎng)絡(luò)復(fù)雜，但可以擁有長(zhǎng)時(shí)間記憶，有利于長(zhǎng)句子的處理。編碼器由雙向LSTM網(wǎng)絡(luò)組成，解碼器則由帶有動(dòng)態(tài)語(yǔ)義編碼規(guī)則(dySem)的雙向LSTM組成。模型框架如圖1所示。

圖1 動(dòng)態(tài)語(yǔ)義編碼雙向LSTM語(yǔ)句相似性模型

2.1 雙向LSTM編碼器

編碼器由傳統(tǒng)的雙向LSTM神經(jīng)網(wǎng)絡(luò)組成，用來(lái)生成標(biāo)準(zhǔn)句子的雙向語(yǔ)義編碼。神經(jīng)網(wǎng)絡(luò)在第i個(gè)時(shí)間步的輸入為標(biāo)準(zhǔn)句子Q中第i個(gè)詞向量qi，保存該時(shí)間步雙向LSTM輸出的隱藏狀態(tài)Hi。

Hi=hi+gn-ihi,gn-i∈R1×hd

(1)

式中：hd為隱藏層單元個(gè)數(shù)，hi和gn-i分別表示在i時(shí)間步前向LSTM和后向LSTM輸出的隱藏狀態(tài)值。當(dāng)i=n時(shí)，hn表示句子的正向語(yǔ)義編碼，gn表示句子的反向語(yǔ)義編碼，則標(biāo)準(zhǔn)句子的雙向語(yǔ)義編碼為：

SQ=hn+gn

(2)

2.2 帶有動(dòng)態(tài)語(yǔ)義編碼的雙向LSTM解碼器

本文根據(jù)解碼器前一個(gè)時(shí)間步的隱藏輸出狀態(tài)的不同，“回憶”編碼器中相似的信息并對(duì)語(yǔ)義編碼進(jìn)行動(dòng)態(tài)調(diào)整。將調(diào)整后的語(yǔ)義編碼S作為L(zhǎng)STM基本單元中的一部分，語(yǔ)義編碼S不參與輸入門的信息存儲(chǔ)，但在輸出時(shí)同樣會(huì)遺忘掉一些相似信息，所以語(yǔ)義編碼S位于LSTM基本單元中輸入門和輸出門之間。改進(jìn)后的LSTM基本單元在t時(shí)間步的結(jié)構(gòu)表示如圖2所示。

圖2 改進(jìn)后的LSTM基本單元在t時(shí)間步結(jié)構(gòu)表示

(3)

(4)

(5)

(6)

(7)

(8)

2.3 動(dòng)態(tài)語(yǔ)義編碼規(guī)則

動(dòng)態(tài)語(yǔ)義編碼S依據(jù)動(dòng)態(tài)語(yǔ)義編碼規(guī)則進(jìn)行動(dòng)態(tài)調(diào)整。動(dòng)態(tài)語(yǔ)義編碼規(guī)則分為t=1和1

(9)

(10)

式中：Dnetfw和Dnetbw分別表示解碼器中前向和后向LSTM網(wǎng)絡(luò)。將a1和am分別與標(biāo)準(zhǔn)句子的語(yǔ)義編碼SQ作為雙向LSTM的輸入。

2) 當(dāng)1

(11)

在這里只“回憶”相似的信息，弱化不相似的信息，所以使用下面的公式計(jì)算兩個(gè)向量間的相似性：

(12)

(13)

(14)

(15)

同理反向LSTM語(yǔ)義編碼為:

(16)

(17)

最后將相似性矩陣全連接到只有兩個(gè)神經(jīng)單元的輸出層，再經(jīng)過(guò)Softmax函數(shù)，即得出兩個(gè)句子的相似性和不相似性的概率值，從而得到句子對(duì)的語(yǔ)義相似度值。

3 實(shí)驗(yàn)評(píng)估

3.1 數(shù)據(jù)集

本文使用文獻(xiàn)[10]開放的中文問(wèn)題相似度分類數(shù)據(jù)集，數(shù)據(jù)集從百度知道和搜狗問(wèn)問(wèn)中爬取數(shù)據(jù)并整理成句子對(duì)，并由專家應(yīng)用特定的標(biāo)簽對(duì)句子對(duì)進(jìn)行相似、有關(guān)和不相似標(biāo)注，在句子語(yǔ)義相似度分類實(shí)驗(yàn)中，使用相似和不相似兩類標(biāo)簽數(shù)據(jù)。

數(shù)據(jù)集中每個(gè)樣本均由三部分組成：標(biāo)準(zhǔn)句子，自然句子和標(biāo)簽值。標(biāo)準(zhǔn)句子和自然句子的組合稱為句子對(duì)。一個(gè)標(biāo)準(zhǔn)句子匹配一個(gè)或多個(gè)自然句子，通過(guò)標(biāo)簽值標(biāo)注兩個(gè)句子間語(yǔ)義的相似性，即句子對(duì)的相似性。在訓(xùn)練集中標(biāo)簽值label={y|0≤y≤1}，本文設(shè)定句子對(duì)相似和不相似的閾值為0.5，label>0.5時(shí)句子對(duì)相似。在測(cè)試集中標(biāo)簽testLabel={y|y=0,y=1}，當(dāng)testLabel=1時(shí)句子對(duì)相似。訓(xùn)練集和測(cè)試集的數(shù)據(jù)格式如表1和表2所示。

表1 訓(xùn)練集數(shù)據(jù)格式

表2 測(cè)試集數(shù)據(jù)格式

本文將獲得的開放數(shù)據(jù)集作為原始數(shù)據(jù)集，在原始數(shù)據(jù)集的基礎(chǔ)上進(jìn)行處理，得到漢字?jǐn)?shù)據(jù)集和混合數(shù)據(jù)集。

在進(jìn)行數(shù)據(jù)清洗操作中，對(duì)所有句子去停用詞的方法并不適用。例如：“老板娘很慷慨嗎？”和“老板的娘很慷慨嗎？”。這兩個(gè)句子的語(yǔ)義是不同的，因?yàn)樗枋龅膶?duì)象不同，一個(gè)是老板的妻子，另一個(gè)則是老板的母親。然而當(dāng)去掉停用詞“的”的時(shí)候，兩個(gè)句子的語(yǔ)義就完全相同了。再者，對(duì)于標(biāo)點(diǎn)符號(hào)也不能一概而論。在中文中，有些標(biāo)點(diǎn)符號(hào)對(duì)句子是有一定影響的，去掉標(biāo)點(diǎn)符號(hào)可能會(huì)導(dǎo)致歧義。例如：“小猴子找不著，爸爸媽媽很著急”和“小猴子找不著爸爸媽媽，很著急”。在去掉標(biāo)點(diǎn)后，句子都是“小猴子找不著爸爸媽媽很著急”，但很明顯，原始的兩個(gè)句子的語(yǔ)義是不相同的。所以，需要針對(duì)不同的情形進(jìn)行不同的預(yù)處理操作。本文使用這三種數(shù)據(jù)集，在相同的實(shí)驗(yàn)條件和參數(shù)設(shè)置的情況下，分別進(jìn)行獨(dú)立實(shí)驗(yàn)并進(jìn)行分析。

3.2 實(shí)驗(yàn)設(shè)置及評(píng)估標(biāo)準(zhǔn)

實(shí)驗(yàn)使用TensorFlow[13]深度學(xué)習(xí)框架，數(shù)據(jù)以200維詞向量輸入到雙向LSTM的輸入層中，神經(jīng)網(wǎng)絡(luò)的隱藏層單元數(shù)hd=150，學(xué)習(xí)率learning-rate=0.001，使用Sigmoid交叉熵函數(shù)作為目標(biāo)函數(shù)，使用隨機(jī)梯度下降算法對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化。為了與其他循環(huán)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比，我們?cè)O(shè)置相同的初始化權(quán)重值，隨機(jī)種子設(shè)置為seed=1，使用5折交叉驗(yàn)證，每折驗(yàn)證迭代50次。

本文使用準(zhǔn)確率(A)，精準(zhǔn)率(P)，召回率(R)和F1度量(F)評(píng)估標(biāo)準(zhǔn)對(duì)模型進(jìn)行評(píng)估。具體公式如下：

(18)

(19)

(20)

(21)

式中：TP、FP、TN和FN是根據(jù)句子對(duì)的實(shí)際類別與預(yù)測(cè)類別組合的四種樣例劃分情形。TP是真正類，即預(yù)測(cè)標(biāo)簽是相似，實(shí)際標(biāo)簽也為相似；FP是假正類，即預(yù)測(cè)標(biāo)簽是相似，實(shí)際標(biāo)簽是不相似；TN是真負(fù)類，即預(yù)測(cè)標(biāo)簽是不相似，實(shí)際標(biāo)簽是不相似；FN是假負(fù)類，即預(yù)測(cè)標(biāo)簽是不相似，實(shí)際為相似。

3.3 實(shí)驗(yàn)結(jié)果及分析

本文模型(dysBiLSTM EncDec)在三種不同的數(shù)據(jù)集上與3種循環(huán)神經(jīng)網(wǎng)絡(luò)編碼器-解碼器結(jié)構(gòu)進(jìn)行三組對(duì)比試驗(yàn)。其中模型RNN Pre-trained和GRU Pre-trained是文獻(xiàn)[10]中的模型。因?yàn)楸疚哪Ｐ褪窃陔p向LSTM上進(jìn)行改進(jìn)，所以本文給出在原始雙向LSTM的編碼器-解碼器結(jié)構(gòu)(BiLSTM EncDec)的實(shí)驗(yàn)結(jié)果。具體實(shí)驗(yàn)如下：

漢字?jǐn)?shù)據(jù)集的訓(xùn)練集由7 586個(gè)不同的問(wèn)題，共104 123對(duì)句子對(duì)組成，標(biāo)記為相似的句子對(duì)占39.31%；測(cè)試集由86個(gè)不同的問(wèn)題，共2 107對(duì)句子對(duì)組成，標(biāo)記為相似的句子對(duì)占41.95%。在預(yù)處理過(guò)程中，舍棄了對(duì)中文句子語(yǔ)義影響較弱的標(biāo)點(diǎn)符號(hào)和特殊符號(hào)，例如：“～”、“#”、“_”和“★”等，每組句子對(duì)僅由漢字和標(biāo)點(diǎn)符號(hào)構(gòu)成。

在漢字?jǐn)?shù)據(jù)集的測(cè)試集上，不同模型的評(píng)估標(biāo)準(zhǔn)值如表3所示。

表3 漢字?jǐn)?shù)據(jù)集上不同模型評(píng)估值

由表3所示，本文動(dòng)態(tài)語(yǔ)義編碼模型dysBiLSTM EncDec在漢字?jǐn)?shù)據(jù)集上的準(zhǔn)確率比RNN Pre-trained高約4%，比GRU Pre-trained高約3%，比BiLSTM EncDec高約2%；在精準(zhǔn)率上比RNN模型高約7%；在其他評(píng)估標(biāo)準(zhǔn)上，本文模型都得到了較好的結(jié)果。

混合數(shù)據(jù)集中的句子由漢字、數(shù)字符號(hào)、標(biāo)點(diǎn)符號(hào)和英語(yǔ)單詞等在實(shí)際應(yīng)用中經(jīng)常出現(xiàn)的多種符號(hào)組合而成。混合數(shù)據(jù)集的訓(xùn)練集由9 679個(gè)不同的問(wèn)題，共145 185對(duì)句子對(duì)組成，標(biāo)記為相似的句子對(duì)占36.29%；測(cè)試集由129個(gè)不同的問(wèn)題，共3 493對(duì)問(wèn)題對(duì)組成，標(biāo)記為相似的句子對(duì)占38.53%。在混合數(shù)據(jù)集的測(cè)試集上，不同模型的實(shí)驗(yàn)結(jié)果如表4所示。

表4 混合數(shù)據(jù)集上不同模型評(píng)估值

本文模型在混合數(shù)據(jù)集上的性能整體效果沒(méi)有在漢字?jǐn)?shù)據(jù)集上的效果好，在精準(zhǔn)率上與BiLSTM EncDec模型僅差1%，召回率上與GRU Pre-trained也相差不多。原因在于混合數(shù)據(jù)集上添加了更多的干擾信息，在符號(hào)處理上雖然做了一定的刪減操作，但是有些符號(hào)不能準(zhǔn)確地判定是否有意義。數(shù)據(jù)清洗的不全面導(dǎo)致了在大量數(shù)據(jù)集上的實(shí)驗(yàn)效果不如在相對(duì)較少的漢字?jǐn)?shù)據(jù)集上的效果。

原數(shù)據(jù)集中的句子更符合人們?cè)趯?shí)際生活中使用漢語(yǔ)的習(xí)慣，句子的隨意性較強(qiáng)，相比于書面語(yǔ)的規(guī)范性差距較大。實(shí)驗(yàn)中，原始數(shù)據(jù)集的訓(xùn)練集由9 687個(gè)不同的問(wèn)題，共1 548 299對(duì)問(wèn)題對(duì)組成，標(biāo)記為相似的句子對(duì)占35.77%；測(cè)試集由129個(gè)不同的問(wèn)題，共3 493對(duì)問(wèn)題對(duì)組成，標(biāo)記為相似的句子對(duì)占38.53%。在原始數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表5所示。

表5 原始數(shù)據(jù)集上不同模型評(píng)估值

由實(shí)驗(yàn)結(jié)果可知，模型在僅含有漢字和標(biāo)點(diǎn)符號(hào)的數(shù)據(jù)集上預(yù)測(cè)能力比在含多種字符的數(shù)據(jù)集上預(yù)測(cè)的能力較強(qiáng)。原因在于多元字符元素的數(shù)據(jù)集較為復(fù)雜，例如在中文中包含英語(yǔ)單詞，在單一的訓(xùn)練過(guò)程中很難確定其含義和與其他詞語(yǔ)間的相似性，導(dǎo)致了預(yù)測(cè)結(jié)果偏差較大。由于原始數(shù)據(jù)集中還包含了特殊符號(hào)和其他語(yǔ)言的句子對(duì)，規(guī)范性較弱，復(fù)雜度更高，所以預(yù)測(cè)的結(jié)果較其他兩個(gè)數(shù)據(jù)集的結(jié)果偏低。但在相同的數(shù)據(jù)集條件下，經(jīng)實(shí)驗(yàn)驗(yàn)證，本文模型預(yù)測(cè)值更接近標(biāo)簽值，對(duì)比的其他模型可以得到更好的性能。

4 結(jié) 語(yǔ)

本文模型對(duì)中文句子對(duì)進(jìn)行相似度計(jì)算，在解碼過(guò)程中加入了動(dòng)態(tài)編碼機(jī)制，將得到的動(dòng)態(tài)編碼作為解碼器中雙向LSTM輸入的一部分，經(jīng)解碼器解碼得出中文句子對(duì)的相似性矩陣，從而得出中文句子對(duì)相似程度的概率值。本文在數(shù)據(jù)集選擇和清洗時(shí)，考慮到中文句子實(shí)際應(yīng)用場(chǎng)景，在實(shí)驗(yàn)中將數(shù)據(jù)集整理為三種數(shù)據(jù)集：漢字?jǐn)?shù)據(jù)集、混合數(shù)據(jù)集和原始數(shù)據(jù)集。經(jīng)實(shí)驗(yàn)驗(yàn)證，在相同的實(shí)驗(yàn)條件和使用相同類型的數(shù)據(jù)集下，本文模型在計(jì)算中文句子對(duì)相似性的性能上優(yōu)于分別由RNN、GRU和雙向LSTM組成的編碼器-解碼器神經(jīng)網(wǎng)絡(luò)模型。

然而，模型在多種字符的數(shù)據(jù)集上的理解能力并不好，預(yù)測(cè)結(jié)果還并不理想。由于中文數(shù)據(jù)集資源和實(shí)驗(yàn)條件所限，本文僅使用了中文句子對(duì)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，沒(méi)有對(duì)段落和篇章類型的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證。未來(lái)將進(jìn)一步研究中文相似度的模型，在提高僅含有漢字和標(biāo)點(diǎn)的數(shù)據(jù)集上的性能之外，還要進(jìn)一步考慮如何將多種字符進(jìn)行更好的理解，從而提高模型整體的效果，并且希望可以將訓(xùn)練好的模型應(yīng)用于主觀題自動(dòng)評(píng)分系統(tǒng)中。