亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于動(dòng)態(tài)語(yǔ)義編碼雙向LSTM的中文語(yǔ)義相似度計(jì)算

        2020-06-16 11:11:50初雅莉侯秀萍
        關(guān)鍵詞:解碼器集上相似性

        初雅莉 鄭 虹 侯秀萍

        (長(zhǎng)春工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 吉林 長(zhǎng)春 130000)

        0 引 言

        語(yǔ)義相似度是機(jī)器學(xué)習(xí)中相似性學(xué)習(xí)的一種,也是自然語(yǔ)言處理領(lǐng)域中研究的熱點(diǎn),在問(wèn)答系統(tǒng)、信息檢索、機(jī)器翻譯和文本分類等若干應(yīng)用程序中影響也日益增加[1]。目前已經(jīng)有許多方法用來(lái)計(jì)算句子的語(yǔ)義相似性,本文將其分為兩類進(jìn)行闡述。

        一類是通過(guò)分析句子詞法、語(yǔ)法和句法等多種結(jié)構(gòu)特征,結(jié)合多種距離度量方式獲取句子間的相似性。Wen等[2]對(duì)漢語(yǔ)句子進(jìn)行分詞,得到關(guān)鍵詞和普通詞。在句子中,關(guān)鍵詞的影響要高于普通詞,設(shè)置關(guān)鍵詞的權(quán)重大于普通詞的權(quán)重,通過(guò)對(duì)加權(quán)后的詞進(jìn)行匹配得到漢語(yǔ)句子的詞匯相似性,從而判斷AI聊天機(jī)器人的性能。Gokul等[3]結(jié)合單個(gè)單詞的同義詞、余弦相似度和Jaccard相似性計(jì)算兩句馬拉雅拉姆語(yǔ)的相似性。王智強(qiáng)等[4]提出一種基于篇章框架語(yǔ)義分析的答案句檢索和答案抽取方法。從語(yǔ)義相關(guān)的角度,融合基于知網(wǎng)語(yǔ)義、空間向量模型和詞袋模型計(jì)算句子間的相似度,從而檢索到與問(wèn)題相似的答案句。

        另一類是結(jié)合深度學(xué)習(xí)方法進(jìn)行語(yǔ)義相似度計(jì)算。王元龍[5]提出了基于分層組合模式的句子組合模型,通過(guò)訓(xùn)練樹結(jié)構(gòu)的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)組合句子向量,得到句子的分布式向量表示,計(jì)算句子向量間的余弦相似度來(lái)得出句子間的相似性。Afzal等[6]建立了基于語(yǔ)義網(wǎng)模型和基于深度學(xué)習(xí)語(yǔ)義模型。其中,語(yǔ)義網(wǎng)模型用來(lái)比較句子中隱藏的語(yǔ)義含義,根據(jù)語(yǔ)義相似度和兩個(gè)句子中的詞序來(lái)計(jì)算句法相似度;基于深度學(xué)習(xí)語(yǔ)義模型建立在深度結(jié)構(gòu)化語(yǔ)義模型(Deep Structured Semantic Model,DSSM)之上,對(duì)文本片段的語(yǔ)義特征向量使用余弦相似性來(lái)測(cè)量該文本對(duì)之間的語(yǔ)義相似性,將兩個(gè)模型的結(jié)果進(jìn)行線性組合,分配相等的系數(shù)值為0.5,得出最終語(yǔ)義文本的相似度分?jǐn)?shù)。Agirre等[7]提出一種可解釋的語(yǔ)義文本相似度的多任務(wù)深度學(xué)習(xí)方法。Lopez-Gazpio等[8]將循環(huán)神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)應(yīng)用于可解釋的語(yǔ)義文本相似度。Mccrae等[9]提出了一個(gè)使用BiRNN獲取依賴上下文信息的軟對(duì)齊特征和BiLSTM計(jì)算兩個(gè)句子之間語(yǔ)義相似性的多特征系統(tǒng)。Ye等[10]提出基于遞歸神經(jīng)網(wǎng)絡(luò)編碼器-解碼器的架構(gòu)來(lái)測(cè)量句子之間的語(yǔ)義相似性。模型使用單向的循環(huán)神經(jīng)網(wǎng)絡(luò),沒(méi)有對(duì)語(yǔ)義進(jìn)行充分的獲??;由于循環(huán)神經(jīng)網(wǎng)絡(luò)自身的短時(shí)記憶限制,使得模型對(duì)于長(zhǎng)句子處理的性能較低;在使用傳統(tǒng)編碼器-解碼器模型的固定語(yǔ)義編碼進(jìn)行解碼時(shí),沒(méi)有考慮到在解碼過(guò)程中句子詞語(yǔ)的差異性。

        基于以上幾點(diǎn),本文對(duì)模型進(jìn)行以下改進(jìn):

        1) 編碼器-解碼器模型不再由RNN神經(jīng)網(wǎng)絡(luò)組成,改為雙向LSTM[11]神經(jīng)網(wǎng)絡(luò),提取句子的正反兩個(gè)方向的語(yǔ)義特征并進(jìn)行結(jié)合,得到更加全面的句子語(yǔ)義信息。

        2) 使用動(dòng)態(tài)語(yǔ)義編碼規(guī)則,調(diào)整語(yǔ)義編碼。解碼器在每個(gè)時(shí)間步運(yùn)行時(shí),不再接收固定不變的語(yǔ)義編碼值,而是根據(jù)當(dāng)前已獲得信息,“回憶”標(biāo)準(zhǔn)句子中與當(dāng)前要預(yù)測(cè)結(jié)果相關(guān)的信息,增大相似信息的影響。

        3) 將動(dòng)態(tài)語(yǔ)義編碼作為L(zhǎng)STM[12]基本單元輸入的一部分,使得相似信息存儲(chǔ)到基本單元中。

        1 任務(wù)定義

        本文的任務(wù)是對(duì)中文句子對(duì)進(jìn)行語(yǔ)義相似性的計(jì)算。在句子對(duì)中,前一句是句法、語(yǔ)義規(guī)范的標(biāo)準(zhǔn)句子;后一句是類似于人類的口語(yǔ)表達(dá)、句子規(guī)范性較差的自然句子。在進(jìn)行句子語(yǔ)義相似度計(jì)算之前,需要對(duì)中文句子進(jìn)行預(yù)處理。

        首先使用“jieba”分詞工具對(duì)句子進(jìn)行分詞。本文使用元組來(lái)表示分詞后的句子,其中一個(gè)元素對(duì)應(yīng)一個(gè)詞語(yǔ),相同的詞語(yǔ)也使用不同的元素進(jìn)行表示,元素所在元組中的位置即詞語(yǔ)在句子中的位置。

        標(biāo)準(zhǔn)句子表示為:

        與標(biāo)準(zhǔn)句子進(jìn)行語(yǔ)義相似性計(jì)算的自然句子表示為:

        然后,對(duì)分詞后的數(shù)據(jù)進(jìn)行清洗。去停用詞和去標(biāo)點(diǎn)符號(hào)是自然語(yǔ)言處理中最常用的清洗方法,但是對(duì)于復(fù)雜的中文句子,去停用詞和去標(biāo)點(diǎn)符號(hào)并不能完全適用。本文沒(méi)有對(duì)句子進(jìn)行去停用詞的操作,僅去掉在中文句子中語(yǔ)義影響較弱的標(biāo)點(diǎn)符號(hào)和特殊符號(hào),根據(jù)實(shí)驗(yàn)數(shù)據(jù)集的不同需求,對(duì)數(shù)據(jù)集中的字符進(jìn)行不同形式的數(shù)據(jù)清洗。在漢字?jǐn)?shù)據(jù)集中,保留僅含有漢字和常用標(biāo)點(diǎn)符號(hào)的句子對(duì);在混合數(shù)據(jù)集中,僅刪除了對(duì)句子語(yǔ)義影響較弱的標(biāo)點(diǎn)符號(hào)和特殊符號(hào);在原始數(shù)據(jù)集中,為了獲得更貼近生活中的自然表述,對(duì)數(shù)據(jù)沒(méi)有進(jìn)行任何的清洗操作。

        最后使用Google開源的Word2vec工具,將最終處理后的詞語(yǔ)映射到高維空間上,得到詞語(yǔ)對(duì)應(yīng)的詞向量。使用Q和A分別表示標(biāo)準(zhǔn)句子、自然句子的向量形式:

        Q=(q1,q2,…,qi,…,qn)

        A=(a1,a2,…,at,…,am)

        式中:qi∈Rwd為標(biāo)準(zhǔn)句子中第i個(gè)詞的向量表示,at∈Rwd為自然句子中第t個(gè)詞的向量表示,wd為詞向量的維度。

        2 模型框架

        本文模型采用雙向LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),充分提取句子的雙向語(yǔ)義特征,LSTM網(wǎng)絡(luò)雖然比RNN網(wǎng)絡(luò)復(fù)雜,但可以擁有長(zhǎng)時(shí)間記憶,有利于長(zhǎng)句子的處理。編碼器由雙向LSTM網(wǎng)絡(luò)組成,解碼器則由帶有動(dòng)態(tài)語(yǔ)義編碼規(guī)則(dySem)的雙向LSTM組成。模型框架如圖1所示。

        圖1 動(dòng)態(tài)語(yǔ)義編碼雙向LSTM語(yǔ)句相似性模型

        2.1 雙向LSTM編碼器

        編碼器由傳統(tǒng)的雙向LSTM神經(jīng)網(wǎng)絡(luò)組成,用來(lái)生成標(biāo)準(zhǔn)句子的雙向語(yǔ)義編碼。神經(jīng)網(wǎng)絡(luò)在第i個(gè)時(shí)間步的輸入為標(biāo)準(zhǔn)句子Q中第i個(gè)詞向量qi,保存該時(shí)間步雙向LSTM輸出的隱藏狀態(tài)Hi。

        Hi=hi+gn-ihi,gn-i∈R1×hd

        (1)

        式中:hd為隱藏層單元個(gè)數(shù),hi和gn-i分別表示在i時(shí)間步前向LSTM和后向LSTM輸出的隱藏狀態(tài)值。當(dāng)i=n時(shí),hn表示句子的正向語(yǔ)義編碼,gn表示句子的反向語(yǔ)義編碼,則標(biāo)準(zhǔn)句子的雙向語(yǔ)義編碼為:

        SQ=hn+gn

        (2)

        2.2 帶有動(dòng)態(tài)語(yǔ)義編碼的雙向LSTM解碼器

        本文根據(jù)解碼器前一個(gè)時(shí)間步的隱藏輸出狀態(tài)的不同,“回憶”編碼器中相似的信息并對(duì)語(yǔ)義編碼進(jìn)行動(dòng)態(tài)調(diào)整。將調(diào)整后的語(yǔ)義編碼S作為L(zhǎng)STM基本單元中的一部分,語(yǔ)義編碼S不參與輸入門的信息存儲(chǔ),但在輸出時(shí)同樣會(huì)遺忘掉一些相似信息,所以語(yǔ)義編碼S位于LSTM基本單元中輸入門和輸出門之間。改進(jìn)后的LSTM基本單元在t時(shí)間步的結(jié)構(gòu)表示如圖2所示。

        圖2 改進(jìn)后的LSTM基本單元在t時(shí)間步結(jié)構(gòu)表示

        (3)

        (4)

        (5)

        (6)

        (7)

        (8)

        2.3 動(dòng)態(tài)語(yǔ)義編碼規(guī)則

        動(dòng)態(tài)語(yǔ)義編碼S依據(jù)動(dòng)態(tài)語(yǔ)義編碼規(guī)則進(jìn)行動(dòng)態(tài)調(diào)整。動(dòng)態(tài)語(yǔ)義編碼規(guī)則分為t=1和1

        (9)

        (10)

        式中:Dnetfw和Dnetbw分別表示解碼器中前向和后向LSTM網(wǎng)絡(luò)。將a1和am分別與標(biāo)準(zhǔn)句子的語(yǔ)義編碼SQ作為雙向LSTM的輸入。

        2) 當(dāng)1

        (11)

        在這里只“回憶”相似的信息,弱化不相似的信息,所以使用下面的公式計(jì)算兩個(gè)向量間的相似性:

        (12)

        (13)

        (14)

        (15)

        同理反向LSTM語(yǔ)義編碼為:

        (16)

        (17)

        最后將相似性矩陣全連接到只有兩個(gè)神經(jīng)單元的輸出層,再經(jīng)過(guò)Softmax函數(shù),即得出兩個(gè)句子的相似性和不相似性的概率值,從而得到句子對(duì)的語(yǔ)義相似度值。

        3 實(shí)驗(yàn)評(píng)估

        3.1 數(shù)據(jù)集

        本文使用文獻(xiàn)[10]開放的中文問(wèn)題相似度分類數(shù)據(jù)集,數(shù)據(jù)集從百度知道和搜狗問(wèn)問(wèn)中爬取數(shù)據(jù)并整理成句子對(duì),并由專家應(yīng)用特定的標(biāo)簽對(duì)句子對(duì)進(jìn)行相似、有關(guān)和不相似標(biāo)注,在句子語(yǔ)義相似度分類實(shí)驗(yàn)中,使用相似和不相似兩類標(biāo)簽數(shù)據(jù)。

        數(shù)據(jù)集中每個(gè)樣本均由三部分組成:標(biāo)準(zhǔn)句子,自然句子和標(biāo)簽值。標(biāo)準(zhǔn)句子和自然句子的組合稱為句子對(duì)。一個(gè)標(biāo)準(zhǔn)句子匹配一個(gè)或多個(gè)自然句子,通過(guò)標(biāo)簽值標(biāo)注兩個(gè)句子間語(yǔ)義的相似性,即句子對(duì)的相似性。在訓(xùn)練集中標(biāo)簽值label={y|0≤y≤1},本文設(shè)定句子對(duì)相似和不相似的閾值為0.5,label>0.5時(shí)句子對(duì)相似。在測(cè)試集中標(biāo)簽testLabel={y|y=0,y=1},當(dāng)testLabel=1時(shí)句子對(duì)相似。訓(xùn)練集和測(cè)試集的數(shù)據(jù)格式如表1和表2所示。

        表1 訓(xùn)練集數(shù)據(jù)格式

        表2 測(cè)試集數(shù)據(jù)格式

        本文將獲得的開放數(shù)據(jù)集作為原始數(shù)據(jù)集,在原始數(shù)據(jù)集的基礎(chǔ)上進(jìn)行處理,得到漢字?jǐn)?shù)據(jù)集和混合數(shù)據(jù)集。

        在進(jìn)行數(shù)據(jù)清洗操作中,對(duì)所有句子去停用詞的方法并不適用。例如:“老板娘很慷慨嗎?”和“老板的娘很慷慨嗎?”。這兩個(gè)句子的語(yǔ)義是不同的,因?yàn)樗枋龅膶?duì)象不同,一個(gè)是老板的妻子,另一個(gè)則是老板的母親。然而當(dāng)去掉停用詞“的”的時(shí)候,兩個(gè)句子的語(yǔ)義就完全相同了。再者,對(duì)于標(biāo)點(diǎn)符號(hào)也不能一概而論。在中文中,有些標(biāo)點(diǎn)符號(hào)對(duì)句子是有一定影響的,去掉標(biāo)點(diǎn)符號(hào)可能會(huì)導(dǎo)致歧義。例如:“小猴子找不著,爸爸媽媽很著急”和“小猴子找不著爸爸媽媽,很著急”。在去掉標(biāo)點(diǎn)后,句子都是“小猴子找不著爸爸媽媽很著急”,但很明顯,原始的兩個(gè)句子的語(yǔ)義是不相同的。所以,需要針對(duì)不同的情形進(jìn)行不同的預(yù)處理操作。本文使用這三種數(shù)據(jù)集,在相同的實(shí)驗(yàn)條件和參數(shù)設(shè)置的情況下,分別進(jìn)行獨(dú)立實(shí)驗(yàn)并進(jìn)行分析。

        3.2 實(shí)驗(yàn)設(shè)置及評(píng)估標(biāo)準(zhǔn)

        實(shí)驗(yàn)使用TensorFlow[13]深度學(xué)習(xí)框架,數(shù)據(jù)以200維詞向量輸入到雙向LSTM的輸入層中,神經(jīng)網(wǎng)絡(luò)的隱藏層單元數(shù)hd=150,學(xué)習(xí)率learning-rate=0.001,使用Sigmoid交叉熵函數(shù)作為目標(biāo)函數(shù),使用隨機(jī)梯度下降算法對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化。為了與其他循環(huán)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比,我們?cè)O(shè)置相同的初始化權(quán)重值,隨機(jī)種子設(shè)置為seed=1,使用5折交叉驗(yàn)證,每折驗(yàn)證迭代50次。

        本文使用準(zhǔn)確率(A),精準(zhǔn)率(P),召回率(R)和F1度量(F)評(píng)估標(biāo)準(zhǔn)對(duì)模型進(jìn)行評(píng)估。具體公式如下:

        (18)

        (19)

        (20)

        (21)

        式中:TP、FP、TN和FN是根據(jù)句子對(duì)的實(shí)際類別與預(yù)測(cè)類別組合的四種樣例劃分情形。TP是真正類,即預(yù)測(cè)標(biāo)簽是相似,實(shí)際標(biāo)簽也為相似;FP是假正類,即預(yù)測(cè)標(biāo)簽是相似,實(shí)際標(biāo)簽是不相似;TN是真負(fù)類,即預(yù)測(cè)標(biāo)簽是不相似,實(shí)際標(biāo)簽是不相似;FN是假負(fù)類,即預(yù)測(cè)標(biāo)簽是不相似,實(shí)際為相似。

        3.3 實(shí)驗(yàn)結(jié)果及分析

        本文模型(dysBiLSTM EncDec)在三種不同的數(shù)據(jù)集上與3種循環(huán)神經(jīng)網(wǎng)絡(luò)編碼器-解碼器結(jié)構(gòu)進(jìn)行三組對(duì)比試驗(yàn)。其中模型RNN Pre-trained和GRU Pre-trained是文獻(xiàn)[10]中的模型。因?yàn)楸疚哪P褪窃陔p向LSTM上進(jìn)行改進(jìn),所以本文給出在原始雙向LSTM的編碼器-解碼器結(jié)構(gòu)(BiLSTM EncDec)的實(shí)驗(yàn)結(jié)果。具體實(shí)驗(yàn)如下:

        漢字?jǐn)?shù)據(jù)集的訓(xùn)練集由7 586個(gè)不同的問(wèn)題,共104 123對(duì)句子對(duì)組成,標(biāo)記為相似的句子對(duì)占39.31%;測(cè)試集由86個(gè)不同的問(wèn)題,共2 107對(duì)句子對(duì)組成,標(biāo)記為相似的句子對(duì)占41.95%。在預(yù)處理過(guò)程中,舍棄了對(duì)中文句子語(yǔ)義影響較弱的標(biāo)點(diǎn)符號(hào)和特殊符號(hào),例如:“~”、“#”、“_”和“★”等,每組句子對(duì)僅由漢字和標(biāo)點(diǎn)符號(hào)構(gòu)成。

        在漢字?jǐn)?shù)據(jù)集的測(cè)試集上,不同模型的評(píng)估標(biāo)準(zhǔn)值如表3所示。

        表3 漢字?jǐn)?shù)據(jù)集上不同模型評(píng)估值

        由表3所示,本文動(dòng)態(tài)語(yǔ)義編碼模型dysBiLSTM EncDec在漢字?jǐn)?shù)據(jù)集上的準(zhǔn)確率比RNN Pre-trained高約4%,比GRU Pre-trained高約3%,比BiLSTM EncDec高約2%;在精準(zhǔn)率上比RNN模型高約7%;在其他評(píng)估標(biāo)準(zhǔn)上,本文模型都得到了較好的結(jié)果。

        混合數(shù)據(jù)集中的句子由漢字、數(shù)字符號(hào)、標(biāo)點(diǎn)符號(hào)和英語(yǔ)單詞等在實(shí)際應(yīng)用中經(jīng)常出現(xiàn)的多種符號(hào)組合而成。混合數(shù)據(jù)集的訓(xùn)練集由9 679個(gè)不同的問(wèn)題,共145 185對(duì)句子對(duì)組成,標(biāo)記為相似的句子對(duì)占36.29%;測(cè)試集由129個(gè)不同的問(wèn)題,共3 493對(duì)問(wèn)題對(duì)組成,標(biāo)記為相似的句子對(duì)占38.53%。在混合數(shù)據(jù)集的測(cè)試集上,不同模型的實(shí)驗(yàn)結(jié)果如表4所示。

        表4 混合數(shù)據(jù)集上不同模型評(píng)估值

        本文模型在混合數(shù)據(jù)集上的性能整體效果沒(méi)有在漢字?jǐn)?shù)據(jù)集上的效果好,在精準(zhǔn)率上與BiLSTM EncDec模型僅差1%,召回率上與GRU Pre-trained也相差不多。原因在于混合數(shù)據(jù)集上添加了更多的干擾信息,在符號(hào)處理上雖然做了一定的刪減操作,但是有些符號(hào)不能準(zhǔn)確地判定是否有意義。數(shù)據(jù)清洗的不全面導(dǎo)致了在大量數(shù)據(jù)集上的實(shí)驗(yàn)效果不如在相對(duì)較少的漢字?jǐn)?shù)據(jù)集上的效果。

        原數(shù)據(jù)集中的句子更符合人們?cè)趯?shí)際生活中使用漢語(yǔ)的習(xí)慣,句子的隨意性較強(qiáng),相比于書面語(yǔ)的規(guī)范性差距較大。實(shí)驗(yàn)中,原始數(shù)據(jù)集的訓(xùn)練集由9 687個(gè)不同的問(wèn)題,共1 548 299對(duì)問(wèn)題對(duì)組成,標(biāo)記為相似的句子對(duì)占35.77%;測(cè)試集由129個(gè)不同的問(wèn)題,共3 493對(duì)問(wèn)題對(duì)組成,標(biāo)記為相似的句子對(duì)占38.53%。在原始數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表5所示。

        表5 原始數(shù)據(jù)集上不同模型評(píng)估值

        由實(shí)驗(yàn)結(jié)果可知,模型在僅含有漢字和標(biāo)點(diǎn)符號(hào)的數(shù)據(jù)集上預(yù)測(cè)能力比在含多種字符的數(shù)據(jù)集上預(yù)測(cè)的能力較強(qiáng)。原因在于多元字符元素的數(shù)據(jù)集較為復(fù)雜,例如在中文中包含英語(yǔ)單詞,在單一的訓(xùn)練過(guò)程中很難確定其含義和與其他詞語(yǔ)間的相似性,導(dǎo)致了預(yù)測(cè)結(jié)果偏差較大。由于原始數(shù)據(jù)集中還包含了特殊符號(hào)和其他語(yǔ)言的句子對(duì),規(guī)范性較弱,復(fù)雜度更高,所以預(yù)測(cè)的結(jié)果較其他兩個(gè)數(shù)據(jù)集的結(jié)果偏低。但在相同的數(shù)據(jù)集條件下,經(jīng)實(shí)驗(yàn)驗(yàn)證,本文模型預(yù)測(cè)值更接近標(biāo)簽值,對(duì)比的其他模型可以得到更好的性能。

        4 結(jié) 語(yǔ)

        本文模型對(duì)中文句子對(duì)進(jìn)行相似度計(jì)算,在解碼過(guò)程中加入了動(dòng)態(tài)編碼機(jī)制,將得到的動(dòng)態(tài)編碼作為解碼器中雙向LSTM輸入的一部分,經(jīng)解碼器解碼得出中文句子對(duì)的相似性矩陣,從而得出中文句子對(duì)相似程度的概率值。本文在數(shù)據(jù)集選擇和清洗時(shí),考慮到中文句子實(shí)際應(yīng)用場(chǎng)景,在實(shí)驗(yàn)中將數(shù)據(jù)集整理為三種數(shù)據(jù)集:漢字?jǐn)?shù)據(jù)集、混合數(shù)據(jù)集和原始數(shù)據(jù)集。經(jīng)實(shí)驗(yàn)驗(yàn)證,在相同的實(shí)驗(yàn)條件和使用相同類型的數(shù)據(jù)集下,本文模型在計(jì)算中文句子對(duì)相似性的性能上優(yōu)于分別由RNN、GRU和雙向LSTM組成的編碼器-解碼器神經(jīng)網(wǎng)絡(luò)模型。

        然而,模型在多種字符的數(shù)據(jù)集上的理解能力并不好,預(yù)測(cè)結(jié)果還并不理想。由于中文數(shù)據(jù)集資源和實(shí)驗(yàn)條件所限,本文僅使用了中文句子對(duì)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),沒(méi)有對(duì)段落和篇章類型的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證。未來(lái)將進(jìn)一步研究中文相似度的模型,在提高僅含有漢字和標(biāo)點(diǎn)的數(shù)據(jù)集上的性能之外,還要進(jìn)一步考慮如何將多種字符進(jìn)行更好的理解,從而提高模型整體的效果,并且希望可以將訓(xùn)練好的模型應(yīng)用于主觀題 自動(dòng)評(píng)分系統(tǒng)中。

        猜你喜歡
        解碼器集上相似性
        一類上三角算子矩陣的相似性與酉相似性
        科學(xué)解碼器(一)
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        淺析當(dāng)代中西方繪畫的相似性
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        復(fù)扇形指標(biāo)集上的分布混沌
        低滲透黏土中氯離子彌散作用離心模擬相似性
        老汉tv永久视频福利在线观看| 精品卡一卡二乱码新区| 亚洲av成人网| 亚洲日韩精品欧美一区二区一| 亚洲国产精品线观看不卡| 久久久一本精品久久久一本| 国产一区二区三区仙踪林| 国产精品99久久久久久猫咪 | 男女男在线精品网站免费观看| 麻豆人妻无码性色AV专区| av一区二区三区综合网站| 国产私人尤物无码不卡| 四房播播在线电影| 国产在线天堂av| 国产av剧情精品麻豆| 亚洲熟妇色自偷自拍另类| 国产精品久久久久国产a级| 亚洲欧美日韩中文综合在线不卡| 少妇人妻无一区二区三区| 欧美性猛交xxxx免费看蜜桃| 爱情岛论坛亚洲品质自拍hd| 丰满人妻一区二区乱码中文电影网| 国产在线一区二区三区四区乱码| 丰满少妇a级毛片| 成人无码视频| 喷潮出白浆视频在线观看| 日本一区二区精品高清 | 小12萝8禁在线喷水观看| 欧美国产伦久久久久久久| 黄色一区二区三区大全观看| 777米奇色8888狠狠俺去啦| 亚洲成人福利在线观看| 高清亚洲精品一区二区三区| 精品天堂色吊丝一区二区| 99精品国产99久久久久久97 | 亚洲六月丁香色婷婷综合久久| 国产欧美va欧美va香蕉在 | av成人资源在线观看| 无码喷潮a片无码高潮| 久久亚洲中文字幕无码| 精品理论一区二区三区|