袁 野,廖 薇
(上海工程技術(shù)大學(xué)電子電氣工程學(xué)院,上海 201620)
隨著互聯(lián)網(wǎng)的發(fā)展,用戶(hù)對(duì)信息的獲取效率和質(zhì)量有了更高的要求。如何在充斥著海量文本數(shù)據(jù)的互聯(lián)網(wǎng)中迅速且精準(zhǔn)地獲取目標(biāo)信息是自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)。文本相似度計(jì)算[1]是一種解決上述問(wèn)題的關(guān)鍵技術(shù),旨在判斷和分析文本之間的語(yǔ)義相關(guān)性,在文本分類(lèi)、問(wèn)答系統(tǒng)和信息檢索等任務(wù)中有著重要的作用。
傳統(tǒng)文本相似度計(jì)算方法是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,首先獲取詞語(yǔ)和文檔的統(tǒng)計(jì)特征,然后進(jìn)行語(yǔ)義相似度分析和語(yǔ)義搜索。文獻(xiàn)[2]使用加權(quán)融合共現(xiàn)詞相關(guān)度與區(qū)分度的方法進(jìn)行語(yǔ)義相似度分析;詞頻-逆文本頻率TF-IDF(Term Frequency-Inverse Document Frequency)利用詞語(yǔ)在文檔和語(yǔ)料中的頻率特征,計(jì)算詞語(yǔ)在文檔中的重要程度[3]。LDA(Latend Dirichlet Allocation)可以對(duì)文檔隱含主題進(jìn)行建模,文獻(xiàn)[4]將LDA模型與基于詞匯特征的文本相似度模型相結(jié)合,引入了主題特征對(duì)語(yǔ)義相似度計(jì)算的貢獻(xiàn),取得了更好的性能。基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法需要投入大量的人力和物力獲取特征統(tǒng)計(jì)信息,且難以提取文本深層的信息,限制了模型的性能與泛化能力。
隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)和語(yǔ)音識(shí)別領(lǐng)域取得突破性進(jìn)展,更多的研究人員將深度學(xué)習(xí)用于文本相似度計(jì)算。從模型的結(jié)構(gòu)和切入角度分析,基于深度學(xué)習(xí)的文本相似度計(jì)算模型可分為面向單語(yǔ)義、多語(yǔ)義和交互語(yǔ)義的模型。無(wú)論是哪種方法,都需要首先獲得文本的向量表示。2013年,Mikolov等[5,6]提出的word2vec詞向量模型利用神經(jīng)網(wǎng)絡(luò)將詞語(yǔ)映射到低維度的向量空間中,有良好的語(yǔ)義表達(dá)性能[7],使得該詞向量成為現(xiàn)在常用的文本嵌入方法之一。
單語(yǔ)義模型使用簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)編碼文本,然后計(jì)算文本的相似度。Yin等[8]使用卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)提取句子局部特征進(jìn)行句子語(yǔ)義相似度計(jì)算;文獻(xiàn)[9]基于長(zhǎng)短時(shí)記憶LSTM(Long and Short-Term Memory)網(wǎng)絡(luò)的孿生網(wǎng)絡(luò)結(jié)構(gòu)來(lái)學(xué)習(xí)文本相似性,通過(guò)LSTM對(duì)文本進(jìn)行語(yǔ)義特征提取和表達(dá),充分考慮到了文本的上下文信息和序列特征。
單語(yǔ)義模型通常考慮文本的單一特征,語(yǔ)義信息不夠豐富。因此,對(duì)文本多粒度特征信息進(jìn)行融合的基于多語(yǔ)義的相似度分析方法應(yīng)運(yùn)而生。文獻(xiàn)[10]提出將CNN與LSTM相結(jié)合的文本匹配模型,CNN捕捉句子片段向量特征,再輸入LSTM編碼得到句向量,最后計(jì)算句向量間的曼哈頓距離作為句子的相似度量。文獻(xiàn)[11]從文本的不同角度進(jìn)行分析,融合多種詞向量模型構(gòu)建初始文本語(yǔ)義模型,編碼器使用基于注意力的雙向長(zhǎng)短時(shí)記憶BiLSTM(Bi-directional Long and Short-Term Memory)網(wǎng)絡(luò),最后增加特征提取器提取文本的類(lèi)別特征。
多語(yǔ)義的相似度計(jì)算模型雖然考慮了不同的分析角度,但文本的不同編碼或特征提取過(guò)程相互獨(dú)立。交互語(yǔ)義模型實(shí)現(xiàn)了文本深層信息的交互與表達(dá)。Chen等[12]提出的ESIM(Enhanced Sequential Inference Model)將注意力機(jī)制與BiLSTM結(jié)合后用于文本推理,其中BiLSTM用于提取特征,協(xié)同注意力機(jī)制用于對(duì)文本進(jìn)行組合推理,最后判斷句子的相關(guān)性。文獻(xiàn)[13]提出一種強(qiáng)調(diào)文本序列之間特征對(duì)齊的匹配模型,在保持性能的同時(shí)減少了參數(shù)規(guī)模,優(yōu)化了任務(wù)速度。
交互語(yǔ)義模型能夠得到信息較豐富的文本表征,上述模型在許多非中文公開(kāi)數(shù)據(jù)集上表現(xiàn)出良好的性能,表明了多角度交互模型在文本相似度任務(wù)上的有效性。但是,基于中文數(shù)據(jù)集的文本相似度研究,可能受限于數(shù)據(jù)集大小、數(shù)據(jù)集語(yǔ)言差異或特征的提取角度,仍有進(jìn)一步提升的空間。
為了解決上述問(wèn)題,本文提出一種基于多重相關(guān)信息交互的文本相似度計(jì)算方法MRIIM(Multiple Related Information Interaction Method)。該方法使用一種多粒度交互的語(yǔ)義相似度模型,首先,采用預(yù)訓(xùn)練詞向量和詞語(yǔ)余弦相似度拼接作為文本的向量表達(dá);然后,使用BiLSTM對(duì)輸入文本向量進(jìn)行特征編碼,通過(guò)自注意力機(jī)制和交替協(xié)同注意力機(jī)制進(jìn)行多粒度語(yǔ)義匹配;最后,分別拼接文本的各粒度注意力特征,使用最大池化提取最顯著的特征,通過(guò)全連接層和Softmax分類(lèi)器預(yù)測(cè)語(yǔ)義相似性標(biāo)簽。實(shí)驗(yàn)表明,多語(yǔ)義角度交互有助于模型獲得文本的深層隱含信息,從而提升相似度計(jì)算性能。
本文提出的MRIIM模型整體框架如圖1所示,主要包含嵌入層、編碼層、多重注意力交替交互層、特征提取層和輸出層,具體設(shè)計(jì)如下所示:
(1)嵌入層用于將文本轉(zhuǎn)換為向量形式,使用包含語(yǔ)義的分布式向量表示文本的每個(gè)詞語(yǔ),同時(shí)與附加特征進(jìn)行拼接作為最終的文本向量表示。此處選擇的附加特征為文本余弦相似度值。該層的輸入是文本對(duì),輸出是文本向量矩陣。
Figure 1 Framework of MRIIM圖1 MRIIM框架
(2)編碼層用于學(xué)習(xí)文本的上下文信息,采用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)對(duì)文本進(jìn)行前向和后向的雙向?qū)W習(xí)。該層的輸入是文本向量矩陣,輸出是隱層狀態(tài)編碼對(duì)。
(3)在多重注意力交替交互層中,分別對(duì)2個(gè)文本自身進(jìn)行基于詞的細(xì)粒度自注意力計(jì)算,以及文本之間的交替協(xié)同注意力計(jì)算,最后得到文本對(duì)的交替向量表達(dá)。該層的輸入是隱藏狀態(tài)編碼對(duì),輸出分別是文本對(duì)基于自注意力權(quán)重和文本間交替協(xié)同注意力權(quán)重的向量表達(dá)。
(4)特征提取層將上一步驟的輸出進(jìn)行拼接,使用最大池化進(jìn)行特征提取,輸出是一維特征向量。
(5)輸出層通過(guò)一個(gè)全連接層和Softmax函數(shù)判斷文本對(duì)的含義是否相同。該層的輸入是特征提取層生成的一維長(zhǎng)向量,輸出是一個(gè)二進(jìn)制值,0表示文本對(duì)含義不同,1表示文本對(duì)含義相同。
對(duì)于給定長(zhǎng)度為m的文本v1,v2,…,vm和長(zhǎng)度為n的文本u1,u2,…,un,判斷其語(yǔ)義相似度結(jié)果y∈{0,1}。y=0表示2個(gè)文本語(yǔ)義不相似,y=1表示2個(gè)文本語(yǔ)義相似。
在文本嵌入層,使用預(yù)訓(xùn)練的word2vec將每個(gè)詞語(yǔ)映射為密集向量表示,同時(shí),本文在每個(gè)詞向量最后增加一維附加特征值:文本對(duì)詞語(yǔ)之間的最大余弦相似度值,其計(jì)算如式(1)所示:
f=max cos(ai,bj),?i∈[1,m],?j∈[1,n]
(1)
其中,ai和bj分別為2個(gè)文本中詞語(yǔ)的向量表示,f(·)表示附加特征。則詞語(yǔ)的最終向量表示形式如式(2)所示:
(2)
其中,E為word2vec詞嵌入矩陣,⊕為向量拼接操作,fai表示詞語(yǔ)ai的附加特征,fbj表示詞語(yǔ)bj的附加特征。假設(shè)e為詞向量維度,則該層2個(gè)文本向量表示分別為A∈Rm×(e+1),B∈Rn×(e+1)。附加特征可以為模型提供額外的語(yǔ)義信息。
編碼層對(duì)文本的上下文信息進(jìn)行編碼,MRIIM使用BiLSTM作為編碼器。
LSTM通過(guò)增加輸入門(mén)、遺忘門(mén)、輸出門(mén)和記憶狀態(tài)細(xì)胞來(lái)解決循環(huán)神經(jīng)網(wǎng)絡(luò)存在的長(zhǎng)依賴(lài)和梯度爆炸問(wèn)題,使用門(mén)機(jī)制控制信息的保留、遺忘和狀態(tài)更新。
LSTM只能學(xué)習(xí)文本的上文信息,而不能學(xué)習(xí)文本的下文信息。而在實(shí)際中,詞語(yǔ)的語(yǔ)義可能同時(shí)受到上下文詞語(yǔ)的影響,因此本文通過(guò)BiLSTM結(jié)構(gòu)使用2個(gè)方向相反的LSTM來(lái)捕捉文本的上下文序列特征,具體過(guò)程如式(3)~式(5)所示:
(3)
(4)
(5)
該層的文本語(yǔ)義表示如式(6)所示:
(6)
其中h為L(zhǎng)STM的隱層維度。
注意力機(jī)制[14]源于對(duì)人類(lèi)視覺(jué)的研究,目的是從眾多信息中學(xué)習(xí)對(duì)當(dāng)前任務(wù)貢獻(xiàn)更大的那部分信息。為了讓文本信息有效融合,本文提出一種基于多重注意力交替交互的文本表征方法,首先,對(duì)文本自身進(jìn)行詞語(yǔ)粒度的自注意力計(jì)算,得到含有權(quán)重的特征表示;然后,對(duì)其進(jìn)行交替協(xié)同注意力計(jì)算。這種表征方法能表達(dá)更多的文本相關(guān)性,提供更豐富的交互語(yǔ)義信息,從而更好地表征文本信息。
2.4.1 自注意力模塊
自注意力機(jī)制能夠?qū)W習(xí)到序列的長(zhǎng)期依賴(lài)關(guān)系,捕獲全局特征信息,通過(guò)權(quán)重來(lái)區(qū)分特征的重要程度。自注意力模塊如圖2所示。
Figure 2 Self-attention module圖2 自注意力模塊
(7)
其中,WQ,WK和WV分別為Q、K和V的權(quán)重矩陣。
(2)對(duì)Q與KT進(jìn)行點(diǎn)積運(yùn)算,打分函數(shù)S采用縮放點(diǎn)積函數(shù),經(jīng)過(guò)Softmax歸一化為概率分布,輸出自注意力權(quán)重向量Att,如式(8)所示。
(8)
(9)
該模塊蘊(yùn)含注意力的文本語(yǔ)義表示,如式(10)所示:
(10)
自注意力機(jī)制的增加改變了BiLSTM輸出的隱藏狀態(tài),在編碼結(jié)果中加入了權(quán)重的影響,能夠更加突出關(guān)鍵信息和重要特征。
2.4.2 交替協(xié)同注意力模塊
通常,自注意力機(jī)制用來(lái)計(jì)算文本自身各詞語(yǔ)的重要程度,而協(xié)同注意力(co-attention)用來(lái)計(jì)算文本之間的相關(guān)程度。
本文采用交替協(xié)同注意力對(duì)文本序列進(jìn)行交互分析,使用交替結(jié)構(gòu)有順序地計(jì)算協(xié)同注意力,即對(duì)特征序列As和Bs進(jìn)行協(xié)同注意力計(jì)算,結(jié)合協(xié)同注意力矩陣與Bs中每一個(gè)詞語(yǔ)的加權(quán)求和來(lái)表達(dá)As,得到新的特征序列Ac;基于Ac與Bs再次進(jìn)行協(xié)同注意力計(jì)算,以同樣的方式交替地表達(dá)特征序列Bs,具體過(guò)程如下所示:
(11)
(12)
(13)
(14)
(15)
該層將文本在多重注意力交替交互層中的自注意力特征和交替協(xié)同注意力特征進(jìn)行拼接,共同考慮不同層次的注意力輸出,具體如式(16)所示:
(16)
經(jīng)過(guò)最大池化提取最相關(guān)的特征,拼接2個(gè)文本序列作為文本特征的向量表示O∈R8h,如式(17)所示:
O=[Maxpooling(Aatt)⊕Maxpooling(Batt)]
(17)
輸出層中,文本最終的交互語(yǔ)義表示O輸入至全連接層,全連接層的輸出作為Softmax分類(lèi)器的輸入,得到文本對(duì)相似度標(biāo)簽的預(yù)測(cè)概率,計(jì)算公式如式(18)所示:
(18)
最后,通過(guò)最小化交叉熵來(lái)優(yōu)化模型,如式(19)所示:
(19)
其中,T表示訓(xùn)練數(shù)據(jù)集大小,C為相似度標(biāo)簽類(lèi)別數(shù),yt為文本對(duì)實(shí)際標(biāo)簽概率,λ為正則化參數(shù),θ表示整個(gè)模型的訓(xùn)練參數(shù)。
數(shù)據(jù)集1:CCKS 2018微眾銀行智能客服問(wèn)句匹配大賽數(shù)據(jù)集[15]。
數(shù)據(jù)集2:平安醫(yī)療科技智能患者健康咨詢(xún)問(wèn)句匹配大賽數(shù)據(jù)集[16]。
上述數(shù)據(jù)集相關(guān)信息如表1所示,語(yǔ)義相似的文本對(duì)標(biāo)簽為1,否則為0,2個(gè)數(shù)據(jù)集的正負(fù)樣本數(shù)量比例都接近1∶1。
Table 1 Information about the experimental datasets表1 實(shí)驗(yàn)數(shù)據(jù)集相關(guān)信息
本文評(píng)估指標(biāo)采用準(zhǔn)確率Acc(Accuracy)、精確率P(Precision)、召回率R(Recall)、F1值(F-score)以及ROC曲線(xiàn)下的面積AUC(Area Under Curve)。精確率P用于檢驗(yàn)結(jié)果的有效性,召回率R用于檢驗(yàn)結(jié)果的完整性,F(xiàn)1用于調(diào)和精確率P與召回率R。ROC曲線(xiàn)的橫縱坐標(biāo)分別為特異性(FPR)和敏感度(TPR),曲線(xiàn)下的面積AUC反映了模型的分類(lèi)性能,其值越接近于1,模型分類(lèi)性能越好。Acc、P、R和F1的計(jì)算分別如式(20)~式(23)所示:
(20)
(21)
(22)
(23)
其中,TP表示文本對(duì)實(shí)際結(jié)果和預(yù)測(cè)結(jié)果都為語(yǔ)義相似的樣本數(shù)量;FN表示文本對(duì)實(shí)際結(jié)果為語(yǔ)義相似,但預(yù)測(cè)結(jié)果為不相似的樣本數(shù)量;FP表示文本對(duì)實(shí)際結(jié)果為語(yǔ)義不相似,但預(yù)測(cè)結(jié)果為相似的樣本數(shù)量;TN表示文本對(duì)實(shí)際結(jié)果和預(yù)測(cè)結(jié)果都為語(yǔ)義不相似的樣本數(shù)量。
訓(xùn)練word2vec詞向量模型,設(shè)置詞向量維度e為300,采用Skip-gram模型訓(xùn)練,訓(xùn)練窗口大小為5,未登錄詞進(jìn)行隨機(jī)初始化詞向量,附加特征后的詞嵌入維度為301。同時(shí)構(gòu)建領(lǐng)域常用術(shù)語(yǔ)詞典,使用jieba分詞處理時(shí)引入詞典,避免專(zhuān)有名詞劃分不正確或者缺失。設(shè)置文本長(zhǎng)度為20,超出部分進(jìn)行截?cái)?,不足部分?補(bǔ)齊。LSTM網(wǎng)絡(luò)的單元個(gè)數(shù)為150,則BiLSTM網(wǎng)絡(luò)的輸出向量維度為300。訓(xùn)練模型時(shí),采用大小為128的批處理,學(xué)習(xí)率設(shè)置為0.005,優(yōu)化器使用Adam,迭代訓(xùn)練次數(shù)epoch為20。為了防止模型過(guò)擬合,設(shè)置dropout為0.5隨機(jī)丟棄神經(jīng)元。
本文為了評(píng)估所提方法的有效性,還實(shí)現(xiàn)了以下幾種基準(zhǔn)方法進(jìn)行對(duì)比:
(1)BiLSTM:采用BiLSTM分別從文本前后2個(gè)方向?qū)ξ谋具M(jìn)行向量表示,通過(guò)最大池化和全連接網(wǎng)絡(luò)得到最后的預(yù)測(cè)標(biāo)簽。
(2)BiGRU:與(1)類(lèi)似,不同之處是將雙向LSTM替換為雙向門(mén)控循環(huán)神經(jīng)網(wǎng)絡(luò)。
(3)ABCNN[17]:一種結(jié)合注意力機(jī)制和CNN的方法。該方法使用word2vec表示文本嵌入向量,然后計(jì)算文本注意力權(quán)重,采用寬卷積提取文本特征,最后進(jìn)行平均池化和預(yù)測(cè)。
(4)BiMPM[18]:一種使用多視角匹配模型的方法,采用BiLSTM對(duì)文本進(jìn)行編碼,然后從文本轉(zhuǎn)換的角度進(jìn)行2個(gè)方向的文本匹配,最后聚合特征并預(yù)測(cè)結(jié)果。
(5)ESIM:一種基于BiLSTM和協(xié)同注意力機(jī)制的推理方法,采用BiLSTM對(duì)詞語(yǔ)進(jìn)行編碼,采用co-attention捕捉句子之間的交互信息,最后使用另一個(gè)BiLSTM提取句子的局部和全局信息并輸出預(yù)測(cè)。
3.5.1 性能評(píng)估
本文方法與基準(zhǔn)方法在2個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2所示。從表2可以看出,本文方法在文本相似度計(jì)算上的性能良好。單一的BiLSTM和BiGRU方法提取到的特征少于其他混合方法,所以各項(xiàng)指標(biāo)均低于其他方法的。ABCNN通過(guò)引入注意力賦予文本不同的權(quán)重信息,并使用CNN提取局部特征,性能較前2個(gè)方法有一定提升。這說(shuō)明在不使用循環(huán)神經(jīng)網(wǎng)絡(luò)捕捉文本序列的情況下,使用注意力機(jī)制同樣能增強(qiáng)模型對(duì)重要信息的捕獲能力。與ABCNN的F1值相比,BiMPM在2個(gè)數(shù)據(jù)集上的F1值都有較大的提升,分別提高了3.82個(gè)百分點(diǎn)和2.04個(gè)百分點(diǎn),說(shuō)明從文本交互表達(dá)的角度有助于分析文本相關(guān)性。ESIM不僅使用協(xié)同注意力提取文本交互信息,還使用不同的BiLSTM進(jìn)行文本編碼和特征提取,故性能較上述所有基準(zhǔn)方法又有提升。
本文方法在嵌入層增加文本間余弦值相關(guān)特征,使用BiLSTM提取序列特征,使用自注意力機(jī)制解決注意力分散問(wèn)題,通過(guò)交替結(jié)構(gòu)的協(xié)同注意力對(duì)文本構(gòu)建新的相關(guān)交互表征,因此具有更好的理解能力,整體表現(xiàn)最佳,在2個(gè)數(shù)據(jù)集上的性能指標(biāo)達(dá)到最高,其F1值分別達(dá)到了0.916 1和0.769 5。
圖3和圖4直觀(guān)地展現(xiàn)了不同方法在2個(gè)數(shù)據(jù)集上準(zhǔn)確率的變化趨勢(shì),本文方法在迭代訓(xùn)練次數(shù)達(dá)到20附近時(shí)趨于穩(wěn)定,且穩(wěn)定時(shí)的準(zhǔn)確率相比于基準(zhǔn)方法都有不同程度的提高。
Figure 3 Acc comparison on dataset1圖3 數(shù)據(jù)集1上的Acc對(duì)比圖
3.5.2 消融實(shí)驗(yàn)
Figure 4 Acc comparison on dataset2圖4 數(shù)據(jù)集2上的Acc對(duì)比圖
為了驗(yàn)證MRIIM中注意力特征模塊對(duì)于文本相似度任務(wù)的有效性,本文在2個(gè)數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。本文的消融實(shí)驗(yàn)是指在其他模塊和參數(shù)不變的情況下,通過(guò)減少不同模塊進(jìn)行性能分析,實(shí)驗(yàn)結(jié)果如表3所示。其中,“MRIIM”表示本文提出的方法;“-SelfAttention”表示去除文本對(duì)的自注意力機(jī)制后的方法;“-Al_Structure”表示去除交替協(xié)同注意力模塊,將其替換為并行協(xié)同注意力模塊后的方法;“-Both”表示去除自注意力機(jī)制及交替協(xié)同注意力2個(gè)模塊,僅使用并行協(xié)同注意力的方法。
Table 2 Experimental results of different methods表2 不同方法的實(shí)驗(yàn)結(jié)果
Table 3 Ablation experiment表3 消融實(shí)驗(yàn)
從表3可以看出,減少任意一個(gè)相關(guān)性特征模塊都會(huì)降低方法的性能。這說(shuō)明本文提出的最相關(guān)特征對(duì)文本學(xué)習(xí)和表征都具有重要的作用。其中,在2個(gè)數(shù)據(jù)集上,“-SelfAttention”和“-Al_Structure”的性能指標(biāo)都有不同程度的降低,相比較而言,前者整體優(yōu)于后者,說(shuō)明交替協(xié)同注意力模塊對(duì)文本相似度計(jì)算有正面影響。“-Both”性能有明顯的下降,F(xiàn)1指標(biāo)分別下降了3.46個(gè)百分點(diǎn)和3.97個(gè)百分點(diǎn),由此說(shuō)明2個(gè)注意力模塊對(duì)文本語(yǔ)義相似度計(jì)算有顯著的貢獻(xiàn),有助于發(fā)現(xiàn)文本之間的隱藏相關(guān)性。
3.5.3 注意力可視化
對(duì)注意力權(quán)重分布進(jìn)行可視化能夠更好地理解模型當(dāng)前關(guān)注的重點(diǎn)。圖5為測(cè)試集中一組文本對(duì)的熱力圖展示,顏色表示注意力權(quán)重值的大小,顏色越深表示重要程度越高。由圖5可知,注意力機(jī)制能夠計(jì)算文本對(duì)中每個(gè)詞之間的相關(guān)性,從而更好地學(xué)習(xí)文本關(guān)聯(lián)特征。
Figure 5 Visualization of attention weight distribution圖5 注意力權(quán)重分布可視化
本文針對(duì)文本相似度計(jì)算任務(wù)提出了一個(gè)基于多重相關(guān)信息交互的文本相似度計(jì)算方法。包含附加相似度特征的詞嵌入層能夠?qū)⑾蛄靠臻g中詞語(yǔ)的相關(guān)性信息輸入網(wǎng)絡(luò)進(jìn)行編碼和學(xué)習(xí);多重注意力交替交互層不僅在詞語(yǔ)粒度使用自注意力機(jī)制獲取文本自身的注意力分布,還從文本粒度使用交替協(xié)同注意力有順序地捕捉文本之間的注意力分布情況,從而有效提取局部和全局交互的最明顯特征;最后對(duì)文本對(duì)進(jìn)行相似度分析,判斷語(yǔ)義是否相似。實(shí)驗(yàn)表明,所提方法的各項(xiàng)性能都有所提升。下一步的工作重點(diǎn)是在長(zhǎng)文本數(shù)據(jù)集上評(píng)估本文方法,以及挖掘?qū)哟胃迂S富的文本相關(guān)特征,比如不同的預(yù)訓(xùn)練詞向量模型對(duì)該方法性能的影響。