蔚佳璇,張起貴
(太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 晉中 030600)
計(jì)算文本相似度是自然語(yǔ)言處理(natural language processing,NLP)中的一個(gè)基本問(wèn)題,被普遍應(yīng)用于文本分類、問(wèn)答系統(tǒng)、信息檢索等[1]。早期的研究主要集中在長(zhǎng)文本,近些年網(wǎng)絡(luò)的廣泛使用使短文本以驚人的速度獲得了普及。短文本具有較短的文字形式,內(nèi)容相對(duì)稀疏,且缺乏足夠的上下文信息,這使得傳統(tǒng)的文本相似度計(jì)算方法很難適用于短文本。目前,基于深度學(xué)習(xí)的技術(shù)在文本相似度問(wèn)題上的研究主要分為兩大類:句子表征學(xué)習(xí)和局部特征匹配。第一類方法先分別學(xué)習(xí)兩文本表示,然后根據(jù)余弦、歐幾里德距離等函數(shù)計(jì)算相似度,如Ma-LSTM[2]、Tree-LSTM[3]。然而該類方法缺乏交互性,無(wú)法準(zhǔn)確捕捉文本中的局部信息。第二類方法通過(guò)考慮兩文本間不同的交互粒度來(lái)獲得更好的結(jié)果,如DF-LSTM[4]、PWIM[5]。但這些方法對(duì)句子中的所有單詞同等對(duì)待,無(wú)法體現(xiàn)不同部分對(duì)文本構(gòu)成的不同貢獻(xiàn)。同時(shí),短文本較短的文字形式使得其句法信息容易被忽略。然而構(gòu)成詞語(yǔ)和詞序完全相同的句子如果句法結(jié)構(gòu)不同,其語(yǔ)義也會(huì)有所不同[6]。由此可見(jiàn),句法結(jié)構(gòu)會(huì)對(duì)句子的語(yǔ)義產(chǎn)生影響,應(yīng)當(dāng)引起重視。
針對(duì)上述問(wèn)題,本文提出一種融合注意力及句法信息的短文本相似度計(jì)算方法,在自注意力的基礎(chǔ)上增加互注意力機(jī)制,并采用有效的相似性度量技術(shù)計(jì)算語(yǔ)義相似性;同時(shí)分析文本結(jié)構(gòu),提出一種基于圖的方法,得到帶有概率的依存結(jié)構(gòu),并將結(jié)構(gòu)轉(zhuǎn)化為關(guān)系矩陣,計(jì)算句法結(jié)構(gòu)相似度;通過(guò)將兩者加權(quán)融合,來(lái)進(jìn)一步提高短文本相似度的準(zhǔn)確率,使其結(jié)果更加合理。
目前短文本相似度計(jì)算主要分為基于字符串、基于統(tǒng)計(jì)、基于知識(shí)庫(kù)和基于神經(jīng)網(wǎng)絡(luò)的方法。通過(guò)計(jì)算文本共有詞的數(shù)量來(lái)計(jì)算相似度的基于字符串的方法(Jaccard、N-gram、編輯距離等)被最早提出。但這種方法忽略了文本中的語(yǔ)義信息,對(duì)語(yǔ)義相似但字面不相似的文本效果較差。
研究者意識(shí)到語(yǔ)義信息對(duì)文本相似度計(jì)算的重要性,提出了基于統(tǒng)計(jì)的方法。文獻(xiàn)[7]中對(duì)大型語(yǔ)料庫(kù)分析,統(tǒng)計(jì)關(guān)鍵詞的TF-IDF值形成句子向量并計(jì)算相似度。文獻(xiàn)[8]提出WMF-LDA主題模型。統(tǒng)一化映射領(lǐng)域詞和近義詞,進(jìn)行主題建模,提高了運(yùn)行速度。這些方法初步將語(yǔ)義信息考慮在內(nèi),但針對(duì)一詞多義的問(wèn)題還無(wú)法解決。
部分研究者提出使用規(guī)則體系的知識(shí)庫(kù)進(jìn)行相似度計(jì)算的基于知識(shí)庫(kù)的方法。文獻(xiàn)[9]使用WordNet計(jì)算相似度,并將其運(yùn)用于評(píng)估簡(jiǎn)短答案的考試中,但準(zhǔn)確度不高。文獻(xiàn)[10]對(duì)《同義詞詞林》的結(jié)構(gòu)改造,并增加原編碼信息節(jié)點(diǎn)的語(yǔ)義,提高了詞語(yǔ)相似度的準(zhǔn)確率。該類方法雖然考慮了詞語(yǔ)間的語(yǔ)義,但只是將詞語(yǔ)相似度簡(jiǎn)單相加計(jì)算文本相似度,沒(méi)有考慮句法結(jié)構(gòu)信息。
基于神經(jīng)網(wǎng)絡(luò)的方法在文本相似度任務(wù)中表現(xiàn)出色。文獻(xiàn)[11]使用4種不同的詞嵌入表示模型計(jì)算短文本相似度,結(jié)果顯示基于神經(jīng)網(wǎng)絡(luò)的模型優(yōu)于傳統(tǒng)模型。其中卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(long short term memory,LSTM)表現(xiàn)較好。文獻(xiàn)[12,13]通過(guò)CNN網(wǎng)絡(luò)提取語(yǔ)義信息,生成文本特征,構(gòu)建語(yǔ)義相似度模型,提高了精度。文獻(xiàn)[14]將雙向LSTM(bi-directional LSTM,BiLSTM)應(yīng)用在編碼層,將句子向量輸入分類器,效果得到提升。這些方法準(zhǔn)確提取并學(xué)習(xí)上下文信息,但句子編碼相互獨(dú)立,沒(méi)有進(jìn)行交互。文獻(xiàn)[15]提出了BIMPM模型,并在模型每部分增加了交互匹配,實(shí)現(xiàn)了更細(xì)粒度的交互機(jī)制。文獻(xiàn)[16]設(shè)計(jì)了BiGRU與Attention機(jī)制結(jié)合的模型,證明了Attention機(jī)制可以有效提升文本相似度任務(wù)。這類交互式模型能很好建模文本的關(guān)聯(lián)特征,但模型都較為復(fù)雜且忽略了句法結(jié)構(gòu)。
在學(xué)習(xí)文本句法結(jié)構(gòu)信息時(shí),最關(guān)鍵的一步是分析文本的依存句法,一般分為兩類:基于轉(zhuǎn)移、基于圖。文獻(xiàn)[17]指出在文本任務(wù)中,基于圖的方法優(yōu)于基于轉(zhuǎn)移的方法。因此,如果能借鑒交互模型的優(yōu)點(diǎn),并綜合考慮短文本的句法結(jié)構(gòu)信息,定能在準(zhǔn)確度和速度上取得均衡的效果。基于該考慮,設(shè)計(jì)混合注意力結(jié)構(gòu)體系,增加交互信息,提高語(yǔ)義準(zhǔn)確度,提出基于圖的依存分析方法得到帶有概率的依存結(jié)構(gòu)圖,并將其轉(zhuǎn)化為矩陣計(jì)算結(jié)構(gòu)相似度,融合兩種相似度,在提高計(jì)算準(zhǔn)確率的同時(shí)提高計(jì)算效率,得到較為合理準(zhǔn)確的計(jì)算結(jié)果。
本文設(shè)計(jì)的短文本相似度總框架流程如圖1所示。首先對(duì)文本數(shù)據(jù)預(yù)處理,本文選用哈工大語(yǔ)言技術(shù)平臺(tái)進(jìn)行分詞、詞性標(biāo)注、依存標(biāo)簽標(biāo)注,使用word2vec模型訓(xùn)練詞嵌入向量;然后分別計(jì)算語(yǔ)義相似度與句法結(jié)構(gòu)相似度;最終將兩者進(jìn)行加權(quán)因子線性融合,得出最終短文本相似度。
圖1 總體框架流程
從總體框架圖中可知,語(yǔ)義相似度模塊主要由3層組成:嵌入表示層、混合注意力層和語(yǔ)義相似度計(jì)算層。
2.1.1 嵌入表示層
給定兩個(gè)句子P和Q, 需要通過(guò)映射預(yù)訓(xùn)練詞嵌入向量來(lái)獲得句子的嵌入矩陣。因此需要先應(yīng)用一個(gè)嵌入表示層。以句子P為例,其矩陣表示形式用Pe∈RL×m表示,其中L和m表示詞匯數(shù)和詞嵌入維數(shù)。構(gòu)造Pe的方法如下:假設(shè)文本由L個(gè)詞組成,而pi∈Rm表示句子中第i個(gè)詞的m維向量表示,則Pe表示為
Pe=p1⊕p2⊕…⊕pL
(1)
LSTM網(wǎng)絡(luò)是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),對(duì)學(xué)習(xí)具有長(zhǎng)期依賴關(guān)系的數(shù)據(jù)非常有效。給定輸入序列v={v1,v2,…vL}, LSTM計(jì)算具有一系列隱藏狀態(tài)的輸出向量序列。在時(shí)間點(diǎn)t, LSTM層獲取輸入矢量vt、 隱藏矢量ht-1和存儲(chǔ)矢量Ct-1, 并通過(guò)輸入門i、 遺忘門f和輸出門o產(chǎn)生下一個(gè)ht和Ct, 計(jì)算公式如式(2)~式(7)
ft=σ(Wf·[ht-1,xt]+bf)
(2)
it=σ(Wi·[ht-1,xt]+bi)
(3)
gt=tanh(WC·(ht-1,xt]+bC)
(4)
ot=σ(Wo·[ht-1,xt]+bo)
(5)
Ct=ft⊙Ct-1+it⊙gt
(6)
ht=ot⊙tanh(Ct)
(7)
(8)
2.1.2 混合注意力層
盡管BiLSTM網(wǎng)絡(luò)在文本表示中提供了豐富的上下文信息,但無(wú)法檢測(cè)到不同部分對(duì)句子的整體組成所做的各種貢獻(xiàn),因此加入混合注意力層。該層由自注意力機(jī)制和互注意力機(jī)制組成。每部分的輸入是BiLSTM網(wǎng)絡(luò)的兩個(gè)句子的輸出。
(1)自注意力機(jī)制
N=tanh(W1HP)
(9)
α=softmax(W2N)
(10)
rP=HPαT
(11)
圖2 自注意力機(jī)制流程
(12)
其中,W1、W2和W3是要學(xué)習(xí)的投影參數(shù)。
(13)
其中,Mi是張量參數(shù)。Wpq和b是要學(xué)習(xí)的參數(shù)。ReLU是一種非線性函數(shù),可以加速收斂。
(2)互注意力機(jī)制
由于需要評(píng)估兩個(gè)句子之間的相似程度,句子P中每部分的重要性也應(yīng)受到句子Q的影響。因此提出互注意力機(jī)制。如圖3所示,它通過(guò)考慮與另一句子的交互作用來(lái)將注意力權(quán)重分配給一個(gè)句子的每個(gè)部分。以P為例介紹,計(jì)算過(guò)程如式(14)~式(16)
(14)
(15)
(16)
(17)
同理,W4、W5和W6是要學(xué)習(xí)的投影參數(shù)。
圖3 互注意力機(jī)制流程
2.1.3 語(yǔ)義相似度計(jì)算層
在該層,將混合注意力層的結(jié)果組合為向量Y, 并將其傳送到全連接層中
(18)
由于相似度計(jì)算問(wèn)題可以看作分類問(wèn)題,因此為防止過(guò)度擬合,在全連接層之上應(yīng)用Dropout,并計(jì)算具有隱藏層和softmax層的概率分布。因此,根據(jù)式(19)計(jì)算出語(yǔ)義相似度
HASim(P,Q)=softmax(WYReLU(Y)+bY)
(19)
其中,WY和bY是softmax層的參數(shù)。
本文提出一種基于圖的依存句法分析方法,并基于依存結(jié)構(gòu)構(gòu)建關(guān)系矩陣并進(jìn)一步計(jì)算句法結(jié)構(gòu)相似度,從總體框架圖中可看出該模塊主要有3層:依存結(jié)構(gòu)層、關(guān)系矩陣層和句法結(jié)構(gòu)相似度計(jì)算層。
2.2.1 依存結(jié)構(gòu)層
該層主要介紹基于圖的依存句法分析方法,以句子P={p0,p1,…pL} 為例。pi表示句子中第i個(gè)單詞,本文將根節(jié)點(diǎn)標(biāo)識(shí)放在每個(gè)句子的開(kāi)頭,記為p0。 研究句法結(jié)構(gòu)需要深度挖掘詞之間的依存關(guān)系,且涉及到詞性等其它方面的諸多信息,因此在預(yù)訓(xùn)練詞向量基礎(chǔ)上加入隨機(jī)初始化詞向量e′(pi) 以及詞性標(biāo)簽向量e(posi), 得到最終詞語(yǔ)的詞嵌入向量表示xi
xi=(e(pi)+e′(pi))⊕e(posi)
(20)
然后將xi輸入BiLSTM網(wǎng)絡(luò)學(xué)習(xí)詞表示,得到時(shí)刻i的隱藏向量,這里記為vi。
本文使用圖G=(V,E) 表示句子P的依存結(jié)構(gòu),單詞節(jié)點(diǎn)集合用V={p0,p1,…pL} 表示,依存關(guān)系邊集合用E表示。每個(gè)詞對(duì)應(yīng)圖上的節(jié)點(diǎn),使用pj→pi表示核心詞pj與依存詞pi之間的關(guān)系。由于任意單詞既可以作為核心詞,又可以作為依存詞,因此需要分別計(jì)算其作為核心詞或依存詞時(shí)的向量表示。本文使用前饋神經(jīng)網(wǎng)絡(luò)模型對(duì)BiLSTM的輸出vt進(jìn)行計(jì)算,如式(21)~式(22)
(21)
(22)
然后采用雙仿射注意力機(jī)制為所有單詞對(duì)中的兩種依存關(guān)系計(jì)算得分,如式(23)
(23)
其中,sij是pj→pi的得分,U是權(quán)重矩陣,u是偏置項(xiàng)。在si={si0,…sij,…siL} 中,第i個(gè)單詞為根節(jié)點(diǎn)的概率由si0表示。最后進(jìn)行歸一化得到概率分布α′i, 如式(24)
α′i=softmax(si)
(24)
最后采用最大生成樹(shù)算法獲得句子的依存結(jié)構(gòu)。
2.2.2 關(guān)系矩陣層
基于生成的結(jié)構(gòu),構(gòu)造關(guān)系矩陣。矩陣的行表示句子P中的關(guān)系,列表示句子Q中的關(guān)系,單元格Cellij表示句子P的第i個(gè)關(guān)系和句子Q的第j個(gè)關(guān)系之間的相似度。由于每個(gè)關(guān)系都與兩個(gè)節(jié)點(diǎn)(單詞)連接,因此可以分別計(jì)算所連接的兩個(gè)節(jié)點(diǎn)的相似度以及關(guān)系名稱的相似度來(lái)計(jì)算最終關(guān)系相似度,節(jié)點(diǎn)相似度使用詞嵌入方法計(jì)算。關(guān)系相似度計(jì)算公式如式(25)
(25)
R1和R2表示兩個(gè)關(guān)系, sim(AR1,AR2) 是兩個(gè)關(guān)系第一個(gè)節(jié)點(diǎn)的相似性; sim(BR1,BR2) 是第二個(gè)節(jié)點(diǎn)的相似性。 Namesim(R1,R2) 是關(guān)系名稱的相似性,這種相似性取決于關(guān)系的含義,如果名稱相同,則相似度為1。如果關(guān)系是相關(guān)的,則該值將大于不相關(guān)的值。在本文的設(shè)計(jì)中,我們將各種情況歸結(jié)為表1。
表1 關(guān)系名稱相似度評(píng)判標(biāo)準(zhǔn)
2.2.3 句法結(jié)構(gòu)相似度計(jì)算層
最終的結(jié)構(gòu)相似性,可通過(guò)第一個(gè)句子的關(guān)系被另一個(gè)句子覆蓋的程度來(lái)計(jì)算。具體的方法是選擇此關(guān)系與第二個(gè)句子中所有關(guān)系之間的最大相似度,并以此方法依次遍歷第一個(gè)句子中的所有關(guān)系,最終加權(quán),計(jì)算過(guò)程如式(26)所示
(26)
其中,n是句子P中的總關(guān)系數(shù),Ri是句子P中的第i個(gè)依存關(guān)系,α′Ri是依存關(guān)系概率,由式(24)得出。
本文綜合考慮語(yǔ)義和結(jié)構(gòu)信息,將基于混合注意力的語(yǔ)義相似度和基于句法信息的結(jié)構(gòu)相似度進(jìn)行線性加權(quán)融合,得出最終的短文本相似度,如式(27)所示
SIM(P,Q)=
a×HASim(P,Q)+(1-a)×GSSim(P,Q)
(27)
其中,a是加權(quán)因子,該值的設(shè)置在實(shí)驗(yàn)中具體介紹。
實(shí)驗(yàn)中使用word2vec預(yù)訓(xùn)練詞向量,采用Adam算法[19]優(yōu)化,初始學(xué)習(xí)率為2e-3,在每一輪迭代中的衰減頻率為0.95,β1為0.9,β2為0.99。其它參數(shù)配置見(jiàn)表2。
表2 參數(shù)設(shè)置
在訓(xùn)練過(guò)程中,使用二分類交叉熵?fù)p失函數(shù)作為目標(biāo)函數(shù)并添加正則化項(xiàng)
(28)
θ是要學(xué)習(xí)的參數(shù),N是訓(xùn)練集大小,λ是正則化參數(shù),正則化強(qiáng)度設(shè)置為e-4。
本文使用在文本處理任務(wù)中常用的準(zhǔn)確率(Acc)、融合精確率(P)和召回率(R)的綜合指標(biāo)F1作為相似度計(jì)算質(zhì)量評(píng)價(jià)指標(biāo)。計(jì)算公式如式(29)~式(32)
(29)
(30)
(31)
(32)
tp是真正例數(shù),tn是真反例數(shù),fn是假反例數(shù),fp是假正例數(shù)。
3.3.1 加權(quán)因子設(shè)置
本文調(diào)整加權(quán)因子a的取值,選擇召回率作為評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果如圖4所示。從圖中可看出召回率在0.67之前一直呈增長(zhǎng)趨勢(shì),在0.67之后開(kāi)始下降,這是因?yàn)槎涛谋就ǔ2蛔袷貢嬲Z(yǔ)言的句法,且句法信息在短文本相似度中起著從屬作用,而語(yǔ)義信息起著主導(dǎo)作用,因此占比更大。所以加權(quán)因子a取值為0.67時(shí)最為合適。
圖4 加權(quán)因子的確定
3.3.2 對(duì)比實(shí)驗(yàn)分析
為驗(yàn)證本文方法的有效性,設(shè)置了本文方法與已有的其它文本相似度模型和方法的對(duì)比實(shí)驗(yàn)。結(jié)果見(jiàn)表3。與MatchPyramid[20]、BiMPM[14]和ESIM[21]相比,本文在語(yǔ)義相似度模塊通過(guò)BiLSTM學(xué)習(xí)上下文感知信息,提出的
表3 對(duì)比實(shí)驗(yàn)結(jié)果
混合注意力結(jié)構(gòu)體系進(jìn)一步加入互注意力機(jī)制,加強(qiáng)了交互特征的表示,實(shí)現(xiàn)了更細(xì)粒度的交互,因此準(zhǔn)確率得到了較大的提升;DIIN[22]和DRCN[23]在輸入階段增加了額外的句法特征,如字向量、詞向量、詞性等,并采用DenseNet結(jié)構(gòu)提取特征,RE2[24]將增強(qiáng)殘差連接融入到模型中,因此準(zhǔn)確率進(jìn)一步提高,但這些模型的復(fù)雜度普遍偏高,參數(shù)設(shè)置較復(fù)雜,且都沒(méi)有考慮文本的句法結(jié)構(gòu);而本文提出的方法模型復(fù)雜度較低,所需的參數(shù)相對(duì)較少,且進(jìn)一步加入句法結(jié)構(gòu)特征綜合考慮語(yǔ)義信息與句法信息,在準(zhǔn)確率上達(dá)到較好的結(jié)果,并且降低了計(jì)算的復(fù)雜度,提高了計(jì)算效率。本文所提的方法在準(zhǔn)確率上達(dá)到了84.16%,F(xiàn)1值達(dá)到了86.65%,比其它模型和方法有所提升。
3.3.3 有效性分析
(1)語(yǔ)義相似度性能分析
首先,分析混合注意力層對(duì)計(jì)算結(jié)果的影響,結(jié)果見(jiàn)表4,刪除混合注意力層時(shí),無(wú)法學(xué)習(xí)句子間的交互信息,因此準(zhǔn)確率較低;只保留自注意力機(jī)制時(shí),突出了句子中各部分對(duì)整體的重要程度,準(zhǔn)確度提升了2.26個(gè)百分點(diǎn);只保留互注意力機(jī)制時(shí),著重學(xué)習(xí)兩句子間的相互作用,體現(xiàn)不同句子間的交互影響,因此準(zhǔn)確度達(dá)到了83.85%,但結(jié)果都不如混合注意力機(jī)制下的準(zhǔn)確;這說(shuō)明我們提出的混合注意力機(jī)制對(duì)最終計(jì)算結(jié)果具有較大影響,能有效提升計(jì)算結(jié)果的準(zhǔn)確率。
表4 混合注意力層有效性驗(yàn)證
然后,我們對(duì)混合注意力層中的不同相似性度量方法進(jìn)行評(píng)估。將神經(jīng)張量網(wǎng)絡(luò)(NTN)和元素級(jí)操作(EI)分別應(yīng)用于自注意力機(jī)制和互注意力機(jī)制上,以準(zhǔn)確率為評(píng)價(jià)標(biāo)準(zhǔn),結(jié)果見(jiàn)表5。在多數(shù)情況下,使用NTN可以提高交互性能,但也會(huì)顯著增加整個(gè)模型的參數(shù)。數(shù)據(jù)顯示,在自注意力成分上應(yīng)用NTN的前提下,在互注意力成分上應(yīng)用NTN并不會(huì)帶來(lái)更好的性能,且會(huì)增加模型的復(fù)雜度。因此,我們將NTN只應(yīng)用于自注意力機(jī)制,而將EI應(yīng)用于互注意力機(jī)制。
表5 相似性度量方法有效性驗(yàn)證
(2)句法結(jié)構(gòu)相似度性能分析
為驗(yàn)證本文的句法結(jié)構(gòu)相似度計(jì)算方法的有效性,將本文方法與其它文獻(xiàn)中提出的句法結(jié)構(gòu)計(jì)算方法作對(duì)比,實(shí)驗(yàn)結(jié)果如圖5所示。文獻(xiàn)[25]的準(zhǔn)確率較低,是因?yàn)槠渲粚⒃~形、詞序、句長(zhǎng)等特征結(jié)合忽略了句子的語(yǔ)義信息;文獻(xiàn)[26]將句子轉(zhuǎn)化為依存樹(shù)并生成RDF圖計(jì)算句法相似度,因此準(zhǔn)確率有一定的提升;與文獻(xiàn)[27]中的MA-Tree-LSTM相比,本文方法略低于其結(jié)果,我們分析原因是本文使用的依存結(jié)構(gòu)是依存標(biāo)簽經(jīng)過(guò)基于圖的依存句法分析模塊產(chǎn)生的,其精度不如MA-Tree-LSTM的高。
圖5 句法結(jié)構(gòu)相似度準(zhǔn)確率對(duì)比
雖然MA-Tree-LSTM的準(zhǔn)確度達(dá)到了較好的結(jié)果,但模型復(fù)雜度高,且每次只能處理一個(gè)句對(duì),計(jì)算效率較低,而本文采用基于圖的依存分析方法可以實(shí)現(xiàn)多個(gè)句對(duì)并行處理,從而解決已有模型速度慢的問(wèn)題。我們?cè)诓煌L(zhǎng)度的句子上設(shè)置了兩者的速度評(píng)測(cè)實(shí)驗(yàn),結(jié)果如圖6所示。句長(zhǎng)在10以內(nèi)時(shí),我們的方法是MA-Tree-LSTM的15倍;句長(zhǎng)在10-20時(shí),速度是其10倍。這表明本文提出的方法在檢測(cè)速度上有一定的優(yōu)勢(shì)。
圖6 句長(zhǎng)對(duì)檢測(cè)速度的影響
3.3.4 實(shí)例分析
我們從數(shù)據(jù)集中抽取了4對(duì)具有代表性的句子對(duì),用本文方法和方法1、方法2分別計(jì)算其相似度,結(jié)果見(jiàn)表6。序號(hào)1的句對(duì)語(yǔ)義有一定差別但句法結(jié)構(gòu)相似;序號(hào)2的句對(duì)語(yǔ)義信息一致但句法結(jié)構(gòu)差異較大;序號(hào)3的句對(duì)語(yǔ)義與句法結(jié)構(gòu)都有較大差異;序號(hào)4的句對(duì)語(yǔ)義和句法信息都一致。從數(shù)據(jù)可以看出,本文在語(yǔ)義相似度的計(jì)算上比方法1和方法2的結(jié)果更加準(zhǔn)確,這是因?yàn)楸疚奶岢龅幕旌献⒁饬C(jī)制能更準(zhǔn)確的學(xué)習(xí)到句子間的交互特征,而方法1和方法2只采用自注意力機(jī)制,交互信息較為單一;在文本設(shè)計(jì)的方法中,句法結(jié)構(gòu)相似度的占比較小,因此對(duì)于序號(hào)1、序號(hào)2這類型的句對(duì),句法結(jié)構(gòu)相似度對(duì)最終計(jì)算結(jié)果有一定影響,但影響不大,并不會(huì)改變最終計(jì)算結(jié)果的準(zhǔn)確度,與方法1和方法2的結(jié)果相比,更加符合實(shí)際;對(duì)于序列3、序號(hào)4這類型的句對(duì),句法結(jié)構(gòu)相似度會(huì)進(jìn)一步增強(qiáng)最終的計(jì)算結(jié)果,同樣達(dá)到了較高的準(zhǔn)確度;這也進(jìn)一步說(shuō)明了本文采取融合方法的有效性。總之,本文提出的短文本相似度方法進(jìn)一步提高了準(zhǔn)確率,且計(jì)算結(jié)果更加符合事實(shí)和人的主觀判斷,驗(yàn)證了本文方法的合理性和有效性。
本文提出了一種融合注意力及句法信息的短文本相似度計(jì)算方法,將短文本相似度分為語(yǔ)義相似度和句法結(jié)構(gòu)相似度兩部分。語(yǔ)義相似度中采用一種自注意力與互注意力相結(jié)合的混合注意力結(jié)構(gòu)體系提取文本間的交互特征;句法結(jié)構(gòu)相似度中采用基于圖的依存句法分析,并構(gòu)建關(guān)系矩陣,將兩者加權(quán)融合計(jì)算最終短文本相似度。實(shí)驗(yàn)結(jié)果表明,該方法與其它文本相似度方法相比,有效提高了準(zhǔn)確率及計(jì)算效率,計(jì)算結(jié)果更加符合實(shí)際。在未來(lái)的工作中,考慮將我們的方法在不同領(lǐng)域的數(shù)據(jù)集上實(shí)驗(yàn),并應(yīng)用在復(fù)述識(shí)別、問(wèn)答系統(tǒng)等任務(wù)中;同時(shí),考慮結(jié)合預(yù)訓(xùn)練語(yǔ)言模型(BERT、XLnet等),進(jìn)一步提升短文本相似度計(jì)算結(jié)果的精確度。
表6 具體實(shí)例分析