趙 偉,王文娟,甘玉芳
(1.重慶郵電大學(xué) 國(guó)際合作與交流處,重慶 400065;2.國(guó)網(wǎng)重慶市電力公司信息通信分公司 調(diào)控中心,重慶401121;3.國(guó)網(wǎng)重慶市電力公司信息通信分公司 技術(shù)發(fā)展部,重慶 401121)
文本匹配的主要目標(biāo)是正確判斷兩段自然語言形式的文本的語義是否相關(guān)[1],自動(dòng)問答、信息檢索、人機(jī)對(duì)話、問題復(fù)述等各類自然語言處理任務(wù)均可抽象為該問題。文本匹配技術(shù)在電力領(lǐng)域具有重要應(yīng)用價(jià)值。隨著電力業(yè)務(wù)種類及規(guī)模不斷增長(zhǎng),電力運(yùn)維系統(tǒng)日益復(fù)雜,對(duì)電力運(yùn)維業(yè)務(wù)的效率要求也隨之大幅提升。運(yùn)維人員受理運(yùn)維問題時(shí),可利用文本匹配技術(shù)從專業(yè)知識(shí)庫(kù)中根據(jù)運(yùn)維請(qǐng)求檢索出解決方案,快速應(yīng)對(duì)運(yùn)維問題。運(yùn)維項(xiàng)目管理者可以利用文本匹配技術(shù)來對(duì)運(yùn)維服務(wù)項(xiàng)目進(jìn)行項(xiàng)目匹配計(jì)算,避免運(yùn)維項(xiàng)目重復(fù)立項(xiàng)等問題,從而提升運(yùn)維服務(wù)精益化管理水平。
神經(jīng)網(wǎng)絡(luò)模型目前已成為文本匹配領(lǐng)域的主要模型。其中,基于Siamese網(wǎng)絡(luò)架構(gòu)[2]的模型使用相同的神經(jīng)網(wǎng)絡(luò)(如CNN或RNN)對(duì)兩個(gè)句子進(jìn)行編碼,然后基于編碼向量表示來計(jì)算語義匹配度[3]。為了更好地關(guān)注到體現(xiàn)句子含義的單詞,有研究還將注意力機(jī)制引入到模型結(jié)構(gòu)中[4],取得了較好的效果。上述研究由于在編碼過程中兩個(gè)句子沒有進(jìn)行交互,而單個(gè)向量往往不能很好地表示句子語義,因而某些匹配信息可能被忽略[5]。為解決這類模型存在的問題,一些研究采用基于比較聚合架構(gòu)的模型來進(jìn)行文本匹配[6],這類模型通過比較詞、短語、句子等不同級(jí)別的向量表示,再聚合比較結(jié)果來進(jìn)行文本匹配。例如,文獻(xiàn)[7]在詞粒度級(jí)別上提出LSTM匹配模型;文獻(xiàn)[8]提出一種詞對(duì)交互模型,該模型首先從兩個(gè)序列中抽取詞語對(duì),再使用相似性焦點(diǎn)層和多層CNN聚合這些單詞比較的結(jié)果。
盡管這些研究取得了良好的進(jìn)展,然而還存在以下問題。
1)多數(shù)模型采用Word2Vec[9]或Glove[10]詞向量作為網(wǎng)絡(luò)模型的輸入,同一個(gè)詞在不同上下文語境下的詞向量是固定的,無法體現(xiàn)詞向量表示的動(dòng)態(tài)性。然而,單詞的含義與其所處的語義環(huán)境密不可分,例如“這個(gè)蘋果很好吃”和“蘋果12的攝像頭不錯(cuò)”這兩句話中“蘋果”的含義就大相徑庭,前一句話中“蘋果”指的是一種水果,后一句話指的是智能手機(jī)。因此,要準(zhǔn)確進(jìn)行文本匹配就必須考慮單詞的上下文。
2)部分模型只關(guān)注了單個(gè)句子的注意力加權(quán),而忽略了兩個(gè)句子之間的交互;還有部分模型雖然考慮了句子間的交互,但對(duì)句子間的交互建模得不夠充分,未能融合不同粒度的交互信息,從而導(dǎo)致丟失某些重要匹配信息。
針對(duì)以上問題,本文提出了基于BERT預(yù)訓(xùn)練模型和多視角循環(huán)神經(jīng)網(wǎng)絡(luò)的文本匹配模型。該模型利用BERT獲取句子表示向量,并應(yīng)用BERT-Whitening方法來對(duì)句向量進(jìn)行線性轉(zhuǎn)換,獲得優(yōu)化的句向量表示;利用BERT獲取句子中詞匯的上下文詞向量表示,并應(yīng)用多視角循環(huán)神經(jīng)網(wǎng)絡(luò)模型來對(duì)句子對(duì)進(jìn)行雙向交互;最后,聚合BERT句向量及詞粒度交互向量后得到文本對(duì)的語義匹配度。在電力運(yùn)維領(lǐng)域的兩個(gè)真實(shí)數(shù)據(jù)集上,通過與多種基于神經(jīng)網(wǎng)絡(luò)的文本匹配模型進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文模型在文本匹配任務(wù)上的有效性。此外,本文模型在實(shí)際系統(tǒng)的應(yīng)用中也有效提升了電力運(yùn)維服務(wù)效率。
文本匹配任務(wù)在語義檢索中具有重要作用[11],早期研究主要基于特征工程來找出兩句子的匹配關(guān)系。但特征工程方法不僅人工工作量大,還存在泛化性差的問題,在一個(gè)數(shù)據(jù)集上使用的特征很可能在另一個(gè)數(shù)據(jù)集上表現(xiàn)不好。
深度學(xué)習(xí)方法將特征抽取過程作為模型的一部分,直接從原始數(shù)據(jù)中抽取特征,不僅免去了手工設(shè)計(jì)特征的大量人工開銷,還可以根據(jù)訓(xùn)練數(shù)據(jù)的不同而將模型方便地適配到各種文本匹配任務(wù)當(dāng)中。因此,深度學(xué)習(xí)被廣泛應(yīng)用到文本匹配領(lǐng)域[12]。其中,以Siamese結(jié)構(gòu)為代表的深度學(xué)習(xí)模型得到很好的發(fā)展,如微軟提出的DSSM[13]模型,該模型通過全連接網(wǎng)絡(luò)將查詢語句和文檔進(jìn)行向量化,表達(dá)簡(jiǎn)單,匹配計(jì)算速度快,是最早的深度文本匹配模型,但DSSM忽略了文本之間的時(shí)序關(guān)系和空間關(guān)系。微軟研究院后續(xù)提出的CDSSM[14]將DSSM中的全連接神經(jīng)網(wǎng)絡(luò)層換為卷積-池化結(jié)構(gòu),提升了文本匹配效果。文獻(xiàn)[15]提出多視角循環(huán)神經(jīng)網(wǎng)絡(luò)(MV-LSTM)模型,通過BiLSTM獲取句子不同位置的表示向量,然后將兩句子不同位置的表示向量交互計(jì)算得到匹配矩陣,最后通過K-最大池化和全連接網(wǎng)絡(luò)得到匹配值。
除了基于Siamese結(jié)構(gòu)的序列匹配模型外,基于比較聚合的匹配模型也受到了關(guān)注。這類模型通過捕捉兩個(gè)序列之間更多的交互特征來進(jìn)行文本匹配。如aNMM[16]基于問題和答案的向量序列得到交互矩陣,再將CNN網(wǎng)絡(luò)作用于交互矩陣,并且采用注意力加權(quán)方式來獲得匹配模型。文獻(xiàn)[17]采用了一種動(dòng)態(tài)剪輯注意力機(jī)制,這種機(jī)制通過過濾權(quán)重較小的詞來去除噪聲,通過改變注意力計(jì)算方式提升答案選擇的語義匹配模型性能。
在應(yīng)用領(lǐng)域中,有學(xué)者針對(duì)通信領(lǐng)域[18]及醫(yī)療領(lǐng)域[19]研究了文本匹配任務(wù),但目前在電力領(lǐng)域真實(shí)數(shù)據(jù)集上進(jìn)行的文本匹配研究很少,本文在這一領(lǐng)域進(jìn)行了探索,并將本文模型投入實(shí)際應(yīng)用,取得了良好的應(yīng)用效果。
本文提出基于預(yù)訓(xùn)練模型及多視角循環(huán)神經(jīng)網(wǎng)絡(luò)的文本匹配模型,模型結(jié)構(gòu)如圖1所示。本模型利用BERT預(yù)訓(xùn)練模型獲取具有上下文語義的詞向量及句向量,用BERT-whitening方法[20]對(duì)句向量進(jìn)行線性變換操作,用MV-LSTM模型對(duì)詞向量計(jì)算文本對(duì)間的交互向量,再對(duì)句向量及交互向量進(jìn)行拼接后得到拼接向量,將其送入Highway網(wǎng)絡(luò)[21]中進(jìn)行優(yōu)化,然后在輸出向量的基礎(chǔ)上通過全連接網(wǎng)絡(luò)和Softmax操作得到結(jié)果。
圖1 模型結(jié)構(gòu)圖Fig.1 Model structure diagram
Transformer[22]是Google在2017年提出的一個(gè)新型網(wǎng)絡(luò)結(jié)構(gòu)。不像CNN只能獲取局部信息,也不像RNN需要逐步進(jìn)行信息提取,Transformer通過自注意力機(jī)制能夠直接獲取文本序列的全局信息,可以并行化操作,提高訓(xùn)練效率,因此,被大量地使用在自然語言處理領(lǐng)域中,促進(jìn)了以BERT[23]為代表的大規(guī)模預(yù)訓(xùn)練語言模型的發(fā)展。
Transformer中對(duì)句子的多頭自注意力計(jì)算過程如(1)—(3)式所示。
(1)
(2)
M=(h1⊕h2⊕…⊕hn)WO
(3)
BERT通過使用Transformer結(jié)構(gòu)的編碼器模塊,并應(yīng)用掩蔽語言模型和下一句預(yù)測(cè)兩個(gè)無監(jiān)督預(yù)測(cè)任務(wù)進(jìn)行預(yù)訓(xùn)練,能在大規(guī)模無監(jiān)督語料上訓(xùn)練獲得強(qiáng)大的文本表征能力,并獲得詞在不同語境下的含義。為了獲得詞在不同語境下的含義,本文模型先使用BERT對(duì)文本中的詞匯進(jìn)行嵌入表述,再得到句子序列的向量表示,對(duì)某一句子序列而言,本文獲取詞向量過程為
E=f([xCLS],x1,x2,…,xn,[xSEP])
(4)
(4)式中:f表示BERT模型編碼操作,xi表示句子中的一個(gè)單詞;[xCLS]表示句子開頭字符,該標(biāo)志對(duì)應(yīng)的輸出向量將作為整個(gè)句子的語義表示;[xSEP]表示模型識(shí)別句子的邊界。根據(jù)輸入獲得輸出為
E={eCLS,e1,e2,…,ei,…,en}
(5)
(5)式中,ei表示每個(gè)詞的上下文相關(guān)詞向量。
BERT由多個(gè)Transformer的編碼器層組成,其結(jié)構(gòu)如圖2所示。
圖2 BERT模型結(jié)構(gòu)圖Fig.2 BERT model structure diagram
圖2中,Trm表示Transformer,每一層的Transformer由一個(gè)多頭自注意力子層和一個(gè)全連接前饋神經(jīng)網(wǎng)絡(luò)子層組成,并在這兩個(gè)子層中加入殘差連接和層標(biāo)準(zhǔn)化計(jì)算。
BERT預(yù)訓(xùn)練模型在自然語言處理中取得了巨大的成功。然而,直接使用BERT模型中[eCLS]標(biāo)記對(duì)應(yīng)向量的句向量難以捕捉到句子的語義,在文本相似度任務(wù)中表現(xiàn)不好[24]。為了獲得更好的句子向量表示,本文采用BERT-whitening方法來對(duì)BERT模型輸出的[eCLS]進(jìn)行線性轉(zhuǎn)換,獲得優(yōu)化的句子向量表示。
句子向量間傳統(tǒng)的余弦相似度值計(jì)算公式為
(6)
(7)
μ的求解公式為
(8)
(9)
則可以得到轉(zhuǎn)換后的協(xié)方差矩陣為
(10)
新的協(xié)方差矩陣是單位矩陣,因而有
WTΣW=I
(11)
進(jìn)而有
Σ=(WT)-1W-1=(W-1)TW-1
(12)
協(xié)方差矩陣Σ是一個(gè)正定對(duì)稱矩陣,滿足SVD分解為
Σ=UΛUT
(13)
(14)
BERT-whitening方法的算法流程如算法1所示。
算法1 BERT-whitening算法
2.計(jì)算U,Λ,UT=SVD(Σ)
4.fori=1,2,…,Ndo
6.end for
對(duì)于文本匹配這樣的序列匹配問題,之前的工作常常將兩個(gè)待匹配的序列通過同種網(wǎng)絡(luò)編碼為兩個(gè)向量,再依據(jù)這兩個(gè)向量計(jì)算匹配度,但這種方式在整個(gè)編碼過程中兩個(gè)句子沒有明確的交互,為避免這一問題,本文采用MV-LSTM模型來將兩個(gè)句子在詞粒度上對(duì)句子對(duì)間不同位置的交互進(jìn)行建模。
根據(jù)BERT模型在序列匹配任務(wù)上的輸入格式,將某一句子首尾分別加上[eCLS]和[eSEP]后拼接為一個(gè)序列,再將序列中的每個(gè)單詞分別編碼為詞向量、段向量和位置向量,輸入BERT進(jìn)行編碼,則BERT輸出的序列E={eCLS,e1,e2,…,ei,…,en}對(duì)應(yīng)于句子的BERT表示序列,將單詞xi對(duì)應(yīng)的向量表示ei作為某一時(shí)刻的輸入xt輸入到BiLSTM網(wǎng)絡(luò)中,則LSTM單元得到詞匯向量新表示的計(jì)算公式為
it=σ(Wi·[ht-1,xt]+bi)
(15)
ft=σ(Wf·[ht-1,xt]+bf)
(16)
(17)
(18)
ot=σ(Wo[ht-1,xt]+bo)
(19)
ht=ot*tanh(Ct)
(20)
(15)—(20)式中:ft表示遺忘門;σ是sigmoid函數(shù);xt和ht-1分別是當(dāng)前時(shí)刻輸入和上一時(shí)刻隱藏狀態(tài);Wi、Wf和WC是學(xué)習(xí)的權(quán)重矩陣;bi、bc和bf為偏置值;it為輸入門。
將詞向量矩陣x=(x1,x2,…,xn)輸入到BiLSTM網(wǎng)絡(luò)中,則隱藏層的輸出為
(21)
(22)
(23)
給定兩個(gè)向量u和v,分別表示兩個(gè)句子在雙向LSTM中某一位置的輸出向量,計(jì)算交互張量為
(24)
(24)式中:s是交互計(jì)算后得到的張量;M[1:c]是張量參數(shù)的一個(gè)切片;Wuv和b是線性計(jì)算部分的參數(shù);f是一個(gè)非線性函數(shù),計(jì)算式為
f(z)=max(0,z)
(25)
兩個(gè)句子之間的匹配通常由一些強(qiáng)交互信號(hào)決定,使用k-最大池化操作來提取張量s中每個(gè)切片的前k個(gè)值以形成向量。這些向量進(jìn)一步連接到單個(gè)向量q來作為兩個(gè)序列間的交互向量。
將兩條句子x和y通過BERT輸出的句子向量經(jīng)過BERT-whitening方法轉(zhuǎn)換后得到的句向量xCLS和yCLS,再與句子對(duì)間通過MV-LSTM獲得的交互向量q拼接后形成向量υ,然后輸入到Highway網(wǎng)絡(luò)中進(jìn)行處理。拼接計(jì)算式為
υ=[xCLS:q:yCLS]
(26)
Highway網(wǎng)絡(luò)作為一種具有可學(xué)習(xí)門限機(jī)制的結(jié)構(gòu),可以在很大程度上緩解深層次網(wǎng)絡(luò)訓(xùn)練困難的問題。受LSTM門結(jié)構(gòu)理念的啟發(fā),Highway網(wǎng)絡(luò)設(shè)計(jì)了轉(zhuǎn)換門和攜帶門,通過這兩個(gè)門來控制信息流,可以基于梯度的方法快速訓(xùn)練深層網(wǎng)絡(luò),對(duì)輸入向量進(jìn)行合適的特征變換,從而提升效果。
對(duì)于向量υ,轉(zhuǎn)換門值T(υ)和攜帶門值C(υ)的計(jì)算式為
T(υ)=σ(Whυ+bh)
(27)
C(υ)=1-T(υ)
(28)
(27)—(28)式中:σ是非線性函數(shù);Wh是權(quán)重矩陣;bh是偏移向量。輸出向量C′計(jì)算式為
C′=τ(υ)*T(υ)+υ*C(υ)
(29)
(29)式中,τ為非線性函數(shù)。
將輸出向量C′輸入到全連接神經(jīng)網(wǎng)絡(luò),然后通過Softmax函數(shù)輸出歸一化后的各類別的概率分布,得到最終分類結(jié)果,即
O=Softmax(Wp×C′+bp)
(30)
(30)式中:Wp表示參數(shù)矩陣;bp為偏置。
本文通過最小化交叉熵?fù)p失函數(shù)對(duì)模型參數(shù)進(jìn)行更新,即
(31)
(31)式中:yi表示真實(shí)匹配值;pi表示模型預(yù)測(cè)的匹配值;N表示模型訓(xùn)練樣本總數(shù)。
本文實(shí)驗(yàn)所用數(shù)據(jù)集來源于電力系統(tǒng),包括兩個(gè)數(shù)據(jù)集。第一個(gè)數(shù)據(jù)集是運(yùn)維項(xiàng)目數(shù)據(jù)集,該數(shù)據(jù)集從某省電力運(yùn)維服務(wù)項(xiàng)目管理系統(tǒng)中采集而來,通過對(duì)系統(tǒng)中2016—2019年運(yùn)維服務(wù)項(xiàng)目的項(xiàng)目摘要文本進(jìn)行整理后,得到2 000條樣本,其中每條樣本包含一對(duì)數(shù)據(jù)。通過人工方式進(jìn)行標(biāo)注,628條相似文本對(duì)樣本,標(biāo)簽設(shè)為1;1 372條非相似文本對(duì)樣本,標(biāo)簽設(shè)為0。另一個(gè)數(shù)據(jù)集為相似問句數(shù)據(jù)集,來源于某省電力運(yùn)維知識(shí)庫(kù)系統(tǒng),通過采集系統(tǒng)中用戶2019年的檢索文本而得,并進(jìn)行了人工標(biāo)注。該數(shù)據(jù)集包括8 000條樣本,每條樣本由一對(duì)問句組成,如果為相似問句則標(biāo)注為1,否則為0。數(shù)據(jù)集中相似問句對(duì)樣本有4 000條。兩個(gè)數(shù)據(jù)集的詳細(xì)信息如表1所示。
表1 數(shù)據(jù)集概況Tab.1 Datasets overview
本文模型采用google提供的中文版預(yù)訓(xùn)練BERT-Base模型(https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip)獲取詞向量。該預(yù)訓(xùn)練模型有12個(gè)Transformer層,768個(gè)隱藏層,12個(gè)自注意力頭,參數(shù)110 M。文本長(zhǎng)度128,超長(zhǎng)截?cái)?不足補(bǔ)零。采用Adam算法優(yōu)化模型,學(xué)習(xí)率為1e-5,drop-out值設(shè)置為0.1。
本文評(píng)價(jià)指標(biāo)選取了準(zhǔn)確率P、召回率RRECALL、F1值和準(zhǔn)確率RAcc等指標(biāo)來評(píng)價(jià)模型,計(jì)算公式為
(32)
(33)
(34)
(35)
(32)—(35)式中,NTP表示模型預(yù)測(cè)標(biāo)簽和真實(shí)標(biāo)簽都為1的樣本數(shù);NTN表示模型預(yù)測(cè)為0,真實(shí)標(biāo)簽也為0的樣本數(shù);NFP表示模型預(yù)測(cè)為1,真實(shí)標(biāo)簽為0的樣本數(shù);NFN表示模型預(yù)測(cè)為0,真實(shí)標(biāo)簽為1的樣本數(shù)。
本文選取了如下模型進(jìn)行比較。
1)CDSSM[14]。該模型通過卷積神經(jīng)網(wǎng)絡(luò)得到待匹配文本的向量表示,將這兩個(gè)向量輸入全連接網(wǎng)絡(luò)中進(jìn)行計(jì)算。
2)ACRII[25]。該模型將兩個(gè)文本進(jìn)行一維卷積,對(duì)卷積結(jié)果構(gòu)造出一個(gè)二維交互矩陣,然后將交互矩陣輸入卷積神經(jīng)網(wǎng)絡(luò)得到表示向量,最后將該向量輸入到全連接神經(jīng)網(wǎng)絡(luò)得到匹配度。
3)MV-LSTM[15]。該模型使用BiLSTM獲取兩個(gè)句子序列中的每個(gè)位置的向量,再得到交互矩陣,通過K-最大池化和全連接網(wǎng)絡(luò)計(jì)算兩個(gè)句子的匹配度。
4)ESIM[26]。該模型將兩個(gè)文本的詞向量輸入到BiLSTM網(wǎng)絡(luò)后并結(jié)合注意力機(jī)制來得到雙向注意力加權(quán)向量表示,通過分析文本詞向量與注意力加權(quán)向量間的差異得到文本匹配度。
5)BIMPM[27]。該模型通過BiLSTM得到兩個(gè)句子序列中不同位置的向量,再將兩句子的向量進(jìn)行相互比較得到不同粒度的匹配信息,并利用BiLSTM聚合比較結(jié)果,最后使用全連接神經(jīng)網(wǎng)絡(luò)計(jì)算文本匹配度。
6)DRCN[28]。該模型將詞向量與字符向量拼接后輸入通過Dense連接的循環(huán)神經(jīng)網(wǎng)絡(luò),得到能表示上下文的語義向量,再將這個(gè)向量與注意力加權(quán)后的向量進(jìn)行交互,最后通過全連接神經(jīng)網(wǎng)絡(luò)完成文本匹配度計(jì)算。
7)BERT-base。該模型利用BERT輸出的eCLS向量作為句子向量表示,通過Softmax函數(shù)得出文本對(duì)間的匹配度。
8)BERT-BiLSTM。該模型利用BiLSTM對(duì)BERT輸出的除eCLS的詞向量表示作為輸入,將BiLSTM的輸出與BERT模型的eCLS向量拼接后輸入全連接層,通過Softmax函數(shù)計(jì)算兩句子的文本匹配度。
9)BERT-CNN。該模型與BERT-BiLSTM類似,只是將BiLSTM換成了CNN網(wǎng)絡(luò)。
10)BERT-Whitening-Base。該模型對(duì)BERT輸出的eCLS向量用BERT-Whitening方法進(jìn)行轉(zhuǎn)換后作為句子向量表示,通過Softmax函數(shù)得出文本對(duì)間的匹配概率。
11)BERT-Whitening-BiLSTM。該模型與BERT-BiLSTM類似,只是將BERT輸出的eCLS向量用BERT-Whitening方法進(jìn)行轉(zhuǎn)換后作為句子向量表示。
12)BERT-Whitening-CN。該模型與BERT-CNN類似,只是將BERT輸出的eCLS向量用BERT-Whitening方法進(jìn)行轉(zhuǎn)換后作為句子向量表示。
13)FMMI[29]。該模型通過提取文本中的多個(gè)粒度信息并結(jié)合注意力機(jī)制[30]來進(jìn)行文本匹配。
兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2—表3所示。
表2 運(yùn)維項(xiàng)目數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.2 Experimental results on the operation and maintenance project dataset %
表3 相似問句數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.3 Experimental results on similar questions dataset %
從表2—表3可以得出以下結(jié)論。
1)本文模型各個(gè)指標(biāo)均比其他模型更好。表2顯示,本文模型的F1指標(biāo)相比其他模型中的最好值提升3.30%,RACC指標(biāo)相比其他模型中的最好值提升4.78%;表3顯示,本文模型的F1指標(biāo)相比其他模型中的最好值提升3.44%,RACC指標(biāo)相比其他模型中的最好值提升3.69%。上述結(jié)果表明了本文模型的有效性。此外,本文模型在相似問句數(shù)據(jù)集上的F1和RACC指標(biāo)值高于運(yùn)維項(xiàng)目數(shù)據(jù)集上的對(duì)應(yīng)指標(biāo)值,原因是運(yùn)維項(xiàng)目數(shù)據(jù)集樣本的文本長(zhǎng)度大約是相似問句數(shù)據(jù)集中的文本長(zhǎng)度的7倍,而輸入BERT模型的數(shù)據(jù)長(zhǎng)度有限制,數(shù)據(jù)截?cái)鄼C(jī)制造成了信息的損失,一定程度上造成了模型在長(zhǎng)文本上的性能損失。
2)本文模型與BERT-Whitening-Base模型相比,獲得了性能的大幅提升。這說明了本文模型的句子對(duì)雙向交互機(jī)制的有效性,也表明對(duì)于文本匹配中考慮兩句子之間雙向交互的計(jì)算有利于提升模型效果。此外,其他模型雖然也對(duì)兩句子進(jìn)行了交互,但本文模型相比于其他模型更有效,原因在于本文模型結(jié)合了句子級(jí)別的向量表示與句子間詞粒度的交互向量,并充分發(fā)掘了大規(guī)模預(yù)訓(xùn)練語言模型的表示能力。
3)從向量表示的角度,依據(jù)BERT-Whitening-Base與BERT-Base、BERT-Whitening-BiLSTM與BERT-BiLSTM、BERT-Whitening-CNN與BERT-CNN的實(shí)驗(yàn)結(jié)果值來看,以BERT-Whitening方法為基礎(chǔ)而獲得的句子向量表示方式在兩個(gè)數(shù)據(jù)集上的各個(gè)指標(biāo)上均比以BERT模型輸出的eCLS句子向量表示的結(jié)果有一定的提升。這說明BERT-Whitening方法所得到的句向量相比于BERT模型得到的句向量更能代表句子語義,也說明BERT-Whitening方法通過對(duì)句子向量進(jìn)行轉(zhuǎn)換以強(qiáng)制使其具有各向同性特性后,能得到更優(yōu)化的句子表示向量。
針對(duì)文本匹配方法中存在的問題,本文提出了基于BERT預(yù)訓(xùn)練模型和句子對(duì)之間雙向交互機(jī)制的文本匹配模型。該模型基于BERT模型的輸出向量來進(jìn)行線性轉(zhuǎn)換,獲得句子的向量表示,并結(jié)合兩個(gè)句子在詞粒度上細(xì)粒度的交互向量,通過Highway網(wǎng)絡(luò)進(jìn)行優(yōu)化后,計(jì)算文本匹配度。實(shí)驗(yàn)驗(yàn)證了本文模型的可行性和有效性。目前,本文模型已投入實(shí)際應(yīng)用,有效地提升了電力運(yùn)維服務(wù)的效率。下一步研究將嘗試擴(kuò)大數(shù)據(jù)集的規(guī)模,并采集電力領(lǐng)域其他業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)來構(gòu)建新的數(shù)據(jù)集,提升文本匹配模型性能,并通過在實(shí)際系統(tǒng)中的應(yīng)用來進(jìn)一步增強(qiáng)其實(shí)用性。