亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于池化和特征組合增強(qiáng)BERT的答案選擇模型

        2023-02-24 05:00:52陳曉茜
        計(jì)算機(jī)應(yīng)用 2023年2期
        關(guān)鍵詞:語義準(zhǔn)確率函數(shù)

        胡 婕,陳曉茜,張 龑,2

        (1.湖北大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,武漢 430062;2.湖北省教育信息化工程技術(shù)研究中心(湖北大學(xué)),武漢 430062)

        0 引言

        答案選擇[1-2]是從候選答案池中找到與問題最相符的答案。它是一種句子匹配任務(wù)[3],即判斷兩個(gè)句子之間的相似度,是問答(Question Answering,QA)系統(tǒng)中非常重要的子任務(wù)。

        隨著深度學(xué)習(xí)的發(fā)展,許多深度學(xué)習(xí)技術(shù)被應(yīng)用到答案選擇任務(wù)上。預(yù)訓(xùn)練模型出現(xiàn)之前,用得比較多的是雙向長短期記憶(Bi-directional Long Short-Term Memory,BiLSTM)網(wǎng)絡(luò)。如Neculoiu 等[4]提出的Siamese-BiLSTM 模型結(jié) 合BiLSTM 與Siamese 體系結(jié)構(gòu)來提取問答對(duì)的語義特征,然后采用余弦函數(shù)計(jì)算問答對(duì)的相似度;但是單一的BiLSTM 網(wǎng)絡(luò)難以捕捉問題和答案的語義信息以及字符序列上下文關(guān)系方面的特征。由于隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)主題模型[5]可以為文本匹配提供主題信息,文獻(xiàn)[6-7]中將LDA 主題模型應(yīng)用到文本匹配任務(wù)中,幫助理解句子對(duì)的語義信息。在結(jié)合主題模型的應(yīng)用上有不同的策略,Wu 等[7]提出了ECNU(traditional method of Extracting features and Convolutional Neural Network)模型,它使用包括基于主題模型的特征在內(nèi)的多種類型的特征與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)結(jié)合表示問答對(duì)的語義。相較于Siamese-BiLSTM 模型和LDA 主題模型,它進(jìn)一步增強(qiáng)了句子對(duì)的語義表示,但沒有充分考慮問題和答案之間的交互,容易丟失重要的信息。為了更好地實(shí)現(xiàn)問題和答案之間的信息交互,注意力機(jī)制被引入到答案選擇任務(wù)中,Wen等[8]提出了UIA-LSTM-CNN(User Interaction Attention-Long Short Term Memory-Convolutional Neural Network)模型。該模型利用CNN 和LSTM 混合模式的注意力機(jī)制學(xué)習(xí)問題和答案的語義信息,并將用戶信息作為答案選擇任務(wù)的額外特征。上述模型挖掘了問題和答案中的隱含信息,但是由于引入的用戶信息存在噪聲問題,Xie 等[9]提出了AUANN(Attentive User-engaged Adversarial Neural Network)模型,進(jìn)一步改進(jìn)引入用戶信息的模型,利用對(duì)抗訓(xùn)練模塊過濾與問題不相關(guān)的用戶信息。上述模型大多使用word2vec[10]或者GloVe(Global Vectors)[11]詞嵌入方法進(jìn)行詞向量表示,表示方法都是靜態(tài)固定的,無法表示上下文語義信息。

        Google 公司發(fā)布的預(yù)訓(xùn)練模型BERT(Bidirectional Encoder Representations from Transformers)[12]改變了自然語言處理(Natural Language Processing,NLP)任務(wù)中的模型架構(gòu)范式,在自然語言處理領(lǐng)域很多任務(wù)都取得較好的效果。Laskar 等[13]將預(yù)訓(xùn)練模型BERT 應(yīng)用到答案選擇任務(wù)上,使用預(yù)訓(xùn)練模型BERT 中的[CLS]表示問題和答案的語義,然后通過softmax 層計(jì)算問題和答案的相似度。與CNN 和BiLSTM 相比,預(yù)訓(xùn)練模型BERT 可以通過深層模型獲取問題和答案豐富的語義信息;但是,使用BERT 學(xué)習(xí)到的語義特征不夠豐富,容易造成文本匹配的語義缺失。近年來,由于圖神經(jīng)網(wǎng)絡(luò)可以保存全局信息,Chen 等[14]提出了GMNBERT(Graph Matching Networks-Bidirectional Encoder Representations from Transformers)模型。該模型使用BERT獲得每個(gè)詞的上下文表示,將對(duì)應(yīng)的詞嵌入轉(zhuǎn)換為節(jié)點(diǎn)嵌入,并利用圖匹配模塊來計(jì)算兩個(gè)文本的圖級(jí)表示的相似性。盡管基于圖神經(jīng)網(wǎng)絡(luò)的方法能夠捕捉句子的全局信息,但該方法各節(jié)點(diǎn)信息沒有充分交互。為了有效提取句子對(duì)的語義信息,Peinelt 等[15]提出了tBERT(topic models with Bidirectional Encoder Representations from Transformers)模型,該模型使用預(yù)訓(xùn)練模型BERT 提取句子對(duì)的語義信息,同時(shí)利用LDA 主題模型輔助表示句子對(duì)的語義,取得不錯(cuò)的效果。然而,該模型仍然存在如下問題:首先,tBERT 模型使用BERT 輸出的[CLS]來表示句子對(duì)語義,不能完整地提取問答對(duì)的語義信息。對(duì)BERT 的輸出向量取平均作為問答對(duì)的語義信息效果更好[16]。其次,tBERT 模型將兩個(gè)句子的主題信息和它們的語義表示簡單地拼接在一起,無法挖掘問答對(duì)主題信息的聯(lián)系,影響模型整體的表達(dá)能力。通過對(duì)提取的兩個(gè)句子特征進(jìn)行特征組合,能更有效地識(shí)別句子間的相關(guān)性[17]。最后,隱藏層中的tanh 激活函數(shù)存在軟飽和與梯度消失問題,影響模型的性能。

        針對(duì)上述模型存在的問題,本文在tBERT 模型的基礎(chǔ)上進(jìn)行改進(jìn)。首先利用BERT 模型對(duì)語料進(jìn)行微調(diào),為了提升模型的魯棒性,在嵌入層增加了對(duì)抗訓(xùn)練;然后對(duì)BERT 的輸出向量和對(duì)抗樣本取平均作為問答對(duì)的語義信息;同時(shí)使用LDA 主題模型提取問題和答案的主題信息輔助模型理解問答對(duì)的語義;其次,使用點(diǎn)積操作、按位減操作對(duì)問題和答案的主題特征進(jìn)行組合,提升問題和答案主題信息間的聯(lián)系;接著,拼接問答對(duì)的語義信息與組合后的主題信息,由隱藏層和softmax 層做最終處理;最后,結(jié)合tanh 和ReLU(Rectified Linear Unit)激活函數(shù)的優(yōu)點(diǎn),設(shè)計(jì)了一種新的激活函數(shù),提升了模型的性能。實(shí)驗(yàn)結(jié)果表明,本文模型在SemEval-2016CQA[18]和SemEval-2017CQA[19]數(shù)據(jù)集上的F1值達(dá)到了76.1%和79.9%,相較于基線模型都有所提升,從而驗(yàn)證了本文采用對(duì)BERT 的輸出加入對(duì)抗訓(xùn)練并取平均作為問答對(duì)的語義表示、對(duì)問答對(duì)的主題特征進(jìn)行組合以及改進(jìn)激活函數(shù)方法的有效性。

        1 本文模型

        本文模型結(jié)構(gòu)如圖1 所示。編碼層對(duì)預(yù)處理完成后的問題和答案進(jìn)行編碼并加入對(duì)抗訓(xùn)練;池化層對(duì)編碼層的問題和答案編碼以及對(duì)抗樣本進(jìn)行語義提取;主題信息提取層對(duì)輸入問答對(duì)的主題信息進(jìn)行提?。惶卣鹘M合層通過點(diǎn)積操作、按位減操作進(jìn)一步關(guān)聯(lián)問答對(duì)的主題信息,然后將組合后的主題信息與問答對(duì)的語義信息進(jìn)行拼接;最后將拼接后的結(jié)果經(jīng)過隱藏層和softmax層計(jì)算得到問題和答案的相似度。

        圖1 本文模型結(jié)構(gòu)Fig.1 Structure of proposed model

        本文模型通過在tBERT 模型基礎(chǔ)上新增對(duì)抗訓(xùn)練、池化層、特征組合層以及改進(jìn)激活函數(shù),使問答對(duì)的語義具有更加豐富的表示,有效完成答案選擇任務(wù)。

        1.1 編碼層

        編碼層使用預(yù)訓(xùn)練模型BERT 對(duì)問題和答案進(jìn)行編碼,預(yù)訓(xùn)練模型BERT 采用多層雙向Transformer 的Encoder 結(jié)構(gòu),解決了傳統(tǒng)語言模型單向的局限性以及長期依賴的問題。本文使用的BERT-base 模型,包含12 個(gè)編碼塊。BERT語言模型有兩個(gè)任務(wù):第一個(gè)任務(wù)是在句子中隨機(jī)遮擋一部分單詞,模型利用上下文信息來預(yù)測這些被遮擋的單詞;第二個(gè)任務(wù)是預(yù)測下一個(gè)句子。BERT 預(yù)訓(xùn)練階段結(jié)合這兩個(gè)任務(wù)同時(shí)進(jìn)行,BERT 模型結(jié)構(gòu)如圖2 所示。

        圖2 BERT模型結(jié)構(gòu)Fig.2 Structure of BERT model

        為了應(yīng)對(duì)下游任務(wù),BERT給出了句子級(jí)別的表示。如果BERT 的輸入是兩個(gè)句子,需要在句子的頭部添加標(biāo)識(shí)符[CLS],兩個(gè)句子之間以及句子末尾使用分隔符號(hào)[SEP]。句子中的每個(gè)單詞由字嵌入向量、分段嵌入向量和位置編碼向量三部分組成,其中字嵌入向量的起始單詞嵌入為E[CLS],分隔符為E[SEP],最后一個(gè)單詞嵌入為E[SEP]。分段嵌入向量是用來區(qū)分兩個(gè)輸入句子,對(duì)這兩個(gè)句子中的單詞分配不同的編碼(例如:A句子用0編碼,B句子用1編碼)。位置編碼向量表示單詞在句中的位置不同可能會(huì)導(dǎo)致完全不同的語義。將問題和答案用整合后的向量表示,作為BERT 的輸入,通過堆疊12個(gè)Transformer編碼塊,得到輸出向量,表示為:

        其中:C、F1、Fn、Fm'分別為問題和答案中的每個(gè)單詞經(jīng)過BERT 后的向量表示。

        對(duì)抗訓(xùn)練通過在原始輸入上增加對(duì)抗擾動(dòng)來提高模型的魯棒性。受文獻(xiàn)[9]的啟發(fā),本文在經(jīng)過預(yù)訓(xùn)練模型BERT處理后獲得的初始向量表示后,添加擾動(dòng)進(jìn)行對(duì)抗訓(xùn)練。將通過預(yù)訓(xùn)練模型BERT 后的輸出向量{C,F(xiàn)1…Fn…Fm'}定義為F,對(duì)抗樣本Fadv的計(jì)算公式為:

        其中:ε是擾動(dòng)ηadv的無限范數(shù)最大值,g表示梯度,θ是模型參數(shù),ηadv是添加的擾動(dòng),?F表示輸入F求導(dǎo)得到的梯度。對(duì)抗訓(xùn)練在一個(gè)步驟中做了兩次梯度更新:第一次做梯度上升是為了找到最佳擾動(dòng)ηadv,使得損失最大;第二次做梯度下降是為了找到最佳模型參數(shù),使得損失最小。

        生成對(duì)抗樣本之后,原始向量表示和對(duì)抗樣本一同輸入到池化層。

        1.2 池化層

        經(jīng)過預(yù)訓(xùn)練模型BERT 后,得到問題和答案的句子表示。先前的工作一般使用BERT 中的[CLS]作為問答對(duì)的語義表示,[CLS]雖然可以代表整個(gè)句子的語義,但是沒有考慮到每個(gè)token 的信息,可能造成語義信息的丟失。考慮到這些問題以及池化層可以去除冗余信息,壓縮信息的特征。為了進(jìn)一步挖掘問題和答案的語義信息,本文對(duì)BERT 的輸出以及對(duì)抗樣本取平均作為問答對(duì)的語義表示。池化通常分為平均池化和最大池化兩種:最大池化不能將整個(gè)句子的語義信息保留下來,因此本文使用平均池化提取問答對(duì)的語義信息;平均池化方法沿著文本長度和嵌入維度求均值,實(shí)現(xiàn)隱藏序列到向量的轉(zhuǎn)換。問答對(duì)的語義表示C1表示為:

        1.3 主題信息提取層

        為了增強(qiáng)問題和答案的語義特征,該層使用LDA 主題模型[5]提取問答對(duì)的主題信息。LDA 主題模型是一個(gè)三層貝葉斯概率模型,該模型認(rèn)為一篇文檔有多個(gè)主題,每個(gè)主題對(duì)應(yīng)不同的詞。在LDA 模型中,假設(shè)n篇文檔中含有K個(gè)主題,w表示每篇文檔對(duì)應(yīng)的單詞,z表示每篇文檔中單詞對(duì)應(yīng)的主題,θ表示每篇文檔的主題概率,服從先驗(yàn)參數(shù)α的狄利克雷分布,Φ表示每個(gè)主題對(duì)應(yīng)詞的概率,服從先驗(yàn)參數(shù)β的狄利克雷分布,模型結(jié)構(gòu)如圖3 所示。

        圖3 LDA模型結(jié)構(gòu)Fig.3 Structure of LDA model

        LDA 提取主題詞的過程為:首先,對(duì)于給定的文檔生成一個(gè)隱狄利克雷分布模型,得到θ作為主題-文檔分布;然后,對(duì)于每個(gè)主題,根據(jù)先驗(yàn)參數(shù)β的狄利克雷分布得到主題詞的分布Φ;最后,根據(jù)主題詞分布和主題文檔分布得到z和w。本文采用當(dāng)前LDA 模型中主流的采樣方法——吉布斯采樣算法求解得到全局主題z的分布和詞語的分布,需要確定3 個(gè)超參數(shù)α、β和最優(yōu)主題數(shù)K,其中α和β使用默認(rèn)值,K通過困惑度計(jì)算確定。計(jì)算公式為:

        其中:D為語料庫中的訓(xùn)練集,共M個(gè)問答對(duì),di為句子i中的詞,p(di)為句子中詞di產(chǎn)生的概率,Ni為每個(gè)句子中的單詞數(shù)。

        通過LDA 主題模型,可以判斷問答對(duì)的主題信息分布是否一致。首先將問題和答案輸入到主題模型,計(jì)算每個(gè)詞的主題分布,計(jì)算公式為:

        其中:i表示問答對(duì)中單詞的序號(hào),Ti表示每個(gè)問題和答案中對(duì)應(yīng)的單詞。然后,分別對(duì)問題和答案所有詞的主題分布取平均獲得問題和答案的主題信息表示W(wǎng)1和W2,如下式:

        其中:n表示每個(gè)問題中的單詞個(gè)數(shù),m表示每個(gè)答案中的單詞個(gè)數(shù),wi表示每個(gè)問題中對(duì)應(yīng)單詞的主題信息,wi表示每個(gè)答案中對(duì)應(yīng)單詞的主題信息。

        1.4 特征組合層

        僅使用LDA 主題模型提取問題和答案主題特征,容易忽略上下文詞匯間的語義關(guān)聯(lián),需要進(jìn)一步組合這些特征加強(qiáng)問題和答案的主題信息之間的邏輯關(guān)系。特征組合層對(duì)問題和答案的主題信息實(shí)現(xiàn)組合并捕捉它們的主題信息,從而使得問題的主題特征向量包括答案的主題特征,這樣可以過濾掉與問題主題不相關(guān)的答案。例如,問題的主題是“去哪里吃飯”,相對(duì)應(yīng)的答案的主題是“在飯店吃炒雞”,通過特征組合層可以加強(qiáng)兩個(gè)主題的聯(lián)系,把注意力重點(diǎn)放在主題上,判斷這兩個(gè)主題是否有關(guān)聯(lián)。

        文獻(xiàn)[15]使用拼接、按位乘和按位減操作提取兩個(gè)句子的特征。該方法能夠有效識(shí)別句子間的相關(guān)性,但是對(duì)于問答對(duì)主題特征而言,拼接和按位乘操作不能有效建立特征之間的聯(lián)系,而點(diǎn)積操作可以使它們進(jìn)行更充分的組合。為了更好地捕捉問答對(duì)主題特征間的聯(lián)系,本文使用點(diǎn)積和按位減操作對(duì)問答對(duì)的主題特征W1、W2進(jìn)行組合。

        通過使用點(diǎn)積和按位減兩種操作,得到兩種不同的特征W1·W2和W1-W2。將這兩種特征與問答對(duì)的語義特征進(jìn)行拼接得到最終的組合特征F',如式(10)所示:

        其中:“;”表示拼接,“·”表示點(diǎn)積操作,“-”表示按位減操作,C1為問答對(duì)的語義表示,W1和W2分別為問題和答案的主題信息表示。

        1.5 輸出層

        得到組合特征向量F后,應(yīng)用隱藏層和softmax 層得到模型的輸出,最終得到問答對(duì)相似度概率y',如式(11)所示:

        在隱藏層中,tBERT 模型使用tanh 激活函數(shù)。激活函數(shù)的作用是把激活神經(jīng)元的特征通過非線性函數(shù)把特征保留并映射出來,也決定了信號(hào)網(wǎng)絡(luò)中能否傳遞。因此,激活函數(shù)影響整個(gè)網(wǎng)絡(luò)的性能。由于tanh 函數(shù)的取值范圍在[-1,1]區(qū)間內(nèi),存在軟飽和性以及梯度消失的問題,近年來,深度學(xué)習(xí)網(wǎng)絡(luò)中經(jīng)常使用ReLU 函數(shù),相較于tanh 函數(shù)具有較快的收斂性,但是沒有負(fù)值激活會(huì)導(dǎo)致權(quán)重?zé)o法更新,存在神經(jīng)元死亡的現(xiàn)象。為了克服tanh 函數(shù)和ReLU 函數(shù)的缺點(diǎn),本文提出一種新的激活函數(shù),定義如下:

        該激活函數(shù)的正半軸使用ReLU 的正半軸,負(fù)半軸使用的函數(shù)在tanh 基礎(chǔ)上增大了中心區(qū)域的梯度,降低了飽和的速度。

        相較于使用tanh 作為隱藏層的激活函數(shù),本文提出的激活函數(shù)有以下優(yōu)點(diǎn):

        1)正半軸使用ReLU 激活函數(shù),緩解了梯度消失的問題。由于在正半軸,函數(shù)的導(dǎo)數(shù)值恒為1,這樣保證了正半軸梯度不衰減。

        2)激活負(fù)值,在tanh 函數(shù)的基礎(chǔ)上增大中心區(qū)域的梯度,緩解了快速飽和的問題。

        3)降低噪聲,該函數(shù)在負(fù)半軸具有軟飽和性,意味著可以減小輸出到下一層信息的變化。因此,它表現(xiàn)出來的特征可以降低噪聲。

        1.6 模型訓(xùn)練

        在本文中,通過捕捉問答對(duì)之間的語義信息來計(jì)算它們的相似度。本文應(yīng)用交叉熵?fù)p失函數(shù)來衡量答案標(biāo)簽的真實(shí)概率分布和預(yù)測概率分布之間的差值:

        其中:M為問答對(duì)的訓(xùn)練數(shù)量,y為樣本真實(shí)值,為樣本預(yù)測值。

        為了防止過擬合,本文采用早期停止法訓(xùn)練模型[13]:為了降低梯度,當(dāng)測試誤差停止降低并開始增大時(shí),就停止訓(xùn)練。模型訓(xùn)練是為了在訓(xùn)練過程中不斷地更新參數(shù),盡可能地減小模型的總損失。

        2 實(shí)驗(yàn)與分析

        2.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

        2.1.1 數(shù)據(jù)集

        為了驗(yàn)證本文模型的有效性,在兩個(gè)被廣泛使用的社區(qū)問答公開數(shù)據(jù)集SemEval-2016CQA 和SemEval-2017CQA 上做對(duì)比實(shí)驗(yàn)。它們的驗(yàn)證集相同,訓(xùn)練集和測試集不同。這兩個(gè)數(shù)據(jù)集是由卡塔爾生活論壇創(chuàng)建的,每個(gè)評(píng)論上都被貼上“好”“壞”或者“可能有用”的標(biāo)簽。本文將“好”作為正樣本,其他標(biāo)簽作為負(fù)樣本。為了驗(yàn)證激活函數(shù)改進(jìn)的可行性,在一個(gè)公開數(shù)據(jù)集MSRP 上做對(duì)比實(shí)驗(yàn)。該數(shù)據(jù)集是用于釋義識(shí)別的數(shù)據(jù)集,兩個(gè)句子是否互為釋義,是微軟研究釋義構(gòu)建的語料庫。詳細(xì)信息如表1 所示。

        表1 數(shù)據(jù)集描述Tab.1 Description of datasets

        2.1.2 評(píng)估標(biāo)準(zhǔn)

        在實(shí)驗(yàn)中,不同的評(píng)價(jià)指標(biāo)能夠從不同的角度反映模型的性能。本文采用準(zhǔn)確率(Accuracy,Acc)和F1 值(F1)作為評(píng)價(jià)指標(biāo),這兩種評(píng)價(jià)指標(biāo)越高,代表模型的準(zhǔn)確率和綜合性能越好。準(zhǔn)確率是模型正確預(yù)測答案的樣本數(shù)占總樣本數(shù)的比例。F1 值是精確率和召回率的調(diào)和平均數(shù),精確率(Precision,P)表示的是正確預(yù)測標(biāo)準(zhǔn)答案占實(shí)際預(yù)測為標(biāo)準(zhǔn)答案的比例,而召回率(Recall,R)則表示預(yù)測標(biāo)準(zhǔn)答案占標(biāo)準(zhǔn)答案的比例。評(píng)價(jià)指標(biāo)的計(jì)算公式如下:

        其中:TP(True Positive)是預(yù)測該答案是正例且判定正確的次數(shù),TN(True Negative)是預(yù)測該答案為負(fù)例且判定正確的次數(shù),F(xiàn)P(False Positive)是預(yù)測該答案為正例但判斷錯(cuò)誤的次數(shù),F(xiàn)N(False Negative)是預(yù)測該答案為負(fù)例但判斷錯(cuò)誤的次數(shù)。

        2.2 實(shí)驗(yàn)設(shè)置

        本文實(shí)驗(yàn)在Python3.6,Tensorflow1.1,GTX5000 平臺(tái)上運(yùn)行。本文模型使用BERT-base 構(gòu)建,層數(shù)L=12,自注意力頭數(shù)A=12。其他超參數(shù)的設(shè)置如表2 所示。

        表2 參數(shù)設(shè)置Tab.2 Parameter setting

        2.3 對(duì)比模型

        實(shí)驗(yàn)對(duì)比的基線模型分為三類:第一類是傳統(tǒng)的文本匹配方法LDA 主題模型;第二類是基于CNN 和LSTM 的方法,分別是ECNU、Siamese-BiLSTM、UIA-LSTM-CNN 以及AUANN模型;第三類是基于預(yù)訓(xùn)練模型BERT 的方法,分別是BERT、GMN-BERT、BERT-pooling 以及tBERT 模型。這些模型的特點(diǎn)如下。

        1)LDA 主題模型[5]:一般用于獲取文檔的主題信息,是傳統(tǒng)且簡單的算法。在每個(gè)數(shù)據(jù)集的訓(xùn)練部分建立一個(gè)主題模型,并計(jì)算兩個(gè)句子主題分布之間的JS 散度(Jensen-Shannon Divergence,JSD)。如果JSD 大于閾值,該模型預(yù)測為負(fù)標(biāo)簽,否則預(yù)測為正標(biāo)簽。

        2)ECNU[7]:該模型采用GloVe 方法獲取靜態(tài)詞向量,結(jié)合傳統(tǒng)特征的監(jiān)督模型和CNN 表示問答對(duì)特征,最后拼接兩個(gè)特征向量并使用softmax 函數(shù)計(jì)算問題和答案的得分。

        3)Siamese-BiLSTM[4]:該模型是孿生神經(jīng)網(wǎng)絡(luò),左右兩邊的每一層網(wǎng)絡(luò)權(quán)重共享,使用BiLSTM 網(wǎng)絡(luò)對(duì)問題和答案進(jìn)行編碼,然后用余弦函數(shù)計(jì)算兩個(gè)編碼向量之間的相似度。

        4)UIA-LSTM-CNN[8]:該模型采用GloVe 方法獲取靜態(tài)詞向量,使用CNN 和LSTM 混合模式注意力機(jī)制,計(jì)算問題和答案句子中單詞的注意力權(quán)重以及對(duì)應(yīng)句子中每個(gè)單詞對(duì)一個(gè)句子中單詞的注意力,結(jié)合這兩種注意力機(jī)制能夠使問答對(duì)中的大部分信息進(jìn)行句子匹配。此外,利用學(xué)習(xí)到對(duì)問答有用的用戶信息完成答案選擇任務(wù)。

        5)AUANN[9]:該模型與UIA-LSTM-CNN 方法相似,利用用戶信息學(xué)習(xí)問答對(duì)的上下文信息。不同的是,為了解決引入用戶信息而產(chǎn)生的噪聲問題,設(shè)計(jì)一個(gè)去噪機(jī)制,采用粗粒度和細(xì)粒度的選擇過程,通過計(jì)算答案和用戶信息的相似性以及對(duì)抗訓(xùn)練兩個(gè)方法過濾掉與問答不相關(guān)的用戶信息。

        6)BERT[13]:該模型僅使用BERT 中的[CLS]表示問題和答案的語義,然后通過全連接層和分類器來完成答案選擇任務(wù)。

        7)GMN-BERT[14]:該模型使用預(yù)訓(xùn)練模型BERT 獲得每個(gè)單詞的上下文表示,然后將上下文節(jié)點(diǎn)作為圖節(jié)點(diǎn)的初始表示,通過消息傳播和更新表示兩個(gè)步驟,使得每個(gè)節(jié)點(diǎn)既包含可到達(dá)節(jié)點(diǎn)的信息又包含了與另一個(gè)圖中所有節(jié)點(diǎn)成對(duì)比較的信息。最后使用兩個(gè)圖級(jí)表示預(yù)測句子對(duì)的相似性。

        8)BERT-Pooling:該模型在預(yù)訓(xùn)練模型BERT 的輸出層僅使用池化操作表示問答對(duì)的語義。

        9)tBERT[15]:該模型分別用LDA 和GSDMM(Gibbs Sampling algorithm for the Dirichlet Multinomial Mixture model)主題模型與BERT 結(jié)合完成語義相似度檢測任務(wù),其中LDA主題模型適合長文本,GSDMM 主題模型適合短文本。由于本文使用的數(shù)據(jù)集是長文本,故與LDA 主題模型結(jié)合BERT的tBERT 模型對(duì)比。該方法僅使用BERT 中的[CLS]表示問答對(duì)的語義,簡單地與問答對(duì)的主題信息進(jìn)行拼接。

        2.4 實(shí)驗(yàn)分析

        首先在tBERT 模型中加入對(duì)抗訓(xùn)練(Adversarial Training,AT)并引入池化操作,然后引入主題信息特征組合并改進(jìn)激活函數(shù)。為了驗(yàn)證模型改進(jìn)思路的可行性,分別對(duì)tBERT 模型及其改進(jìn)模型進(jìn)行實(shí)驗(yàn)對(duì)比。

        首先驗(yàn)證在tBERT 模型中加入對(duì)抗訓(xùn)練并引入池化操作改變問答對(duì)語義特征提取方式的可行性。問答對(duì)語義信息的提取非常重要,本文考慮到每個(gè)token 的信息以及模型的魯棒性,先對(duì)BERT 的輸出加入擾動(dòng)生成對(duì)抗樣本,然后對(duì)原始向量和對(duì)抗樣本取平均作為問答對(duì)的語義表示。在tBERT 模型中分別加入對(duì)抗訓(xùn)練和引入池化操作并將兩者疊加的結(jié)果如表3 所示。

        表3 tBERT、tBERT-AT、tBERT-pooling和tBERT-AT-pooling模型的準(zhǔn)確率和F1值的對(duì)比 單位:%Tab.3 Comparison of accuracy and F1 scores of tBERT,tBERT-AT,tBERT-pooling,and tBERT-AT-pooling models unit:%

        由表3 可知,僅加入對(duì)抗訓(xùn)練,提高了模型的魯棒性。對(duì)tBERT 和tBERT-pooling 分別引入對(duì)抗訓(xùn)練后,改進(jìn)后的模型的準(zhǔn)確率和F1 值在SemEval-2016CQA 數(shù)據(jù)集下相較于原模型分別提高了1 和0.8 個(gè)百分點(diǎn),0.8 和0.9 個(gè)百分點(diǎn);在SemEval-2017CQA 數(shù)據(jù)集上分別提高了0.9 和1.1 個(gè)百分點(diǎn),1 和0.9 個(gè)百分點(diǎn)。僅引入池化操作改變問答對(duì)語義特征的提取方式,改進(jìn)后模型的準(zhǔn)確率和F1 值在SemEval-2016CQA 數(shù)據(jù)集上相較于tBERT、tBERT-AT 模型分別提高了0.4 和0.3 個(gè)百分點(diǎn),0.2 和0.4 個(gè)百分點(diǎn);在SemEval-2017CQA 數(shù)據(jù)集上分別提高了0.3 和0.4 個(gè)百分點(diǎn),0.2 和0.2 個(gè)百分點(diǎn)。加入對(duì)抗訓(xùn)練并引入池化操作后模型的準(zhǔn)確率和F1 值在SemEval-2016CQA 數(shù)據(jù)集上相較于tBERT 模型分別提高了1.2 和1.2 個(gè)百分點(diǎn),在SemEval-2017CQA 數(shù)據(jù)集上分別提高了1.3 和1.3 個(gè)百分點(diǎn)。驗(yàn)證了在tBERT 模型上加入對(duì)抗訓(xùn)練并引入池化操作是可行的,而且兩者的疊加具有更好的效果。

        然后驗(yàn)證引入主題信息特征組合的可行性。為了讓模型更好地識(shí)別問答對(duì)主題信息的相關(guān)性,提升模型的整體預(yù)測能力,本文對(duì)問答對(duì)的主題信息進(jìn)行按位減、點(diǎn)積操作從而得到主題信息特征組合。分別對(duì)比沒有進(jìn)行特征組合的模型,結(jié)果如表4 所示。

        表4 tBERT、tBERT-AT、tBERT-pooling以及tBERT-AT-pooling模型引入主題信息特征組合前后的準(zhǔn)確率和F1值的對(duì)比 單位:%Tab.4 Comparison of accuracy and F1 scores of tBERT,tBERT-AT,tBERT-pooling and tBERT-AT-pooling models before and after introducing combination of topic information features unit:%

        由表4 可知,對(duì)tBERT、tBERT-AT、tBERT-pooling 以及tBERT-AT-pooling 模型分別引入主題信息特征組合后,改進(jìn)后模型的準(zhǔn)確率和F1 值在SemEval-2016CQA 數(shù)據(jù)集下相較于各自原模型分別提高了0.3 和0.2 個(gè)百分點(diǎn),0.3 和0.2 個(gè)百分點(diǎn),0.4 和0.3 個(gè)百分點(diǎn),0.4 和0.3 個(gè)百分點(diǎn);在SemEval-2017CQA 數(shù)據(jù)集下相較于各自原模型分別提高了0.2 和0.2 個(gè)百分點(diǎn),0.1 和0.2 個(gè)百分點(diǎn),0.2 和0.3 個(gè)百分點(diǎn),0.3 和0.5 個(gè)百分點(diǎn),驗(yàn)證了只引入主題信息特征組合對(duì)提升模型的性能是有效的。此外,tBERT-AT-pooling-特征組合模型相較于tBERT 模型,準(zhǔn)確率和F1 值在SemEval-2016CQA 數(shù)據(jù)集下分別提高了1.6 和1.5 個(gè)百分點(diǎn),在SemEval-2017CQA 數(shù)據(jù)集下分別提高了1.6 和1.8 個(gè)百分點(diǎn),驗(yàn)證了同時(shí)加入對(duì)抗訓(xùn)練并引入池化操作和主題信息特征組合對(duì)提升模型的性能有更好的效果。

        最后驗(yàn)證改進(jìn)激活函數(shù)的可行性。由于tanh 激活函數(shù)存在軟飽和性和梯度消失的問題,影響模型的性能。本文在tanh 和ReLU 激活函數(shù)的基礎(chǔ)上對(duì)隱藏層中的激活函數(shù)進(jìn)行改進(jìn),分別對(duì)基線模型tBERT 和改進(jìn)后的tBERT-pooling-特征組合、tBERT-AT-特征組合、tBERT-AT-pooling-特征組合模型使用不同的激活函數(shù),其準(zhǔn)確率和F1 值的對(duì)比如表5所示。

        由表5 可知,對(duì)tBERT、tBERT-AT-特征組合、tBERTpooling-特征組合以及tBERT-AT-pooling-特征組合模型分別改進(jìn)激活函數(shù)后,改進(jìn)后模型的準(zhǔn)確率和F1 值在SemEval-2016CQA 數(shù)據(jù)集下相較于各自原模型分別提高了0.9 和0.2個(gè)百分點(diǎn),0.2 和0.2 個(gè)百分點(diǎn),0.9 和0.9 個(gè)百分點(diǎn),1.5 和0.5 個(gè)百分點(diǎn);在SemEval-2017CQA 數(shù)據(jù)集下相較于各自原模型分別提高了0.7 和0.5 個(gè)百分點(diǎn),0.2 和0.3 個(gè)百分點(diǎn),0.3 和0.7 個(gè)百分點(diǎn),0.6 和1.3 個(gè)百分點(diǎn),驗(yàn)證了改進(jìn)激活函數(shù)對(duì)提升模型的性能是有效的??梢钥闯觯瑑H改進(jìn)tBERT模型中的激活函數(shù)在SemEval-2016CQA 數(shù)據(jù)集上的準(zhǔn)確率和F1 值提升的效果差別較大,主要原因是該數(shù)據(jù)集的噪聲多,只改進(jìn)激活函數(shù)對(duì)模型的整體性能的提升效果不明顯;并且對(duì)tBERT、tBERT-AT-特征組合、tBERT-pooling-特征組合、tBERT-AT-pooling-特征組合模型分別改進(jìn)激活函數(shù)后,在兩個(gè)數(shù)據(jù)集的準(zhǔn)確率和F1 值的提升效果有明顯的差別,這是因?yàn)镾emEval-2016CQA 數(shù)據(jù)集中的答案包含較多的復(fù)雜背景信息,引入特征組合以及改進(jìn)激活函數(shù)后,能夠過濾更多的噪聲詞。引入對(duì)抗訓(xùn)練之后,本文模型在兩個(gè)數(shù)據(jù)集上的準(zhǔn)確率和F1 值有所提升,進(jìn)一步證明對(duì)抗訓(xùn)練可以提升模型的魯棒性。此外,本文模型即tBERT-AT-pooling-特征組合-改進(jìn)的激活函數(shù)模型相較于tBERT 模型,準(zhǔn)確率和F1值在SemEval-2016CQA 數(shù)據(jù)集下分別提高了3.1 和2 個(gè)百分點(diǎn),在SemEval-2017CQA 數(shù)據(jù)集下分別提高了2.2 和3.1 個(gè)百分點(diǎn),驗(yàn)證了同時(shí)加入對(duì)抗訓(xùn)練并引入池化操作和主題信息特征組合以及對(duì)激活函數(shù)進(jìn)行改進(jìn)對(duì)提升模型的性能有更好的效果,而且?guī)讉€(gè)方面的改進(jìn)具有明顯的疊加效果。

        表5 tBERT、tBERT-AT-特征組合、tBERT-pooling-特征組合以及tBERT-AT-pooling-特征組合模型改進(jìn)激活函數(shù)前后的準(zhǔn)確率和F1值的對(duì)比 單位:%Tab.5 Comparison of accuracy and F1 scores of tBERT,tBERT-AT-feature combination,tBERT-pooling-feature combination and tBERT-AT-pooling-feature combination models before and after improving activation function unit:%

        為了進(jìn)一步驗(yàn)證改進(jìn)激活函數(shù)在其他任務(wù)上的有效性,在MSRP 數(shù)據(jù)集上對(duì)比基線模型tBERT 以及tBERT-改進(jìn)后的激活函數(shù),其準(zhǔn)確率和F1 值如表6 所示。

        表6 tBERT改進(jìn)激活函數(shù)前后在MSRP數(shù)據(jù)集上的準(zhǔn)確率和F1值的對(duì)比 單位:%Tab.6 Comparison of accuracy and F1 scores of tBERT,tBERT before and after improving activation function on MSRP dataset unit:%

        由表6 可知,對(duì)tBERT 模型中的激活函數(shù)進(jìn)行改進(jìn),改進(jìn)后模型在MSRP 數(shù)據(jù)集上的準(zhǔn)確率和F1 值相較于原模型分別提升了0.3 和0.2 個(gè)百分點(diǎn)。相較于Semeval-2016CQA和Semeval-2017CQA 數(shù)據(jù)集,改進(jìn)tBERT 模型中的激活函數(shù)在MSRP 數(shù)據(jù)集的準(zhǔn)確率和F1 值的提升效果有所差別,主要原因是激活函數(shù)與數(shù)據(jù)集的特征有關(guān);但在兩個(gè)不同任務(wù)上性能均有提高,表明改進(jìn)激活函數(shù)是有效的。

        綜上所述,在tBERT 模型基礎(chǔ)上加入對(duì)抗訓(xùn)練并引入池化操作改變問答對(duì)語義特征提取方式、引入主題信息特征組合以及改進(jìn)激活函數(shù)是可行的。

        為了進(jìn)一步驗(yàn)證本文模型的有效性,本文還對(duì)2.3 節(jié)所述的9 種模型進(jìn)行了實(shí)驗(yàn)對(duì)比,結(jié)果如表7 所示。

        表7 相關(guān)模型準(zhǔn)確率和F1值的對(duì)比 單位:%Tab.7 Comparison of accuracy and F1 scores of related models unit:%

        從表7 可以看出,本文模型在SemEval-2016CQA 數(shù)據(jù)集上的準(zhǔn)確率和F1 值分別達(dá)到80.7%和76.1%,在SemEval-2017CQA 上的準(zhǔn)確率和F1 值分別達(dá)到80.5%和79.9%,均取得了最好的效果。實(shí)驗(yàn)結(jié)果中,第二類模型即ECNU、Siamese-BiLSTM、UIA-LSTM-CNN 以及AUANN 模型整體性能優(yōu)于第一類模型即LDA 主題模型。這是因?yàn)镃NN 和BiLSTM 比LDA 主題模型能夠更有效地對(duì)問題和答案潛在的上下文語義信息進(jìn)行建模。在第二類模型中,ECNU 和Siamese-BiLSTM 模型在兩個(gè)數(shù)據(jù)集上的結(jié)果有明顯的差異,在SemEval-2017CQA 數(shù)據(jù)集上的表現(xiàn)能力更好,這是因?yàn)镾emEval-2017CQA 數(shù)據(jù)集相較于SemEval-2016CQA 數(shù)據(jù)集更加規(guī)整,噪聲詞較少。ECNU 模型相較于Siamese-BiLSTM 模型,在SemEval-2017 數(shù)據(jù)集上的表現(xiàn)能力較好。這是因?yàn)镋CNU 模型除了用CNN 表示問答對(duì)的語義,還引入5 個(gè)額外的特征,有助于建立問答對(duì)的相關(guān)性。值得注意的是,AUANN 模型在第二類模型中性能表現(xiàn)最佳,這是因?yàn)锳UANN 模型在UIA-LSTM-CNN 模型的基礎(chǔ)上加入了問題-答案、問題-用戶信息交互模塊并引入了對(duì)抗訓(xùn)練過濾掉與問題無關(guān)的用戶信息。本文模型相較于AUANN 模型,在兩個(gè)數(shù)據(jù)集上的準(zhǔn)確率分別提高了0.2 和2 個(gè)百分點(diǎn),F(xiàn)1 值分別提高1.6 和0.1 個(gè)百分點(diǎn)。這是由于本文模型在嵌入層增加對(duì)抗樣本并引入池化操作改變問答對(duì)語義的提取方式,能夠更有效地表示問題和答案深層的語義特征。此外,本文模型還引入特征組合整合問答對(duì)的主題信息豐富問答對(duì)的語義表示,相較于用戶信息作為額外特征,引入問答對(duì)主題信息特征組合更能增強(qiáng)問答對(duì)的語義表示。

        第三類模型都使用預(yù)訓(xùn)練模型BERT 表示問答對(duì)的語義信息,相較于前兩類模型,BERT 模型使用Transformer 的編碼器提取問答對(duì)信息。BERT-pooling 相較于BERT 模型,在兩個(gè)數(shù)據(jù)集上的準(zhǔn)確率分別提高了0.5 和0.9 個(gè)百分點(diǎn),F(xiàn)1值分別提高了0.6 和0.7 個(gè)百分點(diǎn)。說明對(duì)BERT 的輸出取平均作為問答對(duì)的表示效果更好。GMN-BERT 相較于BERT-pooling 模型,在兩個(gè)數(shù)據(jù)集上的準(zhǔn)確率分別提高了0.6 和0.4 個(gè)百分點(diǎn),F(xiàn)1 值分別提高了0.3 和0.5 個(gè)百分點(diǎn)。這是由于圖神經(jīng)網(wǎng)絡(luò)能夠捕捉全局結(jié)構(gòu)信息,與預(yù)訓(xùn)練模型相結(jié)合能夠利用問答對(duì)潛在的語義關(guān)系。在第三類模型中,tBERT 在兩個(gè)數(shù)據(jù)集上的性能表現(xiàn)最佳。這是因?yàn)閠BERT模型增加了額外的主題信息特征,更加豐富了問答對(duì)的語義特征表示。

        綜上所述,本文模型的綜合性能優(yōu)于所有對(duì)比模型。這是因?yàn)椋罕疚哪P图尤雽?duì)抗訓(xùn)練并引入池化操作改變問答對(duì)語義特征的提取方式;其次,引入主題信息特征組合加強(qiáng)文本主題信息間的聯(lián)系,增強(qiáng)問答對(duì)的語義表示;最后,本文模型改進(jìn)了隱藏層的激活函數(shù),增強(qiáng)了特征的魯棒性,從而提高模型的整體性能。

        2.5 案例分析

        為了直觀地看出本文模型的有效性,首先選用Semeval-2017CQA 數(shù)據(jù)集中的一個(gè)例子并可視化對(duì)抗訓(xùn)練和池化方法對(duì)問題的注意權(quán)重。顏色深淺表示單詞的重要程度,顏色越深越重要。其結(jié)果如表8 所示。

        從表8 可以看出,tBERT 模型和本文模型都關(guān)注了“salary”“negotiating”“mechanical engineer”“grade 5 in a government company”“Qatar”詞語。不同的是,tBERT 模型對(duì)“mechanical engineer”和“Qatar”賦予最高的注意權(quán)重,把注意力重點(diǎn)放在“mechanical engineer”和“Qatar”上。而本文模型由于使用對(duì)抗訓(xùn)練和池化方法,使得模型對(duì)“How much salary”“salary of mechanical engineer”“grade 5 in a government company”及“benefits”賦予最高的注意權(quán)重。兩個(gè)模型對(duì)同一問題預(yù)測的答案如表9 所示。

        表8 tBERT模型與本文模型對(duì)同一例子的注意力可視化對(duì)比Tab.8 Comparison of attention visualization to the same example between tBERT and proposed model

        由表9 可知,tBERT 模型錯(cuò)誤地預(yù)測了該例子的答案,但是本文模型預(yù)測正確。由于兩個(gè)模型對(duì)問題中的詞語的注意權(quán)重不同導(dǎo)致不同的結(jié)果。tBERT 模型根據(jù)問題主題詞“mechanical engineer”“Qatar”來預(yù)測答案;由于本文使用主題信息特征組合方法,使得模型預(yù)測答案的主題詞與問題的主題詞相關(guān)聯(lián),如答案中的“12-15”“free government housing、3 000 mobile and internet allowance”分別與問題中的“How much”“benefits”相對(duì)應(yīng)。從注意力可視化到預(yù)測答案的結(jié)果可以看出,對(duì)抗訓(xùn)練和池化方法使得模型關(guān)注重點(diǎn)詞語并弱化不重要的詞語的權(quán)重;主題信息特征組合方法,加強(qiáng)問題和答案的主題信息間的聯(lián)系,最終提升了模型的性能。

        表9 tBERT模型與本文模型對(duì)同一問題的預(yù)測答案的對(duì)比Tab.9 Comparison of answers to the same question predicted by tBERT and proposed model

        3 結(jié)語

        對(duì)于答案選擇任務(wù)存在的問答對(duì)語義信息表示不完整的問題,本文在tBERT 模型基礎(chǔ)上,引入對(duì)抗訓(xùn)練和池化操作來表示問答對(duì)的語義信息。由于簡單地拼接主題特征不能有效地建立特征之間的聯(lián)系,本文引入點(diǎn)積操作和按位減操作加強(qiáng)問答對(duì)主題特征間的聯(lián)系,進(jìn)而增強(qiáng)問答對(duì)的語義表示。實(shí)驗(yàn)結(jié)果表明本文模型相較于tBERT 模型能更好地提取問答對(duì)的語義特征以及提高模型預(yù)測能力;但是深入挖掘問答對(duì)中潛在的語義特征,僅利用主題模型作為輔助是不夠的。在未來的工作中,我們將進(jìn)一步研究使用圖神經(jīng)網(wǎng)絡(luò)或者將知識(shí)庫嵌入到預(yù)訓(xùn)練模型中完成答案選擇任務(wù)。

        猜你喜歡
        語義準(zhǔn)確率函數(shù)
        二次函數(shù)
        第3講 “函數(shù)”復(fù)習(xí)精講
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        二次函數(shù)
        函數(shù)備考精講
        語言與語義
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        久久成人国产精品一区二区| 91精品欧美综合在线观看| 国产一区二区三区蜜桃av| 亚洲天堂av一区二区| 99在线精品视频在线观看| 双乳被一左一右吃着动态图| 亚洲专区一区二区在线观看| 日本一区二区午夜视频| 色大全全免费网站久久| 日韩激情无码免费毛片 | 精品人人妻人人澡人人爽牛牛| 精品国产三级a| 亚洲精品视频一区二区三区四区| 麻豆文化传媒精品一区观看| 狠狠色成人综合网| 无码人妻专区免费视频| 久久精品国产福利亚洲av| 国产亚洲精品综合一区| 国产成年无码v片在线| 亚洲国产精品国语在线| 精品国产一区二区三区九一色| 无码熟妇人妻av在线网站| 国产在线视频一区二区三区| 日本口爆吞精在线视频| 日本韩国一区二区高清| 乱子轮熟睡1区| 久久中文字幕人妻熟av女蜜柚m| 日日躁欧美老妇| 亚洲黄色一级在线观看| 欧美放荡的少妇| 亚洲精品中文字幕视频色| 色视频不卡一区二区三区| 视频一区视频二区亚洲免费观看| 日本不卡一区二区三区久久精品 | 特级毛片a级毛片100免费播放 | 黑人巨大白妞出浆| 亚洲午夜看片无码| 性感美女脱内裤无遮挡| 亚洲婷婷五月综合狠狠爱| 久久精品国产日本波多麻结衣| 亚洲中文字幕不卡无码|