亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合多角度特征的文本匹配模型①

        2022-08-04 09:58:40馬中昊黃浩鈺張遠(yuǎn)明
        關(guān)鍵詞:文本融合實驗

        李 廣,劉 新,馬中昊,黃浩鈺,張遠(yuǎn)明

        (湘潭大學(xué) 計算機(jī)學(xué)院·網(wǎng)絡(luò)空間安全學(xué)院,湘潭 411105)

        在自然語言處理(NLP)中,文本匹配[1]是研究對給定的兩個文本,采用匹配模型預(yù)測兩個文本在某種意義上是否相似. 自動評分系統(tǒng)[2]、推薦系統(tǒng)[3]、問答系統(tǒng)[4]、信息檢索[5]等都可以抽象成一個文本匹配問題. 在主觀題評分過程中,系統(tǒng)可以判斷用戶的答案與標(biāo)準(zhǔn)答案相似性來進(jìn)行評分,極大的減少了教師的工作量. 對于推薦系統(tǒng),可以根據(jù)用戶瀏覽的信息來推薦同領(lǐng)域或者同事件的相關(guān)信息. 問答系統(tǒng)中的答案匹配可以減少對人工客服的需求. 在信息檢索中,查詢文檔匹配結(jié)果的準(zhǔn)確性和相關(guān)性都很重要. 所以對文本相似度匹配任務(wù)的研究是必要且是具有重要意義的.

        傳統(tǒng)的文本匹配基于TF-IDF[6]、BM25[7]、VSM[8]等的算法,主要解決了詞匯層面的匹配問題,但還是存在如“同義詞”“一詞多義”“雙關(guān)”等的局限性. 雖然淺層語義分析LSA[9]、LDA[10]等技術(shù)可以彌補(bǔ)傳統(tǒng)方法的不足,但是還是不能完全替代關(guān)鍵詞匹配技術(shù). 隨著深度學(xué)習(xí)不斷地發(fā)展,對深度文本匹配模型的研究也層出不窮. 大致可以分為兩類: 表示型和交互型. 表示型模型注重對文本的唯一表示,經(jīng)典的模型有DSSM[11]、CDSSM[12]、MV-LSTM[13]等,但是此類模型容易失去語義焦點,難以把握詞的上下文的重要性. 交互型模型將詞匹配信號作為后續(xù)的建模,經(jīng)典的模型有ARCII[14]、Match-SRNN[15]、DRMM[16]等,但此類模型忽略了句型、句間關(guān)系等全局性信息.

        針對以上問題,本文提出了一種融合多角度特征的文本匹配模型. 以孿生網(wǎng)絡(luò)為基本架構(gòu),對輸入文本使用BERT 模型進(jìn)行詞向量化表示,BERT 轉(zhuǎn)化的詞向量本身具有一定的語義信息,使用BERT 詞向量計算出兩個文本之間詞向量的相似度再融合到兩個文本中,加強(qiáng)輸入文本的語義. 對文本進(jìn)行詞性的標(biāo)注后,使用Bi-LSTM 對兩個文本對應(yīng)的詞性序列進(jìn)行編碼,使用Transformer 編碼器對兩個文本信息和文本的詞性進(jìn)行特征提取,并使兩個文本之間對應(yīng)的信息進(jìn)行多層次的信息交互. 對輸出后的語義表示進(jìn)行池化之后,將兩個文本對應(yīng)信息進(jìn)行對齊拼接送入多層感知機(jī)(MLP)中進(jìn)行兩個文本之間的語義匹配. 在Quora部分?jǐn)?shù)據(jù)集上的實驗表明,本模型相比于經(jīng)典深度匹配模型有更好的表現(xiàn).

        1 NLP 技術(shù)的主流框架

        孿生網(wǎng)絡(luò)[17]包含兩個或者更多相同子網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)架構(gòu),子網(wǎng)絡(luò)共享參數(shù)和權(quán)重,孿生網(wǎng)絡(luò)在探索兩個樣本之間的關(guān)系任務(wù)中起到很大的作用,子網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)和權(quán)重共享,使訓(xùn)練的參數(shù)極大的減少,孿生網(wǎng)絡(luò)結(jié)構(gòu)可以提取文本整體的語義再送入匹配層進(jìn)行匹配,利于更好的探索兩個文本之間的相似性和聯(lián)系.

        雙向長短期記憶模型(Bi-LSTM)[18]由長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)發(fā)展而來,Bi-LSTM 是由前向的LSTM 和后向的LSTM 組成. 單向的LSTM 能捕捉較長距離的文本信息之間的依賴關(guān)系. 雙向的LSTM 能捕捉雙向的文本信息的依賴關(guān)系,從兩個方向?qū)斎胄蛄羞M(jìn)行特征提取.

        Transformer 由Google 在2017 年發(fā)表的論文中提出[19],該模型在很多其他語言理解任務(wù)上都超越了以往的模型. 與循環(huán)神經(jīng)網(wǎng)絡(luò)類模型相比,Transformer 不需要循環(huán)的處理,結(jié)合位置信息可以并行地處理所有的單詞和符號,同時利用自注意機(jī)制將上下文的信息結(jié)合起來并行處理,并且在處理過程中可以注意到文本中重要的信息,訓(xùn)練速度相比于循環(huán)神經(jīng)網(wǎng)絡(luò)有很大的提升,訓(xùn)練的效果也超越了以往的模型,逐漸替代了循環(huán)神經(jīng)網(wǎng)絡(luò)模型.

        BERT[20]是一個預(yù)訓(xùn)練語言模型,以Transformer為主要框架,捕捉文本中的雙向關(guān)系,通過mask language model (MLM)和next sentence prediction (NSP)兩個任務(wù)來預(yù)訓(xùn)練模型,進(jìn)一步增加了詞向量模型的泛化能力,對字符級、詞級、句子級甚至句間關(guān)系特征都可以充分描述,利用BERT 的特征表示代替Word2Vec[21]的特征表示作為任務(wù)的詞嵌入特征,相較于詞袋模型,BERT 的特征表示包含了更多的語義信息.

        2 融合多角度特征的文本匹配模型IMAF

        基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的IMAF (text matching model incorporating multi-angle features)模型由輸入層、交互層、表示層、預(yù)測層組成,在輸入層利用BERT 模型訓(xùn)練出來的特征作為匹配任務(wù)的詞嵌入特征,解決一詞多義問題; 利用BERT 的詞向量特征計算兩個文本的詞相似度,并將相似度結(jié)果融合到文本特征矩陣中,增強(qiáng)局部特征; 對輸入文本進(jìn)行詞性標(biāo)注后,利用Bi-LSTM 對文本的詞性信息進(jìn)行詞性嵌入編碼; 在表示層利用Transformer 編碼器作為特征提取; 在交互層對兩個文本融合詞相似度信息和詞性信息分別進(jìn)行的注意力[22,23]交互,讓模型對重點信息關(guān)注并充分學(xué)習(xí); 在預(yù)測層,將交互后的結(jié)果進(jìn)行池化之后送入多層感知器最終通過LogSoftmax 分類器得到兩個文本的匹配結(jié)果. IMAF 結(jié)構(gòu)如圖1,N為Transformer 編碼器數(shù)量.

        圖1 IMAF 結(jié)構(gòu)圖

        2.1 輸入層

        本文使用BERT 模型將文本轉(zhuǎn)化為詞級別嵌入矩陣. 相比于Word2Vec,BERT 生成的特征矩陣由單詞周圍的單詞動態(tài)生成,包含了上下文信息,可以更好地解決一詞多義的問題. 該模型擁有12 個Transformer 編碼器,隱藏層維度為768 維,每個編碼器擁有12 個注意力頭.

        BERT 生成的嵌入矩陣含有豐富的語義信息,計算兩個文本的詞相似度作為匹配信號再分別融合到嵌入矩陣中,增強(qiáng)文本的語義表示. BERT 對文本1 的矩陣表示為A,BERT 對文本2 的矩陣表示為B,計算如下,其中,||A||2和||B||2代表矩陣A和B的二范數(shù):

        W包含了A與B的詞相似度信息,再分別融入矩陣A和矩陣B中得到融合詞相似度的矩陣,融合計算過程如下:

        對于詞性,將文本的詞性序列進(jìn)行向量表示,送入Bi-LSTM 模型學(xué)習(xí)文本語句結(jié)構(gòu)的特征表示,例如,給定一個長度為n的文本序列[w1,w2,···,wn],將單詞在文本中的詞性標(biāo)注映射到向量空間,對于單詞wi的詞性,都有一個唯一的索引表示,通過將詞性向量序列pos[w1,w2,···,wn]輸入到Bi-LSTM 從兩個方向,即前向和后向,學(xué)習(xí)語句結(jié)構(gòu)特征表示. 公式如下:

        2.2 表示層

        表示層通過Transformer 編碼器對輸入的信息進(jìn)行特征提取,編碼器由N個相同的layer 組成,每個layer分別由多頭注意力機(jī)制(multi-head self-attention mechanism)和全連接層(fully connected feed-forward network)兩個子層組成,每個子層都做了參差連接(residual connection)與歸一化(normalisation)操作,Transformer 編碼器的內(nèi)部結(jié)構(gòu)如圖2 所示.

        后來母親還告訴過,就是在翠姨還沒有訂婚之前,有過這樣一件事情。我的族中有一個小叔叔,和哥哥一般大的年紀(jì),說話口吃,沒有風(fēng)采,也是和哥哥在一個學(xué)校里讀書。雖然他也到我們家里來過,但怕翠姨沒有見過。那時外祖母就主張給翠姨提婚。那族中的祖母,一聽就拒絕了,說是寡婦的孩子,命不好,也怕沒有家教,何況父親死了,母親又出嫁了,好女不嫁二夫郎,這種人家的女兒,祖母不要。但是我母親說,輩分合,他家還有錢,翠姨過門是一品當(dāng)朝的日子,不會受氣的。

        圖2 Transformer 編碼器

        使用Transformer 進(jìn)行特征提取,增強(qiáng)輸入信息的矩陣表示,步驟如下:

        (1)文本經(jīng)過輸入層的處理得到輸入矩陣維度為S×E,其中,S為最大序列長度,E為嵌入維度. 本文中S為32,E為768. 假設(shè)一個文本經(jīng)過輸入層處理的輸入矩陣為AS×E. 和對應(yīng)的語句結(jié)構(gòu)特征表示(XA)S×E. 以矩陣A做計算為例,對于另一文本的矩陣B和(XB)S×E做相同計算.

        (2)通過注意力機(jī)制計算矩陣Q(query)、K(key)、V(value),其中,WQ、WK、WV為權(quán)重矩陣.

        (3)得到矩陣Q、K、V之后進(jìn)行self-attention 計算. 其中dk為K的維數(shù).

        (4)通過多頭注意力,即m個不同線性變換對Q、K、V進(jìn)行投影,最后將所有的attention 結(jié)果拼接得到M,傳入一個線性層得到的多頭注意力的輸出Mattention,其中m為注意力的頭數(shù).

        (5)再對得到的結(jié)果進(jìn)行殘差連接和歸一化之后作為全連接層的輸入.

        (6)最后送入全連接層之后再進(jìn)行一次殘差連接和層歸一化,得到最終結(jié)果,輸出矩陣的維度與A一致.

        2.3 交互層

        經(jīng)過Transformer 特征提取后的文本1 的矩陣表示為AS×E、對應(yīng)的詞性嵌入矩陣為 (XA)S×E,文本2 的矩陣表示為BS×E,對應(yīng)的詞性嵌入矩為(XB)S×E.

        計算兩個文本信息的交互注意力矩陣(Sattention)S×S:

        對(Sattention)S×S的每一行進(jìn)行最大池化操作,再融合到A得到交互后的A,此時A包含了B對A中所有的詞注意力權(quán)重信息,計算如下:

        對(Sattention)S×S的每一列進(jìn)行最大池化操作,再融合到B得到交互后的B,此時B包含了A對B中所有的詞注意力權(quán)重信息,計算如下:

        計算兩個文本對應(yīng)的詞性嵌入矩陣交互注意力矩陣(Pattention)S×S:

        對(Pattention)S×S的每一行進(jìn)行最大池化操作,再融合到XA得到交互后的XA,此時XA包含了XB對XA中所有的詞性注意力權(quán)重信息,計算如下:

        對(Pattention)S×S的每一行進(jìn)行最大池化操作,再融合到XB得到交互后的XB,此時XB包含了XA對XB中所有的詞性注意力權(quán)重信息,計算如下:

        再將結(jié)果進(jìn)行求和與歸一化,經(jīng)過N次的交互后,使得到的結(jié)果包含更多的交互信息和上下文信息,其中N為Transformer 編碼器的數(shù)量.

        2.4 預(yù)測層

        假設(shè)經(jīng)過交互后的兩個文本矩陣表示為A32×768和B32×768,預(yù)測方法來自文獻(xiàn)[24,25],分別經(jīng)過最大池化后得到對應(yīng)向量為a和b; 對應(yīng)的交互后的詞性矩陣表示為(XA)32×768和(XB)32×768,分別經(jīng)過最大池化后得到對應(yīng)向量為x1和x2; 進(jìn)行向量拼接后送入多層感知機(jī),得到匹配結(jié)果,計算如下:

        其中,a×b表示向量a與向量b按位相乘,注重兩個文本相同的地方; |a–b|代表向量a與向量b按位相減后的絕對值,注重兩個文本相異的地方,H為多層的前饋神經(jīng)網(wǎng)絡(luò),將6 個向量拼接后送入多層的前饋神經(jīng)網(wǎng)絡(luò)經(jīng)過LogSoftmax 分類器得到最終的預(yù)測結(jié)果,計算如下:

        3 實驗及分析

        3.1 數(shù)據(jù)集

        Quora Question Pair 是美國知識問答網(wǎng)站Quora發(fā)布的數(shù)據(jù)集,包含了40 萬對的問句對,旨在判斷兩句話是否同義. 為了驗證模型在少數(shù)據(jù)量和短文本上情況下的有效性,從中抽取了2 萬對短文本句子,相同含義的句子標(biāo)記為1,不同為0,并將其切分為訓(xùn)練集(15 996 對)、驗證集(2 002 對)和測試集(2 002 對).

        3.2 評估準(zhǔn)則

        實驗采用的評估準(zhǔn)則是F1 值和準(zhǔn)確率Acc,F1 值由精確度和召回率得到,TP(true positive)為真正例,FP(false positive)為假正例,FN(false negative)為假負(fù)例,TN(true negative)為真負(fù)例,計算如下:

        3.3 模型參數(shù)設(shè)置

        模型的復(fù)雜程度通常與Transformer 編碼器的層數(shù)設(shè)置有著莫大的關(guān)系,往往層數(shù)越多,訓(xùn)練時間越長.因此找到一個層數(shù)少,訓(xùn)練速度快且準(zhǔn)確率高的模型是迫切的. 本文將Transformer 編碼器層數(shù)分別設(shè)置為1、2、3、4、5、6.F1 值與Transformer 編碼器層數(shù)的實驗結(jié)果如圖3 所示,Acc值與Transformer 編碼器層數(shù)的實驗結(jié)果如圖4 所示,最終將編碼器層數(shù)設(shè)置為3.

        圖3 F1 值隨編碼器層數(shù)變化圖

        圖4 Acc 值隨編碼器層數(shù)變化圖

        表示層的性能與注意力頭數(shù)有關(guān). 但數(shù)量過多可能導(dǎo)致模型過擬合. 本文將注意力頭的個數(shù)設(shè)置為4、6、8、12.F1 值與編碼器注意力頭數(shù)的實驗結(jié)果如圖5所示,Acc值與編碼器注意力頭數(shù)的實驗結(jié)果如圖6 所示,最終將編碼器注意力頭數(shù)設(shè)置為8.

        圖5 F1 值隨注意力頭數(shù)變化圖

        圖6 Acc 值隨注意力頭數(shù)變化圖

        訓(xùn)練模型時需要關(guān)注模型的收斂情況,如果模型收斂了就應(yīng)當(dāng)停止訓(xùn)練,否則模型將會過擬合,達(dá)不到期望的效果. IMAF 模型收斂情況如圖7 所示. 訓(xùn)練次數(shù)在20 左右模型就已經(jīng)開始收斂,因此將訓(xùn)練次數(shù)設(shè)置為25.

        圖7 IMAF 模型收斂情況

        3.4 實驗對比

        IMAF 模型實驗部分主要參數(shù)如表1 所示.

        表1 模型參數(shù)設(shè)置表

        為了驗證IMAF 模型的效果,本文選取多個經(jīng)典的文本匹配模型進(jìn)行對比實驗.

        針對DSSM 和CDSSM 無法捕捉較遠(yuǎn)距離的上下文距離的缺點,文獻(xiàn)[26]提出了LSTM-DSSM 來解決該問題.

        針對現(xiàn)有模型計算能力弱和特征提取能力弱的缺點,文獻(xiàn)[27]提出了Transformer-DSSM 模型.

        實驗引入僅使用詞相似度IMAFword-similary模型,以及利用LSTM 的變種代替DSSM 的深度神經(jīng)網(wǎng)絡(luò)BiLSTM-DSSM、BiGRU-DSSM 和GRU-DSSM 做對比實驗. 模型對比實驗表如表2 所示.

        表2 模型對比實驗結(jié)果表

        從實驗結(jié)果可以看出,本文提出的IMAF 模型的F1 值達(dá)到了83.83%,準(zhǔn)確率和召回率都有著不俗的表現(xiàn),從前5 組實驗驗證了Transfomer 編碼器提取特征的能力,由第5、6 組實驗驗證了引入詞相似度的有效性; 由第6、7 組實驗可知,IMAF 模型的文本句型結(jié)構(gòu)信息的引入確實提升了文本匹配的效果,由第1、5、7 組實驗可知,IMAF 模型在文本匹配方面有著不錯的效果,主要體現(xiàn)在召回率、F1、準(zhǔn)確率的提升. 其原因在于: 利用詞相似度融合加強(qiáng)文本信息,使之后的操作能更好的衡量詞上下文重要性,利用Transformer 編碼器作為優(yōu)秀的特征提取器,利用文本信息和句型結(jié)構(gòu)信息的多次交互學(xué)習(xí)到更豐富的特征表現(xiàn)形式,對文本匹配的效果有著不錯的表現(xiàn).

        4 結(jié)束語

        針對現(xiàn)有文本匹配模型存在一些的問題,提出了一種融合多角度特征的文本匹配模型IMAF,該模型以孿生網(wǎng)絡(luò)為基礎(chǔ)架構(gòu),融合了詞相似度,對文本的信息和句型結(jié)構(gòu)信息進(jìn)行多層的交互,使模型學(xué)習(xí)到更加豐富的特征表示,從對比實驗結(jié)果來看,本文提出的IMAF 模型在文本匹配上有著不錯的效果.

        猜你喜歡
        文本融合實驗
        記一次有趣的實驗
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        在808DA上文本顯示的改善
        做個怪怪長實驗
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        NO與NO2相互轉(zhuǎn)化實驗的改進(jìn)
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        丰满少妇人妻久久精品| 成人全部免费的a毛片在线看| 久久精品国产99精品九九| 欧美韩国精品另类综合| 中文字幕亚洲区第一页| 美女福利视频网址导航| 中文字幕在线乱码av| 亚洲国产av无码精品无广告| 亚洲综合色婷婷七月丁香| 无码国产午夜福利片在线观看| 久久精品一区二区免费播放| 手机看片福利日韩国产| 日韩国产一区二区三区在线观看 | 国产人妻丰满熟妇嗷嗷叫| 亚洲欧美日韩一区二区三区在线| 99久久久久国产| 亚洲AV日韩Av无码久久| 亚洲色图偷拍自拍亚洲色图| 一区二区在线观看视频高清| 亚洲乱码中文字幕久久孕妇黑人| 熟妇人妻av中文字幕老熟妇| 国产成人国产在线观看入口| 久久久久久免费播放一级毛片| 蜜桃一区二区三区在线视频| 51国产偷自视频区视频| 国产喷水1区2区3区咪咪爱av| 麻豆国产成人精品午夜视频| 黑人一区二区三区啪啪网站| 日韩精品视频免费在线观看网站 | 天堂8中文在线最新版在线 | 国产探花在线精品一区二区| 18级成人毛片免费观看| 真人在线射美女视频在线观看| 最近中文字幕一区二区三区| 熟女肥臀白浆一区二区| 久久综合九色综合97欧美| 日韩h网站| 日韩精品久久伊人中文字幕| 欧美肥婆性猛交xxxx| 成人激情五月天| 国产亚洲精久久久久久无码苍井空 |