亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合動(dòng)態(tài)卷積注意力的機(jī)器閱讀理解研究

        2023-07-21 07:50:22吳春燕黃鵬程劉知貴張小乾
        關(guān)鍵詞:機(jī)制文本模型

        吳春燕,李 理,黃鵬程,劉知貴,,張小乾

        (1.西南科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川 綿陽(yáng) 621000;2.西南科技大學(xué) 信息工程學(xué)院,四川 綿陽(yáng) 621000)

        0 引 言

        機(jī)器閱讀理解(Machine Reading Comprehension,MRC)要求機(jī)器閱讀并理解人類自然語(yǔ)言文本,在此基礎(chǔ)上,回答跟文本信息相關(guān)的問(wèn)題[1]。該任務(wù)通常被用來(lái)衡量機(jī)器理解自然語(yǔ)言的能力,可以幫助人類從大量文本中快速聚焦相關(guān)信息,降低人工獲取信息的成本。作為自然語(yǔ)言處理(Natural Language Processing,NLP)的研究方向之一,機(jī)器閱讀理解近年來(lái)已受到工業(yè)界和學(xué)術(shù)界廣泛的關(guān)注。

        機(jī)器閱讀理解模型的研究歷史可以追溯到20世紀(jì)70年代[2],當(dāng)時(shí)的研究人員已經(jīng)意識(shí)到機(jī)器閱讀理解可以作為測(cè)試計(jì)算機(jī)語(yǔ)言理解能力的一種方法。其中最具代表性的是1977年Lehnert提出的QUALM問(wèn)答程序[3],該程序?qū)W⒂趯?shí)用主義,為機(jī)器閱讀理解提供了發(fā)展的遠(yuǎn)景。然而由于其規(guī)模小、領(lǐng)域特殊等限制,使得該系統(tǒng)無(wú)法推廣到更廣泛的領(lǐng)域。受限于當(dāng)時(shí)數(shù)據(jù)集和技術(shù)的發(fā)展,這一領(lǐng)域的研究進(jìn)展緩慢。直到二十世紀(jì)初,隨著社會(huì)的發(fā)展和進(jìn)步,一些用于閱讀理解的大規(guī)模數(shù)據(jù)集相繼被提出,如Mctest[4]、Stanford Question Answering Dataset(SQuAD)[5]、RACE[6]等,這些數(shù)據(jù)集使得研究者們能夠用深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型解決閱讀理解任務(wù)[7]。

        目前機(jī)器閱讀理解主要采用的深度學(xué)習(xí)技術(shù)包括卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和注意力機(jī)制。其中CNN擅長(zhǎng)提取局部特征;注意力機(jī)制旨在關(guān)注全局結(jié)構(gòu)特征;RNN則在序列建模中表現(xiàn)優(yōu)異。然而,目前的工作僅聚焦在使用RNN和注意力機(jī)制對(duì)文本進(jìn)行全局建模,忽略了對(duì)文本局部結(jié)構(gòu)的捕獲,導(dǎo)致模型對(duì)文本理解不足,回答問(wèn)題不準(zhǔn)確。針對(duì)這一問(wèn)題,該文提出了一個(gè)融合動(dòng)態(tài)卷積注意力的機(jī)器閱讀理解模型。主要工作內(nèi)容如下:

        (1)采用改進(jìn)的長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)——Mogrifier作為編碼器,讓輸入與前一個(gè)狀態(tài)進(jìn)行多次交互,防止上下文信息流失。

        (2)將動(dòng)態(tài)卷積和注意力機(jī)制結(jié)合同時(shí)提取文章局部和全局結(jié)構(gòu)特征,增強(qiáng)基線模型文本建模的能力,提高模型性能。并在公共數(shù)據(jù)集SQuAD上進(jìn)行實(shí)驗(yàn),分析實(shí)驗(yàn)結(jié)果和模型結(jié)構(gòu)對(duì)模型性能的影響。

        1 相關(guān)工作

        1.1 任務(wù)定義

        機(jī)器閱讀理解任務(wù)通常被定義為[8]:給定長(zhǎng)度為m的文章P,即P={p1,p2,…,pm},長(zhǎng)度為n的問(wèn)題Q={q1,q2,…,qn},模型需要通過(guò)學(xué)習(xí)函數(shù)F使F(P,Q)→A,從中提取連續(xù)子序列A={ai,…,ai+k}(其中1≤i≤i+k≤m)作為問(wèn)題Q的正確答案。訓(xùn)練數(shù)據(jù)為文章、問(wèn)題、答案組成的三元組。

        1.2 基于深度學(xué)習(xí)的機(jī)器閱讀理解相關(guān)研究

        為了捕獲文章和問(wèn)題的語(yǔ)言特征,注意力機(jī)制、循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體長(zhǎng)短期記憶網(wǎng)絡(luò)和門控循環(huán)單元(Gated Recurrent Unit,GRU)和卷積神經(jīng)網(wǎng)絡(luò)在模型中表現(xiàn)出優(yōu)異的性能。早期的模型中采用簡(jiǎn)單的注意力機(jī)制,如Hermann等人[9]提出的Attentive Reader,通過(guò)計(jì)算問(wèn)題和文章之間的注意權(quán)重得到它們的交互信息,Kadlec等[10]提出的Attention Sum Reader和Chen等[11]提出的The Stanford Attentive Reader模型在一定程度上提升了文本相似度的計(jì)算能力。然而,這些模型中的注意力無(wú)法理解文本的深層含義。

        針對(duì)這一問(wèn)題,研究者們開(kāi)始對(duì)深層注意力進(jìn)行研究。Seo等[12]提出的BiDAF模型同時(shí)計(jì)算文章到問(wèn)題和問(wèn)題到文章兩個(gè)方向的注意力權(quán)重,以獲得它們之間更深層的交互信息,達(dá)到增強(qiáng)模型的語(yǔ)義表示能力的目的。Chen等[13]通過(guò)將詞性等語(yǔ)法特征融入詞嵌入層,豐富詞的向量表示,經(jīng)過(guò)模型處理得到答案。Wang等[14]提出R-Net模型,使用門控的基于注意力的循環(huán)網(wǎng)絡(luò)來(lái)計(jì)算文章和問(wèn)題的相似度,以獲得問(wèn)題感知的文章表示,之后通過(guò)自匹配的注意力機(jī)制改善文章表示,實(shí)現(xiàn)整個(gè)文章的有效編碼。Huang等[15]提出了Fusion- Net模型,通過(guò)單詞級(jí)注意力、句子級(jí)注意力等不同層次的特征注意融合作為輸入,同時(shí)使用所有層的表示,達(dá)到更好的文本理解。Yu等[16]提出了一個(gè)不含RNN網(wǎng)絡(luò)的架構(gòu),僅由注意力和卷積組成的機(jī)器閱讀理解模型QANet,雖然帶來(lái)了訓(xùn)練和推理速度的提升,但無(wú)法表示出句子深層次的含義。

        以上提出的模型往往采用注意力機(jī)制、RNN(LSTM、GRU)和卷積三者中的部分組合對(duì)上下文和問(wèn)題進(jìn)行交互建模,雖然注意力可以解決長(zhǎng)距離的依賴關(guān)系,但深層次的注意往往過(guò)度集中在單個(gè)標(biāo)記上,而忽略局部信息的利用,難以表示長(zhǎng)序列;RNN由于其順序特性,不能并行處理,使得模型在訓(xùn)練和推理方面都很耗時(shí);卷積由于其窗口滑動(dòng)的特性,只能捕捉文章和問(wèn)題的局部特征。因此,如何利用它們的優(yōu)點(diǎn)以構(gòu)建更有效的語(yǔ)言特征提取模型是當(dāng)前研究的重點(diǎn)任務(wù)。

        2 DCAM模型結(jié)構(gòu)設(shè)計(jì)

        針對(duì)片段抽取型機(jī)器閱讀理解目前存在的語(yǔ)義信息提取不足等問(wèn)題,提出一種融合動(dòng)態(tài)卷積注意力的機(jī)器閱讀理解模型(hybriding Dynamic Convolution Attention mechanisms machine reading comprehension Model,DCAM),經(jīng)過(guò)編碼層獲得文本的序列表示,再通過(guò)問(wèn)題對(duì)文章的注意權(quán)重得到融合問(wèn)題特征的文章表示,采用結(jié)合動(dòng)態(tài)卷積的注意力機(jī)制捕獲問(wèn)題感知的文章表示中的局部和全局關(guān)系,利用自注意力機(jī)制進(jìn)一步挖掘文本之間的聯(lián)系,經(jīng)過(guò)兩層雙向LSTM建模后傳入輸出層,得到預(yù)測(cè)答案的起始位置。該模型一共包含詞嵌入層、編碼器層、多注意力層以及答案輸出層四個(gè)部分,其整體結(jié)構(gòu)如圖1所示。

        圖1 融合動(dòng)態(tài)卷積注意力的機(jī)器閱讀理解結(jié)構(gòu)

        2.1 詞嵌入層

        該層旨在將文章P和問(wèn)題Q中的詞表示特征映射到高維空間,獲取詞嵌入的一種典型技術(shù)是將單詞嵌入與其他特征嵌入連接起來(lái)作為最終的詞向量表示。單詞嵌入使用預(yù)訓(xùn)練的300維GloVe向量[17]來(lái)表示Q和P,其中文章P中的每個(gè)單詞pi額外使用三種特征嵌入和問(wèn)題增強(qiáng)嵌入,特征嵌入分別為9維詞性標(biāo)簽嵌入、8維命名實(shí)體識(shí)別嵌入和3維二進(jìn)制精確匹配特征嵌入;問(wèn)題增強(qiáng)嵌入由問(wèn)題表示經(jīng)過(guò)一個(gè)280維的單層神經(jīng)網(wǎng)絡(luò)得到。

        在詞嵌入層,文章中的每個(gè)標(biāo)記pi表示為一個(gè)600維向量,問(wèn)題中的每個(gè)標(biāo)記qj表示為一個(gè)300維向量。為了解決維度不匹配的問(wèn)題,采用兩層獨(dú)立的全連接位置前饋網(wǎng)絡(luò),將段落和問(wèn)題詞匯編碼映射到相同數(shù)量的維度。

        FFN(x)=W2ReLU(W1x+b1)+b2

        (1)

        其中,x為段落和問(wèn)題的詞匯編碼,W1、W2、b1、b2為需要學(xué)習(xí)的參數(shù)。

        通過(guò)詞嵌入層輸出得到P中每個(gè)標(biāo)記最終的詞匯矩陣Ep∈Rd×m和Q中每個(gè)標(biāo)記最終的詞匯嵌入矩陣Eq∈Rd×n,其中d表示全連接神經(jīng)網(wǎng)絡(luò)隱藏層的大小,m表示文章P的長(zhǎng)度,n表示問(wèn)題Q的長(zhǎng)度。將文章和問(wèn)題的詞匯矩陣作為下一個(gè)模塊的輸入。

        2.2 編碼器層

        由于原始LSTM中輸入x和之前的狀態(tài)hprev是完全獨(dú)立的,可能導(dǎo)致上下文信息的流失。該模型在編碼層采用Melis等[18]提出的Mogrifier替代傳統(tǒng)的LSTM,將輸入x與之前的狀態(tài)hprev進(jìn)行多次交互,再輸入到各個(gè)門里進(jìn)行運(yùn)算。其結(jié)構(gòu)如圖2所示。

        圖2 Mogrifier結(jié)構(gòu)

        在普通的LSTM計(jì)算之前,交替地讓x與hprev交互,即:

        (2)

        for oddi∈[1,2,…,r]

        (3)

        for eveni∈[1,2,…,r]

        (4)

        其中,⊙表示哈達(dá)瑪積,Qi和Ri為隨機(jī)初始化矩陣,r是交互輪數(shù),若r=0,則為普通的LSTM。

        文章和問(wèn)題都使用一個(gè)兩層的Mogrifier將詞匯嵌入投射到上下文嵌入,再拼接一個(gè)預(yù)訓(xùn)練的600維上下文CoVe向量[19]Cp、Cq,作為上下文編碼層的最終輸入,并將第一個(gè)上下文編碼層的輸出作為第二個(gè)編碼層的輸入。為了減少參數(shù)大小,在每個(gè)Mogrifier層上使用一個(gè)maxout層[20]來(lái)縮小矩陣的維度。通過(guò)連接兩個(gè)Mogrifier層的輸出,得到文章P的最終表示Hp∈R2d×m和問(wèn)題Q的最終表示Hq∈R2d×n,其中d為Mogrifier的隱藏層大小。

        Hp=BiMogrifier(Ep;Cp)

        (5)

        Hq=BiMogrifier(Eq;Cq)

        (6)

        其中,;表示向量/矩陣串聯(lián)運(yùn)算符。

        2.3 多注意力層

        注意力機(jī)制作為一種權(quán)重分配機(jī)制,可以對(duì)重要的語(yǔ)義信息分配較多的注意力。在閱讀理解任務(wù)中,文章和問(wèn)題中不同的詞對(duì)問(wèn)題的回答的影響是不同的,因此在模型中采用多注意力機(jī)制來(lái)識(shí)別文章和問(wèn)題中哪些詞與答案最相關(guān),該層是模型的核心部分。

        2.3.1 互注意力機(jī)制

        將Mogrifier的輸出作為該層的輸入,首先利用點(diǎn)積注意力計(jì)算Q和P中詞匯標(biāo)記的對(duì)齊矩陣,并使用該矩陣得到問(wèn)題感知的段落表示。

        (7)

        2.3.2 動(dòng)態(tài)卷積注意力機(jī)制

        由于單獨(dú)的注意力機(jī)制會(huì)受到分散權(quán)重的影響,不適合長(zhǎng)序列表征學(xué)習(xí)。而結(jié)合卷積的注意力機(jī)制[21]混合了逐點(diǎn)變換、卷積和自注意力機(jī)制,可以并行學(xué)習(xí)文本的多角度多層次序列表示。因此,在基線模型中加入結(jié)合動(dòng)態(tài)卷積的注意力機(jī)制(Dynamic Convolution Attention,DCA),該注意力機(jī)制包含三個(gè)主要部分:捕獲全局特征的自注意力機(jī)制,捕獲局部特征的動(dòng)態(tài)深度可分離卷積,以及用于捕獲標(biāo)記特征的位置前饋網(wǎng)絡(luò)。該模塊獲取前一層的輸出矩陣M作為輸入,并以融合的方式生成輸出表示:

        C=M+Att(M)+Conv(M)+Pointwise(M)

        (8)

        其中,Att表示自注意力機(jī)制,Conv表示動(dòng)態(tài)卷積,Pointwise表示位置前饋網(wǎng)絡(luò)。圖3表示了該注意力的詳細(xì)結(jié)構(gòu)。

        圖3 動(dòng)態(tài)卷積注意力機(jī)制結(jié)構(gòu)

        自注意力機(jī)制負(fù)責(zé)學(xué)習(xí)全局語(yǔ)境的表征。對(duì)于前一層的輸入序列M,它首先將M進(jìn)行線性變換產(chǎn)生鍵K、查詢Q和值V,然后使用自注意力機(jī)制來(lái)獲得輸出表示:

        Att(M)=σ(QWQ,KWK,VWV)WO

        (9)

        其中,Q=Linear1(M),K=Linear2(M),V=Linear3(M),WO、WQ、WK和WV為權(quán)重矩陣,σ是鍵、查詢和值對(duì)之間的點(diǎn)積生成,見(jiàn)公式(10):

        (10)

        為了和自注意力在相同的映射空間中學(xué)習(xí)上下文序列表示,選取深度方向卷積[22]的變體—?jiǎng)討B(tài)卷積[23]進(jìn)行卷積運(yùn)算。每個(gè)卷積子模塊包含多個(gè)內(nèi)核大小不同的單元,用于捕捉不同范圍的特征。卷積核大小為k的卷積單元的輸出為:

        Convk(M)=Depth_convk(V2)Wout

        (11)

        V2=MWV

        (12)

        其中,W、V和Wout是參數(shù),WV是逐點(diǎn)映射變換矩陣。

        含有多個(gè)卷積核的卷積運(yùn)算如公式(13)所示:

        (13)

        為了學(xué)習(xí)單詞級(jí)表示,卷積注意力在每一層連接一個(gè)自注意力網(wǎng)絡(luò)和一個(gè)位置前饋網(wǎng)絡(luò)。

        Pointwise(M)=max(0,MW3+b3)W4+b4

        (14)

        其中,W3、b3、W4和b4是映射參數(shù)。

        2.3.3 自注意力機(jī)制

        通過(guò)上下文信息表征Hp和通過(guò)卷積注意得到的問(wèn)題感知表示Hq·C的簡(jiǎn)單連接來(lái)表示從文章中提取的所有信息。

        Up=concat(Hp,HqC)∈R4d×n

        (15)

        通常一篇文章可能包含數(shù)百個(gè)單詞,很難完全捕獲長(zhǎng)距離依賴關(guān)系。于是采用一個(gè)獨(dú)立的自注意力層進(jìn)一步捕獲文章中的遠(yuǎn)距離依賴關(guān)系。

        (16)

        最后根據(jù)多注意力層收集到的所有信息,使用BiLSTM生成歷史記憶,作為答案預(yù)測(cè)模塊的輸入。

        (17)

        其中,;表示向量/矩陣串聯(lián)運(yùn)算符。

        2.4 答案輸出層

        利用記憶網(wǎng)絡(luò)輸出答案。將記憶網(wǎng)絡(luò)的初始狀態(tài)向量初始化為:

        (18)

        在時(shí)間步{0,1,…,T-1}的范圍內(nèi),第t步的狀態(tài)定義為:

        st=GRU(st-1,xt)

        (19)

        其中,xt由前一個(gè)狀態(tài)st-1和歷史記憶M計(jì)算而來(lái)。

        (20)

        βj=softmax(st-1W5M)

        (21)

        其中,W5為要學(xué)習(xí)的權(quán)重矩陣。

        最后使用雙線性函數(shù)來(lái)查找每個(gè)推理步驟t∈{0,1,…,T-1}的答案范圍的起點(diǎn)和終點(diǎn)。

        (22)

        (23)

        其中,W6、W7為權(quán)重矩陣,;表示向量/矩陣串聯(lián)運(yùn)算符。

        根據(jù)答案預(yù)測(cè)模塊輸出的一對(duì)起點(diǎn)和終點(diǎn),可以從文章中提取答案片段。該模型通過(guò)利用所有T步輸出的平均值作為最終的預(yù)測(cè)答案起始點(diǎn),使得答案的輸出不依賴于具體某一步起始點(diǎn)的產(chǎn)生。

        (24)

        (25)

        為了防止各個(gè)模塊之間信息的丟失以及模型過(guò)擬合的發(fā)生,在所有模塊的最后一層添加一個(gè)隨機(jī)丟棄層,丟棄率設(shè)置為0.4,使模型不依賴于特定的步驟或模塊來(lái)預(yù)測(cè)答案。

        3 實(shí) 驗(yàn)

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)數(shù)據(jù)采用斯坦福大學(xué)發(fā)布的SQuAD數(shù)據(jù)集,該數(shù)據(jù)集用于片段抽取型閱讀理解任務(wù),共包含107.7 K個(gè)(文章,問(wèn)題,答案)三元組。其中87.5 K個(gè)問(wèn)答對(duì)作為訓(xùn)練集,10.1 K個(gè)問(wèn)答對(duì)作為驗(yàn)證集,10.1 K個(gè)問(wèn)答對(duì)作為測(cè)試集。表1為SQuAD數(shù)據(jù)集的樣例。

        表1 SQuAD數(shù)據(jù)集樣例展示

        3.2 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)代碼基于Python語(yǔ)言及其第三方庫(kù),深度學(xué)習(xí)環(huán)境采用Pytorch框架。并在具有兩個(gè)1 660 Super的GPU上進(jìn)行訓(xùn)練,單模型訓(xùn)練時(shí)占用顯存約12 GB,通常訓(xùn)練10個(gè)epoch至收斂,整個(gè)模型完成訓(xùn)練約需12個(gè)小時(shí)。模型訓(xùn)練過(guò)程中,使用的部分參數(shù)設(shè)置如表2所示。

        表2 參數(shù)設(shè)置

        3.3 評(píng)價(jià)指標(biāo)

        將提出的模型在SQuAD數(shù)據(jù)集上進(jìn)行評(píng)估。斯坦福大學(xué)官方給定了兩個(gè)度量準(zhǔn)則用以評(píng)估模型的性能。

        (1)精確匹配(Exact Match,EM)。如果預(yù)測(cè)答案等于真實(shí)答案,EM值為1,否則為0。

        (2)F1 Score。預(yù)測(cè)答案和真實(shí)答案之間精確率(precision)和召回率(recall)的調(diào)和平均值。

        即:

        3.4 實(shí)驗(yàn)結(jié)果及分析

        3.4.1 對(duì)比實(shí)驗(yàn)

        為了評(píng)估模型的效果,將提出的模型與以下幾個(gè)模型進(jìn)行實(shí)驗(yàn)對(duì)比:

        DCN+模型[24]采用雙向LSTM對(duì)文章和問(wèn)題進(jìn)行編碼,利用堆疊的自注意力機(jī)制和互注意力機(jī)制捕獲結(jié)構(gòu)特征。

        R-Net模型[14]使用雙向LSTM作為編碼器,并在注意力機(jī)制中加入門控機(jī)制來(lái)篩選出對(duì)回答問(wèn)題相關(guān)性強(qiáng)的語(yǔ)義信息部分。

        FusionNet[15]采用雙向LSTM對(duì)文章和問(wèn)題編碼,融合多層注意力來(lái)理解文章和問(wèn)題淺層和深層含義。

        QANet[16]采用自注意力機(jī)制和深度可分離卷積對(duì)文章和問(wèn)題進(jìn)行編碼,同時(shí)使用互注意力機(jī)制計(jì)算文章和問(wèn)題的相似度來(lái)確定與回答最相關(guān)的信息。

        SAN模型[25]為選取的基線模型,采用雙向LSTM作為編碼器,并使用互注意力機(jī)制和自注意力機(jī)制捕獲文章的結(jié)構(gòu),通過(guò)記憶網(wǎng)絡(luò)來(lái)預(yù)測(cè)答案的起止位置。

        選擇的對(duì)比模型與提出模型的結(jié)構(gòu)及采用的注意力機(jī)制對(duì)比如表3、表4所示。

        表3 模型結(jié)構(gòu)對(duì)比

        表4 各模型結(jié)構(gòu)中的注意力機(jī)制比較

        以上可以看出所提模型與其他模型的不同之處,即所提模型在不影響訓(xùn)練速度的情況下,將RNN、CNN和注意力機(jī)制融為一體,特別是采用了動(dòng)態(tài)卷積代替普通卷積,并與注意力機(jī)制結(jié)合,從多層次和多角度提取文本特征,這樣可以更好地利用它們的優(yōu)勢(shì),提高文本之間的交互程度。

        對(duì)比模型與DCAM的實(shí)驗(yàn)結(jié)果如表5所示。

        表5 對(duì)比實(shí)驗(yàn)結(jié)果 %

        從表5可以看出,所提模型由于在編碼層采用的結(jié)構(gòu)增強(qiáng)了文章和問(wèn)題在低層語(yǔ)義表示的交互;此外,添加的卷積結(jié)構(gòu)也加深了機(jī)器對(duì)文章局部結(jié)構(gòu)的理解,彌補(bǔ)注意力機(jī)制只能捕獲全局結(jié)構(gòu)的不足。在SQuAD數(shù)據(jù)集上的EM值和F1值分別達(dá)到了76.74%、84.30%,相比基線模型SAN其EM值和F1值分別提高了0.81百分點(diǎn)和0.56百分點(diǎn)。同時(shí)在SQuAD數(shù)據(jù)集上的表現(xiàn)也均優(yōu)于其他對(duì)比模型,這得益于DCAM將三種結(jié)構(gòu)的優(yōu)勢(shì)相結(jié)合。實(shí)驗(yàn)結(jié)果表明該模型在閱讀理解任務(wù)上的有效性。

        3.4.2 消融實(shí)驗(yàn)

        DCAM模型是在SAN上進(jìn)行的改進(jìn)。為了驗(yàn)證改進(jìn)模塊對(duì)模型性能的影響,設(shè)計(jì)消融實(shí)驗(yàn)比較改進(jìn)模塊之后模型的EM值和F1值大小。其實(shí)驗(yàn)對(duì)比結(jié)果如表6所示。

        表6 消融實(shí)驗(yàn)結(jié)果 %

        從表6可以看出,使用結(jié)合卷積的注意力機(jī)制在EM值和F1值上分別提升了0.41百分點(diǎn)和0.26百分點(diǎn),采用改進(jìn)的LSTM作為編碼器在EM值和F1值上分別提升了0.48百分點(diǎn)和0.41百分點(diǎn),同時(shí)改進(jìn)則獲得0.81百分點(diǎn)的EM值提升和0.56百分點(diǎn)的F1值提升。結(jié)果表明改進(jìn)的兩個(gè)模塊均能夠加深模型對(duì)文章和問(wèn)題的理解,提高模型回答問(wèn)題的準(zhǔn)確率。

        3.4.3 卷積注意力大小對(duì)模型性能的影響

        一般來(lái)說(shuō),卷積核越小,所需的參數(shù)量和計(jì)算量越小。卷積核越大,其感受野越大,相應(yīng)的參數(shù)量和計(jì)算量也越大。但多層小卷積核堆疊不僅可以減少計(jì)算量,還能達(dá)到大卷積核一樣的感受野。這里采用實(shí)驗(yàn)里常用的卷積核大小1、3、5來(lái)探索不同卷積核大小對(duì)模型性能的影響,結(jié)果如表7所示。

        表7 卷積核大小 %

        從表7的結(jié)果可以看出,卷積核越大,模型的EM值和F1值越低;卷積核越多,模型的EM值和F1值越高。當(dāng)只采用單個(gè)卷積核時(shí),卷積核大小為3的卷積比卷積核大小為5的卷積對(duì)模型的EM值和F1值提升較大,分別高出0.39百分點(diǎn)和0.40百分點(diǎn);當(dāng)采用多個(gè)卷積核組合時(shí),不同的卷積組合對(duì)模型性能均有提升,但1、3、5的卷積組合對(duì)模型的EM值和F1值提升更高,相較于3、5的卷積組合分別提升了0.30百分點(diǎn)和0.20百分點(diǎn)。因此,在實(shí)驗(yàn)過(guò)程中選擇卷積核大小為1、3、5的組合。

        4 結(jié)束語(yǔ)

        為解決語(yǔ)義表示能力差、信息冗余、信息丟失等問(wèn)題,提出了一種融合動(dòng)態(tài)卷積注意力的機(jī)器閱讀理解模型。該模型利用Mogrifier加強(qiáng)相關(guān)文本之間的特征表示,借助注意力機(jī)制捕獲文章和問(wèn)題中的相關(guān)信息,結(jié)合動(dòng)態(tài)卷積注意力進(jìn)一步捕獲文章的局部和全局結(jié)構(gòu)。在SQuAD閱讀理解數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,結(jié)果表明引入動(dòng)態(tài)卷積和多注意力機(jī)制的模型能夠有效提高機(jī)器閱讀理解的準(zhǔn)確性,具有一定的應(yīng)用價(jià)值。在未來(lái)的研究工作中,可以考慮與大規(guī)模的預(yù)訓(xùn)練模型(如BERT、RoBERTa等)相結(jié)合,進(jìn)一步提升機(jī)器閱讀理解模型的性能。

        猜你喜歡
        機(jī)制文本模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        自制力是一種很好的篩選機(jī)制
        文苑(2018年21期)2018-11-09 01:23:06
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        破除舊機(jī)制要分步推進(jìn)
        注重機(jī)制的相互配合
        伊人22综合| 加勒比一本heyzo高清视频| 无码欧美毛片一区二区三| 久久国产精品无码一区二区三区| 免费大学生国产在线观看p| 精品国产一区二区三区a| 97精品人人妻人人| 真人二十三式性视频(动)| 国产成人综合久久精品推荐免费| 久久国产精品国语对白| 精品久久久久久无码中文野结衣| 少妇白浆高潮无码免费区| 国产精品电影久久久久电影网| 国产黄色一区二区在线看| 麻豆tv入口在线看| 亚洲一区二区三区在线网站| 毛片av中文字幕一区二区| 日本人妻伦理在线播放| 亚洲毛片αv无线播放一区| 亚洲AV毛片无码成人区httP| av网站韩日在线观看免费| 美女网站免费观看视频| 国产精品成人免费视频网站京东| 美女裸体无遮挡黄污网站| 国产不卡在线观看视频| 国产青榴视频在线观看| 狠狠色噜噜狠狠狠97影音先锋| 国产精品亚洲av无人区二区| 精品久久久久久综合日本| 狠狠色丁香久久婷婷综合蜜芽五月| 青草青草久热精品视频国产4| 加勒比日韩视频在线观看| 人妻少妇精品中文字幕av| 无码成人片一区二区三区| 日本一区二区视频免费在线观看| 亚洲av无码国产精品色午夜字幕| 国产av影片麻豆精品传媒| 日本岛国一区二区三区| 女人18片毛片60分钟| 久久精品久久久久观看99水蜜桃 | 2022精品久久久久久中文字幕|