亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT的三階段式問(wèn)答模型

        2022-02-26 06:57:58李曉瑜胡世杰劉曉磊錢偉中
        計(jì)算機(jī)應(yīng)用 2022年1期
        關(guān)鍵詞:特征文本模型

        彭 宇,李曉瑜,胡世杰,劉曉磊,錢偉中

        (電子科技大學(xué)信息與軟件工程學(xué)院,成都 610054)

        0 引言

        機(jī)器閱讀理解(Machine Reading Comprehension,MRC)是一項(xiàng)評(píng)估機(jī)器理解自然語(yǔ)言能力的任務(wù),它要求機(jī)器能根據(jù)給定的上下文和問(wèn)題找到對(duì)應(yīng)的答案。教會(huì)機(jī)器理解人類的語(yǔ)言也是自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域的終極目標(biāo)[1-3]。在早期的機(jī)器閱讀理解數(shù)據(jù)集[4]中,問(wèn)題都是可以被回答的,也就是一定能在上下文中找到對(duì)應(yīng)的答案,因此早期的問(wèn)答模型[5-8]是在問(wèn)題都可被回答的前提假設(shè)下進(jìn)行構(gòu)建的。然而現(xiàn)實(shí)世界中常常存在不可被回答的問(wèn)題,因此早期的數(shù)據(jù)集不符合現(xiàn)實(shí)情況。為了彌補(bǔ)這種不足,許多研究機(jī)構(gòu)和學(xué)者新提出了包含不可被回答問(wèn)題的數(shù)據(jù)集[9-10]來(lái)模擬現(xiàn)實(shí)世界中的真實(shí)場(chǎng)景,但這也給傳統(tǒng)的問(wèn)答模型提出了新的挑戰(zhàn)。當(dāng)面對(duì)這樣的新數(shù)據(jù)集時(shí),傳統(tǒng)模型的問(wèn)答表現(xiàn)非常差。

        在預(yù)訓(xùn)練語(yǔ)言模型出現(xiàn)之前,基于深度學(xué)習(xí)的問(wèn)答模型通常被拆分為如圖1(a)所示的5 個(gè)網(wǎng)絡(luò)層:嵌入層、編碼層、交互層、模型層和輸出層。傳統(tǒng)模型的改進(jìn)與發(fā)展依賴于每一層的設(shè)計(jì)與實(shí)現(xiàn)。作為一個(gè)經(jīng)典的傳統(tǒng)問(wèn)答模型,BiDAF(BiDirectional Attention Flow)[6]設(shè)計(jì)了6 個(gè)網(wǎng)絡(luò)層來(lái)解決問(wèn)答任務(wù),并使用雙向注意力流結(jié)構(gòu)來(lái)捕獲給定上下文和問(wèn)題之間的交互信息。QANet(Question Answering Network)[11]融合局部卷積和全局自注意力機(jī)制來(lái)加速訓(xùn)練和推斷。Wang等[12]也提出了一個(gè)端到端并融合Match-LSTM(Long Short-Term Memory)和Answer Pointer 結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)來(lái)完成問(wèn)答任務(wù)。盡管這些模型已經(jīng)非常巧妙,但它們?cè)诎豢杀换卮饐?wèn)題的數(shù)據(jù)集上的表現(xiàn)提升也十分有限。這是因?yàn)閭鹘y(tǒng)的詞嵌入方法難以解決一詞多義的問(wèn)題[13-14],即便有像ELMo(Embeddings from Language Model)[15]這樣的動(dòng)態(tài)詞嵌入方法被提出,所帶來(lái)的提升也不明顯。

        圖1 傳統(tǒng)問(wèn)答模型與基于BERT的已有模型的對(duì)比Fig.1 Comparison between traditional and existing BERT-based question answering models

        預(yù)訓(xùn)練語(yǔ)言模型[16-17]如BERT(Bidirectional Encoder Representation from Transformers)[16]的出現(xiàn)極大地 提升了機(jī)器閱讀理解模型的性能,在某些數(shù)據(jù)集上甚至超越了人類的表現(xiàn)。這是因?yàn)轭A(yù)訓(xùn)練語(yǔ)言模型可以生成“上下文-問(wèn)題”對(duì)基于語(yǔ)義特征和上下文關(guān)系的詞向量表達(dá)。通過(guò)在大量的文本語(yǔ)料上進(jìn)行預(yù)訓(xùn)練,預(yù)訓(xùn)練語(yǔ)言模型可以捕獲單詞、序列之間更深層次的交互關(guān)系。研究人員只需要針對(duì)特定任務(wù)在預(yù)訓(xùn)練模型之后設(shè)計(jì)恰當(dāng)?shù)慕Y(jié)構(gòu)搭建模型進(jìn)行微調(diào)(fine-tune)就能獲得相當(dāng)不錯(cuò)的表現(xiàn)。如圖1(b)所示,大多數(shù)使用BERT 的問(wèn)答模型將BERT 看作傳統(tǒng)問(wèn)答模型五個(gè)層次中的嵌入層、編碼層和交互層。

        盡管只利用經(jīng)BERT 完全編碼后的高層特征來(lái)設(shè)計(jì)模型已經(jīng)取得了不錯(cuò)的性能,但是BERT 中的低層特征卻沒(méi)有得到充分利用[18-19]。高層特征擁有更多的語(yǔ)義和上下文關(guān)聯(lián)信息,而低層特征則包含更少這樣的信息。通過(guò)使用低層特征,并聯(lián)合高層特征,可以改進(jìn)已有方法對(duì)淺層信息利用不足的現(xiàn)狀,并進(jìn)一步提高問(wèn)答模型的性能?;诖?,本文提出了一種基于BERT 的三階段式問(wèn)答模型,通過(guò)設(shè)計(jì)三個(gè)階段來(lái)模擬人類漸進(jìn)式閱讀文本的方式:1)階段一使用低層特征來(lái)做預(yù)回答,預(yù)生成一個(gè)答案;2)階段二使用高層特征來(lái)做再回答,再生成一個(gè)答案;3)階段三將回顧前兩個(gè)階段生成的答案并進(jìn)行調(diào)整,給出最終預(yù)測(cè)結(jié)果。該模型通過(guò)融合不同層次特征對(duì)給定上下文及問(wèn)題進(jìn)行兩次回答和一次調(diào)整,提高了模型預(yù)測(cè)答案的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果也表明,本模型相較于基準(zhǔn)模型在精準(zhǔn)匹配度(Exact Match,EM)和F1(F1 score)兩個(gè)指標(biāo)上均有了不錯(cuò)的提升。

        本文的主要工作如下:

        1)為了解決已有模型未充分利用BERT 中淺層特征的問(wèn)題,提出了一種融合BERT 中高、低兩種層次編碼特征的方法,能夠有效地提高BERT 各層信息的利用率,且改進(jìn)后的模型復(fù)雜度較低。

        2)針對(duì)抽取式的問(wèn)答任務(wù),模擬現(xiàn)實(shí)世界中人類由淺入深閱讀文本的方式,提出了三階式問(wèn)答的概念,經(jīng)過(guò)三個(gè)階段調(diào)整后的答案比直接生成的答案準(zhǔn)確率更高。

        3)設(shè)計(jì)相關(guān)實(shí)驗(yàn)在公開(kāi)數(shù)據(jù)集上對(duì)本文所提出模型的性能進(jìn)行驗(yàn)證,并和其他基準(zhǔn)模型進(jìn)行了對(duì)比。

        1 三階段式問(wèn)答

        如圖2 所示,本文所提出的問(wèn)答模型包含三個(gè)階段:預(yù)回答、再回答以及答案調(diào)整。利用從預(yù)訓(xùn)練語(yǔ)言模型BERT中獲取到的淺層特征表達(dá)和深層特征表達(dá),在不同階段完成相應(yīng)的操作。此外,對(duì)于包含不可被回答問(wèn)題的數(shù)據(jù)集,還需要對(duì)“上下文-問(wèn)題”對(duì)的可回答性(即給定一對(duì)上下文和問(wèn)題,是否存在答案)進(jìn)行計(jì)算,以應(yīng)對(duì)不可回答問(wèn)題對(duì)答案的預(yù)測(cè)帶來(lái)的干擾。本文模型將針對(duì)可回答性的計(jì)算操作放在第二個(gè)階段中。

        圖2 本文三階段式問(wèn)答模型整體框架Fig.2 Overall framework of proposed three-stage question answering model

        1.1 任務(wù)定義

        本文只關(guān)注抽取式的問(wèn)答任務(wù),在抽取式問(wèn)答任務(wù)中,問(wèn)題的答案是給定上下文中的一個(gè)片段,可能是一個(gè)詞、一個(gè)詞組,也可能是一個(gè)句子。因此抽取式問(wèn)答模型的任務(wù)實(shí)際上就是預(yù)測(cè)出答案在原始上下文中的開(kāi)始位置和結(jié)束位置。

        1.2 預(yù)回答階段

        1.2.1 低層特征表達(dá)

        神經(jīng)網(wǎng)絡(luò)模型不能直接處理文本序列,因此需要將文本表示為向量形式才能被模型所處理,這一過(guò)程稱為詞嵌入(Embedding)。在進(jìn)行詞嵌入前,還需要將文本序列進(jìn)行分詞,即將一段文本表示為字或詞的有序列表集合。使用Q={q1,q2,…,qm}來(lái)表示給定問(wèn)題分詞后的長(zhǎng)度為m的單詞序列,P={p1,p2,…,pn}表示給定上下文分詞后的長(zhǎng)度為n的單詞序列。對(duì)于基于BERT 的問(wèn)答模型而言,需要將問(wèn)題及上下文按照先后順序拼接在一起,定義T={[CLS],q1,q2,…,qm,[SEP],p1,p2,…,pn,[SEP]}表示拼接后長(zhǎng)度為L(zhǎng)的輸入序列,并且L=m+n+3。在BERT 中,[CLS]是添加在每個(gè)輸入的序列樣本前的特殊標(biāo)記,用于指示序列的開(kāi)始;[SEP]是特殊的分隔標(biāo)記,T中第一個(gè)[SEP]用于分隔問(wèn)題和上下文,第二個(gè)[SEP]用于指示樣本的結(jié)束位置。嵌入層的作用是將輸入文本轉(zhuǎn)化為向量的形式以便被模型所處理,如圖3 所示,BERT 中嵌入層最終輸出的嵌入向量由三種嵌入向量相加而得:詞嵌入(token embedding)、句子詞嵌入(segment embedding)和位置詞嵌入(position embedding)。定義E={e1,e2,…,eL}表示BERT 中嵌入層最終的輸出特征,L表示E的長(zhǎng)度,ei∈表示序列T中對(duì)應(yīng)位置的單詞由文本轉(zhuǎn)換嵌入至特征空間的向量形式。隨后嵌入層的輸出E將被輸入至BERT 中的Transformer 結(jié)構(gòu)進(jìn)行深層次的編碼,以獲得具有更多語(yǔ)義及上下文關(guān)聯(lián)信息的特征表達(dá)。

        圖3 BERT的輸入表示Fig.3 BERT input representation

        文獻(xiàn)[20]中通過(guò)提出一種配對(duì)探針(Pairwise Probe)的機(jī)制來(lái)探索BERT 微調(diào)對(duì)機(jī)器閱讀理解任務(wù)的影響,發(fā)現(xiàn)微調(diào)對(duì)基礎(chǔ)和低層次信息以及一般語(yǔ)義任務(wù)的影響很小,而對(duì)于下游任務(wù)所需的特定能力,微調(diào)BERT 優(yōu)于預(yù)先訓(xùn)練好的BERT。即BERT 中越底層結(jié)構(gòu)學(xué)習(xí)到的特征表達(dá)所蘊(yùn)含語(yǔ)義特征和文本信息的通用性就越強(qiáng),與下游任務(wù)的相關(guān)性就越疏遠(yuǎn);而越高層結(jié)構(gòu)學(xué)習(xí)到的特征表達(dá)所蘊(yùn)含語(yǔ)義特征和文本信息的通用性就越弱,與下游任務(wù)的相關(guān)性就越密切。嵌入層是BERT 中能夠?qū)W習(xí)到文本特征表示的最底層,所以該層的輸出蘊(yùn)含通用性相對(duì)強(qiáng)的語(yǔ)義特征和文本信息,與下游機(jī)器閱讀理解任務(wù)的關(guān)聯(lián)性足夠弱,因此可將嵌入層的輸出E視作文本序列在BERT 中淺層次的特征表達(dá)。第一個(gè)階段中的預(yù)回答過(guò)程將對(duì)E進(jìn)行處理,以生成這個(gè)階段預(yù)測(cè)的答案在上下文中的開(kāi)始位置和結(jié)束位置。當(dāng)然也可以使用其他表示學(xué)習(xí)模型的輸出來(lái)代替BERT 中的淺層特征,但這樣會(huì)引入外部的網(wǎng)絡(luò)結(jié)構(gòu),增加模型整體的復(fù)雜度,并增加模型預(yù)測(cè)和推斷時(shí)間。此外,本文主要是對(duì)BERT 在機(jī)器閱讀理解任務(wù)上的表現(xiàn)進(jìn)行改進(jìn),挖掘BERT 中淺層特征的價(jià)值,因此引入外部表示學(xué)習(xí)模型來(lái)獲取淺層特征可以放在接下來(lái)的研究工作中。

        1.2.2 答案預(yù)生成

        文獻(xiàn)[21]中通過(guò)進(jìn)行詳盡的實(shí)驗(yàn),研究了BERT 在文本分類任務(wù)上的不同微調(diào)方法,發(fā)現(xiàn)利用BERT 中不同層次特征表示來(lái)做文本分類任務(wù),層次越低,分類效果越差,并且隨著層次的降低,分類錯(cuò)誤率從5.42%上升至11.07%。此外文獻(xiàn)[21]還對(duì)BERT 中各層特征的組合方式進(jìn)行了探索和實(shí)驗(yàn),主要是直接對(duì)各層特征進(jìn)行拼接、求均值或求最大值這三個(gè)操作來(lái)獲取文本的最終特征表示,并完成下游的文本分類任務(wù),發(fā)現(xiàn)這些方式都不如直接使用最高層特征表示來(lái)做文本分類任務(wù)的效果好,甚至顯著降低了在分類任務(wù)上的表現(xiàn)。因此直接對(duì)各層特征進(jìn)行拼接、求均值或求最大值等方式處理各層特征不能提升BERT 在特定任務(wù)上的表現(xiàn),這是因?yàn)橹苯影凑丈鲜龇绞教幚砀鲗犹卣鲿?huì)破壞微調(diào)BERT時(shí)高層結(jié)構(gòu)針對(duì)特定下游任務(wù)已經(jīng)學(xué)習(xí)到的特征表達(dá),所以才會(huì)獲得適得其反的效果。本文將不采取文獻(xiàn)[21]中的方式對(duì)各層特征進(jìn)行處理,而是對(duì)BERT 中的淺層信息和高層信息分別生成針對(duì)特定下游任務(wù)的預(yù)測(cè)結(jié)果,然后對(duì)兩個(gè)預(yù)測(cè)結(jié)果進(jìn)行組合以獲取更好的預(yù)測(cè)結(jié)果。

        抽取式問(wèn)答任務(wù)的目標(biāo)是根據(jù)給定問(wèn)題在原文中找出答案片段,即答案是從原文中抽取出來(lái)的,不作任何改變。具體到模型的實(shí)現(xiàn),一般是預(yù)測(cè)出答案在原文中的開(kāi)始位置和結(jié)束位置。因此該階段將E直接輸入至一個(gè)沒(méi)有任何激活函數(shù)的全連接層Linear,獲得針對(duì)答案開(kāi)始位置的輸出和結(jié)束位置的輸出:

        其中:表示答案開(kāi)始位置的概率,表示答案結(jié)束位置的概率,二者都由階段一產(chǎn)生。

        1.3 再回答階段

        1.3.1 高層特征表達(dá)

        BERT 中對(duì)嵌入向量進(jìn)行深層次編碼的核心結(jié)構(gòu)是雙向的Transformer 層[22],Transformer 使用注意力機(jī)制捕獲文本之間的關(guān)聯(lián)。如圖4 所示,BERT 內(nèi)部就是數(shù)個(gè)這樣的Transformer 層的堆疊。BERT 之所以在眾多NLP 任務(wù)中表現(xiàn)優(yōu)異,不僅是因?yàn)樗诖罅繜o(wú)監(jiān)督文本上進(jìn)行了漫長(zhǎng)的預(yù)訓(xùn)練過(guò)程,更重要的原因是Transformer 出色的編碼能力。本文把第l個(gè)Transformer 層的輸出定義為Xl,通過(guò)Xl=Transformer(Xl-1)計(jì)算得來(lái),并且X0=E。

        圖4 BERT深層次特征編碼過(guò)程Fig.4 Deep feature encoding process of BERT

        對(duì)于每一層Transformer,通過(guò)多頭注意力機(jī)制進(jìn)行編碼,定義多頭注意力計(jì)算后的輸出為,并按式(3)計(jì)算:

        對(duì)于基于BERT 的問(wèn)答模型,通常是直接使用最后一個(gè)隱藏層的輸出狀態(tài)作為后續(xù)模型的輸入特征H,設(shè)BERT 中Transformer 層的個(gè)數(shù)為S,則H=HS=。

        相較于嵌入層的輸出E,經(jīng)過(guò)深層次編碼后的輸出H蘊(yùn)含更加豐富的語(yǔ)義信息以及上下文和問(wèn)題之間的交互關(guān)系,可將H視作文本序列在BERT 中深層次的特征表達(dá),事實(shí)上大多數(shù)已有的基于BERT 的NLP 模型都是在H的處理方式上進(jìn)行網(wǎng)絡(luò)模型的再設(shè)計(jì)。本文所提出模型的第二個(gè)階段中的再回答過(guò)程將會(huì)對(duì)H進(jìn)行處理,以生成這個(gè)階段預(yù)測(cè)的答案在上下文中的開(kāi)始位置和結(jié)束位置。

        1.3.2 答案再生成

        不同于預(yù)回答階段,再回答階段將使用具有更豐富語(yǔ)義和上下文信息的特征表達(dá)H來(lái)進(jìn)行答案的預(yù)測(cè)。但與預(yù)回答階段相同的是,這個(gè)也只使用一個(gè)獨(dú)立的全連接層Linear來(lái)處理輸入的特征表達(dá),獲得針對(duì)答案開(kāi)始位置的輸出logitss和結(jié)束位置的輸出logitse:

        其中:logitss和logitse的計(jì)算使用到了經(jīng)過(guò)BERT 編碼后更深層次的特征表達(dá)H,這與人類閱讀文本的方式類似,第一次閱讀一段文本時(shí)僅能利用到文本中較淺的信息進(jìn)行閱讀理解,而再次閱讀文本時(shí)便能獲取到更深層次的信息。這個(gè)階段中答案開(kāi)始位置的概率ps和結(jié)束位置的概率pe也由softmax 函數(shù)計(jì)算得到:

        1.3.3 可回答性計(jì)算

        現(xiàn)實(shí)世界中總是存在不可被回答的問(wèn)題,問(wèn)答模型需要巧妙地避免回答這些問(wèn)題;并且近幾年新提出的問(wèn)答數(shù)據(jù)集中均包含不可被回答的問(wèn)題,這給問(wèn)答模型的設(shè)計(jì)帶來(lái)了新的挑戰(zhàn)。因此在模型中需要計(jì)算每一個(gè)“上下文-問(wèn)題”對(duì)的可回答性(即給定一對(duì)上下文和問(wèn)題,是否存在答案)。對(duì)于BERT 組后一層隱藏層的輸出序列H而言,特殊標(biāo)記[CLS]位置上的隱藏層向量h[CLS]∈H可以視作拼接后的文本序列在整體上的特征表達(dá)向量,對(duì)于問(wèn)答模型來(lái)說(shuō)就是“上下文-問(wèn)題”對(duì)整體的特征。因此可以利用h[CLS]來(lái)計(jì)算對(duì)應(yīng)“上下文-問(wèn)題”對(duì)的可回答性。同樣使用另一個(gè)獨(dú)立的全連接層Linear 和softmax 函數(shù)來(lái)處理h[CLS],并使用交叉熵?fù)p失函數(shù)來(lái)計(jì)算針對(duì)可回答性的損失函數(shù):

        其中:表示預(yù)測(cè)出的可回答性,yi表示真實(shí)的可回答性,N表示訓(xùn)練時(shí)的樣本數(shù)量。

        1.4 答案調(diào)整階段

        在三階段式問(wèn)答模型的最后一個(gè)階段,將利用前兩個(gè)階段預(yù)測(cè)出來(lái)的答案片段所在的位置進(jìn)行位置的調(diào)整,改進(jìn)預(yù)測(cè)答案的準(zhǔn)確性,以獲取最終的預(yù)測(cè)結(jié)果。使用logitsstart表示答案調(diào)整后的開(kāi)始位置,logitsend表示答案調(diào)整后的結(jié)束位置。在本文方法中,logitsstart和logitsend按照式(11)~(12)進(jìn)行計(jì)算:

        與前兩個(gè)階段相同,使用soft max 函數(shù)計(jì)算調(diào)整后的答案開(kāi)始位置和結(jié)束位置在輸入序列中每個(gè)位置上的概率:

        其中:pstart為答案開(kāi)始位置的概率,pend為結(jié)束位置的概率。

        最終調(diào)整后的答案預(yù)測(cè)的損失函數(shù)由交叉熵?fù)p失函數(shù)計(jì)算得來(lái):

        最終本文將針對(duì)“問(wèn)題-答案”對(duì)的可回答性損失Lna加上調(diào)整后答案的損失Lans,作為整個(gè)模型的目標(biāo)損失函數(shù)。使用Loss表示模型整體的目標(biāo)損失函數(shù),且計(jì)算式如下:

        模型的目標(biāo)就是在訓(xùn)練過(guò)程中最小化損失函數(shù)Loss的值,并在測(cè)試集上獲得最好的效果。

        2 實(shí)驗(yàn)與結(jié)果分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)

        SQuAD(Stanford Question Answering Dataset)數(shù)據(jù)集[9]是抽取式問(wèn)答任務(wù)的代表性數(shù)據(jù)集,數(shù)據(jù)來(lái)自于維基百科,目前SQuAD 數(shù)據(jù)集已經(jīng)成為機(jī)器閱讀理解任務(wù)中的基準(zhǔn)數(shù)據(jù)集。SQuAD 數(shù)據(jù)集是由斯坦福大學(xué)的研究人員提出,最初的1.1 版本[3]中只存在可回答的問(wèn)題,不符合現(xiàn)實(shí)世界中的情形,因此斯坦福大學(xué)在其基礎(chǔ)之上增加了50 000 個(gè)不可回答問(wèn)題,提出了SQuAD2.0(SQuAD 2.0)[9],進(jìn)一步提高了數(shù)據(jù)集難度。2018 年第二屆“訊飛杯”在其評(píng)測(cè)任務(wù)中發(fā)布了首個(gè)人工標(biāo)注的中文篇章片段抽取式閱讀理解數(shù)據(jù)集CMRC2018(Chinese Machine Reading Comprehension 2018)[2],填補(bǔ)了中文在這方面的空白,進(jìn)一步促進(jìn)了中文機(jī)器閱讀理解的研究。

        本文模型在英文數(shù)據(jù)集SQuAD2.0 和中文數(shù)據(jù)集CMRC2018 上進(jìn)行評(píng)估,用以驗(yàn)證模型的性能和有效性。

        如表1 所示,SQuAD2.0 中訓(xùn)練集樣本數(shù)和測(cè)試集樣本數(shù)均明顯多于CMRC2018。本文使用CMRC2018 數(shù)據(jù)來(lái)評(píng)估模型,主要是驗(yàn)證本文模型在中文上的有效性。以CMRC2018 為例,展示抽取式問(wèn)答任務(wù)的一個(gè)樣本示例,如圖5 所示。

        表1 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)信息Tab.1 Statistics of experimental datasets

        圖5 來(lái)自CMRC2018的某個(gè)問(wèn)答樣本Fig.5 A question answering example from CMRC2018 dataset

        2.2 評(píng)估指標(biāo)

        抽取式閱讀理解任務(wù)需要對(duì)模型預(yù)測(cè)的答案字符串和真實(shí)答案進(jìn)行比對(duì),因此一般使用SQuAD 數(shù)據(jù)集的發(fā)布者Rajpurkar 等[4]提出的EM(Exact Match)和F1(F1 score)值對(duì)模型進(jìn)行評(píng)估。EM 是指數(shù)據(jù)集中模型預(yù)測(cè)的答案與標(biāo)準(zhǔn)答案相同的百分比,F(xiàn)1 是指數(shù)據(jù)集中模型預(yù)測(cè)的答案和標(biāo)準(zhǔn)答案之間的平均單詞的覆蓋率。

        由于中文在結(jié)構(gòu)和形式上與英文不同,因此EM 值和F1值的計(jì)算也略有不同,采用CMRC2018 數(shù)據(jù)集的發(fā)布者Cui等[2]改進(jìn)后的EM 和F1 計(jì)算方式對(duì)模型在CRMC2018 數(shù)據(jù)集上的性能進(jìn)行評(píng)估。

        2.3 實(shí)驗(yàn)配置

        本文的實(shí)驗(yàn)環(huán)境為:操作系統(tǒng)為Ubuntu18.04,CPU 為Intel Core-i9(3.60 GHz),內(nèi)存為32GB,顯卡為NVIDIA GTX2080TI 11 GB。模型的搭建采用深度學(xué)習(xí)框架PyTorch實(shí)現(xiàn),并選擇Base 版本的BERT 作為基準(zhǔn)預(yù)訓(xùn)練模型進(jìn)行三階段問(wèn)答模型的搭建和實(shí)現(xiàn)。首先針對(duì)中文和英文分別下載訓(xùn)練好的BERT-Base 模型參數(shù);然后設(shè)置恰當(dāng)?shù)牡螖?shù)(epochs)并使用訓(xùn)練對(duì)網(wǎng)絡(luò)模型進(jìn)行微調(diào)(fine-tune),按照顯存容量設(shè)置合適的批樣本容量(batch_size)和樣本最大序列長(zhǎng)度(max_seq_length)。同時(shí)根據(jù)隨機(jī)失活率(dropout)、學(xué)習(xí)率(learning rate)與學(xué)習(xí)率的衰減值(warm-up rate)進(jìn)行微調(diào),直到訓(xùn)練的損失穩(wěn)定收斂。上述參數(shù)的具體設(shè)置如表2 所示。

        表2 參數(shù)設(shè)置Tab.2 Parameter setting

        SQuAD2.0 數(shù)據(jù)集和CMRC2018 數(shù)據(jù)中采用官方劃分的訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,在訓(xùn)練結(jié)束后采用官方劃分的測(cè)試集對(duì)模型進(jìn)行評(píng)估,并計(jì)算出EM 值和F1 值。

        2.4 結(jié)果分析

        對(duì)本文構(gòu)建的三階段問(wèn)答模型、傳統(tǒng)問(wèn)答模型,以及只使用BERT 高層特征信息的模型分別使用相同數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn)。

        表3 展示了不同模型在英文數(shù)據(jù)集SQuAD 上的性能表現(xiàn),包括V1.1(只包含可回答問(wèn)題)和V2.0(包含不可回答問(wèn)題)兩個(gè)版本的結(jié)果。作為經(jīng)典的傳統(tǒng)問(wèn)答模型,BiDAF[6]、Match-LSTM[12]、SAN(Stochastic Answer Networks)[18]、QANet[11]在V1.1 上的表現(xiàn)優(yōu)異,但當(dāng)問(wèn)題中存在不可回答問(wèn)題時(shí)(V2.0),EM 值和F1 值只能達(dá)到60%~70%,這說(shuō)明傳統(tǒng)模型無(wú)法應(yīng)對(duì)現(xiàn)實(shí)世界中不存在答案的問(wèn)題。而基準(zhǔn)模型BERTbase只使用一個(gè)全連接層來(lái)處理高層特征編碼,其EM和F1 就能分別達(dá)到74.4%和77.1%,這說(shuō)明了BERT 對(duì)文本強(qiáng)大的編碼能力,也是傳統(tǒng)模型難以提升的瓶頸所在。即傳統(tǒng)方法雖然在圖1(a)所示的5 個(gè)網(wǎng)絡(luò)層中都設(shè)計(jì)了非常巧妙的結(jié)構(gòu)來(lái)搭建問(wèn)答模型,但由于其采用的詞向量技術(shù)具有非常大的局限性,如上下文信息不足、難以解決一詞多義等問(wèn)題,因此傳統(tǒng)模型難以應(yīng)對(duì)存在不可回答問(wèn)題的真實(shí)場(chǎng)景。而基于前文可知,經(jīng)過(guò)BERT 編碼后的特征表達(dá)具有更豐富語(yǔ)義和上下文信息,于是在BERTbase之上融合這些經(jīng)典的模型(+BiDAF、+SAN)來(lái)處理高層特征編碼,以解決傳統(tǒng)詞向量技術(shù)不足帶來(lái)的瓶頸,但相較于在BERT 后只使用一層全連接網(wǎng)絡(luò)(BERTbase),+BiDAF、+SAN 的提升并不明顯,且由此帶來(lái)的問(wèn)題是訓(xùn)練速度和推斷速度的大幅下降,這也說(shuō)明只利用BERT 深層編碼特征進(jìn)行答案預(yù)測(cè)已經(jīng)無(wú)法顯著提升問(wèn)答模型的表現(xiàn)。而本文所提出的模型(+本文模型)在SQuAD2.0 上EM 值達(dá)到了76.8%,F(xiàn)1 值達(dá)到了78.7%,相較于BERTbase分別提升了2.4 和1.6 個(gè)百分點(diǎn),同時(shí)在SQuAD1.1 上也能達(dá)到較高的水準(zhǔn)。此外本文模型并未在模型中添加復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),而僅使用一個(gè)額外的全連接層對(duì)BERT 嵌入層輸出進(jìn)行處理以生成“預(yù)回答”階段的答案,在獲得不錯(cuò)效果提升的同時(shí),訓(xùn)練速度和推斷速度也沒(méi)有明顯下降。

        表3 SQuAD數(shù)據(jù)集上不同模型的結(jié)果對(duì)比 單位:%Tab.3 Result comparison of different models on SQuAD dataset unit:%

        由于針對(duì)中文語(yǔ)料庫(kù)CMRC2018 的抽取式問(wèn)答研究較少,本文只選擇了五個(gè)典型的傳統(tǒng)模型和BERT 基準(zhǔn)模型,與本文所提出的三階段式問(wèn)答模型進(jìn)行了對(duì)比,對(duì)比結(jié)果如表4 所示。從表4 可以看出,基于BERT 三階段式問(wèn)答模型的預(yù)測(cè)準(zhǔn)確性明顯高于五個(gè)典型的傳統(tǒng)問(wèn)答模型,EM 達(dá)到了65.0%,F(xiàn)1 達(dá)到了85.1%,相較于基準(zhǔn)模型BERTbase分別提升了1.4 和1.2 個(gè)百分點(diǎn),這說(shuō)明三階段式的問(wèn)答過(guò)程在中文上也同樣適用。

        表4 CMRC2018數(shù)據(jù)集上不同模型的結(jié)果對(duì)比 單位:%Tab.4 Result comparison of different models on CMRC2018 dataset unit:%

        圖6 以中文數(shù)據(jù)集CMRC2018 為例,對(duì)比展示了基準(zhǔn)模型BERTbase和三階段問(wèn)答模型對(duì)某個(gè)“上下文-問(wèn)題”對(duì)的答案片段的預(yù)測(cè)結(jié)果,可以看見(jiàn)本文模型與正確答案完全一致;而B(niǎo)ERTbase的預(yù)測(cè)片段遺漏了“地區(qū)”這個(gè)詞,預(yù)測(cè)結(jié)果不夠完整。這說(shuō)明在三階段模型中的“答案調(diào)整”階段,通過(guò)綜合利用前兩個(gè)階段預(yù)測(cè)出的答案片段對(duì)片段所在位置進(jìn)行調(diào)整,可以獲得更加準(zhǔn)確完善的答案片段,從而提高了模型的性能。

        圖6 CMRC2018數(shù)據(jù)集上的答案片段預(yù)測(cè)對(duì)比Fig.6 Answer fragment prediction comparison on CMRC2018 dataset

        基于上述結(jié)果分析可知,本文所提出的基于BERT 的三階段式問(wèn)答模型在中英兩種語(yǔ)言的數(shù)據(jù)集上都取得了較好的結(jié)果,且模型訓(xùn)練速度和推斷速度沒(méi)有明顯降低,這說(shuō)明融合BERT 嵌入層的淺層特征表達(dá)和完全編碼后的深層特征表達(dá)可以顯著提升問(wèn)答模型的性能,實(shí)驗(yàn)結(jié)果也驗(yàn)證了本文模型的有效性,以及在多語(yǔ)言任務(wù)上的適用性。

        3 結(jié)語(yǔ)

        本文提出了一種基于BERT 的三階段式問(wèn)答模型,除使用經(jīng)BERT 完全編碼后的高層特征信息,還利用到了BERT嵌入層中淺層特征信息,然后通過(guò)預(yù)回答、再回答、答案調(diào)整三個(gè)階段對(duì)模型預(yù)測(cè)的答案片段進(jìn)行調(diào)整,生成更加準(zhǔn)確的答案片段,并對(duì)問(wèn)題的可回答性進(jìn)行了評(píng)估以應(yīng)對(duì)現(xiàn)實(shí)世界中往往存在不可回答問(wèn)題的現(xiàn)狀。通過(guò)這種方法,避免了BERT 中淺層信息的浪費(fèi),提高了問(wèn)答模型預(yù)測(cè)答案片段的準(zhǔn)確性,一定程度上解決了基準(zhǔn)模型預(yù)測(cè)出的片段不完整的問(wèn)題。此外,還在中英兩種語(yǔ)言的數(shù)據(jù)集上進(jìn)行了一系列實(shí)驗(yàn),驗(yàn)證了本文模型在多語(yǔ)言上的適用性。

        在未來(lái)的研究工作中,可以通過(guò)在“預(yù)回答”和“再回答”兩個(gè)階段加入其他結(jié)構(gòu)如循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制繼續(xù)處理BERT 中的低層特征和高層特征,進(jìn)一步提高三階段式問(wèn)答模型在公開(kāi)數(shù)據(jù)集上的表現(xiàn)。另外,還可以引入外部表示學(xué)習(xí)模型如循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)等結(jié)構(gòu)的輸出代替本文提出的BERT 淺層特征,用以改進(jìn)模型性能。最后,對(duì)于“答案調(diào)整”階段,可以加入其他輔助信息,如考慮將位置信息、外部知識(shí)等作為補(bǔ)充,使模型預(yù)測(cè)的結(jié)果片段更加精準(zhǔn)。

        猜你喜歡
        特征文本模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        久久人妻av无码中文专区| 国产一区内射最近更新| 99精品国产在热久久| 国产亚洲精品国产精品| 蜜臀性色av免费| 久久国产成人午夜av影院| 免费视频成人 国产精品网站| 日韩精品人妻视频一区二区三区| 九九影院理论片私人影院| 色婷婷综合久久久久中文| 亚洲a级片在线观看| A亚洲VA欧美VA国产综合| 高清国产亚洲精品自在久久| 日韩欧美aⅴ综合网站发布| 国产成人vr精品a视频| 国产亚洲日本人在线观看| 一区二区三区国产精品麻豆| 国产精品综合色区在线观看| 欧美性群另类交| 秀人网嫩模李梓熙大尺度| 成年人干逼视频水好多| 亚洲va中文字幕| 欧美成人www免费全部网站| 亚洲一区二区三区麻豆| 日本高清在线一区二区三区| 中文字幕日韩一区二区三区不卡| 国产一区二区三区国产精品| 美女与黑人巨大进入免费观看| 亚洲乱码一区av春药高潮| 97精品人妻一区二区三区香蕉| 亚洲欧洲综合有码无码| 日韩精品久久午夜夜伦鲁鲁| 99久久超碰中文字幕伊人| 欧美中文在线观看| 91精品国产综合久久久蜜臀九色 | 亚洲熟女国产熟女二区三区| 蜜臀av毛片一区二区三区| 麻豆国产原创视频在线播放| 久久精品国产亚洲AV无码不| 国产自拍av在线观看| 久久久久久九九99精品|