基于BERT的三階段式問(wèn)答模型

2022-02-26 06:57:58李曉瑜胡世杰劉曉磊錢偉中

計(jì)算機(jī)應(yīng)用 2022年1期

彭宇，李曉瑜，胡世杰，劉曉磊，錢偉中

（電子科技大學(xué)信息與軟件工程學(xué)院，成都 610054）

0 引言

機(jī)器閱讀理解（Machine Reading Comprehension，MRC）是一項(xiàng)評(píng)估機(jī)器理解自然語(yǔ)言能力的任務(wù)，它要求機(jī)器能根據(jù)給定的上下文和問(wèn)題找到對(duì)應(yīng)的答案。教會(huì)機(jī)器理解人類的語(yǔ)言也是自然語(yǔ)言處理（Natural Language Processing，NLP）領(lǐng)域的終極目標(biāo)［1-3］。在早期的機(jī)器閱讀理解數(shù)據(jù)集［4］中，問(wèn)題都是可以被回答的，也就是一定能在上下文中找到對(duì)應(yīng)的答案，因此早期的問(wèn)答模型［5-8］是在問(wèn)題都可被回答的前提假設(shè)下進(jìn)行構(gòu)建的。然而現(xiàn)實(shí)世界中常常存在不可被回答的問(wèn)題，因此早期的數(shù)據(jù)集不符合現(xiàn)實(shí)情況。為了彌補(bǔ)這種不足，許多研究機(jī)構(gòu)和學(xué)者新提出了包含不可被回答問(wèn)題的數(shù)據(jù)集［9-10］來(lái)模擬現(xiàn)實(shí)世界中的真實(shí)場(chǎng)景，但這也給傳統(tǒng)的問(wèn)答模型提出了新的挑戰(zhàn)。當(dāng)面對(duì)這樣的新數(shù)據(jù)集時(shí)，傳統(tǒng)模型的問(wèn)答表現(xiàn)非常差。

在預(yù)訓(xùn)練語(yǔ)言模型出現(xiàn)之前，基于深度學(xué)習(xí)的問(wèn)答模型通常被拆分為如圖1（a）所示的5 個(gè)網(wǎng)絡(luò)層：嵌入層、編碼層、交互層、模型層和輸出層。傳統(tǒng)模型的改進(jìn)與發(fā)展依賴于每一層的設(shè)計(jì)與實(shí)現(xiàn)。作為一個(gè)經(jīng)典的傳統(tǒng)問(wèn)答模型，BiDAF（BiDirectional Attention Flow）［6］設(shè)計(jì)了6 個(gè)網(wǎng)絡(luò)層來(lái)解決問(wèn)答任務(wù)，并使用雙向注意力流結(jié)構(gòu)來(lái)捕獲給定上下文和問(wèn)題之間的交互信息。QANet（Question Answering Network）［11］融合局部卷積和全局自注意力機(jī)制來(lái)加速訓(xùn)練和推斷。Wang等［12］也提出了一個(gè)端到端并融合Match-LSTM（Long Short-Term Memory）和Answer Pointer 結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)來(lái)完成問(wèn)答任務(wù)。盡管這些模型已經(jīng)非常巧妙，但它們?cè)诎豢杀换卮饐?wèn)題的數(shù)據(jù)集上的表現(xiàn)提升也十分有限。這是因?yàn)閭鹘y(tǒng)的詞嵌入方法難以解決一詞多義的問(wèn)題［13-14］，即便有像ELMo（Embeddings from Language Model）［15］這樣的動(dòng)態(tài)詞嵌入方法被提出，所帶來(lái)的提升也不明顯。

圖1 傳統(tǒng)問(wèn)答模型與基于BERT的已有模型的對(duì)比Fig.1 Comparison between traditional and existing BERT-based question answering models

預(yù)訓(xùn)練語(yǔ)言模型［16-17］如BERT（Bidirectional Encoder Representation from Transformers）［16］的出現(xiàn)極大地提升了機(jī)器閱讀理解模型的性能，在某些數(shù)據(jù)集上甚至超越了人類的表現(xiàn)。這是因?yàn)轭A(yù)訓(xùn)練語(yǔ)言模型可以生成“上下文-問(wèn)題”對(duì)基于語(yǔ)義特征和上下文關(guān)系的詞向量表達(dá)。通過(guò)在大量的文本語(yǔ)料上進(jìn)行預(yù)訓(xùn)練，預(yù)訓(xùn)練語(yǔ)言模型可以捕獲單詞、序列之間更深層次的交互關(guān)系。研究人員只需要針對(duì)特定任務(wù)在預(yù)訓(xùn)練模型之后設(shè)計(jì)恰當(dāng)?shù)慕Y(jié)構(gòu)搭建模型進(jìn)行微調(diào)（fine-tune）就能獲得相當(dāng)不錯(cuò)的表現(xiàn)。如圖1（b）所示，大多數(shù)使用BERT 的問(wèn)答模型將BERT 看作傳統(tǒng)問(wèn)答模型五個(gè)層次中的嵌入層、編碼層和交互層。

盡管只利用經(jīng)BERT 完全編碼后的高層特征來(lái)設(shè)計(jì)模型已經(jīng)取得了不錯(cuò)的性能，但是BERT 中的低層特征卻沒(méi)有得到充分利用［18-19］。高層特征擁有更多的語(yǔ)義和上下文關(guān)聯(lián)信息，而低層特征則包含更少這樣的信息。通過(guò)使用低層特征，并聯(lián)合高層特征，可以改進(jìn)已有方法對(duì)淺層信息利用不足的現(xiàn)狀，并進(jìn)一步提高問(wèn)答模型的性能?；诖?，本文提出了一種基于BERT 的三階段式問(wèn)答模型，通過(guò)設(shè)計(jì)三個(gè)階段來(lái)模擬人類漸進(jìn)式閱讀文本的方式：1）階段一使用低層特征來(lái)做預(yù)回答，預(yù)生成一個(gè)答案；2）階段二使用高層特征來(lái)做再回答，再生成一個(gè)答案；3）階段三將回顧前兩個(gè)階段生成的答案并進(jìn)行調(diào)整，給出最終預(yù)測(cè)結(jié)果。該模型通過(guò)融合不同層次特征對(duì)給定上下文及問(wèn)題進(jìn)行兩次回答和一次調(diào)整，提高了模型預(yù)測(cè)答案的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果也表明，本模型相較于基準(zhǔn)模型在精準(zhǔn)匹配度（Exact Match，EM）和F1（F1 score）兩個(gè)指標(biāo)上均有了不錯(cuò)的提升。

本文的主要工作如下：

1）為了解決已有模型未充分利用BERT 中淺層特征的問(wèn)題，提出了一種融合BERT 中高、低兩種層次編碼特征的方法，能夠有效地提高BERT 各層信息的利用率，且改進(jìn)后的模型復(fù)雜度較低。

2）針對(duì)抽取式的問(wèn)答任務(wù)，模擬現(xiàn)實(shí)世界中人類由淺入深閱讀文本的方式，提出了三階式問(wèn)答的概念，經(jīng)過(guò)三個(gè)階段調(diào)整后的答案比直接生成的答案準(zhǔn)確率更高。

3）設(shè)計(jì)相關(guān)實(shí)驗(yàn)在公開(kāi)數(shù)據(jù)集上對(duì)本文所提出模型的性能進(jìn)行驗(yàn)證，并和其他基準(zhǔn)模型進(jìn)行了對(duì)比。

1 三階段式問(wèn)答

如圖2 所示，本文所提出的問(wèn)答模型包含三個(gè)階段：預(yù)回答、再回答以及答案調(diào)整。利用從預(yù)訓(xùn)練語(yǔ)言模型BERT中獲取到的淺層特征表達(dá)和深層特征表達(dá)，在不同階段完成相應(yīng)的操作。此外，對(duì)于包含不可被回答問(wèn)題的數(shù)據(jù)集，還需要對(duì)“上下文-問(wèn)題”對(duì)的可回答性（即給定一對(duì)上下文和問(wèn)題，是否存在答案）進(jìn)行計(jì)算，以應(yīng)對(duì)不可回答問(wèn)題對(duì)答案的預(yù)測(cè)帶來(lái)的干擾。本文模型將針對(duì)可回答性的計(jì)算操作放在第二個(gè)階段中。

圖2 本文三階段式問(wèn)答模型整體框架Fig.2 Overall framework of proposed three-stage question answering model

1.1 任務(wù)定義

本文只關(guān)注抽取式的問(wèn)答任務(wù)，在抽取式問(wèn)答任務(wù)中，問(wèn)題的答案是給定上下文中的一個(gè)片段，可能是一個(gè)詞、一個(gè)詞組，也可能是一個(gè)句子。因此抽取式問(wèn)答模型的任務(wù)實(shí)際上就是預(yù)測(cè)出答案在原始上下文中的開(kāi)始位置和結(jié)束位置。

1.2 預(yù)回答階段

1.2.1 低層特征表達(dá)

神經(jīng)網(wǎng)絡(luò)模型不能直接處理文本序列，因此需要將文本表示為向量形式才能被模型所處理，這一過(guò)程稱為詞嵌入（Embedding）。在進(jìn)行詞嵌入前，還需要將文本序列進(jìn)行分詞，即將一段文本表示為字或詞的有序列表集合。使用Q={q1，q2，…，qm}來(lái)表示給定問(wèn)題分詞后的長(zhǎng)度為m的單詞序列，P={p1，p2，…，pn}表示給定上下文分詞后的長(zhǎng)度為n的單詞序列。對(duì)于基于BERT 的問(wèn)答模型而言，需要將問(wèn)題及上下文按照先后順序拼接在一起，定義T={[CLS]，q1，q2，…，qm，[SEP]，p1，p2，…，pn，[SEP]}表示拼接后長(zhǎng)度為L(zhǎng)的輸入序列，并且L=m+n+3。在BERT 中，[CLS]是添加在每個(gè)輸入的序列樣本前的特殊標(biāo)記，用于指示序列的開(kāi)始；[SEP]是特殊的分隔標(biāo)記，T中第一個(gè)[SEP]用于分隔問(wèn)題和上下文，第二個(gè)[SEP]用于指示樣本的結(jié)束位置。嵌入層的作用是將輸入文本轉(zhuǎn)化為向量的形式以便被模型所處理，如圖3 所示，BERT 中嵌入層最終輸出的嵌入向量由三種嵌入向量相加而得：詞嵌入（token embedding）、句子詞嵌入（segment embedding）和位置詞嵌入（position embedding）。定義E={e1，e2，…，eL}表示BERT 中嵌入層最終的輸出特征，L表示E的長(zhǎng)度，ei∈表示序列T中對(duì)應(yīng)位置的單詞由文本轉(zhuǎn)換嵌入至特征空間的向量形式。隨后嵌入層的輸出E將被輸入至BERT 中的Transformer 結(jié)構(gòu)進(jìn)行深層次的編碼，以獲得具有更多語(yǔ)義及上下文關(guān)聯(lián)信息的特征表達(dá)。

圖3 BERT的輸入表示Fig.3 BERT input representation

文獻(xiàn)［20］中通過(guò)提出一種配對(duì)探針（Pairwise Probe）的機(jī)制來(lái)探索BERT 微調(diào)對(duì)機(jī)器閱讀理解任務(wù)的影響，發(fā)現(xiàn)微調(diào)對(duì)基礎(chǔ)和低層次信息以及一般語(yǔ)義任務(wù)的影響很小，而對(duì)于下游任務(wù)所需的特定能力，微調(diào)BERT 優(yōu)于預(yù)先訓(xùn)練好的BERT。即BERT 中越底層結(jié)構(gòu)學(xué)習(xí)到的特征表達(dá)所蘊(yùn)含語(yǔ)義特征和文本信息的通用性就越強(qiáng)，與下游任務(wù)的相關(guān)性就越疏遠(yuǎn)；而越高層結(jié)構(gòu)學(xué)習(xí)到的特征表達(dá)所蘊(yùn)含語(yǔ)義特征和文本信息的通用性就越弱，與下游任務(wù)的相關(guān)性就越密切。嵌入層是BERT 中能夠?qū)W習(xí)到文本特征表示的最底層，所以該層的輸出蘊(yùn)含通用性相對(duì)強(qiáng)的語(yǔ)義特征和文本信息，與下游機(jī)器閱讀理解任務(wù)的關(guān)聯(lián)性足夠弱，因此可將嵌入層的輸出E視作文本序列在BERT 中淺層次的特征表達(dá)。第一個(gè)階段中的預(yù)回答過(guò)程將對(duì)E進(jìn)行處理，以生成這個(gè)階段預(yù)測(cè)的答案在上下文中的開(kāi)始位置和結(jié)束位置。當(dāng)然也可以使用其他表示學(xué)習(xí)模型的輸出來(lái)代替BERT 中的淺層特征，但這樣會(huì)引入外部的網(wǎng)絡(luò)結(jié)構(gòu)，增加模型整體的復(fù)雜度，并增加模型預(yù)測(cè)和推斷時(shí)間。此外，本文主要是對(duì)BERT 在機(jī)器閱讀理解任務(wù)上的表現(xiàn)進(jìn)行改進(jìn)，挖掘BERT 中淺層特征的價(jià)值，因此引入外部表示學(xué)習(xí)模型來(lái)獲取淺層特征可以放在接下來(lái)的研究工作中。

1.2.2 答案預(yù)生成

文獻(xiàn)［21］中通過(guò)進(jìn)行詳盡的實(shí)驗(yàn)，研究了BERT 在文本分類任務(wù)上的不同微調(diào)方法，發(fā)現(xiàn)利用BERT 中不同層次特征表示來(lái)做文本分類任務(wù)，層次越低，分類效果越差，并且隨著層次的降低，分類錯(cuò)誤率從5.42%上升至11.07%。此外文獻(xiàn)［21］還對(duì)BERT 中各層特征的組合方式進(jìn)行了探索和實(shí)驗(yàn)，主要是直接對(duì)各層特征進(jìn)行拼接、求均值或求最大值這三個(gè)操作來(lái)獲取文本的最終特征表示，并完成下游的文本分類任務(wù)，發(fā)現(xiàn)這些方式都不如直接使用最高層特征表示來(lái)做文本分類任務(wù)的效果好，甚至顯著降低了在分類任務(wù)上的表現(xiàn)。因此直接對(duì)各層特征進(jìn)行拼接、求均值或求最大值等方式處理各層特征不能提升BERT 在特定任務(wù)上的表現(xiàn)，這是因?yàn)橹苯影凑丈鲜龇绞教幚砀鲗犹卣鲿?huì)破壞微調(diào)BERT時(shí)高層結(jié)構(gòu)針對(duì)特定下游任務(wù)已經(jīng)學(xué)習(xí)到的特征表達(dá)，所以才會(huì)獲得適得其反的效果。本文將不采取文獻(xiàn)［21］中的方式對(duì)各層特征進(jìn)行處理，而是對(duì)BERT 中的淺層信息和高層信息分別生成針對(duì)特定下游任務(wù)的預(yù)測(cè)結(jié)果，然后對(duì)兩個(gè)預(yù)測(cè)結(jié)果進(jìn)行組合以獲取更好的預(yù)測(cè)結(jié)果。

抽取式問(wèn)答任務(wù)的目標(biāo)是根據(jù)給定問(wèn)題在原文中找出答案片段，即答案是從原文中抽取出來(lái)的，不作任何改變。具體到模型的實(shí)現(xiàn)，一般是預(yù)測(cè)出答案在原文中的開(kāi)始位置和結(jié)束位置。因此該階段將E直接輸入至一個(gè)沒(méi)有任何激活函數(shù)的全連接層Linear，獲得針對(duì)答案開(kāi)始位置的輸出和結(jié)束位置的輸出：

其中：表示答案開(kāi)始位置的概率，表示答案結(jié)束位置的概率，二者都由階段一產(chǎn)生。

1.3 再回答階段

1.3.1 高層特征表達(dá)

BERT 中對(duì)嵌入向量進(jìn)行深層次編碼的核心結(jié)構(gòu)是雙向的Transformer 層［22］，Transformer 使用注意力機(jī)制捕獲文本之間的關(guān)聯(lián)。如圖4 所示，BERT 內(nèi)部就是數(shù)個(gè)這樣的Transformer 層的堆疊。BERT 之所以在眾多NLP 任務(wù)中表現(xiàn)優(yōu)異，不僅是因?yàn)樗诖罅繜o(wú)監(jiān)督文本上進(jìn)行了漫長(zhǎng)的預(yù)訓(xùn)練過(guò)程，更重要的原因是Transformer 出色的編碼能力。本文把第l個(gè)Transformer 層的輸出定義為Xl，通過(guò)Xl=Transformer(Xl-1)計(jì)算得來(lái)，并且X0=E。

圖4 BERT深層次特征編碼過(guò)程Fig.4 Deep feature encoding process of BERT

對(duì)于每一層Transformer，通過(guò)多頭注意力機(jī)制進(jìn)行編碼，定義多頭注意力計(jì)算后的輸出為，并按式（3）計(jì)算：

對(duì)于基于BERT 的問(wèn)答模型，通常是直接使用最后一個(gè)隱藏層的輸出狀態(tài)作為后續(xù)模型的輸入特征H，設(shè)BERT 中Transformer 層的個(gè)數(shù)為S，則H=HS=。

相較于嵌入層的輸出E，經(jīng)過(guò)深層次編碼后的輸出H蘊(yùn)含更加豐富的語(yǔ)義信息以及上下文和問(wèn)題之間的交互關(guān)系，可將H視作文本序列在BERT 中深層次的特征表達(dá)，事實(shí)上大多數(shù)已有的基于BERT 的NLP 模型都是在H的處理方式上進(jìn)行網(wǎng)絡(luò)模型的再設(shè)計(jì)。本文所提出模型的第二個(gè)階段中的再回答過(guò)程將會(huì)對(duì)H進(jìn)行處理，以生成這個(gè)階段預(yù)測(cè)的答案在上下文中的開(kāi)始位置和結(jié)束位置。

1.3.2 答案再生成

不同于預(yù)回答階段，再回答階段將使用具有更豐富語(yǔ)義和上下文信息的特征表達(dá)H來(lái)進(jìn)行答案的預(yù)測(cè)。但與預(yù)回答階段相同的是，這個(gè)也只使用一個(gè)獨(dú)立的全連接層Linear來(lái)處理輸入的特征表達(dá)，獲得針對(duì)答案開(kāi)始位置的輸出logitss和結(jié)束位置的輸出logitse：

其中：logitss和logitse的計(jì)算使用到了經(jīng)過(guò)BERT 編碼后更深層次的特征表達(dá)H，這與人類閱讀文本的方式類似，第一次閱讀一段文本時(shí)僅能利用到文本中較淺的信息進(jìn)行閱讀理解，而再次閱讀文本時(shí)便能獲取到更深層次的信息。這個(gè)階段中答案開(kāi)始位置的概率ps和結(jié)束位置的概率pe也由softmax 函數(shù)計(jì)算得到：

1.3.3 可回答性計(jì)算

現(xiàn)實(shí)世界中總是存在不可被回答的問(wèn)題，問(wèn)答模型需要巧妙地避免回答這些問(wèn)題；并且近幾年新提出的問(wèn)答數(shù)據(jù)集中均包含不可被回答的問(wèn)題，這給問(wèn)答模型的設(shè)計(jì)帶來(lái)了新的挑戰(zhàn)。因此在模型中需要計(jì)算每一個(gè)“上下文-問(wèn)題”對(duì)的可回答性（即給定一對(duì)上下文和問(wèn)題，是否存在答案）。對(duì)于BERT 組后一層隱藏層的輸出序列H而言，特殊標(biāo)記[CLS]位置上的隱藏層向量h[CLS]∈H可以視作拼接后的文本序列在整體上的特征表達(dá)向量，對(duì)于問(wèn)答模型來(lái)說(shuō)就是“上下文-問(wèn)題”對(duì)整體的特征。因此可以利用h[CLS]來(lái)計(jì)算對(duì)應(yīng)“上下文-問(wèn)題”對(duì)的可回答性。同樣使用另一個(gè)獨(dú)立的全連接層Linear 和softmax 函數(shù)來(lái)處理h[CLS]，并使用交叉熵?fù)p失函數(shù)來(lái)計(jì)算針對(duì)可回答性的損失函數(shù)：

其中：表示預(yù)測(cè)出的可回答性，yi表示真實(shí)的可回答性，N表示訓(xùn)練時(shí)的樣本數(shù)量。

1.4 答案調(diào)整階段

在三階段式問(wèn)答模型的最后一個(gè)階段，將利用前兩個(gè)階段預(yù)測(cè)出來(lái)的答案片段所在的位置進(jìn)行位置的調(diào)整，改進(jìn)預(yù)測(cè)答案的準(zhǔn)確性，以獲取最終的預(yù)測(cè)結(jié)果。使用logitsstart表示答案調(diào)整后的開(kāi)始位置，logitsend表示答案調(diào)整后的結(jié)束位置。在本文方法中，logitsstart和logitsend按照式（11）～（12）進(jìn)行計(jì)算：

與前兩個(gè)階段相同，使用soft max 函數(shù)計(jì)算調(diào)整后的答案開(kāi)始位置和結(jié)束位置在輸入序列中每個(gè)位置上的概率：

其中：pstart為答案開(kāi)始位置的概率，pend為結(jié)束位置的概率。

最終調(diào)整后的答案預(yù)測(cè)的損失函數(shù)由交叉熵?fù)p失函數(shù)計(jì)算得來(lái)：

最終本文將針對(duì)“問(wèn)題-答案”對(duì)的可回答性損失Lna加上調(diào)整后答案的損失Lans，作為整個(gè)模型的目標(biāo)損失函數(shù)。使用Loss表示模型整體的目標(biāo)損失函數(shù)，且計(jì)算式如下：

模型的目標(biāo)就是在訓(xùn)練過(guò)程中最小化損失函數(shù)Loss的值，并在測(cè)試集上獲得最好的效果。

2 實(shí)驗(yàn)與結(jié)果分析

2.1 實(shí)驗(yàn)數(shù)據(jù)

SQuAD（Stanford Question Answering Dataset）數(shù)據(jù)集［9］是抽取式問(wèn)答任務(wù)的代表性數(shù)據(jù)集，數(shù)據(jù)來(lái)自于維基百科，目前SQuAD 數(shù)據(jù)集已經(jīng)成為機(jī)器閱讀理解任務(wù)中的基準(zhǔn)數(shù)據(jù)集。SQuAD 數(shù)據(jù)集是由斯坦福大學(xué)的研究人員提出，最初的1.1 版本［3］中只存在可回答的問(wèn)題，不符合現(xiàn)實(shí)世界中的情形，因此斯坦福大學(xué)在其基礎(chǔ)之上增加了50 000 個(gè)不可回答問(wèn)題，提出了SQuAD2.0（SQuAD 2.0）［9］，進(jìn)一步提高了數(shù)據(jù)集難度。2018 年第二屆“訊飛杯”在其評(píng)測(cè)任務(wù)中發(fā)布了首個(gè)人工標(biāo)注的中文篇章片段抽取式閱讀理解數(shù)據(jù)集CMRC2018（Chinese Machine Reading Comprehension 2018）［2］，填補(bǔ)了中文在這方面的空白，進(jìn)一步促進(jìn)了中文機(jī)器閱讀理解的研究。

本文模型在英文數(shù)據(jù)集SQuAD2.0 和中文數(shù)據(jù)集CMRC2018 上進(jìn)行評(píng)估，用以驗(yàn)證模型的性能和有效性。

如表1 所示，SQuAD2.0 中訓(xùn)練集樣本數(shù)和測(cè)試集樣本數(shù)均明顯多于CMRC2018。本文使用CMRC2018 數(shù)據(jù)來(lái)評(píng)估模型，主要是驗(yàn)證本文模型在中文上的有效性。以CMRC2018 為例，展示抽取式問(wèn)答任務(wù)的一個(gè)樣本示例，如圖5 所示。

表1 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)信息Tab.1 Statistics of experimental datasets

圖5 來(lái)自CMRC2018的某個(gè)問(wèn)答樣本Fig.5 A question answering example from CMRC2018 dataset

2.2 評(píng)估指標(biāo)

抽取式閱讀理解任務(wù)需要對(duì)模型預(yù)測(cè)的答案字符串和真實(shí)答案進(jìn)行比對(duì)，因此一般使用SQuAD 數(shù)據(jù)集的發(fā)布者Rajpurkar 等［4］提出的EM（Exact Match）和F1（F1 score）值對(duì)模型進(jìn)行評(píng)估。EM 是指數(shù)據(jù)集中模型預(yù)測(cè)的答案與標(biāo)準(zhǔn)答案相同的百分比，F(xiàn)1 是指數(shù)據(jù)集中模型預(yù)測(cè)的答案和標(biāo)準(zhǔn)答案之間的平均單詞的覆蓋率。

由于中文在結(jié)構(gòu)和形式上與英文不同，因此EM 值和F1值的計(jì)算也略有不同，采用CMRC2018 數(shù)據(jù)集的發(fā)布者Cui等［2］改進(jìn)后的EM 和F1 計(jì)算方式對(duì)模型在CRMC2018 數(shù)據(jù)集上的性能進(jìn)行評(píng)估。

2.3 實(shí)驗(yàn)配置

本文的實(shí)驗(yàn)環(huán)境為：操作系統(tǒng)為Ubuntu18.04，CPU 為Intel Core-i9（3.60 GHz），內(nèi)存為32GB，顯卡為NVIDIA GTX2080TI 11 GB。模型的搭建采用深度學(xué)習(xí)框架PyTorch實(shí)現(xiàn)，并選擇Base 版本的BERT 作為基準(zhǔn)預(yù)訓(xùn)練模型進(jìn)行三階段問(wèn)答模型的搭建和實(shí)現(xiàn)。首先針對(duì)中文和英文分別下載訓(xùn)練好的BERT-Base 模型參數(shù)；然后設(shè)置恰當(dāng)?shù)牡螖?shù)（epochs）并使用訓(xùn)練對(duì)網(wǎng)絡(luò)模型進(jìn)行微調(diào)（fine-tune），按照顯存容量設(shè)置合適的批樣本容量（batch_size）和樣本最大序列長(zhǎng)度（max_seq_length）。同時(shí)根據(jù)隨機(jī)失活率（dropout）、學(xué)習(xí)率（learning rate）與學(xué)習(xí)率的衰減值（warm-up rate）進(jìn)行微調(diào)，直到訓(xùn)練的損失穩(wěn)定收斂。上述參數(shù)的具體設(shè)置如表2 所示。

表2 參數(shù)設(shè)置Tab.2 Parameter setting

SQuAD2.0 數(shù)據(jù)集和CMRC2018 數(shù)據(jù)中采用官方劃分的訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練，在訓(xùn)練結(jié)束后采用官方劃分的測(cè)試集對(duì)模型進(jìn)行評(píng)估，并計(jì)算出EM 值和F1 值。

2.4 結(jié)果分析

對(duì)本文構(gòu)建的三階段問(wèn)答模型、傳統(tǒng)問(wèn)答模型，以及只使用BERT 高層特征信息的模型分別使用相同數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn)。

表3 展示了不同模型在英文數(shù)據(jù)集SQuAD 上的性能表現(xiàn)，包括V1.1（只包含可回答問(wèn)題）和V2.0（包含不可回答問(wèn)題）兩個(gè)版本的結(jié)果。作為經(jīng)典的傳統(tǒng)問(wèn)答模型，BiDAF［6］、Match-LSTM［12］、SAN（Stochastic Answer Networks）［18］、QANet［11］在V1.1 上的表現(xiàn)優(yōu)異，但當(dāng)問(wèn)題中存在不可回答問(wèn)題時(shí)（V2.0），EM 值和F1 值只能達(dá)到60%～70%，這說(shuō)明傳統(tǒng)模型無(wú)法應(yīng)對(duì)現(xiàn)實(shí)世界中不存在答案的問(wèn)題。而基準(zhǔn)模型BERTbase只使用一個(gè)全連接層來(lái)處理高層特征編碼，其EM和F1 就能分別達(dá)到74.4%和77.1%，這說(shuō)明了BERT 對(duì)文本強(qiáng)大的編碼能力，也是傳統(tǒng)模型難以提升的瓶頸所在。即傳統(tǒng)方法雖然在圖1（a）所示的5 個(gè)網(wǎng)絡(luò)層中都設(shè)計(jì)了非常巧妙的結(jié)構(gòu)來(lái)搭建問(wèn)答模型，但由于其采用的詞向量技術(shù)具有非常大的局限性，如上下文信息不足、難以解決一詞多義等問(wèn)題，因此傳統(tǒng)模型難以應(yīng)對(duì)存在不可回答問(wèn)題的真實(shí)場(chǎng)景。而基于前文可知，經(jīng)過(guò)BERT 編碼后的特征表達(dá)具有更豐富語(yǔ)義和上下文信息，于是在BERTbase之上融合這些經(jīng)典的模型（+BiDAF、+SAN）來(lái)處理高層特征編碼，以解決傳統(tǒng)詞向量技術(shù)不足帶來(lái)的瓶頸，但相較于在BERT 后只使用一層全連接網(wǎng)絡(luò)（BERTbase），+BiDAF、+SAN 的提升并不明顯，且由此帶來(lái)的問(wèn)題是訓(xùn)練速度和推斷速度的大幅下降，這也說(shuō)明只利用BERT 深層編碼特征進(jìn)行答案預(yù)測(cè)已經(jīng)無(wú)法顯著提升問(wèn)答模型的表現(xiàn)。而本文所提出的模型（+本文模型）在SQuAD2.0 上EM 值達(dá)到了76.8%，F(xiàn)1 值達(dá)到了78.7%，相較于BERTbase分別提升了2.4 和1.6 個(gè)百分點(diǎn)，同時(shí)在SQuAD1.1 上也能達(dá)到較高的水準(zhǔn)。此外本文模型并未在模型中添加復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)，而僅使用一個(gè)額外的全連接層對(duì)BERT 嵌入層輸出進(jìn)行處理以生成“預(yù)回答”階段的答案，在獲得不錯(cuò)效果提升的同時(shí)，訓(xùn)練速度和推斷速度也沒(méi)有明顯下降。

表3 SQuAD數(shù)據(jù)集上不同模型的結(jié)果對(duì)比單位：%Tab.3 Result comparison of different models on SQuAD dataset unit：%

由于針對(duì)中文語(yǔ)料庫(kù)CMRC2018 的抽取式問(wèn)答研究較少，本文只選擇了五個(gè)典型的傳統(tǒng)模型和BERT 基準(zhǔn)模型，與本文所提出的三階段式問(wèn)答模型進(jìn)行了對(duì)比，對(duì)比結(jié)果如表4 所示。從表4 可以看出，基于BERT 三階段式問(wèn)答模型的預(yù)測(cè)準(zhǔn)確性明顯高于五個(gè)典型的傳統(tǒng)問(wèn)答模型，EM 達(dá)到了65.0%，F(xiàn)1 達(dá)到了85.1%，相較于基準(zhǔn)模型BERTbase分別提升了1.4 和1.2 個(gè)百分點(diǎn)，這說(shuō)明三階段式的問(wèn)答過(guò)程在中文上也同樣適用。

表4 CMRC2018數(shù)據(jù)集上不同模型的結(jié)果對(duì)比單位：%Tab.4 Result comparison of different models on CMRC2018 dataset unit：%

圖6 以中文數(shù)據(jù)集CMRC2018 為例，對(duì)比展示了基準(zhǔn)模型BERTbase和三階段問(wèn)答模型對(duì)某個(gè)“上下文-問(wèn)題”對(duì)的答案片段的預(yù)測(cè)結(jié)果，可以看見(jiàn)本文模型與正確答案完全一致；而B(niǎo)ERTbase的預(yù)測(cè)片段遺漏了“地區(qū)”這個(gè)詞，預(yù)測(cè)結(jié)果不夠完整。這說(shuō)明在三階段模型中的“答案調(diào)整”階段，通過(guò)綜合利用前兩個(gè)階段預(yù)測(cè)出的答案片段對(duì)片段所在位置進(jìn)行調(diào)整，可以獲得更加準(zhǔn)確完善的答案片段，從而提高了模型的性能。

圖6 CMRC2018數(shù)據(jù)集上的答案片段預(yù)測(cè)對(duì)比Fig.6 Answer fragment prediction comparison on CMRC2018 dataset

基于上述結(jié)果分析可知，本文所提出的基于BERT 的三階段式問(wèn)答模型在中英兩種語(yǔ)言的數(shù)據(jù)集上都取得了較好的結(jié)果，且模型訓(xùn)練速度和推斷速度沒(méi)有明顯降低，這說(shuō)明融合BERT 嵌入層的淺層特征表達(dá)和完全編碼后的深層特征表達(dá)可以顯著提升問(wèn)答模型的性能，實(shí)驗(yàn)結(jié)果也驗(yàn)證了本文模型的有效性，以及在多語(yǔ)言任務(wù)上的適用性。

3 結(jié)語(yǔ)

本文提出了一種基于BERT 的三階段式問(wèn)答模型，除使用經(jīng)BERT 完全編碼后的高層特征信息，還利用到了BERT嵌入層中淺層特征信息，然后通過(guò)預(yù)回答、再回答、答案調(diào)整三個(gè)階段對(duì)模型預(yù)測(cè)的答案片段進(jìn)行調(diào)整，生成更加準(zhǔn)確的答案片段，并對(duì)問(wèn)題的可回答性進(jìn)行了評(píng)估以應(yīng)對(duì)現(xiàn)實(shí)世界中往往存在不可回答問(wèn)題的現(xiàn)狀。通過(guò)這種方法，避免了BERT 中淺層信息的浪費(fèi)，提高了問(wèn)答模型預(yù)測(cè)答案片段的準(zhǔn)確性，一定程度上解決了基準(zhǔn)模型預(yù)測(cè)出的片段不完整的問(wèn)題。此外，還在中英兩種語(yǔ)言的數(shù)據(jù)集上進(jìn)行了一系列實(shí)驗(yàn)，驗(yàn)證了本文模型在多語(yǔ)言上的適用性。

在未來(lái)的研究工作中，可以通過(guò)在“預(yù)回答”和“再回答”兩個(gè)階段加入其他結(jié)構(gòu)如循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制繼續(xù)處理BERT 中的低層特征和高層特征，進(jìn)一步提高三階段式問(wèn)答模型在公開(kāi)數(shù)據(jù)集上的表現(xiàn)。另外，還可以引入外部表示學(xué)習(xí)模型如循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)等結(jié)構(gòu)的輸出代替本文提出的BERT 淺層特征，用以改進(jìn)模型性能。最后，對(duì)于“答案調(diào)整”階段，可以加入其他輔助信息，如考慮將位置信息、外部知識(shí)等作為補(bǔ)充，使模型預(yù)測(cè)的結(jié)果片段更加精準(zhǔn)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放