亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多任務(wù)學(xué)習(xí)的生成式閱讀理解

        2022-01-20 12:48:32黃榮濤鄒博偉
        中文信息學(xué)報 2021年12期
        關(guān)鍵詞:多任務(wù)集上段落

        錢 錦,黃榮濤,鄒博偉,2,洪 宇

        (1. 蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2. 新加坡資訊通信研究院,新加坡 138632)

        0 引言

        機器閱讀理解是在閱讀和理解自然語言的基礎(chǔ)上,根據(jù)文本內(nèi)容回答用戶提出的問題,是當(dāng)前自動問答領(lǐng)域的研究熱點之一。

        近年來,隨著大規(guī)模閱讀理解數(shù)據(jù)集的構(gòu)建,如SQuAD[1]、HotpotQA[2]、CoQA[3]等,以及預(yù)訓(xùn)練模型的提出,如BERT[4]、UniLM[5]、ENRIE-GEN等[6],機器閱讀理解技術(shù)取得了巨大發(fā)展。目前主流的機器閱讀理解模型通常將答案設(shè)定為段落中的一個連續(xù)片段,這種抽取式閱讀理解模型存在一定的局限性,僅能直接以段落中的片段作為答案,導(dǎo)致在針對某些問題時,無法給出自然流暢的答案,例如,表1段落(a)中的True/False問題。此外,如果將問題與答案分離,僅根據(jù)答案無法獲得完整清晰的信息。表1中段落(b)中例子所示,嚴(yán)格意義上說,抽取式模型給出的答案“Season 5(第5季)”并不通順,在某些應(yīng)用場景(如聊天機器人)中,會對用戶體驗造成影響。

        表1 抽取式與生成式機器閱讀理解

        與抽取式閱讀理解相比,生成式閱讀理解不再局限于直接從段落片段中抽取答案,而是參考段落、問題,甚至詞表,生成更為自然和完整的表述作為答案。例如,表1段落(a)中,生成式閱讀理解模型給出的答案能夠與問題更自然地銜接;而表1段落(b)中的生成式答案與抽取式答案相比更完整,確保了答案在獨立于問題和段落時仍能夠保持完整的信息。而現(xiàn)有的生成式閱讀理解模型通?;谡麄€段落生成答案,缺乏對答案邊界和問題類型信息的理解,生成答案有時未參考段落中用于生成答案的片段以及問題的具體類型,導(dǎo)致生成的答案和真實答案之間存在一定差距。

        為解決上述問題,本文提出一種基于多任務(wù)學(xué)習(xí)的生成式閱讀理解框架。多任務(wù)學(xué)習(xí)能夠?qū)W到多個關(guān)聯(lián)任務(wù)的共享表示,并適應(yīng)這些不同但相關(guān)的任務(wù)目標(biāo),使主任務(wù)獲得更強的泛化性能?;诖?,本文將答案生成任務(wù)作為主任務(wù),將答案抽取和問題分類任務(wù)作為輔助任務(wù),在訓(xùn)練階段,通過多任務(wù)學(xué)習(xí)的參數(shù)共享機制,讓模型在生成答案的同時加強對答案邊界和問題類型的理解,從而讓答案抽取和問題分類任務(wù)輔助答案生成任務(wù),最終提升生成式閱讀理解模型的泛化性能。

        針對答案生成任務(wù),本文提出的生成式閱讀理解模型由編碼層和任務(wù)層組成。其中,編碼層基于深度雙向Transformer[7]編碼器,并借鑒UniLMV2[8]模型中特殊設(shè)計的自注意力掩碼機制控制答案生成過程中的可見信息;任務(wù)層分為答案生成模型、答案抽取模型和問題分類模型,答案生成模型在訓(xùn)練階段通過預(yù)測被遮蔽答案單詞的原始信息,增強模型的生成能力,在測試階段直接采用訓(xùn)練好的編碼層,以及束搜索(Beam Search)[9]對問題和段落進行解碼,生成答案;答案抽取模型采用指針網(wǎng)絡(luò)[10]識別答案在段落中的起始位置和結(jié)束位置;問題分類模型采用線性層判斷問題的具體類型。

        本文實驗采用CoQA[3]、MS MARCO[11]和NarrativeQA[12]三個閱讀理解數(shù)據(jù)集驗證模型性能。實驗結(jié)果表明,本文模型在CoQA語料上取得了86.7%的F1值,比目前最好的生成模型提升了2.20%;在MS MARCO和NarrativeQA語料上的BLEU-1值分別為80.53%和57.94%,分別比目前最好的系統(tǒng)提升了2.39%和3.81%(絕對性能提升)。

        本文的主要貢獻如下:

        (1) 提出基于多任務(wù)學(xué)習(xí)的生成式閱讀理解模型,通過答案抽取模型和問題分類模型優(yōu)化生成式閱讀理解模型的性能。

        (2) 本文在三個閱讀理解數(shù)據(jù)集上進行詳細(xì)實驗,均取得了目前生成式模型的最佳性能。

        1 相關(guān)工作

        1.1 生成式機器閱讀理解

        近年來,隨著如SQuAD[1]、TriviaQA[13]、SearchQA[14]、HotpotQA[2]和QuAC[15]等大規(guī)模閱讀理解數(shù)據(jù)集的構(gòu)建,以及在以神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù)和計算資源的推動下,機器閱讀理解領(lǐng)域獲得了巨大發(fā)展。目前,MS MARCO[11]、NarrativeQA[12]和CoQA[3]等數(shù)據(jù)集提供人工編輯生成的答案,要求機器能夠理解問題和段落中相關(guān)句子的潛在聯(lián)系,依賴一定的推理能力生成正確的答案,而非簡單的文本匹配。隨著生成式閱讀理解數(shù)據(jù)集的發(fā)布以及自然語言生成技術(shù)的發(fā)展,研究者開始關(guān)注使用生成模型來解決閱讀理解問題。McCann等人[16]和Bauer等人[17]采用基于RNN的指針生成機制進行單文檔閱讀理解答案的生成,Tan等人[18]在多文檔閱讀理解中采用管道(Pipeline)的方法,先從多篇文檔中抽取出最有可能成為答案的片段,然后將該片段作為答案合成模塊(Seq2Seq生成模型)的一個特征,最后綜合問題、文檔和抽取特征合成答案。而本文所提出的是端到端的生成式閱讀理解模型,旨在讓答案生成、答案抽取以及問題分類共享模型編碼層參數(shù)并進行優(yōu)化,最終達(dá)到提升生成模型性能的目的。

        目前,預(yù)訓(xùn)練模型如Mass[19]、UniLM[5]、BART[20]以及ERNIE-GEN[6]等在各個自然語言生成任務(wù)中相繼取得最佳性能,這些模型只需在特定任務(wù)(如閱讀理解、文本摘要以及機器翻譯等)進行微調(diào)就能取得令人滿意的成績。其中,Bao等人[8]提出UniLMV2模型,其使用一種新穎的偽遮蔽語言模型(pseudo-masked language model, PMLM)將自編碼模型和部分自回歸模型統(tǒng)一起來訓(xùn)練,在問題生成、自動摘要等多個領(lǐng)域取得當(dāng)前的最佳性能。本文將UniLMV2模型作為基線模型,并在此基礎(chǔ)上進行多任務(wù)學(xué)習(xí)的實驗。

        1.2 多任務(wù)學(xué)習(xí)

        多任務(wù)學(xué)習(xí)是一種提高泛化性能的遷移機制,現(xiàn)有研究表明它在提高模型泛化能力上十分有效。該機制同時學(xué)習(xí)多個相關(guān)任務(wù),讓這些任務(wù)同時共享知識,利用任務(wù)之間的相關(guān)性,提升每個任務(wù)的泛化性能。多任務(wù)學(xué)習(xí)的一般做法是,在所有任務(wù)上共享模型編碼層,而針對特定的任務(wù)層有所區(qū)別。例如,Wang等人[21]證明通過共享文檔排序任務(wù)和多文檔閱讀理解任務(wù)的編碼層能夠提升整體的性能。Nishida等人[22]在閱讀理解、文檔排序和問題分類三種任務(wù)上共享問題和文章閱讀模塊,有效提升了模型的整體性能。Liu等人[23]提出的MT-DNN模型在BERT的基礎(chǔ)上對4種下游任務(wù)單句分類、成對文本分類、文本相似度打分和相關(guān)性排序進行聯(lián)合微調(diào),在性能上較BERT有了極大提升,證明了多任務(wù)學(xué)習(xí)能有效提升模型的泛化性能。此外,與MT-DNN模型在下游任務(wù)上進行多任務(wù)學(xué)習(xí)不同,ERNIE 2.0[24]在模型預(yù)訓(xùn)練階段引入多任務(wù)學(xué)習(xí),通過和多個先驗知識庫進行交互并采用增量學(xué)習(xí)的方式,使得模型能夠?qū)W會多樣化的語言知識,最終在各種下游任務(wù)上性能得到提升。

        受到上述工作的啟發(fā),為了解決現(xiàn)有的生成式閱讀理解模型缺乏對答案邊界信息和問題類別信息的理解的問題,本文提出基于多任務(wù)學(xué)習(xí)的生成式閱讀理解模型,通過答案抽取模型和問題分類模型優(yōu)化生成式閱讀理解模型性能。

        2 基于多任務(wù)學(xué)習(xí)的生成式閱讀理解模型

        本節(jié)首先給出生成式閱讀理解問題的形式化定義;然后介紹模型的編碼層;最后介紹模型的任務(wù)層,其具體由答案生成模型、答案抽取模型和問題分類模型三部分組成?;诙嗳蝿?wù)學(xué)習(xí)的生成式閱讀理解模型框架如圖1所示。

        圖1 基于多任務(wù)學(xué)習(xí)的生成式閱讀理解框架

        2.1 問題定義

        (1)

        其中,P(a|Q,P)表示在給定Q和P的條件下,生成答案的對數(shù)條件概率。

        2.2 編碼層

        本文基于預(yù)訓(xùn)練模型UniLMv2(1)https://github.com/microsoft/unilm構(gòu)建編碼層,采用預(yù)訓(xùn)練的BERT進行問題和段落的交互,得到其表示,并在BERT的基礎(chǔ)上改進注意力遮蔽矩陣,采用偽遮蔽語言模型,使得模型能在閱讀理解任務(wù)上根據(jù)問題和段落逐字或逐片段預(yù)測被遮蔽的答案。以下介紹編碼層的具體工作原理和過程。

        預(yù)處理階段,采用WordPiece分詞工具,將問題、段落和答案分詞,得到子詞(sub-word)級別的若干詞項,其中對答案中的部分詞項以一定概率進行遮蔽,并將其拼接后作為模型輸入。每個詞項表示為詞向量WE(wi)、段向量SE(wi)和位置向量PE(wi)的和,維度均為dw,其中詞向量用于表示不同詞項,段向量用于區(qū)分詞來自源序列還是目標(biāo)序列,位置向量用于表示詞在輸入序列中的絕對位置。詞向量Xi表示如式(2)所示。

        Xi=WE(wi)+SE(wi)+PE(wi)

        (2)

        其中,wi為第i個位置的詞項。

        (3)

        Tranformer網(wǎng)絡(luò)由多頭自注意力機制和前向神經(jīng)網(wǎng)絡(luò)兩個子層組成,每個子層均使用殘差連接和層正則化,因此每個子層的輸出可表示如式(4)所示。

        LayerNorm(x+SubLayer(x))

        (4)

        第l層Transformer網(wǎng)絡(luò)的自注意力頭Al計算如式(5)~式(7)所示。

        圖2 注意力遮蔽矩陣

        通過上述詞嵌入層和Tranformer網(wǎng)絡(luò),得到輸入序列的上下文表示H1,H2,…,H12。本文使用最后一層輸出H12作為整個序列的表示。H12中包含問題、段落和答案表示,其中,段落表示部分記作Hp,答案表示部分記作Ha,問題類別表示記作Hcls。根據(jù)圖2所示的注意力遮蔽矩陣可知,問題和段落不會和答案進行交互,保證了訓(xùn)練和測試階段Hp和Hcls所含信息的一致性。

        2.3 任務(wù)層

        作為基于多任務(wù)學(xué)習(xí)框架的核心部分,任務(wù)層由答案生成模型、答案抽取模型和問題分類模型三部分構(gòu)成。

        2.3.1 答案生成模型

        訓(xùn)練階段,真實答案會以一定概率被隨機遮蔽,并且同時保留其原始位置信息來實現(xiàn)部分自回歸(隨機預(yù)測答案被遮蔽的片段),答案中被遮蔽的詞項在經(jīng)過編碼后得到答案表示Ha。答案生成模塊通過解碼層對原始答案中被遮蔽的詞項進行預(yù)測來生成答案。具體來說,Ha首先經(jīng)過線性層并用Gelu函數(shù)激活后進行層正則化,如式(8)所示。

        Ha=LayerNorm(Gelu(Linear(Ha)))

        (8)

        然后通過線性層將每個被遮蔽的詞項映射到模型詞表空間,獲得預(yù)測分?jǐn)?shù)。最后,使用Softmax函數(shù)計算詞的概率向量α,如式(9)所示。

        α=Softmax(Linear(Ha))

        (9)

        本文采用有標(biāo)簽平滑優(yōu)化的交叉熵?fù)p失函數(shù)計算答案生成模型的目標(biāo)函數(shù),如式(10)所示。

        (10)

        測試階段,模型對輸入的問題和段落,每個時間步經(jīng)解碼層預(yù)測當(dāng)前詞的生成概率,同時使用束搜索每次保留生成概率最大的前k個序列,直至模型預(yù)測出[EOS]終止符結(jié)束解碼。最后,模型將束搜索結(jié)果中生成概率最大的序列解碼輸出,其概率計算,如式(11)所示。

        (11)

        2.3.2 答案抽取模型

        經(jīng)過編碼層后,段落被表示為矩陣Hp,答案抽取模型通過指針網(wǎng)絡(luò)對答案的起始和終止位置進行識別。具體地,Hp分別經(jīng)過線性層得到對應(yīng)起始位置分?jǐn)?shù)和終止位置分?jǐn)?shù),并通過Softmax函數(shù)對分?jǐn)?shù)進行歸一化,得到相應(yīng)的概率向量,如式(12)所示。

        s,e=Softmax(Linear(Hp))

        (12)

        其中,s為預(yù)測答案的起始位置概率向量,e為答案終止位置概率向量,s和e由不同參數(shù)的線性層計算得到。

        本文采用交叉熵?fù)p失函數(shù)計算答案抽取模型的目標(biāo)函數(shù),如式(13)所示。

        Lextract=ys·logs+ye·loge

        (13)

        其中,ys表示真實答案的起始位置概率向量,ye表示真實答案的終止位置概率向量。

        2.3.3 問題分類模型

        由于CoQA數(shù)據(jù)集中存在多種問題類型,包括事實型問題(Factoid question)、是非類問題(True/False question)和不可回答問題(Unanswerable question)。針對不同類型的問題,答案的模式通常差別較大,例如是非類問題,答案通常以“Yes/No”頭。本文采用4種問題類型標(biāo)簽{0: yes;1: no;2: unanswerable;3: factoid},以上四種問題類型(其中是非類問題被分為兩種不同類型)。如圖1所示,輸入經(jīng)過編碼后,取出[CLS]表示用于獲得問題類型表示,即Hcls,并經(jīng)過線性層為問題類型打分,最后將分?jǐn)?shù)進行歸一化后形成分類概率,如式(14)所示。

        c=Softmax(Linear(Hcls))

        (14)

        其中,c代表問題類型的分?jǐn)?shù)向量。

        本文采用交叉熵?fù)p失函數(shù)計算問題分類模型的目標(biāo)函數(shù),如式(15)所示。

        (15)

        其中,K=4表示問題類別數(shù),yck表示真實類別標(biāo)簽,ck表示預(yù)測類別標(biāo)簽。

        2.3.4 多任務(wù)學(xué)習(xí)

        本文采用多任務(wù)學(xué)習(xí)的方法,在訓(xùn)練階段同時學(xué)習(xí)和更新答案生成、答案抽取和問題分類模塊共享的編碼層參數(shù),讓答案抽取和問題分類任務(wù)輔助答案生成任務(wù)提升閱讀理解模型的性能。模型的損失由生成損失、抽取損失和分類損失三部分共同組成,整個模型的目標(biāo)函數(shù)為,如式(16)所示。

        LOSS=Lgenerate+λ1Lextract+λ2Lcls

        (16)

        其中,λ1和λ2為調(diào)和系數(shù),用于調(diào)節(jié)輔助任務(wù)權(quán)重。

        3 實驗

        本節(jié)首先介紹生成式閱讀理解任務(wù)數(shù)據(jù)集和實驗設(shè)置,然后報告本文提出的基于多任務(wù)的生成式閱讀理解模型性能,并針對實驗結(jié)果進行分析。

        3.1 生成式閱讀理解任務(wù)數(shù)據(jù)集

        現(xiàn)有閱讀理解數(shù)據(jù)集大多針對抽取式模型,即答案為篇章中的一個片段,如SQuAD[1]、HotpotQA[2]等。采用這些數(shù)據(jù)集無法全面評價生成式閱讀理解模型。與抽取式模型相比,其在答案的可讀性、表述的完整性及應(yīng)對多段答案的問題上,均有較大區(qū)別(詳見本文第一節(jié))。基于上述原因,本文實驗中采用以下三個數(shù)據(jù)集。

        CoQA(2)https://stanfordnlp.github.io/coqa/(Conversational Question Answering): CoQA基于多個領(lǐng)域的多輪對話進行構(gòu)建,并保持了人類對話簡短的特征,存在大量指代和省略現(xiàn)象,問題和答案普遍偏短[3]。值得注意的是,為了保證該數(shù)據(jù)集盡可能貼近自然對話,其中78%的答案經(jīng)過人工編輯;此外,該數(shù)據(jù)集中存在較多的是非類問題(19.8%)和不可回答問題(1.3%),部分問題無法僅采用抽取式閱讀理解模型回答。盡管如此,目前在CoQA評測榜單上排名較高的均為抽取式模型,而生成式模型,如UniLM和ERNIE-GEN,僅報告了在驗證集上的性能,因此,本文將CoQA的驗證集作為測試集評價系統(tǒng)性能,調(diào)參使用的驗證集從CoQA訓(xùn)練集中劃分。

        MSMARCO(3)https://microsoft.github.io/msmarco/(Microsoft Machine Reading Comprehension): MS MARCO是一個多文檔問答數(shù)據(jù)集,其中特別提供了一個自然語言生成(NLG)子數(shù)據(jù)集[11],該數(shù)據(jù)集由人工編輯答案,其答案并非嚴(yán)格匹配文檔中的片段,因此,本文采用MS MARCO(NLG)作為評價生成式閱讀理解模型的數(shù)據(jù)集。注意,由于該數(shù)據(jù)集還包含了文檔檢索任務(wù),而本文研究重點僅在于機器閱讀理解,因此僅采用人工編輯答案時依據(jù)的文檔,即最佳文檔(golden passage)。此外,由于在MS MARCO評測榜單上NLG數(shù)據(jù)集同樣包含了文檔檢索任務(wù),因此本文僅報告模型在MS MARCO(NLG)驗證集上的結(jié)果。

        NarrativeQA(4)https://github.com/deepmind/narrativeqa: NarrativeQA是一個生成式閱讀理解數(shù)據(jù)集,該數(shù)據(jù)集基于書本故事和電影腳本構(gòu)建,答案由人工編輯[12]。本文基于數(shù)據(jù)集的摘要子集進行閱讀理解,并在其測試集上進行測試。

        表2列出了本文所采用三個數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)。CoQA中存在28.7%的命名實體類問題、19.6%的名詞短語類問題和9.8%的數(shù)字類問題;NarrativeQA中存在30.54%的人名類問題、9.73%的地點類問題和約10%左右的事件、實體、數(shù)字類問題,且CoQA和NarrativeQA明確允許簡短、自然的答案,因此CoQA和NarrativeQA的答案普遍較短。 MS MARCO(NLG)中存在53.12%的描述型問題,且答案會融入問題信息形成完整的表述,答案普遍較長。

        表2 CoQA、MS MARCO和NarrativeQA數(shù)據(jù)集

        3.2 實驗設(shè)置

        本文使用的模型為微軟開源的unilm1.2-base-uncased(5)https://github.com/microsoft/unilm,該模型在大多數(shù)自然語言生成任務(wù)上取得了最佳性能。針對不同數(shù)據(jù)集,表3列出了模型使用的超參數(shù)設(shè)置。

        表3 參數(shù)設(shè)置

        在CoQA多輪對話數(shù)據(jù)集中,當(dāng)前問題可能存在指代或省略現(xiàn)象,因此本文選取當(dāng)前問題之前的至多兩輪問答對作為對話歷史,并與當(dāng)前問題進行拼接,當(dāng)作完整的問題Q,同時使用上一輪答案和當(dāng)前問題的詞在段落中出現(xiàn)的頻率選取文章中最佳的段落作為段落P。訓(xùn)練時,根據(jù)答案A計算出其在段落P中的起始位置和終止位置(答案不在段落中時,起始位置和終止位置均設(shè)為0)。實驗中,問題最大長度為60,問題和段落(源序列)的最大長度為470,答案(目標(biāo)序列)的最大長度為42,該數(shù)據(jù)處理與Dong等人[5]論文里的方法保持一致。模型的優(yōu)化器為AdamW。

        在MS MARCO多文檔閱讀理解數(shù)據(jù)集中,每個問題Q會給定10個參考段落,本文直接選取最佳的段落進行拼接作為段落P。訓(xùn)練時,根據(jù)答案A計算出其在段落P中的起始位置和終止位置(答案不在段落中時,起始位置和終止位置均設(shè)為0)。實驗中,問題和段落(源序列)的最大長度為176,答案(目標(biāo)序列)的最大長度為40。模型的優(yōu)化器為AdamW。

        在NarrativeQA數(shù)據(jù)集中,本文使用問題Q的詞在段落中出現(xiàn)的頻率選取摘要中最佳的段落作為段落P。訓(xùn)練時,使用F1值選取段落P中與答案A最為接近的片段作為抽取答案,并根據(jù)抽取答案計算出答案A在段落P中的起始位置和終止位置。實驗中,問題和段落(源序列)的最大長度為470,答案(目標(biāo)序列)的最大長度為42。模型的優(yōu)化器為AdamW。

        本文在CoQA數(shù)據(jù)集上使用F1值[1]來評價模型的性能,在MS MARCO和NarrativeQA數(shù)據(jù)集上使用BLEU[25]和ROUGE-L[26]來評價模型的性能。

        3.3 實驗結(jié)果與分析

        為了驗證本文基于多任務(wù)的生成式閱讀理解方法的有效性,本文與以下閱讀理解模型進行了比較:

        UniLM[5]: 由Dong等人提出,是第一個在CoQA數(shù)據(jù)集上報告實驗性能的預(yù)訓(xùn)練生成模型,本文在實驗設(shè)置上和它保持一致。

        ERNIE-GEN[6]: 由Xiao等人提出的基于多流(multi-flow)機制生成完整語義片段的預(yù)訓(xùn)練生成模型,在CoQA生成式閱讀理解中達(dá)到了目前最好的性能。

        Masque[22]: 由Nishida等人提出的多風(fēng)格生成式閱讀理解模型,在MS MARCO(NLG)和NarrativeQA數(shù)據(jù)集的相關(guān)指標(biāo)上達(dá)到了目前的最好性能。

        UniLMv2[8]: 由Bao等人提出,采用偽遮蔽語言模型的預(yù)訓(xùn)練生成模型,是UniLM的改進版本。本文使用UniLMv2分別在三個數(shù)據(jù)集上進行實現(xiàn)作為我們的基線模型,并簡單修復(fù)了wordpiece分詞在解碼時出現(xiàn)的分詞錯誤。

        MLT-Model: 本文提出的基于多任務(wù)學(xué)習(xí)的生成式閱讀理解模型,由答案抽取和問題分類任務(wù)輔助生成式閱讀理解模型。

        表4為本文提出的模型在CoQA驗證集上的性能,我們的模型在F1指標(biāo)上比當(dāng)前性能最好的生成式模型ERNIE-GEN提升了2.2%,同時較基線模型UniLMv2提升了0.6%。本文針對預(yù)訓(xùn)練生成模型在答案解碼時出現(xiàn)的子詞結(jié)合不準(zhǔn)確問題加以修復(fù),實現(xiàn)的基線模型UniLMv2高于原始版本的性能,較ERNIE-GEN提升1.6%的F1值。

        表4 模型在CoQA驗證集上的性能

        表5列出了本文模型在CoQA上的消融實驗性能,在去除答案抽取任務(wù)和問題分類任務(wù)之后,性能較MLT-Model分別下降0.5%和0.7%的F1值。這是由于CoQA中存在20%左右的是非類問題和不可回答問題,這兩類問題在訓(xùn)練階段答案的起始和終止位置均設(shè)為0,因此僅用答案抽取任務(wù)輔助生成模型,會弱化模型對這兩類問題的生成能力;而僅用問題分類任務(wù)來輔助生成模型,模型會缺少對答案在段落中邊界信息的理解,所以只有將答案抽取和問題分類任務(wù)一起和答案生成任務(wù)進行多任務(wù)學(xué)習(xí),才能從整體上提升生成模型的性能。

        表5 模型在CoQA驗證集上的消融實驗

        表6為本文提出的模型在MS MARCO(NLG)驗證集上選取最佳文檔的性能表現(xiàn)。本文模型較基線模型UniLMv2在BLEU-1指標(biāo)上提升0.77%,在BLEU-4指標(biāo)上提升0.95%,在ROUGE-L指標(biāo)上提升0.55%。這是由于MS MARCO(NLG)數(shù)據(jù)集中答案和選定段落中的部分片段相似度較高,答案抽取任務(wù)能夠輔助模型關(guān)注答案在段落中的邊界信息,并增強生成模型對問題和段落中答案片段之間關(guān)系的理解,最終提升生成模型的性能。我們在同樣設(shè)置下和Masque模型進行了對比,本文所提模型在BLEU-1指標(biāo)上提升了2.39%,ROUGE-L指標(biāo)上提升了1.84%。這主要是由于Masque模型僅使用靜態(tài)的預(yù)訓(xùn)練詞向量并基于Transformer網(wǎng)絡(luò)進行答案生成,而本文模型基于網(wǎng)絡(luò)更加復(fù)雜的預(yù)訓(xùn)練模型UniLMv2生成答案,因此在實驗性能上取得較大提升。

        表6 模型在MS MARCO(NLG)驗證集的消融實驗

        表7為本文模型在NarrativeQA(summary)測試集上的性能表現(xiàn)。本文模型較基線模型UniLMv2在BLEU-1指標(biāo)上提升0.39%,BLEU-4指標(biāo)上提升0.61%,ROUGE-L指標(biāo)上提升0.1%。NarrativeQA數(shù)據(jù)集的答案長度普遍偏短,因此我們的模型并未在ROUGE-L指標(biāo)上有明顯性能提升,但是BLEU指標(biāo)證明了答案抽取任務(wù)有助于生成模型生成更準(zhǔn)確的答案。此外本文模型較目前性能最好的Masque模型在BLUE-1指標(biāo)上提升了3.81%,在BLEU-4指標(biāo)上提升了1.24%,但在ROUGE-L指標(biāo)上下降了0.53%。可能的原因是Masque模型基于整個摘要生成答案,而本文的模型是基于規(guī)則選取的滑窗作為段落來進行生成式閱讀理解,在選取滑窗時丟失了部分性能;Masque模型在該數(shù)據(jù)集上使用MS MARCO數(shù)據(jù)進行多風(fēng)格學(xué)習(xí),而本文模型并未采用增加額外訓(xùn)練數(shù)據(jù)的方法訓(xùn)練模型。我們還比較了在相同訓(xùn)練數(shù)據(jù)的情況下,本文模型較Masque模型在BLEU-1指標(biāo)上提升了8.83%,在BLEU-4指標(biāo)上提升了10.69%,在ROUGE-L指標(biāo)上提升了4.6%。該提升較在MS MARCO(NLG)數(shù)據(jù)集上更為顯著,主要原因為NarrativeQA的答案更偏向于推理性質(zhì)的概括總結(jié),而MS MARCO(NLG)的答案則更偏向于基于段落中的答案片段進行完整的表述,這也表明了MS MARCO(NLG)的任務(wù)難度比NarrativeQA小,預(yù)訓(xùn)練模型在推理方法中更占優(yōu)勢。

        表7 模型在NarrativeQA(summary)測試集上的性能

        4 結(jié)語

        本文針對生成式閱讀理解模型缺乏答案邊界和問題分類信息理解的問題,提出一種基于多任務(wù)學(xué)習(xí)的生成式閱讀理解模型,通過答案抽取模型和問題分類模型優(yōu)化生成式閱讀理解模型。在三個閱讀理解數(shù)據(jù)集上的實驗結(jié)果表明,本文提出的基于多任務(wù)的生成式閱讀理解模型能夠有效地學(xué)習(xí)答案的邊界信息和問題分類信息,在三個數(shù)據(jù)集上均取得了目前生成式模型的最好性能。

        在未來的工作中,我們將研究如何將該模型遷移至面向長文本的機器閱讀理解任務(wù)上,使得該模型能夠?qū)W習(xí)整個長文本的同時確定答案的邊界信息,并以此生成答案。

        猜你喜歡
        多任務(wù)集上段落
        【短文篇】
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        心理小測試
        基于中心化自動加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認(rèn)知障礙診斷
        夏天,愛情的第四段落
        散文詩(2017年17期)2018-01-31 02:34:11
        復(fù)扇形指標(biāo)集上的分布混沌
        基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
        弄清段落關(guān)系 按圖索驥讀文
        讀寫算(下)(2016年11期)2016-05-04 03:44:07
        電測與儀表(2016年5期)2016-04-22 01:13:46
        国产优质av一区二区三区| 人妻丰满熟妇AV无码区HD| 手机看片福利日韩国产| 亚洲中文高清乱码av中文| 97人妻人人揉人人躁九色| 一区二区三区人妻无码| 日本高清不卡二区| 日本精品一区二区三区在线播放| 免费av日韩一区二区| 国产成人精品午夜视频| 国产黄色免费网站| 中文乱码字幕在线中文乱码| 91久久综合精品久久久综合| 亚洲啪av永久无码精品放毛片| 亚洲人成电影在线无码| 丰满人妻无奈张开双腿av| 一道本久久综合久久鬼色| 精品淑女少妇av久久免费| 免费无码又爽又刺激高潮的视频网站| 日本一区二区高清在线观看| 中文无码av一区二区三区| 中国凸偷窥xxxx自由视频妇科| 亚洲男人堂色偷偷一区| 日韩人妖干女同二区三区| 日韩精品真人荷官无码| 亚洲中文无码成人影院在线播放| 在线观看国产精品自拍| 久久久国产精品123| 狠狠噜天天噜日日噜视频麻豆| 思思99热| 白白色最新福利视频二| 人妻少妇无码精品视频区| 国产精品毛片无遮挡高清| 大红酸枝极品老料颜色| 亚洲国产果冻传媒av在线观看| 亚洲av纯肉无码精品动漫| 亚洲天堂无码AV一二三四区| 国产一级一片内射视频播放| 少妇无码太爽了不卡视频在线看 | 奇米影视7777久久精品| 无码人妻一区二区三区免费n鬼沢|