亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙向注意力機制的多文檔神經(jīng)閱讀理解

        2020-12-16 02:18:04唐竑軒武愷莉朱朦朦
        計算機工程 2020年12期
        關鍵詞:模型

        唐竑軒,武愷莉,朱朦朦,洪 宇

        (蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)

        0 概述

        多文檔機器閱讀理解(Multi-document Machine Reading Comprehension,MMRC)的核心任務是在多篇文檔中尋找線索,輔助答案的推理并抽取答案的描述語言。目前,面向MMRC構建的國際公開語言學資源包括TriviaQA[1]、DuReader[2]、HotpotQA[3]等。其中HotpotQA問答集作為相關分析與實驗的語料,包含112 779條多文檔抽取式問答樣本。

        “多跳”和“橋?qū)嶓w”現(xiàn)象的學習與處理,是優(yōu)化MMRC模型的重要條件,也是HotpotQA問答集中分布最為廣泛的語言現(xiàn)象。如自然問句“卡斯帕·施梅切爾的父親在1992年獲得了IFFHS授予的什么獎項”中,“父親”是最為關鍵的橋?qū)嶓w,先尋找“父親是誰”的解,再探尋“父親所獲獎項名稱”的解,即構成了問題多跳求解過程。在HotpotQA問答集中,“卡斯帕·施梅切爾”與其“父親”的父子關系表述,以及其“父親”與“獎項”的關系表述,并未置于同一自然語句中,甚至分別出現(xiàn)于不同的相關文檔中,所以現(xiàn)有針對單一段落或單一語篇的閱讀理解模型,并不能在MMRC場景下得以直接應用。因此,面向MMRC的研究不可避免地需要面向如下挑戰(zhàn):以問句為目標的相關文檔判別,其核心任務是從文檔集合中獲取直接相關于當前問題的文檔,如在上例中,預先精確獲取相關于“卡斯帕·施梅切爾的父親”的文檔,并屏蔽無關文檔,是輔助后續(xù)抽取答案的前提;基于“蟲洞”的相關文檔判別,假設自然問句Q包含兩個子問題Qα和Qβ(回答Qα為一跳求解,回答Qβ為二跳求解),Qα和Qβ的答案表述共享同一個橋?qū)嶓w,但兩者分別出現(xiàn)于文檔α和β,那么以橋?qū)嶓w為“蟲洞”,在一跳推理后突破文檔α的束縛,階躍進入文檔β進行二跳推理,即為“蟲洞”驅(qū)動的MMRC策略,從所有相關文檔中唯獨尋找“蟲洞”連通的α和β,則是輔助MMRC的關鍵步驟;多文檔答案求解,對“蟲洞”聯(lián)通的推理依據(jù)(如不同相關文檔中共享橋?qū)嶓w的兩句話)進行綜合的語義學習,并在此基礎上,利用抽取模型或生成模型輸出答案。

        現(xiàn)有研究往往采用較為剛性的方式解決上述相關性判別的難題(即問題與文檔的相關性求解難題,以及蟲洞聯(lián)通的文檔級相關性求解難題)。此外,雖然多種計算語言學方法和自然語言處理技術可借助流水線式(Pipeline)的問題求解框架,逐步遞進地解決上述難題,但其在整體上往往缺乏通用性和復用性。如首先利用檢索技術解決問題與文檔的匹配[4]問題,從而獲取相關文檔;然后利用命名實體鏈接(Entity Linking)[5]和指代消解[6]方法探索橋?qū)嶓w,并進而鎖定蟲洞聯(lián)通的相關文檔;最后利用已有的閱讀理解模型在蟲洞聯(lián)通的文字片段上抽取答案。但是,這樣一種流水線式的MMRC系統(tǒng),很可能因為形成蟲洞的信息不是橋?qū)嶓w(例如橋?qū)傩?、橋行為、橋狀態(tài)、關系橋和上下位橋),使得原有的中間環(huán)節(jié)(文檔級關聯(lián)計算)不可復用,而更換蟲洞必然在各個環(huán)節(jié)之間引起模型的再次集成與重新協(xié)作的問題。

        針對上述問題,本文提出一種多文檔的聯(lián)合神經(jīng)閱讀理解(Joint Neural MMRC,JNM)模型。JNM是由一組功能各異的神經(jīng)網(wǎng)絡構成的聯(lián)合學習模型,包含基于雙向門控循環(huán)單元[7](Bi-directional Gated Recurrent Unit,BiGRU)的循環(huán)神經(jīng)網(wǎng)絡[8](Recurrent Neural Network,RNN)、單向和雙向注意力網(wǎng)絡[9]以及指針網(wǎng)絡[10]。JNM將相關性、蟲洞、答案抽取等各個獨立的學習環(huán)節(jié)納入統(tǒng)一且唯一的深度學習框架,構建一種新的普適性閱讀理解網(wǎng)絡結構。

        1 任務定義、數(shù)據(jù)及相關工作

        1.1 MMRC定義

        MMRC的輸入是未經(jīng)加工的純文本文檔集合S,以及一條特定的自然問句Q。MMRC的輸出是Q的答案a。從概率的角度分析,在給定Q和S的前提下,能夠使得條件概率P(a|Q,S)最大化的字符串即為答案a,其公式表示如下:

        a=argmaxP(a|Q,S)

        (1)

        其中,argmaxP(*|*)是最大似然概率。

        值得注意的是,當MMRC被用于抽取式問答的求解過程時,Q并未被預先給定或限定于任何候選答案,其唯一的答案需要從集合S內(nèi)的某一相關文檔中自行抽取。因此,這一相關文檔中出現(xiàn)的所有命名實體、詞、短語和子句,都可能成為問句q的候選答案。相對地,如果MMRC被用于求解“是非”問題時,每個問句的候選答案已得到預先的限定,即“是”或“非”。此外,在MMRC的實驗環(huán)境中,用于估計答案的線索并未集中于一篇文檔,而是離散在不同文檔之中,這也是MMRC多文檔求解的特色之一。

        圖1給出了MMRC在抽取式問答場景下的應用實例。這一實例顯示,MMRC針對給定的問題,需要從文檔集合S中識別兩篇相關文檔α和β,并結合α和β中各自蘊含的線索(如下劃線標記的斜體文字),進行答案的抽取(如文檔β內(nèi)加粗的斜體文字)。

        圖1 HotpotQA數(shù)據(jù)樣例

        1.2 MMRC數(shù)據(jù)資源及評測

        可用于MMRC研究的英文數(shù)據(jù)資源包括TriviaQA[1]和HotpotQA[3]。其中,TriviaQA指出,其問題求解需要結合多篇文檔中的文字線索,但人工觀測顯示,大量目標問題可通過單文檔實現(xiàn)答案抽取;相比而言,HotpotQA顯得較為純粹,其蘊含的目標問題幾乎全部需要依賴多篇文檔中的線索進行求解,多跳和橋?qū)嶓w(或橋事件)現(xiàn)象出現(xiàn)于全部問答樣本中。本文在HotpotQA上展開實驗,并對其進行概述。

        HotpotQA是推動閱讀理解模型可解釋性研究的重要語料之一,其包含的文檔來自維基百科,自然問句與答案通過眾包進行收集。HotpotQA中的每個問句對應10篇相關文檔、1個答案以及人工標記的句子級支持性事實。該語料共含有112 779條有效數(shù)據(jù)。評價標準除了答案的EM值和F1值之外,還有對支持事實的EM值和F1值以及答案與支持事實的聯(lián)合得分。

        1.3 相關研究與分析

        MMRC問題是現(xiàn)有機器閱讀理解(MRC)問題的延伸。在探討MMRC研究之前,本節(jié)首先簡要回顧MRC的最新研究進展。

        隨著大規(guī)模監(jiān)督數(shù)據(jù)的發(fā)布和神經(jīng)閱讀理解模型的發(fā)展,使得機器閱讀理解研究取得了顯著的進步。目前,谷歌語言人工智能研究院發(fā)布的BERT模型[11],在SQuAD數(shù)據(jù)集[12]上取得了較高性能,EM值和F1值分別為85.08%和91.83%。其相比于人工答疑結果,呈現(xiàn)出較優(yōu)的能力(注:這一論斷僅參考SQuAD相關評測的已有性能報告,不具備普適性和絕對性)。盡管如此,現(xiàn)有MRC模型的優(yōu)勢在更為復雜的問答場景下,并不能得以有效延續(xù),其在蘊含“多跳”和“橋?qū)嶓w”等語言現(xiàn)象的多文檔答案抽取中,欠缺直接予以應用的條件。

        以目標問句為參考,度量文檔中詞項的注意力,是利用指針網(wǎng)絡進行答案抽取的主要方法之一[13-15]。然而,圖1中的例子說明,問句中作為約束條件的表述“在約瑟夫·班尼特擔任中校的那場戰(zhàn)斗中”,并未在答案所在的文檔β中出現(xiàn)。從而在本質(zhì)上,注意力計算無法將這一約束中蘊含的語義信息傳遞到答案的發(fā)現(xiàn)過程中,形成了低約束條件下的問題求解。這一不足將在大規(guī)模數(shù)據(jù)和開放域應用場景下引起爭議(如“歷史上領導德克薩斯軍隊”的領袖不止一個,為什么答案一定是“薩姆·休斯頓將軍”,沒有前提約束,答案顯然靈活且多變)。

        當前現(xiàn)有的單文檔MRC模型大多無法完成多跳推理或?qū)﹂L文本進行答案抽取的任務,如基于BERT的MRC模型必須將文本長度限制在512字以內(nèi),因此建立一種專門針對長文本或多段落求解的MRC模型顯得意義重大。MMRC即是針對這種問題提出的新型閱讀理解任務,其核心在于將自然問句蘊含的多方面因素或前提條件引入計算范疇,尤其是要求問答系統(tǒng)不能回避約束因素(或前提)離散于多篇文檔的客觀事實,形成趨近于真實應用場景下的問答研究課題。比如,圖1中的例子顯示,“圣哈辛托戰(zhàn)役”是連接前提“在約瑟夫·班尼特擔任中校的那場戰(zhàn)斗中”和正確答案“薩姆·休斯頓將軍”的重要橋梁(即“橋事件”),且這一橋梁橫跨文檔α和β。針對這一情況,閱讀理解需在綜合考慮α和β中的關聯(lián)線索,并經(jīng)過多跳求解才能獲得可靠的答案,推理過程如圖2所示。

        圖2 HotpotQA數(shù)據(jù)樣例推理過程

        針對MMRC的研究,文獻[16]提出一種基于候選挖掘的推理模型。其首先抽取候選答案,然后利用推理機制對候選答案逐個驗證,擇優(yōu)輸出。文獻[17]提出一種管道式方法,先從多文檔中篩選出最相關的文檔,再使用閱讀理解模型從中進行答案抽取。在此基礎上,文獻[18]提出了基于重排序的相關文檔獲取方法,借以避免文檔選擇錯誤產(chǎn)生的損失,文獻[19]提出了一個端到端的模型,對所有文檔進行答案抽取,最后比較并選擇最終答案,文獻[20]提出了一種語義分析的閱讀理解模型,先進行答案句檢索,再進行答案抽取,文獻[21]提出了一種針對中文的多文檔多答案閱讀理解模型,在真實的多文檔中文閱讀理解數(shù)據(jù)集上表現(xiàn)優(yōu)異。

        聯(lián)合學習模型(JNM)是針對本文目標任務形成的一種綜合神經(jīng)網(wǎng)絡架構,并配以一套新型的聯(lián)合學習方法。本文側重解釋注意力機制的使用,包括:1)如何將雙向注意力網(wǎng)絡應用于問題-多文檔的關聯(lián)性表示;2)如何將雙向注意力網(wǎng)絡投入蟲洞的識別與表示,并將蟲洞兩端的文字線索應用于答案抽取過程。本文的貢獻總體上包含如下3個方面:

        1)提出一種面向多文檔閱讀理解的聯(lián)合學習模型,用于克服現(xiàn)有流水線推理模型的低復用性和重用性問題。JNM將各個獨立的學習環(huán)節(jié)(相關性、蟲洞和答案抽取)納入統(tǒng)一且唯一的深度學習框架,降低了建模、訓練和開發(fā)的操作難度。

        2)JNM是由一組簡單的神經(jīng)網(wǎng)絡模型構建而成,旨在嘗試新的普適性閱讀理解網(wǎng)絡結構,并未包含復雜度較高或網(wǎng)絡層數(shù)較深的模型,從而避免了較高的計算復雜度。如其引入的指針網(wǎng)絡僅為兩層的全連接層。在這一情況下,JNM獲得了優(yōu)于現(xiàn)有前沿MMRC模型的性能,在HotpotQA測試集上產(chǎn)生了約2.0個百分點的精度(Exact Match)優(yōu)勢。

        3)JNM可用作基本框架,以支撐更為復雜的神經(jīng)問答模型開發(fā)。其可通過局部模型的優(yōu)化和一體化訓練,獲得更高的性能優(yōu)勢。如使用谷歌發(fā)布的BERT模型[11]替代現(xiàn)有的表示層或答案抽取環(huán)節(jié)。

        2 MMRC“剝洋蔥皮”式求解方法

        根據(jù)MMRC定義,直觀的問題求解方式可以歸結為文字片段(或“是非”論斷)作為正解的最大似然估計。本節(jié)對這一求解過程進行分解,并解釋網(wǎng)絡設計思路和聯(lián)合學習的必要性。

        MMRC涵蓋多文檔關聯(lián)分析、多跳推理和橋?qū)嶓w識別等問題,因此其解決思路不能局限于傳統(tǒng)的單文檔閱讀理解方法。本文受人類解決MMRC問題的啟發(fā),提出了一種“剝洋蔥皮”式的解題方法,其包括如下關鍵環(huán)節(jié),可類比人類閱讀理解的略讀、精讀和確定答案的3個步驟:

        (2)

        a=argmaxP(a|Q,Dα,Dβ)×

        (3)

        3)MMRC依賴的文字線索(如圖1中下劃線標記的語句)分別出現(xiàn)于相關文檔Dα和Dβ,且缺一不可。假設文檔Dα和Dβ中蘊含的線索分別為Cα和Cβ,則MMRC的求解過程可進一步細化為給定Cα和Cβ條件下的最大似然估計:

        a=argmaxP(a|Q,Cα,Cβ)×P(Cα,Cβ|Q,Dα,Dβ)×

        (4)

        由于蟲洞的識別直接影響相關文檔Dα和Dβ的選擇和線索Cα和Cβ的判定,從而詞項(含實體)作為蟲洞的概率計算也應融入總體的答案似然估計。由此,“剝洋蔥皮”式的MMRC將形成如下更為繁瑣的概率計算過程:

        a=argmaxP(a|Q,Cα,Cβ)×P(Cα,Cβ|WH,Q,Dα,Dβ)×

        (5)

        其中,WH表示作為蟲洞(WormHole)的詞項或?qū)嶓w。

        上述概率計算形成了遞進式的MMRC模型,具有較強的邏輯性,但是卻欠缺可操作性。其中,線索文檔Dα和Dβ、文字線索Cα和Cβ、蟲洞WH都是有待識別的未知因素,其概率估計往往依賴多樣的前提條件。在這一情況下,較難判定哪一種或多種條件應在概率計算中發(fā)揮主導作用。尤其是文字線索Cα和Cβ的文字形式較為靈活,文字塊、子句或句子都可以形成文字線索,從而概率計算P(Cα,Cβ|WH,Q,Dα,Dβ)缺少文法確切的候選目標。下一節(jié)將通過建立涵蓋“剝洋蔥皮”各個環(huán)節(jié)的神經(jīng)網(wǎng)絡,對上述問題予以解決。

        3 基于聯(lián)合學習的多文檔閱讀理解

        圖3 模型總體框架

        下文概述4個子模塊的具體功能:

        3)P(Cα,Cβ|Q,Dα,Dβ)求解:旨在挖掘文字線索Cα和Cβ。取出Dα與Dβ在第2步之后的分布式表示結果{GDiQ,GDjQ},與上一步類似,使用文檔雙向注意力機制獲取兩篇線索文檔間的關系。與文檔選擇模塊的雙向注意力不同,答案抽取模塊中的文檔雙向注意力的學習旨在挖掘與答案相關的文字線索Cα和Cβ,而不是找尋蟲洞。

        4)P(a|Q,Cα,Cβ)求解:旨在預測最終答案a。對Dα與Dβ的高維語義特征表示{RDαQ,RDβQ}分別使用指針網(wǎng)絡進行答案抽取,獲得候選答案{Ansα,Ansβ}。再通過打分函數(shù)進行答案選擇,判斷最終答案出自文檔Dα還是文檔Dβ。

        3.1 文檔選擇

        文檔選擇主要包括以下2層:

        1)BiGRU層。JNM對問題Q以及N篇文檔{D1,D2,…,DN}使用預訓練的300維Glove詞向量[22]進行詞嵌入。同時使用通過卷積神經(jīng)網(wǎng)絡[23]對單詞中的字符進行卷積獲得單詞的字符級詞嵌入,以此解決未登錄詞的問題。此外,引入EM特征[24],該特征是一個二進制特征,將問題與文檔中同時出現(xiàn)的詞標記為1,未同時出現(xiàn)的詞標記為0,并將0和1映射成n維向量,與詞向量和字符級向量拼接。按照上述方式得到單詞的分布式表示W(wǎng)。接著使用隱層數(shù)量為h的BiGRU對具有q個單詞的問題Q和具有di個單詞的文檔Di進行編碼,得到問題與文檔的分布式表示HQ∈q×h和HDi∈di×h:

        HQ=BiGRU(Q)HDi=BiGRU(Di)

        (6)

        2)注意力矩陣層。在得到了問題和文檔的分布式表示HQ和{HD1,HD2,…,HDN}后,JNM分別使用兩種形式的注意力機制來進行高維特征表示和信息的交互與融合。JNM首先使用類似文獻[14]提出的雙向注意力機制,挖掘文檔中與問題相關的部分:

        (7)

        其中,WDi,WQ∈h×1為可訓練參數(shù),S∈di×q表示文檔詞與問題詞的注意力得分,A∈di×h表示問題對文檔的注意力,max(*)表示對S按列取最大值,rep(*)表示按行復制h次。由此得到結合問題信息的文檔表示GDiQ∈di×4h。本文將上述計算文本A與文本B間注意力的方式記作GAB=BiAtt(A,B)。

        如第1.3節(jié)相關研究與分析中所述,正確答案需要聯(lián)合兩篇文檔推理獲得,因此JNM構建了一個文檔注意力矩陣M用于輔助線索文檔的選擇,旨在捕獲文檔間可能存在的聯(lián)系,找尋蟲洞WH。對于N篇文檔,該矩陣M是一個N×N的方陣,其中Mij表示第i篇文檔對第j篇文檔的注意力,如圖4所示。

        圖4 文檔注意力矩陣

        據(jù)此,計算得到Mij和第i篇文檔的表示RDi:

        (8)

        其中,Mij∈di×h,M∈N×N×di×h。JNM通過文檔注意力矩陣得到新的文檔表示Ri∈di×Nh。對獲得的10篇文檔的分布式表示{R1,R2,…,RN}通過BiGRU解碼,使用全連接層進行二分類,判斷其是否為線索文檔,具體如下:

        yi=W2×max(BiGRU(Ri))+b2

        (9)

        3.2 答案抽取

        答案抽取主要包括以下2層:

        1)語篇注意力層。在篩選出線索的文檔Dα與Dβ后,為降低參數(shù)量級以及簡化訓練,保留文檔選擇模塊中的問題編碼表示HQ,并且從{HD1,HD2,…,HDN}中取出線索文檔的編碼表示{HDα,HDβ}。與3.1節(jié)中的注意力矩陣不同,這里使用更加精細的語篇注意力交互,旨在挖掘文字線索Cα和Cβ。JNM分別計算文檔與問題的雙向注意力以及兩篇文檔之間的雙向注意力,并且利用殘差網(wǎng)絡[25]進行信息融合,獲得結合問題與另一篇線索文檔信息的表示RDα∈dα×h與RDβ∈dβ×h:

        (10)

        (11)

        (12)

        3.3 聯(lián)合訓練

        JNM使用聯(lián)合訓練的方法訓練文檔選擇和答案抽取兩個模塊。文檔選擇模塊的損失記為Lsele,答案抽取模塊的損失記為Lans。其中Lans由抽取損失Lex和答案源推理選擇損失Lclf構成,并且在抽取損失Lex前添加一個指示函數(shù)I(i),當答案源選擇錯誤時不產(chǎn)生損失。

        當模型答案源選擇正確時loss=Lex+Lclf,由于答案源選擇為二分類任務,在分類正確的情況下二分類交叉熵損失遠小于答案抽取的損失,答案抽取可看作兩個多分類,分別是文檔中每個詞作為答案開頭的概率和答案結尾的概率。因此,Lclf遠小于Lex,即loss≈Lex,當答案源選擇錯誤時loss=Lclf。為了避免做出錯誤選擇時模型損失loss的情況發(fā)生,在答案源選擇損失Lclf前添加損失調(diào)和系數(shù)λ,用于平衡答案源選擇損失與答案抽取損失,保持Lex與λ×Lclf相近。

        (13)

        其中,K表示答對總數(shù),N表示一個問答對對應的文檔規(guī)模,Lex與Lclf均為交叉熵損失。

        4 實驗結果與分析

        4.1 實驗配置

        預訓練詞向量為300維的Glove詞向量[22],并在訓練過程中反向傳播更新詞向量,使詞向量更加適配任務。EM特征維度為100維,學習率設為0.000 6。由于在HotpotQA數(shù)據(jù)集上進行實驗,每個問題均提供10篇候選文檔,因此最大文檔數(shù)為10。模型的編碼層BiGRU隱層數(shù)與解碼層RNN隱層數(shù)一致,設為120。模型使用Adam優(yōu)化器[26],其中除學習率外的參數(shù)均為默認值,模型訓練的參數(shù)如表1所示。由于答案抽取模塊對于文檔選擇模塊的強依賴性,在文檔選擇模塊尚未完全訓練時,答案抽取模塊的訓練會變得非常緩慢。這是因為當模型未從正確文檔抽取答案時抽取損失Lex為0(在線索文檔定位錯誤的情況下答案源選擇不可能正確),答案抽取模塊無法進行反向傳播更新參數(shù)。為解決這一問題,JNM在訓練時始終使用正確的兩篇線索文檔訓練答案抽取模塊,在預測時使用文檔選擇模塊預測的線索文檔進行預測。

        表1 模型參數(shù)Table 1 Model parameters

        4.2 評價指標

        在文檔選擇部分,JNM將該部分看作一個二分類任務,本文使用兩篇線索文檔均定位正確的性能accuracy(簡稱ACC)和F1值對篩選出的線索文檔進行評估。在答案抽取部分,本文使用文獻[12]在SQuAD任務中的評估方法,即利用EM值和F1值對預測答案進行評估。具體而言,EM值表示預測值與標準答案是否完全匹配,匹配為1,不匹配則為0。F1值則將預測值與真實值分別視為一個詞袋,通過預測值與真實值之間的平均重疊單詞計算F1值。

        4.3 實驗結果與錯誤分析

        實驗的對比對象為HotpotQA提供的標準基線模型[3],模型架構如圖5所示。模型將N篇文檔進行拼接構成長度為M的長文本,并采用BiGRU對長文本D和問題Q進行編碼,并通過雙向注意力機制進行信息融合,得到融合問題的文檔表示G,最后使用指針網(wǎng)絡作為模型的輸出層,輸出答案的開始位置start和結束位置end。

        圖5 基線模型框架

        在HotpotQA的測試集上,JNM獲得了60.75%的F1值和47.07%的EM值,高于基線模型獲得的59.02%的F1值和45.02%的EM值。JNM的文檔選擇模塊能夠召回91.24%的答案,使用BERT進行向量表示則可召回92.36%的答案。相比之下,基線模型使用線索文檔進行答案預測的F1值為63.58%。由于測試集并未給出問題類型標簽,并且官方禁止實驗模型的反復提交。因此,本文使用HotpotQA的開發(fā)集進行實驗分析。

        對于文檔選擇模塊,JNM的F1值為88.47%,ACC值為78.99%,具體性能如表2所示。

        表2 文檔選擇模塊的性能Table 2 Performance of document selection module %

        若進一步使用BERT進行向量表示,性能可以提升至90.43%的F1值和79.66%的EM值。其中比較類問題的文檔選擇性能明顯高于橋類。針對比較類問題,兩個比較對象往往對應著兩篇線索文檔,如圖6中的問題“上海和衡陽,哪座城市具有更多的人口?”,比較對象“上?!焙汀昂怅枴备髯詫黄€索文檔,從文章的標題即可完成定位,因此定位難度較低。在比較類問題的文檔選擇方面,無論是JNM還是基線模型均獲得了遠高于橋類問題的性能。針對圖1中給出的橋類問題“在約瑟夫·班尼特擔任中校的那場戰(zhàn)斗中,誰領導了德克薩斯軍隊?”,模型需要先定位到第一篇線索文檔“約瑟夫·班尼特”,從中找尋蟲洞WH,“圣哈辛托戰(zhàn)役”,據(jù)此定位到另一篇線索文檔“圣哈辛托戰(zhàn)役”,因此橋類問題的文檔選擇更具挑戰(zhàn)。

        圖6 比較類問題錯誤樣例

        同樣,答案抽取模塊(模型的總體性能)針對兩種問題類型的EM值、F1值如表3所示。

        表3 答案抽取模塊的總體性能Table 3 Overall performance of answer extraction module %

        若進一步使用BERT進行向量表示,JNM性能可以提升至67.91%的F1值和53.27%的EM值。其中基線模型性能為使用官方提供的經(jīng)過多次實驗所得到的最高性能源代碼。發(fā)現(xiàn)無論是JNM還是基線模型,針對橋?qū)嶓w類問題都有著較高的答案定位能力(預測值與真實值有交集)和較差的邊界定位能力。但比較類問題則相反,模型的答案定位能力較差,邊界定位能力較強。如對圖1中給出的問題“在約瑟夫·班尼特擔任中校的那場戰(zhàn)斗中,誰領導了德克薩斯軍隊?”,模型的預測答案為“薩姆·休斯頓”,與真實答案“薩姆·休斯頓將軍”不完全匹配,但從語義角度兩個答案均正確,屬于答案定位準確但答案邊界不準確的情況。而對圖6中給出的比較類問題,分析問題即可將答案鎖定在“上?!焙汀昂怅枴敝g,若答案源定位正確,答案邊界幾乎不可能有誤。因此,比較類問題的最大挑戰(zhàn)是答案源的定位。如圖6中的錯誤樣例,模型需要獲取知識“上海人口超過2 400萬”和“居住著1 075 516名居民”,假設模型已經(jīng)通過文檔雙向注意力層挖掘到文字線索“1 075 516名”與“2 400萬”,模型任然面臨著“1 075 516名”與“2 400萬”的值比較問題。不僅如此,還需結合問題中的“更多的人口”這一信息,進行比較結果與問題方向的異或判斷。這對現(xiàn)有的神經(jīng)閱讀理解模型具有極大挑戰(zhàn)。

        不過JNM僅是一套MMRC框架,可將內(nèi)部功能模塊替換成任意神經(jīng)網(wǎng)絡模型,如將BERT替代現(xiàn)有表示層后,JNM文檔抽取的F1值上升了2個百分點,答案抽取性能上升了5.9個百分點。融合BERT表示的模型性能如表4所示。

        表4 融合BERT表示的JNM各模塊性能Table 4 Performance of each JNM module expressed by BERT %

        4.4 消減實驗

        為更細致地分析JNM模型,本文在HotpotQA的開發(fā)集上進行了消減實驗,分別移除文檔選擇模塊的文檔注意力矩陣和答案抽取模塊的文檔雙向注意力,并分析其對文檔選擇性能、答案抽取性能和聯(lián)合性能的影響。

        消減實驗結果如表5所示,首先去掉EM特征,無論是文檔選擇模塊還是答案抽取模塊,性能都略有損失,證明EM特征對兩個模塊均有幫助。但損失值并不明顯,尤其是文檔選擇部分,ACC和F1值損失均在1%之內(nèi),表示EM特征并沒有在本文的模型中起決定性作用。去掉文檔選擇模塊的文檔注意力矩陣,模型在文檔選擇部分的性能損失的F1值為10.06%,答案抽取性能下降2.79%,證明文檔注意力矩陣對JNM性能起到?jīng)Q定性作用,尤其是對文檔選擇模塊。去掉答案抽取模塊的文檔雙向注意力,不僅導致答案抽取部分的F1值下降2.38%,同時導致文檔選擇部分的F1值下降2.30%。實驗結果表明,無論消減文檔選擇模塊中的子模塊還是消減答案抽取模塊的子模塊,均會對兩個模塊以及總體性能產(chǎn)生影響,證明本文提出的聯(lián)合學習方法有助于在解決答案抽取問題的同時解決文檔選擇問題,并且文檔選擇對答案抽取(總體性能)有輔助作用。

        表5 消減實驗結果Table 5 Ablation experimental results %

        5 結束語

        本文針對多文檔推理問題提出一種“剝洋蔥皮”式的解決方案,并通過面向多文檔的聯(lián)合學習模型JNM對該方案進行實現(xiàn),同時針對蟲洞現(xiàn)象,利用文檔注意力矩陣來輔助線索文檔的挖掘,并運用文檔雙向注意力使答案抽取和答案源選擇更加準確。實驗結果表明,與基線模型相比,該模型的EM值和F1值在HotpotQA測試集中獲得了2.1%和1.7%的提升。理想的閱讀理解模型不僅需要提供問題的預測答案,還應給出推理答案所使用的支持事實,使模型具有更好的可解釋性,下一步將對此進行研究。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        3D打印中的模型分割與打包
        中文字幕人妻被公喝醉在线 | 日本精品视频二区三区| 午夜性色一区二区三区不卡视频 | 色偷偷亚洲av男人的天堂| 亚洲视频专区一区二区三区| 挺进邻居丰满少妇的身体| 久久久精品2019免费观看| 制服无码在线第一页| 日本久久视频在线观看| 国产猛男猛女超爽免费视频| 99精品国产综合久久久久五月天| 精品综合久久久久久8888| 国产免费精品一品二区三| 99久久无色码中文字幕人妻蜜柚 | 欧美亚洲日韩国产人成在线播放| 日本精品一级二区三级| 精品国产麻豆免费人成网站| 久久久久久av无码免费看大片 | 久久高潮少妇视频免费| 美女视频一区二区三区在线| 免费拍拍拍网站| 国产精品亚洲A∨天堂不卡| 国产一级黄片久久免费看| 成年美女黄网站色大免费视频| 海角国精产品一区一区三区糖心 | 亚洲国产精品一区二区成人av| 欧美性巨大╳╳╳╳╳高跟鞋| 国产成人免费a在线视频| 精品色老头老太国产精品| 亚洲小说区图片区色综合网| 毛茸茸的中国女bbw| 中文亚洲AV片在线观看无码| 国产三级精品三级在线专区| 乱人妻中文字幕| 国产日韩欧美网站| 一级二级三一片内射视频| 亚洲av成人无码久久精品老人| 亚洲精品国偷自产在线99正片| 亚洲中文字幕精品久久久久久直播| 毛片在线播放亚洲免费中文网| 亚洲av永久无码精品三区在线|