亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于問題分解的多跳機(jī)器閱讀理解模型*

        2022-08-20 01:39:26周展朝劉茂福胡慧君
        關(guān)鍵詞:樣例段落文本

        周展朝,劉茂福,胡慧君

        (1.武漢科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430065;2.智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430065)

        1 引言

        機(jī)器閱讀理解一直是自然語言處理領(lǐng)域的焦點(diǎn),在工業(yè)界和學(xué)術(shù)界都發(fā)揮著重要的作用。作為機(jī)器閱讀理解領(lǐng)域的重要研究方向,多跳閱讀理解任務(wù)中的多跳問題在文本內(nèi)容上比單跳問題更加復(fù)雜,且要求解答者能夠綜合多個(gè)句子進(jìn)行回答。本文發(fā)現(xiàn)多跳問題是由數(shù)個(gè)簡(jiǎn)單問句融合而成的,而且簡(jiǎn)單問句大都是對(duì)同一實(shí)體對(duì)象不同方面的描述。例1是多跳問題的實(shí)際例子:

        例1

        Q:世界上首架超音速教練機(jī)可以勝任什么任務(wù)?

        P1:T-50是世界上首架超音速教練機(jī),……

        P2:T-50金鷹這種先進(jìn)的噴氣式教練機(jī)能夠勝任高強(qiáng)度沖突的基本戰(zhàn)斗任務(wù),……

        Q1:世界上首架超音速教練機(jī)是什么?

        Q2:[ANS] 可以勝任什么任務(wù)?

        例1中的復(fù)雜多跳問題是“世界上首架超音速教練機(jī)可以勝任什么任務(wù)?”。該問題實(shí)際上相當(dāng)于2個(gè)問題:首先必須找出世界上首架超音速教練機(jī);其次回答教練機(jī)可以勝任哪些任務(wù)。

        根據(jù)上述思路,本文通過問題分解的策略來簡(jiǎn)化復(fù)雜問題,從而降低復(fù)雜問題的回答難度。比如,例1中復(fù)雜問題實(shí)際上約等于2個(gè)問題,分別是“世界上首架超音速教練機(jī)是什么?”和“[ANS] 可以勝任什么任務(wù)?”,2個(gè)問題都描述了教練機(jī),然而第1個(gè)問題可以直接回答,而且其答案正是第2個(gè)問題的主語“[ANS]”;解答出第2個(gè)問題的答案即可回答多跳問題。

        近期關(guān)于問題分解的工作多依賴于詞法分析相關(guān)的語義解析器[1],這使得很難將其推廣到各種自然語言問題。Min等人[2]提出了一種片段預(yù)測(cè)的模型來分解問題,該模型通過指針網(wǎng)絡(luò)抽取多跳問題中的單跳問題片段,如例1所示。這種模型僅僅利用了語法結(jié)構(gòu)信息就解決了多跳問題。本文注意到多跳問題和線索段落存在相似的文本片段。如例1中的Q和P1的相似片段就是單跳問題Q1。本文將線索段落當(dāng)成輔助信息來幫助模型解析復(fù)雜問題,從而獲得簡(jiǎn)單問題。因此,本文提出了新的問題分解模型,該模型將文本抽取任務(wù)轉(zhuǎn)化成閱讀理解任務(wù),可以同時(shí)利用到線索段落和句子結(jié)構(gòu)信息。另外,缺乏相應(yīng)的問題分解數(shù)據(jù)集也是問題分解的難點(diǎn)之一。因此,本文將復(fù)雜問題抽取出來并進(jìn)行標(biāo)注,生成了一個(gè)分解數(shù)據(jù)集(https://github.com/zzhzhao/test)。

        2 相關(guān)工作

        斯坦福SQuAD(Stanford Question Answering Dataset)數(shù)據(jù)集[3]極大地促進(jìn)了閱讀理解的發(fā)展。傳統(tǒng)的閱讀理解模型主要建立在管道方法的基礎(chǔ)上,包含語法分析和特征工程等步驟。管道方法會(huì)將上一個(gè)步驟的錯(cuò)誤傳遞到下一個(gè)步驟中。為了解決這個(gè)問題,端到端模型開始蓬勃發(fā)展。Match-LSTM(Match-Long Short Term Memory)模型[4]利用詞嵌入的方法將問題文本和閱讀文本編碼成向量,然后輸入神經(jīng)網(wǎng)絡(luò)獲得融合向量表示,最后利用指針網(wǎng)絡(luò)獲得答案。許多研究人員在該模型架構(gòu)的基礎(chǔ)上提出了各種優(yōu)化模型。相比于Match-LSTM模型的單重注意力機(jī)制,BiDAF(Bi-Directional Attention Flow)模型[5]則采用了雙重注意力機(jī)制,加強(qiáng)了對(duì)問題文本和閱讀文本語義的提取。隨著閱讀理解數(shù)據(jù)集的增大,基于遞歸神經(jīng)網(wǎng)絡(luò)的模型在訓(xùn)練上花費(fèi)的時(shí)間越來越多。因此,Yu等人[6]提出了QANet(Question-Answer Net)模型,該模型引入了卷積神經(jīng)網(wǎng)絡(luò),可以進(jìn)行并行訓(xùn)練,極大地縮短了訓(xùn)練時(shí)間。面對(duì)含有多篇文章的閱讀理解問題,Wang等人[7]提出了一種答案校驗(yàn)機(jī)制,可以對(duì)每篇文章的答案進(jìn)行置信度打分,以獲得全文層次的真正答案。谷歌的BERT(Bidirectional Encoder Representations from Transformers)模型[8]一經(jīng)提出,就迅速霸占了各種自然語言處理任務(wù)榜單的榜首。但是,該模型主要是針對(duì)西方語言的特點(diǎn)進(jìn)行訓(xùn)練。因此,百度提出了ERNIE(Enhanced Representation through kNowledge IntEgration)模型[9],有針對(duì)性地對(duì)中文任務(wù)進(jìn)行了微調(diào),使之更加適應(yīng)中文自然語言處理任務(wù)。

        和單跳問題相比,多跳問題在內(nèi)容上更加復(fù)雜,需要的線索段落也更多,因此解決多跳問題需要引入推理策略。圖神經(jīng)模型在多跳閱讀理解任務(wù)中占有重要地位。Ding等人[10]利用圖神經(jīng)模型構(gòu)建認(rèn)知圖譜,利用圖譜上的節(jié)點(diǎn)進(jìn)行多跳推理。DFGN(Dynamically Fused Graph Network)模型[11]同樣利用了圖神經(jīng)模型構(gòu)建知識(shí)圖譜,然后通過遷移知識(shí)圖譜的推理方法來解答多跳問題。和圖神經(jīng)模型不同,PathNet模型[12]利用信息抽取的方式來構(gòu)建多種推理路徑,從而選擇最佳的路徑來解答多跳問題。DecompRC(Decomposition Reading Comprehension)[2]利用分解模型來降低復(fù)雜問題的難度,從而獲取簡(jiǎn)單問題,最后通過解決簡(jiǎn)單問題來解決多跳問題。受到該思路的啟迪,本文也嘗試?yán)脝栴}分解的思路來簡(jiǎn)化復(fù)雜問題,但是本文對(duì)問題分解的手段進(jìn)行了創(chuàng)新,將問題分解轉(zhuǎn)換為一個(gè)閱讀理解任務(wù),而非DecompRC模型的片段抽取問題。DecompRC模型的問題分解只利用了多跳問題的信息,直接抽取了單跳問題的起始索引;而本文模型引入了額外的線索段落信息,可以抽取更加準(zhǔn)確的單跳問題片段。

        Figure 1 Framework of multi-hop reading comprehension model圖1 多跳閱讀理解模型整體框架

        將一種自然語言處理問題轉(zhuǎn)換成另外一種自然語言處理問題,這種思路在研究領(lǐng)域也不少見。機(jī)器閱讀理解任務(wù)是一種基礎(chǔ)的任務(wù)形式,許多其他的自然語言理解任務(wù)都可以經(jīng)過一定的變換轉(zhuǎn)化成問答形式,從而利用基礎(chǔ)的閱讀理解模型進(jìn)行訓(xùn)練。DecaNLP(Natural Language Decathlon)模型[13]正是這一思路的實(shí)現(xiàn)者,該模型在一定程度上可以完成眾多的自然語言處理任務(wù)。同時(shí),不同的自然語言處理任務(wù)也可以相互促進(jìn),獲得比單一任務(wù)更好的效果。也有一些研究人員研究單一任務(wù)的轉(zhuǎn)換。關(guān)系抽取任務(wù)在形式上非常接近問答任務(wù),因此,Levy等人[14]將需要抽取的眾多關(guān)系轉(zhuǎn)換成相應(yīng)的問題,將實(shí)體作為答案進(jìn)行抽取。類似地,實(shí)體抽取任務(wù)也可以轉(zhuǎn)換成閱讀理解。針對(duì)每一種實(shí)體可以生成一種相應(yīng)的問題,這種方法還可以準(zhǔn)確地抽取實(shí)體中嵌套的實(shí)體[15]。結(jié)合上述2種思路,Li等人[16]提出了一種聯(lián)合學(xué)習(xí)的方法,可以通過多輪問答的形式同時(shí)抽取文本中的實(shí)體和關(guān)系。

        特別地,共指消解任務(wù)也需要抽取文本中同一實(shí)體的不同表達(dá)形式,同樣可以直接轉(zhuǎn)換成問答形式[17]。

        3 本文模型

        3.1 整體架構(gòu)

        本文提出了一種基于問題分解的多跳閱讀理解模型,如圖1所示。多跳問題是由數(shù)個(gè)簡(jiǎn)單問句融合而成的,而且簡(jiǎn)單問句大都是對(duì)同一實(shí)體對(duì)象不同方面的描述。問題分解模型可以降低多跳問題的求解難度,分解之后生成的簡(jiǎn)單問題可以輸入單跳模型生成答案。本文的問題分解模型引入了閱讀理解模型,可以融合線索段落的信息,最終生成更加準(zhǔn)確的單跳問題。本文的數(shù)據(jù)集主要包含3種問題,即組合問題、多跳問題和單跳問題。組合問題可以通過問號(hào)的數(shù)目直接區(qū)分。因此,本文首先利用深度學(xué)習(xí)模型訓(xùn)練一個(gè)二值分類器;然后,將經(jīng)由二值分類模型分類得到的多跳問題和單跳問題進(jìn)行問題分解。組合問題分解得到的簡(jiǎn)單問題可以直接輸入單跳模型生成答案。但是,多跳問題生成的單跳問題則相互影響,如例1中,第1個(gè)問題可直接回答,而且其答案正是第2個(gè)問題的主語,解答出第2個(gè)問題的答案即可回答多跳問題。

        3.2 問題分類

        問題分類是基于問題分解的多跳閱讀理解模型的第1步,主要對(duì)數(shù)據(jù)集中的問題類型進(jìn)行劃分,方便選擇合適的分解模型進(jìn)行分解。組合問題、單跳問題和多跳問題是中文閱讀理解數(shù)據(jù)集中的主要問題類型。圖1展示了3種問題類型的具體實(shí)例。其中,單跳問題是最簡(jiǎn)單也是最重要的問題類型;多跳問題和組合問題經(jīng)過分解之后都可以變成單跳問題。單跳問題在句型上主要是簡(jiǎn)單句,而且需要的線索往往是單個(gè)句子,可以直接在閱讀材料中獲得答案,而不需要經(jīng)過推理。多跳問題是由多個(gè)單跳問題經(jīng)過橋接實(shí)體融合而成的,而且其中的單跳問題往往是描述同一實(shí)體的不同方面。和多跳問題不同,組合問題則是由單跳問題直接拼湊而來的,實(shí)際上仍然是2個(gè)單跳問題。多跳問題、組合問題和單跳問題擁有的特征不同,需要采取不同的方法來求解[18,19]。ERNIE模型利用大量中文文本進(jìn)行預(yù)訓(xùn)練,還采用了詞掩碼機(jī)制進(jìn)行優(yōu)化,對(duì)中文自然語言處理任務(wù)具有較強(qiáng)的適應(yīng)性。因此,本文使用ERNIE模型訓(xùn)練一個(gè)二值分類器,用以區(qū)分多跳問題和單跳問題。

        對(duì)于問題文本序列Q={q1,q2,…,qn},將其輸入ERNIE模型得到的語義表示向量如式(1)所示:

        V=ERNIE(Q)∈Rn×h

        (1)

        其中,h代表編碼器輸出維度。然后將向量表示輸入一個(gè)softmax函數(shù)進(jìn)行歸一化處理 ,如式(2)所示:

        P=softmax(pool(V)W1)∈R2

        (2)

        其中,pool(·)代表池化操作,W1∈Rh×2代表參數(shù)矩陣。

        3.3 組合問題分解

        和多跳問題不同,組合問題實(shí)際上就是2個(gè)簡(jiǎn)單問題。2個(gè)簡(jiǎn)單問題相對(duì)比較獨(dú)立,可以同時(shí)對(duì)2個(gè)問題進(jìn)行回答,第1個(gè)問題的答案不影響第2個(gè)問題的解答。同時(shí),在文本形式上組合問題也比較直觀,可以通過判斷問號(hào)的數(shù)目來加以區(qū)分。因此,本文直接將組合問題中的問號(hào)作為分隔符進(jìn)行分割,就可以得到2個(gè)簡(jiǎn)單問題。例2直接展示了1個(gè)組合問題的數(shù)據(jù)樣例:

        例2

        Q:AK-47步槍的制造商是哪家?該槍的口徑是多少?

        Q1:AK-47步槍的制造商是哪家?

        Q2:AK-47步槍的口徑是多少?

        例2中的組合問題實(shí)際上就是詢問了AK-47步槍的制造商和口徑。第1個(gè)單跳問題可以直接回答,但第2個(gè)問題無法視作一個(gè)完整的單跳問題。因此,本文需要首先通過詞法分析提取第1個(gè)問題的主語,然后替換第2個(gè)問題的指代詞,才能形成一個(gè)完整的單跳問題。

        3.4 多跳問題分解

        和單跳閱讀理解問題相比,多跳閱讀理解問題在內(nèi)容上更加復(fù)雜,需要的線索段落也更多,且往往分布在閱讀材料的各個(gè)地方。單跳閱讀理解模型沒有對(duì)復(fù)雜的多跳問題進(jìn)行解析,而是直接將其編碼成語義向量和線索段落的語義向量進(jìn)行交互。單跳閱讀理解模型沒有深入挖掘多跳問題中的隱藏實(shí)體信息,而且無法在線索段落之間進(jìn)行推理。然而,問題分解模型可以簡(jiǎn)化復(fù)雜多跳問題,生成的單跳問題可以分別檢索相應(yīng)的線索段落。2個(gè)單跳問題經(jīng)過橋接實(shí)體進(jìn)行融合,可以生成1個(gè)多跳問題。多跳問題實(shí)際上經(jīng)過了深度融合,無法直接通過問號(hào)進(jìn)行分解,而且分解之后的單跳問題也是相互關(guān)聯(lián)的,無法視作2個(gè)獨(dú)立的問題。因此,本文采用深度學(xué)習(xí)模型來分解多跳問題。但是,由于分解數(shù)據(jù)集的缺乏,本文將復(fù)雜問題抽取出來并進(jìn)行人工標(biāo)注,生成了一個(gè)分解數(shù)據(jù)集。

        為了降低多跳問題的難度,本文將問題分解任務(wù)轉(zhuǎn)換成問答形式的閱讀理解任務(wù)。閱讀理解任務(wù)主要包括問題、答案和閱讀材料,其中問題和答案都是閱讀材料中的片段。為了將問題分解任務(wù)轉(zhuǎn)換成問答形式,本文將線索句子改寫成閱讀理解任務(wù)的問題,將多跳問題中的第1個(gè)單跳問題文本當(dāng)成閱讀理解任務(wù)的答案。

        本文采用ERNIE模型來解決問題分解任務(wù)。對(duì)于給定問題文本序列Q={q1,q2,…,qn}和閱讀文本序列D={d1,d2,…,dm},ERNIE模型將問題文本序列和閱讀文本序列進(jìn)行拼接,提取深層語義特征向量,如式(3)所示:

        U=ERNIE([Q,D])∈R(n+m)×h

        (3)

        其中,h代表編碼器輸出維度,[Q,D]代表對(duì)問題文本和閱讀文本進(jìn)行拼接。然后將向量表示輸入一個(gè)softmax函數(shù)進(jìn)行歸一化處理 ,如式(4)所示:

        Y=softmax(UW2)∈R(n+m)×2

        (4)

        其中,W2∈Rh×2代表參數(shù)矩陣。

        令P(ij=indj)=Yij表示文本中第i個(gè)詞語的標(biāo)簽是j的概率。閱讀文本中的開始和結(jié)束索引標(biāo)記了預(yù)測(cè)的答案文本,如式(5)所示:

        (5)

        3.5 單跳閱讀理解

        經(jīng)過問題分解步驟,本文使用ERNIE模型來解答生成的單跳問題。然而,本文數(shù)據(jù)集中的閱讀材料文本主要是由5篇文章構(gòu)成,篇幅往往較長(zhǎng),而ERNIE模型對(duì)輸入長(zhǎng)度有所限制,無法直接進(jìn)行處理。因此,本文采用了先檢索后閱讀的方法[20],即先利用BM25(Best Match 25)算法檢索與問題相關(guān)的線索段落,然后利用ERNIE模型進(jìn)行求解。

        Figure 2 Overall fine-tuning procedure for ERNIE圖2 ERNIE微調(diào)步驟整體框架

        首先,使用式(3)獲得問題文本和閱讀文本的拼接向量U。然后,經(jīng)過神經(jīng)網(wǎng)絡(luò)獲得答案的開始索引和結(jié)束索引,如式(6)所示:

        (6)

        其中,Pstart(j)代表文本中第j個(gè)詞是答案文本開始索引的概率,Pend(k)代表文本中第k個(gè)詞是答案文本結(jié)束索引的概率。

        答案文本開始索引的概率矩陣和答案文本結(jié)束索引的概率矩陣如式(7)和式(8)所示:

        Pstart=softmax(UWstart)∈Rn+m

        (7)

        Pend=softmax(UWend)∈Rn+m

        (8)

        其中,Wstart,Wend∈Rh代表參數(shù)矩陣。

        4 實(shí)驗(yàn)及結(jié)果分析

        4.1 數(shù)據(jù)集

        本文實(shí)驗(yàn)使用的英文數(shù)據(jù)集為HotpotQA[22],該數(shù)據(jù)集來源于維基百科文章,由眾包人員根據(jù)給定文章構(gòu)建而成,并且保留了解答問題時(shí)需要的支撐段落,主要包含大量的英文多跳問題,總計(jì)大約10萬個(gè)英文問答對(duì)。和其他數(shù)據(jù)集相比,HotpotQA英文數(shù)據(jù)集具有以下特點(diǎn):(1)回答復(fù)雜問題需要在多個(gè)段落之間尋找線索并進(jìn)行推理;(2)問題的形式多樣化而且不局限于特定知識(shí)模式;(3)每個(gè)復(fù)雜問題都包含支撐段落,可以展示預(yù)測(cè)答案的推理過程。

        本文實(shí)驗(yàn)使用的中文數(shù)據(jù)集來自于2019年萊斯杯軍事機(jī)器閱讀理解比賽,總共包括大約2萬個(gè)問答對(duì),每個(gè)問答對(duì)主要包括問題、答案和線索段落。特別地,多跳問題還有一個(gè)特殊的字段——橋接實(shí)體。橋接實(shí)體指的是多跳問題分解之后生成的第1個(gè)單跳問題的答案,也是第2個(gè)單跳問題的主語,起到承上啟下的作用。數(shù)據(jù)集的問題是由研究者根據(jù)軍事文本編輯而成的,其平均長(zhǎng)度大約是16個(gè)詞語。軍事問題的提問方式比較固定,主要是詢問某種軍事實(shí)體的屬性。特別地,部分軍事問題的參考答案并非軍事文本中的片段;而且,某些復(fù)雜的軍事問題需要綜合多個(gè)答案才能回答。

        組合問題、單跳問題和多跳問題是中文閱讀理解數(shù)據(jù)集中的主要問題類型。例2的組合問題可以直接看成2個(gè)簡(jiǎn)單問題,而且這2個(gè)問題都是對(duì)同一個(gè)軍事實(shí)體進(jìn)行提問。例1中多跳問題的求解過程是先找到Q1的答案,然后替換Q2中的占位符,最終求得Q2的答案。中文數(shù)據(jù)集的統(tǒng)計(jì)信息如表1所示。

        Table 1 Statistical information of Chinese dataset表1 中文數(shù)據(jù)集的統(tǒng)計(jì)信息

        由于缺乏標(biāo)注的分解樣例來訓(xùn)練問題分解模型,本文通過人工標(biāo)注的方法獲得問題分解數(shù)據(jù)集。多跳問題是由多個(gè)簡(jiǎn)單問題經(jīng)過橋接實(shí)體融合而成,因此,多跳問題和分解之后的單跳問題存在公共子片段。最長(zhǎng)公共子串LCS(Longest Common Substring)算法可以抽取文本之間的相似文本片段。因此,本文采用LCS算法來提取單跳問題。但是,LCS算法生成的單跳問題不完整,需要手工進(jìn)行調(diào)整。

        4.2 評(píng)價(jià)指標(biāo)

        BLEU(BiLingual Evaluation Understudy)指標(biāo)[23]和Rouge-L指標(biāo)[24]是自然語言處理任務(wù)中常用的評(píng)價(jià)指標(biāo)。BLEU主要用來評(píng)價(jià)生成文本和參考文本之間的相似度,具體的計(jì)算方法是統(tǒng)計(jì)兩者之間的n元詞組同時(shí)出現(xiàn)的頻率。Rouge-L指標(biāo)同樣可以評(píng)估生成文本和參考文本之間的相似度,但是在計(jì)算方法上有所不同。Rouge-L主要是計(jì)算兩者之間的召回率和準(zhǔn)確率。

        軍事閱讀理解數(shù)據(jù)集包含復(fù)雜的多跳問題,其中部分答案不是直接從軍事文本中抽取而來。另外,相當(dāng)一部分軍事問題存在多個(gè)答案,這些參考答案本質(zhì)上是對(duì)不同子問題的回答。因此,本文的評(píng)價(jià)分?jǐn)?shù)計(jì)算如式(9)所示:

        (9)

        其中,BLEU計(jì)算或者Rouge-L計(jì)算用函數(shù)eval表示;cn代表測(cè)試集中的數(shù)據(jù)樣例個(gè)數(shù);predb代表模型的第b個(gè)預(yù)測(cè)答案文本;answerl代表第l個(gè)參考答案文本;answer_count和pred_count分別代表參考答案的個(gè)數(shù)和預(yù)測(cè)答案的個(gè)數(shù)。

        4.3 實(shí)驗(yàn)

        本文實(shí)驗(yàn)主要測(cè)試了3個(gè)模型,分別是基于ERNIE的分類模型、基于ERNIE的問題分解模型和基于ERNIE的單跳閱讀理解模型。3個(gè)模型都采用0.000 05的學(xué)習(xí)率且都只迭代訓(xùn)練2輪。3個(gè)模型的其他參數(shù)設(shè)置如表2所示。表2中seq_len表示最大序列長(zhǎng)度,ques_len表示最大問題長(zhǎng)度,ans_len表示最大答案長(zhǎng)度。

        Table 2 Setting parameters of models表2 模型的參數(shù)設(shè)置

        4.4 實(shí)驗(yàn)結(jié)果及分析

        萊斯杯數(shù)據(jù)集包含了大量的中文多跳問題,本文在該數(shù)據(jù)集上進(jìn)行了許多基于不同分解模型的實(shí)驗(yàn),結(jié)果如表3所示。表3中:

        (1)ERNIE:基準(zhǔn)模型。

        (2)ERNIE+SD:分解組合問題。

        (3)ERNIE+SD+SPAN-CD:分解組合問題,基于片段預(yù)測(cè)的多跳問題分解,即DecompRC的問題分解模型。

        (4)ERNIE+SD+RC-CD:分解組合問題,基于閱讀理解的多跳問題分解,即本文提出的模型。

        Table 3 Experimental results based on different decomposition表3 基于不同分解模型的實(shí)驗(yàn)結(jié)果 %

        本文模型在表3的實(shí)驗(yàn)結(jié)果中分?jǐn)?shù)最高。第3個(gè)模型比第4個(gè)模型分別在BLEU指標(biāo)和Rouge-L指標(biāo)上低了1.31%和1.26%。這2個(gè)模型的實(shí)驗(yàn)結(jié)果對(duì)比說明基于閱讀理解的多跳問題分解比基于片段抽取的模型更加有效。閱讀理解模型引入了線索段落的信息,可以輔助抽取單跳問題文本。第2個(gè)模型比第3個(gè)模型在Rouge-L指標(biāo)上低了0.42%,表明多跳問題分解可以降低復(fù)雜問題的難度。根據(jù)基準(zhǔn)模型和第2個(gè)模型實(shí)驗(yàn)結(jié)果的對(duì)比,發(fā)現(xiàn)分解組合問題能夠提高模型的求解效果。

        為了比較本文提出的基于閱讀理解的問題分解模型和DecompRC模型的區(qū)別,本文在問題分解數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),同時(shí)對(duì)預(yù)測(cè)的結(jié)果進(jìn)行了分析。從表4可以看出,2種問題分解模型對(duì)問題分解都是有效的。本文模型在Rouge-L和BLEU指標(biāo)上的得分均高于DecompRC模型的,這說明本文模型比DecompRC模型更加有效。DecompRC模型利用指針網(wǎng)絡(luò)在多跳問題中直接抽取單跳問題片段,并沒有利用證據(jù)段落的信息。相反,本文的問題分解模型充分利用了證據(jù)段落和多跳問題的相似性,可以更加準(zhǔn)確地抽取單跳問題片段。例3展示了不同問題分解模型的樣例。其中,Q1是DecompRC分解模型的結(jié)果,Q2是基于閱讀理解的問題分解模型的結(jié)果。和Q1相比,Q2沒有抽取“的原機(jī)型”這個(gè)片段。從證據(jù)段落P中可得出,抽取結(jié)果Q2更加準(zhǔn)確。如果只利用多跳問題Q的信息,模型無法確定單跳問題片段的結(jié)束位置。

        例3

        Q:美國(guó)空軍現(xiàn)役最大戰(zhàn)略運(yùn)輸機(jī)的原機(jī)型什么時(shí)候進(jìn)行的首飛?

        P:為了控制零件成本,日后打算給美國(guó)空軍現(xiàn)役最大戰(zhàn)略運(yùn)輸機(jī)C-5全部換裝3D打印馬桶圈。

        Q1:美國(guó)空軍現(xiàn)役最大戰(zhàn)略運(yùn)輸機(jī)的原機(jī)型

        Q2:美國(guó)空軍現(xiàn)役最大戰(zhàn)略運(yùn)輸機(jī)

        Table 4 Experimental results based on question decomposition表4 問題分解的實(shí)驗(yàn)結(jié)果 %

        本文為了證明實(shí)驗(yàn)?zāi)P偷挠行裕€在中文數(shù)據(jù)集上對(duì)許多經(jīng)典閱讀理解模型進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表5所示。本文對(duì)問題分解手段進(jìn)行了創(chuàng)新,將問題分解轉(zhuǎn)換成一個(gè)閱讀理解任務(wù),而非DecompRC模型的片段抽取問題。DecompRC模型的問題分解只利用了多跳問題的信息,直接抽取了單跳問題的起始索引。而本文模型則是引入了額外的線索段落信息,可以抽取更加準(zhǔn)確的單跳問題片段。從表5可知,本文模型的BLEU值和Rouge-L值分別是71.48%和79.29%,在所有對(duì)比模型中,其BLEU值和Rouge-L值最大。

        HotpotQA數(shù)據(jù)集包含大量的英文多跳問題,本文在該數(shù)據(jù)集上同樣對(duì)眾多的經(jīng)典閱讀理解模型進(jìn)行了實(shí)驗(yàn),結(jié)果如表6所示。本文模型相比DecompRC模型BLEU值和Rouge-L值分別提高了1.35%和1.38%。該實(shí)驗(yàn)結(jié)果表明,本文模型在英文數(shù)據(jù)集上是有效的。

        Table 5 Experimental results based on Chinese dataset表5 基于中文數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果 %

        Table 6 Experimental results based on English dataset表6 基于英文數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果 %

        4.5 樣例分析

        本文模型對(duì)多跳閱讀理解任務(wù)是有效的,但是仍然存在一些問題無法解決。下面給出了本文模型求解錯(cuò)誤的多跳問題,如樣例1~樣例3所示:

        樣例1

        Q:首架“活魚雷”是什么時(shí)候建成的?

        P1:劍魚式魚雷轟炸機(jī)是菲爾利航空器制造公司設(shè)計(jì)制造的一款飛行器,首架于1934年4月17日建成,1936年開始投入使用。

        P2:劍魚常常撲擊船只,船只通常會(huì)被刺出一個(gè)大窟窿,因此人們稱它為“活魚雷”。

        樣例2

        Q:哪個(gè)國(guó)家可能會(huì)購(gòu)買成為巴基斯坦空軍的新銳力量的戰(zhàn)機(jī)?

        Q1:哪個(gè)國(guó)家可能會(huì)購(gòu)買戰(zhàn)機(jī)?

        Q2:成為巴基斯坦空軍的新銳力量的戰(zhàn)機(jī)

        P1:緬甸空軍有可能將增購(gòu)JF-17“雷電”戰(zhàn)斗機(jī)。

        P2:JF-17“雷電”戰(zhàn)斗機(jī)如今已不僅是巴基斯坦空軍的新銳力量。

        樣例3

        Q:除洛杉磯級(jí)外,主要遠(yuǎn)海任務(wù)承擔(dān)者的設(shè)計(jì)初期目的是為了什么?

        Q1:除洛杉磯級(jí)外,主要遠(yuǎn)海任務(wù)承擔(dān)者

        Q2:設(shè)計(jì)初期目的是為了什么?

        P1:其他遠(yuǎn)海任務(wù)則主要由洛杉磯級(jí)和海狼級(jí)承擔(dān)。

        P2:美國(guó)的這艘海狼級(jí)核潛艇,設(shè)計(jì)初期就是為了克制俄羅斯的現(xiàn)有核潛艇和預(yù)防未來俄羅斯新式的核潛艇。

        樣例1中的多跳問題似乎僅僅是一個(gè)單跳問題,但是實(shí)際上需要挖掘更加深入的信息才能正確解答。多跳問題中的活魚雷正是劍魚式魚雷轟炸機(jī)的另一種稱呼。而且,閱讀材料中的線索段落則是只涉及了劍魚式魚雷轟炸機(jī)。因此,模型需要挖掘出活魚雷等同于劍魚式魚雷轟炸機(jī)這一信息。樣例2中的單跳問題出現(xiàn)在多跳問題的尾部,類似的數(shù)據(jù)樣例比較稀少,沒有足夠的數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練。樣例3中的多跳問題包含有簡(jiǎn)單的邏輯運(yùn)算,首先要找到所有主要遠(yuǎn)海任務(wù)的承擔(dān)者,然后獲得除洛杉磯級(jí)之外的艦艇。

        5 結(jié)束語

        本文提出了一種基于問題分解的多跳閱讀理解模型。由于多跳問題具有復(fù)雜的語義,因此,本文選擇問題分解模型來降低多跳問題的求解難度。對(duì)于分解生成的單跳問題,本文選擇單跳模型來生成相應(yīng)的答案。本文將問題分解任務(wù)轉(zhuǎn)換成閱讀理解形式。閱讀理解形式可以吸收額外的線索段落信息,進(jìn)而解析出單跳問題文本。另外,問題分解模型缺乏訓(xùn)練數(shù)據(jù),本文對(duì)多跳問題中的單跳問題進(jìn)行標(biāo)注,生成了一個(gè)問題分解數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明,本文模型對(duì)多跳機(jī)器閱讀理解是有效的。但是,一些超出本文推理策略的多跳問題仍然無法解決,因此將會(huì)繼續(xù)探索新的推理策略。

        猜你喜歡
        樣例段落文本
        樣例復(fù)雜度與學(xué)習(xí)形式對(duì)不同數(shù)量樣例學(xué)習(xí)的影響
        樣例呈現(xiàn)方式對(duì)概念訓(xùn)練類別表征的影響
        【短文篇】
        “樣例教學(xué)”在小學(xué)高年級(jí)數(shù)學(xué)中的應(yīng)用
        心理小測(cè)試
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        夏天,愛情的第四段落
        散文詩(2017年17期)2018-01-31 02:34:11
        弄清段落關(guān)系 按圖索驥讀文
        讀寫算(下)(2016年11期)2016-05-04 03:44:07
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        国产黑色丝袜在线观看下 | 久久精品国产6699国产精| 亚洲精品久久久中文字| 久久91精品国产一区二区| 久久精品中文字幕无码绿巨人| 中文字幕av一区二区三区人妻少妇 | 无码人妻精品一区二区三区免费| 亚洲乱码少妇中文字幕| 高清不卡av在线播放| 视频在线观看国产自拍| 亚洲av无码乱码在线观看裸奔| 欧美疯狂做受xxxx高潮小说| 日本一区二区啪啪视频| 日韩日本国产一区二区| 日本伊人精品一区二区三区| 久久96国产精品久久久| 久久人人爽人人爽人人av东京热 | 亚洲成av人在线观看无堂无码| 亚洲av粉嫩性色av| 99久久免费看精品国产一| 少妇太爽了在线观看免费视频| 国产a v无码专区亚洲av| 国产精品欧美成人片| 亚洲性av少妇中文字幕| 变态调教一区二区三区女同| 亚洲精品久久| 91麻豆精品激情在线观看最新| 丝袜美腿久久亚洲一区| 高级会所技师自拍视频在线| 国产在线精品成人一区二区三区| 久久国产欧美日韩高清专区| 综合人妻久久一区二区精品| 日本午夜剧场日本东京热| 最近2019年好看中文字幕视频| 日本免费一区尤物| 最新国内视频免费自拍一区| 国产av无码专区亚洲精品| 色猫咪免费人成网站在线观看| 午夜福利影院不卡影院| 日日高潮夜夜爽高清视频| 妺妺窝人体色www看美女|