摘要: 多跳閱讀理解是自然語言處理研究領域的熱點和難點,其研究在文本理解、自動問答、對話系統(tǒng)等方面具有重要意義和廣泛應用。針對當前面向中文的多跳閱讀理解(Multi-Hop Reading Comprehension,MHRC)研究不足的現(xiàn)狀,構建了一個面向復雜問題的中文多跳閱讀理解(Complex Chinese Machine Reading Comprehension,Complex CMRC)數(shù)據(jù)集,提出了一種基于問題分解的中文MHRC方法。該方法分為問題分解和問題求解兩個階段:首先提出了一種融合JointBERT模型和規(guī)則的復雜問題分解方法,通過JointBERT模型對問題類型識別和問題片段識別聯(lián)合建模,獲得準確的問題類型和問題片段信息,再利用專門設計的問題分解規(guī)則將復雜問題分解為多個簡單子問題;然后采用BERT預訓練模型對所有子問題進行迭代求解,最終獲得復雜問題的答案。分別在Complex CMRC數(shù)據(jù)集上進行問題分解和問題求解實驗,取得了良好的實驗結果,驗證了提出方法的有效性。
關鍵詞: 多跳閱讀理解;復雜問題分解;預訓練模型;數(shù)據(jù)集構建;問題求解
中圖分類號: TP399" " " " 文獻標志碼: A
doi:10.3969/j.issn.2095-1248.2023.02.008
Multi-Hop Reading Comprehension based on question decomposition
FAN Rui-wen , BAI Yu , CAI Dong-feng
(Human-Computer Intelligence Research Center, Shenyang Aerospace University,Shenyang 110136, China)
Abstract: Multi-Hop Reading Comprehension (MHRC) is a hot and difficult task in the field of natural language processing,and its research is importantly and widely used in text understanding,automatic question answering,and dialogue systems.To address the current lack of research on Chinese-oriented MHRC,a Chinese MHRC dataset for complex question was constructed and a Chinese MHRC method based on question decomposition was proposed.The method was divided into two stages:Firstly,a complex question decomposition method integrating JointBERT model and its rules was proposed to jointly model the question type identification and the question fragment identification by JointBERT model to obtain accurate question type and question fragment information,and then the specially designed question decomposition rules were used to decompose the complex question into multiple simple sub-questions.Secondly,the BERT pre-training model was utilized to iteratively solve all the sub-questions and finally obtain the answer of the complex question.The question decomposition and question solving experiments were conducted on the Complex CMRC dataset respectively which verify the effectiveness of the proposed method.
Key words: Multi-Hop Reading Comprehension;complex question decomposition;pre-trained models;dataset construction;question solving
多跳閱讀理解(MHRC)任務是指機器通過從給定的文本中獲得信息,通過多步推理對給定的問題作出回答。與單跳閱讀理解任務相比,多跳閱讀理解任務通常是在文章和問題結構更加復雜的情況下,需要更多的推理步驟才能得到答案。因此多跳閱讀理解更加貼近于真實生活,更接近人類的推理認知,具有更廣泛的研究和應用價值,同時更具有挑戰(zhàn)性。
MHRC主要分為基于問題分解和基于圖神經網(wǎng)絡兩種方法。其中基于問題分解的方法是指將復雜問題分解成多個相對簡單的子問題,然后按序求解這些子問題來回答原問題,可顯著降低問題的求解難度,這與人類解決復雜問題時化繁為簡、分而治之的推理方式十分相似,具有很好的可理解性和可解釋性。子問題可直接利用現(xiàn)有的單跳閱讀理解方法求解,是當前MHRC的主流研究方向之一。本文將針對中文MHRC來探討這種基于問題分解方法的有效性。
Yang等[1]所提出的英文多跳閱讀理解任務數(shù)據(jù)集HotPotQA中的大部分問題屬于復雜問題,需要機器通過多步推理得到答案,該數(shù)據(jù)集的出現(xiàn)使得復雜問題分解(Complex Question Decomposition)的方法受到廣泛關注。
近年來,基于復雜問題分解出現(xiàn)了很多有價值的工作,比如Min等[2]提出基于有監(jiān)督方式的DecompRC模型,該模型針對不同類型的問句設計不同的分解規(guī)則,將復雜問題轉化成若干個簡單的、可以直接用現(xiàn)有的改進單跳閱讀理解模型[3]回答的問題;此外還設計了一種新的全局打分方法,顯著提高了在HotpotQA數(shù)據(jù)集上的整體性能;Perez等[4]提出了基于無監(jiān)督方式的ONUS模型,該模型利用了無監(jiān)督方式實現(xiàn)復雜問題的分解,先在沒有監(jiān)督的情況下使用偽分解學習分解,再使用現(xiàn)有的單跳閱讀理解模型解決子問題,最后使用子問題及其答案作為附加輸入更準確地回答復雜問題,該HotpotQA數(shù)據(jù)集上的工作效果顯著提高;Hasson等[5]將復雜問題轉化成依存圖,依存圖的節(jié)點為問句中的實體,依存圖的邊表示實體的邏輯關系,不同邏輯關系代表不同的問題分解操作,最后利用從序列到序列的結構學習分解過程,在性能相近的情況下,推理速度大幅提高。Zhang等[6]提出了分層語義解析(Hierarchical Semantic Parsing,HSP)方法,通過端到端模型進行訓練,顯著提升了實驗效果;Gao等[7]構建了DeSSE數(shù)據(jù)集,該數(shù)據(jù)集用于訓練并評估句子分解的效果,并提出了基于英文的ABCD模型,將復雜句子轉化成圖網(wǎng)絡表示,并利用基于自注意力機制的序列到序列模型進行訓練,得到很好的分解效果;Qi等[8]根據(jù)問題和文章生成自然語言搜索查詢,利用現(xiàn)成的信息檢索系統(tǒng)查詢缺失的實體或證據(jù)來回答原問題,有效地擴展開放領域的多跳推理。
以上有關基于問題分解的MHRC工作都是在英文數(shù)據(jù)集上完成的,而面向中文復雜問題的MHRC研究較少,主要原因是難以找到中文的MHRC數(shù)據(jù)集。一些中文閱讀理解評測中使用的數(shù)據(jù)集多是簡單問題數(shù)據(jù)集,因此需要專門開發(fā)面向復雜問題的多跳閱讀理解數(shù)據(jù)集。參考Min等[2]提出的DecompRC模型工作,提出了一種基于問題分解的中文多跳閱讀理解方法。
1 Complex CMRC數(shù)據(jù)集設計
1.1 數(shù)據(jù)集來源及構建
Complex CMRC數(shù)據(jù)集的原始數(shù)據(jù)選用已公開的高質量中文閱讀理解抽取式數(shù)據(jù)集CMRC2018[9],從中隨機挑選了368篇文章,并通過手動標注的方式將原數(shù)據(jù)集的簡單問題改編為復雜問題,共標注1 000條復雜問題。其中每條問題的數(shù)據(jù)包括:文章、問題,問題類型、分解后的子問題集合、答案和支持事實等。實例說明如下。
文章:0“杜文輝,中國足球運動員,司職前鋒。”
1 “1998年,他正式進入北京國安三隊?!?/p>
2 “1999年,杜文輝和邵佳一、崔威、王碩等人去法蘭克福培訓半年?!?/p>
3 “2002年,杜文輝進入北京國安一線隊,杜文輝在熱身賽中因骨折養(yǎng)傷3個月?!?/p>
標題:“杜文輝”
問題:“杜文輝正式進入北京國安三隊的那年距離他進入北京國安一線隊的那年間隔多少年?”
問題類型:“Bridge_Arithmetic_3”
子問題集合:[“杜文輝正式進入北京國安三隊是什么時間?”,“杜文輝進入北京國安一線隊是什么時間?”,“[ANS1]距離[ANS2]間隔多少年?”]
答案:“4年”
支持事實:[[“杜文輝”,1],[“杜文輝”,3]]
實例中的支持事實指可以推理出問題答案的句子序列,每個事實由文章標題和句子的標號組成。
本文后面的所有實驗部分都以Complex CMRC作為測試集進行評測,包括問題類型和問題片段識別實驗、問題分解實驗和問題求解實驗。
1.2 問題類型定義
回答復雜問題一般需涉及文章中的多個句子,句子間是通過共享的實體或問題片段建立起聯(lián)系。一個復雜問題一般可以分解為相互關聯(lián)的多個簡單問題或子問題,這里某一簡單問題的答案會作為另一個簡單問題的組成成分出現(xiàn)(例如主語等),這個答案就相當于鏈接前后兩個子問句的橋梁(Bridge),稱為Bridge實體。因此,這類問題統(tǒng)稱為Bridge型問題。在一般Bridge型問題的基礎上,從問題分解的角度出發(fā),依據(jù)子問題間的關系類型和答案類型,參考Min等[2]和Wolfson等[10]英文問題分類的有關工作,最終將復雜問題分為6種類型。
(1) 橋接型(Bridge):問題可分解成兩個子問題,且子問題1的答案用于子問題2中,答案為文章的一段文本,可以是實體名、日期以及數(shù)值等;
(2) 布爾型(Boolean):與Bridge型問題相似,答案為Yes或No;
(3) 比較型(Comparison):比較Bridge實體屬性的屬性值,答案類型Yes或No;
(4) 聯(lián)合型(Union):在Bridge型基礎上,要回答兩個并行的關于Bridge的子問題;
(5) 計算型1(Arithmetic1):計算兩個實體的相同屬性的屬性值的和或差;
(6) 計算型2(Arithmetic2):在Bridge型基礎上,計算兩個實體的同類屬性值的和或差。
其中布爾型和比較型都是判別類的問題,答案為Yes或No。與Min等[2]不同,本文增加了比較判斷型問題,可以回答有關實體屬性值是否滿足給定條件的判斷問題(例如:某人的年齡是否已經超過70歲了?)。另外,為了增加問題的復雜度,本文有意在每類問題(除計算型1外)中都引入了Bridge實體。
每個問題類型對應的分解圖、具體問題及問題分解后的結果如表1所示。其中問題類型和問題分解圖中,節(jié)點表示子問題,箭頭表示子問題間依賴關系,后面子問題的求解要用到前面子問題的答案。問題分解結果及答案中,括號里是相應子問題的答案,一般最后一個子問題的答案就是原復雜問題的答案。
1.3 數(shù)據(jù)分布統(tǒng)計
Complex CMRC數(shù)據(jù)集共包括1 000個復雜問題,每類問題的數(shù)量分布如表2所示。
2 融合JointBERT模型與規(guī)則的問題分解方法
2.1 問題分解方法概述
由于不同類型的問題具有不同的結構和分解要求,問題類型對于問題分解和問題求解都具有重要的指導意義。因此,本文問題分解方法分為兩步:第一步,采用JointBERT聯(lián)合模型,識別出復雜問題的問題類型和需要標注的問題片段;第二步,根據(jù)不同的問題類型,按照不同規(guī)則對問題進行分解,生成相應的子問題集。具體模型結構如圖1所示。
2.2 復雜問題的標簽設計
為了將問題分解為子問題,需要識別出問題中的重要片段,稱為問題片段。本文采用BIOE序列標注方法,針對不同的問題片段引入不同的字標簽。問題片段一般是復雜問題中的名詞或短語,根據(jù)子問題答案的類型分為實體片段(OBJ)、時間片段(TIME)和數(shù)值片段(NUM);同時根據(jù)聯(lián)合橋類型問題中所存在的兩個并列成分和比較橋類型問題中存在實體屬性比較成分,又分為并列片段(COO)、數(shù)值比較片段(COM_NUM)、時間比較片段(COM_TIME),總共6類問題片段。每類問題片段都要有開始(B)、中間(I),結束(E)的標簽,另外不是問題片段的部分用標簽“O”標注,共19種不同的標簽。下面將用例子說明問題片段的標注。
橋接型問題:曾擔任臺北市立交響樂團團長及音樂總監(jiān)的人在哪所學校學習的小提琴?
比較型問題:屬于雀形目鳥類的動物 的 身長 超過10 cm了嗎?
對于實體片段的標注標簽是開始字B_OBJ、中間字I_OBJ、結束字E_OBJ,數(shù)值片段的標注標簽的開始字B_NUM、中間字為I_NUM、結束字為E_NUM,其他問題片段的標注以此類推。
2.3 基于JointBERT的問題類型和問題片段的聯(lián)合識別方法
JointBERT[11]模型在口語語言理解(Spoken Language Understanding)任務中被提出,針對意圖識別和槽填充的聯(lián)合任務,采用基于預訓練模型BERT的聯(lián)合建模方法,取得非常好的效果??紤]問題類型和問題片段的識別任務具有很強的相關性,適合于聯(lián)合建模,因此,本文采用了基于JointBERT的聯(lián)合識別方法。
2.3.1 識別方法
本文采用改進的基于JointBERT的問題類型和問題片段的聯(lián)合識別模型結構,如圖2所示。JointBERT模型結構上就是BERT模型,但在訓練方式上采用了聯(lián)合建模。BERT的模型架構是基于原始Transformer模型(Tm)的多層雙向Transformer編碼器。為了進一步優(yōu)化輸出序列,本文又在最后輸出端加入了條件隨機場[12]CRF(Conditional Random Field)層。圖中以Bridge類型問句“屬于細小的雀形目鳥類的動物分布在哪些地區(qū)?”為例。
圖中[CLS]位是模型輸入的首位置,[SEP]位是輸入的最后一位,整個輸入序列記為X=(X_1,X_2,…,X_T),輸出序列為Y=(y_1,y_2,…,y_(T-1)),E_i是x_i對應的編碼表示。
對于問題類型識別任務,JointBERT使用第一位[CLS]用來預測,使用[CLS]位的隱藏狀態(tài)h_1,其預測過程如式(1)所示
y_1=softmax(W^1 h_1+b^1) (1)
對于問題片段識別任務,利用X_2,…,X_T的隱藏狀態(tài)進行預測,其預測過程如公式(2)所示
y_n^'=softmax(W^2 h_n+b^2),n∈2,…,T (2)
式中:h_n是字符x_n的對應的BERT的隱藏狀態(tài)。
利用CRF捕捉標簽間的依賴關系全局優(yōu)化標注序列,公式如式(3)所示
y_n=CRF(y_n^'),n∈2,…,T (3)
最后為了聯(lián)合上述兩項任務,最大化條件概率p(Y|X),如公式(4)所示
p(Y|X)=p(y_1 |x_1)∏_(n=2)^T?〖p(y_n |x_n)〗 (4)
2.3.2 識別實驗
本實驗采用JointBERT模型解決Complex_CMRC數(shù)據(jù)集中復雜問題的類型識別和問題片段識別的聯(lián)合任務,將整體數(shù)據(jù)集中的1 000條問題數(shù)據(jù)按照6∶2∶2的比例劃分為訓練集、驗證集、測試集。
(1) 實驗參數(shù)設置
采用Python3.6和Pytorch1.6框架,Batch size設置為32,學習率Learning rate設置為5e-5,Dropout rate設置為0.1,序列最大長度Max sequence length設置為100,Epoch設置為20。
(2) 實驗評價指標
問題分類和問題片段序列標注的評價指標分別是正確率ACC和F1值。
(3) 實驗結果
在測試集上的分類結果和問題片段識別結果如表3所示。
從表3可見,利用JointBERT模型進行上述聯(lián)合識別任務效果良好,問題類型分類正確率高達99.22%,問題片段標注的F1值也達到了92.20%的效果。這說明JiontBERT模型的有效性和問題分解的可行性,為下一步問題分解奠定了良好的基礎。
2.4 基于規(guī)則的問題分解
2.4.1 問題分解規(guī)則設計
問題分解規(guī)則是在充分分析和總結復雜問題的結構特點的基礎上,基于問題類型信息和對各類問題片段的序列標注結果,由人工建立的。由于篇幅所限,下面僅以最簡單的Bridge型問題和Boolean型問題的分解規(guī)則為例進行說明。
Bridge型問題和Boolean型問題的分解規(guī)則如下:
(1) 得到以“B-OBJ”標簽開始,以“E-OBJ”標簽結束的標簽序列對應的問題片段,在后面添加疑問詞“叫什么名字?”,構成子問題1。
(2) 將子問題1的答案標記成[ANS1],與E-OBJ后的問題剩余部分拼接得到子問題2。
關鍵是正確標注出句中的實體片段,這樣就可以利用上面規(guī)則把問題分解為子問題。其他問題類型的分解規(guī)則要更復雜一些,要用到一些不同的問題片段,如時間片段,數(shù)字片段等。
2.4.2 實驗結果與分析
實驗結果使用問題分解的子問題正確率為評價指標。對于同一問題,問題分解結果可以不唯一,只要合理就可以,但這樣會造成實驗結果的自動評價比較困難。因此,對規(guī)則分解結果是采用人工檢查的方式進行對錯判斷和正確率計算,實驗結果如表4所示。
通過表4實驗結果可以看到,問題的平均分解正確率達到91.3%,取得了較好的結果,驗證了分解規(guī)則的有效性。另外,子問題數(shù)量也對問題分解的正確率產生影響,分解子問題少的Bridge型和Boolean型問題,正確率最高達到94%以上;但分解子問題相對越多的問題,分解正確率就越低;最低的是要分解4個子問題的Arithmetic2型問題,正確率是84.3%。
3 基于預訓練模型的問題求解
3.1 模型描述
在問題分解的基礎上,按問題類型不同利用BERT預訓練模型來組織和回答多個簡單子問題,最終獲得復雜問題的答案,也就是最后一個子問題的答案。不同問題類型,基于預訓練模型BERT進行問題求解的過程如下:
(1) Bridge型問題
ANS1=BERT(q1,T) ANS2=BERT(q2(ANS1),T)
(2) Boolean型問題
ANS1=BERT(q1,T) ANS2=BERT(q2(ANS1),T)
(3) Comparison型問題
ANS1=BERT(q1,T) ANS2=BERT(q2(ANS1),T) ANS3=BERT(q3(ANS2))
(4) Union型問題
ANS1=BERT(q1,T) ANS2=BERT(q2,T) ANS3=BERT(q3(ANS1,ANS2),T)
(5) Arithmetic1型問題
ANS1=BERT(q1,T) ANS2=BERT(q2,T) ANS3=BERT(q3(ANS1,ANS2))
(6) Arithmetic2型問題
ANS1=BERT(q1,T) ANS2=BERT(q2(ANS1),T)
ANS3=BERT(q3(ANS1),T) ANS4=BERT(q4(ANS2,ANS3))
式中:T表示文章;qi表示第i個子問題;ANSi表示第i個子問題的答案;BERT表示預訓練模型。對于給定的qi和T,通過BERT預訓練模型得到答案ANSi。
3.2 問題求解實驗
3.2.1 實驗語料與模型
實驗將使用中文閱讀理解數(shù)據(jù)集CMRC2018和中文司法評測數(shù)據(jù)集CAIL2020進行微調,使用與問題分解實驗中同樣的Complex CMRC數(shù)據(jù)集的測試集作為測試語料。
作為子問題求解的預訓練模型,本實驗采用了哈爾濱工業(yè)大學開源的6個BERT系列的中文預訓練模型:BERT、BERT-wwm[13]、BERT-wwm-ext[13]、MacBERT[14]、Roberta[15]和RoBERTa-wwm-ext[13]。
BERT是基準模型,本實驗中選擇BERT-Base-Chinese為基準測試模型,預訓練任務為掩碼語言模型(Masked Language Model,MLM)和下一句子預測(Next Sentence Prediction,NSP)。其他模型都是在此基礎上得到,例如:wwm表示采用了全詞掩蓋代替字掩蓋;ext表示擴展了訓練語料庫中文維基百科的語料,加入了其他百科、新聞、問答等語料數(shù)據(jù);MacBERT和Roberta都對模型的訓練進行了一些改變。
3.2.2 實驗設置
實驗采用Python3.6,Pytorch1.6.0框架,微調訓練參數(shù)設置如下:
CAIL2020數(shù)據(jù)集上Batch size=32,Learning rate=1e-5,Dropout rate=0.1,Max sequence length=512,Epoch number=10;CMRC2018數(shù)據(jù)集上Batch size=32,Learning rate =3e-5,Dropout rate=0.1,Max sequence length=512,Epoch number=2。
3.2.3 實驗評價指標
實驗評價指標分為3部分,分別是問題答案評價指標、支持事實評價指標、聯(lián)合評價指標。
問題答案評價指標包括答案精確匹配ANS EM、答案F1值ANS F1。ANS EM將模型預測的問題答案直接以字符串形式與標準答案進行比較,完全相同為1,否則為0。ANS F1是問題答案準確率ANS Precision和問題答案召回率ANS Recall的調和平均數(shù)。具體定義公式如式(5)、(6)和(7)所示
ANS Precision=
正確答案與預測答案重合的字符數(shù)量/預測答案的字符數(shù)量×100% (5)
ANS Recall=
正確答案與預測答案重合的字符數(shù)量/正確答案的字符數(shù)量×100% (6)
ANS F1=
(2×ANS Precision×ANS Recall)/(ANS Precision+ANS Recall)×100% (7)
支持事實評價指標包括支持事實精確匹配Sup EM、支持事實F1值Sup F1;計算公式與問答答案評價指標計算公式相似,只是將字符數(shù)量更改成支持事實集合的長度。
由于分解問題模型將復雜問題分解為多個子問題,回答每一個子問題都會得到該子問題Sup EM和Sup F1,因此為了得到通過分解模型回答復雜問題的支持事實評價指標,將復雜問題分解出的每一個子問題的Sup EM和Sup F1分別加權計算。將第i個子問題的支持事實精確匹配記為Sup EM_i;將第i個子問題的支持事實準確率記為Sup Precision_i;將第i個子問題的支持事實召回率記為Sup Recall_i,復雜問題可以分解為n個子問題。計算公式如式(8)、(9)、(10)和(11)所示
Sup EM=(∑_(i=1)^n?〖Sup EM_i 〗)/n×100% (8)
Sup Precision= (∑_(i=1)^n?〖Sup Precision_i 〗)/n×100% (9)
Sup Recall= (∑_(i=1)^n?〖Sup Recall_i 〗)/n×100% (10)
Sup F1= (2×Sup Precision·Sup Recall)/(Sup Precision+Sup Recall)×100% (11)
聯(lián)合評價指標包括聯(lián)合精確匹配Joint" EM和聯(lián)合F1值Joint F1。Joint" EM是將答案精確匹配值ANS EM與支持事實精確匹配值Sup EM相乘得到;將第i個子問題的答案精確匹配記為ANS EM_i;將第i個子問題的支持事實精確匹配記為Sup EM_i;將第i個子問題的聯(lián)合精確匹配記為Joint EM_i,具體公式如式(12)所示
Joint" EM_i=ANS EM_i·Sup EM_i (12)
將每一個子問題的聯(lián)合精確匹配值相加得到最終的聯(lián)合精確匹配值 Joint EM,具體公式如(13)所示
Joint EM=∑_(i=1)^n?〖Joint EM_i 〗 (13)
第i個子問題的聯(lián)合F1值Joint F_i是該子問題的聯(lián)合準確率Joint Precision_i和聯(lián)合召回率Joint Recall_i的調和平均數(shù)。將第i個子問題的答案準確率、答案召回率、支持事實準確率、支持事實召回率分別記為ANS Precisioni、ANS Recalli、Sup Precisioni、Sup Recalli,具體公式如式(14)、(15)和(16)所示
Joint Precisioni=ANS Precisioni·Sup Precisioni
(14)
Joint Recalli=ANS Recalli·Sup Recalli (15)
Joint F1i=(2×Joint Precision_i" · Joint Recall_i)/(Joint Precision_i+Joint Recall_i )×100% (16)
將每一個子問題的聯(lián)合F1值相加得到最終的聯(lián)合精確匹配值Joint F1,具體公式如(17)所示
Joint F1=∑_(i=1)^n?〖Joint F1_i 〗 (17)
3.2.4 實驗結果與分析
表5是問題求解的實驗結果。其中給出了6個BERT系列中文預訓模型,分別是使用和不使用問題分解方法的實驗結果,Origin表示沒有使用問題分解,Decomposed表示使用了問題分解的模型。
通過實驗結果可以看出,使用問題分解模型對回答復雜問題的效果更好,準確率更高,6個模型的聯(lián)合評價指標都得到了顯著提升,平均聯(lián)合精確匹配指標Joint EM提高8%,聯(lián)合F1值Joint F1指標提高4.79%,驗證了基于問題分解方法的有效性。
基于問題分解的BERT-wwm-ext_Decomposed和Roberta-wwm-ext-Decomposed模型表現(xiàn)突出,前者獲Joint_F1最高值0.388 7,Joint EM第二高0.253 1;后者獲Joint EM最高值0.254 1,Joint F1第二高0.386 8。二者模型在使用BERT和Roberta的基礎上使用了全詞掩蓋代替字掩蓋的方式,并利用了其他百科、新聞、問答等語料數(shù)據(jù)進行訓練,能相對準確地定位問題答案和找到答案的支持事實句子。
4 結論
本文針對當前面向中文的MHRC研究不足的現(xiàn)狀,開發(fā)了一個面向復雜問題的中文MPRC數(shù)據(jù)集Complex CMRC,包括368篇文章、1 000個問題。同時在對已有問題分類工作的歸納基礎上,設計了6種復雜問題類型。提出了一種基于問題分解的中文MHRC方法。該方法分為問題分解和問題求解兩個階段:首先提出了一種融合JointBERT模型和規(guī)則的復雜問題分解方法,通過JointBERT模型對問題類型識別和問題片段識別進行聯(lián)合建模,獲得準確的問題類型(正確率為99.22%)和問題片段信息(F1值為92.2%),再利用問題分解規(guī)則將復雜問題分解為多個簡單子問題(正確率為91.3%);然后在多個預訓練模型上對所有子問題進行迭代求解,最終獲得復雜問題的答案。實驗表明,6個模型的聯(lián)合評價指標都得到了顯著提升,平均Joint EM提高8%,Joint F1提高4.79%,驗證了提出方法的有效性。
本文是對中文MHRC的一次探索,還有許多可改進和優(yōu)化的地方。下一步工作將擴展Complex CMRC數(shù)據(jù)集規(guī)模,進一步完善問題分解規(guī)則,采用更有效的子問題求解模型和方法。
參考文獻(References):
[1] Yang Z,Qi P,Zhang S Z,et al.HotpotQA:a dataset for diverse,explainable multi?hop question answering[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.Stroudsburg,USA:Association for Computational Linguistics,2018:2369-2380.
[2] Min S,Zhong V,Zettlemoyer L,et al.Multi-hop reading comprehension through question decomposition and rescoring[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,USA:Association for Computational Linguistics,2019:6097-6109.
[3] Min S,Wallace E,Singh S,et al.Compositional questions do not necessitate multi?hop reasoning[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,USA:Association for Computational Linguistics,2019:4249-4257.
[4] Perez E,Lewis P,Yih W T,et al.Unsupervised question decomposition for question answering[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).Stroudsburg,USA:Association for Computational Linguistics,2020:8864-8880.
[5] Hasson M,Berant J.Question decomposition with dependency graphs[EB/OL].(2021-04-17)[2021-10-23].https://arxiv.org/abs/2104.08647.
[6] Zhang H Y,Cai J J,Xu J J,et al.Complex question decomposition for semantic parsing[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,USA:Association for Computational Linguistics,2019:4477-4486.
[7] Gao Y J,Huang T H,Passonneau R J.ABCD:a graph framework to convert complex sentences to a covering set of simple sentences[C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing.Stroudsburg,USA:Association for Computational Linguistics,2021:3919-3931.
[8] Qi P,Lin X W,Mehr L,et al.Answering complex open-domain questions through iterative query generation[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP).Stroudsburg,USA:Association for Computational Linguistics,2019:2590-2602.
[9] Cui Y M,Liu T,Che W X,et al.A span?extraction dataset for Chinese machine reading comprehension[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP).Stroudsburg,USA:Association for Computational Linguistics,2019:5882-5888.
[10] Wolfson T,Geva M,Gupta A,et al.Break it down:a question understanding benchmark[J].Transactions of the Association for Computational Linguistics,2020,8:183-198.
[11] Chen Q,Zhuo Z,Wang W.BERT for joint intent classification and slot filling[EB/OL].(2019-02-28)[2021-05-28].https://arxiv.org/abs/1902.10909v1.
[12] McCallum A.Efficiently inducing features of conditional random fields[C]//Proceedings of the Nineteenth conference on Uncertainty in Artificial Intelligence.New York,USA:ACM,2002:403-410.
[13] Cui Y M,Che W X,Liu T,et al.Pre-training with whole word masking for Chinese BERT[J].Institute of Electrical and Electronics Engineers,2021(29):3504-3514.
[14] Cui Y M,Che W X,Liu T,et al.Revisiting pre-trained models for Chinese natural language processing[EB/OL].(2020-04-29)[2021-10-20].https://arxiv.org/abs/2004.13922.
[15] Liu Y H,Ott M,Goyal N,et al.RoBERTa:a robustly optimized BERT pretraining approach[EB/OL].(2019-07-26)[2021-08-16].https://arxiv.org/abs/1907.11692.
(責任編輯:劉劃" 英文審校:杜文友)