楊陟卓,韓 暉,張 虎,錢揖麗,李 茹,2
(1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006)
機(jī)器閱讀理解的目標(biāo)是讓機(jī)器像人類一樣閱讀文本,提煉文本信息并準(zhǔn)確回答相關(guān)問題。目前,機(jī)器閱讀理解作為自然語言處理的核心領(lǐng)域,借助于深度學(xué)習(xí)技術(shù)獲得了快速發(fā)展,成為學(xué)術(shù)界研究的焦點(diǎn)。
閱讀理解從題型上劃分可以分為選擇題、填空題、問答題三大類型。其中,填空題的數(shù)據(jù)集代表有CNN/Daily Mail、漢語PeopleDaily/CFT等;選擇題的數(shù)據(jù)集代表有MCTest、RACE等;而問答題的數(shù)據(jù)集代表有SQuAD、DuReader和CMRC等。上述問答題數(shù)據(jù)集中的問題較簡(jiǎn)單,而高考語文閱讀理解的問題較為復(fù)雜,背景材料相對(duì)較長(zhǎng)且答案具有較強(qiáng)的隱藏性。通??疾炜忌Y選并整合文中關(guān)鍵信息的能力,必須對(duì)問題和全文信息進(jìn)行深度理解和推理才能獲取正確答案。高考語文閱讀理解中問答題樣例如表1所示。
表1 2018年北京高考語文閱讀理解問答題
近年來,隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展和廣泛應(yīng)用,機(jī)器閱讀理解能力有了大幅提高。深度學(xué)習(xí)模型的優(yōu)勢(shì)在于能夠自動(dòng)捕獲文本的有效信息,使得問答系統(tǒng)中很多語義鴻溝問題得到一定程度的改善或解決。端到端的深度學(xué)習(xí)模型減輕了人工標(biāo)注的大量工作,靈活多變的深度網(wǎng)絡(luò)結(jié)構(gòu)提供了強(qiáng)大的文本建模能力。 但是,直接將這些模型應(yīng)用在高考任務(wù)中存在以下不足:
(1) 沒有對(duì)高考閱讀理解問句進(jìn)行預(yù)處理。問句存在文字冗余,給解題帶來干擾信息。
(2) 閱讀理解背景材料篇幅普遍較長(zhǎng),沒有對(duì)材料進(jìn)行預(yù)篩選,存在非答案區(qū)域的冗余段落。
(3) 只能作答一些簡(jiǎn)單、具體的問題,對(duì)于復(fù)雜、抽象以及答案片段分散的問題,仍然無法解決。
本文針對(duì)高考閱讀理解問答題的特點(diǎn),首先對(duì)問句進(jìn)行簡(jiǎn)化處理,去除與題干信息無關(guān)的詞語。其次,設(shè)立答案段落評(píng)價(jià)機(jī)制,刪除非答案區(qū)域的段落。然后,采用BERT預(yù)訓(xùn)練語言模型獲取句子的特征表示,使用邏輯回歸模型對(duì)候選句進(jìn)行抽取,獲得多個(gè)分散的答案片段。最后,借助融合問句信息的PageRank算法對(duì)BERT的輸出結(jié)果進(jìn)行重排序,選取排序分?jǐn)?shù)較高的候選句作為答案句。
目前,在閱讀理解問答任務(wù)中,主要有基于檢索匹配和基于深度學(xué)習(xí)兩大研究方向。最早的基于檢索匹配的方法有基于詞語共現(xiàn)或TF-IDF等方法。隨后,為獲得語句更深層的語義信息,出現(xiàn)了HowNet[1]、FrameNet[2]、Chinese FrameNet[3]、同義詞詞林[4]等語義資源計(jì)算候選句相似度。文獻(xiàn)[5]提出將問題和候選句的語義角色標(biāo)注結(jié)果表示成樹狀結(jié)構(gòu),用樹核的方法計(jì)算語義結(jié)構(gòu)相似度。文獻(xiàn)[6]基于框架語義提出利用框架篇章關(guān)系、框架關(guān)系及有定零形式線索三個(gè)語義特征來進(jìn)行答案句的抽取。文獻(xiàn)[7]利用語法、框架、語義三方面的特征提高機(jī)器閱讀理解的性能。文獻(xiàn)[8]利用框架語義以及引入流行排序?qū)Υ鸢妇溥M(jìn)行抽取。
基于深度學(xué)習(xí)的方法,文獻(xiàn)[9]通過指針網(wǎng)絡(luò)對(duì)答案的開始位置和結(jié)束位置進(jìn)行預(yù)測(cè)。文獻(xiàn)[10]對(duì)文章和問題進(jìn)行編碼, 通過雙向注意力機(jī)制來提升效果。文獻(xiàn)[11]提出了動(dòng)態(tài)迭代和雙注意力機(jī)制,可以同時(shí)對(duì)文章和問題使用注意力機(jī)制, 并通過迭代預(yù)測(cè)來提升模型效果。為了獲得更多細(xì)節(jié)信息,文獻(xiàn)[12]提出了一個(gè)多層網(wǎng)絡(luò)結(jié)構(gòu)R-Net,分別從四個(gè)層面對(duì)MRC任務(wù)進(jìn)行建模,效果率先超越了人類水平。為了更深入挖掘問句信息,文獻(xiàn)[13]提出將問題類型和問題主題、問題焦點(diǎn)這三種問題特征融入QU-NNs模型。2018年,自然語言領(lǐng)域的研究人員研究出一種新的預(yù)訓(xùn)練模型架構(gòu)。該架構(gòu)在大規(guī)模語料上進(jìn)行無監(jiān)督的訓(xùn)練模型,完成訓(xùn)練后針對(duì)不同的下游任務(wù)進(jìn)行特定的有監(jiān)督訓(xùn)練任務(wù)。ELMO[14]、OpenAI GPT[15]和BERT[16]都是預(yù)訓(xùn)練模型,隨著BERT等模型的興起,單段落的簡(jiǎn)單閱讀理解任務(wù)取得了重大突破[17-19]。隨后,研究者將目光轉(zhuǎn)向更能體現(xiàn)機(jī)器智能的“多跳”和“復(fù)雜”情形。文獻(xiàn)[20]提出一種基于認(rèn)知圖譜問答(CogQA)框架:該方法使用兩個(gè)系統(tǒng)來維護(hù)一張認(rèn)知圖譜(Cognitive Graph),系統(tǒng)一在文本中抽取與問題相關(guān)的實(shí)體名稱并擴(kuò)展節(jié)點(diǎn)和匯總語義向量,系統(tǒng)二利用圖神經(jīng)網(wǎng)絡(luò)在認(rèn)知圖譜上進(jìn)行推理計(jì)算。該方法在HotpotQA數(shù)據(jù)集上取得了良好的效果。文獻(xiàn)[21]提出了一種基于框架的句子表示方法,該方法利用框架以及框架之間的關(guān)系對(duì)句子進(jìn)行注意力建模,可以得到更好的句子表示,提高閱讀理解任務(wù)上的效果。
絕大多數(shù)深度學(xué)習(xí)模型都應(yīng)用在普通問答任務(wù)中,只能預(yù)測(cè)答案句的起始位置和結(jié)束位置。但是高考問答的答案區(qū)間都不是連續(xù)的,通常由5至6個(gè)組成。同時(shí),高考問答任務(wù)中閱讀理解材料篇章較長(zhǎng),不能將所有句子都輸入。傳統(tǒng)的深度學(xué)習(xí)模型無法直接應(yīng)用在高考問答任務(wù)中。此外,高考問答任務(wù)的復(fù)雜性以及訓(xùn)練數(shù)據(jù)的匱乏也是制約深度學(xué)習(xí)模型應(yīng)用的關(guān)鍵性因素。因此,本文提出一種融合Bert語義表示的高考語文閱讀理解問答方法,該方法可以融合Bert模型和圖模型的優(yōu)勢(shì),對(duì)高考語文中的復(fù)雜問題進(jìn)行語義表示、語義計(jì)算,有效建立抽象的問句與隱藏的候選句之間的關(guān)聯(lián),對(duì)答案區(qū)間較為分散的復(fù)雜問題進(jìn)行分析和推理。
本文將高考問答題的解答形式化定義為: 給定一個(gè)問題s0和一篇材料D={s1,s2,…,si},si表示閱讀材料中的第i個(gè)句子。本文的目標(biāo)是從篇章材料D中抽取與問題最相關(guān)的片段A*={a1,a2,…,a6},其中ak為D中的一個(gè)句子, 在D中答案句之間連續(xù)或不連續(xù)。
首先,對(duì)材料進(jìn)行預(yù)處理,包括將問句精簡(jiǎn)、背景材料切句。其次,采用段落評(píng)價(jià)機(jī)制對(duì)非答案區(qū)域的冗余段落進(jìn)行剔除。第三,利用BERT模型抽取答案句,形成Top-15答案候選句集。第四,通過PageRank算法對(duì)上一步的答案候選句集合進(jìn)行重排序,最終選取排序較高的Top-6,作為答案句集。具體問答系統(tǒng)流程如圖1所示。
圖1 問答系統(tǒng)流程圖
相比普通問句,高考問句長(zhǎng)度普遍較長(zhǎng),句中的詞語修飾關(guān)系非常復(fù)雜,存在很多對(duì)解題很關(guān)鍵卻是非重要成分的詞語。例如,表1中的問題“簡(jiǎn)要說明人類對(duì)人工智能的認(rèn)識(shí)是如何不斷深化的”,利用依存句法分析工具[22]找出該句最重要的語法成分,包括“說明”“認(rèn)識(shí)”“是”和“深化”。發(fā)現(xiàn)這些詞語對(duì)解題的幫助較小,而“人工智能”“不斷”“深化”才是解決問答題的關(guān)鍵。因此,本文建立面向高考問答的問句停用詞表,剔除問句中的非關(guān)鍵信息,保留單句中所有的句子成分,如表2所示。
表2 停用詞表及問句精簡(jiǎn)
在高考語文閱讀理解問答題任務(wù)中,答案大多集中在文中的一段或幾段。背景材料中存在很多與解題要點(diǎn)無關(guān)的內(nèi)容,這些內(nèi)容會(huì)對(duì)深度學(xué)習(xí)模型帶來較多的干擾,降低系統(tǒng)答題的召回率和準(zhǔn)確率。針對(duì)這個(gè)問題,本文提出基于MMR的篇章段落質(zhì)量評(píng)價(jià)機(jī)制,結(jié)合背景材料和問題,剔除每篇材料中與解題無關(guān)的段落。MMR算法又叫最大邊界相關(guān)算法,此算法在設(shè)計(jì)之初是用來計(jì)算查詢?cè)~與被搜索文檔之間的相似度。本文在MMR算法基礎(chǔ)上,添加了問句與材料句的相關(guān)度因素。首先,將能夠代表段落的句子抽出,計(jì)算如式(1)所示。
(1)
其中,sim(s0,si)表示篇章段落中的某個(gè)句子si與問句s0的相關(guān)度,sim(Di,si)表示si與句子所在整個(gè)段落Di的相關(guān)度,sim(si,sj)表示si與段落Dj抽取出的句子sj的相關(guān)度,β1,β2用于調(diào)節(jié)式(1)中三個(gè)部分的權(quán)重。其中,前兩項(xiàng)指的是待抽取句子和問句與整篇文檔的相關(guān)程度,第三項(xiàng)指的是待抽取句子和已抽取句子的相關(guān)程度。最終的目標(biāo)是抽取出的句子既與問句相關(guān),又能表達(dá)整個(gè)段落的含義,同時(shí)具備多樣性。其次,將各個(gè)段落的句子SDi與問句s0進(jìn)行相關(guān)度計(jì)算,返回需要剔除的段落索引Dindex,計(jì)算如式(2)所示。
(2)
本文利用Word2Vec[23]計(jì)算句子與句子、句子與段落的相關(guān)度。首先對(duì)句子進(jìn)行分詞,去停用詞,利用Word2Vec輸出的詞向量加權(quán)求和構(gòu)造句子向量或段落向量,每個(gè)詞向量的權(quán)重為詞在材料中的TF-IDF值,最后利用余弦相似度公式計(jì)算各個(gè)向量的相關(guān)度,計(jì)算如式(3)所示。
(3)
其中,VS表示問句的詞向量,Vq表示句子或者段落的特征詞向量。
與之前的其他語言模型不同,BERT(Bidirectional Encoder Representations from Transformers)通過調(diào)節(jié)所有層中的上下文來進(jìn)行深度雙向的預(yù)訓(xùn)練。原始的BERT只能預(yù)測(cè)連續(xù)的答案區(qū)間,而通過統(tǒng)計(jì)高考題發(fā)現(xiàn),絕大多數(shù)高考題的答案區(qū)間是分散的。此外BERT模型的輸入最大長(zhǎng)度為512個(gè)字符,無法將完整的高考閱讀理解背景材料全部讀入,因此原始的BERT模型不適用于高考閱讀理解問答任務(wù)。為了克服原始BERT模型的缺點(diǎn),本文利用改進(jìn)的BERT模型對(duì)候選句是否為答案句的概率進(jìn)行預(yù)測(cè)。
改進(jìn)的BERT模型抽取答案候選句總體結(jié)構(gòu)如圖2所示。BERT模型的輸入: 每個(gè)句子首部都會(huì)添加一個(gè)特殊符號(hào)“[CLS]”。為了對(duì)不同的句子進(jìn)行區(qū)分,在輸入序列中在每個(gè)句子的末尾加入特殊符號(hào)“[SEP]”。由于本文的任務(wù)是進(jìn)行閱讀理解問答,因此輸入序列是由兩個(gè)句子組成的句子對(duì),即問句-答案候選句。BERT模型的輸出是經(jīng)過多層編碼器對(duì)應(yīng)的融合問句和答案候選句信息的語義表示。
圖2 BERT模型抽取候選句
BERT模型的核心是Transform,在Transformer中摒棄了RNN的循環(huán)式網(wǎng)絡(luò)結(jié)構(gòu),完全基于注意力機(jī)制來對(duì)一段文本進(jìn)行建模,其中最主要的模塊是自注意力部分。假設(shè)文本序列輸入問句和候選句向量為F=([CLS],E1,E2,…,EN,[SEP],E1,E2,…,EM,[SEP]),對(duì)于序列中的每個(gè)字,會(huì)對(duì)應(yīng)三個(gè)向量,Query向量(Q)、Key向量(K)和Value向量(V)。輸入序列中每個(gè)向量的重要程度Xscore由Query向量和Key向量相乘得到,計(jì)算如式(4)所示。
Xscore=Q·K
(4)
attention值通過使用softmax對(duì)Xscore做平滑而得,平滑后的結(jié)果與 Value 向量相乘,其中,dk為輸入向量維度,計(jì)算如式(5)所示。
(5)
之后將attention(Q,K,V)拼接在一起并做線性變換,再經(jīng)過殘差連接和層規(guī)范,得到最終的向量表征。
獲取到問句和答案候選句的特征向量表示后,輸入分類器中進(jìn)行分類處理。假設(shè)訓(xùn)練樣本為{(x1,y1,z),(x1,y2,z),…,(x1,yn,z);(x2,y1,z),(x2,y2,z),…,(x2,yn,z);…;(xi,y1,z),(xi,y2,z),…,(xi,yn,z)),其中,(xi,y1,z)表示試題中第i個(gè)問題對(duì)應(yīng)第n條候選句的類別z,z∈{0,1},z為1表示為答案句,z為0表示為非答案句。利用回歸模型輸出條件概率,概率最大的類別即為當(dāng)前樣本所屬的類別,計(jì)算如式(6)所示。
(6)
其中,hθ(x,y)表示回歸模型的判別函數(shù),θ0和θ1是模型參數(shù)。p(z|xi,yn)可以實(shí)現(xiàn)對(duì)候選句是否為答案句的概率值的預(yù)測(cè),選取概率較大的Top-15候選句作為BERT模型的輸出結(jié)果。
與普通閱讀理解任務(wù)相比,高考閱讀理解問答難度較大。此外,人工標(biāo)記的高考訓(xùn)練數(shù)據(jù)比較缺乏,但當(dāng)前訓(xùn)練數(shù)據(jù)的規(guī)模,不足以訓(xùn)練一個(gè)高效的深度學(xué)習(xí)模型。為了獲取更準(zhǔn)確的答案,本文對(duì)BERT模型的排序結(jié)果進(jìn)行重排序。使用PageRank算法對(duì)答案候選句的重要度進(jìn)行迭代計(jì)算。PageRank算法最早應(yīng)用于谷歌的網(wǎng)頁排序,判別網(wǎng)頁的重要性程度。原始的PageRank模型存在數(shù)量和質(zhì)量假設(shè)。與原始的PageRank模型不同。本文存在以下假設(shè):如果問句s0與某個(gè)候選句si之間的關(guān)聯(lián)較大,那么該候選句是答案句的概率較高,即PageRank值相對(duì)較高。為了獲取更好的排序效果,本文在原始PageRank算法的基礎(chǔ)上,添加了問句信息,形成融合問句信息的PageRank算法,計(jì)算如式(7)所示。
(7)
其中,PR(si)是候選句節(jié)點(diǎn)si的重要度,n表示句子數(shù),d為阻尼因子(0 (8) 其中,s0si表示問句s0和候選句si的相似度。矩陣中僅僅計(jì)算問句與候選句之間的相似度,而不同候選句之間以及候選句與自身的相似度記為0,保證候選句之間以及候選句自身的重要度不要相互增強(qiáng)。這是由于高考問答任務(wù)與其他任務(wù)不同,更注重問句s0與候選句si之間的關(guān)聯(lián),而與候選句si相關(guān)的其他候選句并不一定與問句s0有問答關(guān)系。如果將所有候選句之間的關(guān)聯(lián)都加入weight矩陣,反而會(huì)引入一部分噪聲。隨后,預(yù)先設(shè)定問句的重要度為1,其他候選句重要度為0,按照式(7)進(jìn)行迭代排序。經(jīng)多次迭代計(jì)算,所有句子的重要度不再發(fā)生變化,選取Top-6作為最終答案句。 本文采用的BERT模型在高考語文閱讀理解問答任務(wù)上進(jìn)行適應(yīng)性微調(diào),微調(diào)語料采用了各省高考真題 450套(不包含北京卷),包括大約兩萬對(duì)問題-答案句。訓(xùn)練和測(cè)試語料采用北京近10年的高考題10套和各省份高考模擬題80套,包括大約0.6萬對(duì)問題-答案句。 采用五倍交叉實(shí)驗(yàn),將訓(xùn)練和測(cè)試語料平均分成五份,使用其中一份作為測(cè)試集,其他四份作為訓(xùn)練集,重復(fù)五次實(shí)驗(yàn),取平均值作為最終結(jié)果。實(shí)驗(yàn)過程中查閱了高考語文問答題的評(píng)分規(guī)則,答中要點(diǎn)即得分。本文按照所給的標(biāo)準(zhǔn)答案,人工找到其在原文中所對(duì)應(yīng)的句子,標(biāo)記為答案句的集合A*,集合A*的大小就是答案句的句子數(shù)。SA是按照本文方法形成的Top-6句子的集合,本文實(shí)驗(yàn)結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)如式(9)~式(11)所示。 (11) BERT預(yù)訓(xùn)練模型是Google開源的BERT-base模型,網(wǎng)絡(luò)結(jié)構(gòu)一共12層,隱藏層有768維,采用12多頭注意力機(jī)制,學(xué)習(xí)率設(shè)置為0.000 04,迭代輪數(shù)epoch設(shè)置為10,批量大小Batch_size設(shè)置為128,輸入句子最大長(zhǎng)度為40。段落評(píng)價(jià)中,β1∶β2=0.4∶0.4,用來調(diào)節(jié)段落中句子間的影響。PageRank算法中,d=0.88,用來調(diào)節(jié)候選句節(jié)點(diǎn)間的影響。 3.3.1 不同方法實(shí)驗(yàn)結(jié)果比較 為了驗(yàn)證本文方法的有效性,同時(shí)與其他高考閱讀理解問答題解題方法進(jìn)行比較,本文將文獻(xiàn)[8]的方法(框架匹配)作為Baseline,該方法通過漢語框架網(wǎng)(CFN)召回答案句,然后利用流形排序算法對(duì)候選句進(jìn)行重排序。將原始的BERT模型記為BERT_1。該模型的輸入是問句和背景材料,模型的輸出是答案區(qū)間的起點(diǎn)和終點(diǎn)位置。為了克服原始BERT模型的缺點(diǎn),本文利用改進(jìn)的BERT模型對(duì)候選句是否為答案句進(jìn)行預(yù)測(cè),模型架構(gòu)如圖2所示。根據(jù)概率值對(duì)候選句進(jìn)行排序,排序靠前的候選句作為答案句,該模型記為BERT_2。所有方法在北京十年高考真題上進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表3所示。 表3 不同方法實(shí)驗(yàn)結(jié)果比較 從實(shí)驗(yàn)結(jié)果可以看出,BERT_1模型答題效果最差,因?yàn)樵撃P椭荒軜?biāo)記一個(gè)連續(xù)的答案區(qū)間,而高考題的答案區(qū)間通常有五六個(gè),其他的答案區(qū)間都沒有標(biāo)記。此外,對(duì)于具有較長(zhǎng)背景材料的高考問答題,該模型沒有將完整的文章讀入,影響了答題效果。當(dāng)僅使用BERT_2模型對(duì)候選句進(jìn)行抽取時(shí),答題效果優(yōu)于BERT_1模型,但是不及Baseline方法。當(dāng)對(duì)BERT_2模型加入各種策略(問句精簡(jiǎn)+段落評(píng)價(jià)+PageRank排序)后,本文的方法答題效果達(dá)到最優(yōu),召回率和準(zhǔn)確率分別達(dá)到61.2%和50.1%。首先,該方法對(duì)問句進(jìn)行精簡(jiǎn),使模型聚焦問句的關(guān)鍵信息,增強(qiáng)BERT模型對(duì)問句的理解。其次,利用段落評(píng)價(jià)對(duì)段落進(jìn)行評(píng)分篩選,壓縮包含正確答案區(qū)域的范圍,降低非答案段落對(duì)BERT模型解題的干擾。最后,利用PageRank算法對(duì)答案候選句進(jìn)行迭代排序,根據(jù)問句與候選句之間的關(guān)聯(lián)對(duì)候選句進(jìn)行重新排序,選擇迭代分?jǐn)?shù)較高的句子作為答案。從實(shí)驗(yàn)結(jié)果可以看出,本文提出的各種策略是切實(shí)有效的。PageRank排序?qū)蜻x句的抽取具有較大的提升作用,一方面BERT和Page-Rank模型分析和篩選候選句的原理不同。另一方面,PageRank模型利用Word2Vec計(jì)算句子之間的關(guān)聯(lián),而Bert模型和Word2Vec所采用的訓(xùn)練語料和訓(xùn)練方法也不同。因此PageRank模型可以彌補(bǔ)Bert模型訓(xùn)練不夠充分的缺點(diǎn),提升答題效果。 3.3.2 不同省份試題實(shí)驗(yàn)結(jié)果比較 為了測(cè)試本文所提出方法在其他省份高考閱讀理解問答題上的效果,將此方法和Baseline方法在其他省份高考閱讀理解問答題上進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如圖3所示。 圖3 不同省份模擬題的實(shí)驗(yàn)效果 通過實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),本文方法在各個(gè)省份模擬題上都比Baseline方法答題效果好。除此此外,兩種方法都在北京和各個(gè)省份的高考題上的答題效果略有差異,研究試題發(fā)現(xiàn): ①閱讀材料體裁不同: 北京高考為科技類文本,分為自然科學(xué)類與社會(huì)科學(xué)類。其他省份為時(shí)評(píng)、短評(píng)、書評(píng)、傳記、新聞、報(bào)告、科普文等。②考查難點(diǎn)不同: 北京地區(qū)問答題大多需要?dú)w納整合材料信息,別的省份模擬題大多考查對(duì)關(guān)鍵詞句的理解。③答案要點(diǎn)不同: 北京高考問答題的答案要點(diǎn)數(shù)量較多,其他省份高考問答題的答案要點(diǎn)數(shù)量相對(duì)較少。 3.3.3 不同參數(shù)對(duì)實(shí)驗(yàn)效果的影響 在段落評(píng)價(jià)方法中,存在參數(shù)β1和β2。β1表示句子與問句的相關(guān)度權(quán)重,β2表示句子與所在段落其他句子的相關(guān)度權(quán)重。本文比較了不同參數(shù)比值對(duì)實(shí)驗(yàn)效果的影響,如圖4所示??梢钥闯?,β1∶β2=0.4∶0.4時(shí),召回率最高,說明句子與段落、句子與問句的相關(guān)度對(duì)答案句的召回影響較大。 圖4 β1∶β2對(duì)實(shí)驗(yàn)效果的影響 在PageRank排序方法中,存在參數(shù)d平衡相近句子節(jié)點(diǎn)和初始句子節(jié)點(diǎn)對(duì)其他句子節(jié)點(diǎn)分?jǐn)?shù)的影響。本文比較了不同參數(shù)值對(duì)實(shí)驗(yàn)效果的影響,如圖5所示??梢钥闯鰀=0.88時(shí),召回率最高,表明臨近句子節(jié)點(diǎn)對(duì)答案候選句節(jié)點(diǎn)分?jǐn)?shù)的影響較大,初始分?jǐn)?shù)節(jié)點(diǎn)對(duì)候選句分?jǐn)?shù)的影響較小。 圖5 d對(duì)實(shí)驗(yàn)效果的影響 本文提出了融合BERT語義表示的高考語文閱讀理解答案句抽取方法,該方法首先利用段落評(píng)價(jià)機(jī)制刪除冗余段落,然后采用預(yù)訓(xùn)練模型BERT進(jìn)行答案句抽取,最后通過圖模型對(duì)候選句進(jìn)行排序。該方法可有效彌補(bǔ)BERT模型所面臨的數(shù)據(jù)稀疏問題,在一定程度上提高了答案句的召回率和準(zhǔn)確率。目前,高考題數(shù)據(jù)量偏少,針對(duì)高考閱讀理解問答任務(wù)的預(yù)訓(xùn)練模型還不夠完善。未來的工作中,我們一方面要利用數(shù)據(jù)增強(qiáng)的方法擴(kuò)充數(shù)據(jù),另一方面還要將語言學(xué)知識(shí)融入預(yù)訓(xùn)練模型中,逐步提升答題效果。3 實(shí)驗(yàn)
3.1 實(shí)驗(yàn)數(shù)據(jù)
3.2 模型參數(shù)設(shè)置
3.3 實(shí)驗(yàn)結(jié)果及分析
4 結(jié)束語