關(guān) 勇,呂國(guó)英,李 茹,2,3,郭少茹,譚紅葉
(1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2.山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006;3. 山西省大數(shù)據(jù)挖掘與智能技術(shù)協(xié)同創(chuàng)新中心,山西 太原 030006)
閱讀理解(reading comprehension,RC)作為問(wèn)答任務(wù)的一個(gè)重要分支,受到越來(lái)越多的關(guān)注[1-2]。閱讀理解式問(wèn)答系統(tǒng)是從一篇給定的背景材料中查找答案,要求系統(tǒng)在“閱讀”完一篇材料后,根據(jù)對(duì)材料的“理解”給出問(wèn)題的答案[3]。
高考語(yǔ)文閱讀理解中,背景材料相對(duì)較短且極具隱藏性,答案可能無(wú)法在背景材料中直接找到,因此,更注重考查機(jī)器對(duì)文章理解和概括的能力。高考語(yǔ)文閱讀理解科技文分為選擇題和問(wèn)答題兩大題型。選擇題題型劃分為五種,分別為“文意理解”、“觀點(diǎn)支持”、“擬寫(xiě)標(biāo)題”、“指代消解”和“補(bǔ)寫(xiě)句子”[4]。目前,選擇題主要針對(duì)“文意理解”、“觀點(diǎn)支持”類(lèi)題目展開(kāi)研究,解答這兩類(lèi)題目需要通過(guò)對(duì)與選項(xiàng)相關(guān)句子或片段的理解選出答案。標(biāo)題選擇題目的解答則需要對(duì)整個(gè)篇章進(jìn)行理解概括,分析標(biāo)題與篇章的相關(guān)性,進(jìn)而選出答案。
篇章標(biāo)題選擇類(lèi)題目可形式化描述為: 篇章、題干和選項(xiàng)三元組
針對(duì)高考語(yǔ)文閱讀理解科技文篇章標(biāo)題選擇類(lèi)題目,本文提出基于標(biāo)題與篇章要點(diǎn)相關(guān)性分析模型。該模型構(gòu)建了基于標(biāo)題與篇章要點(diǎn)的相關(guān)度矩陣(2.1節(jié)),并融入標(biāo)題結(jié)構(gòu)特征(2.2節(jié))進(jìn)一步優(yōu)化模型。在全國(guó)近10年高考真題和測(cè)試題上進(jìn)行實(shí)驗(yàn),對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,最后對(duì)本文工作進(jìn)行總結(jié)。
表1 篇章標(biāo)題選擇題目示例
針對(duì)閱讀理解任務(wù)提出的相關(guān)技術(shù)可以分為兩種: 基于特征的方法[5-7]和基于深度學(xué)習(xí)的方法[8-11]。
基于特征的方法通常使用特征工程、語(yǔ)言工具、外部資源等來(lái)解決這類(lèi)問(wèn)題。文獻(xiàn)[3]針對(duì)高考語(yǔ)文閱讀理解文意理解類(lèi)題型,提出一種多維度投票算法。該算法將Word2Vec、HowNet、詞袋模型、框架語(yǔ)義場(chǎng)景四個(gè)方面作為度量標(biāo)準(zhǔn),運(yùn)用投票算法的思想,選取最佳答案。文獻(xiàn)[4]針對(duì)高考語(yǔ)文閱讀理解題干支持類(lèi)題目,通過(guò)對(duì)篇章、題干、選項(xiàng)三者的關(guān)系進(jìn)行建模,制定聯(lián)合打分函數(shù),加入句子相似度特征、反義匹配特征、否定特征三個(gè)語(yǔ)義特征信息,提出基于題干與選項(xiàng)一致性判別模型。文獻(xiàn)[12]提出一種答案蘊(yùn)含策略,把問(wèn)題、正確選項(xiàng)和文章之間的關(guān)系用一個(gè)答案蘊(yùn)含結(jié)構(gòu)表達(dá),通過(guò)模型獲得該答案蘊(yùn)含結(jié)構(gòu),選出正確選項(xiàng)。
基于深度學(xué)習(xí)的方法主要是通過(guò)構(gòu)建神經(jīng)網(wǎng)絡(luò)模型。在基于詞向量表示基礎(chǔ)上,利用深度神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)句子的向量表示,然后把任務(wù)轉(zhuǎn)換成分類(lèi)或排序問(wèn)題。文獻(xiàn)[13]針對(duì)MCtest數(shù)據(jù)集機(jī)器理解任務(wù),構(gòu)建一個(gè)基于Attention機(jī)制的分層的卷積神經(jīng)網(wǎng)絡(luò)模型。通過(guò)對(duì)文章、問(wèn)題、答案進(jìn)行建模,發(fā)現(xiàn)與回答問(wèn)題相關(guān)的關(guān)鍵短語(yǔ)、關(guān)鍵句和關(guān)鍵片段。文獻(xiàn)[14]針對(duì)閱讀理解任務(wù)提出一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)模型,學(xué)習(xí)詞和短語(yǔ)的向量表示進(jìn)行實(shí)體推理,用邏輯回歸分類(lèi)器對(duì)篇章預(yù)測(cè)類(lèi)別,類(lèi)別標(biāo)簽就是問(wèn)題的答案。文獻(xiàn)[15]基于分布式表達(dá)的思想,將問(wèn)題與候選答案都映射到一個(gè)分布式的語(yǔ)義表達(dá)中,然后,基于二者的表達(dá)來(lái)學(xué)習(xí)問(wèn)題與候選答案的匹配程度。
基于特征的方法需要人工構(gòu)建不同的特征,耗費(fèi)大量的時(shí)間,而基于端到端的神經(jīng)網(wǎng)絡(luò)模型雖然可以自動(dòng)學(xué)習(xí)特征,但是由于數(shù)據(jù)的稀疏性、問(wèn)題的復(fù)雜性,效果提升不是很明顯。因此,本文結(jié)合基于特征的方法和神經(jīng)網(wǎng)絡(luò)的方法,提出標(biāo)題與篇章要點(diǎn)相關(guān)性分析模型。
篇章由不同的段落組成,篇章各段落涉及不同的要點(diǎn)內(nèi)容,標(biāo)題是對(duì)篇章中各要點(diǎn)內(nèi)容的高度理解概括。恰當(dāng)?shù)臉?biāo)題覆蓋篇章各個(gè)要點(diǎn)內(nèi)容,如何判斷標(biāo)題對(duì)各要點(diǎn)的覆蓋程度是解決標(biāo)題選擇題的關(guān)鍵問(wèn)題。針對(duì)此問(wèn)題,提出了標(biāo)題與篇章要點(diǎn)相關(guān)度矩陣。矩陣由選項(xiàng)和篇章要點(diǎn)相似度組成,行表示選項(xiàng)與各篇章要點(diǎn)相似度值,列表示篇章要點(diǎn)與各選項(xiàng)相似度值。根據(jù)相關(guān)度矩陣選取覆蓋篇章要點(diǎn)內(nèi)容最全面的一項(xiàng)作為最恰當(dāng)?shù)臉?biāo)題。圖1為2015年北京高考題(第三題)相關(guān)度矩陣示意圖。矩陣維度為4*5,分別表示四個(gè)選項(xiàng)和五個(gè)段落,顏色的深淺代表相似度值的大小,顏色越深代表相似度值越大。可以看出選項(xiàng)B覆蓋篇章要點(diǎn)內(nèi)容最全面,為最恰當(dāng)?shù)臉?biāo)題。具體公式如式(1)、式(2)所示。
其中,Sim(Ak,Seni)表示選項(xiàng)Ak與篇章要點(diǎn)Seni的相似度值,Ak,k∈[1,n],Seni表示篇章要點(diǎn),m表示篇章要點(diǎn)的個(gè)數(shù),Answermatrix表示選項(xiàng)與篇章要點(diǎn)相關(guān)度最高的一項(xiàng)。
圖1 標(biāo)題與篇章要點(diǎn)相關(guān)度矩陣
2.1.1篇章要點(diǎn)抽取
篇章要點(diǎn)的獲取是形成標(biāo)題與篇章要點(diǎn)相關(guān)度矩陣的關(guān)鍵。篇章各段落涉及不同的要點(diǎn)內(nèi)容,段落主旨句是段落的中心句或者主題句,具有概括段落的作用,是段落的中心所在,所以,選取段落主旨句作為篇章要點(diǎn)。針對(duì)篇章要點(diǎn)獲取問(wèn)題,提出了基于相關(guān)因素的段落主旨句抽取方法。該方法對(duì)同義、上下位概念進(jìn)行歸并,同時(shí),綜合語(yǔ)句所在位置、文章標(biāo)題、語(yǔ)句中所含重要詞匯等多種度量方式,綜合評(píng)估句子反映主題的價(jià)值,從而更精確地抽取出段落的主旨句。在文獻(xiàn)[16-17]方法基礎(chǔ)上,針對(duì)高考科技文的特點(diǎn)進(jìn)行了改進(jìn)。
(1) 段首、段尾句權(quán)值優(yōu)化。高考科技文的段落中,段首句或者段尾句一般是總結(jié)段落內(nèi)容的句子,所以段落的段首、段尾句包含的主題信息量比重比較大。對(duì)語(yǔ)句權(quán)值的調(diào)整如式(3)、式(4)所示。
其中,W(Si)表示語(yǔ)句的位置權(quán)值,Lnum表示段落中句子數(shù)量,j表示當(dāng)前句子在段落中的位置,W(SLnum)表示段落尾句的權(quán)值。
(2) 長(zhǎng)句權(quán)值優(yōu)化。主旨句大多包含說(shuō)明文章主題或關(guān)鍵內(nèi)容的主題概念字串,所以包含主題字串多的語(yǔ)句可作為主旨句。長(zhǎng)句所包含的主題字串的數(shù)量一般要高于短句,因而長(zhǎng)句計(jì)算出來(lái)的權(quán)值較高,因此需要減弱語(yǔ)句長(zhǎng)度對(duì)權(quán)值的影響,對(duì)語(yǔ)句權(quán)值的調(diào)整如式(5)、式(6)所示。
選取段落中語(yǔ)句權(quán)值最大的語(yǔ)句作為段落的主旨句,語(yǔ)句的權(quán)值可由不同的度量方式組合得到,如式(7)所示。
(7)
其中,σ1+σ2+σ3=1,F(xiàn)(Pi,Sj)表示段落Pi的第Sj句話的語(yǔ)句權(quán)值,WTitle(Sj)表示第Sj句話的標(biāo)題權(quán)值。
2.1.2基于LSTM的選項(xiàng)與篇章要點(diǎn)的相關(guān)性計(jì)算
2.1.1節(jié)中,抽取了段落主旨句作為篇章要點(diǎn)。如何計(jì)算標(biāo)題與篇章要點(diǎn)的相關(guān)性是生成相關(guān)度矩陣的難點(diǎn)。針對(duì)該問(wèn)題,提出了基于LSTM的選項(xiàng)與篇章要點(diǎn)相關(guān)性計(jì)算方法,模型如圖2所示。
基于神經(jīng)網(wǎng)絡(luò)的方法大多是在基于詞向量表示的基礎(chǔ)上,利用深度神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)句子的向量表示,把任務(wù)轉(zhuǎn)換成分類(lèi)或排序問(wèn)題。模型結(jié)構(gòu)與文獻(xiàn)[18-19]類(lèi)似。
輸入層是由篇章要點(diǎn)(集合SK)和選項(xiàng)(集合A)組成的二元組
圖2 基于LSTM的選項(xiàng)與篇章要點(diǎn)的相關(guān)性計(jì)算
LSTM層使用bi-LSTM獲取選項(xiàng)和篇章要點(diǎn)的向量表示[21]。bi-LSTM會(huì)提供給輸入序列每一個(gè)節(jié)點(diǎn)過(guò)去和未來(lái)的上下文信息,相對(duì)于單向LSTM來(lái)說(shuō)能提供更多的特征信息。具體公式如下:
池化操作有最大池化、平均池化等,本文使用的是最大池化k-Maxpooling(k=1)方式。hsk和ha分別表示篇章要點(diǎn)和選項(xiàng)的向量表示,篇章要點(diǎn)和選項(xiàng)之間的相關(guān)性用篇章要點(diǎn)和選項(xiàng)的向量的余弦相似度表示。損失函數(shù)和文獻(xiàn)[22]類(lèi)似,如式(11)所示。
(11)
其中,cos(hsk,ha+)表示文章和正確選項(xiàng)的相似度,cos(hsk,ha-)表示文章和錯(cuò)誤選項(xiàng)的相似度,hsk表示篇章要點(diǎn),ha+表示正確選項(xiàng),ha-表示錯(cuò)誤選項(xiàng),Q表示閾值。訓(xùn)練集中,每條數(shù)據(jù)中只有一個(gè)正例標(biāo)題和一個(gè)負(fù)例標(biāo)題。在測(cè)試集上,每條數(shù)據(jù)中有四個(gè)候選選項(xiàng),分別輸出每個(gè)選項(xiàng)和各個(gè)篇章要點(diǎn)的相似度值,形成標(biāo)題和篇章的相關(guān)度矩陣。
標(biāo)題作為讀者閱讀文章的第一項(xiàng)內(nèi)容,對(duì)理解文章內(nèi)容具有重要的作用。本文參考文獻(xiàn)[23-25]的分類(lèi)體系,分析了5 872篇高考科技文標(biāo)題結(jié)構(gòu)和語(yǔ)言特點(diǎn)。根據(jù)高考科技文標(biāo)題的特點(diǎn),制定了相應(yīng)的結(jié)構(gòu)體系,如(1)~(5)所示。具體類(lèi)別比例如表2所示,其中以名詞短語(yǔ)結(jié)構(gòu)為主。
(1) 名詞短語(yǔ)+名詞短語(yǔ)標(biāo)題(n+n): 由一個(gè)以上的名詞短語(yǔ)構(gòu)成。例如,“圍棋與國(guó)家”。
(2) 動(dòng)詞短語(yǔ)+名詞短語(yǔ)標(biāo)題(v+n): 由動(dòng)詞和名詞短語(yǔ)構(gòu)成。例如,“拯救閱讀”。
(3) 名詞短語(yǔ)+動(dòng)詞短語(yǔ)標(biāo)題(n+v): 由名詞和動(dòng)詞短語(yǔ)構(gòu)成。例如,“太空行走”。
(4) 完整句子結(jié)構(gòu)標(biāo)題(s): 指從語(yǔ)法角度講符合句子構(gòu)成的標(biāo)題。例如,“企業(yè)家為什么越來(lái)越重視書(shū)畫(huà)文化?”。
(5) 名詞標(biāo)題(n): 由單一名詞短語(yǔ)或是專(zhuān)有名詞構(gòu)成。例如,“古琴”。
表2 標(biāo)題類(lèi)別比例
對(duì)標(biāo)題結(jié)構(gòu)進(jìn)行分析統(tǒng)計(jì),形成標(biāo)題結(jié)構(gòu)權(quán)值,如式(12)所示。
(12)
其中,F(xiàn)T(Ai)表示標(biāo)題類(lèi)別為i的權(quán)值,Ki表示標(biāo)題類(lèi)別為i所占的比例。
標(biāo)題具有高度歸納概括篇章內(nèi)容、結(jié)構(gòu)鮮明的特點(diǎn)。標(biāo)題與篇章要點(diǎn)相關(guān)度矩陣方法主要考慮了對(duì)篇章內(nèi)容的概括、標(biāo)題與篇章內(nèi)容的相關(guān)性分析。篇章標(biāo)題結(jié)構(gòu)分析方法主要研究了標(biāo)題的結(jié)構(gòu)特點(diǎn),對(duì)標(biāo)題進(jìn)行分類(lèi)。因此,將以上兩種方法進(jìn)行融合來(lái)獲得更好的實(shí)驗(yàn)結(jié)果。具體如式(13)、式(14)所示。
其中,Answerfuse表示融合標(biāo)題結(jié)構(gòu)信息后最終的答案,F(xiàn)W(Ai)表示選項(xiàng)Ai融合標(biāo)題結(jié)構(gòu)信息后的答案。
標(biāo)題與篇章要點(diǎn)相關(guān)性分析模型具體思路為: 先抽取段落Pi的主旨句作為段落的要點(diǎn),計(jì)算每個(gè)選項(xiàng)Ak與各個(gè)要點(diǎn)的相關(guān)性,形成相關(guān)度矩陣。再根據(jù)標(biāo)題結(jié)構(gòu)的特點(diǎn)對(duì)標(biāo)題進(jìn)行分類(lèi),形成標(biāo)題結(jié)構(gòu)權(quán)值,融合相關(guān)度矩陣和標(biāo)題結(jié)構(gòu)權(quán)值選出最佳選項(xiàng)A*。如算法1所示。
算法1標(biāo)題與篇章要點(diǎn)相關(guān)性分析
輸入: 篇章D={P1,P2,…,Pi,…,Pm};選項(xiàng)A={A1,A2,…,Ak,…,An};
輸出: 最佳選項(xiàng)A*
初始化 集合Dyd中存儲(chǔ)篇章各要點(diǎn),集合Fstruct存儲(chǔ)標(biāo)題結(jié)構(gòu)權(quán)值,集合Fbd存儲(chǔ)選項(xiàng)與篇章要點(diǎn)的相似度,S*臨時(shí)存儲(chǔ)段落要點(diǎn),F(xiàn)*臨時(shí)存儲(chǔ)選項(xiàng)與篇章要點(diǎn)的相似度,T*臨時(shí)存儲(chǔ)標(biāo)題結(jié)構(gòu)權(quán)值
FORPiIND
S*=MAX{F(Pi,Sj)}
//獲取段落要點(diǎn)S*,將S*添加到Dyd中;
ENDFOR
FORAkINA
ENDFOR
//獲取選項(xiàng)與篇章要點(diǎn)的相似度F*,將F*添加到Fbd中;
T*=FT(Ak)
//獲取標(biāo)題結(jié)構(gòu)權(quán)值T*,將T*添加到Fstruct中;
ENDFOR
FORAkINA
//融合標(biāo)題結(jié)構(gòu)權(quán)值