王元龍
(山西大學(xué) 計算機(jī)與信息技術(shù)學(xué)院,太原030006)
面向閱讀理解的句子組合模型
王元龍*
(山西大學(xué) 計算機(jī)與信息技術(shù)學(xué)院,太原030006)
(*通信作者電子郵箱ylwang@sxu.edu.cn)
閱讀理解任務(wù)需要綜合運(yùn)用文本的表示、理解、推理等自然語言處理技術(shù)。針對高考語文中文學(xué)作品閱讀理解的選項題問題,提出了基于分層組合模式的句子組合模型,用來實現(xiàn)句子級的語義一致性計算。首先,通過單個詞和短語向量組成的三元組來訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)模型;然后,通過訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型來組合句子向量(兩種組合方法:一種為遞歸方法;另一種為循環(huán)方法),得到句子的分布式向量表示。句子間的一致性利用兩個句子向量之間的余弦相似度來表示。為了驗證所提方法,收集了769篇模擬材料+13篇北京高考語文試卷材料(包括原文與選擇題)作為測試集。實驗結(jié)果表明,與傳統(tǒng)最優(yōu)的基于知網(wǎng)語義方法相比,循環(huán)方法準(zhǔn)確率在高考材料中提高了7.8個百分點,在模擬材料中提高了2.7個百分點。
自然語言理解;句子組合模型;閱讀理解;語義相似度計算
閱讀理解(Reading Comprehension, RC)的任務(wù)是能夠讀懂單篇文檔,理解文中的意思且作適當(dāng)?shù)奶幚碛糜诨卮鹪O(shè)計的問題,它是自然語言處理和知識表示的一個重要應(yīng)用領(lǐng)域,驅(qū)動著該領(lǐng)域相關(guān)技術(shù)的發(fā)展[1-2]。近年來,隨著人工智能的浪潮,閱讀理解技術(shù)也越來越受到了眾多自然語言處理研究機(jī)構(gòu)及人工智能研究機(jī)構(gòu)的關(guān)注[1]。中文閱讀理解中選擇題的目標(biāo)在于理解單篇文檔,選出最符合文意的選項。閱讀理解中選擇題求解歸結(jié)為語義一致性分析任務(wù),它注重的是背景材料與選項的語義一致性分析,因此語義一致性分析成為了解決中文閱讀理解中選擇題的關(guān)鍵技術(shù)。
閱讀理解中選擇題可形式化的描述為:給定選項C和背景材料D={S1,S2,…,Sn},首先檢索選項C在背景材料中相關(guān)的句子Si?D,進(jìn)一步對選項和選項相關(guān)句的語義一致性進(jìn)行分析。例如:
選項為:朋友為小說《白鹿原》沒有寫老腔的筆墨而感到遺憾,作者對此深有同感。
檢索到的兩個相關(guān)句為:Si=“后來, 有作家朋友看過老腔的演出,不無遺憾地對我說過這樣的話,你的小說《 白鹿原 》是寫關(guān)中大地的,要是有一 筆老腔的畫面就好了”;Sj=“朋友跟我說老腔如何如何,我卻很難產(chǎn)生驚詫之類的反應(yīng)”。
答案的選擇需要分析選項與檢索相關(guān)句的一致性。本文重點關(guān)注句子的組合模型,且采用句子向量的相似度計算進(jìn)行語義的一致性分析,句子相似度為Sim(Sc,Sr)。其中:Sc表示選項的句子分布式向量表示,Sr表示從原文中檢索到的相關(guān)句句子分布式向量表示。
詞匯的分布式向量表示是基于在語料庫中相似的詞有相似上下文的思想,通過在語料庫中預(yù)測詞共現(xiàn)來構(gòu)建的表示模型[3]。詞匯間的語義相似度可以通過詞匯的分布式表示計算得到,更深層次的短語或句子語義理解,還需要對短語及句子進(jìn)行分布式表示,組合句子的分布式向量表示在自然語言處理方面的各個領(lǐng)域越來越受到重視。目前存在兩種詞匯語義的句子組合形式:一種是基于語義元素操作的組合形式,如函數(shù)組合、形態(tài)組合等[4];另一種是基于語義分布式向量空間的組合形式[5-17]。前者通常依據(jù)已有的語義詞典或標(biāo)注語料,而后者基于依賴專業(yè)語料訓(xùn)練獲得的分布式表示空間?;谡Z義分布式向量空間的組合形式首先需要采用分布式向量表示每個詞,即給定兩個單個詞的詞向量v1、v2。然后通過語義組合方法,把兩個單個詞的詞向量組合成一個新的短語向量v3。再把短語向量當(dāng)作詞向量和另外一個詞組合成向量,直到組合成整個句子的分布式向量,其中合成規(guī)則直接影響計算語義合成性質(zhì)的好壞。向量加[6]和點乘方法[7]組合規(guī)則較簡單,容易造成精度下降問題。向量矩陣模型[13-16]局限于動詞與名詞、形容詞與名詞的合成語義表示,對其他組合詞的合成沒有涉及。深度學(xué)習(xí)方法[17]需要大量的訓(xùn)練數(shù)據(jù)集訓(xùn)練大規(guī)模的參數(shù),在數(shù)據(jù)量較小的情況下容易出現(xiàn)過擬合。對于中文閱讀理解材料,目前缺乏句子組合的訓(xùn)練集。本文針對中文閱讀理解材料提出了基于神經(jīng)網(wǎng)絡(luò)的短語組合模型,通過詞共現(xiàn)的方法在訓(xùn)練材料中構(gòu)建訓(xùn)練數(shù)據(jù)集,詳細(xì)過程見第3章。該方法有以下優(yōu)點:1)方便自動構(gòu)造訓(xùn)練集;2)訓(xùn)練參數(shù)相對較少,適合小規(guī)模訓(xùn)練數(shù)據(jù)集。
基于短語組合模型,針對高考語文閱讀理解中選擇題的選項一致性分析,提出了兩種計算句子語義組合方法:一種為遞歸方法;另一種為循環(huán)的方法。首先,采用了基于詞頻-逆向文件頻率(TermFrequency-InverseDocumentFrequency,TF-IDF)的方法計算原文中和每個選項最相關(guān)的句子集;然后通過本文所提計算句子語義合成方法分別計算選項和相關(guān)句的句子分布式向量;最后通過比較每個選項與其句子間的余弦值判斷選擇題的答案。本文收集了769篇閱讀理解+13篇北京高考語文試卷材料(包括原文與選擇題)作為測試集,在該測試集中相比于Baseline方法,本文方法能夠獲得更優(yōu)的結(jié)果。
目前,很多研究人員越來越關(guān)注如何組合詞匯,獲得短語及句子的分布式向量表示。下面介紹基于語義分布式向量空間的組合方法。
1)向量加方法。
向量加方法在Widdows[6]的論文中有詳細(xì)的描述。該方法組合短語向量v3的值是通過單個詞的詞向量對應(yīng)值相加獲得:v3i=v2i+v1i。
2)點乘方法。
Mitchell等[7]提出了用點乘的方法組合詞向量,該方法采用單個詞向量對應(yīng)值相乘來計算組合短語向量中相應(yīng)的元素值:v3i=v2i×v1i。該方法在語義相似度計算任務(wù)上優(yōu)于向量加方法[6]。
向量加和點乘方法簡單易用,且在一些任務(wù)中效果明顯[8],但也存在由于詞序造成的精度下降問題,如無法區(qū)分“如果/沒有”和“沒有/如果”這類短語。
文獻(xiàn)[9-12]把結(jié)構(gòu)編碼的操作應(yīng)用到相鄰兩個詞向量加的組合方法中,避免了相鄰兩個詞詞序不同造成的組合精度影響。該方法對于組合短語級的向量效果明顯,但組合句子組的向量還是無法避免詞序的影響。Socher等[13]提出一種采用遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練每個詞匯的向量-矩陣表示方法,通過句法分析樹來組合句子向量。該方法每個詞匯都用一個向量和一個功能矩陣表示,如果一個詞匯在句子不是功能詞匯,那么該詞匯的功能矩陣為單位矩陣,如果詞匯在句子中作為主要的功能,如形容詞“非?!?,那么該詞匯自身的向量接近零向量,而相應(yīng)的功能矩陣發(fā)揮著重要的作用。組合短語采用的方法為:p=fA,B(a,b)=f(Ba,Ab)。Guevara[14]提出了一種計算形容詞-名詞組合分布式向量表示的偏最小二乘回歸模型,他們用回歸模型估計形容詞和名詞的組合系數(shù)。Baroni 等[15]把形容詞當(dāng)作一個功能函數(shù)用矩陣表示,名詞用向量表示,用形容詞功能矩陣和名詞向量的乘積來獲取形容詞-名詞的組合分布式向量表示。Paperno等[16]對文獻(xiàn)[13-15]功能矩陣作了進(jìn)一步完善,功能矩陣的功能分為:主語、賓語、名詞、形容詞、副詞等。每個詞匯采用1個向量和n個矩陣表示。該方法采用組合短語方法為:{〈a,A1,A2,…,An,…,An+k〉,〈b,B1,B2,…,Bn〉} ?{〈a+An+k*b,A1+B1,A2+B2,…,An+Bn,…〉}。該方法組合短語及句子效果非常好,但消耗的存儲量以及計算量均無法滿足實用的要求;且由于該方法采用句法樹分析句子結(jié)構(gòu),組合句子采用相鄰節(jié)點組合方法,因此對于任意長的句子,組合的效果就有所下降。
針對組合任意長度句子的問題,Tai等[17]在長短時記憶網(wǎng)(LongShort-TermMemoryNetwork,LSTM)[18]的基礎(chǔ)上,提出了樹結(jié)構(gòu)的LSTM。該論文提出兩種樹結(jié)構(gòu)LSTM(Child-SumTree-LSTM,N-aryTree-LSTM)。具體形式如圖1所示。其中:cj表示記憶單元;hj表示隱層節(jié)點的狀態(tài);fj表示激活函數(shù);ij、oj分別表示輸入和輸出門。
圖1 樹結(jié)構(gòu)LSTM示意圖 [17]Fig. 1 Schematic diagram of tree structure LSTM[17]
本文受到文獻(xiàn)[17]的啟發(fā),提出利用兩種中文句子的組合方式來獲取句子的分布式向量表示,在閱讀理解任務(wù)上實驗驗證了本文方法的效果。
2.1 句子組合模型
構(gòu)造句子分布式表示向量的基本思想是:組合兩個詞的分布式向量成為短語向量,再把短語向量當(dāng)作詞向量和另外一個詞組合成向量,直到組合成整個句子的分布式向量表示。本文所指的短語并非嚴(yán)格意義上的短語,是指兩個詞經(jīng)常一塊組合使用的組合詞,例如“沒有/那么”“告訴/我們”“坐/下來”“過/會兒”“天地/間”等,組合短語向量采用神經(jīng)網(wǎng)絡(luò)模型。
2.1.1 神經(jīng)網(wǎng)絡(luò)模型
為了達(dá)到理解單篇文檔,選出最符合文意選項的閱讀理解目標(biāo),訓(xùn)練模型共分為兩個階段:離線預(yù)訓(xùn)練階段和在線調(diào)整階段。首先采用從6 117篇文學(xué)作品語料中抽取短語集合來離線訓(xùn)練組合短語向量的模型,該階段的模型屬于整體模型;然后針對具體的測試文檔細(xì)微的調(diào)整該整體模型,如圖2所示。對于單篇文檔,采用的抽取短語集方法為:去掉停用詞后的詞前后兩兩組合。
圖2 訓(xùn)練短語向量示意圖
組合短語向量模型采用三層的神經(jīng)網(wǎng)絡(luò)模型,如圖3所示。神經(jīng)網(wǎng)絡(luò)模型的核心是組合短語的分布式表示,具體描述如下:
(1)
(2)
其中:X是中間層結(jié)果;p表示短語向量;U、V為需要訓(xùn)練的權(quán)值矩陣;b為對應(yīng)偏置向量。神經(jīng)網(wǎng)絡(luò)在本質(zhì)上是一種輸入到輸出的映射,它能夠?qū)W習(xí)大量的輸入與輸出之間的映射關(guān)系。因此,本文的樣本集為(輸入向量、理想的輸出向量),即上文提到的三元組M(w1,w2,p)。
圖3 神經(jīng)網(wǎng)絡(luò)模型
2.1.2 句子組合模型
本文通過訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型采用兩種方法來組合句子向量,分別是遞歸的方法和循環(huán)的方法,如圖4所示。
1)遞歸的方法。如圖4(a)所示,該方法從句子中的詞開始按順序每兩個詞通過訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)組合得到上一層節(jié)點的分布式表示,同樣的方法逐層計算各節(jié)點的分布式表示,直到計算得到頂層的根節(jié)點的分布式表示作為句子的分布式向量表示。如果詞的個數(shù)是單數(shù),最后一個詞自動被當(dāng)作上一層的節(jié)點。具體計算式如下:
(3)
圖4 組合句子向量示意圖
2)循環(huán)的方法。該方法從句子中的第一個詞開始逐步組合其后的每個詞。與LSTM類似, 本文方法在組合過程中加入細(xì)胞狀態(tài)(如圖4(b)上cell層),cell層水平線在圖4上方貫穿運(yùn)行。細(xì)胞狀態(tài)類似于傳送帶,直接在整個鏈上運(yùn)行,信息在上面流傳保持不變會很容易。具體過程如下所示:
(4)
(5)
其中:h0為整個句子的開始向量,因此h0通過w0和w1計算獲得;V、U、b為已訓(xùn)練好的權(quán)值矩陣。
本文循環(huán)的方法與傳統(tǒng)LSTM[17-18]方法的不同之處在于,循環(huán)的方法采用2.1.1節(jié)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)去組合兩個向量而不是直接訓(xùn)練句子組合模型,有效地緩解了缺乏訓(xùn)練數(shù)據(jù)情況下訓(xùn)練大規(guī)模參數(shù)的困境。
2.2 句子間的語義一致性分析
利用句子的分布式表示,可以快速計算句子間的語義相似度,這對于閱讀理解中的很多任務(wù)具有重要的意義。與文獻(xiàn)[19]類似,閱讀理解中選擇題的方案首先要解決的問題也是答案句的檢索,與問答不同的是,選擇題是通過選項檢索答案句。
具體來講,選擇題通過選項檢索原文中和選項相關(guān)的部分(可能是句子集、段落或全文的主線等),然后再計算選項與相關(guān)部分的相似度,得到最終的答案項。
(6)
本文實驗所用的閱讀理解語料由山西大學(xué)中文信息處理課題組收集,來自全國高中語文模擬試卷(共6 104篇)以及近13年的北京高考語文試卷材料。其中,769篇閱讀理解語料包含選擇題,每一篇包含一道選擇題。測試所用語料包括769篇模擬材料+13篇北京高考語文試卷材料,選擇題共782道(單項選擇題46個,雙項選擇題729個)。為了測試模型的泛化能力,訓(xùn)練所用語料去掉測試所用的769篇語料,共5 335篇閱讀理解語料的原文用來構(gòu)建訓(xùn)練數(shù)據(jù)集。本文利用詞共現(xiàn)的方法獲得訓(xùn)練神經(jīng)網(wǎng)絡(luò)所需的三元組,具體做法為在閱讀理解語料的原文中搜索兩個詞的共現(xiàn)次數(shù),如果共現(xiàn)次數(shù)大于30次,就認(rèn)為其適合組成短語。本文采用詞共現(xiàn)的方法收集了2 531對短語,短語和單個詞共同構(gòu)成了三元組M作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)。
3.1 訓(xùn)練單個詞和短語向量
詞匯的分布式表示在自然語言處理領(lǐng)域中得到廣泛的應(yīng)用起源于Mikolov等[20]提出的兩個模型(連續(xù)詞袋(ContinuousBagofWords,CBOW)模型, 連續(xù)Skip-gram模型)。利用這兩個模型訓(xùn)練詞匯的分布式向量表示能夠捕捉到詞匯之間的某種隱含語義關(guān)系。本文采用CBOW模型來訓(xùn)練詞向量和短語向量。首先,將文學(xué)作品經(jīng)過分詞作為語料,獲得單個詞的詞向量;然后,把短語中的兩個詞作為一個整體,再用CBOW模型進(jìn)行訓(xùn)練,獲得短語向量。
3.2 實驗設(shè)置
為了驗證本文基于句子分布式向量表示在漢語閱讀理解選擇題中的有效性,實驗設(shè)置了相關(guān)句檢索和句子相似度計算(即答案選擇)兩個階段。
相關(guān)句檢索階段,本文采用TF-IDF方法從原文中檢索與每個選項相關(guān)的句子。對于原文,按句子劃分成句子集。對于選項,計算其中每個詞在原文中每一句子的TF-IDF值。選TF-IDF值最大的兩個句子作為選項相關(guān)的句子,用于下一個階段句子相似度計算。
句子相似度計算階段,為了驗證本文組合句子分布式向量表示方法的優(yōu)勢,實驗設(shè)置了相關(guān)文獻(xiàn)中常用方法的比較分析,包括:
1)基于詞袋模型方法[21]。
(7)
2)向量加方法[6]。
3)點乘方法[7]。
與向量加方法相比,點乘方法將關(guān)鍵詞的詞向量加運(yùn)算改為點乘運(yùn)算,其他操作與向量加方法相同。
4)基于知網(wǎng)語義(HowNet Semantics, HNS)的方法[22]。
(8)
3.3 結(jié)果分析
3.3.1 相關(guān)句檢索
本文采用TF-IDF方法從原文中檢索與每個選項相關(guān)的句子,綜合考慮了選項中的每個詞在文檔中的重要性和整個文檔中的區(qū)分能力。對于原文,按句子劃分成句子集,具體計算如下:
(9)
其中:n為選項Sch中去掉停用詞后的關(guān)鍵詞個數(shù);TFi為選項Sch中與原文中句子Ssi匹配的詞數(shù),采用式(10)計算原文中每個詞的IDF值。
(10)
實驗中發(fā)現(xiàn)使用TOP-2作為檢索的相關(guān)句,就可以很好地覆蓋整個選項。例如,運(yùn)用TF-IDF方法在2016年北京高考語文閱讀理解選擇題中進(jìn)行相關(guān)句檢索結(jié)果實例:
[′A′,′作者′,′產(chǎn)生′,′神秘感′,′的′,′原因′,′是′,′看見′,′演唱′,′老腔′,′白發(fā)′,′白眉′,′老漢′,′等′,′一′,′群′,′關(guān)中′,′農(nóng)民′]
我在入座時也看見了白發(fā)白眉老漢和他跟前的十多個人,一眼就能看出他們都是地道的關(guān)中鄉(xiāng)村人,也就能想到他們是某個劇種的民間演出班社,也未太注意,趙季平重新歸位坐定,便很鄭重地對我介紹說,這是華陰縣的老腔演出班社,老腔是了不得的一種唱法,尤其是那個白眉老漢…老腔能得到趙季平的賞識,我對老腔便刮目相看了,再看白發(fā)白眉老漢,安靜地在臺角下坐著,我突然生出神秘感來
屁股剛挨著椅子,他忽然站起,匆匆離席趕到舞臺左側(cè)的臺下,和蹲在那兒的一位白頭發(fā)白眉毛的老漢握手拍肩,異常熱乎,又與白發(fā)白眉老漢周圍的一群人逐個握手問好,想必是打過交道的熟人了
[′B′,′演員′,′以′,′木磚′,′連續(xù)′,′敲擊′,′長條′,′板凳′,′發(fā)出′,′的′,′響聲′,′經(jīng)?!?′掩蓋′,′了′,′觀眾′,′掌聲′,′與′,′叫好聲′]
觀眾頓時沸騰起來
然而,令人驚訝的一幕出現(xiàn)了,站在最后的一位穿著粗布對門襟的半大老漢找著長條板凳走到臺前,左手拎起長凳一頭,另一頭支在舞臺上,用右手握著的一塊木磚,隨著樂器的節(jié)奏和演員的合唱連續(xù)敲擊長條板凳,任誰也意料不及的這種舉動,竟然把臺下的掌聲和好聲震啞了,出現(xiàn)了鴉雀無聲的靜場,短暫的靜默之后,掌聲和歡呼聲驟然爆響,經(jīng)久不息
[′C′,′朋友′,′為′,′小說′,′《′,′白鹿原′,′》′,′沒有′,′寫′,′老腔′,′的′,′筆墨′,′而′,′感到′,′遺憾′,′,′,′作者′,′對′,′此′,′深′,′有′,′同感′]
后來,有作家朋友看過老腔的演出,不無遺憾地對我說過這樣的話,你的小說《白鹿原》是寫關(guān)中大地的,要是有一筆老腔的畫面就好了
朋友跟我說老腔如何如何,我卻很難產(chǎn)生驚詫之類的反應(yīng)
[′D′,′老腔′,′從′,′宋代′,′唱′,′到′,′現(xiàn)在′,′,′,′鄉(xiāng)野′,′音樂廳′,′說明′,′這種′,′表演′,′形式′,′一直′,′很′,′流行′]
朋友跟我說老腔如何如何,我卻很難產(chǎn)生驚詫之類的反應(yīng)
我第一次看老腔演出,是前兩三年的事
從上面的例子可以發(fā)現(xiàn)選項ABCD檢索到的相關(guān)句均可以蘊(yùn)含選項。如選項A,“作者產(chǎn)生神秘感的原因”能夠從相關(guān)句“老腔能得到趙季平的賞識,我對老腔便刮目相看了,再看白發(fā)白眉老漢,安靜地在臺角下坐著,我突然生出神秘感來”中找到。
3.3.2 答案生成
考慮到高考語文題比模擬題更加規(guī)范,且本文主要針對北京高考語文閱讀理解所提的解決方案,因此對高考材料和模擬材料分開進(jìn)行測試。
由于選擇題有準(zhǔn)確的答案,因此本文采用的評價指標(biāo)為準(zhǔn)確率:
(11)
其中:CorrectAnswer(k)表示k個選擇題中正確的答案數(shù)目,對于雙項選擇題通常認(rèn)為只對一項答案情況時,正確答案數(shù)目加0.5。表1分別給出了本文兩種方法(方法1:遞歸的方法;方法2:循環(huán)的方法)與相關(guān)方法在高考材料和模擬材料兩個數(shù)據(jù)集上的準(zhǔn)確率比較。
從表1中可以看出,與傳統(tǒng)最優(yōu)的基于知網(wǎng)語義方法相比,本文兩種方法在高考題和模擬題兩個數(shù)據(jù)集上的準(zhǔn)確率均有所提高,方法2在高考材料中提高了7.8個百分點,在模擬材料中提高了2.7個百分點,但在高考題上的準(zhǔn)確率略高于模擬題上的準(zhǔn)確率,可能的原因是高考題比模擬題更加規(guī)范。本文方法2與方法1相比,在組合句子向量時有所改進(jìn),從實驗結(jié)果也可以看出,改進(jìn)后的方法2在高考題數(shù)據(jù)集上的準(zhǔn)確率提高了近4個百分點。
表1 不同方法的準(zhǔn)確率比較 %
3.3.3 錯誤分析
錯誤原因主要集中于分布相似性到語義相似性的差距,語義理解仍然是閱讀理解最困難的技術(shù)。一方面,選項與相關(guān)句子的分布式表示非常相似,但由于句子中一個詞語義相反,本文方法無法檢測到其語義不相似,如2015年北京高考語文閱讀理解選擇題:
“B.文中那位意大利人對梅花有很好的藝術(shù)感受力,作者期待他寫出“梅花四弄”。”
其檢索到的相關(guān)句為:“第三個問的是意大利人,是搞音樂的,我想這人是有藝術(shù)感受力的,反正他沒見過梅花,就信口開河起來”。
兩個句子的分布式表示非常相似,但由于“期待”與“信口開河”其語義無法檢測,此題結(jié)果錯誤。
另一方面,選項與相關(guān)句子的分布式表示非常相似,但僅僅從相關(guān)句中無法理解其選項的本意,如2014年北京高考語文閱讀理解選擇題:
“A. 作者寫作本文的目的之一是糾正《現(xiàn)代漢語詞典》中對“廢墟”這一語詞的錯誤理解?!?/p>
理解選項中“本文的目的”需要理解全文或了解全文的主旨才能做到。
總之,對于選項分析除了相關(guān)句起主要作用,其他因素也會影響準(zhǔn)確率,如全文主旨、段落主題以及情感分析等。采用更好的融合模型可以降低分布相似性到語義相似性的差距,這也是下一步的工作方向。
句子的分布式向量表示在自然語言處理中的各個領(lǐng)域越來越受到重視。針對漢語閱讀理解中選擇題的特點,本文提出了一種新的句子組合模型應(yīng)用到選擇題的解決方案。本文采用TF-IDF方法檢索與選項相關(guān)的相關(guān)句,實驗結(jié)果發(fā)現(xiàn)使用TOP-2作為檢索的相關(guān)句,可以很好地覆蓋整個選項。對于句子分布式向量的組合本文提出兩種方法,一種是遞歸的方法,另一種是循環(huán)的方法。與Baseline方法相比,本文兩種方法的準(zhǔn)確率均有所提高,其中循環(huán)的方法在高考題數(shù)據(jù)集上的準(zhǔn)確率可以達(dá)到57.8%。下一步的工作將考慮全文主旨、段落主題以及情感要素的分布式向量表示,并將其融合到本文算法中,進(jìn)一步減小分布式表示與語義理解的差距。
)
[1]CHENDQ,BOLTONJ,MANINGCD.AthoroughexaminationoftheCNN/DailyMailreadingcomprehensiontask[C] //Proceedingofthe2016 54thAnnualMeetingoftheAssociationforComputationalLinguistics.Stroudsburg,PA:ACL, 2016: 2359-2367.
[2] 劉知遠(yuǎn),孫茂松,林衍凱,等.知識表示學(xué)習(xí)研究進(jìn)展[J].計算機(jī)研究與發(fā)展,2016,53(2):247-261.(LIUZY,SUNMS,LINYK,etal.Knowledgerepresentationlearning:areview[J].JournalofComputerResearchandDevelopment, 2016, 53(2): 247-261.)
[3]TURNEYPD,PANTELP.Fromfrequencytomeaning:vectorspacemodelsofsemantics[J].JournalofArtificialIntelligenceResearch, 2010, 37(1): 141-188.
[4]WIDDOWSD.Semanticvectorproducts:someinitialinvestigations[C/OL]//Proceedingsofthe2008SecondAAAISymposiumonQuantumInteraction. [2016- 10- 09].http://www.puttypeg.net/papers/semantic-vector-products.pdf.
[5]MARELLIM,BENTIVOGLIL,BARONIM,etal.Semeval- 2014Task1:evaluationofcompositionaldistributionalsemanticmodelsonfullsentencesthroughsemanticrelatednessandtextualentailment[C]//Proceedingsofthe2014 8thInternationalWorkshoponSemanticEvaluation.Stroudsburg,PA:ACL, 2014: 1-8.
[6]WIDDOWSD.GeometryandMeaning[M].Stanford,CA:CSLIPublications, 2004: 23-28.
[7]MITCHELLJ,LAPATAM.Vectorbasedmodelsofsemanticcomposition[C] //Proceedingsofthe2008AnnualMeetingoftheAssociationforComputationalLinguistics.Stroudsburg,PA:ACL, 2008: 236-244.
[8]BLACOEW,LAPATAM.Acomparisonofvector-basedrepresentationsforsemanticcomposition[C]//Proceedingofthe2012JointConferenceonEmpiricalMethodsinNaturalLanguageProcessingandComputationalNaturalLanguageLearning.Stroudsburg,PA:ACL, 2012: 546-556.
[9]GUEVARAE.Aregressionmodelofadjective-nouncompositionalityindistributionalsemantics[C]//Proceedingsofthe2010WorkshoponGEometricalModelsofNaturalLanguageSemantics.Stroudsburg,PA:ACL, 2010: 33-37.
[10]MITCHELLJ,LAPATAM.Compositionindistributionalmodelsofsemantics[J].CognitiveScience, 2010, 34(8): 1388-1429.
[11]SOCHERR,HUANGE,PENNINGTONJ,etal.Dynamicpoolingandunfoldingrecursiveautoencodersforparaphrasedetection[C]//Proceedingsofthe2011InternationalConferenceonNeuralInformationProcessingSystems.Cambridge,MA:MITPress, 2011: 801-809.
[12]ZANZOTTOFM,KORKONTZELOSI,FALLUCCHIF,etal.Estimatinglinearmodelsforcompositionaldistributionalsemantics[C]//Proceedingsofthe2010 23rdInternationalConferenceonComputationalLinguistics.Stroudsburg,PA:ACL, 2010: 1263-1271.
[13]SOCHERR,HUVALB,MANNINGCD,etal.Semanticcompositionalitythroughrecursivematrix-vectorspaces[C]//Proceedingsofthe2012JointConferenceonEmpiricalMethodsinNaturallanguageProcessingandComputationalNaturalLanguageLearning.Stroudsburg,PA:ACL, 2012: 1201-1211.
[14]GUEVARAE.Aregressionmodelofadjective-nouncompositionalityindistributionalsemantics[C]//Proceedingsofthe2010WorkshoponGEometricalModelsofNaturalLanguageSemantics.Stroudsburg,PA:ACL, 2010: 33-37.
[15]BARONIM,ZAMPARELLIR.Nounsarevectors,adjectivesarematrices:representingadjective-nounconstructionsinsemanticspace[C]//Proceedingsthe2010ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Stroudsburg,PA:ACL, 2010: 1183-1193.
[16]PAPERNOD,PHAMN,BARONIM.Apracticalandlinguistically-motivatedapproachtocompositionaldistributionalsemantics[C]//Proceedingsofthe52ndAnnualMeetingoftheAssociationforComputationalLinguistics.Stroudsburg,PA:ACL, 2014: 90-99.
[17]TAIKS,SOCHERR,MANNINGCD.Improvedsemanticrepresentationsfromtree-structuredlongshort-termmemorynetworks[C]//Proceedingsofthe53rdAnnualMeetingoftheAssociationforComputationalLinguisticsandthe7thInternationalJointConferenceonNaturalLanguageProcessing.Stroudsburg,PA:ACL, 2015: 1556-1566.
[18]ZAREMBAW,SUTSKEVERI.Learningtoexecute[EB/OL]. [2016- 10- 09].http://www.cs.nyu.edu/~zaremba/docs/Learning%20to%20Execute.pdf.
[19] 王智強(qiáng),李茹,梁吉業(yè),等.基于漢語篇章框架語義分析的閱讀理解問答研究[J].計算機(jī)學(xué)報,2016,39(4):795-807.(WANGZQ,LIR,LIANGJY,etal.ResearchonquestionansweringforreadingcomprehensionbasedonChinesediscourseframesemanticparsing[J].ChineseJournalofComputers, 2016, 39(4): 795-807.)
[20]MIKOLOVT,CHENK,CORRADOG,etal.Efficientestimationofwordrepresentationsinvectorspace[EB/OL]. [2016- 10- 09].https://core.ac.uk/download/pdf/24794691.pdf.
[21] 張志昌,張宇,劉挺,等.基于淺層語義樹核的閱讀理解答案句抽取[J].中文信息學(xué)報,2008,22(1):80-86.(ZHANGZC,ZHANGY,LIUT,etal.Answersentenceextractionofreadingcomprehensionbasedonshallowsemantictreekernel[J].JournalofChineseInformationProcessing, 2008, 22(1): 80-86.)
[22] 朱征宇,孫俊華.改進(jìn)的基于《知網(wǎng)》的詞匯語義相似度計算[J].計算機(jī)應(yīng)用,2013,33(8):2276-2279.(ZHUZY,SUNJH.ImprovedvocabularysemanticsimilaritycalculationbasedonHowNet[J].JournalofComputerApplications, 2013, 33(8): 2276-2279.)
ThisworkispartiallysupportedbytheNationalHighTechnologyResearchandDevelopmentProgram(863Program)ofChina(2015AA015407),theNaturalScienceFoundationofShanxiProvince(201601D102030).
WANG Yuanlong, born in 1983, Ph. D., lecturer. His research interests include virtual reality, natural language processing, high performance computing.
Sentence composition model for reading comprehension
WANG Yuanlong*
(SchoolofComputerandInformationTechnology,ShanxiUniversity,TaiyuanShanxi030006,China)
The reading comprehension of document in Natural Language Processing (NLP) requires the technologies such as representation, understanding and reasoning on the document. Aiming at the choice questions of literature reading comprehension in college entrance examination, a sentence composition model based on the hierarchical composition model was proposed, which could achieve the semantic consistency measure at the sentence level. Firstly, a neural network model was trained by the triple consisted of single word and phrase vector. Then, the sentence vectors were combined by the trained neural network model (two composition methods: the recursion method and the recurrent method) to obtain the distributed vector of sentence. The similarity between sentences was presented by the cosine similarity between the two sentence vectors. In order to verify the proposed method, the 769 simulation materials and 13 Beijing college entrance examination materials (including the source text and the choice question) were collected as the test set. The experimental results show that, compared with the traditional optimal method based on HowNet semantics, the precision of the proposed recurrent method is improved by 7.8 percentage points in college entrance examination materials and 2.7 percentage points in simulation materials respectively.
natural language comprehension; sentence composition model; reading comprehension; semantic similarity computation
2016- 11- 21;
2017- 02- 06。
國家863計劃項目(2015AA015407);山西省自然科學(xué)基金資助項目(201601D102030)。
王元龍(1983—),男,山西大同人,講師,博士,CCF會員,主要研究方向:虛擬現(xiàn)實、自然語言處理、高性能計算。
1001- 9081(2017)06- 1741- 06
10.11772/j.issn.1001- 9081.2017.06.1741
TP391.1
A