亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        閱讀理解答案預測

        2018-01-02 06:53:10李茹馬淑暉張虎郭少茹
        山西大學學報(自然科學版) 2017年4期
        關鍵詞:題干觀點選項

        李茹,馬淑暉,張虎,郭少茹

        (1.山西大學 計算機與信息技術學院,太原 030006;2.山西大學 計算智能與中文信息處理教育部重點實驗室,太原 030006)

        閱讀理解答案預測

        李茹1,2,馬淑暉1*,張虎1,郭少茹1

        (1.山西大學 計算機與信息技術學院,太原 030006;2.山西大學 計算智能與中文信息處理教育部重點實驗室,太原 030006)

        針對高考語文閱讀理解,文章通過對題干、篇章句子片段、選項三者的關系進行建模,提出一種基于題干與選項一致性判別模型的閱讀理解答案預測方法。模型由篇章句子與題干的相關度和對選項的支持度進行選項置信度度量,并基于這兩個度量定義了聯(lián)合打分函數(shù)。其中相關度通過題干定位到的原文出處與句子片段的距離來度量,支持度通過句子相似度特征、反義匹配特征、否定特征三個語義特征來度量。同時,在近10年的高考真題和模擬題中分別進行了三組實驗,實驗結(jié)果給出了該方法在不同特征組合和參數(shù)設置上的答題效果。

        高考語文;閱讀理解;選項和題干一致性

        0 引言

        近年來,閱讀理解受到國際與國內(nèi)自然語言處理研究領域?qū)W者的廣泛關注,并成為人工智能領域的一項重要研究。高考閱讀理解是高考語文試卷中的一類重要試題,是863“類人智能”答題項目中的一項研究內(nèi)容,其與傳統(tǒng)基于構(gòu)建語料庫的閱讀理解相比,具有更高層次的挑戰(zhàn)。高考閱讀理解任務答案生成的主要知識包含在篇章中,因此要正確解答閱讀理解問題,必須對文章內(nèi)容和問題有更深入的理解和分析。

        目前,基于閱讀理解的智能系統(tǒng)在國外已取得了長足的發(fā)展。2011年,IBM的沃森(Watson)在答題競賽類節(jié)目《危險邊緣》中戰(zhàn)勝了該節(jié)目中最杰出的兩位人類選手[1]。蘋果公司的“Siri”智能助手能夠理解人們通過自然語言提出的問題。2015年,日本國立情報學研究所(National Institute of Informatics)開發(fā)的機器人Todai在日本高考中取得511分的成績,比平均分數(shù)線高出90多分。上述系統(tǒng)多是在問題分析和答案抽取上進行一些研究工作,但高考閱讀理解的問題分析和求解過程會難度更大,不僅要對問題進行分析和答案抽取,而且需要對文本進行深層語義理解和知識推理。

        在閱讀理解技術的研究方面,國外學者采用許多不同的方法。1999年,Hirschman[2]團隊首先開始了閱讀理解任務的研究,并首次運用Hum-Sent準確率作為評價標準,利用詞袋模型在60個篇章的測試集上進行實驗,最終獲得了36.3%的Hum-Sent準確率。在2004年美國學者Charniak E[3]針對兒童故事的問題,建立了一種關聯(lián)模型,該模型通過建立故事和世界知識的聯(lián)系來回答問題,并且試圖通過模型生成與故事相關的問題。Richardson[4]等用改進的詞袋模型在MCTest數(shù)據(jù)集上取得66.25%的準確率。Narasimhan[5]等提出一種聯(lián)合概率模型,模型中加入篇章關系特征使結(jié)果較前人有顯著提高。Sachan[6]等提出一種答案蘊含結(jié)構(gòu),用修改后的SVM模型(LSSVM)進行候選句選取和參數(shù)訓練,最終實現(xiàn)答案預測。Iyyer[7]等提出深度學習的方法,將閱讀理解任務看作是分類問題,運用遞歸神經(jīng)網(wǎng)絡(RNN)學習句子的向量表示,用邏輯回歸分類器對篇章預測類別,類別標簽就是問題的答案。Berant[8]等提出一種結(jié)構(gòu)分析方法,分別構(gòu)造材料中句子以及選項的實體關系圖,實現(xiàn)從篇章句子到答案的推理。以上方法均是在英文語料和數(shù)據(jù)集上進行研究和測試,多為人工構(gòu)建,其難度及復雜度不高。本文立足于高考語文,結(jié)合中文自然語言的特征,對漢語高考語文的自動答題進行探索性研究。

        高考語文閱讀理解常見的形式有問答題和選擇題。綜合分析選擇題的題目設置特點,將選擇題類型劃分為五種,分別為“文意理解”、“觀點支持”、“擬寫標題”、“指代消解”和“補寫句子”。本文主要研究選擇題中的觀點支持類題型,在近五年北京高考閱讀理解選擇題中該類題型約占31%。題型如圖1所示。該題型與其它類型選擇題的主要區(qū)別是題干中包含與篇章文本相關的句子,如圖1中題干信息包含的“昆蟲的翅膀是一個工程學奇跡”就是篇章文本中出現(xiàn)過的句子。

        Fig.1 2013 Beijing college entrance examination sample show about Point of view support multiple choice questions (The italicized black option is the correct answer)
        圖1 北京2013高考題中觀點支持類選擇題樣題示例(斜體選項是正確答案)

        本文提出一種無監(jiān)督的選項和題干一致性的答案預測模型,用帶隱含變量的判別式框架來捕獲篇章句子、題干、選項三者之間隱藏的關系。同時將方法在歷年高考真題和模擬題上進行了多次實驗,并采用平均準確率得分(AAS)指標對模型進行評價。

        1 題干結(jié)構(gòu)化表示

        閱讀理解問題的正確解答建立在正確理解題干信息的基礎之上。本文利用LTP句法分析器[9]進行題干句法分析,形成答題三元組。其中V表示題干中包含的與篇章相關的句子,是篇章中出現(xiàn)的一個文本片段,本文將題干中這部分與篇章相關的信息定義為題干觀點,后文將沿用該定義。D表示題干答題要求,即true或false,要求給出正確的答案或者是錯誤的答案。N表示答題的個數(shù)。例如圖1給出題干信息:根據(jù)文意,下列說話不支持“昆蟲的翅膀是一個工程學奇跡”的一項是(),題干分析之后結(jié)果如下:

        ●V: 昆蟲的翅膀是一個工程學奇跡

        ●D: false

        ●N: 1

        題干分析得到的題干觀點V是題干中與篇章相關的信息,但題干觀點由有限幾個詞匯組合而成,其語義信息較少,所以我們基于同義詞詞林[10]對觀點詞匯進行了擴展,找到在語義層面上與觀點詞匯具有語義相關性的詞匯加入到觀點詞匯集合中。同義詞詞林是五層結(jié)構(gòu),第四層和第五層分類更加細致[11],可以為詞匯擴展任務提供支持。在同義詞詞林擴展版中檢索觀點詞匯,取與其具有公共父節(jié)點的詞作為擴展詞匯。

        2 選項和題干一致性模型

        為了實現(xiàn)高考閱讀理解問題的自動解答,我們提出一種無監(jiān)督的答案預測模型,對篇章的題干、篇章句子片段進行建模。模型從兩個層面對選項置信度進行度量。第一個層面,需要度量選項是否與題干觀點相關,即選項與題干的相關度[5],以排除與題干無關聯(lián)的選項。第二層面,需要度量選項是否與篇章語義層面保持一致,即篇章中的句子對選項的支持度?;谝陨蟽蓚€層面的度量定義聯(lián)合打分函數(shù)對選項置信度進行打分,預測得分最高的選項為正確答案。

        2.1 模型定義

        篇章句子作為中間橋梁,可以勾連題干、正確答案之間的關系。選項與題干觀點的相關度和篇章文本對選項的支持度都是通過篇章句子來刻畫的。我們用A表示選項集合,用D表示篇章中的句子集合。對于給定的選項ai∈A和題干觀點v,定義了關于篇章中的單個句子sj∈D、選項和題干觀點的聯(lián)合打分函數(shù):

        score(ai,sj,v)=R(sj,v)+S(sj,ai)

        (1)

        其中,篇章句子sj是隱含變量。聯(lián)合打分函數(shù)由兩部分組成。其中R(sj,v)是單個句子與觀點的相關度(Relevance Degree),反映的是句子與該題干觀點的相關程度,相關程度越高,句子對于該題目越重要。S(sj,ai)是單個句子對于當前選項的支持度(Support Degree),反映的是句子對于選項的支持程度,支持程度越高,選項的正確度就越高。

        用兩個特征函數(shù)以及相對應的權重來分別刻畫聯(lián)合打分函數(shù)中的相關度函數(shù)和支持度函數(shù):

        R(sj,v)=θ1φ1(sj,v)

        (2)

        S(sj,ai)=θ2φ2(sj,ai)

        (3)

        其中,θ1和θ2是權重。φ1是相關度特征函數(shù),φ1是支持度特征函數(shù)。具體的特征函數(shù)的計算方法將在2.2節(jié)和2.3節(jié)介紹。

        根據(jù)公式(1),基于篇章中所有的句子對選項置信度進行打分,打分函數(shù)表示如下:

        (4)

        其中,S是篇章文本的所有句子集,|S|表示篇章中的句子總數(shù)。

        最終,模型基于以下目標函數(shù)(公式5)預測答案:

        (5)

        其中,A是選項集合。

        依據(jù)選項置信度得分對選項排序,按題目要求輸出答案。

        2.2 相關度特征函數(shù)(φ1)

        高考閱讀理解綜合考察理解篇章句子,分析題目,綜合梳理信息的能力。了解題目設置錯誤選項的方法,有助于掌握答題方法。命題者設置錯誤選項的方法有八種:以偏概全,張冠李戴,無中生有,曲解原意,強加因果,答非所問,偷換概念,改變性質(zhì)[12]。其中與觀點支持類選擇題選項對錯判斷直接相關的設置錯誤選項的方法有“答非所問”、“無中生有”等,即選項與題干無關聯(lián)通常是選項錯誤的一項重要原因。以2005年山東高考語文真題第7題為例進行說明,篇章標題為《你利用花,花也利用你》,文章從兩方面對人類和花之間的利用關系進行闡述,其中題目信息如圖2:

        下列各句中,不屬于“花也在利用你”的一項是A花卉可能利用了其能激發(fā)人積極的情感和其他深層心理變化這一影響來不斷進化。B花可用來表達撫慰之情或柔情蜜意,也可用于恭喜慶賀或請求寬恕。C開花植物利用花兒給人帶來的感情獎賞不斷進化。D我們?nèi)祟惥褪腔ɑ苓M行繁衍戰(zhàn)略的一部分。

        Fig.2 2005 Shandong college entrance examination questions
        圖2 2005山東高考真題題目信息

        經(jīng)分析,A、C、D三選項是“花也利用你”主題的原文信息復述,而B是對“你利用花”主題的原文信息的復述。顯然B與題干無任何關聯(lián),為正確答案。

        針對這種問題,本文提出一種基于篇章句子的相關度計算方法來度量句子與題干觀點的相關度。

        相關度是一個模糊的概念,沒有一個標準的定義和客觀的標準可以衡量[13-14]。相關度一般用于信息檢索中,用來描述文檔和查詢之間的相關程度[15]。本文相關度用來衡量篇章句子與題干觀點的相關程度,相關度越高,篇章句子對于本題目越重要。而篇章中句子是題干觀點和選項的中間件。這就從另一個角度反映了與篇章句子相關聯(lián)的選項與觀點的相關程度。

        相關度計算的基礎是對題干觀點進行篇章原文出處定位,將定位到的原文出處句子表示為si。篇章中句子sj與題干觀點v的相關度計算轉(zhuǎn)化為篇章中句子與觀點原文出處句子的相關度,如公式(6):

        φ1(sj,v)=φ1(sj,sv)

        (6)

        篇章的組織結(jié)構(gòu)一般是句子間空間距離越近,相關性越高。相鄰的句子塊表達相同的主題。簡單的衡量句子相關性方法是通過篇章中句子的物理空間距離。這里的空間距離的概念是句子的相鄰距離,如,篇章的第5句和第7句的距離是2,而第5句和第12句的距離是7,所以第7句與第5句的相關度一定比第12句與第5句的相關度高?;诖?本文將相關度函數(shù)定義為

        (7)

        其中,sj表示篇章中的句子,sv為題干觀點定位到的原文出處句子,d(sj,sv)為句子距離函數(shù),取值范圍為(0,N)。N為篇章中的句子總數(shù)。這樣定義函數(shù),既保證了取值范圍在(0,1)區(qū)間,又確保了句子物理距離越近相關度越高的設想。

        2.3 支持度特征函數(shù)(φ2)

        支持度特征反映的是篇章句子與選項之間的語義蘊含關系,篇章句子對選項的支持度越高,從篇章句子到選項的蘊含關系越強。本文從句子相似度、反義匹配、否定匹配三方面語義特征來刻畫篇章句子對選項的支持度。

        2.3.1 基于核心語義句子相似度

        句子相似度計算是對句子間的相似性給出一個度量[16]。一般而言,兩個句子的相似度越高,其相互支持的程度就越高,因此,本文利用句子相似度來度量句子與選項的相互支持度。詞匯作為句子的最小意義單元,其相似度計算應作為句子相似度計算的基礎。本文利用Hownet[17]語義資源,采用基于知網(wǎng)的詞匯語義相似度計算[18]方法,計算詞匯間的語義相似度,最終得到句子之間的語義相似度。

        在句子相似度計算中,一些虛詞、介詞語義意義不大,因此在計算句子間相似度之前先提取句子語義核心詞,將名詞、形容詞、動詞、數(shù)詞等實詞作為句子的語義核心詞匯。如高考語文中選項的句子片段“分布在鼻腔黏膜上”,提取得到的語義核心成分為“分布鼻腔黏膜”。如此將選項a和篇章中的句子s看作兩個核心詞匯集合,分別包含n和m個語義核心詞匯??梢员硎緸?

        a={Wa1,Wa2,…,Wan}s={Ws1,Ws2,…,Wsm}

        經(jīng)語義核心詞匯提取之后,得到的是無序的詞匯集合。但這些核心詞匯對于選項的重要度是不相同的,本文基于詞匯在篇章中出現(xiàn)頻率為選項詞匯賦予不同的權重。一般詞匯在文中出現(xiàn)的次數(shù)越多,那么該詞匯對于判斷選項正確與否重要度就越低。如“分布鼻腔黏膜”中,“分布”和“鼻腔”在篇章中出現(xiàn)的次數(shù)要比“黏膜”多,“黏膜”對于篇章中別的詞匯來說就比較稀缺,那么相對于另外兩個詞匯,“黏膜”對于選項來說其重要度是更高的,應賦予比較高的權值。基于以上分析,對選項中的語義核心詞賦予不同的權值。本文參考Matthew et al.2013[4]中的反詞頻,將詞匯的反詞頻作為詞匯的權重。其中選項a第i個核心詞匯的權重計算公式如下:

        (8)

        其中count(wai)為詞匯Wai在篇章中出現(xiàn)的次數(shù)。

        在此基礎上,計算句子s與選項a的句子相似度sim(s,a),方法表示如下:

        Step1: 核心詞匯之間的語義相似度計算。從選項a中的核心詞匯中選出一個詞分別與篇章句子s中m個核心詞匯計算語義相似度,循環(huán)直至a中詞集為空。設選項a中第i個詞匯和篇章句子s中第j個詞匯之間的相似度記為sij。得到相似度矩陣為:

        取選項a中第i個詞匯與篇章句子s詞匯集合的最大語義相似度為si=max(si1,si2,…,sim)。得到詞匯語義相似度向量g=(選項的核心詞匯個數(shù)為n)。

        Step2:基于公式(8)對選項a中的核心詞匯進行權重計算。得到選項的權值向量ω=<ω1,ω2,…,ωn>。

        表1 反義詞對示例Table 1 Examples of antonyms

        Step3: 求得選項和篇章句子的相似度,sim(a,s)=ωτg/n。

        2.3.2 反義匹配

        在真實的試題實例中也存在一些特殊現(xiàn)象,有些篇章中的句子和選項共同出現(xiàn)的詞匯比較多,導致按上面的句子相似度計算方法得到的句子相似度比較高,但實際上兩個句子中包含了一對反義詞。Hownet[15]知識庫在詞匯相似度和相關度方面表現(xiàn)比較好的計算性能,但對于具有對義和反義的詞匯之間的關系刻畫比較不夠準確。為此課題組從網(wǎng)站在線反義詞查詢(http:∥fyc.5156edu.com)以及新華反義詞詞典[19]中收集整理得到8 390多條反義詞對,來捕獲句子之間的反義詞匯。表1給出收集到的反義詞對列表實例。

        當選項和篇章句子中有互為反義的句子存在,即使它們之間的句子相似度高,篇章句子對選項的支持度也是很低的。如選項句子片段為“在大眾傳播上微信的傳播能力很強”,篇章中句子片段為“微信的大眾傳播能力較弱”。兩個句子片段很多詞匯重疊出現(xiàn),其句子相似度很高,但發(fā)現(xiàn)因為有反義詞對“強”和“弱”的出現(xiàn),篇章句子對選項的支持度是很低的,換言之,篇章句子對選項是不支持的。

        反義匹配特征主要針對與選項相似度最高的句子。當篇章中與選項相似度最高的句子與選項之間出現(xiàn)反義詞對,就將句子對選項的支持度φ2置為0。否則φ2為句子與選項的2.3.1句子相似度。

        2.3.3 否定匹配

        當篇章句子或選項中出現(xiàn)否定詞匯時,系統(tǒng)性能就會大大下降。例如,選項“昆蟲翅膀柔軟性可比碳纖維的復合材料”,篇章句子片段為“就連碳纖維復合材料都無法與昆蟲的翅膀相比”。按本文句子相似度計算方法,該句子片段是篇章中與選項句子相似度最高的。但篇章句子中出現(xiàn)否定詞匯“無法”,使語義和選項完全相反。我們使用簡單的啟發(fā)式方法來解決否定問題,通過規(guī)則匹配檢測否定詞匯的出現(xiàn)。課題組參考《現(xiàn)代漢語詞典》[20],結(jié)合高考閱讀理解的特點,收集整理了漢語中常用的否定詞,得到30個否定詞,見表2。本文定義的否定詞是含有否定意味的詞匯。其中有漢語中否定字“無”、“沒”、“非”、“不”、“否”這樣的否定詞種子。也有基于這些否定詞種子擴展得到的詞匯,如“沒有”、“無法”、“不能”等。

        表2 高考閱讀理解否定詞表Table 2 College entrance examination reading comprehension negative vocabulary

        否定匹配特征與反義匹配相似,也是針對篇章中與選項相似度最高的句子的。當篇章中與選項相似度最高的句子或選項其中一個包含否定詞匯,另一個不包含,就將該句子對選項的支持度φ2置為0。否則φ2為句子與選項的2.3.1句子相似度。

        3 實驗及結(jié)果分析

        3.1 實驗數(shù)據(jù)及預處理

        實驗所用的高考語文閱讀理解觀點支持類題目來自于近10年各省市高考真題以及高考模擬題。根據(jù)題干答題要求選取“正確”(true)還是“不正確”(false)的答案,將數(shù)據(jù)集分成兩類。針對False類型的題目,我們的模型轉(zhuǎn)換預測規(guī)則,預測置信度得分最低的選項為正確答案。本文使用哈爾濱工業(yè)大學社會計算與信息檢索研究中心的語言處理集成平臺LTP[8]對篇章文本、題干信息、選項進行分詞、詞性標注以及句法分析預處理。

        3.2 評價指標

        本文使用平均準確率得分[5](average accuracy score AAS)對實驗結(jié)果進行評價。計算公式如下:

        (9)

        (10)

        其中,|Q|為題目總數(shù),si為第i個題目的準確率得分。Ci為系統(tǒng)預測的得分最高的選項集合,ai為正確答案。當集合Ci包含ai時,δ(Ci,ai)取值為1,否則δ(Ci,ai)為0。針對False類型題目,評分規(guī)則相反,Ci為系統(tǒng)預測的得分最低的選項集合。

        3.3 確定本文的Baseline

        為了驗證基于選項與題干一致性模型的答案預測方法的有效性,實驗將基于詞袋模型[4](Bag of Word,BOW)的解答方法作為基準方法(Baseline),與本文方法進行比較。其算法如下。

        算法:詞袋模型Fori=1to4do S=Ai∪Q/U scorei=1λ∑j=1|s|count(wj); ∥wj為S中第j個詞匯;∥count(Wj)為Wj在P中出現(xiàn)的次數(shù)∥1λ是正則化項EndforReturnscore1…4

        形式化表示:P為篇章文本的詞匯集合,Q為題干觀點的詞匯集合,A1…4為選項的詞匯集合,停用詞集為U。

        根據(jù)算法得到選項的得分,進行排序,根據(jù)題目要求,True類型題目選取得分最高的為正確答案,False類型題目相反。

        3.4 實驗結(jié)果與分析

        本文主要進行了三組實驗:評估相關度和支持度的不同權值對結(jié)果的影響,獲得最優(yōu)的權值參數(shù);驗證不同的特征組合對結(jié)果的影響;比較兩種模型的實驗結(jié)果。

        1)實驗一:參數(shù)選擇

        實驗比較了相關度權值θ1和支持度權值θ2對不同結(jié)果的影響。θ1和θ2的取值及其對應的實驗結(jié)果如表3。

        表3 不同權值的實驗結(jié)果Table 3 Experimental results of different weights

        表3顯示,當θ1和θ2取值分別為0.6和0.4時,模型取得最好的結(jié)果,AAS達到39.19。AAS普遍較低,這不僅因為高考試題難度和復雜度較大,還因為高考真題與模擬題題目設置差異比較大,當使用最優(yōu)的參數(shù)對,高考真題上的準確率為50%,而在模擬題中的準確率只有33%。

        2)實驗二:不同特征組合的實驗比較

        本文包含相關度特征和支持度特征。其中,相關度特征用句子距離來刻畫,支持度特征用句子相似度、反義匹配、否定匹配三個特征來刻畫。表4為不同特征的組合對實驗結(jié)果的影響。

        句子相似度特征作為基本特征,分別加入別的特征進行組合的實驗結(jié)果顯示,句子距離、反義匹配和否定匹配三種特征,其中的每一個特征的加入都有效提高了準確率。三個特征全部加入之后,準確率相比于只有句子相似度特征提高了18.39%,說明本文特征的合理性和有效性。

        表4 不同特征組合的實驗結(jié)果Table 4 Experimental results of different combinations of features

        3)實驗三:模型結(jié)果比較

        本文提出的方法(option and question consistency model OQCM)與詞袋模型(BOW)對比,準確率高出約5%(見表5)。相對于詞袋模型只考慮詞匯的表層特征,本文方法能夠從句子語義角度,分析出篇章句子與選項之間的文本蘊含關系。

        表5 兩種模型實驗結(jié)果Table 5 Two model experimental results

        4 結(jié)論與展望

        針對高考語文閱讀理解中的觀點支持類題型,通過分析考察高考語文閱讀理解中篇章文本、題干信息和選項之間的關系,提出一種基于選項和題干一致性的建模方法。該方法從篇章句子片段與題干觀點相關度和篇章句子對選項支持度兩個維度進行建模,其中相關度特點用句子距離特征來刻畫,支持度特征通過句子相似度、反義匹配、否定匹配三方面特征來描述,最終根據(jù)選項置信度得分對選項進行排序,預測正確答案。

        針對高考閱讀理解任務,接下來我們將融入句子的漢語框架語義[21]特征、語義依存句法特征和百科知識庫等語義資源,進一步擴展題干信息和背景材料語義知識,改進模型中兩個度量的定義,提升模型的平均準確率。

        致謝:本文實驗用到了哈爾濱工業(yè)大學信息檢索研究中心的語言云平臺;知網(wǎng)平臺提供的詞匯語義相似度計算工具,在此表示感謝!

        [1] Ferrucci DA,Brown E W,Chu-Carvoll J,etal.Building Watson:An Overview of the DeepQA Project[J].ArtificialIntelligenceMagazine,2010,31(3):59-79.

        [2] Hirschman L,Light M,Breck E,etal.Deep Read:A Reading Comprehension System[C]∥Meeting of the Association for Computational Linguistics,1999:325-332.DOI:10.3115/1034678.1034731.

        [3] Charniak E.Toward a Model of Children′s Story Comprehension[D].Chicago:University of Chicago,1972.

        [4] Richardson M,Burges C J C,Renshaw E.Mctest:A Challenge Dataset for the Open-domain Machine Comprehension of Text[C]∥EmpiricalMethodsinNaturalLanguageProcessing,2013:193-203.

        [5] Narasimhan K,Barzilay R.Machine Comprehension with Discourse Relation[C]∥TheAssociationforComputationalLinguistics,2015:1253-1262.DOI:10.3115/v1/P15-1121.

        [6] Sachan M,Dubey A K,Xing E,etal.Learning Answer-Entailing Structures for Machine Comprehension[C]∥TheAssociationforComputationalLinguistics,2015(1):239-249.DOI:10.3115/v1/p15-1024.

        [7] Iyyer M,Boyd-Graber J,Claudino L,etal.A Neural Network for Factoid Question Answering over Paragraphs[C]∥EmpiricalMethodsinNaturalLanguageProcessing,2014:218-227.DOI:10.3115/v1/D14-1070.

        [8] Berant J,Srikumar V,Chen P C,etal.Modeling Biological Processes for Reading Comprehension[D]∥EmpiricalMethodsinNaturalLanguageProcessing,2014:1499-1510.DOI:10.3115/v1/D14-1159.

        [9] Liu T,Che W,Li Z.Language Technology Platform[J].ComputationalLinguistics,2010,2(6):13-16.

        [10] 梅家駒,竺一鳴,高蘊琦,等.同義詞詞林[M].上海:上海辭書出版社,1993:106-108.

        [11] 田久樂,趙蔚.基于同義詞詞林的詞語相似度計算方法[J].吉林大學學報,2010,28(6):602-608.DOI:10.3969/j.issn.1671-5896.2010.06.011.

        [12] 教育部考試中心.高考文科試題分析[M].北京:高等教育出版社,2012.

        [13] 許云,樊孝忠,張鋒.基于知網(wǎng)的語義相似度計算[J].北京理工大學學報,2005,25(5):411-414.DOI:10.3969/j.issn.1001-0645.2005.05.009.

        [14] 劉宏哲,須德.基于本體的語義相似度和相關度計算研究綜述[J].計算機科學,2012,39(2):8-13.DOI:10.3969/j.issn.1002-137X.2012.02.002.

        [15] 閆潑.信息檢索中的排序與相關度計算研究[D].濟南:山東大學碩士學位論文,2008.DOI:10.7666/d.y1349040.

        [16] 李茹,王智強,李雙紅,等.基于框架語義分析的漢語句子相似度計算[J].計算機研究與發(fā)展,2013,50(8):1728-1736.

        [17] 董振東,董強.“知網(wǎng)”[EB/OL].[2011-08-20].http:∥www.keenage.com.

        [18] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度[J].中文計算語言學,2002,7(2):59-76.

        [19] 商務印書館辭書研究中心.新華反義詞詞典[M].北京:商務印書館辭書研究中心,2011.

        [20] 中國社會科學院語言研究所詞典編輯室.現(xiàn)代漢語詞典:第6版[M]. 北京:商務印書館,2011.

        [21] 李茹.漢語句子框架語義結(jié)構(gòu)分析技術研究[D].太原:山西大學博士學位論文,2012.

        AnswerPredictionofReadingComprehension

        LI Ru1,2,MA Shuhui1*,ZHANG Hu1,GUO Shaoru1

        (1.SchoolofComputer&InformationTechnology,ShanxiUniversity,Taiyuan030006,China;2.KeyLaboratoryofComputationIntelligence&ChineseInformationProcessing,ShanxiUniversity,Taiyuan030006,China)

        For the Chinese reading comprehension of college entrance examination,this paper proposed a new method of Answer Prediction based on option-question consistency discriminative model, which jointly identifies the relation of a question, relevant sentences and the option. The model is based on the relevant degree between the text sentences and the question and the support degree between the sentences and the option, and then the united scoring function is defined with the two measures. In which the relevant degree is measured by the distance between the source sentence of the question and an text sentence, and the support degree is measured by three semantic features of sentence similarity,Antisense matching and negative matching. Moreover,three groups of experiments were conducted in nearly 10 years of college entrance examination questions and simulation questions,The experimental results are given to show the effect of this method on the combination of different features and the parameter setting.

        Chinese college entrance examination;reading comprehension;option-question consistency

        10.13451/j.cnki.shanxi.univ(nat.sci.).2017.04.014

        2017-03-21;

        2017-03-30

        國家863計劃(2015AA015407);國家自然科學基金(61373082,61502287);山西省科技基礎條件平臺建設項目(2014091004-0103);山西省回國留學人員科研資助項目(2013-015);中國民航大學信息安全測評中心開放課題基金(CAAC-ISECCA-201402);山西省高??萍紕?chuàng)新項目(201505); 山西省高等學校科技創(chuàng)新項目(2015104)

        李茹(1963-),女,博士,教授,主要研究方向:中文信息處理。E-mail:liru@sxu.edu.cn

        *通訊作者:馬淑暉(MA shuhui) ,E-mail:huihui387@sina.cn

        TP391

        A

        0253-2395(2017)04-0763-08

        猜你喜歡
        題干觀點選項
        數(shù)字算式
        觀點
        提綱挈領 撥云見日
        考試周刊(2017年16期)2017-12-12 08:31:22
        跟蹤導練(四)
        閱讀理解
        跟蹤導練(5)
        單項填空精選練習100道
        在閱讀題干中尋求解題鎖鑰
        文學教育(2016年26期)2016-04-03 20:03:11
        業(yè)內(nèi)觀點
        營銷界(2015年22期)2015-02-28 22:05:04
        新銳觀點
        清風(2014年10期)2014-09-08 13:11:04
        亚洲欧美国产精品久久| 少妇裸淫交视频免费看| 极品夫妻一区二区三区| 电影内射视频免费观看| av香港经典三级级 在线| 级毛片免费看无码| 免费av在线视频播放| 漂亮人妻被强了完整版| 午夜无码伦费影视在线观看| 色综合88| 亚洲一区二区三区国产精品视频 | 欧美性受xxxx狂喷水| 日韩中文字幕久久久老色批| 黑人巨大精品欧美一区二区免费| 欧美喷潮久久久xxxxx| 精品国产福利一区二区三区| 男人天堂亚洲天堂av| 人妻夜夜爽天天爽| 国产成人精品免费久久久久| 国产精品二区三区在线观看| 神马影院午夜dy888| 欧美老熟妇欲乱高清视频| 欧美亚洲另类自拍偷在线拍| 男女做那个视频网站国产| 精品国产av色一区二区深夜久久| 亚洲综合欧美日本另类激情| 一本色道久久88综合亚洲精品| 国产一区二区三区视频网 | 国产精品无码一区二区三区在| 老司机在线精品视频网站| 久久er这里都是精品23| 成人一区二区三区国产| 久久久无码人妻精品无码| 国产高潮精品久久AV无码| 国产女主播福利一区二区| 把女人弄爽特黄a大片| 狠狠爱无码一区二区三区| 午夜男女视频一区二区三区| 尤物yw午夜国产精品视频| 精品亚洲欧美无人区乱码| 国产精品无套粉嫩白浆在线|