亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向高考語(yǔ)文閱讀理解的篇章標(biāo)題選擇研究

        2018-07-18 03:02:40呂國(guó)英郭少茹譚紅葉
        中文信息學(xué)報(bào) 2018年6期
        關(guān)鍵詞:測(cè)試題主旨段落

        關(guān) 勇,呂國(guó)英,李 茹,2,3,郭少茹,譚紅葉

        (1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2.山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006;3. 山西省大數(shù)據(jù)挖掘與智能技術(shù)協(xié)同創(chuàng)新中心,山西 太原 030006)

        0 引言

        閱讀理解(reading comprehension,RC)作為問(wèn)答任務(wù)的一個(gè)重要分支,受到越來(lái)越多的關(guān)注[1-2]。閱讀理解式問(wèn)答系統(tǒng)是從一篇給定的背景材料中查找答案,要求系統(tǒng)在“閱讀”完一篇材料后,根據(jù)對(duì)材料的“理解”給出問(wèn)題的答案[3]。

        高考語(yǔ)文閱讀理解中,背景材料相對(duì)較短且極具隱藏性,答案可能無(wú)法在背景材料中直接找到,因此,更注重考查機(jī)器對(duì)文章理解和概括的能力。高考語(yǔ)文閱讀理解科技文分為選擇題和問(wèn)答題兩大題型。選擇題題型劃分為五種,分別為“文意理解”、“觀點(diǎn)支持”、“擬寫(xiě)標(biāo)題”、“指代消解”和“補(bǔ)寫(xiě)句子”[4]。目前,選擇題主要針對(duì)“文意理解”、“觀點(diǎn)支持”類(lèi)題目展開(kāi)研究,解答這兩類(lèi)題目需要通過(guò)對(duì)與選項(xiàng)相關(guān)句子或片段的理解選出答案。標(biāo)題選擇題目的解答則需要對(duì)整個(gè)篇章進(jìn)行理解概括,分析標(biāo)題與篇章的相關(guān)性,進(jìn)而選出答案。

        篇章標(biāo)題選擇類(lèi)題目可形式化描述為: 篇章、題干和選項(xiàng)三元組,篇章D={P1,P2,…,Pi,…,Pm}。其中,Pi,(i∈[1,m])為篇章D中第i個(gè)段落。Q表示題干,題干中沒(méi)有提供解題相關(guān)的信息,因此解題過(guò)程中沒(méi)有涉及題干的內(nèi)容。選項(xiàng)集A={A1,A2,…,Ak,…,An},其中,Ak,(k∈[1,n])為選項(xiàng)A中第k個(gè)選項(xiàng)。解答此類(lèi)問(wèn)題,首先抽取篇章要點(diǎn),計(jì)算每個(gè)選項(xiàng)Ak與各個(gè)要點(diǎn)的相關(guān)性,形成相關(guān)度矩陣。然后,根據(jù)標(biāo)題結(jié)構(gòu)特點(diǎn)對(duì)標(biāo)題進(jìn)行分類(lèi),形成標(biāo)題結(jié)構(gòu)權(quán)值。最后,融合相關(guān)度矩陣和標(biāo)題結(jié)構(gòu)權(quán)值選出最佳選項(xiàng)A*。題目示例如表1所示。

        針對(duì)高考語(yǔ)文閱讀理解科技文篇章標(biāo)題選擇類(lèi)題目,本文提出基于標(biāo)題與篇章要點(diǎn)相關(guān)性分析模型。該模型構(gòu)建了基于標(biāo)題與篇章要點(diǎn)的相關(guān)度矩陣(2.1節(jié)),并融入標(biāo)題結(jié)構(gòu)特征(2.2節(jié))進(jìn)一步優(yōu)化模型。在全國(guó)近10年高考真題和測(cè)試題上進(jìn)行實(shí)驗(yàn),對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,最后對(duì)本文工作進(jìn)行總結(jié)。

        表1 篇章標(biāo)題選擇題目示例

        1 相關(guān)工作

        針對(duì)閱讀理解任務(wù)提出的相關(guān)技術(shù)可以分為兩種: 基于特征的方法[5-7]和基于深度學(xué)習(xí)的方法[8-11]。

        基于特征的方法通常使用特征工程、語(yǔ)言工具、外部資源等來(lái)解決這類(lèi)問(wèn)題。文獻(xiàn)[3]針對(duì)高考語(yǔ)文閱讀理解文意理解類(lèi)題型,提出一種多維度投票算法。該算法將Word2Vec、HowNet、詞袋模型、框架語(yǔ)義場(chǎng)景四個(gè)方面作為度量標(biāo)準(zhǔn),運(yùn)用投票算法的思想,選取最佳答案。文獻(xiàn)[4]針對(duì)高考語(yǔ)文閱讀理解題干支持類(lèi)題目,通過(guò)對(duì)篇章、題干、選項(xiàng)三者的關(guān)系進(jìn)行建模,制定聯(lián)合打分函數(shù),加入句子相似度特征、反義匹配特征、否定特征三個(gè)語(yǔ)義特征信息,提出基于題干與選項(xiàng)一致性判別模型。文獻(xiàn)[12]提出一種答案蘊(yùn)含策略,把問(wèn)題、正確選項(xiàng)和文章之間的關(guān)系用一個(gè)答案蘊(yùn)含結(jié)構(gòu)表達(dá),通過(guò)模型獲得該答案蘊(yùn)含結(jié)構(gòu),選出正確選項(xiàng)。

        基于深度學(xué)習(xí)的方法主要是通過(guò)構(gòu)建神經(jīng)網(wǎng)絡(luò)模型。在基于詞向量表示基礎(chǔ)上,利用深度神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)句子的向量表示,然后把任務(wù)轉(zhuǎn)換成分類(lèi)或排序問(wèn)題。文獻(xiàn)[13]針對(duì)MCtest數(shù)據(jù)集機(jī)器理解任務(wù),構(gòu)建一個(gè)基于Attention機(jī)制的分層的卷積神經(jīng)網(wǎng)絡(luò)模型。通過(guò)對(duì)文章、問(wèn)題、答案進(jìn)行建模,發(fā)現(xiàn)與回答問(wèn)題相關(guān)的關(guān)鍵短語(yǔ)、關(guān)鍵句和關(guān)鍵片段。文獻(xiàn)[14]針對(duì)閱讀理解任務(wù)提出一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)模型,學(xué)習(xí)詞和短語(yǔ)的向量表示進(jìn)行實(shí)體推理,用邏輯回歸分類(lèi)器對(duì)篇章預(yù)測(cè)類(lèi)別,類(lèi)別標(biāo)簽就是問(wèn)題的答案。文獻(xiàn)[15]基于分布式表達(dá)的思想,將問(wèn)題與候選答案都映射到一個(gè)分布式的語(yǔ)義表達(dá)中,然后,基于二者的表達(dá)來(lái)學(xué)習(xí)問(wèn)題與候選答案的匹配程度。

        基于特征的方法需要人工構(gòu)建不同的特征,耗費(fèi)大量的時(shí)間,而基于端到端的神經(jīng)網(wǎng)絡(luò)模型雖然可以自動(dòng)學(xué)習(xí)特征,但是由于數(shù)據(jù)的稀疏性、問(wèn)題的復(fù)雜性,效果提升不是很明顯。因此,本文結(jié)合基于特征的方法和神經(jīng)網(wǎng)絡(luò)的方法,提出標(biāo)題與篇章要點(diǎn)相關(guān)性分析模型。

        2 標(biāo)題與篇章要點(diǎn)相關(guān)性分析模型

        2.1 標(biāo)題與篇章要點(diǎn)相關(guān)度矩陣

        篇章由不同的段落組成,篇章各段落涉及不同的要點(diǎn)內(nèi)容,標(biāo)題是對(duì)篇章中各要點(diǎn)內(nèi)容的高度理解概括。恰當(dāng)?shù)臉?biāo)題覆蓋篇章各個(gè)要點(diǎn)內(nèi)容,如何判斷標(biāo)題對(duì)各要點(diǎn)的覆蓋程度是解決標(biāo)題選擇題的關(guān)鍵問(wèn)題。針對(duì)此問(wèn)題,提出了標(biāo)題與篇章要點(diǎn)相關(guān)度矩陣。矩陣由選項(xiàng)和篇章要點(diǎn)相似度組成,行表示選項(xiàng)與各篇章要點(diǎn)相似度值,列表示篇章要點(diǎn)與各選項(xiàng)相似度值。根據(jù)相關(guān)度矩陣選取覆蓋篇章要點(diǎn)內(nèi)容最全面的一項(xiàng)作為最恰當(dāng)?shù)臉?biāo)題。圖1為2015年北京高考題(第三題)相關(guān)度矩陣示意圖。矩陣維度為4*5,分別表示四個(gè)選項(xiàng)和五個(gè)段落,顏色的深淺代表相似度值的大小,顏色越深代表相似度值越大。可以看出選項(xiàng)B覆蓋篇章要點(diǎn)內(nèi)容最全面,為最恰當(dāng)?shù)臉?biāo)題。具體公式如式(1)、式(2)所示。

        其中,Sim(Ak,Seni)表示選項(xiàng)Ak與篇章要點(diǎn)Seni的相似度值,Ak,k∈[1,n],Seni表示篇章要點(diǎn),m表示篇章要點(diǎn)的個(gè)數(shù),Answermatrix表示選項(xiàng)與篇章要點(diǎn)相關(guān)度最高的一項(xiàng)。

        圖1 標(biāo)題與篇章要點(diǎn)相關(guān)度矩陣

        2.1.1篇章要點(diǎn)抽取

        篇章要點(diǎn)的獲取是形成標(biāo)題與篇章要點(diǎn)相關(guān)度矩陣的關(guān)鍵。篇章各段落涉及不同的要點(diǎn)內(nèi)容,段落主旨句是段落的中心句或者主題句,具有概括段落的作用,是段落的中心所在,所以,選取段落主旨句作為篇章要點(diǎn)。針對(duì)篇章要點(diǎn)獲取問(wèn)題,提出了基于相關(guān)因素的段落主旨句抽取方法。該方法對(duì)同義、上下位概念進(jìn)行歸并,同時(shí),綜合語(yǔ)句所在位置、文章標(biāo)題、語(yǔ)句中所含重要詞匯等多種度量方式,綜合評(píng)估句子反映主題的價(jià)值,從而更精確地抽取出段落的主旨句。在文獻(xiàn)[16-17]方法基礎(chǔ)上,針對(duì)高考科技文的特點(diǎn)進(jìn)行了改進(jìn)。

        (1) 段首、段尾句權(quán)值優(yōu)化。高考科技文的段落中,段首句或者段尾句一般是總結(jié)段落內(nèi)容的句子,所以段落的段首、段尾句包含的主題信息量比重比較大。對(duì)語(yǔ)句權(quán)值的調(diào)整如式(3)、式(4)所示。

        其中,W(Si)表示語(yǔ)句的位置權(quán)值,Lnum表示段落中句子數(shù)量,j表示當(dāng)前句子在段落中的位置,W(SLnum)表示段落尾句的權(quán)值。

        (2) 長(zhǎng)句權(quán)值優(yōu)化。主旨句大多包含說(shuō)明文章主題或關(guān)鍵內(nèi)容的主題概念字串,所以包含主題字串多的語(yǔ)句可作為主旨句。長(zhǎng)句所包含的主題字串的數(shù)量一般要高于短句,因而長(zhǎng)句計(jì)算出來(lái)的權(quán)值較高,因此需要減弱語(yǔ)句長(zhǎng)度對(duì)權(quán)值的影響,對(duì)語(yǔ)句權(quán)值的調(diào)整如式(5)、式(6)所示。

        選取段落中語(yǔ)句權(quán)值最大的語(yǔ)句作為段落的主旨句,語(yǔ)句的權(quán)值可由不同的度量方式組合得到,如式(7)所示。

        (7)

        其中,σ1+σ2+σ3=1,F(xiàn)(Pi,Sj)表示段落Pi的第Sj句話的語(yǔ)句權(quán)值,WTitle(Sj)表示第Sj句話的標(biāo)題權(quán)值。

        2.1.2基于LSTM的選項(xiàng)與篇章要點(diǎn)的相關(guān)性計(jì)算

        2.1.1節(jié)中,抽取了段落主旨句作為篇章要點(diǎn)。如何計(jì)算標(biāo)題與篇章要點(diǎn)的相關(guān)性是生成相關(guān)度矩陣的難點(diǎn)。針對(duì)該問(wèn)題,提出了基于LSTM的選項(xiàng)與篇章要點(diǎn)相關(guān)性計(jì)算方法,模型如圖2所示。

        基于神經(jīng)網(wǎng)絡(luò)的方法大多是在基于詞向量表示的基礎(chǔ)上,利用深度神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)句子的向量表示,把任務(wù)轉(zhuǎn)換成分類(lèi)或排序問(wèn)題。模型結(jié)構(gòu)與文獻(xiàn)[18-19]類(lèi)似。

        輸入層是由篇章要點(diǎn)(集合SK)和選項(xiàng)(集合A)組成的二元組。其中,SK表示篇章要點(diǎn)集合,A表示選項(xiàng)集合。把集合SK、A用預(yù)先訓(xùn)練好的詞向量分別表示為一個(gè)詞向量矩陣W。實(shí)驗(yàn)中使用Word2Vec[20]訓(xùn)練詞向量。每個(gè)詞向量的維度為100維,窗口大小為5,訓(xùn)練語(yǔ)料為百度百科,語(yǔ)料大小為13.3G。

        圖2 基于LSTM的選項(xiàng)與篇章要點(diǎn)的相關(guān)性計(jì)算

        LSTM層使用bi-LSTM獲取選項(xiàng)和篇章要點(diǎn)的向量表示[21]。bi-LSTM會(huì)提供給輸入序列每一個(gè)節(jié)點(diǎn)過(guò)去和未來(lái)的上下文信息,相對(duì)于單向LSTM來(lái)說(shuō)能提供更多的特征信息。具體公式如下:

        池化操作有最大池化、平均池化等,本文使用的是最大池化k-Maxpooling(k=1)方式。hsk和ha分別表示篇章要點(diǎn)和選項(xiàng)的向量表示,篇章要點(diǎn)和選項(xiàng)之間的相關(guān)性用篇章要點(diǎn)和選項(xiàng)的向量的余弦相似度表示。損失函數(shù)和文獻(xiàn)[22]類(lèi)似,如式(11)所示。

        (11)

        其中,cos(hsk,ha+)表示文章和正確選項(xiàng)的相似度,cos(hsk,ha-)表示文章和錯(cuò)誤選項(xiàng)的相似度,hsk表示篇章要點(diǎn),ha+表示正確選項(xiàng),ha-表示錯(cuò)誤選項(xiàng),Q表示閾值。訓(xùn)練集中,每條數(shù)據(jù)中只有一個(gè)正例標(biāo)題和一個(gè)負(fù)例標(biāo)題。在測(cè)試集上,每條數(shù)據(jù)中有四個(gè)候選選項(xiàng),分別輸出每個(gè)選項(xiàng)和各個(gè)篇章要點(diǎn)的相似度值,形成標(biāo)題和篇章的相關(guān)度矩陣。

        2.2 篇章標(biāo)題結(jié)構(gòu)分析

        標(biāo)題作為讀者閱讀文章的第一項(xiàng)內(nèi)容,對(duì)理解文章內(nèi)容具有重要的作用。本文參考文獻(xiàn)[23-25]的分類(lèi)體系,分析了5 872篇高考科技文標(biāo)題結(jié)構(gòu)和語(yǔ)言特點(diǎn)。根據(jù)高考科技文標(biāo)題的特點(diǎn),制定了相應(yīng)的結(jié)構(gòu)體系,如(1)~(5)所示。具體類(lèi)別比例如表2所示,其中以名詞短語(yǔ)結(jié)構(gòu)為主。

        (1) 名詞短語(yǔ)+名詞短語(yǔ)標(biāo)題(n+n): 由一個(gè)以上的名詞短語(yǔ)構(gòu)成。例如,“圍棋與國(guó)家”。

        (2) 動(dòng)詞短語(yǔ)+名詞短語(yǔ)標(biāo)題(v+n): 由動(dòng)詞和名詞短語(yǔ)構(gòu)成。例如,“拯救閱讀”。

        (3) 名詞短語(yǔ)+動(dòng)詞短語(yǔ)標(biāo)題(n+v): 由名詞和動(dòng)詞短語(yǔ)構(gòu)成。例如,“太空行走”。

        (4) 完整句子結(jié)構(gòu)標(biāo)題(s): 指從語(yǔ)法角度講符合句子構(gòu)成的標(biāo)題。例如,“企業(yè)家為什么越來(lái)越重視書(shū)畫(huà)文化?”。

        (5) 名詞標(biāo)題(n): 由單一名詞短語(yǔ)或是專(zhuān)有名詞構(gòu)成。例如,“古琴”。

        表2 標(biāo)題類(lèi)別比例

        對(duì)標(biāo)題結(jié)構(gòu)進(jìn)行分析統(tǒng)計(jì),形成標(biāo)題結(jié)構(gòu)權(quán)值,如式(12)所示。

        (12)

        其中,F(xiàn)T(Ai)表示標(biāo)題類(lèi)別為i的權(quán)值,Ki表示標(biāo)題類(lèi)別為i所占的比例。

        2.3 融合標(biāo)題結(jié)構(gòu)權(quán)值

        標(biāo)題具有高度歸納概括篇章內(nèi)容、結(jié)構(gòu)鮮明的特點(diǎn)。標(biāo)題與篇章要點(diǎn)相關(guān)度矩陣方法主要考慮了對(duì)篇章內(nèi)容的概括、標(biāo)題與篇章內(nèi)容的相關(guān)性分析。篇章標(biāo)題結(jié)構(gòu)分析方法主要研究了標(biāo)題的結(jié)構(gòu)特點(diǎn),對(duì)標(biāo)題進(jìn)行分類(lèi)。因此,將以上兩種方法進(jìn)行融合來(lái)獲得更好的實(shí)驗(yàn)結(jié)果。具體如式(13)、式(14)所示。

        其中,Answerfuse表示融合標(biāo)題結(jié)構(gòu)信息后最終的答案,F(xiàn)W(Ai)表示選項(xiàng)Ai融合標(biāo)題結(jié)構(gòu)信息后的答案。

        標(biāo)題與篇章要點(diǎn)相關(guān)性分析模型具體思路為: 先抽取段落Pi的主旨句作為段落的要點(diǎn),計(jì)算每個(gè)選項(xiàng)Ak與各個(gè)要點(diǎn)的相關(guān)性,形成相關(guān)度矩陣。再根據(jù)標(biāo)題結(jié)構(gòu)的特點(diǎn)對(duì)標(biāo)題進(jìn)行分類(lèi),形成標(biāo)題結(jié)構(gòu)權(quán)值,融合相關(guān)度矩陣和標(biāo)題結(jié)構(gòu)權(quán)值選出最佳選項(xiàng)A*。如算法1所示。

        算法1標(biāo)題與篇章要點(diǎn)相關(guān)性分析

        輸入: 篇章D={P1,P2,…,Pi,…,Pm};選項(xiàng)A={A1,A2,…,Ak,…,An};

        輸出: 最佳選項(xiàng)A*

        初始化 集合Dyd中存儲(chǔ)篇章各要點(diǎn),集合Fstruct存儲(chǔ)標(biāo)題結(jié)構(gòu)權(quán)值,集合Fbd存儲(chǔ)選項(xiàng)與篇章要點(diǎn)的相似度,S*臨時(shí)存儲(chǔ)段落要點(diǎn),F(xiàn)*臨時(shí)存儲(chǔ)選項(xiàng)與篇章要點(diǎn)的相似度,T*臨時(shí)存儲(chǔ)標(biāo)題結(jié)構(gòu)權(quán)值

        FORPiIND

        S*=MAX{F(Pi,Sj)}

        //獲取段落要點(diǎn)S*,將S*添加到Dyd中;

        ENDFOR

        FORAkINA

        ENDFOR

        //獲取選項(xiàng)與篇章要點(diǎn)的相似度F*,將F*添加到Fbd中;

        T*=FT(Ak)

        //獲取標(biāo)題結(jié)構(gòu)權(quán)值T*,將T*添加到Fstruct中;

        ENDFOR

        FORAkINA

        //融合標(biāo)題結(jié)構(gòu)權(quán)值

        IFA*

        A*=A

        ENDIF

        ENDFOR

        返回A*

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)所使用的語(yǔ)料包括5 872套高考模擬題(包含23 428個(gè)段落)和216套高考題(包含864個(gè)段落)。其中,訓(xùn)練語(yǔ)料為5 872套高考模擬題,測(cè)試集包括18道高考真題和134道測(cè)試題。測(cè)試題語(yǔ)料的篇章為有標(biāo)題的高考科技文,選項(xiàng)正例為文章標(biāo)題,負(fù)例由三名同學(xué)分別為文章擬寫(xiě)一個(gè)標(biāo)題構(gòu)成。測(cè)試題樣例如表3所示。實(shí)驗(yàn)所用的高考題及高考模擬題語(yǔ)料均由山西大學(xué)中文信息處理課題組收集。本文使用哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心的語(yǔ)言處理集成平臺(tái)LTP[26]對(duì)篇章文本進(jìn)行分詞、詞性標(biāo)注。

        3.2 Baseline

        為了驗(yàn)證標(biāo)題與篇章要點(diǎn)相關(guān)性模型的有效性,實(shí)驗(yàn)設(shè)置了較為常用的比較方法,包括:

        a) 基于詞匹配的方法(Baseline1): 針對(duì)閱讀理解問(wèn)題,該方法通過(guò)計(jì)算每個(gè)選項(xiàng)和候選句的相似度來(lái)實(shí)現(xiàn)答案選取的功能。首先抽取文章中每段的首句作為候選句,并且對(duì)每個(gè)選項(xiàng)提取關(guān)鍵詞,利用預(yù)先訓(xùn)練好的詞向量計(jì)算每個(gè)選項(xiàng)和候選句的相似度,最后選取相似度值最高的一項(xiàng)作為正確答案。

        表3 測(cè)試題樣例

        b) 卷積神經(jīng)網(wǎng)絡(luò)框架[21](Baseline2): 針對(duì)非事實(shí)類(lèi)的問(wèn)答任務(wù),作者基于CNN提出了六種框架。使用第二個(gè)框架做對(duì)比實(shí)驗(yàn),該框架使用CNN來(lái)學(xué)習(xí)問(wèn)題和答案的向量表示,然后用余弦相似度對(duì)答案進(jìn)行排序。

        c) 基于多維度投票的算法(Multi-Dimension Voting): 針對(duì)高考語(yǔ)文閱讀理解文意理解類(lèi)題型進(jìn)行分析,提出一種多維度投票算法。該算法將Word2Vec、HowNet、詞袋模型、框架語(yǔ)義場(chǎng)景四個(gè)方面作為度量標(biāo)準(zhǔn),運(yùn)用投票算法的思想,計(jì)算相關(guān)句子與選項(xiàng)之間的語(yǔ)義相關(guān)性。

        3.3 實(shí)驗(yàn)結(jié)果

        主旨句的抽取分別在高考真題、測(cè)試題和高考模擬題上進(jìn)行了實(shí)驗(yàn)。通過(guò)實(shí)驗(yàn)對(duì)比分析式(7)中參數(shù)σ1、σ2、σ3分別設(shè)置為{0.52,0.32,0.16},實(shí)驗(yàn)結(jié)果如表4所示。抽取段落主旨句的評(píng)價(jià)標(biāo)準(zhǔn),使用抽取精度表示,如式(15)所示。

        (15)

        其中,Ptopic表示準(zhǔn)確率,s表示抽取正確的主旨句個(gè)數(shù),t表示總主旨句個(gè)數(shù)。

        表4 主旨句抽取結(jié)果

        從表4可以看出,主旨句抽取準(zhǔn)確率最高的是高考真題,準(zhǔn)確率達(dá)到了85.3%,最低的是高考模擬題。追蹤實(shí)驗(yàn)數(shù)據(jù),發(fā)現(xiàn)影響抽取準(zhǔn)確率的一個(gè)因素。本文對(duì)每個(gè)段落都抽取了主旨句,實(shí)際上有些段落的主旨句不明顯,其主旨句是由兩句話組成,或者該段落的主旨句需要總結(jié)概括,不能直接抽取句子作為主旨句。

        參數(shù)選擇。為了確定式(13)中φ的取值,本文在134道測(cè)試題上用不同的φ取值做實(shí)驗(yàn),選取最優(yōu)的參數(shù)取值,實(shí)驗(yàn)結(jié)果如圖3所示。

        圖3 不同權(quán)重φ下融合方法的準(zhǔn)確率

        其中,橫坐標(biāo)為權(quán)重φ的取值,縱坐標(biāo)為實(shí)驗(yàn)結(jié)果??煽闯鲈讦罩禐?0.4 時(shí),準(zhǔn)確率最高,后續(xù)實(shí)驗(yàn)中φ取值均為0.4。

        為了更好地對(duì)比本文的方法,對(duì)本文方法做了兩個(gè)變式。

        Variant-1: LSTM擁有記憶功能,能夠捕捉文章上下文信息,可以解決序列問(wèn)題,該方法把文章每個(gè)段落整段作為基于LSTM的選項(xiàng)與篇章要點(diǎn)相關(guān)性計(jì)算方法的輸入,而不是先抽取段落主旨句作為輸入(圖2)。

        Variant-2: 該方法在本文方法的基礎(chǔ)上去除標(biāo)題結(jié)構(gòu)分析部分,來(lái)驗(yàn)證篇章標(biāo)題結(jié)構(gòu)分析對(duì)實(shí)驗(yàn)結(jié)果的影響。

        為了統(tǒng)計(jì)準(zhǔn)確答案處于候選項(xiàng)中第一或是第二位置的結(jié)果,使用Top-k的準(zhǔn)確率P來(lái)評(píng)價(jià)答題結(jié)果[27],如式(16)所示。

        (16)

        CorrectAnswer(k)表示針對(duì)測(cè)試語(yǔ)料題目中前k個(gè)結(jié)果中正確的答案?jìng)€(gè)數(shù)。

        表5為18道高考真題測(cè)試的準(zhǔn)確率,表6為134道測(cè)試題測(cè)試的準(zhǔn)確率。其中,Top-1的準(zhǔn)確率表示解題正確的概率,Top-2表示在四個(gè)選項(xiàng)中正確答案排在前兩位的概率。

        表5 測(cè)試語(yǔ)料為高考真題的準(zhǔn)確率

        從表5可以看出,在Top-1、Top-2準(zhǔn)確率上,本文方法準(zhǔn)確率都是最好的。其中,Top-1準(zhǔn)確率達(dá)到了0.487。從Top-2準(zhǔn)確率可以看出正確選項(xiàng)位于前二位的概率達(dá)到了0.76。

        表6 測(cè)試語(yǔ)料為測(cè)試題的準(zhǔn)確率

        從表6可以看出,在Top-1、Top-2準(zhǔn)確率上,本文方法準(zhǔn)確率都是最高的。其中,高考題Top-1準(zhǔn)確率達(dá)到了0.487,測(cè)試題Top-1準(zhǔn)確率達(dá)到了0.46。

        從表5、表6可以看出,本文方法Top-1準(zhǔn)確率在不同的數(shù)據(jù)集上均比其他方法高。但高考真題的準(zhǔn)確率比測(cè)試題的準(zhǔn)確率高了2.7%。研究實(shí)驗(yàn)結(jié)果后發(fā)現(xiàn),主旨句的抽取準(zhǔn)確率會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生影響。測(cè)試題中主旨句的抽取準(zhǔn)確率為83.7%,由于測(cè)試題選項(xiàng)為人工出的,故沒(méi)有高考真題規(guī)范。

        從表5、表6可以看出,在不同的數(shù)據(jù)集上本文方法準(zhǔn)確率都是最高的。通過(guò)Variant-1和本文方法對(duì)比,可以發(fā)現(xiàn)本文抽取段落主旨句作為篇章要點(diǎn)輸入比整個(gè)段落輸入實(shí)驗(yàn)效果好。通過(guò)Variant-2和本文方法的對(duì)比,可以發(fā)現(xiàn)當(dāng)加入了標(biāo)題結(jié)構(gòu)權(quán)值信息之后,模型的準(zhǔn)確率有了提升。這說(shuō)明本文提出的抽取段落主旨句作為篇章要點(diǎn)和融合標(biāo)題結(jié)構(gòu)信息的方法是有效的。

        從表5 、表6還可以看出,Multi-Dimension Voting方法結(jié)果與Variant-1結(jié)果相近,沒(méi)有本文方法結(jié)果好。研究實(shí)驗(yàn)數(shù)據(jù)后發(fā)現(xiàn)一個(gè)最主要的原因是,Multi-Dimension Voting方法針對(duì)的是高考語(yǔ)文閱讀理解文意理解類(lèi)題型。該類(lèi)題目的題干中包含文章內(nèi)容信息量大,且解題需要的信息只與文章中某個(gè)片段信息相關(guān)。而標(biāo)題選擇類(lèi)題目的解答需要對(duì)整個(gè)篇章內(nèi)容進(jìn)行理解概括,分析標(biāo)題與篇章內(nèi)容的相關(guān)性。

        從表5 、表6以可以看出,在不同的數(shù)據(jù)集不同方法中Top-2的準(zhǔn)確率均大于Top-1的準(zhǔn)確率。Top-2的準(zhǔn)確率在高考題上最高,達(dá)到了0.76,在測(cè)試題上本文方法的Top-2準(zhǔn)確率也達(dá)到了0.71,這說(shuō)明在四個(gè)候選項(xiàng)中本文方法可以很好地去除兩個(gè)干擾項(xiàng)的影響。

        從圖4可以看出,在不同方法上高考真題的準(zhǔn)確率都高于測(cè)試題的準(zhǔn)確率(除了Baseline高考真題的準(zhǔn)確率比測(cè)試題的低了1%)。這是由于本文方法主要是針對(duì)高考題,且高考真題比較規(guī)范。從圖4中可以看出在不同數(shù)據(jù)集上本文方法的準(zhǔn)確率都是最高的,從而驗(yàn)證了本文方法的有效性。

        圖4 不同方法Top-1準(zhǔn)確率在兩個(gè)測(cè)試集上的對(duì)比

        4 總結(jié)與展望

        本文針對(duì)高考語(yǔ)文閱讀理解篇章標(biāo)題選擇題目,提出標(biāo)題與篇章要點(diǎn)相關(guān)性分析模型。根據(jù)標(biāo)題高度凝練且能準(zhǔn)確表達(dá)文意的特點(diǎn),構(gòu)建了基于標(biāo)題與篇章要點(diǎn)的相關(guān)度矩陣。并在此基礎(chǔ)上,依據(jù)標(biāo)題結(jié)構(gòu)鮮明的特點(diǎn),對(duì)標(biāo)題進(jìn)行梳理和分類(lèi),融入標(biāo)題結(jié)構(gòu)特征,實(shí)現(xiàn)篇章標(biāo)題選擇題目的解答。實(shí)驗(yàn)結(jié)果表明,本文的方法與對(duì)比實(shí)驗(yàn)方法相比,在兩個(gè)測(cè)試集上實(shí)驗(yàn)準(zhǔn)確率都有所提升。

        本文方法在高考真題上Top-2的準(zhǔn)確率達(dá)到了0.76,下一步將分析總結(jié)選項(xiàng)位于第一位和第二位的特點(diǎn),進(jìn)一步提升Top-1準(zhǔn)確率。同時(shí),進(jìn)一步搜集相關(guān)的語(yǔ)料,擴(kuò)大語(yǔ)料規(guī)模,進(jìn)一步提升模型的準(zhǔn)確率和普適性。

        猜你喜歡
        測(cè)試題主旨段落
        【短文篇】
        高一化學(xué)期末測(cè)試題(一)
        高一化學(xué)期末測(cè)試題(二)
        心理小測(cè)試
        主旨演講
        海峽姐妹(2019年6期)2019-06-26 00:52:26
        記敘文的選材與主旨
        夏天,愛(ài)情的第四段落
        《一次函數(shù)》測(cè)試題
        必修1、必修2第二輪復(fù)習(xí)測(cè)試題
        平淡真實(shí)顯主旨
        无码专区一ⅴa亚洲v天堂| 亚欧同人精品天堂| 日韩精品一区二区三区免费观影| 精品国产香蕉伊思人在线又爽又黄| 国产精品玖玖资源站大全| 成人免费av高清在线| 国内揄拍国内精品少妇| 国产成人亚洲精品无码av大片| 国产成人无码av在线播放dvd | 亚洲综合久久精品无码色欲| 在线欧美精品二区三区| 狼人av在线免费观看| 免费在线观看av不卡网站| 国产熟妇按摩3p高潮大叫| 永久无码在线观看| 一区二区三区在线观看精品视频| 手机在线亚洲精品网站| 边做边流奶水的人妻| 亚洲精品123区在线观看| 中文字幕亚洲中文第一| 国产97色在线 | 国产| 成人无码一区二区三区网站| 夜夜春精品视频| 日本精品熟妇一区二区三区| 东风日产车是不是国产的| 99久久免费只有精品国产| 成熟丰满熟妇高潮xxxxx视频| 欧洲亚洲第一区久久久| 国产丝袜美腿嫩模视频诱惑| 亚洲日韩精品一区二区三区无码| 亚洲精品久久久久久| 亚洲综合久久一本久道| 国产高清成人午夜视频| 蜜臀av在线观看| 亚洲 自拍 另类小说综合图区| 国产亚洲一本大道中文在线| 又爽又猛又大又湿的视频| 老熟女的中文字幕欲望| 国产免费av片在线观看播放| 日韩毛片久久91| 国产剧情av麻豆香蕉精品|