亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于依存句法的初等數(shù)學(xué)分層抽樣應(yīng)用題題意理解

        2019-05-16 08:32:32吳林靜勞傳媛劉清堂黃景修
        關(guān)鍵詞:句法語(yǔ)義文本

        吳林靜 勞傳媛 劉清堂 黃景修 巴 深

        (華中師范大學(xué)教育信息技術(shù)學(xué)院 湖北 武漢 430079)

        0 引 言

        數(shù)學(xué)問(wèn)題自動(dòng)求解一直是數(shù)學(xué)智能教學(xué)系統(tǒng)的研究重難點(diǎn)?,F(xiàn)有系統(tǒng)在實(shí)現(xiàn)題目求解功能時(shí),大部分都是依賴于預(yù)先設(shè)置的題庫(kù),這就導(dǎo)致了系統(tǒng)能解決的問(wèn)題數(shù)量受到題庫(kù)規(guī)模的限制,且其并不具有良好的魯棒性。愈多領(lǐng)域相關(guān)的研究者開(kāi)始思考:如何使計(jì)算機(jī)具有理解并處理自然語(yǔ)言描述的數(shù)學(xué)問(wèn)題的能力。自然語(yǔ)言處理無(wú)疑是實(shí)現(xiàn)數(shù)學(xué)問(wèn)題自動(dòng)求解的關(guān)鍵。應(yīng)用自然語(yǔ)言處理技術(shù)處理數(shù)學(xué)問(wèn)題的核心目標(biāo)就是從“豐滿”的應(yīng)用題文本中抽取出與解題相關(guān)的特定信息。數(shù)學(xué)問(wèn)題的題意理解在一步加減等簡(jiǎn)單數(shù)學(xué)題上已經(jīng)取得了突破性的進(jìn)展,通過(guò)關(guān)鍵詞匹配等技術(shù),使計(jì)算機(jī)能夠理解題目以進(jìn)入下一步的推理工作。然而,面對(duì)語(yǔ)義相對(duì)復(fù)雜、上下文情景相對(duì)多變的數(shù)學(xué)應(yīng)用題文本,如初等數(shù)學(xué)分層抽樣應(yīng)用題,仍有待解決,這是人工智能發(fā)展的必經(jīng)之路。

        本文以實(shí)現(xiàn)從初等數(shù)學(xué)分層抽樣應(yīng)用題文本中抽取出關(guān)鍵解題信息為研究目標(biāo),采用依存句法與句模相結(jié)合的方法,對(duì)2008年至2014年所有省份的高考數(shù)學(xué)文理科試卷及模擬卷中篩選的150道分層抽樣類數(shù)學(xué)應(yīng)用題開(kāi)展了相關(guān)研究。通過(guò)實(shí)驗(yàn)研究發(fā)現(xiàn),與僅基于句模的信息抽取方法相比,基于依存句法的改進(jìn)信息抽取方法對(duì)不同語(yǔ)義角色的應(yīng)用題單句的信息抽取準(zhǔn)確率有一定的提高,整題抽取的準(zhǔn)確率從40%上升至68%,證明了本文方法的有效性。

        1 相關(guān)研究

        1.1 數(shù)學(xué)問(wèn)題自動(dòng)求解

        數(shù)學(xué)問(wèn)題自動(dòng)求解問(wèn)題涉及語(yǔ)義表征、題意理解、問(wèn)題求解等多個(gè)方面,包含復(fù)雜的認(rèn)知過(guò)程,因此,要實(shí)現(xiàn)機(jī)器自動(dòng)化處理,無(wú)疑是比較艱巨的。隨著技術(shù)的進(jìn)步與眾多研究員的刻苦鉆研,數(shù)學(xué)問(wèn)題自動(dòng)求解的研究工作也逐漸取得了一些成果。1964年,Bobrow等[1]針對(duì)英語(yǔ)表述的高中代數(shù)應(yīng)用題,設(shè)計(jì)開(kāi)發(fā)了第一個(gè)研究數(shù)學(xué)求解問(wèn)題的系統(tǒng)——STUDENT系統(tǒng);1986年,Dellarosa等[2]借鑒Kintsch提出的問(wèn)題框架表征模型,模擬人類的認(rèn)知過(guò)程,開(kāi)發(fā)了能實(shí)現(xiàn)一步加減算術(shù)應(yīng)用題自動(dòng)求解的ARITHPRO系統(tǒng);隨著大規(guī)模知識(shí)庫(kù)的應(yīng)用日益得到重視,2007年,Wong等[3]開(kāi)發(fā)的LIM-G系統(tǒng)通過(guò)構(gòu)建本體知識(shí)庫(kù),實(shí)現(xiàn)了一步加減幾何應(yīng)用題的求解自動(dòng)化;近年,由日本國(guó)立情報(bào)學(xué)研究所和富士通合作制造的“Todai機(jī)器人”數(shù)學(xué)問(wèn)題求解系統(tǒng)[4]已經(jīng)能夠解決將近一半的日本二檔高考數(shù)學(xué)題。

        國(guó)內(nèi)關(guān)于數(shù)學(xué)問(wèn)題自動(dòng)求解的研究,始于吳文俊院士[5]在幾何定理機(jī)器證明上取得的突破性進(jìn)展。其后,張景中院士不僅提出了消點(diǎn)算法[6],促進(jìn)了幾何定理機(jī)器證明的發(fā)展,還主持開(kāi)發(fā)了多個(gè)數(shù)學(xué)教育軟件,實(shí)現(xiàn)了包括不等式在內(nèi)的多種數(shù)學(xué)形式的機(jī)器證明[7]。另外,程志等[8]以小學(xué)數(shù)學(xué)整數(shù)一步和部分二步應(yīng)用題為研究對(duì)象,以關(guān)鍵詞串匹配的方式實(shí)現(xiàn)了數(shù)學(xué)應(yīng)用題的自動(dòng)求解。相對(duì)于英語(yǔ)與純數(shù)學(xué)公式文本,中文表述的應(yīng)用題自動(dòng)求解的實(shí)現(xiàn)更為復(fù)雜。當(dāng)前已取得突破性進(jìn)展的主要是小學(xué)數(shù)學(xué)應(yīng)用題或者代數(shù)、不等式等表述較為簡(jiǎn)單、數(shù)學(xué)關(guān)系明確的數(shù)學(xué)問(wèn)題。表述豐富的數(shù)學(xué)問(wèn)題自動(dòng)求解的研究仍然受到中文題目理解技術(shù)的局限。

        1.2 句 模

        句模起源于語(yǔ)言學(xué)研究。魯川等[9]提出,語(yǔ)言是有限的句子“模型”的集合,而句模則是指在語(yǔ)義平面上的句子模型。句模研究在對(duì)漢語(yǔ)句子進(jìn)行語(yǔ)義句型的劃分后,針對(duì)某個(gè)句型,開(kāi)展包括基本組成成分、句子結(jié)構(gòu)、語(yǔ)序等內(nèi)容的研究。句模不僅可以應(yīng)用于漢語(yǔ)教學(xué)、外語(yǔ)翻譯上,還有部分研究者提出將其應(yīng)用于自然語(yǔ)言處理領(lǐng)域。例如:樊孝忠等[10]在進(jìn)行銀行領(lǐng)域漢語(yǔ)自動(dòng)問(wèn)答系統(tǒng)BAQS的研究與開(kāi)發(fā)中,采用句模去對(duì)問(wèn)句進(jìn)行匹配分析;張濱等[11]提出基于漢語(yǔ)句模理論的中文處理策略,以降低分詞難度和提高分詞精度;Al-A′Ali[12]提出了一種方法,通過(guò)學(xué)習(xí)知識(shí)庫(kù)中存儲(chǔ)的不同句型來(lái)將其運(yùn)用于短語(yǔ)預(yù)測(cè)、句子語(yǔ)義檢查等方面;Matsumoto等[13]結(jié)合句模與規(guī)則來(lái)對(duì)情感評(píng)估方法進(jìn)行優(yōu)化;馬莉等[14]針對(duì)句模匹配方法只能處理各個(gè)關(guān)鍵詞中有分隔詞的問(wèn)句的局限性,將句模匹配與關(guān)鍵詞詞庫(kù)匹配相結(jié)合的方法對(duì)問(wèn)句進(jìn)行理解。

        隨著在語(yǔ)義理解中的應(yīng)用日漸深化,句模慢慢進(jìn)入數(shù)學(xué)問(wèn)題自動(dòng)求解領(lǐng)域研究者的視野。周穎等[15]特別針對(duì)“有”字句,應(yīng)用框架表示法對(duì)解題相關(guān)信息進(jìn)行存儲(chǔ),利用句模實(shí)現(xiàn)應(yīng)用題自動(dòng)解答系統(tǒng)中“有”字句的語(yǔ)義理解。Iwane等[16]針對(duì)一步加減應(yīng)用題的簡(jiǎn)單句,通過(guò)句子分類及統(tǒng)計(jì)對(duì)應(yīng)類型的規(guī)范,由關(guān)鍵詞與句型規(guī)范進(jìn)行匹配,以實(shí)現(xiàn)應(yīng)用題句子的理解。馬玉慧等[17]在進(jìn)行小學(xué)數(shù)學(xué)應(yīng)用題自動(dòng)求解的問(wèn)題研究時(shí),針對(duì)應(yīng)用題中包含情境豐富導(dǎo)致的語(yǔ)義理解困難的問(wèn)題,提出利用文本中信息能夠窮舉的特點(diǎn),構(gòu)建語(yǔ)義句模以實(shí)現(xiàn)小學(xué)數(shù)學(xué)應(yīng)用題的語(yǔ)義理解難題。

        當(dāng)前研究極大促進(jìn)了數(shù)學(xué)問(wèn)題自動(dòng)求解中句模應(yīng)用的發(fā)展,但其主要還是針對(duì)情境較為簡(jiǎn)單的小學(xué)應(yīng)用題或是應(yīng)用題中的簡(jiǎn)單句,較少涉及到參數(shù)多、情境復(fù)雜的數(shù)學(xué)應(yīng)用題,如初等數(shù)學(xué)應(yīng)用題。

        1.3 依存句法

        依存句法分析是句法分析的主要方法之一,應(yīng)用某一依存語(yǔ)法體系對(duì)對(duì)給定的句子序列進(jìn)行自動(dòng)分析構(gòu)建句子對(duì)應(yīng)的依存樹(shù)[18]。任一句子序列都包含了多個(gè)成分,成分之間存在的句法關(guān)系,通常被稱為依存關(guān)系。常見(jiàn)的依存關(guān)系有SBV(主謂關(guān)系)、VOB(動(dòng)賓關(guān)系)、COO(并列關(guān)系)、ATT(定中關(guān)系)、ADV(狀中結(jié)構(gòu))等。依存句法分析一經(jīng)提出,就得到了不少關(guān)注,相關(guān)領(lǐng)域的研究者根據(jù)不同的理論及應(yīng)用實(shí)際,設(shè)計(jì)并實(shí)現(xiàn)了多種不同的依存句法分析方法。例如:Giguet等[19]將依存分析與組塊分析相結(jié)合,構(gòu)建了基于泰尼埃理論的法語(yǔ)依存句法分析器;Schrder等[20]將依存句法轉(zhuǎn)化為約束滿足問(wèn)題,以約束依存文法為基礎(chǔ)提出了新的依存句法分析方法;劉海濤等[21]采用MaltParser和漢語(yǔ)依存樹(shù)庫(kù)來(lái)對(duì)依存句法分析方法進(jìn)行優(yōu)化改進(jìn)。

        隨著依存句法分析不斷發(fā)展,其在自然語(yǔ)言處理領(lǐng)域也得到了廣泛應(yīng)用。Wang等[22]利用依存句法對(duì)語(yǔ)言動(dòng)機(jī)模型進(jìn)行改進(jìn),使其能夠更有效地應(yīng)用于會(huì)話語(yǔ)音識(shí)別中。Hacioglu[23]將語(yǔ)義角色標(biāo)注轉(zhuǎn)化為依存關(guān)系的分類問(wèn)題,通過(guò)依存分析方法實(shí)現(xiàn)了語(yǔ)義角色標(biāo)注。任彬等[24]提出了一種基于依存句法分析的文本挖掘方法,并利用其社會(huì)媒體文本進(jìn)行信息抽取與分析。上述只是依存句法分析應(yīng)用的部分實(shí)例,可見(jiàn)其在語(yǔ)音識(shí)別、語(yǔ)義角色標(biāo)注、文本挖掘等自然語(yǔ)言處理各個(gè)領(lǐng)域的貢獻(xiàn)是不容置疑的。自然語(yǔ)言處理,也是數(shù)學(xué)問(wèn)題自動(dòng)求解的難題之一。依存句法分析在自然語(yǔ)言處理領(lǐng)域的有效應(yīng)用,也可借鑒到數(shù)學(xué)問(wèn)題題意理解的研究工作當(dāng)中。

        2 分層抽樣應(yīng)用題的句子特征分析

        本文選取初等數(shù)學(xué)分層抽樣類應(yīng)用題為研究對(duì)象,對(duì)應(yīng)用題的文本特征進(jìn)行分析,并以應(yīng)用題的單句為單位研究其句子核心成分,為基于依存句法的應(yīng)用題信息抽取方法提供一定的理論依據(jù)。

        2.1 文本特征分析

        下面為一道典型的分層抽樣高考數(shù)學(xué)應(yīng)用題:

        “某校有高級(jí)教師26人,中級(jí)教師104人,其他教師若干人。為了了解該校教師的工資收入情況,若按分層抽樣從該校的所有教師中抽取56人進(jìn)行調(diào)查,已知從其他教師中共抽取了16人,則該校共有教師多少人?”

        從該例子中,可以總結(jié)出此類應(yīng)用題的文本描述存在如下特征:

        1) 初等數(shù)學(xué)分層抽樣應(yīng)用題文本較為簡(jiǎn)短,一般由不超過(guò)10個(gè)短句構(gòu)成。應(yīng)用題文本總體長(zhǎng)度一般位于40至160之間,而單句長(zhǎng)度大多不超過(guò)50個(gè)字,屬于短文本。

        2) 初等數(shù)學(xué)分層抽樣應(yīng)用題文本信息主要可以分為兩類:情境類信息和數(shù)值類信息。情境類信息一般是指用于描述問(wèn)題并賦予一定數(shù)值的實(shí)體信息,比如“高級(jí)教師”、“中級(jí)教師”、“其他教師”等,也包括僅用于為問(wèn)題提出作情景鋪墊的、與解題無(wú)關(guān)的文字性表達(dá)。而數(shù)值類信息則是應(yīng)用題解題的關(guān)鍵信息,一般由數(shù)字、字母等構(gòu)成,可用于數(shù)值計(jì)算。

        3) 初等數(shù)學(xué)分層抽樣應(yīng)用題的分句大多表示實(shí)體或?qū)嶓w間的數(shù)量關(guān)系或數(shù)值變化。應(yīng)用題的解題過(guò)程實(shí)際上就是一個(gè)數(shù)學(xué)運(yùn)算的過(guò)程,即通過(guò)挖掘數(shù)量關(guān)系或數(shù)值變化去求解問(wèn)題的一個(gè)過(guò)程。

        4) 初等數(shù)學(xué)分層抽樣應(yīng)用題分句包含的成分有限,各成分的“合理”排列組合同樣有限。也就是說(shuō),數(shù)學(xué)問(wèn)題的句式結(jié)構(gòu)有一定的局限性和重復(fù)性,例如:“中級(jí)教師104人”和“A類學(xué)校80所”的句式結(jié)構(gòu)實(shí)際上都是“名詞+數(shù)詞+量詞”。

        2.2 句子核心成分

        針對(duì)上述特征,本文以分層抽樣類應(yīng)用題為例,將各應(yīng)用題單句主要?jiǎng)澐譃榱肆鶄€(gè)核心組成部分,分別為:所屬、對(duì)象、關(guān)系、動(dòng)詞、數(shù)詞、量詞。這六個(gè)句子核心成分與數(shù)學(xué)問(wèn)題求解過(guò)程有著密不可分的關(guān)系,起著建構(gòu)數(shù)學(xué)模型或進(jìn)行數(shù)學(xué)運(yùn)算的關(guān)鍵作用。

        分層抽樣類數(shù)學(xué)應(yīng)用題文本通常包含兩個(gè)以上的實(shí)體,實(shí)體間的關(guān)系主要包括三類:聚合、類屬和并列。聚合,表現(xiàn)為一種整體與部分的關(guān)系,但是整體與部分是相互獨(dú)立可分的,比如說(shuō),學(xué)校和教師、魚(yú)販和魚(yú)等。類屬,相對(duì)于聚合,更多地表現(xiàn)為一種抽象與具體的關(guān)系,實(shí)體間的抽象概括程度有高低之分,例如,教師與高級(jí)教師、魚(yú)與秋刀魚(yú)等。而像高級(jí)教師、中級(jí)教師、其他教師這幾個(gè)實(shí)體中存在的關(guān)系,即不屬于聚合和類屬,但實(shí)體間又具有部分相同的屬性,本文將其稱為并列。

        表1給出了分層抽樣類應(yīng)用題的六個(gè)句子核心成分的解釋及實(shí)例。

        表1 分層抽樣類應(yīng)用題的句子核心成分的解釋及實(shí)例

        續(xù)表1

        鑒于應(yīng)用題單句成分的可數(shù)性及其排列組合的有限性,本文以這六個(gè)句子核心成分為基礎(chǔ),通過(guò)建構(gòu)相關(guān)句模,展開(kāi)了基于句模的初等數(shù)學(xué)應(yīng)用題信息抽取方法研究。

        3 基于句模的分層抽樣應(yīng)用題信息抽取方法

        3.1 句模庫(kù)構(gòu)建

        句模是根據(jù)句子語(yǔ)義平面的特征分類處理的句子類別[25],它包含的信息主要有組成句模的各個(gè)語(yǔ)義成分及其在句模中所處的位置。面向初等數(shù)學(xué)分層抽樣類應(yīng)用題的句模則是由所屬、對(duì)象、關(guān)系、動(dòng)詞、數(shù)詞、量詞這六個(gè)核心成分以及少數(shù)具有特殊數(shù)學(xué)含義的關(guān)鍵詞構(gòu)成的“合理”的排序組合。以“某校有高級(jí)教師26人”為例,其對(duì)應(yīng)的句模為“所屬+動(dòng)詞+對(duì)象+數(shù)詞+量詞”。

        在文獻(xiàn)[26]中,定義了分層抽樣類應(yīng)用題求解相關(guān)的5種核心語(yǔ)義角色,分別為:總體、總體中的層、樣本、樣本中的層、實(shí)體關(guān)系。下面以一道分層抽樣類數(shù)學(xué)應(yīng)用題為例(某校有行政人員、教學(xué)人員和教輔人員共200人,其中教學(xué)人員與教輔人員之比為10∶1,行政人員有24人,現(xiàn)采取分層抽樣容量為50的樣本,那么行政人員應(yīng)抽取的人數(shù)為多少?),對(duì)其進(jìn)行分解,并給出各單句所屬的語(yǔ)義角色及其句模,如表2所示。任一應(yīng)用題中,表示不同語(yǔ)義角色的單句,一般都會(huì)在句子的組成成分及其語(yǔ)義、排列組合等方面有一定的區(qū)別。

        表2 分層抽樣類數(shù)學(xué)應(yīng)用題實(shí)例

        以“某校有行政人員、教學(xué)人員和教輔人員共200人”為例,分析應(yīng)用題單句與句模的映射關(guān)系。首先,句子中包含“校”、“行政人員”、“教學(xué)人員”、“教輔人員”四個(gè)實(shí)體,其中,“行政人員”、“教學(xué)人員”、“教輔人員”這三個(gè)實(shí)體間存在著并列的關(guān)系,并同時(shí)與實(shí)體“?!遍g表現(xiàn)出聚合的特征,即“?!弊鳛橐粋€(gè)整體,包含“行政人員”、“教學(xué)人員”和教輔人員”三個(gè)部分。其次,關(guān)鍵字“共”的存在其實(shí)表現(xiàn)出了一種總和、總體的特征,用來(lái)描述“行政人員”、“教學(xué)人員”和教輔人員”三個(gè)實(shí)體間的數(shù)量關(guān)系。而單句中動(dòng)詞、數(shù)詞、量詞特征明顯,不再贅述。以自然語(yǔ)言描述的應(yīng)用題文本中很少會(huì)出現(xiàn)句子與句模完美映射的情況,即句子中往往會(huì)出現(xiàn)表1提及的六個(gè)核心成分以外的文字或字符。比如說(shuō)該句中的頓號(hào)及“和”,它們是作為一種連接字符,是為保證語(yǔ)句的連貫通順,這些內(nèi)容可以有多種表達(dá)方式,且沒(méi)有實(shí)際意義。因此,在句子與句模匹配前,會(huì)對(duì)句子進(jìn)行預(yù)處理,對(duì)冗余部分進(jìn)行刪減,以提高匹配效率。

        分層抽樣類應(yīng)用題中“樣本”句的自然語(yǔ)言描述十分豐富,并且“樣本”句中除數(shù)詞外的各核心成分在問(wèn)題求解中的功能被弱化,任一“樣本”句的內(nèi)容都可以被概括為如表3所示的框架結(jié)構(gòu)。對(duì)“樣本”來(lái)說(shuō),實(shí)際需要抽取的僅有數(shù)詞n。為簡(jiǎn)化研究工作,提高效率,本文將“樣本”句排除。

        表3 樣本句的統(tǒng)一框架模板

        3.2 信息抽取

        實(shí)現(xiàn)分層抽樣類應(yīng)用題自動(dòng)求解,關(guān)鍵之一就是從“豐滿”的應(yīng)用題文本中抽取出與解題相關(guān)的特定信息。本文通過(guò)句模與應(yīng)用題單句進(jìn)行匹配,匹配成功則對(duì)句子進(jìn)行分解,抽取各核心成分對(duì)應(yīng)的基礎(chǔ)內(nèi)容,為后續(xù)解題提供規(guī)范性數(shù)據(jù)。

        本文設(shè)計(jì)的基于句模的分層抽樣類應(yīng)用題信息抽取方法流程如圖1所示,主要可以分為三個(gè)階段:文本預(yù)處理階段、句模匹配階段以及信息抽取階段。

        圖1 基于句模的分層抽樣類應(yīng)用題信息抽取流程圖

        (1) 文本預(yù)處理階段。數(shù)學(xué)問(wèn)題自動(dòng)求解系統(tǒng)的輸入一般都是未經(jīng)處理的應(yīng)用題文本,文本預(yù)處理階段是系統(tǒng)正常運(yùn)行的前提。基于應(yīng)用題待抽取信息及句模特征的綜合考慮,本研究中預(yù)處理階段主要包括分詞、詞性標(biāo)注及簡(jiǎn)化、刪除冗余成分等文本處理操作,以獲得僅有句子核心成分及其對(duì)應(yīng)詞性構(gòu)成的有序集合。

        (2) 句模匹配階段。句模匹配階段是基于句模的分層抽樣類應(yīng)用題信息抽取的關(guān)鍵一招,通過(guò)將預(yù)處理階段得到的有序集合與統(tǒng)計(jì)得到的句模庫(kù)數(shù)據(jù)逐一進(jìn)行匹配,以獲取與應(yīng)用題單句相照應(yīng)的句模數(shù)據(jù)。句模匹配主要是指詞性序列的匹配。句模是由有限個(gè)核心成分構(gòu)成,且各核心成分對(duì)應(yīng)的詞性有限,因此,一個(gè)句??梢杂成涑捎邢迋€(gè)詞性序列。若句子與所屬語(yǔ)義角色的句模的詞性序列完全相符,則匹配成功。

        (3) 信息抽取階段。信息抽取階段,即從數(shù)據(jù)庫(kù)中提取匹配成功的句模數(shù)據(jù),通過(guò)句模中各核心成分的索引值去抽取句子中的相應(yīng)信息,包括所屬、對(duì)象、關(guān)系、動(dòng)詞、數(shù)詞和量詞等。

        信息抽取實(shí)例如表4所示。首先,通過(guò)HanLP分詞工具對(duì)文本進(jìn)行預(yù)處理,可得到“校/n+有/v+行政人員/n+教學(xué)人員/n+教輔人員/n+共/R+200/m+人/q”(R為新定義的詞性,表示該詞具有“關(guān)系”的含義)。然后,將預(yù)處理的結(jié)果與句模進(jìn)行匹配,本例中可得到的詞性序列為“nvnnnRmq”,將其與句模庫(kù)中相應(yīng)語(yǔ)義角色的句模映射的詞性序列進(jìn)行匹配。最后,根據(jù)匹配到的句模,就可以通過(guò)數(shù)據(jù)庫(kù)中存儲(chǔ)的各核心成分的索引去抽取句子中核心信息,包括所屬、對(duì)象、數(shù)詞、量詞等。

        表4 基于句模的分層抽樣類應(yīng)用題信息抽取的實(shí)例

        4 基于依存句法的改進(jìn)句模信息抽取方法

        在分層抽樣應(yīng)用題的句模研究中,經(jīng)常出現(xiàn)單句中包含不止一個(gè)實(shí)體的情況,如表4中給出的實(shí)例“校有行政人員、教學(xué)人員和教輔人員共200人”中共包含了4個(gè)實(shí)體,分別為“?!薄ⅰ靶姓藛T”、“教學(xué)人員”和“教輔人員”,該句中后三者不僅相鄰的,還都具有部分相同屬性,即存在并列關(guān)系。如果不把這種隱含關(guān)系體現(xiàn)在句模中,會(huì)對(duì)信息抽取工作的準(zhǔn)確性造成了一定影響。例如,單句“校有行政人員、教學(xué)人員人數(shù)共200人”對(duì)應(yīng)的詞性序列與上述實(shí)例相同,因而匹配到的句模會(huì)將“人數(shù)”識(shí)別為與“行政人員”、“教學(xué)人員”共存的一個(gè)對(duì)象,這是錯(cuò)誤的。

        任一初等數(shù)學(xué)應(yīng)用題都是由一個(gè)以上的句子組成,而一個(gè)句子又往往包括了一個(gè)以上的詞,句子中的詞與詞之間存在著一定的句法關(guān)系,稱為依存關(guān)系。2.2節(jié)中,將實(shí)體間的關(guān)系劃分為了聚合、類屬和并列三類。針對(duì)上述相鄰實(shí)體名詞數(shù)量增多導(dǎo)致的準(zhǔn)確率問(wèn)題,本文采用了HanLP中集成的最大熵依存句法分析器,挖掘應(yīng)用題單句中存在的實(shí)體間關(guān)系,以對(duì)各實(shí)體名詞進(jìn)行區(qū)分,從而對(duì)基于句模的信息抽取方法進(jìn)行改進(jìn),提高分層抽樣類應(yīng)用題信息抽取工作的準(zhǔn)確率。

        結(jié)合依存句法,利用挖掘到的實(shí)體關(guān)系對(duì)句模進(jìn)行改進(jìn),主要是指對(duì)單句中包含的各個(gè)實(shí)體的詞性進(jìn)行修改。根據(jù)實(shí)體間的三類關(guān)系及其涉及的各個(gè)成分,本文新定義了如表5所示的幾個(gè)詞性。針對(duì)實(shí)體間的聚合關(guān)系,表示整體與部分的兩類實(shí)體詞性分別為“B”、“O”;而類屬關(guān)系中,根據(jù)相對(duì)抽象概括程度劃分的兩類實(shí)體詞性分別為“G”、“O”;最后是并列關(guān)系,存在該類關(guān)系的實(shí)體詞性都為“C”。在詞性序列中,每個(gè)句模的核心成分與其詞性是一一對(duì)應(yīng)的關(guān)系,即句模中任一核心成分有且僅有一個(gè)詞性。因此,本文是按照“并列>聚合>類屬”的優(yōu)先級(jí)關(guān)系對(duì)各個(gè)實(shí)體詞性進(jìn)行修改的。

        表5 新定義詞性

        為更直觀展現(xiàn)句模改進(jìn)前后的變化,同樣以“校有行政人員、教學(xué)人員和教輔人員共200人”為例,如表6所示。

        表6 基于依存句法對(duì)句模改進(jìn)前后對(duì)比

        5 實(shí) 驗(yàn)

        5.1 實(shí)驗(yàn)語(yǔ)料與評(píng)價(jià)指標(biāo)

        為測(cè)試基于依存句法的初等數(shù)學(xué)應(yīng)用題信息抽取方法的有效性,本文以2008年至2014年所有省份的高考數(shù)學(xué)文理科試卷及模擬卷中篩選的150道分層抽樣類數(shù)學(xué)應(yīng)用題為實(shí)驗(yàn)語(yǔ)料,隨機(jī)抽選100道為訓(xùn)練集,50道為測(cè)試集。

        依托于分層抽樣類應(yīng)用題的核心語(yǔ)義角色分類,以100道分層抽樣類數(shù)學(xué)應(yīng)用題為訓(xùn)練集,搜集整理了面向不同語(yǔ)義角色的子句模庫(kù)并匯總,形成了一個(gè)面向初等數(shù)學(xué)分層抽樣類應(yīng)用題的句模庫(kù)。當(dāng)前構(gòu)建的句模庫(kù)中一共包含了253個(gè)句模,其中,“總體”對(duì)應(yīng)的句模有46個(gè),“總體的層”對(duì)應(yīng)的句模有119個(gè),“樣本的層”對(duì)應(yīng)的句模有59個(gè),剩余的句模屬于“關(guān)系”句,有29個(gè)。

        為能對(duì)測(cè)試結(jié)果進(jìn)行有效準(zhǔn)確的評(píng)價(jià)及分析,本文采用角色句抽取準(zhǔn)確率PR與整題抽取準(zhǔn)確率PQ為結(jié)果評(píng)價(jià)指標(biāo),將基于句模的信息抽取方法作為基線,基于依存句法的句模改進(jìn)方法作為對(duì)比。單句抽取準(zhǔn)確率PR的計(jì)算方法如下:

        (1)

        式中:R表示應(yīng)用題中表示某一核心語(yǔ)義角色的單句;PR表示對(duì)語(yǔ)義角色R的單句信息抽取的準(zhǔn)確率;N(Rright)表示信息準(zhǔn)確抽取的屬于語(yǔ)義角色R的單句數(shù)量;N(R)表示測(cè)試集中屬于語(yǔ)義角色R的單句數(shù)量。

        整題抽取準(zhǔn)確率PQ的計(jì)算方法如下:

        (2)

        式中:Q表示測(cè)試集中的某一應(yīng)用題;PQ表示對(duì)應(yīng)用題中所有有效單句信息抽取的準(zhǔn)確率,注意,必須是應(yīng)用題中所有有效單句都被正確抽取出信息時(shí)才會(huì)認(rèn)定該應(yīng)用題信息抽取準(zhǔn)確;N(Qright)表示信息準(zhǔn)確抽取的應(yīng)用題數(shù)量;N(Q)表示測(cè)試集的應(yīng)用題數(shù)量。

        5.2 實(shí)驗(yàn)結(jié)果

        測(cè)試集包括50道分層抽樣類應(yīng)用題,共185個(gè)有效單句。其中,總體句26個(gè),總體的層97個(gè),樣本的層53個(gè),以及關(guān)系句9個(gè)。

        基于句模的信息抽取方法的實(shí)驗(yàn)結(jié)果如表7所示。

        表7 基于句模的信息抽取方法的實(shí)驗(yàn)結(jié)果

        基于依存句法的句模改進(jìn)方法的實(shí)驗(yàn)結(jié)果如表8所示。

        表8 基于依存句法的句模改進(jìn)方法的實(shí)驗(yàn)結(jié)果

        由實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),基于依存句法的句模改進(jìn)方法對(duì)樣本的層信息抽取工作的準(zhǔn)確率有明顯的提升,對(duì)總體句、關(guān)系句也有一定的影響,以至于整題抽取的準(zhǔn)確率從40%上升至68%。

        基于依存句法的改進(jìn)句模信息抽取方法在一定程度上改善了由于實(shí)體名詞數(shù)量多而導(dǎo)致應(yīng)用題文本識(shí)別困難的問(wèn)題。然而,通過(guò)實(shí)驗(yàn)研究可以發(fā)現(xiàn),該方法仍然存在著部分信息抽取問(wèn)題,一大原因在于應(yīng)用題中的實(shí)體不僅數(shù)量眾多,表述也十分豐富,甚至有出現(xiàn)省略化、口語(yǔ)化等現(xiàn)象,計(jì)算機(jī)無(wú)法理解部分應(yīng)用題中實(shí)體詞的真正含義,由此產(chǎn)生錯(cuò)誤結(jié)果。例如,“其中一、二、三、四年級(jí)的學(xué)生比為5∶4∶3∶1”中“一”、“二”和“三”分別對(duì)應(yīng)了實(shí)體“一年級(jí)”、“二年級(jí)”和“三年級(jí)”,而當(dāng)該句子作為計(jì)算機(jī)輸入時(shí),“一”、“二”和“三”是作為數(shù)詞進(jìn)行理解的,并不能挖掘其省略隱含的實(shí)體信息。后期應(yīng)加入實(shí)體識(shí)別的優(yōu)化策略,以對(duì)當(dāng)前方法進(jìn)行改進(jìn)。除此以外,當(dāng)前使用的分詞工具以及自定義數(shù)學(xué)詞典的局限性也是導(dǎo)致錯(cuò)誤的原因之一。例如,句子”某校對(duì)全校男女學(xué)生共1 600名進(jìn)行健康調(diào)查”在分詞操作中將“校對(duì)”劃分為一個(gè)詞塊,導(dǎo)致其與句模無(wú)法匹配。

        6 結(jié) 語(yǔ)

        本文提出的基于依存句法的初等數(shù)學(xué)應(yīng)用題信息抽取方法,是為解決當(dāng)前人工智能解題中遇到的難題之一——如何從“豐滿”的應(yīng)用題文本中抽取出與解題相關(guān)的特定信息。從高考數(shù)學(xué)文理科試卷及模擬卷中的分層抽樣類數(shù)學(xué)應(yīng)用題出發(fā),本文通過(guò)搜集整理面向不同語(yǔ)義角色的子句模庫(kù)并匯總,形成了一個(gè)面向初等數(shù)學(xué)分層抽樣類應(yīng)用題的句模庫(kù)。而后,以各語(yǔ)義角色單句抽取準(zhǔn)確率與整題抽取準(zhǔn)確率為結(jié)果評(píng)價(jià)指標(biāo),將基于句模的信息抽取方法作為基線,基于依存句法的句模改進(jìn)方法作為對(duì)比。通過(guò)實(shí)驗(yàn)研究發(fā)現(xiàn),與僅基于句模的信息抽取方法相比,基于依存句法的改進(jìn)信息抽取方法對(duì)不同語(yǔ)義角色的句子的信息抽取準(zhǔn)確率均有一定提升,尤其整題抽取的準(zhǔn)確率從40%上升至68%。這說(shuō)明了本文提出的基于依存句法的信息抽取方法在初等數(shù)學(xué)分層抽樣應(yīng)用題的題意理解中是有效的。但該方法還存在著一定的問(wèn)題,需要在后續(xù)研究中對(duì)實(shí)驗(yàn)中發(fā)現(xiàn)的幾個(gè)問(wèn)題對(duì)其進(jìn)行改進(jìn)更新,以求進(jìn)一步提高信息抽取的準(zhǔn)確率。此外,基于句模和依存句法的題意理解方法對(duì)于其他類別的應(yīng)用題,如古典概型類應(yīng)用題和綜合應(yīng)用題效果如何,也是后續(xù)研究的重要方向。

        猜你喜歡
        句法語(yǔ)義文本
        句法與句意(外一篇)
        述謂結(jié)構(gòu)與英語(yǔ)句法配置
        語(yǔ)言與語(yǔ)義
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        句法二題
        詩(shī)詞聯(lián)句句法梳理
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語(yǔ)義模糊
        国产一区二区三区激情视频 | 亚洲中文字幕永久网站| 亚洲成人一区二区av| 强开少妇嫩苞又嫩又紧九色 | 国产午夜精品av一区二区麻豆| 亚洲学生妹高清av| 中文字幕日产人妻久久| 少妇人妻系列中文在线| 国产成人精品优优av| 欧洲一卡2卡三卡4卡免费网站| 日韩亚洲制服丝袜中文字幕| 中国av一区二区三区四区| 精品人无码一区二区三区| 亚洲第一av导航av尤物| 囯产精品无码一区二区三区| 69久久精品亚洲一区二区| 亚洲中文字幕日产无码| 久久99精品国产麻豆| 亚洲人成网站久久久综合| 国产自拍一区二区三区| 深夜福利啪啪片| 亚洲av成人精品日韩一区| 国产精品天干天干在线观蜜臀| 91九色播放在线观看| 免费国产成人肉肉视频大全| 狠狠人妻久久久久久综合| 日日骚一区二区三区中文字幕| 国产成人精品人人做人人爽97| 亚洲码国产精品高潮在线| 久久久久亚洲AV无码专| 国产麻豆极品高清另类| 久久人人爽av亚洲精品| 国产小受呻吟gv视频在线观看| 特黄三级一区二区三区| 丝袜美腿亚洲第一免费| 四虎国产精品免费久久| 久久精品成人91一区二区| 蜜桃传媒免费在线观看| 午夜精品久久久久久毛片| 亚洲av无码片在线播放| 免费看黄片视频在线观看|