劉清堂,馬鑫倩,周 潔,吳林靜,周鵬霄
(華中師范大學(xué) 人工智能教育學(xué)部,武漢 430079)
數(shù)學(xué)題自動(dòng)求解的難點(diǎn)在于數(shù)學(xué)問(wèn)題的題意理解。從Bobrow 等[1]開發(fā)出最早的STUDENT 數(shù)學(xué)問(wèn)題理解系統(tǒng)開始,越來(lái)越多的學(xué)者投入到題意理解的研究中來(lái),但現(xiàn)有研究中大多圍繞計(jì)算步驟簡(jiǎn)單的數(shù)學(xué)計(jì)算題或者題意清晰的應(yīng)用題開展。在早期基于規(guī)則的邏輯關(guān)系模型基礎(chǔ)上,不同學(xué)者將其創(chuàng)新性地轉(zhuǎn)化為分類、實(shí)體識(shí)別等問(wèn)題,通過(guò)引入機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)數(shù)學(xué)問(wèn)題的題意理解,常見的方法有最大熵模型(Maximum Entropy Model,MaxEnt)[2]、支持向量機(jī)(Support Vector Machine,SVM)[3-4]和條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)[5-6]等;但在對(duì)語(yǔ)義表述多變、求解規(guī)則復(fù)雜的應(yīng)用題的題意理解方面的研究仍然存在方法不多、準(zhǔn)確率低的問(wèn)題,尤其是以古典概型題為代表的概率與統(tǒng)計(jì)問(wèn)題是中高考的熱點(diǎn)題型,它研究的是生活中的隨機(jī)現(xiàn)象,與實(shí)際情境聯(lián)系緊密,可作為突破機(jī)器題意理解的極佳的研究對(duì)象,且由于其情境復(fù)雜、參數(shù)較多等特征,很難利用已有方法自動(dòng)抽取解題所需的信息來(lái)實(shí)現(xiàn)題意的較高準(zhǔn)確率理解。
本文選擇了初等數(shù)學(xué)古典概型應(yīng)用題作為復(fù)雜語(yǔ)境的數(shù)學(xué)應(yīng)用題題意理解的突破點(diǎn),通過(guò)分析其文本特征和結(jié)構(gòu)特征,構(gòu)建了面向自動(dòng)解題的古典概型應(yīng)用題意表征模型;并根據(jù)古典概型應(yīng)用題命題特點(diǎn),提出了融合常識(shí)庫(kù)和語(yǔ)法特征題意理解方法。首先通過(guò)兩層語(yǔ)法特征識(shí)別層獲得語(yǔ)法特征表示,然后將識(shí)別結(jié)果輸入到CRF 層進(jìn)行參數(shù)識(shí)別,最后通過(guò)常識(shí)參數(shù)補(bǔ)全模塊得到最終的題意理解表征。本文中的語(yǔ)法特征是指詞法特征、句法特征和邊界特征的總稱,常識(shí)庫(kù)是指面向數(shù)學(xué)解題領(lǐng)域構(gòu)建的情景和數(shù)學(xué)類常識(shí)庫(kù)。以新東方在線網(wǎng)站和21 世紀(jì)教育在線題庫(kù)中的948 道古典概型應(yīng)用題為實(shí)驗(yàn)語(yǔ)料進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,所提方法對(duì)古典概型類應(yīng)用題題意理解具有顯著成效。
人通過(guò)語(yǔ)言將其所要表述的“意思”傳達(dá)出來(lái),計(jì)算機(jī)通過(guò)理解語(yǔ)言中的問(wèn)題所蘊(yùn)含的“參數(shù)”實(shí)現(xiàn)人機(jī)的自動(dòng)交互。當(dāng)前自然語(yǔ)言處理領(lǐng)域題意理解的研究主要基于三種方法來(lái)開展:基于規(guī)則的方法[7]、基于統(tǒng)計(jì)的方法[8-9]和基于神經(jīng)網(wǎng)絡(luò)的方法[10-11]。題意理解是數(shù)學(xué)問(wèn)題自動(dòng)求解所面臨的第一個(gè)問(wèn)題,主要目標(biāo)就是讓計(jì)算機(jī)具有類人思維,從復(fù)雜的數(shù)學(xué)文本中提取出與解題相關(guān)的信息。對(duì)數(shù)學(xué)問(wèn)題的題意理解方法研究,最早是Bobrow[1]開發(fā)的STUDENT 數(shù)學(xué)問(wèn)題理解系統(tǒng),基于關(guān)鍵詞和句式匹配的方式建立邏輯關(guān)系模型,實(shí)現(xiàn)英文代數(shù)問(wèn)題的題意理解。基于此,有學(xué)者探索并實(shí)現(xiàn)了對(duì)面向微積分應(yīng)用題的CARPS(CAlculus Rate Problem Solve)題意理解系統(tǒng)[12]和面向基本概率問(wèn)題的HAPPINESS 題意理解程序[13],此外還有文獻(xiàn)[14-15]等。隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,不同學(xué)者將題意理解創(chuàng)新性地轉(zhuǎn)化為子模塊優(yōu)化、分類問(wèn)題及實(shí)體識(shí)別問(wèn)題等,通過(guò)引入不同的機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)數(shù)學(xué)問(wèn)題的題意理解。吳林靜等[16]針對(duì)初等數(shù)學(xué)分層抽樣問(wèn)題提出了包含五種語(yǔ)義角色的題意表征框架,將題意理解問(wèn)題轉(zhuǎn)化為句子分類問(wèn)題,設(shè)計(jì)了分層抽樣問(wèn)題的題意理解框架,此外還有部分學(xué)者[17-18]采用分類方法實(shí)現(xiàn)題意理解。吳宣樂[19]將句模理論和命名實(shí)體識(shí)別相結(jié)合構(gòu)建了題意理解系統(tǒng),實(shí)現(xiàn)了初等數(shù)學(xué)問(wèn)題的題意理解。當(dāng)前命名實(shí)體識(shí)別領(lǐng)域應(yīng)用較為廣泛的有MaxEnt[2]、隱馬爾可夫模型(Hidden Markov Model,HMM)[20]、SVM[3-4]、CRF[21]等,其中CRF 因其能靈活引入多種特征、充分利用上下文信息,得到了學(xué)者的廣泛關(guān)注,在軍事[22]、醫(yī)療[23]、食品安全[24]、不同語(yǔ)言[25-27]等領(lǐng)域均取得了很好的效果。此外,對(duì)于復(fù)雜多變的數(shù)學(xué)問(wèn)題也有學(xué)者嘗試引入知識(shí)庫(kù)以提升數(shù)學(xué)題意理解的效果:Wong 等[28]通過(guò)構(gòu)建InfoMap 本體知識(shí)庫(kù)設(shè)計(jì)了一個(gè)基于認(rèn)知知識(shí)的數(shù)學(xué)應(yīng)用題題意理解系統(tǒng)(Learner-initiating instruction model of geometry word problems,LIM-G);劉清堂等[29]通過(guò)構(gòu)建常識(shí)庫(kù)系統(tǒng)輔助題意理解。
綜上所述,基于機(jī)器學(xué)習(xí)技術(shù)的題意理解方法逐漸成為主流,但通過(guò)對(duì)文獻(xiàn)的深入分析,發(fā)現(xiàn)大部分研究都圍繞計(jì)算步驟簡(jiǎn)單的數(shù)學(xué)計(jì)算題或者題意清晰的應(yīng)用題開展,在對(duì)語(yǔ)義表述多變、求解規(guī)則復(fù)雜的應(yīng)用題的題意理解方面的研究較少。有研究指出使用機(jī)器學(xué)習(xí)方法進(jìn)行實(shí)體識(shí)別進(jìn)行建模,若單純考慮字詞級(jí)別層面的特征可能會(huì)導(dǎo)致模型與數(shù)據(jù)產(chǎn)生過(guò)擬合的問(wèn)題[30]。在詞法特征的基礎(chǔ)上增加句法特征分析可以增加詞語(yǔ)間的長(zhǎng)距離依賴能力[31-32],促進(jìn)對(duì)復(fù)雜情景信息的理解。因此,本文擬探索引入詞法特征、句法特征和邊界特征等多種語(yǔ)法特征,引入機(jī)器學(xué)習(xí)模型,探索適合數(shù)學(xué)領(lǐng)域的題意理解方法。
古典概型應(yīng)用題是概率與統(tǒng)計(jì)領(lǐng)域的基本題型,命題信息大多來(lái)源于人們?nèi)粘5纳a(chǎn)實(shí)踐活動(dòng)以及生活經(jīng)驗(yàn)等,題意表達(dá)涉及豐富的情境信息、數(shù)學(xué)專業(yè)知識(shí)等常識(shí)信息。人進(jìn)行題意理解時(shí),往往可根據(jù)所具備的日常經(jīng)驗(yàn)對(duì)常識(shí)信息進(jìn)行補(bǔ)全;但計(jì)算機(jī)在進(jìn)行題意理解時(shí),不具備這些對(duì)情境和數(shù)學(xué)知識(shí)具有完善作用的信息。因此,如何解決計(jì)算機(jī)對(duì)常識(shí)信息的自動(dòng)識(shí)別與補(bǔ)全成為題意理解的重要研究問(wèn)題。常識(shí)是一種來(lái)源于生活實(shí)際的重要的人類知識(shí)[33]。常識(shí)研究是自然語(yǔ)言處理領(lǐng)域的重要組成部分,Smith[39]將人們與常識(shí)世界的交互稱之為自然認(rèn)知,而在自然認(rèn)知過(guò)程中使用的就是自然語(yǔ)言,因此,通過(guò)自然語(yǔ)言處理去進(jìn)行常識(shí)的相關(guān)研究,不僅能促進(jìn)常識(shí)的獲取,也有助于自然語(yǔ)言理解和常識(shí)特點(diǎn)與結(jié)構(gòu)的相關(guān)研究。
對(duì)常識(shí)的相關(guān)研究主要分為常識(shí)表示和常識(shí)庫(kù)的構(gòu)建兩個(gè)方面,應(yīng)用比較廣泛的常識(shí)表示法有謂詞邏輯表示法、產(chǎn)生式表示法、語(yǔ)義網(wǎng)絡(luò)表示法以及框架表示法。圍繞常識(shí)庫(kù)的構(gòu)建,國(guó)內(nèi)外眾多學(xué)者開展了相關(guān)研究,常見的常識(shí)庫(kù)有Foxvog 等1984 年開始的構(gòu)建以知識(shí)工程為基礎(chǔ)的Cyc 常識(shí)庫(kù)[40],該常識(shí)庫(kù)采用人工方式通過(guò)謂詞邏輯表示法表示常識(shí)知識(shí);Liu 等在OMCS(Open Mind Common Sense)語(yǔ)料[34]基礎(chǔ)上利用“常識(shí)抽取規(guī)則”自動(dòng)構(gòu)建的Concept Net 常識(shí)庫(kù)[35]、普林斯頓大學(xué)Miller 等[41]基于同近義詞詞匯映射設(shè)計(jì)開發(fā)的WordNet 常識(shí)庫(kù)。在中文領(lǐng)域應(yīng)用最為廣泛的是HowNet 常識(shí)庫(kù)以及盤古常識(shí)庫(kù),其中盤古常識(shí)庫(kù)采用基于本體的常識(shí)表征方式;HowNet 通過(guò)義原來(lái)表示詞語(yǔ)之間的關(guān)系[36],即是采用框架表示法將詞按照“詞-義項(xiàng)-義原”三層結(jié)構(gòu)來(lái)形式化表示。在本文中,初等數(shù)學(xué)古典概型應(yīng)用題的常識(shí)被定義為常用于古典概型應(yīng)用題中的、具有不確定性的、包含解題關(guān)鍵信息的隱性知識(shí)。根據(jù)解題的需要,在借鑒現(xiàn)有常識(shí)相關(guān)研究的基礎(chǔ)上選擇框架表示法的常識(shí)庫(kù)構(gòu)建方法輔助古典概型應(yīng)用題題意理解。
古典概型應(yīng)用題是數(shù)學(xué)領(lǐng)域的一種重要題型,其題意表述具有數(shù)學(xué)語(yǔ)言的一般特征,同時(shí)也具有獨(dú)特的特性。從題意信息的載體上來(lái)看,古典概型應(yīng)用題的題意信息蘊(yùn)含在一個(gè)個(gè)實(shí)體之中,想要完整準(zhǔn)確地理解題意信息,只需將蘊(yùn)含解題關(guān)鍵信息的實(shí)體信息抽取出來(lái),利用各個(gè)實(shí)體之間的相互關(guān)系進(jìn)行組合,即可實(shí)現(xiàn)古典概型應(yīng)用題的題意表示與理解,如表1 所示為對(duì)古典概型應(yīng)用題兩種典型實(shí)例的分析。
表1 古典概型應(yīng)用題典型實(shí)例Tab.1 Typical examples of classical probability word problem
要實(shí)現(xiàn)對(duì)上述應(yīng)用題的問(wèn)題求解,無(wú)論是計(jì)算機(jī)還是學(xué)習(xí)者都必須先識(shí)別題目中的關(guān)鍵信息。學(xué)習(xí)者求解上述應(yīng)用題的難點(diǎn)在于選擇合適的方法進(jìn)行推理計(jì)算,對(duì)題目中已知信息的識(shí)別和常識(shí)信息的抽取則相對(duì)容易;而對(duì)于計(jì)算機(jī)則剛好相反,實(shí)現(xiàn)上述應(yīng)用題自動(dòng)求解的關(guān)鍵是實(shí)現(xiàn)題意的正確理解。面向計(jì)算機(jī)自動(dòng)解題而言,古典概型應(yīng)用題題意理解的難點(diǎn)主要有以下幾個(gè)方面:
1)命名實(shí)體表現(xiàn)為典型長(zhǎng)序列。相較于英文以空格作為分詞界限,以大寫字母作為人名、地名等命名實(shí)體的開頭,中文文本沒有顯性的邊界特征,而古典概型應(yīng)用題文本更是存在典型的長(zhǎng)序列特征,其中的實(shí)體可能由一個(gè)或多個(gè)詞語(yǔ)共同組成,更是增加了其實(shí)體識(shí)別的難度。例如,“正四面體骰子”這一實(shí)體,其中“正四面體”“骰子”均為生活中常見的詞語(yǔ),但一般的骰子有6 個(gè)面,在這道題中將骰子限定為4 個(gè)面,因此,需要將“正四面體骰子”作為一個(gè)實(shí)體看待。
2)情景信息復(fù)雜。情境性較強(qiáng)是大部分?jǐn)?shù)學(xué)問(wèn)題所具有的特征,但古典概型應(yīng)用題中除了干擾信息以外,其題干中的情境信息也隱含著有助于解題的信息,且存在明顯的上下文情景依賴。例如,有一短句“現(xiàn)有一副撲克牌”,僅僅從字面表述上看,這一短句屬于情境信息,與解題無(wú)關(guān),但若后面緊接著“從中抽取一張牌,抽到紅桃的概率”這一句話,則可以看出該情景信息中存在與解題相關(guān)的必要實(shí)體——“撲克牌”。因此在對(duì)古典概型應(yīng)用題進(jìn)行命名實(shí)體識(shí)別時(shí),既要識(shí)別直觀呈現(xiàn)的與解題相關(guān)的實(shí)體,又要排除干擾項(xiàng),識(shí)別蘊(yùn)含解題信息的情景實(shí)體。
3)蘊(yùn)含大量常識(shí)信息。古典概型應(yīng)用題來(lái)源于生活中的隨機(jī)現(xiàn)象,題意表達(dá)蘊(yùn)含著大量的常識(shí)知識(shí),如“骰子、硬幣”等,但其隱含的數(shù)據(jù)信息卻不會(huì)呈現(xiàn)出來(lái)。因此如何實(shí)現(xiàn)計(jì)算機(jī)對(duì)常識(shí)知識(shí)的自動(dòng)識(shí)別與補(bǔ)全是實(shí)現(xiàn)其題意理解的重要部分。
本文提出的題意理解以自動(dòng)解題為目的,即是從古典概型應(yīng)用題文本中,識(shí)別并形成一個(gè)計(jì)算機(jī)能夠理解的包含解題相關(guān)的關(guān)鍵參數(shù)及其數(shù)值信息的集合,這個(gè)集合中不僅要形式化地呈現(xiàn)古典概型題目的結(jié)構(gòu)特征,同時(shí)也要包括各類結(jié)構(gòu)中涉及的題意表述的關(guān)鍵參數(shù)。因此,根據(jù)古典概型應(yīng)用題的文本及結(jié)構(gòu)特征建模出其題意表征模型是研究的基礎(chǔ)。
在對(duì)大量的古典概型應(yīng)用題進(jìn)行處理和分析的基礎(chǔ)上,從解題的角度對(duì)古典概型應(yīng)用題的結(jié)構(gòu)特征進(jìn)行分析,該題型具有兩個(gè)鮮明特點(diǎn):有限性和等可能性,即在古典概型中,所有可能出現(xiàn)的基本事件總數(shù)是有限的,并且每個(gè)事件出現(xiàn)的概率是相同的。根據(jù)古典概型求解規(guī)則進(jìn)行反向思考,若要求解古典概型,需要識(shí)別并挖掘出整個(gè)實(shí)驗(yàn)中的基本事件參數(shù)及實(shí)驗(yàn)事件參數(shù)等信息。
1)基本事件描述,主要指定位基本事件的主體以及挖掘?qū)?yīng)的數(shù)值信息,同時(shí)描述主體的屬性,如“小球”是事件實(shí)體,“5”則是事件的數(shù)值信息,而“白色”“紅色”則是主體的屬性。一般而言,題目所求事件A 發(fā)生的概率都由主體屬性引申而來(lái),因此,事件主體的屬性及其數(shù)量是問(wèn)題求解的關(guān)鍵信息。
2)實(shí)驗(yàn)事件描述包括事件排序、抽取方式、抽取數(shù)量以及抽取次數(shù)等信息。在古典概型題目中,事件是否有序、有放回抽取還是無(wú)放回抽取、一次抽取多個(gè)還是多次抽取都會(huì)對(duì)事件A 發(fā)生的概率產(chǎn)生影響,從而影響最終題目求解的準(zhǔn)確率。綜上所述,本文設(shè)計(jì)了包含7 個(gè)關(guān)鍵解題參數(shù)的古典概型應(yīng)用題意表征模型,如表2 所示。
表2 古典概型應(yīng)用題意表征模型Tab.2 Representation model of classical probability word problem
如表2 所示如果能夠識(shí)別基本事件及實(shí)驗(yàn)事件中的所有參數(shù),然后將相關(guān)參數(shù)代入古典概型題的相關(guān)計(jì)算規(guī)則進(jìn)行計(jì)算,可以實(shí)現(xiàn)從題意理解服務(wù)于自動(dòng)解題。
通過(guò)對(duì)古典概型應(yīng)用題的文本特征分析發(fā)現(xiàn),其題意表述具有較強(qiáng)的上下文關(guān)聯(lián)性和情景復(fù)雜性。因此,在對(duì)其進(jìn)行題意參數(shù)識(shí)別時(shí),需要采用能適應(yīng)文本關(guān)聯(lián)性和情景復(fù)雜性的機(jī)器學(xué)習(xí)模型。CRF 是由Lafferty 等[37]提出的一種無(wú)向圖模型,能夠靈活地引入多種特征,充分利用文本中的上下文信息獲取標(biāo)簽序列,對(duì)整個(gè)觀測(cè)序列進(jìn)行全局歸一化,求得全局最優(yōu)解,符合古典概型應(yīng)用題參數(shù)識(shí)別的需求。然而,有研究發(fā)現(xiàn)使用機(jī)器學(xué)習(xí)方法對(duì)數(shù)學(xué)領(lǐng)域?qū)嶓w識(shí)別進(jìn)行建模,若單純考慮字詞級(jí)別層面的特征可能會(huì)導(dǎo)致模型與數(shù)據(jù)產(chǎn)生過(guò)擬合的問(wèn)題[30]。在詞法特征的基礎(chǔ)上增加句法特征分析,可以增加詞語(yǔ)間的長(zhǎng)距離依賴能力[31-32],促進(jìn)對(duì)復(fù)雜情景信息的理解。因此本研究設(shè)計(jì)了融合多維語(yǔ)法特征的CRF 參數(shù)識(shí)別方法,其中語(yǔ)法特征包含詞法特征、句法特征和邊界特征三個(gè)維度的特征。算法實(shí)現(xiàn)過(guò)程如圖1 所示。
圖1 融合多維語(yǔ)法特征的CRF題意參數(shù)識(shí)別模型Fig.1 CRF problem meaning parameter identification model integrating multi-dimensional grammatical features
在該模型中,首先通過(guò)分詞工具確定分詞和邊界特征,通過(guò)詞性特征表示層和句法分析層進(jìn)行題目的詞法特征識(shí)別和依存句法分析,以獲得其詞法和句法特征的識(shí)別和標(biāo)注;然后將詞法和句法特征識(shí)別結(jié)果輸入到包含特征模板的CRF 模型中進(jìn)行參數(shù)識(shí)別模型訓(xùn)練,通過(guò)不斷調(diào)整特征模板及其窗口大小,訓(xùn)練出最佳的解題參數(shù)識(shí)別模型,實(shí)現(xiàn)古典概型題意參數(shù)識(shí)別。
3.1.1 特征選擇
為保證對(duì)長(zhǎng)序列及復(fù)雜情景信息的識(shí)別效果,本文提出的多維語(yǔ)法特征主要包含詞法特征、句法特征和邊界特征3個(gè)維度的6 個(gè)特征以輔助題意參數(shù)識(shí)別,具體如表3 所示。其中,詞法特征4 類,除詞特征、詞法特征基礎(chǔ)特征外,還引入數(shù)量詞特征、專有名詞特征增強(qiáng)對(duì)實(shí)體名稱參數(shù)及數(shù)量參數(shù)的識(shí)別效果。句法特征采用依存句法對(duì)句子結(jié)構(gòu)進(jìn)行分析,通過(guò)分析句子所包含的句法單位和這些句法單位之間的依存關(guān)系來(lái)揭示其句法結(jié)構(gòu)。邊界特征使用常用的BMES標(biāo)記模式對(duì)語(yǔ)料進(jìn)行標(biāo)記,以此作為邊界特征,其中:標(biāo)記B表示Begin,即當(dāng)前詞是某個(gè)實(shí)體的起始詞;M 表示Middle,即識(shí)別出實(shí)體的中間名;E 表示End,即實(shí)體名的結(jié)束詞;S指Single 表示獨(dú)立成詞。將6 種特征的識(shí)別序列作為輸入,通過(guò)遍歷組合特征選擇方法選取最優(yōu)的特征組合,進(jìn)而完成題意參數(shù)識(shí)別。
表3 古典概型題意參數(shù)識(shí)別的多維語(yǔ)法特征Tab.3 Multi-dimensional grammatical features of classical probability word problem meaning parameter identification
3.1.2 特征模板設(shè)計(jì)
相較于其他實(shí)體識(shí)別模型,CRF 模型的最大優(yōu)勢(shì)在于它可以有效利用上下文信息。對(duì)于古典概型應(yīng)用題的關(guān)鍵參數(shù)識(shí)別,特征模板設(shè)計(jì)的關(guān)鍵在于對(duì)上下文信息的合理利用:過(guò)長(zhǎng)使得數(shù)據(jù)會(huì)產(chǎn)生大量冗余,模型的可擴(kuò)展性降低;過(guò)短則無(wú)法充分提取上下文信息,模型的識(shí)別精度降低。上下文信息的利用效率由窗口大小以及內(nèi)部組合共同決定,常用的特征窗口大小為3 和5,常用的特征模板有原子特征模板和混合特征模板兩類。
在上述6 種詞句法特征的基礎(chǔ)上,為保證CRF 模型對(duì)上下文信息的充分利用,本文分別為每一個(gè)特征構(gòu)建了窗口大小為3 和5 的特征模板,并在每個(gè)模板中又分別進(jìn)行了一元、二元、三元、四元以及五元特征的內(nèi)部組合實(shí)驗(yàn),以便為每個(gè)特征項(xiàng)選擇最適合的窗口大小以及內(nèi)部組合特征模板,特征模板設(shè)計(jì)如表4 所示,特征模板以%x[Row,Col]形式化表示,其中:%x 表示當(dāng)前位置;Row 表示相對(duì)于當(dāng)前位置的行偏移量,即字詞的偏移量;Col 則表示列偏移量,即特征項(xiàng)的偏移量。如,%x[0,0]表示當(dāng)前字詞的第一個(gè)特征項(xiàng),%x[-1,1]則表示當(dāng)前詞的上一個(gè)字詞的第二個(gè)特征項(xiàng)。
表4 特征模板設(shè)計(jì)Tab.4 Design of feature template
在為每個(gè)特征選擇最佳窗口及特征模板后,采用貪婪式特征選擇方法選取最優(yōu)的特征組合方案。為了對(duì)比不同的特征組合對(duì)各個(gè)標(biāo)簽中實(shí)體識(shí)別的貢獻(xiàn),本文以詞特征(W)為基準(zhǔn)線,在此基礎(chǔ)上分別引入不同的特征及組合,通過(guò)比較分析實(shí)驗(yàn)結(jié)果,選取最優(yōu)的特征組合,以提高古典概型題意參數(shù)識(shí)別的精度。
上述融合多維語(yǔ)法特征的CRF 題意參數(shù)識(shí)別方法,雖然可以較好地識(shí)別題目中的顯性參數(shù),但是對(duì)于“擲骰子、拋硬幣”和計(jì)算“點(diǎn)數(shù)為偶數(shù)”這類包含隱性的常識(shí)知識(shí)的題目,卻無(wú)法準(zhǔn)確識(shí)別其中隱含的關(guān)鍵常識(shí)參數(shù)信息。為完善對(duì)古典概型應(yīng)用題中隱性參數(shù)的識(shí)別效果,本文進(jìn)一步提出了融合常識(shí)庫(kù)和語(yǔ)法特征的數(shù)學(xué)應(yīng)用題題意理解方法。該方法在3.1 節(jié)融合多維語(yǔ)法特征的CRF 題意參數(shù)識(shí)別方法的基礎(chǔ)上增加了參數(shù)補(bǔ)全模塊,在引入構(gòu)建的數(shù)學(xué)和情景類常識(shí)庫(kù)基礎(chǔ)上,通過(guò)常識(shí)識(shí)別和常識(shí)參數(shù)補(bǔ)全實(shí)現(xiàn)對(duì)隱性常識(shí)參數(shù)的補(bǔ)全,完善古典概型應(yīng)用題題意參數(shù)識(shí)別。
3.2.1 常識(shí)庫(kù)構(gòu)建
通過(guò)對(duì)古典概型的文本分析發(fā)現(xiàn),其包含的隱性常識(shí)信息可分為情景類常識(shí)和數(shù)學(xué)類常識(shí)兩類,為保證常識(shí)庫(kù)構(gòu)建的質(zhì)量,本文采用框架表示法將常識(shí)知識(shí)按照“詞-義項(xiàng)-義原”三層結(jié)構(gòu)來(lái)形式化表示,以XML(Extensible Markup Language)結(jié)構(gòu)存儲(chǔ)。對(duì)全部的古典概型應(yīng)用題語(yǔ)料信息進(jìn)行常識(shí)抽取,經(jīng)過(guò)去重處理,共獲得61 個(gè)常識(shí);通過(guò)對(duì)涉及解題信息且文本中未對(duì)該信息進(jìn)行描述的常識(shí)屬性進(jìn)行分析,根據(jù)題意理解需求,對(duì)獲取的61 個(gè)常識(shí)分別進(jìn)行描述,共獲得28 條情景類常識(shí)和33 條數(shù)學(xué)類常識(shí),其中情景類常識(shí)庫(kù)和數(shù)學(xué)類常識(shí)庫(kù)的部分信息,分別如表5、6 所示。
表5 面向古典概型應(yīng)用題題意理解的情景類常識(shí)庫(kù)(節(jié)選)Tab.5 Commonsense knowledge base of situation for understanding of classical probability word problems(part)
表6 面向古典概型應(yīng)用題題意理解的數(shù)學(xué)類常識(shí)庫(kù)(節(jié)選)Tab.6 Commonsense knowledge base of math for understanding of classical probability word problems(part)
3.2.2 題意識(shí)別方法改進(jìn)
融合常識(shí)庫(kù)和語(yǔ)法特征的數(shù)學(xué)應(yīng)用題題意理解方法是對(duì)上述融合多維語(yǔ)法特征的CRF 題意參數(shù)識(shí)別方法的優(yōu)化,將上述方法作為參數(shù)識(shí)別模塊,并在此基礎(chǔ)上增加“常識(shí)參數(shù)補(bǔ)全模塊”優(yōu)化并完善上述方法對(duì)隱性解題參數(shù)的識(shí)別。具體實(shí)現(xiàn)步驟如圖2 所示。
圖2 融合常識(shí)庫(kù)和語(yǔ)法特征的古典概型應(yīng)用題題意理解方法Fig.2 Classical probability word problem understanding method integrating commonsense knowledge base and grammatical features
在參數(shù)識(shí)別模塊主要通過(guò)融合詞句法特征的CRF 算法進(jìn)行參數(shù)識(shí)別,然后對(duì)題意參數(shù)的識(shí)別結(jié)果進(jìn)行判斷,是否存在常識(shí)實(shí)體且常識(shí)參數(shù)缺失?若存在則檢索構(gòu)建的常識(shí)庫(kù),對(duì)缺失的常識(shí)參數(shù)進(jìn)行補(bǔ)全,然后輸出識(shí)別結(jié)果并將結(jié)果轉(zhuǎn)化為XML 題意表征文本,為下一步的自動(dòng)解題的實(shí)現(xiàn)提供解題數(shù)據(jù)。為了更直觀地展現(xiàn)引入常識(shí)庫(kù)的改進(jìn)前后的題意參數(shù)識(shí)別結(jié)果的變化,以題目“同時(shí)拋擲兩枚骰子,求點(diǎn)數(shù)之和為3 的概率”為例,改進(jìn)前后的識(shí)別結(jié)果如圖3 所示,從識(shí)別結(jié)果中明顯可以看出,相較于融合多維語(yǔ)法特征的CRF 參數(shù)識(shí)別方法(如圖3(a)所示),融合常識(shí)庫(kù)和多維語(yǔ)法特征的改進(jìn)CRF 題意參數(shù)識(shí)別方法(如圖3(b)所示)通過(guò)引入常識(shí)庫(kù)的參數(shù)補(bǔ)全模塊,實(shí)現(xiàn)了對(duì)“骰子”隱性常識(shí)參數(shù)的識(shí)別與補(bǔ)全,如骰子的基本事物屬性Inf 和屬性事物數(shù)量Inf_num;并且調(diào)取數(shù)學(xué)類常識(shí),修正了因“之和”這類數(shù)學(xué)類常識(shí)的缺失而導(dǎo)致的錯(cuò)誤,顯著提升題意理解的效果。
圖3 改進(jìn)前后的應(yīng)用題題意理解結(jié)果對(duì)比Fig.3 Comparison of word problem understanding results before and after improvement
為驗(yàn)證方法的有效性,本文以新東方在線網(wǎng)站和21 世紀(jì)教育在線題庫(kù)中的古典概型應(yīng)用題為實(shí)驗(yàn)語(yǔ)料,刪除含圖表、題干不完整、重復(fù)以及無(wú)關(guān)題型后,最終得到948 道古典概型應(yīng)用題。將實(shí)驗(yàn)語(yǔ)料按照7∶3 的比例劃分為訓(xùn)練集和測(cè)試集,667 道作為訓(xùn)練數(shù)據(jù),281 道作為測(cè)試數(shù)據(jù)。
實(shí)驗(yàn)采用CRF++0.58 工具包作為CRF 的實(shí)現(xiàn)工具,以HanLP 工具作為分詞、詞性標(biāo)注及依存句法分析工具。對(duì)題意參數(shù)識(shí)別結(jié)果的評(píng)測(cè)借鑒了MUC 會(huì)議中信息抽取系統(tǒng)的相關(guān)測(cè)評(píng)標(biāo)準(zhǔn),使用正確率(P)、召回率(R)和F1 值進(jìn)行測(cè)評(píng)[38]。此外,本文中題意理解是為后續(xù)的自動(dòng)解題服務(wù)的,單個(gè)的參數(shù)識(shí)別精度并不能完全說(shuō)明題意理解的準(zhǔn)確性,因此本文還引入了題意理解準(zhǔn)確率(Val)[17]作為整題題意理解有效性的評(píng)價(jià)指標(biāo),其計(jì)算公式如下:
其中:N表示全部題目的個(gè)數(shù),NR表示題意表征正確的題目個(gè)數(shù)。即通過(guò)分析題意識(shí)別的XML 表征結(jié)果,若XML 結(jié)構(gòu)中能夠完整而準(zhǔn)確地呈現(xiàn)出解題所需要的關(guān)鍵參數(shù),則認(rèn)為該道古典概型應(yīng)用題題意表征正確;若XML 結(jié)構(gòu)中未將解題信息完整地表征出來(lái),或者是將與解題無(wú)關(guān)的錯(cuò)誤信息也進(jìn)行了表征,造成題意表述的混亂,則認(rèn)為題意表征錯(cuò)誤。
每個(gè)題目的題意表征正確與否是通過(guò)人機(jī)協(xié)同的方式判斷的,分為兩個(gè)步驟:1)首先通過(guò)編程判斷,排除核心參數(shù)如基本事物數(shù)量(Num)、基本事物屬性名(Inf)、屬性事物數(shù)量(Inf_num)、發(fā)生次數(shù)(Quan)、發(fā)生方式(Meth)識(shí)別不正確的題目。2)對(duì)于剩余題目的XML 表征結(jié)果進(jìn)行人工判斷,若XML 結(jié)構(gòu)中能夠完整而準(zhǔn)確地呈現(xiàn)出解題所需要的關(guān)鍵參數(shù),則認(rèn)為該道古典概型應(yīng)用題題意表征正確;若XML 結(jié)構(gòu)中未將解題信息完整地表征出來(lái),或者是將與解題無(wú)關(guān)的錯(cuò)誤信息也進(jìn)行了表征,造成題意表述的混亂,則認(rèn)為題意表征錯(cuò)誤。最后得出題意表征正確的題目個(gè)數(shù)NR。
4.2.1 題意參數(shù)識(shí)別
為保證在CRF 模型訓(xùn)練中可以最大限度地有效利用上下文信息,本文對(duì)選定詞特征(W)、詞性特征(P)、數(shù)量詞特征(Q)、專有名詞特征(M)、句法特征(D)和邊界特征(B)這6個(gè)特征項(xiàng)(詳見表3)分別進(jìn)行了最優(yōu)窗口大小及特征模板測(cè)試,其中詞特征(W)是命名實(shí)體識(shí)別任務(wù)中最基本的特征,任何特征都需要與詞特征進(jìn)行組合以此實(shí)現(xiàn)實(shí)體識(shí)別任務(wù)。6 個(gè)特征項(xiàng)的最優(yōu)窗口大小及特征模板測(cè)試結(jié)果的F1值如表7 所示,其中加粗的數(shù)據(jù)為該特征項(xiàng)所對(duì)應(yīng)的最優(yōu)窗口大小及特征模板,如詞特征,當(dāng)其特征模板是窗口大小為5 的一元模板時(shí),取得最優(yōu)識(shí)別結(jié)果,F(xiàn)1 值為0.894 3,其他特征項(xiàng)依此類推確定最優(yōu)窗口大小及特征模板。
表7 詞特征與其他特征組合的識(shí)別結(jié)果的F1值Tab.7 F1-scores of recognition results of combinations of word feature and other features
在確定了每個(gè)特征項(xiàng)的最優(yōu)窗口大小和特征模板的基礎(chǔ)上,本文對(duì)選定的6 個(gè)特征項(xiàng)(詳見表3)的不同特征組合進(jìn)行了CRF 模型訓(xùn)練。首先使用詞特征(W)做基準(zhǔn)實(shí)驗(yàn),在此基礎(chǔ)上使用貪婪式特征選擇方法進(jìn)行特征選擇,即在上次特征基礎(chǔ)上,與詞性特征(P)、數(shù)量詞特征(Q)、專有名詞特征(M)、句法特征(D)、邊界特征(B)5 個(gè)剩余特征進(jìn)行組合,每次選擇對(duì)評(píng)測(cè)結(jié)果提升貢獻(xiàn)最大的特征,直到完成所有的特征組合為止。表8 為采用貪婪式特征選擇方法時(shí)n個(gè)最優(yōu)特征組合的實(shí)驗(yàn)結(jié)果。
表8 展示了不同特征組合對(duì)古典概型應(yīng)用題意表征模型中的7 個(gè)核心參數(shù)的識(shí)別結(jié)果數(shù)據(jù)(具體參數(shù)標(biāo)簽對(duì)應(yīng)的含義詳見表2),可以看出,隨著特征項(xiàng)的依次增加,該模型對(duì)題意參數(shù)的識(shí)別效果呈上升態(tài)勢(shì),且融合六種特征的W+P+B+Q+M+D 復(fù)合特征組合方案取得了最優(yōu)識(shí)別結(jié)果,其平均7 個(gè)核心參數(shù)的平均F1 值為0.935 6。這也從側(cè)面驗(yàn)證了本文提出的多維語(yǔ)法特征對(duì)古典概型題意參數(shù)識(shí)別的有效性。
表8 不同特征組合的識(shí)別結(jié)果的F1值Tab.8 F1-scores of recognition results of different feature combinations
為進(jìn)一步驗(yàn)證融合多維語(yǔ)法特征的CRF 題意參數(shù)識(shí)別方法的有效性,本文選取了MaxEnt 模型、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)-條件隨機(jī)場(chǎng)(Bidirectional Long Short-Term Memory-Conditional Random Field,BiLSTM-CRF)模型和傳統(tǒng)CRF 模型作為基線方法,進(jìn)行對(duì)比實(shí)驗(yàn)。其中MaxEnt模型并不做獨(dú)立性假設(shè)且能夠容納較多的特征,在對(duì)上下文關(guān)系密切的古典概型應(yīng)用題文本中比HMM 模型更為適用;BiLSTM-CRF 模型是命名實(shí)體識(shí)別領(lǐng)域中常用的神經(jīng)網(wǎng)絡(luò)模型,通過(guò)雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行大規(guī)模語(yǔ)料的訓(xùn)練。在此使用題意表征模型中的各個(gè)題意參數(shù)(具體參數(shù)標(biāo)簽對(duì)應(yīng)的含義詳見表2)識(shí)別上的F1值作為模型評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如表9所示。
表9 與基線方法識(shí)別結(jié)果的F1值對(duì)比Tab.9 Comparison of F1-score with baseline methods
從實(shí)驗(yàn)結(jié)果可以看出,融合多維語(yǔ)法特征的CRF 題意參數(shù)識(shí)別方法的平均F1 值比MaxEnt 模型高出23.97 個(gè)百分點(diǎn),比BiLSTM-CRF 模型高出6.40 個(gè)百分點(diǎn),比傳統(tǒng)CRF 模型高出1.8 個(gè)百分點(diǎn)。分析其原因在于,MaxEnt 模型僅對(duì)語(yǔ)料中的每個(gè)詞進(jìn)行單獨(dú)識(shí)別,上下文信息利用不充分;BiLSTM-CRF 模型未能從小規(guī)模語(yǔ)料庫(kù)的訓(xùn)練中學(xué)習(xí)到充分的上下文信息,容易產(chǎn)生過(guò)擬合的問(wèn)題;而融合多維語(yǔ)法特征的CRF 題意參數(shù)識(shí)別方法能夠?qū)τ?jì)算語(yǔ)料序列化后的聯(lián)合概率分布,充分地利用應(yīng)用題文本中所提供的上下文信息,相較于神經(jīng)網(wǎng)絡(luò)模型,其在特定領(lǐng)域的較小語(yǔ)料庫(kù)數(shù)據(jù)中依然能取得較好的題意參數(shù)識(shí)別效果,彌補(bǔ)了傳統(tǒng)CRF 模型對(duì)句法上下文信息學(xué)習(xí)的不足。
4.2.2 題意理解
在面向自動(dòng)解題的題意理解任務(wù)中,除各核心參數(shù)的獨(dú)立識(shí)別率外,整題的題意表征正確率也是判斷其題意理解效果的重要標(biāo)準(zhǔn)[17]。題意表征正確率用于衡量以整題為單位判斷識(shí)別結(jié)果將解題信息完整的表征出來(lái)的概率。表10 是五種方法的題意理解準(zhǔn)確率識(shí)別結(jié)果的對(duì)比,其中NR表示題意表征正確的題目個(gè)數(shù),NW表示題意表征不正確的題目個(gè)數(shù),Val表示題意理解準(zhǔn)確率,根據(jù)式(1)計(jì)算得到。
表10 與其他方法的應(yīng)用題題意理解準(zhǔn)確率對(duì)比Tab.10 Comparison of accuracy of word problem understanding with other methods
從實(shí)驗(yàn)結(jié)果來(lái)看,本文提出的融合常識(shí)庫(kù)和語(yǔ)法特征的題意理解方法的整題題意表征正確率顯著高于MaxEnt、BiLSTM-CRF、傳統(tǒng)CRF 等方法。更有趣的是,本文發(fā)現(xiàn)傳統(tǒng)CRF 模型雖然在單個(gè)參數(shù)的識(shí)別結(jié)果表現(xiàn)較好(F1 值為0.917 6),但是對(duì)于整題題意理解準(zhǔn)確率卻僅為0.199 2,整題的題意識(shí)別效果明顯較低。分別對(duì)其表征結(jié)果XML 分析發(fā)現(xiàn),傳統(tǒng)CRF 明顯存在參數(shù)缺失和參數(shù)混淆的問(wèn)題,而多維語(yǔ)法特征CRF 模型在傳統(tǒng)CRF 的基礎(chǔ)上整合詞法和句特征,顯著改善了這類問(wèn)題。這也進(jìn)一步證明了本文提出的融合多維語(yǔ)法特征的CRF 題意參數(shù)識(shí)別方法的有效性。
對(duì)比融合多維語(yǔ)法特征CRF 方法在引入常識(shí)庫(kù)補(bǔ)全模塊前后的題意表征效果,可以發(fā)現(xiàn)題意理解準(zhǔn)確率從30.96%上升到了66.54%,可以看出在融合多維語(yǔ)法特征的CRF 模型的基礎(chǔ)上引入常識(shí)庫(kù),可以顯著提升古典概型應(yīng)用題的題意理解效果。除此之外,為了證明引入常識(shí)補(bǔ)全模塊的有效性,本文還在MaxEnt、BiLSTM-CRF 兩個(gè)基線方法的基礎(chǔ)上,分別加入常識(shí)補(bǔ)全模塊,發(fā)現(xiàn)引入常識(shí)庫(kù)補(bǔ)全模塊能顯著提升題意理解準(zhǔn)確率,其中,MaxEnt 模型題意理解準(zhǔn)確 率Val值從8.19% 提升到了27.4%,BiLSTM-CRF 從23.49%提升到了56.58%。通過(guò)對(duì)題意理解XML 表征結(jié)果進(jìn)行分析發(fā)現(xiàn),大多數(shù)的古典概型題目均包含隱性的常識(shí)信息,僅采用融合多維語(yǔ)法特征的CRF 題意參數(shù)識(shí)別方法會(huì)造成隱性關(guān)鍵參數(shù)的缺失,造成題意表征不準(zhǔn)確。而融合常識(shí)庫(kù)和語(yǔ)法特征的題意理解方法可以在有效識(shí)別顯性實(shí)體及屬性參數(shù)的同時(shí),對(duì)隱性參數(shù)進(jìn)行補(bǔ)全,能夠?qū)崿F(xiàn)對(duì)復(fù)雜類數(shù)學(xué)問(wèn)題的自動(dòng)題意理解。
4.2.3 錯(cuò)誤分析
雖然融合常識(shí)庫(kù)和多維語(yǔ)法特征的題意理解方法可以實(shí)現(xiàn)對(duì)66.54%的題目的有效題意理解,但是仍有33.45%的題意理解出現(xiàn)問(wèn)題。通過(guò)對(duì)未實(shí)現(xiàn)正確題意表征的題目分析發(fā)現(xiàn),對(duì)于特殊的具有復(fù)雜關(guān)系的古典概型應(yīng)用題仍存在題意理解困難。例如,“甲盒中有3 個(gè)紅球,2 個(gè)黃球,乙盒中有2 個(gè)紅球,4 個(gè)黃球?,F(xiàn)從甲盒中取出1 個(gè)紅球放入乙盒中,再?gòu)囊液兄谐槿? 個(gè)小球,求抽得2 個(gè)黃球的概率”,在對(duì)這道題目進(jìn)行題意表征時(shí),只會(huì)對(duì)“甲盒”“乙盒”這一類實(shí)體的屬性、數(shù)量等固定信息進(jìn)行表征,并不能對(duì)“從甲盒中取出1 個(gè)紅球放入乙盒中”這種動(dòng)作信息進(jìn)行表征,由此造成題意表征錯(cuò)誤的情況。在后續(xù)的題意理解研究中針對(duì)這類問(wèn)題可考慮引入知識(shí)圖譜建模、探究其他特征選擇等方法進(jìn)行針對(duì)性的解決。
本文以概率統(tǒng)計(jì)中的典型題型——古典概型應(yīng)用題作為復(fù)雜語(yǔ)境的數(shù)學(xué)應(yīng)用題題意理解的突破點(diǎn),結(jié)合其命題和解題特征,構(gòu)建了面向自動(dòng)解題的古典概型應(yīng)用題意表征模型。針對(duì)其存在的典型長(zhǎng)序列、無(wú)明顯邊界特征、情景信息復(fù)雜、蘊(yùn)含大量常識(shí)信息的特征,本文提出融合多維語(yǔ)法特征的題意理解方法,通過(guò)與MaxEnt 模型、BiLSTM-CRF 模型以及傳統(tǒng)CRF 模型的對(duì)比,驗(yàn)證了該方法在題意參數(shù)識(shí)別中的有效性。在此基礎(chǔ)上針對(duì)隱性常識(shí)參數(shù)缺失的問(wèn)題,提出了融合常識(shí)庫(kù)和多維語(yǔ)法特征的CRF 題意理解方法,將整道題的題意理解準(zhǔn)確率從30.96%提升到了66.54%,并且顯著高于MaxEnt 模型、BiLSTM-CRF 模型以及傳統(tǒng)CRF 模型的整題題意表征效果,在面向自動(dòng)解題的古典概型應(yīng)用題題意理解效果中取得了明顯成效,為后續(xù)復(fù)雜數(shù)學(xué)問(wèn)題的題意理解研究提供借鑒。但是現(xiàn)有研究中針對(duì)特殊的具有復(fù)雜關(guān)系的古典概型應(yīng)用題的題意理解仍存在題意理解困難,未來(lái)研究中可考慮采用知識(shí)圖譜等方法進(jìn)行針對(duì)性的解決。