德格加 安見才讓
摘? 要: 在教育教學信息化的進程中,試題管理系統(tǒng)和組卷系統(tǒng)一直是人們致力研究的一個領域,對教育教學的自動化、高效化和精準化具有重要的現(xiàn)實意義。由于試題知識點的不確定性、多樣性和隱蔽性等特點,利用計算機技術(shù)自動抽取試題知識一直是該領域的難題之一。文章以藏文版試題為研究對象,通過深入研究試題的結(jié)構(gòu)特點,探索研究了抽取藏文試題知識點的方法,力求提高試題管理和存儲的自動化,提升組卷系統(tǒng)的性能和效率。
關鍵詞: 組卷系統(tǒng); 藏文試題; 知識點; 自動抽取
中圖分類號:TP391.1? ? ? ? ? 文獻標志碼:A? ? ?文章編號:1006-8228(2019)01-79-04
Abstract: In the process of education and teaching informationization, the test management system and the test paper generating system have always been one of the areas that people are committed to research, and have important practical significance for the automation, efficiency and precision of education and teaching. Due to the uncertainty, diversity and concealment of the knowledge point of test questions, the use of computer technology to automatically extract knowledge point of test questions has always been one of the problems in this field. This paper takes the Tibetan version of test questions as the research object, through in-depth study of the structural characteristics of test questions, explores how to extract the knowledge points of Tibetan test questions, and strives to improve the automation management and storage of test questions and improve the performance and efficiency of the test paper generating system.
Key words: test paper generating system; Tibetan test questions; knowledge points; automatic extraction
0 引言
計算機技術(shù)迅速發(fā)展,計算機輔助教學軟件相繼開發(fā),作為教學輔助系統(tǒng)中的重要組成部分,試題管理系統(tǒng)和組卷系統(tǒng)是人們研究的重要領域之一,在日常教學活動中發(fā)揮著積極的作用[1]。國內(nèi)外對試題管理系統(tǒng)中的組卷算法研究比較多,也提出了一些行之有效的組卷算法,但在試題的知識點抽取方面的研究與實現(xiàn)仍處于空白狀態(tài)。知識點自動抽取是組卷系統(tǒng)和試題管理系統(tǒng)的智能化和自動化的重要體現(xiàn),所以,研究抽取試題知識點的方法對提升整個系統(tǒng)的效率具有重要的現(xiàn)實意義。
理工科類試題的出題形式是各式各樣的,有純文字敘述的,有圖形的,有表格的,也有多種形式混合的。文字敘述形式的試題以數(shù)學式子和符號類居多,而且數(shù)學式子和符號是用專門的軟件編輯的[2],這對利用計算機處理該類試題增加了很大難度。本文主要針對含有文字敘述性的試題進行研究,探討試題知識點的抽取方法。
知識點是通過對題目多方面深入理解的基礎上才能提取確定的。對于藏文試題,試題的知識點往往表現(xiàn)在題目的中的某個關鍵字上或者算式中,因此,要確定題目的知識點,首先對藏文試題進行相關的預處理,提取題目中與知識點相關的關鍵詞,最后通過對關鍵詞的分析和判斷才能確定其知識點。
1 藏文試題知識點抽取方法
1.1 建立知識點網(wǎng)絡
利用計算機技術(shù)自動抽取試題知識點,首先要建立一個健全的知識點網(wǎng)絡,根據(jù)某課程的知識點分布結(jié)構(gòu),設計合理的知識點網(wǎng)絡庫,知識點網(wǎng)絡成樹狀結(jié)構(gòu)。比如建立一個人教版初中數(shù)學知識點庫,首先根據(jù)初中數(shù)學知識點的分布和編排結(jié)構(gòu),知識點編排方式有橫向上的同級知識點和縱向上的層級知識點,因此,初中數(shù)學知識點可以用含有n階層級的樹狀形式來表示,如圖1所示。
根據(jù)人教版初中數(shù)學教材大綱中的知識點的編排順序和原則,綜合考慮計算機中易于編程實現(xiàn),將知識點樹狀網(wǎng)絡結(jié)構(gòu)簡化成縱向深度限定為3級;如圖2所示。
根據(jù)知識點網(wǎng)絡的結(jié)構(gòu),合理設計知識點網(wǎng)絡庫,將各層級的知識點按結(jié)構(gòu)和層級關系有序存入庫中。
1.2 藏文知識點抽取方法
要從一道藏文題目中抽取其知識點,首先對藏文題目進行預處理,包括提取題目中的文字性描述和對文字性描述進行分詞,然后提取文字性描述中的數(shù)學關鍵字,最后對關鍵字結(jié)合知識點庫計算其權(quán)值確定題目中的主要知識點。
⑴ 預處理:藏文題目中除了文字性描述之外,還包含數(shù)學中的各種符號、字母和圖片等信息,在預處理階段應把這些非文字性元素剔除,提取其藏文描述部分以便進一步對其進行處理;
⑵ 分詞:分詞是文字處理中最基礎也是最關鍵的一步,本文所采用的分詞方法是基于字典的機械分詞方法[3],與一般藏文分詞方法的不同之處在于,所使用的字典需要擴充或使用專用的分詞字典。因為一般的藏文詞典中還未加入數(shù)學等現(xiàn)代理工科中的專業(yè)數(shù)學和詞條,如“”等詞條。本文中進行擴充原有藏文字典,在原字典中增加中學數(shù)學中的專用術(shù)語和名詞等詞條,這樣能夠保證在分詞過程中能夠準確的切分出題目中的數(shù)學關鍵字,例如初中藏文試題:
⑶ 剔除噪音:所謂噪音是指對處理和研究主體無實際意義,甚至對研究起負面影響的元素,在提取試題知識點的問題中除了要剔除題目中的無實際意義的連詞和停用詞等虛詞外,還有數(shù)學試題中通用的一些動詞和指示詞也可剔除[4],所以要根據(jù)藏文試題的特點,建立一個比較齊全的專用停用詞詞表,部分停用詞如表1所示。
根據(jù)表1剔除題目中的停用詞后,只保留試題題干中的關鍵詞,如例題⑴中,最后所保留的關鍵詞為<E:\方正創(chuàng)藝5.1\Fit201812\圖\dgj藏文5.tif>。
⑷ 確定知識點:經(jīng)過預處理和分詞后,需要剔除其中的停用詞和虛詞等無實際意義的詞,經(jīng)過這樣的處理后用切分出的詞中只有數(shù)學術(shù)語和關鍵詞名詞等主要信息,最后用這些關鍵詞去查詢知識點網(wǎng)絡庫中,確定其中的知識點及級別,并賦予相應的知識點權(quán)值[5]。如上面的例題中,提取出的關鍵詞為。
一般將提取出的關鍵詞用集合S={v1,v2,…,vn}來表示,用S中的元素vi(1?i?n)查詢知識點網(wǎng)絡庫,根據(jù)查詢匹配情況確定題目屬于哪一類知識點。
2 藏文試題知識點提取算法策略
2.1 知識點數(shù)據(jù)庫設計
根據(jù)以上對知識點庫的結(jié)構(gòu)分析,三個層級的知識點用三個相互關聯(lián)的數(shù)據(jù)表存儲,并各表之間創(chuàng)建合適的主外鍵關系,知識點庫E-R圖設計為如圖3所示。
2.2 知識點提取策略
根據(jù)知識點數(shù)據(jù)庫的結(jié)構(gòu),在算法設計中將知識點庫可以表示為三個集合;
集合S={K1,K2,K3}表示整個知識點網(wǎng)絡庫,則有:
其中知識點ki為kij的上一級知識點,kij為kijz的上一級知識點,這樣能保證各級知識點之間的從屬關系。
具體算法步驟如下:
Step 1:輸入藏文試題;進行預處理,凈化等;
Step 2:對凈化后題目內(nèi)容進行分詞,剔除停用詞和虛詞等無實際意義的詞,得到題目中的關鍵數(shù)學術(shù)語和名詞,用S={v1,v2,…,vn}表示;
Step 3:用S中的每個元素vi依次查詢表Ki(1?i?3),若vw在Ki中的知識點k匹配成功,則知識點k對于關鍵字vw的權(quán)值設為r=i,否則在下一級知識點表Ki+1中查詢匹配,并賦予相應的權(quán)值r=i+1(r?3);
Step 4:對匹配成功的所有知識按其權(quán)值進行排序,選擇其中權(quán)值最大的作為該題的知識點。
根據(jù)以上步驟確定試題的知識點,算法中的權(quán)值代表的是知識點的層級,本文中知識點的層級最大有三級,層級越大,對應的知識點越具體細致,所以選擇權(quán)值最大的知識點作為試題的知識點。
3 總結(jié)
本文主要探究了藏文試題的知識點確定方法,對藏文試題的呈現(xiàn)方式進行了全面分析。由于試題的呈現(xiàn)方式各種各樣,以文、圖、數(shù)學符號和圖文混合等形式,本文討論的試題只限有文字描述或圖文并茂的試題,其主要知識點依賴于對文字描述部分的深入分析確定的,但組卷系統(tǒng)等試題管理系統(tǒng)中對試題知識點等屬性的設置方面要求較高[6],需要比較準確的設置試題各屬性才可以保證整個系統(tǒng)的性能,所以在提取的準確性和適用性方面都存在一定的優(yōu)化和提升空間。
參考文獻(References):
[1] 蓋洋僑.智能組卷系統(tǒng)設計與實現(xiàn)[D].大連理工大學,2016.
[2] 才項俄日,張有宜.藏語文試卷的智能生成研究與實現(xiàn)[J].電腦與信息,2015.6.
[3] 劉穎.計算語言學[M].清華大學出版社,2014.
[4] 劉懷蘭.基于改進遺傳算法的智能組卷模型優(yōu)化[J].華中科技大學學報,2013.5.
[5] 王淑佩.基于改進自適應遺傳算法的組卷研究[J].科學技術(shù)與工程,2012.2.
[6] 王慧敏.利用文本相似度改進遺傳算法的組卷實現(xiàn)與研究[J].現(xiàn)代電子技術(shù),2016.5.