郭崇慧, 呂征達(dá)
(大連理工大學(xué) 系統(tǒng)工程研究所,遼寧 大連 116024)
隨著互聯(lián)網(wǎng)教育規(guī)模的不斷擴大和學(xué)生學(xué)習(xí)需求的深化,中國在線教育在現(xiàn)階段已經(jīng)進入了學(xué)習(xí)方式豐富多樣、資源開放共享的智能教育時代,互聯(lián)網(wǎng)、大數(shù)據(jù)和教育的有機結(jié)合成為時代發(fā)展的必然趨勢。教育大數(shù)據(jù)是指整個教育活動過程中所產(chǎn)生的以及根據(jù)教育需要采集到的,一切用于教育發(fā)展并且具有巨大潛在價值的數(shù)據(jù)集合。教育大數(shù)據(jù)作為教育戰(zhàn)略資源,具有推動教育領(lǐng)域改革的巨大科學(xué)力量,并且引領(lǐng)著智慧教育的發(fā)展。教育大數(shù)據(jù)的價值具體表現(xiàn)在教育管理科學(xué)化、教學(xué)模式改革、學(xué)習(xí)個性化、教育服務(wù)人性化等若干方面[1]。因此,對教育大數(shù)據(jù)的相關(guān)研究顯得尤為重要。
美國教育部在2012年10月發(fā)布了《通過教育數(shù)據(jù)挖掘和學(xué)習(xí)分析促進教與學(xué)》報告,提出了目前教育大數(shù)據(jù)領(lǐng)域中兩大主要研究方向——教育數(shù)據(jù)挖掘和學(xué)習(xí)分析。教育數(shù)據(jù)挖掘是綜合運用數(shù)學(xué)、統(tǒng)計學(xué)、機器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù),對教育數(shù)據(jù)進行處理和分析,通過數(shù)據(jù)建模,發(fā)現(xiàn)學(xué)習(xí)者學(xué)習(xí)結(jié)果與學(xué)習(xí)內(nèi)容、學(xué)習(xí)資源和教學(xué)行為等變量的相關(guān)關(guān)系,來預(yù)測學(xué)習(xí)者未來的學(xué)習(xí)趨勢;學(xué)習(xí)分析是綜合運用信息科學(xué)、社會學(xué)、計算機科學(xué)、心理學(xué)和學(xué)習(xí)科學(xué)的理論和方法,通過對廣義教育大數(shù)據(jù)的處理和分析,利用已知模型和方法去回答影響學(xué)習(xí)者學(xué)習(xí)的重大問題,評估學(xué)習(xí)者學(xué)習(xí)行為,并為學(xué)習(xí)者提供人為的適應(yīng)性反饋[2]。
在教育活動過程中,試題作為考察學(xué)生對所學(xué)知識點掌握程度的重要途徑受到了充分關(guān)注。教師在設(shè)計試題時都有著一定的考察目標(biāo),因此每道試題涉及一個或者多個知識點。在傳統(tǒng)教學(xué)中,這些知識點需要學(xué)生在解題過程中自己去分析。隨著互聯(lián)網(wǎng)與教育相結(jié)合,在線教育平臺收集了豐富多樣的試題數(shù)據(jù),而其中絕大部分試題都沒有標(biāo)注知識點。在教育數(shù)據(jù)挖掘研究中,利用標(biāo)注好知識點的試題數(shù)據(jù)輔以學(xué)生的作答數(shù)據(jù)可以進行學(xué)習(xí)者知識建模、個性化試題推薦、試題難度預(yù)測等研究。如果采用人工標(biāo)注知識點的方法費時費力,并且可信度也得不到保障。
因此,尋找一種高效準(zhǔn)確的自動標(biāo)注試題知識點的方法成為當(dāng)務(wù)之急,且對初等教育尤為重要。文[3]提出了基于支持向量機(Support Vector Machine, SVM)算法的地理試題自動分類模型,文[4]構(gòu)建了基于SVM的試題自動分類系統(tǒng),文[5]設(shè)計出基于向量空間模型的分類系統(tǒng),通過計算特征詞相似度來進行分類。以上文獻中的試題數(shù)據(jù)僅有一個知識點標(biāo)簽,并且總的知識點標(biāo)簽數(shù)量過少,與初等教育試題、知識點分布的實際情況不符,若將上述方法應(yīng)用到初等教育領(lǐng)域試題知識點標(biāo)注問題中,則存在一定局限性。為了解決初等教育試題多知識點標(biāo)注問題,本文提出一種基于集成學(xué)習(xí)的多知識點標(biāo)注方法。本文形式化定義試題知識點標(biāo)注問題,構(gòu)建了高中數(shù)學(xué)知識點知識圖譜,提出的方法能夠很好地完成知識點標(biāo)注任務(wù)。
經(jīng)過文獻查閱可以發(fā)現(xiàn)大多數(shù)教育數(shù)據(jù)挖掘研究和學(xué)習(xí)分析涉及到的學(xué)生層次多為接受高等教育的大學(xué)生,幾乎沒有面向初等教育的研究[6~8],并且現(xiàn)階段對于教育大數(shù)據(jù)中教育資源數(shù)據(jù)的研究主要集中在教育資源個性化推薦,大多使用的是學(xué)生行為數(shù)據(jù),也就是從學(xué)生角度來做分析比較,并未從教育資源的角度考慮。試題知識點標(biāo)注,也可稱為試題分類,試題主要以文本的形式存儲在信息系統(tǒng)中,因此可以借鑒文本分類方法來進行研究[9]。學(xué)科領(lǐng)域的知識點集合構(gòu)成了知識體系,可以利用知識圖譜方法構(gòu)建知識體系[10]。而試題考察的知識點可能不止一個,因此又涉及到多標(biāo)簽分類[11]。為了提高分類精度,本文提出的方法應(yīng)用了集成學(xué)習(xí)的思想[12]。
文本分類是按照構(gòu)建好的分類體系對文檔數(shù)據(jù)進行類別劃分的一種自動分類方法。文本分類任務(wù)通常由三部分組成:文本數(shù)據(jù)獲取與預(yù)處理、特征工程、分類器設(shè)計及評估[13],如圖1所示。
圖1 文本分類一般流程
使用的數(shù)據(jù)集一般是由文本數(shù)據(jù)以及相關(guān)標(biāo)簽組成,預(yù)處理階段需要對原始的文本進行清洗。由于文本結(jié)構(gòu)不同,進行中文文本分析時首先應(yīng)該分詞處理,而進行英文文本分析時需要去掉單詞的前后綴。然后刪除低頻詞、停用詞、無意義的特殊符號等。通常情況下文本分類中的特征維數(shù)高,構(gòu)成的矩陣稀疏,特征工程的主要目的是降維,包括特征選擇、特征提取以及文本表示[14]。特征選擇是從原始的特征集合中選取最合適的特征構(gòu)建成新的可以用于分析的特征矢量,常用的方法有互信息、信息增益、χ2統(tǒng)計量等。特征提取是將高維特征矢量映射到低維空間中。為了使計算機能夠處理真實文本則需要選擇合適的方法來表示文檔。最常用的文檔表示方法是向量空間模型,又稱詞袋模型(Bag of Word, BoW)。該方法首先通過所有的文檔構(gòu)造一個詞典,每篇文檔表示成與詞典長度相同的向量,向量的每個位置對應(yīng)著詞典中相同位置的詞。一篇文檔中出現(xiàn)了某詞,則在表示該篇文檔的向量對應(yīng)位置上賦予該詞的權(quán)重,權(quán)重可以是詞頻或者是詞頻-逆文檔頻率 (Term Frequency-Inverse Document Frequency, TF-IDF)。而用于文本分類的機器學(xué)習(xí)分類方法有樸素貝葉斯分類器、支持向量機、神經(jīng)網(wǎng)絡(luò)、決策樹等[15]。
為了增強下一代智能搜索引擎功能,谷歌公司在2012年5月提出了知識圖譜的概念。知識圖譜本質(zhì)上是一種語義網(wǎng)絡(luò),用于表示實體間的關(guān)系。如今,知識圖譜也泛指各種大規(guī)模的知識庫。雖然知識圖譜這個名詞較新穎,但是其技術(shù)淵源已久,從20世紀(jì)70年代的“專家系統(tǒng)”,到萬維網(wǎng)之父伯納斯·李提出的“語義網(wǎng)”,再到后來提出的“鏈接數(shù)據(jù)”都是知識圖譜的前身[16]。
知識圖譜的構(gòu)建方式主要有兩種:自頂向下和自底向上。自頂向下的方式是借助結(jié)構(gòu)化數(shù)據(jù)抽取實體、屬性及關(guān)系;而自底向上的方式則是憑借技術(shù)方法在采集到的網(wǎng)絡(luò)公開數(shù)據(jù)中按照信息抽取、知識融合、知識加工三個步驟得到的實體、屬性及關(guān)系[17]。
傳統(tǒng)意義上的分類問題多為單標(biāo)簽分類,包括二元分類和多類分類,而實際上很多待分類樣本并不只有唯一標(biāo)簽,因此對于多標(biāo)簽分類問題的研究逐漸增多?,F(xiàn)有的多標(biāo)簽數(shù)據(jù)的處理方法主要分為兩大類:問題轉(zhuǎn)換法和算法適應(yīng)法[18]。問題轉(zhuǎn)換法是將多標(biāo)簽分類問題轉(zhuǎn)換為多個單標(biāo)簽分類問題,然后沿用傳統(tǒng)單標(biāo)簽分類算法如支持向量機、貝葉斯分類器、K最近鄰分類器等來求解問題,主要方法有二元關(guān)系法(Binary Relevance, BR)、標(biāo)簽冪集法(Label Power-set, LP)等。而算法適應(yīng)法則是通過修改傳統(tǒng)的單標(biāo)簽學(xué)習(xí)算法,使之能夠處理多標(biāo)簽數(shù)據(jù),主要方法有多標(biāo)簽KNN算法(Multi-label KNN, MLKNN)、多類多標(biāo)簽關(guān)聯(lián)分類法(Multi-class Multi-label Associative Classification, MMAC)等。
集成學(xué)習(xí)通過構(gòu)建并集成多個分類器來完成學(xué)習(xí)任務(wù),常可獲得比單一分類器效果優(yōu)越的泛化性能,尤其是當(dāng)分類器是“弱分類器”時更為明顯[19]。根據(jù)基分類器的生成方式,集成學(xué)習(xí)方法大致可分為兩大類:以提升法(Boosting)為代表的序列化方法和以裝袋法(Bagging)為代表的并行化方法。
裝袋法是并行集成學(xué)習(xí)方法最著名的代表,通過自助采樣法從包含m個樣本的訓(xùn)練集中有放回抽樣得到T個含有m個可重復(fù)樣本的訓(xùn)練子集。然后基于訓(xùn)練子集訓(xùn)練出T個基分類器,再根據(jù)集成策略(比如投票法)對分類器進行集成。
表1中列舉出了原始高中數(shù)學(xué)試題數(shù)據(jù)樣例,下面對試題知識點自動標(biāo)注問題給出形式化的描述:
定義1(試題題干) 試題題干q是由p個中文詞語及數(shù)學(xué)符號組成的文本,可以表示為q=(w1,w2,…,wp),其中wi(1≤i≤p)表示試題題干的第i個特征。
定義2(知識點標(biāo)簽) 知識點標(biāo)簽k是一道試題所考察的知識點lm的集合,可以表示為k=(l1,l2,…,lm)。lj(1≤j≤m)表示試題是否考察了知識點j,若考察了則lj=1,否則lj=0,其中m為全部知識點數(shù)量。
定義3(試題數(shù)據(jù)) 試題數(shù)據(jù)集Q是由若干試題題干及其知識點標(biāo)簽共同組成,Q={Q(1),Q(2),…,Q(i),…,Q(n)},其中Q(i)=(q(i),k(i))(1≤i≤n),n表示題庫中試題總數(shù)量。
定義4(試題知識點標(biāo)注)試題多知識點標(biāo)注是指在給定試題題干q=(w1,w2,…,wp)的情況下,自動化標(biāo)注出該試題題干所考察的一個或者多個知識點組成的知識點標(biāo)簽k=(l1,l2,…,lm)。標(biāo)注過程共分為兩個階段,對已標(biāo)注知識點的試題數(shù)據(jù)進行學(xué)習(xí)的學(xué)習(xí)階段和對未標(biāo)注知識點的試題自動標(biāo)注階段。
表1 未處理前試題數(shù)據(jù)
為了解決試題知識點自動標(biāo)注問題,首先需要利用已標(biāo)注數(shù)據(jù),學(xué)習(xí)訓(xùn)練出分類器。本文提出一種基于集成學(xué)習(xí)的試題多知識點標(biāo)注方法?;玖鞒倘鐖D2所示。
首先對收集到的試題數(shù)據(jù)進行清洗、轉(zhuǎn)換,試題題干部分通過自然語言相關(guān)預(yù)處理方法進行梳理,知識點標(biāo)簽部分通過含有領(lǐng)域知識的外部材料或領(lǐng)域?qū)<覙?gòu)建知識點圖譜進行原始知識點標(biāo)簽的半自動替換。之后劃分出訓(xùn)練集和測試集,訓(xùn)練集用于訓(xùn)練分類器。將測試集輸入訓(xùn)練好的分類器,預(yù)測出對應(yīng)考察知識點并與測試集原本的知識點標(biāo)注進行對比,通過若干度量指標(biāo)度量本方法的有效性。
圖2 基于集成學(xué)習(xí)的試題多知識點標(biāo)注方法流程
文本數(shù)據(jù)預(yù)處理需要首先對試題數(shù)據(jù)進行半自動篩選,刪除重復(fù)試題、標(biāo)注錯誤試題、題干過短試題,最終整理出合適的、可以用于實驗的數(shù)據(jù)集。然后,對篩選得到的試題題干數(shù)據(jù)進行預(yù)處理,刪除其中的無用字符,結(jié)合領(lǐng)域詞典進行分詞,并依據(jù)停用詞表去除分詞操作中得到的停用詞,得到干凈合適的預(yù)處理后數(shù)據(jù)。最后,使用詞袋模型并結(jié)合TF-IDF來表示試題題干文本。具體流程圖如圖3所示。
圖3 試題題干處理表示流程
以高中數(shù)學(xué)試題為例,不少高中數(shù)學(xué)試題中存在幾何圖形和公式,對于這樣的數(shù)據(jù)暫無可靠方法提取,因此從原始文本文件提取的試題數(shù)據(jù)主要由中文、英文、數(shù)字以及一些特殊字符組成。其后需要對提取出的數(shù)學(xué)試題文本數(shù)據(jù)進行預(yù)處理。首先,刪除無意義的數(shù)字、英文字母和特殊字符。然后依托搜狗細(xì)胞詞庫中的數(shù)學(xué)專有名詞詞庫構(gòu)適合高中數(shù)學(xué)的專有領(lǐng)域詞典,并在常用停用詞表基礎(chǔ)上添加在數(shù)學(xué)試題文本中常出現(xiàn)的無意義的詞,例如“已知”、“證明”、“其中”等,構(gòu)造出專用停用詞表。最后根據(jù)領(lǐng)域詞典使用分詞工具對試題文本數(shù)據(jù)進行分詞,并依據(jù)停用詞表對分詞后的題干數(shù)據(jù)進行清洗。最終得到的文本如表2所示。然后使用詞袋模型和TF-IDF相結(jié)合的方法來表示處理后的文本信息,并劃分出訓(xùn)練集和測試集。
表2 處理后試題數(shù)據(jù)
知識點是教學(xué)活動中傳遞教學(xué)信息的基本單元。根據(jù)劃分的粒度可以分為單位知識點和復(fù)合知識點。知識點的關(guān)系有三種:層次關(guān)系、前驅(qū)關(guān)系和關(guān)聯(lián)關(guān)系。本文的數(shù)學(xué)知識圖譜的構(gòu)建借助人教版高中數(shù)學(xué)教材采用自頂向下的方式得到的。首先抽取出教材中的目錄,目錄有三個層級:章、節(jié)、小節(jié),定義每個章節(jié)的標(biāo)題為一個知識點。由于教材目錄的結(jié)構(gòu)存在互相包含,互相嵌套的情況,有的知識點的層次關(guān)系并不明顯,因此按照“相互獨立”原則,結(jié)合領(lǐng)域知識修改不恰當(dāng)知識點結(jié)點。由此構(gòu)建出具有層次關(guān)系的依托教材的知識點圖譜,如圖4所示。
圖4 知識點的知識圖譜舉例
對原始數(shù)據(jù)進行梳理后發(fā)現(xiàn),原始數(shù)據(jù)集中的標(biāo)簽存在如下問題:表達(dá)的意思相同但用詞不同;存在包含關(guān)系;標(biāo)簽粒度不一致等。因此,使用知識點圖譜中的單位知識點,即樹形結(jié)構(gòu)的葉結(jié)點作為標(biāo)準(zhǔn)知識點,對原始數(shù)據(jù)集中的標(biāo)簽進行替換。最終得到標(biāo)準(zhǔn)化的知識點標(biāo)簽
文本分類中由于支持向量機算法性能優(yōu)越,因此選擇支持向量機分類器作為基分類器。本文集成學(xué)習(xí)方法選擇的是裝袋法,基于自助采樣法的裝袋法是并行式集成學(xué)習(xí)方法最著名的代表。使用自助采樣法從訓(xùn)練集中構(gòu)造出若干訓(xùn)練子集,每個訓(xùn)練子集都輸入到基分類器中得到若干性能不同的基分類器。
將測試集分別輸入到訓(xùn)練得到的基分類器中,選擇子集準(zhǔn)確率(Subset Accuracy, SubAcc)作為基分類器評價指標(biāo),分別計算各個基分類器對于測試集的子集準(zhǔn)確率,并計算其均值作為篩選優(yōu)基分類器的閾值。通過比較各個基分類器的子集準(zhǔn)確率與平均子集準(zhǔn)確率的大小,即可篩選出優(yōu)基分類器。得到若干優(yōu)基分類器后,通過相對多數(shù)投票法對所有的預(yù)測結(jié)果進行組合來得到最終的預(yù)測結(jié)果,基分類器集成流程圖如圖5所示。
圖5 基分類器集成流程
本文的實驗數(shù)據(jù)來自某在線教育平臺數(shù)據(jù)庫中的高中數(shù)學(xué)試題,原始數(shù)據(jù)共計2195道,經(jīng)過半自動篩選后得到1357道試題。原始標(biāo)注的知識點也就是原始標(biāo)簽共計166項,經(jīng)過數(shù)學(xué)知識點圖譜構(gòu)建并替換后得到61項標(biāo)簽。
通常多標(biāo)簽任務(wù)的評價指標(biāo)有基于樣本的度量方法和基于標(biāo)簽的度量方法兩大類,并且在這種任務(wù)中僅考慮單一指標(biāo)并不十分合適,因此本文選擇如下幾個實驗評價指標(biāo)[20]:
(1)基于樣本的度量方法
子集準(zhǔn)確率(Subset Accuracy):預(yù)測標(biāo)簽集與真實標(biāo)簽集完全相同的比率,計算公式為
(1)
其中h(xi)表示預(yù)測出的標(biāo)簽,Yi表示真實的標(biāo)簽情況。
海明損失(Hamming Loss):預(yù)測標(biāo)簽與真實標(biāo)簽的差距, 計算公式為
(2)
其中Δ表示預(yù)測標(biāo)簽集和真實標(biāo)簽集的對稱差分。
查準(zhǔn)率(Precision):預(yù)測為真中真實為真的比例, 計算公式為
(3)
查全率(Recall):真實為真中預(yù)測為真的比例, 計算公式為
(4)
F1值(F1 Score):每個樣本的查準(zhǔn)率和查全率的調(diào)和平均數(shù), 計算公式為
(5)
(2)基于標(biāo)簽的度量方法:
對于標(biāo)簽集中的第j個標(biāo)簽,其真正例、假正例、真反例、假反例定義如下:
TPj=|{xi|yi∈Yi∧yj∈h(xi),1≤i≤n}|
FPj=|{xi|yi?Yi∧yj∈h(xi),1≤i≤n}|
TNj=|{xi|yi?Yi∧yj?h(xi),1≤i≤n}|
FNj=|{xi|yi∈Yi∧yj?h(xi),1≤i≤n}|
(6)
宏F1(macro-F1):從各個標(biāo)簽的混淆矩陣分別計算出查準(zhǔn)率和查全率并取平均值,再計算F1,即
(7)
微F1(micro-F1):現(xiàn)將各混淆矩陣對應(yīng)元素平均,再求出F1值,即
(8)
覆蓋率(Coverage):平均每個樣本的預(yù)測標(biāo)簽排序中,需要查找多少預(yù)測標(biāo)簽才能找出所有樣本的真實標(biāo)簽,其中rankf(xi,y)表示預(yù)測標(biāo)簽的排序,即
(9)
平均準(zhǔn)確率(Average Precision):所有樣本的預(yù)測標(biāo)簽排序中,排在真實標(biāo)簽前的也是真實標(biāo)簽的概率的平均值,即
(10)
由于樣本數(shù)據(jù)不平衡,不同知識點標(biāo)注的試題數(shù)量差距比較大,因此,設(shè)置了不同閾值來根據(jù)標(biāo)簽出現(xiàn)的頻次篩選知識點標(biāo)簽及相應(yīng)試題數(shù)據(jù)。表3展示實驗的設(shè)置,標(biāo)簽頻次閾值分別設(shè)為100、50、40、30、20、10。標(biāo)簽的勢(label cardinality)表示每道試題的平均知識點數(shù)量,標(biāo)簽密度(label density)是標(biāo)簽的勢的標(biāo)準(zhǔn)化,其計算公式如下
(11)
其中n表示數(shù)據(jù)集中試題的數(shù)量,m表示知識點標(biāo)簽的數(shù)量。
在算法上選擇了二元關(guān)系法(Binary Relevance, BR),多標(biāo)簽KNN算法(Multi-label KNN, MLKNN)[21],分類器鏈法(Classifier Chain, CC)作為對比算法,實驗的訓(xùn)練集測試集劃分比例為1∶1。根據(jù)上文提到的度量指標(biāo),對比試驗結(jié)果如表4~表6所示。
表3 實驗設(shè)置
表4 標(biāo)簽頻次閾值分別為100和50時的實驗結(jié)果對比
表5 標(biāo)簽頻次閾值分別為40和30時的實驗結(jié)果對比
表6 標(biāo)簽頻次閾值分別為20和10時的實驗結(jié)果對比
從實驗結(jié)果可以看出,與二元關(guān)系法、多標(biāo)簽KNN算法、分類器鏈法相比,本文提出的基于集成學(xué)習(xí)的試題多知識點標(biāo)注方法在不同的知識點標(biāo)簽數(shù)量下都取得了較好的結(jié)果。在多標(biāo)簽分類中評價比較嚴(yán)苛的指標(biāo)——子集準(zhǔn)確率上,本文方法總是明顯優(yōu)于其他三種方法。篩選表現(xiàn)相對較優(yōu)的基分類器并將其結(jié)果通過多數(shù)投票法集成,彌補了各個基分類器的劣勢,獲得了很好的結(jié)果。
表7 預(yù)測結(jié)果與原始標(biāo)注對比
不過,隨著標(biāo)簽頻次閾值的降低,知識點的數(shù)量逐漸增加,多標(biāo)簽分類難度越來越大。原因之一是一道試題實際蘊含的知識點和教師出題考察的知識點并不完全一致。如表7所示,前三道題中原始人工標(biāo)注的知識點并無“等差數(shù)列”,而試題題干內(nèi)容中卻含有“等差數(shù)列”這一詞項,第4題和第5題知識點為“等差數(shù)列”且題干中也有“等差數(shù)列”。所以使用經(jīng)過訓(xùn)練得到的模型來對前三道題進行預(yù)測時會將“等差數(shù)列”作為這一試題的知識點標(biāo)注出來。依據(jù)現(xiàn)有數(shù)據(jù)進一步判定試題考察知識點與試題蘊含的知識點是比較困難的。原因之二是由于知識點分布不均勻,有不少知識點并沒有足夠數(shù)量的試題數(shù)據(jù)用來學(xué)習(xí),導(dǎo)致在預(yù)測試題考察知識點時很難預(yù)測出來。
現(xiàn)階段教育活動中的知識點標(biāo)注主要是憑借教師人工標(biāo)注,存在成本高、效率低、準(zhǔn)確度難以保障等問題。因此,自動標(biāo)注試題知識點成為了亟待解決的問題。本文提出一種基于集成學(xué)習(xí)的試題多知識點標(biāo)注方法,能夠有效地自動標(biāo)注試題知識點,并且取得了較好的效果。
本文的主要貢獻有以下三點:
(1)對試題知識點標(biāo)注問題進行了形式化的定義,將試題多知識點標(biāo)注問題轉(zhuǎn)化為多標(biāo)簽分類問題;
(2)借助教材目錄和領(lǐng)域知識構(gòu)建知識點的知識圖譜作為分類依據(jù);
(3)提出基于集成學(xué)習(xí)的多知識點標(biāo)注方法,能夠有效標(biāo)注試題考察的知識點,完成試題分類。
本文使用實際背景下的高中數(shù)學(xué)試題進行了實驗,實驗結(jié)果表明在實際背景下文本提出的方法要優(yōu)于已有的基于傳統(tǒng)機器學(xué)習(xí)的多標(biāo)簽文本分類方法。但是,總體效果還有待進一步提升,主要原因有以下兩點:
(1)數(shù)學(xué)試題題干中含有的公式和圖形信息無法提取,而對于某些試題公式和圖形中蘊含著有關(guān)考察知識點的信息。由于信息缺失導(dǎo)致試題題干特征表示的不完整,因此導(dǎo)致難以做出正確的預(yù)測。
(2)試題的分類目標(biāo),即知識點體系,目前尚無公認(rèn)的標(biāo)準(zhǔn),本文中依托高中教材目錄和領(lǐng)域知識構(gòu)建了知識點圖譜來對原始數(shù)據(jù)的雜亂的標(biāo)簽進行了半自動化的替換。
因此,需要在未來進行更深入的研究的重要關(guān)鍵點有兩點:一是深入挖掘現(xiàn)有試題題干文本的語義信息;二是尋找可以利用原始試題中的公式、圖形圖像的方法來彌補僅憑借文本挖掘方法導(dǎo)致的信息缺失。