佟 威 汪 飛 劉 淇 陳恩紅
(中國科學(xué)技術(shù)大學(xué)計(jì)算機(jī)學(xué)院 合肥 230027)
教育是人才培養(yǎng)的重要途徑,而考試自古以來就是評價(jià)教育成果、進(jìn)行人才選拔的重要方式,在國家經(jīng)濟(jì)社會發(fā)展中發(fā)揮著重要的作用.黨和國家高度重視教育工作,提出了加快建設(shè)教育現(xiàn)代化、建設(shè)教育強(qiáng)國以及辦好人民滿意的教育的總體要求.新時(shí)代的教育考試改革要緊密結(jié)合當(dāng)前和今后一個(gè)時(shí)期國家和社會層面對人才價(jià)值的需求和判斷,緊密結(jié)合先進(jìn)的信息技術(shù)手段,為新一輪高考改革和政策制定提供更多的體現(xiàn)著中國智慧的中國解決方案.
長久以來,試題難度,特別是高考試題難度,都是教育考試國家題庫建設(shè),甚至全社會重點(diǎn)關(guān)注的指標(biāo)參數(shù),對保障考試安全平穩(wěn)順利實(shí)施、服務(wù)高校人才選拔、合理引導(dǎo)中學(xué)教學(xué)都有關(guān)鍵影響.如今教育越來越受重視,對教育質(zhì)量的要求逐漸增加,如何高效、準(zhǔn)確地評估試題難度自然也成為了一個(gè)重要的研究問題.
傳統(tǒng)方法中,試題難度評估大多是由人工進(jìn)行[1].通??荚嚨拿}人員和審校人員由具有充足專業(yè)知識和豐富教學(xué)經(jīng)驗(yàn)的老師或?qū)<覔?dān)任,在設(shè)計(jì)試題時(shí)除了考慮涵蓋的必備知識和關(guān)鍵能力等內(nèi)容相關(guān)的屬性和維度,也需要控制試題難度在合理范圍,命題和審校人員以自身知識和經(jīng)驗(yàn)評估試題難度.另外也有以試測的形式請部分樣本學(xué)生試做樣題,根據(jù)學(xué)生實(shí)際答題情況評估試題難度,之后對樣題稍作更改和重組投入使用,例如TOEFL考試和SAT(scholastic assessment test)考試題等[1].
在教育數(shù)據(jù)挖掘領(lǐng)域,試題評估是一個(gè)重要的研究方向,現(xiàn)有方法已經(jīng)對試題多種參數(shù)(如難度、區(qū)分度、猜測度等)進(jìn)行了評估分析[2-3].其中應(yīng)用最為廣泛的是來自教育心理學(xué)的認(rèn)知診斷理論.認(rèn)知診斷通過利用學(xué)生答題記錄對學(xué)生試題得分進(jìn)行建模,從而評估試題參數(shù)和學(xué)生能力.常見的認(rèn)知診斷模型包括基于項(xiàng)目反映理論(item response theory,IRT)[4]的潛在特質(zhì)模型和以DINA(deterministic inputs, noisy “and” gate)模型[5]為代表的潛在分類模型等.其中IRT通過類邏輯斯蒂回歸模型,結(jié)合學(xué)生的潛在能力,可以評估試題在難度、區(qū)分度和猜測度屬性上的數(shù)值;而DINA進(jìn)一步結(jié)合Q矩陣(或稱“試題關(guān)聯(lián)知識點(diǎn)矩陣”),且將學(xué)生能力描述成多維知識點(diǎn)掌握向量,建模學(xué)生得分,可以得到試題失誤率、猜測率等參數(shù).其中Q矩陣是人工標(biāo)注的用以表示試題包含知識點(diǎn)的矩陣.表1是一個(gè)簡單的Q矩陣示例,其中每一行代表一個(gè)試題,每一列代表一個(gè)知識點(diǎn).如表1第1行表示試題q1包含知識點(diǎn)s1和s4,但不包含知識點(diǎn)s2和s3.Q矩陣的完備性將影響到建模結(jié)果的準(zhǔn)確性,然而Q矩陣通常由人工提供,因此其完備性也常常難以保證.另外,也有學(xué)者通過特征工程的方式,提取試題諸如考察點(diǎn)、迷惑性、復(fù)雜性等特征后利用機(jī)器學(xué)習(xí)方法(如線性回歸、神經(jīng)網(wǎng)絡(luò)等)實(shí)現(xiàn)難度預(yù)測[1,6].
Table 1 Example of Item Associated Q-matrix表1 試題關(guān)聯(lián)知識點(diǎn)Q矩陣示例
然而,不論是傳統(tǒng)的人工評估,還是現(xiàn)有的認(rèn)知診斷或機(jī)器學(xué)習(xí)建模,在國家教育日益深化改革的背景下,應(yīng)對試題難度預(yù)測這個(gè)問題上,都有各自的局限性,具體體現(xiàn)在3個(gè)方面:
1) 人力、時(shí)間消耗大.人工的試題難度評估較為耗時(shí)耗力,而入庫試題資源量龐大,且某些學(xué)科試題更迭頻繁,這些都使得純?nèi)斯さ脑囶}難度預(yù)測變得不切實(shí)際.且認(rèn)知診斷中的Q矩陣也由人工標(biāo)注,同樣需要消耗較多的人力與時(shí)間.
2) 對先驗(yàn)知識的依賴.人工的試題難度評估結(jié)果除試題本身外,很大程度上依賴于評估者自身的水平和對試題的認(rèn)知程度;同樣,認(rèn)知診斷模型通常也需要預(yù)先提供試題的Q矩陣.這些都使得評估或預(yù)測結(jié)果客觀性或準(zhǔn)確性不足.
3) 特征工程中人工定義的特征較為缺少試題語義,是試題的淺層表示.且部分特征(如試題復(fù)雜性、靈活性、干擾性等)的判定仍然需要人工進(jìn)行,非客觀性和界限模糊等問題同樣存在.
我國國家考試具有高利害性、社會關(guān)注度極高等特點(diǎn),很難通過考前試測等方式提前獲取試題難度參數(shù),目前仍然按照傳統(tǒng)的試題難度評估方式,由人工進(jìn)行[1].隨著大數(shù)據(jù)、人工智能時(shí)代的到來,眾多先進(jìn)的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法為國家題庫現(xiàn)代化建設(shè)和入庫試題的難度參數(shù)估計(jì)賦予了更多方法和途徑.基于人工智能的試題難度預(yù)測以往年產(chǎn)生的大量數(shù)據(jù)作為訓(xùn)練樣本,能夠有效解決試題安全保密要求和試測曝光兩者之間的矛盾,有效調(diào)整傳統(tǒng)人工估計(jì)難度中存在的偏差和波動(dòng).要實(shí)現(xiàn)高效、準(zhǔn)確的試題難度評估,需要解決3個(gè)挑戰(zhàn):
1) 如何從包含復(fù)雜語義的試題文本出發(fā),挖掘其中可用于難度預(yù)測的重要信息.高效的試題難度預(yù)測自動(dòng)化方法應(yīng)盡量避免知識點(diǎn)標(biāo)注等人工勞動(dòng),因此要求模型具有較強(qiáng)的文本信息挖掘能力.
2) 如何減少人工干預(yù),使得評價(jià)結(jié)果更加客觀.諸如試題知識點(diǎn)標(biāo)注或經(jīng)驗(yàn)性的特征設(shè)計(jì)等都難以避免地引入個(gè)人傾向,使得結(jié)果客觀性難以保證.
3) 如何克服不同考生群體在不同試卷版本中作答數(shù)據(jù)的比較.這些數(shù)據(jù)得到的試題得分率往往具有樣本依賴性,實(shí)際難度差異很大的試題從數(shù)據(jù)呈現(xiàn)的結(jié)果來看可能非常接近,反之亦然.如果不能克服這個(gè)問題,預(yù)估結(jié)果會出現(xiàn)很大誤差.
各項(xiàng)考試,特別是國家考試,都在一定程度上存在此類問題.本文從數(shù)學(xué)試題難度預(yù)測著手,提出了針對數(shù)學(xué)試題的模型C-MIDP(CNN for mathematical item difficulty prediction),R-MIDP(RNN for mathe-matical item difficulty prediction)和H-MIDP(hybrid model for mathematical item difficulty prediction),利用試題文本和學(xué)生答題記錄進(jìn)行難度預(yù)測.3種模型均為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其中C-MIDP以CNN(convolutional neural network)為基礎(chǔ),R-MIDP以RNN(recurrent neural network)為基礎(chǔ),H-MIDP則為二者的混合模型.難度的預(yù)測分為3步:1)使用word2vec詞向量對訓(xùn)練集的試題文本進(jìn)行表征,作為模型輸入.以word2vec詞向量構(gòu)建的試題表征,可以較好地保留試題語義,使得神經(jīng)網(wǎng)絡(luò)能夠基于試題文本自身挖掘出重要信息,同時(shí)保證客觀性.2)從答題記錄中獲取各場考試中試題的得分率,考慮得分率的適用范圍,設(shè)計(jì)context相關(guān)的方式進(jìn)行模型訓(xùn)練,將“以偏概全”變?yōu)椤耙孕∫姶蟆?3)將需要預(yù)測難度的試題文本進(jìn)行表征,輸入到訓(xùn)練好的模型中,獲得難度預(yù)測值.本文的主要貢獻(xiàn)點(diǎn)有3個(gè)方面:
1) 提出針對數(shù)學(xué)試題的難度預(yù)測模型,實(shí)現(xiàn)高效的數(shù)學(xué)試題難度預(yù)測,并在真實(shí)數(shù)據(jù)集上取得了較好的實(shí)驗(yàn)結(jié)果;
2) 模型是數(shù)據(jù)驅(qū)動(dòng)的,訓(xùn)練和預(yù)測都不需要人工提供關(guān)于試題的先驗(yàn)知識,提高了預(yù)測結(jié)果的客觀性,且因減少了人工參與因而提高了預(yù)測效率;
3) 考慮到不同考試中學(xué)生群體能力的差異性,訓(xùn)練時(shí)采用的是context相關(guān)的訓(xùn)練方式,提高了預(yù)測的準(zhǔn)確率.
本節(jié)將從難度預(yù)測和文本建模2個(gè)方面介紹相關(guān)工作.
傳統(tǒng)教育中,難度評估大多是人工進(jìn)行的.教育者利用自己的知識儲備和教學(xué)經(jīng)驗(yàn)評估試題難度,以設(shè)計(jì)或選擇合適的試題,評估的結(jié)果通常隨評估者知識、經(jīng)驗(yàn)的差異出現(xiàn)不同.
在教育學(xué)領(lǐng)域中,有學(xué)者研究影響試題難度的具體因素,如Beck等人[7]認(rèn)為試題特征和學(xué)生能力都是試題難度的影響因素.在試題方面,Kubinger等人[8]指出試題類型、試題結(jié)構(gòu)以及知識深度等因素都與試題難度有關(guān);而在學(xué)生能力方面,也有許多理論和模型被提出,其中認(rèn)知診斷是重要的研究方向,其目標(biāo)是利用試題和學(xué)生的答題記錄,對學(xué)生的學(xué)習(xí)過程進(jìn)行建模,挖掘?qū)W生對知識或技能的掌握程度.
在教育數(shù)據(jù)挖掘領(lǐng)域,認(rèn)知診斷是一類重要的研究方向,其目標(biāo)是利用試題和學(xué)生的答題記錄,對學(xué)生的學(xué)習(xí)過程進(jìn)行建模,挖掘?qū)W生對知識或技能的掌握程度,從而通過能力分析、試題推薦、學(xué)生分組等方式優(yōu)化學(xué)生的學(xué)習(xí)過程[9-10].認(rèn)知診斷模型根據(jù)不同的分類方式可分為離散模型和連續(xù)模型,或分為一維技能模型和多維技能模型.常見認(rèn)知診斷模型包括基于項(xiàng)目反應(yīng)理論(item response theory, IRT)的模型、DINA模型和它們的改進(jìn)模型[1,4,11-13]等,模型中通常會考慮試題的難度、區(qū)分度、失誤可能性、猜對可能性等因素[11,14],有些研究中還會融合教育學(xué)理論,如學(xué)習(xí)曲線和遺忘曲線[15]等.盡管這些模型考慮了試題難度等因素,但通常作為參數(shù),或是通過已知的Q矩陣計(jì)算,因而需要人為提供較多的先驗(yàn)知識.
有學(xué)者將傳統(tǒng)機(jī)器學(xué)習(xí)結(jié)合特征工程的方法運(yùn)用到試題難度預(yù)測中.文獻(xiàn)[1]中作者定義了試題考察的能力、知識點(diǎn)重要程度、試題迷惑性、復(fù)雜性、靈活性等特征,將這些特征值作為神經(jīng)網(wǎng)絡(luò)的輸入,預(yù)測試題難度.盡管這些人工定義的特征能夠反映試題的一些重要信息,但是基于經(jīng)驗(yàn)人工篩選出的試題表征,對試題語義沒有加以利用.且部分此類特征值的確定并非是可統(tǒng)計(jì)的,而是由經(jīng)驗(yàn)判斷的,其客觀性和準(zhǔn)確性難以保證.
以上工作具有相同的局限性:即都需要較多的人為干預(yù),如提供先驗(yàn)知識或教學(xué)經(jīng)驗(yàn)和勞動(dòng)力.而本文所提出的模型是數(shù)據(jù)驅(qū)動(dòng)的,所需要的只是試題文本和答題記錄,從而避免上述問題.
目前已有學(xué)者進(jìn)行了針對英語試題的難度預(yù)測工作[16],受其啟發(fā),本文提出了針對數(shù)學(xué)試題的難度預(yù)測模型.
本文提出的模型針對試題的純文本輸入,且不需要提供試題的諸如知識點(diǎn)等先驗(yàn)信息,因此對模型的文本建模與信息提取能力要求較高.
隨著大數(shù)據(jù)時(shí)代的到來,文本數(shù)據(jù)挖掘現(xiàn)已廣泛運(yùn)用于互聯(lián)網(wǎng)[17]、教育[18]、醫(yī)療[19]、媒體[20]等領(lǐng)域,涉及的技術(shù)包括文本聚類、文本分類[21]、情感分析[22]、文本推薦[23]等.與之相關(guān)的自然語言處理(natural language process, NLP)也在文本處理、自然語言理解、人機(jī)交互等領(lǐng)域具有重要意義.Mikolov等人[24-25]提出word2vec和doc2vec,盡管作為語言模型訓(xùn)練的副產(chǎn)物,但由于其維度低和保持部分語義特征等優(yōu)點(diǎn),被大量運(yùn)用到文本建模的數(shù)據(jù)表征中,使得許多模型的效果得以提升.
在模型方面,過去文本數(shù)據(jù)挖掘方法通常需要分析文本的詞法、語法、語義特征,人為地構(gòu)造一些具體的結(jié)構(gòu).近年來,深度學(xué)習(xí)的興起使得文本數(shù)據(jù)挖掘有了新的探索路徑,CNN[26]和RNN[27]對文本類數(shù)據(jù)具有較好的擬合能力,避免了對詞法、語法等先驗(yàn)知識的要求.相關(guān)工作如情感識別[28]、文本蘊(yùn)含[29]、機(jī)器理解[30]等.
多層CNN神經(jīng)網(wǎng)絡(luò)可從詞、短語、句子等不同層次挖掘文本信息;RNN則適合挖掘長程的邏輯關(guān)系.因此2種模型都可用于試題難度預(yù)測的建模當(dāng)中.基于此,本文提出了基于CNN的難度預(yù)測模型C-MIDP和基于RNN的難度預(yù)測模型R-MIDP,并且考慮到CNN和RNN各自的優(yōu)缺點(diǎn),將CNN和RNN結(jié)合,提出H-MIDP,進(jìn)一步提高預(yù)測的準(zhǔn)確率.
本節(jié)中將給出問題的形式化定義,介紹模型的整體框架,具體介紹3種不同的難度預(yù)測模型.
模型訓(xùn)練所需要的數(shù)據(jù)為真實(shí)的數(shù)學(xué)考試試題及答題記錄,考試為正式的統(tǒng)一測評(如期中考試、期末考試、月考等),試題為常規(guī)考試題型(如選擇、填空或簡答題).表2為1道數(shù)學(xué)試題文本數(shù)據(jù)示例,數(shù)據(jù)包括試題ID、題面、答案和解析.表3為答題記錄結(jié)構(gòu)示例,1條記錄代表1個(gè)學(xué)生在1場考試中某道題的得分,將具有相同試卷ID、學(xué)校ID和考試日期的答題記錄集合定義為同一場考試Ti記錄集合.
對于考試、試題、得分率等概念的形式化定義及本文應(yīng)對的問題定義如下:
(1)
Table 2 Example of Mathematical Item表2 數(shù)學(xué)試題示例
Table 3 Example of Answer Log表3 答題記錄示例
定義1.給定數(shù)學(xué)試題集合Q和數(shù)學(xué)考試記錄集合T,其中Q包含每道試題的文本,T包含每場考試的試題和對應(yīng)的得分率,目標(biāo)是對數(shù)學(xué)試題建模,使得通過輸入試題特征到模型中可以得到試題的難度預(yù)測值.
表4給出了問題涉及到的符號和對應(yīng)的描述:
Table 4 Related Symbols and Explanations表4 試題難度預(yù)測問題涉及的符號及解釋
本節(jié)介紹本文提出的數(shù)學(xué)試題難度預(yù)測模型的整體框架,整體流程如圖1,分成2個(gè)階段:訓(xùn)練階段和預(yù)測階段.在訓(xùn)練階段,根據(jù)將答題記錄中的試題文本進(jìn)行表征后得到訓(xùn)練特征,作為模型訓(xùn)練的輸入,并從答題記錄獲取每一場考試中各道試題的得分率作為試題難度的標(biāo)簽,考慮不同考試中試題得分率的不可比性,訓(xùn)練時(shí)采用context相關(guān)的成對試題目標(biāo)函數(shù);在預(yù)測階段,將待預(yù)測試題的文本經(jīng)同樣的表征方式得到預(yù)測特征,將其輸入訓(xùn)練得到的模型,獲得難度的預(yù)測值.模型分3部分介紹:
1) 模型結(jié)構(gòu).C-MIDP,R-MIDP,H-MIDP這3個(gè)模型均為神經(jīng)網(wǎng)絡(luò)模型,其中C-MIDP以CNN網(wǎng)絡(luò)為基礎(chǔ),R-MIDP以RNN網(wǎng)絡(luò)為基礎(chǔ),H-MIDP為前兩者的融合.
2) 模型訓(xùn)練.訓(xùn)練時(shí)以試題文本的詞向量特征作為輸入,試題得分率作為標(biāo)簽.考慮到不同考試中不同學(xué)生群體的得分率具有一定的不可比性,本模型采用context相關(guān)(context-dependent)的方式,將同一場考試中成對試題預(yù)測難度的差值與實(shí)際差值比較,計(jì)算目標(biāo)函數(shù)值.
3) 預(yù)測.試題難度預(yù)測是context無關(guān)的,將預(yù)處理過的試題特征作為輸入,得到試題的絕對難度.
Fig. 1 Model framework圖1 模型框架圖
本文提出的3種模型接受試題特征作為輸入,輸出為試題的預(yù)測難度.試題特征通過對文本字符的詞向量拼接獲得,具體步驟:
將試題文本轉(zhuǎn)換成向量特征后,輸入模型進(jìn)行語義理解.圖2是3種模型的結(jié)構(gòu)圖,其中圖2(a)~(c)分別是C-MIDP模型、R-MIDP模型和H-MIDP模型.
Fig. 2 Model structures圖2 模型結(jié)構(gòu)
2.3.1 C-MIDP模型
試題文本包含較豐富的語義,要使模型能夠不依賴Q矩陣等先驗(yàn)知識,就必須能夠從文本中挖掘足夠的信息.相關(guān)研究表示,局部重要的詞句對于文本理解具有重要的意義[30].例如在理解試題時(shí),我們只需理解其中最重要的知識概念描述(如公式、定義等)即可理解整個(gè)試題的語義.因此,本文利用CNN中的卷積-池化從局部到整體的方式挖掘試題文本中的主要信息[30].具體地,本文提出C-MIDP模型,它以CNN為基礎(chǔ),使用的多層卷積與池化層可以從不同層次學(xué)習(xí)試題信息.例如C-MIDP可以以試題中的數(shù)字或運(yùn)算符為基礎(chǔ)擴(kuò)大范圍,提取由這些數(shù)字或運(yùn)算符等組成公式信息;再進(jìn)一步聯(lián)系公式的上下文獲取更大范圍的信息,逐步獲取整個(gè)試題的主要信息,這個(gè)過程也符合人真實(shí)的閱讀習(xí)慣.
(2)
(3)
2.3.2 R-MIDP模型
除此之外,文本的序列語義與邏輯信息對于理解試題也非常重要.例如公式中的一個(gè)數(shù)字本身可能不包含多少信息,但若與它前面的若干個(gè)字符聯(lián)系,可能就表現(xiàn)出重要的語義.基于此,本文提出R-MIDP模型,它以RNN為基礎(chǔ),利用RNN中的Cell模塊保存歷史信息,學(xué)習(xí)到試題文本的序列語義或邏輯信息.具體地,R-MIDP模型是一個(gè)雙向LSTM的網(wǎng)絡(luò)結(jié)構(gòu),LSTM采用經(jīng)典的3門結(jié)構(gòu)[31-32],在理解試題的過程中,可以從正向和反向2個(gè)方向?qū)W習(xí)試題語義邏輯,使語義更加完整.
it=σ(Wiiwt+bii+Whiyt-1+bhi),
(4)
ft=σ(Wifwt+bif+Whfyt-1+bhf),
(5)
gt=σ(Wigwt+big+Whgyt-1+bhg),
(6)
ot=σ(Wiowt+bio+Whoyt-1+bho),
(7)
ct=ft*ct-1+it*gt,
(8)
yt=ot*tanh(ct),
(9)
Hrp再經(jīng)過一層全連接層,最終輸出試題難度的預(yù)測值Pq.
2.3.3 H-MIDP模型
在通常的有監(jiān)督模型中,常規(guī)的訓(xùn)練方法是以訓(xùn)練數(shù)據(jù)的試題表征向量作為輸入,以試題得分率作為標(biāo)簽,模型的損失函數(shù)(loss function):
(10)
其中,T為整個(gè)數(shù)學(xué)考試訓(xùn)練集,Pq和Rq分別為試題q的預(yù)測難度和實(shí)際得分率.
這種方式在計(jì)算試題得分率時(shí)常以試題為單位進(jìn)行,其訓(xùn)練時(shí)其實(shí)是不區(qū)分不同學(xué)生群體或不同場考試的.但實(shí)際上,不同考試中由于學(xué)生群體的不同,得分率是具有一定不可比性的.例如假設(shè)A校和B校使用同一份試卷進(jìn)行考試,A校的試題a得分率為0.8,B校的試題b得分率為0.7,不能簡單地認(rèn)為試題b比試題a更難,因?yàn)锳校學(xué)生的整體水平可能強(qiáng)于B校學(xué)生,而實(shí)際A校的試題b得分率為0.9,B校的試題a得分率0.6,因而判斷試題a的難于試題b更合理.
由此可知,試題得分率受到學(xué)生群體水平差異性的影響.為了能夠消除這種影響,本文認(rèn)為,當(dāng)考試學(xué)生群體處于相同的context范圍下,通過考試計(jì)算的試題得分率才具有可比性.此處,context可以定義為同一個(gè)班級、同一所學(xué)校、同一場考試等.例如,在同一場考試中,若試題a得分率低于試題b,即可認(rèn)為a比b難.本文將在實(shí)驗(yàn)部分中具體對此范圍進(jìn)行實(shí)驗(yàn)說明.
具體地,本文的3種模型采用context相關(guān)的訓(xùn)練方式,模型的損失函數(shù):
(11)
使用這樣的模型損失函數(shù)可以消除不同學(xué)生群體的差異性,獲取其中的共性,使得訓(xùn)練得到的模型能夠預(yù)測試題的真實(shí)難度(對于所有答題記錄涉及到的學(xué)生全體而言的難度,而不是對于其中某場考試的學(xué)生群體).
模型訓(xùn)練完畢,進(jìn)行試題難度的預(yù)測時(shí),將需要預(yù)測的試題表征向量輸入訓(xùn)練得到的模型中(C-MIDP或R-MIDP或H-MIDP),得到的模型輸出值即為試題難度的預(yù)測值.在實(shí)際應(yīng)用情境下,如果收集的群體答題數(shù)據(jù)量充足且答題分布均勻,則可以認(rèn)為模型的輸出值可以預(yù)測試題對于該群體的難度值(或得分率).
數(shù)據(jù)來自科大訊飛股份有限公司采集的國內(nèi)多個(gè)中學(xué)2014—2017年的考試試題和答題記錄,相關(guān)統(tǒng)計(jì)見表5.
Fig. 4 Scoring rates of 6 schools in a final exam圖4 6所學(xué)校在同場期末考試中的得分率
AttributeValueAmount of Schools1314Amount of Tests5185Average Amount of Items per Test18.33Amount of Different Items53027Amount of Logs57457353Amount of Students1035526
對試題文本數(shù)據(jù)預(yù)處理后統(tǒng)計(jì)每道題的特征長度(即分詞后有效詞項(xiàng)數(shù)目),得到其分布如圖3所示,圖3中橫坐標(biāo)為特征長度,縱坐標(biāo)為試題數(shù)量.由統(tǒng)計(jì)結(jié)果知特征長度大于600的不到總試題數(shù)的0.2%,因此實(shí)驗(yàn)中取特征向量長度N=600,實(shí)際少于600的試題用零填充,多于600的試題截取前600個(gè)詞項(xiàng)作為試題特征.
Fig. 3 Distribution of item feature length圖3 試題特征長度分布
選取使用某一份試卷不同場考試的答題記錄,繪制不同學(xué)校的試題得分率折線圖如圖4所示,可以看到,不同學(xué)校在各個(gè)試題上的得分率雖有明顯差異,但試題之間的得分率相對差異卻相近.圖4中A校(最上方綠色折線)的試題Q10的得分率為0.3,B校(最下方橙色折線)的試題Q9的得分率為0.22,但不能簡單以此判斷試題Q10的難度低于Q9,因?yàn)锳校的整體能力強(qiáng)于B校.實(shí)際上,A校的試題Q9的得分率為0.4,B校的試題Q10的得分率為0.08,可以看到不論是A校還是B校,試題Q9的得分率高于試題Q10的得分率,因此判斷試題Q9的難度低于Q10更合理.這正驗(yàn)證了2.4節(jié)中的觀點(diǎn).
3.2.1 皮爾森相關(guān)系數(shù)(Pearson correlation coeffi-cient, PCC)
PCC是教育學(xué)常用的評價(jià)指標(biāo),可以衡量每一場考試中試題實(shí)際難度與模型預(yù)測難度之間的相關(guān)性[33].實(shí)驗(yàn)中PCC具體定義為
(12)
PCC取值在區(qū)間[-1,1],越大的絕對值意味著越高的線性相關(guān)性,且PCC>0表示正相關(guān),PCC<0表示負(fù)相關(guān).
3.2.2 一致性(degree of agreement, DOA)
DOA可以衡量一場考試中試題對之間難度預(yù)測值相對大小的準(zhǔn)確性[34].其計(jì)算為
(13)
(14)
DOA取值范圍在區(qū)間[0,1],DOA越大表明預(yù)測的試題對之間相對難度大小關(guān)系越準(zhǔn)確.
為驗(yàn)證本文提出的模型效果,將與4種baseline預(yù)測方法進(jìn)行對比:
1) logistic回歸[35].傳統(tǒng)的線性回歸模型,模型輸入特征為試題的詞袋特征,采用context無關(guān)的訓(xùn)練方式.
2) 支持向量機(jī)(SVM)[36].SVM在線性和非線性回歸問題中都比較常見,是機(jī)器學(xué)習(xí)中重要的算法.對比模型采用非線性高斯核,輸入為試題的詞袋特征,并采用context無關(guān)的訓(xùn)練方式.
3) 隨機(jī)森林(random forest)[37].隨機(jī)森林回歸模型是常用的非線性模型,在許多回歸任務(wù)上具有良好的表現(xiàn).模型輸入同樣采用試題的詞袋特征,且采用context無關(guān)的訓(xùn)練方式.
4) 神經(jīng)網(wǎng)絡(luò)context無關(guān)訓(xùn)練方式.本文的3種模型結(jié)構(gòu)不變,但訓(xùn)練方式改為context無關(guān),即采用式(10)作為損失函數(shù),以試題的預(yù)測難度與實(shí)際得分率的差值平方和作為目標(biāo)函數(shù).3種模型分別以CNN-I,RNN-I,Hybrid-I指代.
3.4.1 模型對比實(shí)驗(yàn)
本節(jié)將比較C-MIDP,R-MIDP,H-MIDP這3種模型的實(shí)驗(yàn)結(jié)果,以及分析與baseline模型實(shí)驗(yàn)結(jié)果的對比.此處,C-MIDP,R-MIDP,H-MIDP這3種模型中的context定義為同一場考試范圍,即式(11)中的Tt表示第t場考試.實(shí)驗(yàn)分別取數(shù)據(jù)集中考試數(shù)量的40%,30%,20%,10%作為測試集,同時(shí)刪除訓(xùn)練集中在測試集出現(xiàn)的試題,這些重復(fù)試題若在訓(xùn)練集中得到擬合,將不適合用作模型測試.注意到,考試可能是一個(gè)班級單獨(dú)的測試,也可能是整個(gè)年級統(tǒng)考,或者多所學(xué)校聯(lián)考,這里我們采取的劃分方式是:同一所學(xué)校同一天使用同一份試卷劃分為一場考試,作為計(jì)算試題得分率的context,在此基礎(chǔ)上訓(xùn)練C-MIDP,R-MIDP,H-MIDP模型.最終得到各個(gè)模型在測試集上的 PCC與DOA指標(biāo)的值如圖5所示.
Fig. 5 Experiment results of three models圖5 3種模型實(shí)驗(yàn)結(jié)果
從圖5中實(shí)驗(yàn)結(jié)果可知,C-MIDP,R-MIDP,H-MIDP模型都有良好的表現(xiàn),并且可以看到,在測試集比例為40%,30%,20%,10%情況下,H-MIDP的測試指標(biāo)均高于C-MIDP和R-MIDP.
圖6是本文3種模型與對比模型實(shí)驗(yàn)結(jié)果,從圖6中可以看出3項(xiàng)對比信息:
1) 在使用context無關(guān)的訓(xùn)練方式前提下,logistic回歸效果最差,顯然線性回歸不能夠勝任試題難度預(yù)測任務(wù);SVM回歸效果較logistic回歸更好;隨機(jī)森林回歸在3種非神經(jīng)網(wǎng)絡(luò)baseline模型中表現(xiàn)最好;CNN-I,RNN-I,Hybrid-I這3種神經(jīng)網(wǎng)絡(luò)模型的實(shí)驗(yàn)結(jié)果明顯優(yōu)于前3種非神經(jīng)網(wǎng)絡(luò)模型,說明神經(jīng)網(wǎng)絡(luò)對此任務(wù)的建模能力更強(qiáng).
2) 比較3種神經(jīng)網(wǎng)絡(luò)模型的context相關(guān)與context無關(guān)2種訓(xùn)練方式的實(shí)驗(yàn)結(jié)果,可以看到,盡管使用context無關(guān)訓(xùn)練方式(CNN-I,RNN-I,Hybrid-I)已經(jīng)獲得良好的實(shí)驗(yàn)結(jié)果,但使用context相關(guān)訓(xùn)練方式后,模型效果有了進(jìn)一步的提升,說明在試題難度預(yù)測這個(gè)任務(wù)當(dāng)中,context相關(guān)的訓(xùn)練方式更適合.
3) 隨著測試集比例的降低(即訓(xùn)練數(shù)據(jù)的增加),3種模型的效果均提升.測試集的比例降到10%時(shí),3種神經(jīng)網(wǎng)絡(luò)模型的PCC達(dá)到0.66以上,DOA達(dá)到0.74以上.在實(shí)際教育環(huán)境中,數(shù)據(jù)量足夠的情況下,能夠達(dá)到良好的預(yù)測效果.
3.4.2 context劃分方式對預(yù)測結(jié)果的影響
本節(jié)將討論不同的context劃分對于試題難度預(yù)測結(jié)果的影響.這里的context劃分等價(jià)于考試的劃分,例如在一場多校聯(lián)考中,可以將一個(gè)班級的記錄劃分為一場考試,也可以將一所學(xué)校的記錄劃分為一場考試,或者將各個(gè)學(xué)校的所有記錄共同作為一場考試.本節(jié)針對數(shù)據(jù)采用2種不同的劃分方式:1)將同一所學(xué)校同一天使用相同試卷劃分為一個(gè)context;2)將使用相同試卷的所有記錄劃分為一個(gè)context.依此進(jìn)行實(shí)驗(yàn),研究context劃分方式對試題難度預(yù)測結(jié)果的影響.
圖7是2種劃分方式的在測試集上的PCC和DOA指標(biāo)的直方圖.可以看到2種劃分方式的實(shí)驗(yàn)結(jié)果有明顯差距,第1種劃分方式的實(shí)驗(yàn)結(jié)果優(yōu)于第2種劃分方式,說明context的劃分方式對預(yù)測結(jié)果是有影響的.在本實(shí)驗(yàn)數(shù)據(jù)集上,若將考試的范圍細(xì)化到學(xué)校層面,可以更好地區(qū)分來自不同學(xué)校學(xué)生群體的差異性,從而獲得更穩(wěn)定的試題難度.在實(shí)際應(yīng)用中,模型的實(shí)際訓(xùn)練與使用中需根據(jù)測試結(jié)果選擇合適的context劃分方式.
本節(jié)選取測試集比例為40%時(shí)測試集中的1場考試試題,使用C-MIDP,R-MIDP,H-MIDP模型進(jìn)行難度預(yù)測,比較預(yù)測結(jié)果,以說明本文的3種模型的有效性.圖8是各模型預(yù)測結(jié)果折線圖,其中實(shí)際得分率是將數(shù)據(jù)集中所有使用該份試卷試題的答題記錄得分率取平均得到,以更準(zhǔn)確反映試題實(shí)際難度.
Fig. 8 Comparison between score rates predicted by 3 models and ground truth on a test paper圖8 某試卷3種模型預(yù)測得分率與真實(shí)值比較
表6是評價(jià)指標(biāo)PCC,DOA,RMSE值.可以看到H-MIDP的3種指標(biāo)的值均優(yōu)于C-MIDP和R-MIDP,但C-MIDP和R-MIDP的評價(jià)值也在可接受范圍.觀察圖8,可以看到3種模型在大多數(shù)試題上的預(yù)測值能夠接近實(shí)際得分率,或者在試題相對難度關(guān)系上接近,其中H-MIDP的預(yù)測曲線與真實(shí)值最為接近,說明模型能夠通過context相關(guān)的訓(xùn)練方式來預(yù)測試題絕對難度.
Table 6 Metrics Values of Models in Case Study表6 案例分析各模型評價(jià)指標(biāo)值
為解決準(zhǔn)確、高效地預(yù)測數(shù)學(xué)試題難度所面臨的難題,輔助中國特色教育考試國家題庫建設(shè),本文提出了數(shù)據(jù)驅(qū)動(dòng)的基于神經(jīng)網(wǎng)絡(luò)的難度預(yù)測模型.具體地,首先設(shè)計(jì)了基于卷積神經(jīng)網(wǎng)絡(luò)的C-MIDP模型和基于循環(huán)神經(jīng)網(wǎng)絡(luò)的R-MIDP模型學(xué)習(xí)試題文本的序列邏輯信息;進(jìn)一步,結(jié)合2種模型的優(yōu)勢,提出混合H-MIDP模型.3種模型均直接對試題文本進(jìn)行理解和語義表征,可保留試題描述的局部語義和語序信息;然后,為應(yīng)對不同考試中學(xué)生群體具有不可比性的問題,在模型訓(xùn)練時(shí)考慮答題記錄的上下文,采用context相關(guān)的訓(xùn)練方式;最后,所提出的模型只需根據(jù)試題文本即可預(yù)測新試題難度屬性,無需人工標(biāo)注先驗(yàn)知識信息.本文在真實(shí)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明了本文所提出的模型具有良好的性能.
本文的模型具有進(jìn)一步改良的空間和向其他學(xué)科擴(kuò)展的可能性.在未來研究中,可以考慮新的模型結(jié)構(gòu)對試題文本理解的影響,如Attention網(wǎng)絡(luò)、Memory網(wǎng)絡(luò)等.其次,探索更為準(zhǔn)確和穩(wěn)定的context的劃分方式,以減少對試題難度預(yù)估結(jié)果的影響.我們還將考慮針對不同試題類型設(shè)計(jì)更為精準(zhǔn)的預(yù)測模型.