浙江師范大學(xué) 浙江 金華 321004
區(qū)分度,是指測驗項目對被試心理品質(zhì)水平差異的區(qū)分能力,反映了測驗題目對心理品質(zhì)區(qū)分的有效性。提高區(qū)分度,可以很好地提高測驗信度。
在心理與教育測量中,總是希望測驗項目能夠區(qū)分被試不同的心理特質(zhì)或?qū)傩?。比如,在選拔性考試?yán)?,試題必須具備區(qū)分度,以滿足不同層次人才的需要;心理量表也要區(qū)分不同心理特質(zhì)的被試。因此,在任何測驗中,區(qū)分度都是非常重要的,是必須考慮的因素之一。
目前,區(qū)分度主要的計算指標(biāo):
(1)鑒別指數(shù)(D),該方法選取高分組、低分組兩組進(jìn)行計算。公式為:D=PH-PL
PH與PL分別為高分組與低分組在該項目上的通過率。一般在分?jǐn)?shù)為正態(tài)分布時,高低分組各占27%。該方法需要區(qū)分多個層次時,只能采取兩兩比較的方法,因此反應(yīng)較為片面,可提供的信息較少。此外由于僅分為兩組,導(dǎo)致了結(jié)果受到分組依據(jù)的影響很大。面對主觀題得分維度較高時,使用該方法會丟失大量信息。
(2)另一種常用方法是相關(guān)法,常常用項目分?jǐn)?shù)與總分或校標(biāo)分?jǐn)?shù)的相關(guān)來計算區(qū)分度。這類方法結(jié)果受到計分方式的影響,且結(jié)果沒有鑒別指數(shù)法好理解,提供的信息也比較少。
隨著統(tǒng)計學(xué)的發(fā)展,統(tǒng)計方法不斷革新,出現(xiàn)了機器學(xué)習(xí)。機器學(xué)習(xí)的目的是教機器如何有效的處理數(shù)據(jù),特別是在我們無法解釋或提取數(shù)據(jù)中的信息時。機器可以更好地找出變量與預(yù)測值間的映射關(guān)系,這種關(guān)系并不是簡單的線性關(guān)系,這種更加復(fù)雜的關(guān)系可以用機器學(xué)習(xí)的模型來進(jìn)行建構(gòu)。
特征選擇是機器學(xué)習(xí)重要的步驟之一,其目的是提高精確度、盡可能少影響精準(zhǔn)度的情況下降低特征數(shù)。這和項目分析的目的不謀而合。此外,機器學(xué)習(xí)除了解決二分問題,也可以進(jìn)行多分類問題。由此可見,機器學(xué)習(xí)可以彌補傳統(tǒng)項目區(qū)分度算法的不足。機器學(xué)習(xí)算法提供的項目權(quán)重,作為特征選擇的指標(biāo)之一,可以在我們項目篩選時提供參考[1]。
因此,研究問題為機器學(xué)習(xí)算法是否能夠為區(qū)分度提供更多的信息,以供項目分析時參考。
研究被試為溫州市某小學(xué)的六年級學(xué)生。共發(fā)放測驗160份,回收測驗158份,根據(jù)學(xué)生的作答情況,排除無效測驗11份,剩余有效測驗147份。男生96份,女生51份,平均年齡11.95(SD=0.6)。
數(shù)據(jù)來源:小學(xué)空間與圖形診斷測驗的數(shù)據(jù)。該測驗共14道題、滿分為39分。
機器學(xué)習(xí)模型:
(1)廣義線性模型:傳統(tǒng)的線性回歸模型中不能很好地解決因變量是離散的或者是分類的情況。為了解決該問題,提出廣義線性模型,其特點是不強行改變數(shù)據(jù)的自然度量,使數(shù)據(jù)可以解決非線性問題。
(2)隨機森林:隨機森林是包含多顆決策樹的分類模型,該模型結(jié)果為多顆決策樹預(yù)測的眾數(shù)[2]。
(3)XGBoost:與隨機森林一樣也是多顆決策樹的集合,但該模型預(yù)測結(jié)果與隨機森林不同,該模型第二棵樹會擬合第一棵樹產(chǎn)生的誤差,以此類推,用多個模型的和作為其結(jié)果。
(4)支持向量機是由Vapnik(1995)基于統(tǒng)計學(xué)習(xí)理論提出的一種機器學(xué)習(xí)算法。原理是通過找到一個超平面對樣本進(jìn)行劃分。
由于機器學(xué)習(xí)需要訓(xùn)練集進(jìn)行訓(xùn)練,考慮到隨機劃分后各組樣本量大小的問題。因此,分組策略定為,將學(xué)生分為三組,排名第49位學(xué)生(總?cè)藬?shù)的三分之一)的分?jǐn)?shù)作為第一個切分點;排名98位的學(xué)生(總?cè)藬?shù)的三分之二)其分?jǐn)?shù)作為第二個切分點。由此將學(xué)生分為A組(58人)、B組(46人)、C組(43人)三組。
按照訓(xùn)練集60%、驗證集40%隨機劃分?jǐn)?shù)據(jù)。選取多個常用機器學(xué)習(xí)算法對學(xué)生進(jìn)行分類。并對結(jié)果進(jìn)行評估分析,以獲得更多信息[3]。
以不同機器學(xué)習(xí)模型對三組學(xué)生分類的準(zhǔn)確度作為區(qū)分度指標(biāo),由于使用模型不同,所以結(jié)果有些許差別(區(qū)分度是相對的,不同的相關(guān)法計算區(qū)分度,結(jié)果也會不一致。),但項目3、項目1、項目5、項目6在各模型下分類準(zhǔn)確度排名都較為靠后。特別是項目3和項目1的平均分類準(zhǔn)確度低于隨機水平。
續(xù)表
以其中一個XGBoost模型中項目14的分類評估為例子,如表2[4]。根據(jù)該表可以得到常用指標(biāo):
精確度(A):精確率為正確預(yù)測的除以總觀測的數(shù)值,結(jié)果為0.5。
查準(zhǔn)率(P):查準(zhǔn)率為預(yù)測為某組的樣本中,正確的比率。A的查準(zhǔn)率為0.78、B組為0.32、C組為0.58。
查全率(R):查全率表示實際為某組的樣本中,預(yù)測正確的比例。實際為A組的查全率為:0.3、實際為B組的查全率為0.47、實際為C組的查全率為0.77
(4)F1:查準(zhǔn)率和查全率存在一定的矛盾,選擇F1=2RP/(R+P)。作為兩者平衡的指標(biāo)。三組F1值分別為,A組:0.43、B組:0.38、C組:0.66。
根據(jù)F1指標(biāo)可以看出,項目14對于C組學(xué)生的鑒別力最強,據(jù)此可以為題目篩選與組卷的過程中作為重要參考。比如,增加對B組鑒別力較好的題目使試卷對各組的鑒別力更為平衡[5]。
表2 XGBOOST模型項目14的分類表現(xiàn)評估
在實際測量中,有時會遇到題目之間的相互影響,產(chǎn)生交互作用。例如某項目區(qū)分度低,但與其他項目一起就能促進(jìn)區(qū)分度的提高。對此類問題,機器學(xué)習(xí)模型能夠很方便地對項目間關(guān)系進(jìn)行研究。
區(qū)分度本身具有相對性,不同計算方法,所得區(qū)分度不同(戴海崎, 張峰, & 陳雪楓,2011)。因此,在實際使用當(dāng)中,僅選用一種方法即可。本研究選用XGBoost模型進(jìn)行該項分析,該模型為樹型模型,采用多個樹型模型結(jié)果的和來進(jìn)行預(yù)測,可以更清楚的反應(yīng)項目間的關(guān)系。訓(xùn)練集和驗證集按照60%與40%隨機劃分[6]。為了更好地展示研究結(jié)果,研究將除了項目1與項目3外的12道題,隨機分為兩組,每組6道題,兩組分別為項目組1和項目組3。將項目1與項目3納入項目組1編為項目組2;納入項目組3后,編為項目組4。分析結(jié)果如表3。
表3 項目關(guān)系分析
續(xù)表
根據(jù)F1值發(fā)現(xiàn),所有項目組中A組和C組的F1值都明顯高于B組的F1值,這是因為該試卷在編寫時,采用的區(qū)分度算法是鑒別指數(shù)(D),以高低分組來進(jìn)行區(qū)分度的分析。這也證明了,機器學(xué)習(xí)算法在面對區(qū)分度問題上的有效性,也反映了鑒別指數(shù)方法對于多層組別的區(qū)分度分析的不足[7]。
從各項指標(biāo)來看,在加入項目1與項目3后,XGBoost模型的各項指標(biāo)來看,都并未獲得明顯提高。當(dāng)然,根據(jù)需要可以考慮更多的關(guān)系,比如項目1與其他某個項目共同測試了某一個屬性的不同方面;或采用多次隨機分組的方式,考察項目間是否存在隱含關(guān)系,具體可以根據(jù)實際情況進(jìn)行更進(jìn)一步的探究,來決定該項目是否保留。
除此之外,權(quán)重分析也是機器學(xué)習(xí)特征選擇指標(biāo)之一,如圖1(指標(biāo)為weight:代表在所有樹中,某特征被用來分裂節(jié)點的次數(shù))。機器學(xué)習(xí)算法通常包含多種權(quán)重指標(biāo),比如XGBoost中常用的還有total_gain:代表了某特征在每次分裂節(jié)點時帶來的總增益。除此之外,其他的一些指標(biāo)也都可以選用。但需注意的是,不同特征權(quán)重反映的內(nèi)容不同,不同機器學(xué)習(xí)算法的權(quán)重評估方法也不同。因此,不能簡單地認(rèn)為權(quán)重高代表著該特征一定好,還需考慮多重因素,可以根據(jù)實際情況進(jìn)行選用并進(jìn)行評估[8]。
圖1 XGBoost模型項目組1的特征權(quán)重
利用機器學(xué)習(xí)模型,對項目區(qū)分度進(jìn)行分析,為心理學(xué)與教育學(xué)的測評工作提供新的方法支持。在項目篩選的過程中,通過該方法,可以得到更多的信息,彌補原有方法的不足。
研究也有一些不足,首先,測驗的項目數(shù)量不多、測驗分值較低。機器學(xué)習(xí)更加適合處理高維數(shù)據(jù),研究使用的測驗的分值較低并不能完全發(fā)揮出機器學(xué)習(xí)的優(yōu)勢。此外,對于機器學(xué)習(xí)算法而言,樣本數(shù)量需求較大,研究使用的樣本數(shù)量少,限制了機器學(xué)習(xí)模型的擬合能力。最后,研究使用的試卷的分?jǐn)?shù),并沒有明顯的邊界,在未來的研究中選用多層次異質(zhì)性明顯的樣本來進(jìn)行研究,來獲得更有價值的信息[9]。
通過研究發(fā)現(xiàn),不同機器學(xué)習(xí)方法由于模型不同,預(yù)測結(jié)果會有所不同,但對區(qū)分度最高與最低的項目存在較高一致性。機器學(xué)習(xí)模型的優(yōu)點很明顯,對于多級計分的題目,比如數(shù)學(xué)考試的應(yīng)用題,學(xué)生可能獲得的分?jǐn)?shù)很多,面對這類問題上,機器學(xué)習(xí)模型往往能夠發(fā)揮出它的優(yōu)勢。但必須承認(rèn)的是,低維度項目上,利用機器學(xué)習(xí)進(jìn)行項目區(qū)分度分析存在一定的弊端[10]。
總的來說,使用機器學(xué)習(xí)的方法對區(qū)分度進(jìn)行分析時,相比于以往區(qū)分度指標(biāo),提供的信息更加詳細(xì)。例如,機器學(xué)習(xí)模型提供的眾多的項目權(quán)重指標(biāo),可以為項目的篩選過程提供更多的參考。在項目分析與選擇的過程中,除了可以利用鑒別指數(shù)等傳統(tǒng)指標(biāo),還可以配合機器學(xué)習(xí)的方法進(jìn)行分析,根據(jù)實際情況,綜合考慮項目的處理方式。但機器學(xué)習(xí)也存在著不同模型之間評價方式不一的情況,需要研究者根據(jù)自身研究特點選用恰當(dāng)?shù)脑u估方式[11]。
機器學(xué)習(xí)相比傳統(tǒng)指標(biāo)能夠考慮項目之間到更加復(fù)雜的關(guān)系,這也是機器學(xué)習(xí)算法的最大優(yōu)勢。機器學(xué)習(xí)是學(xué)習(xí)輸入與輸出之間的映射關(guān)系,這種關(guān)系以代碼的形式保存,無法明確的展示這一過程,這也是機器學(xué)習(xí)的缺點。但是在實際測量當(dāng)中,不能完全否定其作用,測量最終目的就是通過項目來區(qū)分不同類別的被試,機器學(xué)習(xí)的任務(wù)也是在完成這一目標(biāo)。針對模型可解釋性差的這一缺點,相信會隨著機器學(xué)習(xí)的發(fā)展,也會有更多的提高。
機器學(xué)習(xí)模型還具有更多的可拓展性,比如部分機器學(xué)習(xí)算法對于缺失數(shù)據(jù)具備容忍性,典型的是XGBoost算法,在心理量表中,很多題目并非像學(xué)業(yè)考試一樣需要具備一定的知識結(jié)構(gòu)才能夠完成,因此在這類量表中的項目,出現(xiàn)的缺失值,不能單單用0分代替。XGBoost算法中,對于缺失值處理有自己的一套流程,它主要是通過學(xué)習(xí)默認(rèn)方向來處理缺失值。該方法把缺失值當(dāng)作稀疏矩陣來對待,本身不會考慮缺失的數(shù)值,會把缺失的特征分配到左子結(jié)點和右子結(jié)點,然后通過計算增益,選擇增益大的方向進(jìn)行分裂(Chen,2016)。免去了處理缺失數(shù)據(jù)的過程。另外,在大數(shù)據(jù)時代,機器學(xué)習(xí)的處理速度的優(yōu)勢也會更加明顯[12]。
機器學(xué)習(xí)并不是來代替原有心理測量的方法,而是為心理與教育測量提供更多支持,與傳統(tǒng)方法互補,相信測量和機器學(xué)習(xí)的結(jié)合,是未來發(fā)展的新趨勢。