康春花 任 平 曾平飛
(浙江師范大學(xué)教師教育學(xué)院,金華 321004)
自認知診斷評估(Cognitive Diagnostic Assessment,CDA)問世以來,研究者進行了多方面多角度的探索,其中發(fā)展最迅猛的是診斷分類模型(Diagnostic Classification Model,DCM)。在DCM方面,研究者根據(jù)不同的實踐需求從不同的前提和假設(shè)提出了各類模型,如按測評的評分方式,有 0-1評分的模型(如 RSM、AHM、DINA、NIDA、FM、GDM等)、多級評分或連續(xù)評分的模型(Bolt &Fu,2004;祝玉芳,丁樹良,2009;涂冬波,蔡艷,戴海琦,丁樹良,2010;張淑梅,包鈺,郭文海,2013;李娟,丁樹良,羅芬,2012;田偉,辛濤,2012;Sun,Xin,Zhang,&de la Torre,2013;羅歡,丁樹良,汪文義,喻曉鋒,曹慧媛,2010)。然而,這些多為參數(shù)模型,參數(shù)模型除了參數(shù)估計過程比較復(fù)雜外,往往需要大樣本數(shù)據(jù),且屬性個數(shù)又不能太多 (Chiu &Douglas,2013;涂冬波等,2010)。為此,研究者開始探索更為簡潔的非參數(shù)方法,如Vapnik (2000)依據(jù)風(fēng)險最小化原則提出了基于統(tǒng)計學(xué)習(xí)理論的機器學(xué)習(xí)方法——支持向量機(Support Vector Machines,SVM),SVM不僅結(jié)構(gòu)簡單,還可運用小樣本數(shù)據(jù),既省時又高效(何學(xué)文,趙海鳴,2005;鄺錚,2010)。Chiu等人(Chiu,Douglas,&Li,2009)在屬性合分思路(Henson,Templin,&Douglas,2007)的基礎(chǔ)上提出0-1評分的聚類分析方法。為吻合測評實踐需要,研究者(康春花,任平,曾平飛,2015)將 0-1評分的聚類分析法拓展到多級評分(Grade Response Cluster Diagnostic Method,GRCDM),并探討了樣本容量、失誤率及屬性層級對其判準率的影響,所得結(jié)果表明:GRCDM在模擬和實踐情境中均有很高的判準率,且對樣本容量及屬性層級緊密度依賴較小,可適用于小型測評等特征,這在一定程度上體現(xiàn)出非參數(shù)方法的優(yōu)勢。然而,目前關(guān)于非參數(shù)方法的研究還尚粗淺,能否借助參數(shù)方法的已有成果,探索GRCDM的影響因素,深入考察GRCDM的優(yōu)勢和性能,豐富非參數(shù)方法研究,是值得進一步關(guān)注的問題。
縱觀參數(shù)方法的相關(guān)研究,可將影響模型判準率的因素概括為三個方面:一是與診斷測驗相關(guān)的因素,如屬性層級關(guān)系、Q矩陣、屬性個數(shù)、題目數(shù)量(測驗長度)等;二是與被試相關(guān)的因素,如被試能力分布、樣本容量、失誤率等;三是模型的選擇,如模型與數(shù)據(jù)是否擬合,或模型與題目特征是否吻合(問題解決時屬性之間的補償性)。 其中,已有研究在測驗因素方面關(guān)注較多。首先,在屬性層級方面,研究表明屬性層級結(jié)構(gòu)的類型對判準率有一定的影響,屬性層級結(jié)構(gòu)越緊密判準率越高(顏遠海,丁樹良,汪文義,2011;蔡艷,涂冬波,丁樹良,2013;田偉,辛濤,2012),而當層級關(guān)系誤設(shè)時,則剛好相反,屬性間關(guān)系越密切判準率則越低(涂冬波,蔡艷,戴海琦,2013a)。其次,Q矩陣在CDA中的作用至關(guān)重要,Q矩陣中包含的R矩陣個數(shù)越多,其判準率越高(丁樹良,楊淑群,汪文義,2010;丁樹良,汪文義,楊淑群,2011)。Q矩陣中的元素缺失或冗余會影響模型的判準率(Im &Corter,2011),屬性缺失將高估掌握者的作答概率或失誤參數(shù),屬性冗余將高估未掌握者作答概率或猜測參數(shù)(Kunina-Habenicht,Rupp,&Wilhelm,2012;Rupp&Templin,2008)。再次,在屬性數(shù)目和測驗長度方面,屬性數(shù)目太多會造成判準率的急速下降,認知屬性的個數(shù)最好不要超過7個(涂冬波,蔡艷,戴海琦,2013b;涂冬波,蔡艷,戴海琦,丁樹良,2011),而在發(fā)散型、收斂型、無結(jié)構(gòu)型中,測驗長度宜越長越好,但在線型結(jié)構(gòu)中,測驗長度并非越長越好(顏遠海等,2011)。在被試因素方面,失誤率越大判準率越低已是不爭事實。參數(shù)模型要求的樣本容量一般在1000甚至2000以上(Chiu &Douglas,2013;涂冬波等,2010),可對于非參數(shù)方法,500人已是較佳樣本,200人也很適宜(康春花等,2015)。此外,當被試的知識狀態(tài)為負偏態(tài)時,判準率普遍高于其他分布形態(tài)(涂冬波等,2013a)。
研究者在參數(shù)模型的影響因素方面已做了較多的探索,并得到了較為一致的結(jié)論。參照參數(shù)方法的研究范式,本研究擬從測驗因素和被試因素兩方面分3個實驗較為完整地探索屬性數(shù)目、被試知識分布、屬性層級關(guān)系、屬性層級誤設(shè)和Q矩陣誤設(shè)對GRCDM的影響,以進一步考察非參數(shù)方法的特征與適用性,豐富非參數(shù)方法研究。
多級評分聚類診斷法(GRCDM) (康春花等,2015)是在0-1計分聚類診斷法(Chiu et al.;Chiu &Douglas,2013)的基礎(chǔ)上拓展而成,其整體思想是基于屬性合分及其標準化的思路,計算出理想反應(yīng)模式(Ideal Response Patterns,IRP)和觀察反應(yīng)模式(Observed Response Patterns,ORP)所對應(yīng)的屬性能力向量,通過ORP的屬性能力向量到IRP的屬性能力向量的距離,實現(xiàn)對被試知識狀態(tài)的歸類。
GRCDM 是直接基于屬性得分的診斷分類法,無需任何參數(shù)估計,因而其具體算法和思路簡單明了(如圖1所示),圖1展示了對具有某個ORP的被試知識狀態(tài)的歸類過程。假如測驗有k個屬性,則其過程為:首先,需要基于Q矩陣或R矩陣,得到m 種理想掌握模式(Ideal Master Patterns,IMP)和IRP;其次,根據(jù)屬性合分及能力向量的計算方法(2.1所示)得到m種IRP在k個屬性上的能力向量,如“(B,……,B)…… (B,……,B)”;再次,計算某個ORP如ORP在k個屬性上的能力向量“(B,……,B)”;最后,以IRP所對應(yīng)的m種屬性能力向量為初始聚類中心,計算 ORP所對應(yīng)的屬性能力向量與m個IRP所對應(yīng)的m種屬性能力向量的距離,把 ORP歸類到距離最近的 IRP,從而把具有這種ORP的被試歸類到其所屬IRP對應(yīng)的IMP中。
圖1 GRCDM的具體思路
康春花等人(2015)研究表明GRCDM對樣本容量無依賴,本研究擬在樣本容量為 500的情況下,探討屬性數(shù)目、被試能力分布、屬性層級關(guān)系對GRCDM判準率的影響,以考察GRCDM的適宜性與穩(wěn)健性。
n
=500和被試作答失誤 10%時,研究包含 3個因素:3種屬性個數(shù)(4個、7個、9個)、4種屬性層級結(jié)構(gòu)(線型、收斂型、發(fā)散型、無結(jié)構(gòu)型,3種屬性個數(shù)下的4種層級結(jié)構(gòu)(見附錄圖1~圖3)、2種被試能力分布(均勻分布、正態(tài)分布),為3×4×2的交叉設(shè)計,共24個實驗,每個實驗均重復(fù)20次以減少誤差。屬性個數(shù)為4個時,各層級結(jié)構(gòu)下的簡化Q陣包含4、5、5、8題;屬性個數(shù)為7個時;各層級結(jié)構(gòu)下的簡化Q陣包含7、8、25、64題,其中64題縮減為22題,只包含測量1至3個屬性的題目;屬性個數(shù)為9個時,各層級結(jié)構(gòu)下的簡化Q陣包含9、26、27、256題,其中256題縮減為37題,只包含測量1至3個屬性的題目。
在固定失誤率為10%和樣本容量為500的前提下,模擬不同屬性數(shù)目、層級結(jié)構(gòu)和被試能力分布共24種條件下的ORP,其思路為:
首先,根據(jù) 3.2.1各屬性個數(shù)和層級結(jié)構(gòu)下的Q矩陣,得到IMP及其對應(yīng)的IRP;
其次,計算每種 IRP的總分,將其從小到大排序,使具有這些知識狀態(tài)的被試人數(shù)滿足標準正態(tài)分布(或平均分布),總分相同的IMP平均分配人數(shù),產(chǎn)生500名被試進行分配;
最后,發(fā)生10%的失誤,先產(chǎn)生一個服從U (0,1)的隨機數(shù)r,ORP按如下規(guī)則獲得:如果r>0.95且IRP的項目得分不是滿分,則該項目得分增加1分;當IRP的項目得分是滿分時,則該項目得分減1分;如果r<0.05且IRP的項目得分不為0分,則該項目得分減1分;如果IRP的項目得分為0分時,該項目得分增加 1分;如果0.05≦ r≦0.95時,則IRP的項目得分不變。由此,通過改變IRP的原有分數(shù),在隨機 10%的項目上發(fā)生失誤,從而得到具有隨機失誤的 ORP (田偉,辛濤,2012;羅歡等,2010)。
在獲得所有模擬數(shù)據(jù)后,采用2.1和2.2的思路對數(shù)據(jù)進行分析,數(shù)據(jù)模擬和分析過程均通過matlab 7.0編程實現(xiàn)。
表1為屬性數(shù)目、層級關(guān)系、被試分布各實驗條件下,GRCDM的分類準確率PMR和MMR均值。由表1可以看出,GRCDM具有較高的PMR和MMR,各實驗條件下的整體 PMR和MMR均值分別為96.26%和99.09%,且PMR和MMR最高可達99.88%和99.98% (9個屬性、發(fā)散型、正態(tài)分布時),最低也能達 90.11% (4個屬性、發(fā)散型、正態(tài)分布時)和96.81% (4個屬性、收斂型、均勻分布時),PMR和MMR均值隨屬性個數(shù)的增加呈遞增趨勢(其他因素對 PMR值的影響需進一步分析)。由于 PMR是掌握模式匹配率而MMR只需單個屬性的判準率,因此MMR>PMR,且MMR最低值和平均值都已經(jīng)很高了,其變化規(guī)律又與 PMR一致,故接下來的所有分析中重點關(guān)注PMR的變化情況。
表1 三因素24種條件下的PMR和MMR均值(20次)
F
(2,456)=2064.83,p
<0.001,η=0.90;F
(3,456)=180.55,p
<0.001,η=0.54),且屬性數(shù)目與層級關(guān)系的交互效應(yīng)顯著(F
(6,456)=
180.94,p
<0.001,η=0.70);而被試分布的主效應(yīng)(F
(1,456)=44.21,p
<0.001,η=0.08)、被試分布與層級關(guān)系的交互效應(yīng)(F
(3,456)=
13.15,p
<0.001,η=0.08)、屬性數(shù)目與被試分布的交互效應(yīng)(F
(2,456)=5.82,p
<0.01,η=0.03)等盡管達到了顯著水平,但因效果量 η太小(在方差分析中,η>0.16是大效果量(舒華,張亞旭,2008)),認為它們實際效應(yīng)并不存在;屬性數(shù)目、被試分布和屬性層級關(guān)系的三次交互效應(yīng)不顯著,F
(6,456)=
2.09,p
>0.05。由此,在3個影響因素中,屬性數(shù)目、層級結(jié)構(gòu)及其交互關(guān)系對GRCDM的影響強烈,而被試分布及與其它因素的相互關(guān)系對 GRCDM 的影響甚微(如,均勻和正態(tài)分布時,各層級關(guān)系下的 PMR均值分別為:99.10、98.53、99.14、99.40;99.31、98.67、99.14、99.40)。屬性數(shù)目和層級關(guān)系的交互效應(yīng)見圖2。經(jīng)簡單效應(yīng)分析發(fā)現(xiàn),屬性數(shù)目在各層級關(guān)系上均存在簡單效應(yīng)(線型:F
(2,117)=143.7,p
<0.001,η=0.711;收斂型:F
(2,117)=612.05,p
<0.001,η=0.91;發(fā)散型:F
(2,117)=1037.27,p
<0.001,η=0.95;無結(jié)構(gòu)型:F
(2,117)=234.19,p
<0.001,η=0.80),并且在線型、收斂型和無結(jié)構(gòu)型上均為9個>7個>4個屬性,而在發(fā)散型上,為9個和7個屬性均高于4個屬性,但9個和7個之間無差異。另一方面,層級關(guān)系在各屬性數(shù)目上也存在簡單效應(yīng)(4 個:F
(3,156)=153.60,p
<0.001,η=0.75;7 個:F
(3,156)=216.32,p
<0.001,η=0.806;9 個:F
(3,156)=54.63,p
<0.001,η=0.51),并且在 4 個屬性時無結(jié)構(gòu)型>線型>收斂型和發(fā)散型,在7個屬性時發(fā)散型>無結(jié)構(gòu)型>線型>收斂型,而在 9個屬性時發(fā)散型>無結(jié)構(gòu)型和收斂型>線型。圖2 屬性數(shù)目與層級關(guān)系的交互效應(yīng)
在 CDA中,屬性層級關(guān)系的正確設(shè)定非常重要,然而在實踐研究中,并不能保證屬性層級關(guān)系是百分百正確的。那么,如果層級關(guān)系誤設(shè)了,哪種情況對GRCDM判準率的影響較大,哪種情況對GRCDM影響甚小呢?本研究將具體分析屬性層級關(guān)系誤設(shè)對GRCDM判準率的影響。
研究1表明GRCDM隨著屬性數(shù)目增多判準率反而增高,且對被試分布無依賴性,因而,為簡化問題,本研究在控制屬性個數(shù)為4個、被試能力正態(tài)分布、被試人數(shù)為100人及作答失誤率為10%的情況下,探討不同類型的層級關(guān)系誤設(shè)對 GRCDM判準率的影響。實驗包括 4種層級結(jié)構(gòu)(線型、收斂型、發(fā)散型、無結(jié)構(gòu)型)下的 6種正確層級關(guān)系和11種錯誤層級關(guān)系(概括為4種錯誤類型,見附錄圖4)。錯誤層級關(guān)系的模擬均不改變層級關(guān)系類型,即正確層級關(guān)系為線型的,錯誤層級關(guān)系還為線型(涂冬波等,2013a)。
附錄圖4中,錯誤1、錯誤2、錯誤3、錯誤7的類型為屬性層級關(guān)系顛倒(如:錯誤 1中將屬性A3為屬性A4的先決屬性,變?yōu)閷傩訟4為屬性A3的先決屬性);錯誤4、錯誤8的類型為有層級關(guān)系變?yōu)闊o層級關(guān)系(如:錯誤4中屬性A2是A3的先決屬性,變?yōu)閮蓪傩赃壿嬯P(guān)系為獨立的);錯誤 6、錯誤10的類型為無層級關(guān)系變?yōu)橛袑蛹夑P(guān)系(如:錯誤6中,屬性A2和A3是無邏輯關(guān)系的,變?yōu)閷傩?A2是 A3的先決屬性);錯誤 5、錯誤 9、錯誤11的類型為屬性層級關(guān)系錯亂(如:錯誤 5中,屬性A1和A2是無邏輯關(guān)系的,變?yōu)锳1是A2的先決屬性,與此同時,A1和A2是A3的先決屬性變?yōu)锳1和A2分別獨立于A3)。
本研究為單因素實驗設(shè)計,自變量為層級關(guān)系錯誤類型,有5個水平,共17個條件下的實驗:層級關(guān)系正確(6種情況)、層級關(guān)系顛倒(4種情況)、有層級關(guān)系變?yōu)闊o層級關(guān)系(2種情況)、無層級關(guān)系變?yōu)橛袑蛹夑P(guān)系(2種情況)、層級關(guān)系錯亂(3種情況)。為減少實驗誤差,每個條件均重復(fù)20次。因變量為MMR均值及降幅。
首先,在正確層級關(guān)系的前提下,得到被試真實的IMP,在此基礎(chǔ)上模擬被試的ORP,方法同研究 1;其次,得到正確層級關(guān)系下的簡化 Q矩陣、屬性能力向量,以此能力向量為初始聚類中心,采用 GRCDM 得到每個被試在每個屬性上的 MMR(本實驗主要關(guān)注錯誤類型而非層級關(guān)系對GRCDM的影響,在同一種錯誤類型下會有不同的層級關(guān)系,從而無法比較PMR而只能比較MMR的變化),作為層級關(guān)系誤設(shè)時的對照值;再次,得到各種錯誤類型下的簡化Q陣、IMP及能力向量,以錯誤時的能力向量為初始聚類中心,對被試的 ORP進行GRCDM分析,得到被試此時的MMR;最后,對正確和錯誤時的MMR進行比較,得到層級關(guān)系誤設(shè)時的MMR降幅,并對其進行描述統(tǒng)計及方差分析,推導(dǎo)研究結(jié)論。
表2為不同類型的 11種層級關(guān)系誤設(shè)下的MMR均值和相較正確層級關(guān)系的MMR均值降幅。由表2可以看出層級關(guān)系顛倒(錯誤1、2、3、7)的MMR均值的平均降幅為0.117、有層級關(guān)系變?yōu)闊o層級關(guān)系(錯誤 4、8)的 MMR 均值的平均降幅為0.006(降幅最小)、無層級關(guān)系變?yōu)橛袑蛹夑P(guān)系(錯誤6、10)的MMR均值的平均降幅為0.105、層級關(guān)系錯亂(錯誤 5、9、11)的 MMR 均值的平均降幅為0.245。其中,無結(jié)構(gòu)型時的層級關(guān)系錯亂(錯誤11)的 MMR均值降幅最大(40.40%),此外較大的還有錯誤9、6、7、2等:發(fā)散型時屬性層級錯亂(24.60%)>收斂型時無層級關(guān)系變?yōu)橛袑蛹夑P(guān)系(11.90%)>發(fā)散型時層級關(guān)系顛倒(11.70%)>線型時層級關(guān)系顛倒(11.30%),其它類型的降幅則相對較小。
表2 11種層級關(guān)系誤設(shè)下的MMR均值降幅
F
(3,216)=97.12,p
<0.001,η=0.51,其降幅由大到小依次為:屬性層級關(guān)系錯亂>無層級關(guān)系變?yōu)橛袑蛹夑P(guān)系、屬性層級關(guān)系顛倒>有層級關(guān)系變?yōu)闊o層級關(guān)系(見表3)。表3 Scheffe事后多重比較結(jié)果
屬性層級關(guān)系誤設(shè),必然導(dǎo)致Q矩陣中存在屬性冗余或缺失,為進一步考察GRCDM的穩(wěn)定性或敏感性,本研究在研究 2的同等控制條件下,探討不同屬性層級結(jié)構(gòu)(線型、收斂型、發(fā)散型、無結(jié)構(gòu)型)下的不同Q矩陣誤設(shè)(屬性多余、屬性缺失、屬性既冗余又缺失)對GRCDM判準率的影響。
實驗為4×3 (4種層級關(guān)系、3種誤設(shè)類型)的交叉設(shè)計,共12個試驗,每個試驗均重復(fù)20次以減少誤差。各實驗條件下的題目為各層級結(jié)構(gòu)(見附錄圖1)下的簡化Q陣。4種層級結(jié)構(gòu)下的簡化Q陣都包含(1 1 0 0)考核模式,因此可通過對該題目的錯誤設(shè)置來考察不同 Q矩陣誤設(shè)類型對 GRCDM判準率的影響。實驗中包括3種Q矩陣誤設(shè)類型:屬性缺失是指將(1 1 0 0)誤設(shè)為(1 0 0 0);屬性冗余是指將(1 1 0 0)誤設(shè)為(1 1 1 0);屬性缺失&冗余是指將(1 1 0 0)誤設(shè)為諸如(1 0 1 0)等模式。
表4呈現(xiàn)了不同層級結(jié)構(gòu)下的Q矩陣誤設(shè)的模擬。改變類型中“1→0”表示Q矩陣誤設(shè)類型為屬性缺失,“0→1”表示屬性冗余,括號中的數(shù)字指缺失或多余了哪個屬性(4個屬性分別為A1、A2、A3、A4),如“1→0(1)”表示屬性 A1 缺失、“0→1(3)”表示屬性A3多余。被試ORP的模擬方法、數(shù)據(jù)分析思路同研究2。評價指標為PMR和MMR。
表4 不同層級結(jié)構(gòu)下Q矩陣誤設(shè)的模擬
表5為4種層級結(jié)構(gòu)下的3種Q矩陣誤設(shè)對GRCDM判準率的影響,即相較正確Q矩陣的PMR和MMR降幅。從表5可以看出,MMR的降幅最高才0.06,最低為0,可見Q矩陣誤設(shè)對MMR的影響并不大。而PMR的降幅相對MMR稍高,平均降幅為4.3%,尤其在線型和無結(jié)構(gòu)型時較大,其中線型屬性缺失&冗余時,PMR降幅達 23.7%,可見 Q矩陣在線型時的誤設(shè)對GRCDM影響較大。屬性層級結(jié)構(gòu)、Q矩陣誤設(shè)類型對PMR和MMR影響的交互效應(yīng)可見圖3。由圖3可知,PMR的降幅趨勢與MMR類似,因此只分析PMR降幅結(jié)果。
表5 屬性層級結(jié)構(gòu)、Q矩陣誤設(shè)對判準率的影響
圖3 屬性層級結(jié)構(gòu)、Q矩陣誤設(shè)對PMR和MMR影響的交互效應(yīng)圖
對 PMR進行兩因素方差分析發(fā)現(xiàn):屬性層級結(jié)構(gòu)和Q矩陣誤設(shè)類型主效應(yīng)均顯著(F
(3,228)=91.57,p
<0.001,η=0.55;F
(2,228)=66.40,p
<0.001,η=0.37);屬性層級結(jié)構(gòu)與Q矩陣誤設(shè)類型的交互效應(yīng)顯著,F
(6,228)=49.83,p
<0.001,η=0.57。進一步簡單效應(yīng)分析表明:誤設(shè)類型在線型和無結(jié)構(gòu)型時簡單效應(yīng)顯著(F
(2,57)=232.30,p
<0.001,η=0.89;F
(2,57)=8.15,p
<0.001,η=0.22),且在線型時表現(xiàn)為屬性冗余、屬性缺失>屬性冗余&缺失,在無結(jié)構(gòu)型時表現(xiàn)為屬性冗余>屬性缺失、屬性冗余&缺失;而在收斂型和發(fā)散型時簡單效應(yīng)并不顯著(F
(2,57)=2.39,p
>0.05;F
(2,57)=0.075,p
>0.05)。結(jié)合表4、表5和圖3可得出,線型和無結(jié)構(gòu)型在Q矩陣正確時的判準率相對較高,但也容易受Q矩陣誤設(shè)的影響而導(dǎo)致判準率下降,收斂性和發(fā)散型在 Q矩陣正確時的判準率相對上兩種稍低,卻不易受Q矩陣誤設(shè)影響,降幅在各種誤設(shè)條件下接近于0,且誤設(shè)類型之間無顯著差異。在參數(shù)模型中,模型判準率隨屬性數(shù)目增多會呈現(xiàn)下降的趨勢,一般而言不宜超過 7個,否則會造成判準率的急速下降(Chiu &Douglas,2013;涂冬波等,2010,2013b)。為比較不同模型在屬性數(shù)目變化時判準率的變化趨勢,搜索已有研究相似條件下的9種多級評分模型的模擬結(jié)果進行描述(見表6)。由表6可以看出,與參數(shù)方法不同的是,GRCDM不僅不受限于屬性數(shù)目,隨著屬性數(shù)目的增多其判準率反而呈遞增趨勢。并且,在屬性個數(shù)相當甚至較多的情況下,其判準率要高于P-DINA、GRM-GDD、GRM-AHM-A、GRM-AHM-B、GRM-RSM和多級Fusion等方法(涂冬波等,2010;李娟等,2013;祝玉芳,丁樹良,2009;Bolt &Fu,2004;田偉,辛濤,2012),但略微低于 GDD-P和GP-DINA兩種方法(張淑梅等,2013;Sun et al.,2013)??梢?在屬性數(shù)目較多樣本容量又較少的情況下,較適于選用GRCDM 作為分類方法,但如果樣本容量較大,則GDD-P和GP-DINA也是不錯的選擇。由此,可以認為GRCDM對屬性個數(shù)無依賴,在一定程度上彌補了參數(shù)模型受限于屬性個數(shù)不易過多的現(xiàn)狀,更能吻合實踐教學(xué)中屬性個數(shù)較多及更微觀細致的評估需求。
關(guān)于被試知識狀態(tài)分布與判準率之間的關(guān)系,參數(shù)模型由于所需樣本量較大,一般在模擬設(shè)計時都設(shè)定被試知識狀態(tài)是正態(tài)分布(少數(shù)設(shè)為均勻分布),但對分布狀態(tài)本身研究較少,僅有的研究為:當被試的知識狀態(tài)為負偏態(tài)時,參數(shù)模型的判準率普遍高于其他分布形態(tài)(涂冬波等,2013a)。本研究同時考察了被試分布形態(tài)、屬性層級關(guān)系和屬性數(shù)目對GRCDM的影響,結(jié)果表明被試分布形態(tài)的主效應(yīng)及與其它兩變量之間的二次和三次交互效應(yīng)均未達到明顯效果。這個結(jié)果說明GRCDM這種非參數(shù)方法對被試知識狀態(tài)分布無依賴,這不僅可以與其對樣本容量無依賴的結(jié)果相印證(康春花等,2015),也進一步體現(xiàn)了非參數(shù)方法的特征與優(yōu)勢。究其原因,可能與非參數(shù)方法本身對總體分布形態(tài)無要求有關(guān),所以改變被試知識狀態(tài)的分布就猶如改變加權(quán)平均數(shù)的權(quán)重一樣,對非參數(shù)方法的結(jié)果并無影響,這正是非參數(shù)方法的優(yōu)勢所在。
以往研究表明層級關(guān)系對參數(shù)模型判準率影響較大,屬性間邏輯關(guān)系越緊密,判準率越高;屬性間邏輯關(guān)系越松散,判準率偏低(涂冬波等,2013a;蔡艷等,2013;顏遠海等,2011;田偉,辛濤,2012)。本研究顯示GRCDM在各屬性層級的PMR均值由小到大依次為:收斂型(94.86%)<線型(96.01%)<發(fā)散型(96.60)<無結(jié)構(gòu)型(97.58),層級結(jié)構(gòu)存在主效應(yīng),與屬性數(shù)目也存在交互效應(yīng),隨著屬性個數(shù)的增加,GRCDM 更適合發(fā)散型和無結(jié)構(gòu)型(見3.3.2)。這為松散型知識結(jié)構(gòu)下的分類診斷找到了一種簡單有效的替補方法。
雖然DINA模型族可以不考慮屬性層級,然而屬性層級卻是認知模型的一種表達形式(毋庸置疑),它在認知診斷測驗編制中(如試題的開發(fā)與組卷)乃至對被試的分類診斷與補救中都起著至關(guān)重要的作用(丁樹良,羅芬,汪文義,2012;DiBello &Stout,2007;Leighton,Gierl,&Hunka,2004)。然而,已有多級評分模型對屬性層級誤設(shè)并未做相關(guān)研究。僅有的研究見于涂冬波等人(2013a)關(guān)于幾種非補償性參數(shù)模型(0-1評分模型)在屬性層級誤設(shè)時的比較,以反映各種模型在屬性誤設(shè)時的敏感性或穩(wěn)定性。圖4(圖中縱坐標單位為%)列出了屬性層級誤設(shè)時,GRCDM 與涂冬波等人(2013a)結(jié)果的比較。從圖4可以看出,GRCDM無論在各種屬性層級誤時的降幅還是總體平均降幅都比 RSM、AHM-A、GDD要小很多,但比DINA-HC稍高。由此,我們可以認為GRCDM在層級誤設(shè)時的判準率還是比較穩(wěn)定的,之所以比 DINA-HC模型要稍高點,是因為DINA模型族本身就是不考慮層級關(guān)系的模型。
表6 GRCDM與其它多級評分診斷模型在不同屬性個數(shù)的判準率(%)
圖4 屬性層級誤設(shè)時GRCDM與其它模型的判準率降幅比較
此外,涂冬波等人(2013a)的結(jié)果表明:屬性間邏輯關(guān)系越緊密,其層級關(guān)系誤設(shè)導(dǎo)致的降幅越大,然而具體哪一種層級誤設(shè)類型的影響最大,卻未提及。本研究實驗2結(jié)果表明,除了“有層次關(guān)系變?yōu)闊o層次關(guān)系”的MMR均值的平均降幅為0.006,其它條件下降幅均較大。說明GRCDM對層次關(guān)系誤設(shè)的反應(yīng)比較敏感??v觀4種誤設(shè)類型,發(fā)現(xiàn)其降幅從大到小依次為:屬性層級關(guān)系錯亂(24.5%)>無層級關(guān)系變?yōu)橛袑蛹夑P(guān)系(10.4%)、屬性層級關(guān)系顛倒(8.8%)>有層級變?yōu)闊o層級(0.6%)。具體到各種層級關(guān)系類型時,其降幅較大的還有:無結(jié)構(gòu)型時的層級關(guān)系錯亂(40.4%)>發(fā)散型時屬性層級錯亂(24.6%)>收斂型時無層級關(guān)系變?yōu)橛袑蛹夑P(guān)系(11.9%)>發(fā)散型時層級關(guān)系顛倒(11.7%)>線型時層級關(guān)系顛倒(11.3%)。由此,GRCDM對“有層級變?yōu)闊o層級”容忍度較高,而對“層級關(guān)系錯亂”容忍度較低,尤其是無結(jié)構(gòu)型和發(fā)散型時的基礎(chǔ)屬性一定不能誤設(shè),緊密型的屬性邏輯確定也需謹慎,在不能保證兩屬性間是否存在先決關(guān)系的前提下,盡量視其為獨立。
屬性層級誤設(shè)必然導(dǎo)致 Q矩陣中的元素缺失或冗余,而Q矩陣的界定是否正確直接關(guān)系到測驗項目的質(zhì)量、測驗是否具有結(jié)構(gòu)效度以及基于測驗結(jié)果的診斷信息是否準確。然而,無論是基于數(shù)學(xué)的方法、模型的方法還是專家多次討論的結(jié)果,Q矩陣都未必完美無缺,因而研究者陸續(xù)對Q矩陣誤設(shè)時診斷方法的判準率進行研究,以探討診斷模型或方法的敏感性或穩(wěn)定性。那么Q矩陣誤設(shè)對項目質(zhì)量及判準率有哪些具體影響呢?Rupp和Templin研究發(fā)現(xiàn),當Q矩陣中的某個項目所測屬性缺失時,該題失誤參數(shù)將被高估,并且,由于Q矩陣中缺少了特定的屬性考核模式,將無法區(qū)別某些知識狀態(tài)的被試,進而導(dǎo)致被試分類的正確率降低(Rupp &Templin,2008;Kunina-Habenicht et al.,2012),而屬性冗余時,該題猜測參數(shù)將被高估(Rupp &Templin,2008)。本研究實驗 3表明,在線型和無結(jié)構(gòu)型時,其判準率的高低依次為屬性冗余、屬性缺失、屬性冗余&缺失,而在收斂型和發(fā)散型時GRCDM對屬性誤設(shè)的容忍度較高,降幅基本在 1%以下。就GRCDM而言,Q矩陣誤設(shè)也會導(dǎo)致判準率的下降(與參數(shù)模型一樣),所不同的是,相比收斂型和發(fā)散型,無結(jié)構(gòu)型和線型的判準率在屬性既冗余又缺失及屬性缺失時更易受影響,但對屬性冗余容忍度較高,而收斂性和發(fā)散型相對具有較大的穩(wěn)定性,不易受Q矩陣誤設(shè)的影響。
GRCDM 無需參數(shù)估計,是一種較為簡便且適宜小型評估的非參數(shù)方法(康春花等,2015),為進一步深入探討其特性,本研究通過3個模擬研究考察其影響因素,所得結(jié)果表明:(1) GRCDM不會受限于屬性數(shù)目和被試能力分布狀態(tài),在各種條件下其判準率均較高,且隨屬性數(shù)目的增多判準率反而增高;(2) GRCDM的判準率依屬性層級誤設(shè)類型不同而不同,其中影響最小的是“有層級變?yōu)闊o層級”、最大的是“屬性層級關(guān)系錯亂”,尤其是針對無結(jié)構(gòu)型和發(fā)散型時;(3) Q矩陣誤設(shè)對GRCDM的影響因?qū)傩詫蛹夑P(guān)系的不同而不同,其中收斂型和發(fā)散型受影響較小,結(jié)構(gòu)型和線型的判準率在屬性既冗余又缺失時降幅較大。
然而,盡管本研究進一步探測了GRCDM的主要特性,為非參數(shù)認知診斷方法的研究提供了新信息,但有些方面還需繼續(xù)改進和完善:(1)豐富模擬研究中關(guān)于失誤分數(shù)的設(shè)計方式(加 1分減 1分的范式略顯單一),后續(xù)研究可以采用張淑梅等(2013)滑動矩陣這種與現(xiàn)實情境較吻合的多元化的失誤分數(shù)設(shè)計方式;(2)進一步完善Q矩陣誤設(shè)方式,未來研究可以考慮采用喻曉鋒,羅照盛等人(2015)關(guān)于 Q矩陣誤設(shè)和聯(lián)合估計的方法,進一步考察 GRCDM的穩(wěn)定性與靈敏性;(3)關(guān)注GRCDM與其它參數(shù)或非參數(shù)方法(如SVM)的直接比較,進一步考證其在診斷分類中的優(yōu)越性,以獲得更多直接信息。
Bolt,D.,&Fu,J.B.(2004).A polytomous extension of the fusion model and its Bayesian parameter estimation.Paper presented at NCM E,San Diego,USA.
Cai,Y.,Tu,D.B.,&Ding,S.L.(2013).A simulation study to compare five cognitive diagnostic models.Acta Psychologica Sinica,45
(11),1295?1304.[蔡艷,涂冬波,丁樹良.(2013).五大認知診斷模型的診斷正確率比較及其影響因素:基于分布形態(tài),屬性數(shù)及樣本容量的比較.心理學(xué)報,45
(11),1295?1304.]Chiu,C.-Y.,&Douglas,J.(2013).A nonparametric approach to cognitive diagnosis by proximity to ideal response patterns.Journal of Classification,30
(2),225?250.Chiu,C.-Y.,Douglas,J.A.,&Li,X.D.(2009).Cluster analysis for cognitive diagnosis:Theory and applications.Psychometrika,74
(4),633?665.DiBello,L.V.,&Stout,W.(2007).Guest editors' introduction and overview:IRT-Based cognitive diagnostic models and related methods.Journal of Educational Measurement,44
(4),285?291.Ding,S.L.,Luo,F.,&Wang,W.Y.(2012).Extension to Tatsuoka’s Q matrix theory.Psychological Exploration,32
(5),417?422.[丁樹良,羅芬,汪文義.(2012).Q矩陣理論的擴展.心理學(xué)探新,32
(5),417?422.]Ding,S.L.,Wang,W.Y.,&Yang,S.Q.(2011).The design of cognitive diagnostic test blueprints.Journal of Psychological Science,34
(2),258?265.[丁樹良,汪文義,楊淑群.(2011).認知診斷測驗藍圖的設(shè)計.心理科學(xué),34
(2),258?265.]Ding,S.L.,Yang,S.Q.,&Wang,W.Y.(2010).The importance of reachability matrix in constructing cognitively diagnostic testing.Journal of Jiangxi Normal University (Natural Science),34
(5),490?494.[丁樹良,楊淑群,汪文義.(2010).可達矩陣在認知診斷測驗編制中的重要作用.江西師范大學(xué)學(xué)報(自然科學(xué)版),34
(5),490?494.]He,X.W.,&Zhao,H.M.(2005).Support vector machine and its application to machinery fault diagnosis.Journal of Central South University (Science and Technology),36
(1),97?101.[何學(xué)文,趙海鳴.(2005).支持向量機及其在機械故障診斷中的應(yīng)用.中南大學(xué)學(xué)報(自然科學(xué)版),36
(1),97?101.]Henson,R.,Templin,J.,&Douglas,J.(2007).Using efficient model based sum-scores for conducting skills diagnoses.Journal of Educational Measurement,44
(4),361?376.Im,S.,&Corter,J.E.(2011).Statistical consequences of attribute misspecification in the rule space method.Educational and Psychological Measurement,71
(4),712?731.Kang,C.H.,Ren,P.,&Zeng,P.F.(2015).Nonparametric cognitive diagnosis:A cluster diagnostic method based on grade response items.Acta Psychologica Sinica,47
(8),1077?1088.[康春花,任平,曾平飛.(2015).非參數(shù)認知診斷方法:多級評分的聚類分析.心理學(xué)報,47
(8),1077?1088.]Kuang,Z.(2010).Application of support vector machine to cognitive diagnosis
(Unpublished master thesis).Jiangxi Normal University.[鄺錚.(2010).支持向量機在認知診斷中的應(yīng)用研究
(碩士學(xué)位論文).江西師范大學(xué).]Kunina-Habenicht,O.,Rupp,A.A.,&Wilhelm,O.(2012).The impact of model misspecification on parameter estimation and item-fit assessment in log-linear diagnostic classification models.Journal of Educational Measurement,49
(1),59?81.Leighton,J.P.,Gierl,M.J.,&Hunka,S.M.(2004).The attribute hierarchy method for cognitive assessment:A variation on Tatsuoka's rule-space approach.Journal of Educational Measurement,41
(3),205?237.Li,J.,Ding,S.L.&Luo,F.(2013).The generalized distance discrimination based on graded response model.Journal of Jiangxi Normal University (Natural Science),36
(6),636?639.[李娟,丁樹良,羅芬.(2013).基于等級反應(yīng)模型的廣義距離判別法.江西師范大學(xué)學(xué)報(自然科學(xué)版),36
(6),636?639.]Luo,H.,Ding,S.L.,Wang,W.Y.,Yu,X.F.,&Cao,H.Y.(2010).Attribute hierarchy method based on graded response model with different scoring-weight for attributes.Acta Psychologica Sinica,42
(4),528?538.[羅歡,丁樹良,汪文義,喻曉鋒,曹慧媛.(2010).屬性不等權(quán)重的多級評分屬性層級方法.心理學(xué)報,42
(4),528?538.]Rupp,A.A.,&Templin,J.(2008).The effects of Q-matrix misspecification on parameter estimates and classification accuracy in the DINA model.Educational and Psychological Measurement,68
(1),78?96.Shu,H.,&Zhang,Y.X.(2008).Research methods in psychology:Experimental design and data analysis.
Beijing,China:People’s Education Press.[舒華,張亞旭.(2008).心理學(xué)研究方法:實驗設(shè)計和數(shù)據(jù)分析
.北京:人民教育出版社.]Sun,J.,Xin,T.,Zhang,S.M.,&de la Torre,J.(2013).A polytomous extension of the generalized distance discriminating method.Applied Psychological Measurement,37
(7),503?521.Tian,W.,&Xin,T.(2012).A polytomous extension of rule space method based on graded response model.Acta Psychologica Sinica,44
(2),249?262.[田偉,辛濤.(2012).基于等級反應(yīng)模型的規(guī)則空間方法.心理學(xué)報,44
(2),249?262.]Tu,D.B.,Cai,Y.,Dai,H.Q.&Ding,S.L.(2010).A polytomous cognitive diagnosis model:P-DINA model.Acta Psychologica Sinica,42
(10),1011?1020.[涂冬波,蔡艷,戴海琦,丁樹良.(2010).一種多級評分的認知診斷模型:P-DINA 模型的開發(fā).心理學(xué)報,42
(10),1011?1020.]Tu,D.B.,Cai,Y.,&Dai,H.Q.(2013a).Comparison and selection of five noncompensatory cognitive diagnosis models based on attribute hierarchy structure.Acta Psychologica Sinica,45
(2),243?252.[涂冬波,蔡艷,戴海琦.(2013a).幾種常用非補償型認知診斷模型的比較與選用:基于屬性層級關(guān)系的考量.心理學(xué)報,45
(2),243?252.]Tu,D.B.,Cai,Y.,&Dai,H.Q.(2013b).A polytomous extension of higher-order DINA model.Journal of Psychological Science,36
(4),984?988.[涂冬波,蔡艷,戴海琦.(2013b).基于HO-DINA模型的多級評分認知診斷模型的開發(fā).心理科學(xué),36
(4),984?988.]Tu,D.B.,Cai,Y.,Dai,H.Q.,&Ding,S.L.(2011).A research on MCMC parameter estimation and the properties of the high order DINA model.Joumal of Psychological Science,34
(6),1476?1481.[涂冬波,蔡艷,戴海琦,丁樹良.(2011).HO-DINA模型的MCMC參數(shù)估計及模型性能研究.心理科學(xué),34
(6),1476?1481.]Vapnik,V.(2000).The nature of statistical learning theory
.New York:Springer Science &Business Media.Yan,Y.H.,Ding,S.L.,&Wang,W.Y.(2011).The research on factors influencing diagnostic accuracy in AHM and DINA.Journal of Jiangxi Normal University (Natural Science),35
(6),640?645.[顏遠海,丁樹良,汪文義.(2011).影響AHM與DINA診斷準確率的因素研究.江西師范大學(xué)學(xué)報(自然科學(xué)版),35
(6),640?645.]Yu,X.F.,Luo,Z.S.,Qin,C.Y.,Gao,C.L.,&Li,Y.J.(2015).Joint estimation of model parameters and Q-matrix based on response data.Psychologica Sinica,47
(2),273-282.[喻曉鋒,羅照盛,秦春影,高椿雷,李喻駿.(2015).基于作答數(shù)據(jù)的模型參數(shù)和Q 矩陣聯(lián)合估計.心理學(xué)報,47
(2),273-282.]Zhang,S.M.,Bao,Y.,&Guo,W.H.(2013).A generalized cognitive diagnosis model under a particuliar polytomous situation.Psychological Exploration,33
(5),444?450.[張淑梅,包鈺,郭文海.(2013).一種多級評分的廣義認知診斷模型.心理學(xué)探新,33
(5),444?450.]Zhu,Y.F.,&Ding,S.L.(2009).A polytomous extension of attribute hierarchy method based on graded response model.Acta Psychologica Sinica,41
(3),267–275.[祝玉芳,丁樹良.(2009).基于等級反應(yīng)模型的屬性層級方法.心理學(xué)報,41
(3),267?275.]