劉彥樓 辛 濤, 李令青 田 偉 劉笑笑
(1北京師范大學發(fā)展心理研究所,北京 100875) (2中國基礎教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心,北京 100875)(3泰山學院教師教育學院,山東泰安 271000)
General Diagnostic Model,
GDM)、Henson,Templin 和 Willse (2009)提出的對數(shù)線性認知診斷模型(Log-Linear Cognitive Diagnosis Model,
LCDM)以及 de la Torre (2011)的G-DINA模型,常見的特殊的認知診斷模型有決定性輸入,噪音與門模型(Deterministic Input,Noisy And Gate,
DINA) (de la Torre &Douglas,2004;Haertel,1989;Junker &Sijtsma,2001),補償?shù)闹貐?shù)化統(tǒng)一模型(Compensatory Reparameterized Unified Model,
C-RUM) (e.g.,Hartz,2002)等。從統(tǒng)計上來講,以上這些一般性的認知診斷模型與特殊的認知診斷模型都屬于有約束的潛在類別模型(von Davier,2009)。這些“約束”主要是通過Q矩陣來實現(xiàn)的。Q矩陣是一個設計矩陣,其中的元素一般是“0”與“1”,雖然有研究(Chen &de la Torre,2013)已經(jīng)將 Q矩陣擴展為多級的,但在絕大多數(shù)的實際應用中仍假定其是二分的,因此本研究仍假定Q矩陣是二分的。在認知診斷模型中一般將受測者的知識或技能統(tǒng)稱為潛在屬性,簡稱屬性。Q矩陣的功能在于設定認知診斷測驗中項目與屬性之間的對應關系,Q矩陣中元素取值為1代表正確作答某一項目需要某一對應的屬性,取值為0則代表不需要。將認知診斷模型與Q矩陣在項目水平上進行組合,可以反映出研究者對于受測者在作答項目時的潛在認知過程或操作的假定。
在使用認知診斷測驗對于受測者的屬性掌握狀況進行診斷的時候,研究者面臨的一個重要的理論及現(xiàn)實問題是如何進行項目功能差異(Differential Item Functioning,
DIF)檢驗。因為當測驗中含有功能差異的項目時,不僅會產(chǎn)生測驗公平性的問題,而且也會影響到受測者屬性掌握模式的判別(王卓然,邊玉芳,郭磊,2015)。在認知診斷模型中一個被廣泛接受的 DIF定義是不同組中具有相同屬性掌握模式的受測者正確作答某一項目的概率不同(Hou et al.,2014;Li,2008)。當前研究者們提出了一些不同的方法用于檢驗認知診斷模型中的DIF (Hou et al.,2014;Li,2008;王卓然,郭磊,邊玉芳,2014;Li &Wang,2015;Zhang,2006)。Zhang (2006)提出使用 MH法(Holland &Thayer,1988;Mantel &Haenszel,1959)以及SIBTEST法(Shealy &Stout,1993),用受測者的測驗總分以及屬性掌握模式作為匹配變量去檢驗 DINA模型中的 DIF。Zhang (2006)所提出的方法中的不足之處在于:目標組以及對照組的項目參數(shù)以及屬性掌握模式參數(shù)是作為一個整體被同時估計出來的,因此會導致其估計值不準確;另外,MH法以及SIBTEST法只能檢驗一致性DIF。Hou(2013)的研究中指出邏輯斯蒂克回歸法(Logistic Regression,
LR) (Swaminathan &Rogers,1990),MH法以及 SIBTEST法的統(tǒng)計檢驗力都受到測驗中DIF項目比例的影響。Li (2008)使用改進的高階DINA模型(de la Torre &Douglas,2004)去檢驗DIF,然而,Li研究的不足之處在于:在某些模擬條件下,經(jīng)驗一類錯誤率(指的是在實際模擬中所觀察到的一類錯誤)過高或者過低;另外這一方法只適用于高階模型而非一般性的模型。Hou等人(2014)提出使用 Wald統(tǒng)計量檢驗項目功能差異,并且認為Wald統(tǒng)計量的檢驗方法的效果接近或者是優(yōu)于MH以及SIBTEST方法,然而,Hou等人所提出的Wald統(tǒng)計量存在以下不足:首先是一類錯誤率過高,不符合預先設置的顯著性水平;其次,統(tǒng)計功效研究中,正確拒絕率是使用的每個模擬條件下的10,000次重復所獲得統(tǒng)計量的經(jīng)驗分布來計算的,這使得其研究結(jié)果無法推廣到一般性的模型以及實際應用中。另外,需要指出,Hou等人(2014)在計算Wald統(tǒng)計量時使用的是de la Torre (2009,2011)所提出認知診斷模型信息矩陣的計算方法。王卓然等人(2014)的研究發(fā)現(xiàn)盡管 Wald方法的檢驗力要高于LR法與MH法,但是也存在一類錯誤率膨脹的問題。Li和Wang (2015)比較了使用馬爾可夫鏈蒙特卡羅(Markov chain Monte Carlo,
MCMC)法計算項目參數(shù)時,LCDM-DIF方法以及Wald方法在評價項目功能差異時的表現(xiàn)。Li和Wang發(fā)現(xiàn),他們所使用的LCDM-DIF方法以及Wald統(tǒng)計量具有較好的一類錯誤控制率(僅有稍許的膨脹),并且當被比較的組數(shù)為 3時,Wald統(tǒng)計量的統(tǒng)計功效要優(yōu)于LCDM-DIF。通過以上文獻綜述我們可以發(fā)現(xiàn),盡管研究者們一致地認為Wald統(tǒng)計量在檢驗DIF時有著高的統(tǒng)計檢驗力,但是不同的研究對于 Wald統(tǒng)計量的一類錯誤控制率的表現(xiàn)卻有著不同的結(jié)果。澄清不同的方法構建的Wald統(tǒng)計量為什么在一類錯誤控制率的表現(xiàn)不同這個問題,不僅在理論上具有重要意義,而且對于測驗實踐也有重要意義。Hou等人(2014)以及王卓然等人(2014)所使用Wald統(tǒng)計量,均是基于de la Torre (2009,2011)所提出的項目參數(shù)的經(jīng)驗交叉相乘信息矩陣而構建的,而非基于全部的模型參數(shù)(即模型中所有自由估計的參數(shù))。然而,相關研究指出(Tian,Cai,Thissen,&Xin,2013;Paek&Cai,2013)通過對信息矩陣求逆計算誤差—協(xié)方差矩陣時,信息矩陣應該包括全部的模型參數(shù),而非僅僅是項目參數(shù);并且研究發(fā)現(xiàn)當模型的參數(shù)是通過EM (Expectation-Maximization)方法(de la Torre,2009,2011)所估計獲得時,應該通過對觀察信息矩陣(基于樣本觀測數(shù)據(jù)所計算的信息矩陣,有些研究中也將其簡稱為觀察矩陣)求逆的方法計算誤差—協(xié)方差矩陣(Kenward &Molenberghs,1998;Louis,1982)。已有研究發(fā)現(xiàn)在項目反應理論中觀察信息矩陣的逆可以很好的漸近誤差—協(xié)方差矩陣(Paek &Cai,2013)。
針對以往研究中Wald統(tǒng)計量構建方法的局限,解決在認知診斷模型中更加準確地估計Wald統(tǒng)計量這一重大理論問題,促進認知診斷測驗在實踐中的運用,本研究擬將觀察信息矩陣的計算方法引入到認知診斷模型中,期望獲得一個好的誤差—協(xié)方差矩陣的估計方法,從而改進 Wald統(tǒng)計量在檢驗DIF時的表現(xiàn)。研究包括主要包括以下3個部分:首先,介紹用于檢驗認知診斷模型中 DIF的 Wald統(tǒng)計量的構建,重點強調(diào)誤差—協(xié)方差矩陣在構建中所起的重要作用;其次,介紹認知診斷模型中經(jīng)驗交叉相乘信息矩陣以及觀察信息矩陣的計算方法;第三,采用模擬的方法,探索本研究所提出的改進后的Wald統(tǒng)計量在計算DIF時的一類錯誤控制率以及統(tǒng)計檢驗力的表現(xiàn),并且與通過經(jīng)驗交叉相乘信息矩陣而構建的Wald統(tǒng)計量所獲得的結(jié)果進行比較;為了更好的說明本研究中的研究結(jié)果,我們也將本研究的結(jié)果與其他采用相同實驗設計的研究的結(jié)果(如,Hou et al.,2014;Li &Wang,2015)進行了直接的比較。
在本研究中,我們將使用LCDM作為例子,說明在認知診斷模型中如何應用改進后的Wald統(tǒng)計量進行DIF檢驗。LCDM是一個廣義的認知診斷模型,對于其中的參數(shù)進行約束,便可以獲得一些特殊的模型,如DINA以及C-RUM等(Henson et al.,2009)。
i
在各個項目上的作答是獨立的,其反應向量X的似然函數(shù),可以表示如下,p
(α)是屬性掌握模式 α的概率,在LCDM中,所有屬性掌握模式的概率之和為1。為滿足這一約束,本研究參考 Rupp,Templin和 Henson(2010)所使用的概念,設η=(η,…,η)′為模型的結(jié)構參數(shù)(structural parameters
),用以描述任一受測者來自特定屬性掌握模式的概率,使用以下表達式,再進一步假定,受測者之間的作答都是獨立的,因此所有受測者作答X的似然函數(shù)為可以用如下公式來表示,
從公式(8)可以發(fā)現(xiàn)方差—協(xié)方差矩陣估計的準確性,對于 Wald統(tǒng)計量會產(chǎn)生重大的影響,這也就是說LCDM中信息矩陣的估計會對Wald統(tǒng)計量的計算產(chǎn)生重大影響。
EM算法(Dempster,Laird,&Rubin,1977)對于心理測量學產(chǎn)生了非常大的影響,它將復雜的計算非完整數(shù)據(jù)似然函數(shù)最大值問題轉(zhuǎn)換為較為簡單的一系列偽完整數(shù)據(jù)問題,在認知診斷模型分析軟件中得到了廣泛的應用。然而,在通過EM算法計算參數(shù)時,信息矩陣(或者是其逆方差—協(xié)方差矩陣)并不是伴隨產(chǎn)生的,因此,需要去進行專門的計算。研究發(fā)現(xiàn),當使用期望—最大化算法去計算模型的極大似然估計值時,使用觀察信息矩陣能夠很好的去漸近模型的方差—協(xié)方差矩陣(Louis,1982),感興趣的研究者可以參考 Kenward和 Molenberghs(1998)的研究。對于 LCDM 而言,包含所有自由估計參數(shù)的經(jīng)驗交叉相乘信息矩陣的公式可以表達如下:
R
語言(R Core Team,2015)編程實現(xiàn)。每種實驗條件均重復1000次,以獲得穩(wěn)定的結(jié)果。為了便于與以往研究結(jié)果進行直接的比較,本研究所采用Hou等人(2014)所設計的實驗條件,這些實驗條件也被Li和Wang (2015)所采用。與Hou等人(2014)研究不同的是,本研究中 Wald統(tǒng)計量的計算是通過包含全部模型參數(shù)的觀察信息矩陣或者是經(jīng)驗交叉相乘信息矩陣所計算獲得的。本研究中所采用Q矩陣中包含30個測驗項目,5個屬性,并且限制每個項目所包含的屬性數(shù)量最多為3。Q矩陣采用平衡設計,每個屬性被項目所測量的次數(shù)相等,同樣使包含 1、2、3個屬性的項目數(shù)量也相等即包含1、2、3個屬性的項目分別有10個。具體的Q矩陣設計見表1。
為方便與以往研究結(jié)果進行直接對比,本研究設計中的數(shù)據(jù)生成模型也同樣采用DINA模型,對照組中的猜測以及滑動參數(shù)設置為相等,且有三個水平:0.1,0.2以及0.3,猜測以及滑動參數(shù)值設置的越小,說明項目越能夠區(qū)分出受測者是否掌握了所測的屬性(Templin &Henson,2006)。DIF類型有兩個水平:一致性DIF以及非一致性 DIF。一致性 DIF指的是對于某一個組而言,正確作答某個項目的概率在所有可能的屬性掌握模式下均一致性地高或者是低;非一致性DIF指的是正確作答某個項目的概率在一些屬性掌握模式下高,在另外一些屬性掌握模式下低,或者是相反,即正確作答的概率具有非一致性。DIF大小有兩個水平:0.05與0.1,當項目參數(shù)值為0.1時僅考慮了0.05這一水平的DIF大小,以防項目參數(shù)值等于 0。樣本大小有兩個水平:500與1000。在認知診斷模型中樣本的大小會對模型參數(shù)估計值的精確性產(chǎn)生影響,進而也會影響到Wald統(tǒng)計量的計算,因此,樣本大小也是一個需要考慮的重要因素。
表1 Q矩陣
本研究中所采用的評價指標為經(jīng)驗一類錯誤率以及統(tǒng)計檢驗力。經(jīng)驗一類錯誤率是通過 1000次模擬中,錯誤地檢驗出每個項目出現(xiàn)DIF的百分比,然后參照以往研究結(jié)果的呈現(xiàn)方式(Hou et al.,2014),分別對包含一個、兩個以及三個屬性的項目求平均。統(tǒng)計檢驗力指的是在這1000次循環(huán)中正確拒絕原假設的比例。當認知診斷測驗中不存在 DIF時,如果我們所構建 Wald統(tǒng)計量是漸近卡方分布的,那么它觀察到的一類錯誤率應該符合預先設置的理論上的一類錯誤控制率,如0.05;如果在認知診斷測驗中存在 DIF,那么 Wald統(tǒng)計量正確拒絕的比例越高,說明它能夠檢驗出DIF項目的能力越強。
N
=500)且項目的猜測參數(shù)以及滑動參數(shù)較大的情況下(g
=s
=0.3),平均的經(jīng)驗一類錯誤率表現(xiàn)較差,但根據(jù) Bradley (1978)的健壯寬松準則(當顯著性水平為 0.05時經(jīng)驗一類錯誤控制率在0.025與 0.075之間),仍然可以認為是得到了較好的控制??梢园l(fā)現(xiàn),本研究中所提出的改進的Wald統(tǒng)計量計算方法所獲得的結(jié)果并不存在過度膨脹的現(xiàn)象,這與 Hou等人(2014)以及王卓然等人(2015)的結(jié)果恰好相反,說明本研究中所提出的Wald統(tǒng)計量的計算方法明顯優(yōu)于以上兩個研究所使用的 Wald統(tǒng)計量的計算方法。通過比較表2與表3中的一類錯誤控制率可以發(fā)現(xiàn)基于觀察信息矩陣計算的Wald統(tǒng)計量的表現(xiàn)要優(yōu)于基于經(jīng)驗交叉相乘信息矩陣而計算的Wald統(tǒng)計量?;诮?jīng)驗交叉相乘矩陣而獲得的Wald統(tǒng)計量的一類錯誤控制率較為保守,但是表3的結(jié)果同樣顯示包含一個、兩個以及三個屬性的項目的一類錯誤控制率仍大致相等。Li和 Wang (2015)在 MCMC框架下采用LCDM-DIF以及Wald統(tǒng)計量對于DIF檢驗方法進行了研究,在其研究一中同樣采用了 Hou等人(2014)的研究設計,因此本研究的研究結(jié)果同樣也是可以直接與 Li等人的結(jié)果進行比較。通過對比研究結(jié)果可以發(fā)現(xiàn),本研究中所提出基于觀察信息矩陣計算的Wald統(tǒng)計量與Li等人的研究中所使用的LCDM-DIF以及Wald統(tǒng)計量均具有較好的一類錯誤控制率。一個非常有意思的現(xiàn)象是在本研究中的一些實驗條件下(見表2)Wald統(tǒng)計量一類錯誤率有細微的保守而Li等人研究結(jié)果中的LCDM-DIF以及 Wald統(tǒng)計量在某些實驗條件中一類錯誤率卻有稍許膨脹。從公式(8)中可以發(fā)現(xiàn)Wald統(tǒng)計量的準確性,依賴于模型參數(shù)估計值的準確性。當受測者數(shù)量較少(如N
=500時)或者是模型中的“噪音”過大時(如項目的猜測與滑動參數(shù)均為 0.3時),模型參數(shù)估計值的準確性會受到相對較大的影響,因此,在本研究的N
=500以及g
=s
=0.3這兩種條件下Wald統(tǒng)計量一類錯誤率有細微的保守。表2 基于觀察信息矩陣的平均的經(jīng)驗一類錯誤率(α=0.05)
表3 基于經(jīng)驗交叉相乘信息矩陣的平均的經(jīng)驗一類錯誤率(α=0.05)
表4中呈現(xiàn)的是當認知診斷測驗中存在一致性DIF時的考察一個、兩個以及三個屬性項目在1000次循環(huán)中的基于觀察信息矩陣計算的 Wald統(tǒng)計量的平均經(jīng)驗拒絕比例,所使用的參照分布同樣為自由度為2的卡方分布。從表4中可以看出,隨著DIF的增大,Wald統(tǒng)計量的統(tǒng)計檢驗力也會隨之增大,并且當項目的猜測以及滑動參數(shù)都為 0.2的時候,總平均的拒絕率要大于同為0.3時的項目參數(shù)值的條件。這是由于同項目參數(shù)值0.3相比,DIF大小為0.1時,這一值對于項目參數(shù)值0.2而言相對更大。隨著樣本量的增加,Wald統(tǒng)計量的統(tǒng)計檢驗力也在變大,即樣本量的大小對用于檢驗DIF的Wald統(tǒng)計量而言也是一個重要因素。因為隨著樣本量的增加,模型參數(shù)估計值的準確性也會增加,進而會使得參數(shù)估計值的標準誤變小,因此,在對照組與目標組項目參數(shù)差異相等的情況下,更傾向于獲得一個大的Wald統(tǒng)計量的值。另外,通過觀察平均值可以發(fā)現(xiàn),當目標組具有負向的 DIF時,同正向 DIF相比,Wald統(tǒng)計量的統(tǒng)計檢驗力更大。比較表4與表5,可以發(fā)現(xiàn)基于觀察信息矩陣的Wald統(tǒng)計量的統(tǒng)計檢驗力均要明顯優(yōu)于基于經(jīng)驗交叉相乘信息矩陣的Wald統(tǒng)計量的統(tǒng)計檢驗力。這也說明基于經(jīng)驗交叉相乘信息矩陣的Wald統(tǒng)計量存在保守的問題。
表4 基于觀察信息矩陣的一致性DIF的平均經(jīng)驗統(tǒng)計檢驗力(α=0.05)
表6中呈現(xiàn)的是非一致性DIF條件下采用觀察信息矩陣的Wald統(tǒng)計量的1000次模擬結(jié)果,計算統(tǒng)計檢驗力所使用的參照分布同樣為自由度為2的卡方分布。從表6中同樣可以發(fā)現(xiàn)隨著DIF的增大,Wald統(tǒng)計量的統(tǒng)計檢驗力也在增大。隨著樣本量的增加,Wald統(tǒng)計量的統(tǒng)計檢驗力同樣是在增大的。而且在DIF大小相同條件下,當項目的猜測以及滑動參數(shù)相對較小時,Wald統(tǒng)計量的統(tǒng)計檢驗力會相對較大。比較表6與表7同樣可以發(fā)現(xiàn),在非一致性DIF條件下,采用觀察信息矩陣計算的Wald統(tǒng)計量的統(tǒng)計檢驗力均高于采用經(jīng)驗交叉相乘信息矩陣而計算獲得的Wald統(tǒng)計量的統(tǒng)計檢驗力。
表5 基于經(jīng)驗交叉相乘信息矩陣的一致性DIF的平均經(jīng)驗統(tǒng)計檢驗力(α=0.05)
表6 基于觀察信息矩陣的非一致性DIF的平均經(jīng)驗統(tǒng)計檢驗力(α=0.05)
表7 基于經(jīng)驗交叉相乘信息矩陣的非一致性DIF的平均經(jīng)驗統(tǒng)計檢驗力(α=0.05)
認知診斷模型能夠提夠關于受測者屬性掌握模式的較為詳盡的診斷性信息,它不僅能為老師的教以及學生的學提供有針對性的建議,而且也有助于教育者深入理解受測者的認知心理。在使用這一模型來解釋受測者的作答之前,研究者需要確定認知診斷測驗項目的參數(shù)對于所有受測者都是不變的,否則會對受測者的屬性掌握模式的估計帶來不良的影響(王卓然等,2015),進而導致錯誤的診斷性信息。DIF檢驗可以用以確認不同組的受測者在同一個項目的作答上是否存在差異,即除了屬性掌握模式外,受測者所在的組會影響到他們對于項目的反應。為保證測驗的效度,在使用認知診斷模型來擬合受測者的作答數(shù)據(jù)前,需要進行DIF檢驗。先前研究者發(fā)現(xiàn)Wald統(tǒng)計量在檢驗DIF時,有著許多其他統(tǒng)計量所不具備的優(yōu)點,然而前人研究中對于Wald統(tǒng)計量在檢驗DIF時的一類錯誤率的表現(xiàn),存在明顯的結(jié)論沖突。如,Hou等人(2014)以及王卓然等人(2014)的模擬研究發(fā)現(xiàn) Wald統(tǒng)計量會存在一類錯誤控制率膨脹的問題,Li和Wang (2015)的模擬研究卻發(fā)現(xiàn),其研究中所用的 LCDM-DIF以及Wald統(tǒng)計量在使用MCMC計算時有著良好的一類錯誤控制率。本研究采用Hou等人以及Li等人研究中所使用的同等條件通過模擬發(fā)現(xiàn),這些差異主要是由于 Wald統(tǒng)計量計算方法的差異引起的。因此,我們認為本研究提出的改進的 Wald統(tǒng)計量的計算方法解決了 DIF研究中一直困擾研究者的Wald統(tǒng)計量在檢驗DIF時的一類錯誤率的表現(xiàn)不同這一重要問題,具有重大的理論意義。
在模型正確設定的前提下,如果統(tǒng)計量能夠很好的服從漸近分布,那么,它的一類錯誤控制率應該能夠較好的接近預先設定好的顯著性水平。本研究中所提出改進的 Wald統(tǒng)計量的計算方法具有這一特征,從結(jié)果中可以發(fā)現(xiàn),本研究的一類錯誤控制率均較好地接近預先設定的 0.05這一顯著性水平。因此,我們認為在Hou等人(2014)以及王卓然等人(2014)研究中所產(chǎn)生的 Wald統(tǒng)計量一類錯誤膨脹的問題,是由于不恰當?shù)男畔⒕仃嚬烙嫹椒ǘ鸬?。本研究的這一結(jié)果明確地解釋了為什么 Wald統(tǒng)計量在不同研究中有不同表現(xiàn)的問題,對于認知診斷模型的理論發(fā)展有一定的推動作用。另外,相對于MCMC參數(shù)估計方法,MMLE/EM具有運算量小、耗時短等優(yōu)點,本研究所提出的改進的 Wald統(tǒng)計量正是基于 MMLE/EM,因此,本研究不僅具有重大的理論意義,而且對于認知診斷實踐也具有重要的現(xiàn)實意義。
N
=1000),改進后的Wald統(tǒng)計量在檢驗DIF時的統(tǒng)計檢驗力均明顯的高于樣本量比較小時(N
=500)的統(tǒng)計檢驗力。因此,本研究建議在應用Wald統(tǒng)計量進行DIF檢驗的時候,如果想要達到較高的統(tǒng)計檢驗力,應保證較大的樣本量。因為Hou等人(2014)發(fā)現(xiàn),其研究中所采用的 Wald統(tǒng)計量計算方式,會導致一類錯誤率膨脹,因此,在計算統(tǒng)計檢驗力的時候,她們采用了兩種方式進行。第一種方式是直接用 Wald統(tǒng)計量的理論分布即自由度為2的卡方分布的理論值來計算,由于其開發(fā)的 Wald統(tǒng)計量的計算方式的一類錯誤率膨脹會使得原本不存在 DIF的項目被誤判為存在 DIF,因此計算結(jié)果不夠可靠;她們所采用的第二種方式是計算當不存在 DIF項目時Wald統(tǒng)計量在每種實驗條件組合下10,000次模擬的經(jīng)驗分布,然后通過獲得的顯著性水平的臨界值,來計算Wald統(tǒng)計量的統(tǒng)計檢驗力,這種計算方式雖然保證了模擬實驗結(jié)果具有較高的可靠性,但是不具備現(xiàn)實的可操作性,因此,對于其研究目的而言只能算是一種不完整解決的方案。因為Hou等人(2014)的第二種計算方式具有較高的理論上的結(jié)果可靠性,因此可以作為研究結(jié)果的一個參考。通過研究結(jié)果對照我們發(fā)現(xiàn),本研究所采用的自由度為2的卡方分布理論值所計算獲得的研究結(jié)果與 Hou等人(2014)的第二種計算方式所獲結(jié)果具有很高的一致性,這也能夠間接的表明,本研究所使用的改進后的Wald統(tǒng)計量計算方式具有準確性及可靠性的特點。由于本研究關注的重點在于,在EM算法框架下提出一個恰當?shù)?Wald統(tǒng)計量的計算方式,用以準確有效地來檢驗認知診斷測驗中可能存在的DIF項目,澄清以往研究中所用de la Torre (2009,2011)所提出的信息矩陣方法計算Wald統(tǒng)計量時所產(chǎn)生的令人困惑的結(jié)果。因此,本研究僅采用了Hou等人(2014)的研究設計,通過結(jié)果對比的方式來證明本研究所提出的改進的Wald統(tǒng)計量在檢驗DIF時具有準確性可靠性等特點。具體而言,研究者可以就以下幾方面進行后續(xù)研究:首先,樣本大小對于 Wald統(tǒng)計量有重要影響,因此,后續(xù)研究中可以使用本研究中所用Wald統(tǒng)計量考察這一因素對于DIF的影響;其次,目前的研究中普遍采用 DINA或者是高階DINA作為例證模型,本研究出于結(jié)果比較的因素考慮,也是以DINA模型為例,在其他認知診斷模型中Wald統(tǒng)計量用以檢驗DIF時的表現(xiàn),也是一個非常有意思的研究方向。由于本研究所采用的是對于LCDM模型進行約束而獲得的DINA模型,因此,可以很方便的進行擴展;第三,本研究所采用的項目數(shù)量為 30,且受測者組的數(shù)量為 2,在不同項目數(shù)量下以及不同的受測者組數(shù)量數(shù)下,Wald統(tǒng)計量的表現(xiàn)也值得研究者關注;第四,在認知診斷模型中,除了Wald統(tǒng)計量可以進行DIF檢驗之外,還有一些其他的統(tǒng)計量也可以進行 DIF檢驗(Li,2008;Sünbül &Sünbül,2015,July),雖然目前研究表明,Wald統(tǒng)計量在檢驗DIF時,具有一些其他統(tǒng)計量所不具有的優(yōu)點,但是,在另外的應用情景中,這些DIF檢驗方法的優(yōu)缺點,仍然值得研究者的關注。
本研究中所提出的改進的 Wald統(tǒng)計量的計算方法,在認知診斷測驗中不存在DIF項目時,有著良好的一類錯誤控制率,能夠較為準確地接近預先設定的顯著性水平,即當認知診斷模型為DINA時,改進的Wald統(tǒng)計量服從自由度為2的卡方分布;在認知診斷測驗中存在DIF時,改進的Wald統(tǒng)計量能夠準確有效的鑒別出存在DIF的項目。本研究同樣發(fā)現(xiàn)樣本量對于 Wald統(tǒng)計量的一類錯誤控制率及統(tǒng)計檢驗力存在重要影響。另外,我們建議認知診斷模型的研究者與使用者,當采用EM算法進行參數(shù)估計時,在確認認知診斷模型正確設定后,使用本研究中所使用觀察信息矩陣的方法計算項目參數(shù)的標準誤。
Bradley J.V.(1978).Robustness?.British Journal of Mathematical and Statistical Psychology,31
,144-152.Chen,J.S.,&de la Torre,J.(2013).A general cognitive diagnosis model for expert-defined polytomous attributes.Applied Psychological Measurement,37
,419-437.de la Torre,J.(2009).DINA model and parameter estimation:A didactic.Journal of Educational and Behavioral Statistics,34
,115-130.de la Torre,J.(2011).The generalized DINA model framework.Psychometrika,76
,179-199.de la Torre,J.,&Douglas,J.A.(2004).Higher-order latent trait models for cognitive diagnosis.Psychometrika,69
,333-353.Dempster,A.P.,Laird,N.M.,&Rubin,D.B.(1977).Maximum likelihood estimation from incomplete data via the EM algorithm.Journal of the Royal Statistical Society,Series B,39
,1-38.Greeno,J.G.(1980).Trends in the theory of knowledge for problem solving.In D.T.Tuma &F.Reif (Eds.),Problem solving and education: Issues in teaching and research
(pp.9-23).Hillsdale,NJ:Erlbaum.Haertel,E.H.(1989).Using restricted latent class models to map the skill structure of achievement items.Journal of Educational Measurement,26
,301-321.Hartz,S.M.(2002).A Bayesian framework for the unified model for assessing cognitive abilities: Blending theory with practicality
(Unpublished doctorial dissertation).Department of Statistics,University of Illinois at Urbana-Champaign.Henson,R.A.,Templin,J.L.,&Willse,J.T.(2009).Defining a family of cognitive diagnosis models using log-linear models with latent variables.Psychometrika,74
,191-210.Holland,P.W.,&Thayer,D.T.(1988).Differential item functioning and the Mantel-Haenszel procedure.In H.Wainer &H.I.Braun (Eds.),Test validity
(pp.129-145).Hillsdale,NJ:Lawrence Erlbaum.Hou,L.K.,de la Torre,J.,&Nandakumar,R.(2014).Differential item functioning assessment in cognitive diagnosis modeling:Applying Wald test to investigate DIF for DINA model.Journal of Educational Measurement,51
,98-125.Junker,B.W.,&Sijtsma,K.(2001).Cognitive assessment models with few assumptions,and connections with nonparametric item response theory.Applied Psychological Measurement,25
,258-272.Kenward,M.G.&Molenberghs,G.(1998).Likelihood based frequentist inference when data are missing at random.Statistical Science,13
,236-247.Leighton,J.,&Gierl,M.(2007).Cognitive diagnostic assessment for education: Theory and applications
.Cambridge:Cambridge University Press.Li,F.M.(2008).A modified higher-order DINA model for detecting differential item functioning and differential attribute functioning
(Unpublished doctorial dissertation).University of Georgia.Li,X.M.,&Wang,W.C.(2015).Assessment of differential item functioning under cognitive diagnosis models:The DINA model example.Journal of Educational Measurement,52
,28-54.Louis,T.A.(1982).Finding the observed information matrix when using the EM algorithm.Journal of the Royal Statistical Society,Series B,44
,226-233.Mantel,N.,&Haenszel,W.(1959).Statistical aspects of the analysis of data from retrospective studies of disease.Journal of the National Cancer Institute,22
,719-748.Paek,I.,&Cai,L.(2013).A comparison of item parameter standard error estimation procedures for unidimensional and multidimensional item response theory modeling.Educational and Psychological Measurement,74
,58-76.R Core Team (2015).R: A language and environment for statistical computing.
R foundation for statistical computing,Vienna,Austria.Retrieved July 2,2015,from http://www.R-project.orgRupp,A.A.,Templin,J.,&Henson,R.A.(2010).Diagnostic measurement: Theory,methods,and applications
.New York,NY:Guilford.Shealy,R.,&Stout,W.(1993).A model-based standardization approach that separates true bias/DIF from group ability differences and detects test bias/DTF as well as item bias/DIF.Psychometrika,58
,159-194.Sünbül,?.,&Sünbül,S.?.(2015,July).Evaluating performance of differential item functioning detection methods for DIF data in DINA model
.Paper presented at the meeting of the annual meeting of the International Meeting of the Psychometric Society,Beijing,China.Swaminathan,H.,&Rogers,H.J.(1990).Detecting differential item functioning using logistic regression procedures.Journal of Educational Measurement,27
(4),361-370.Templin,J.L.,&Henson,R.A.(2006).Measurement of psychological disorders using cognitive diagnosis models.Psychological Methods,11
,287-305.Tian,W.,Cai,L.,Thissen,D.,&Xin,T.(2013).Numerical differentiation methods for computing error covariance matrices in item response theory modeling:An evaluation and a new proposal.Educational and Psychological Measurement,73
,412-439.von Davier,M.(2005).A general diagnostic model applied to language testing data (ETS Research Report RR-05-16).
Princeton:Educational Testing Service.von Davier,M.(2009).Some notes on the reinvention of latent structure models as diagnostic classification models.Measurement:Interdisciplinary Research and Perspectives, 7
,67-74.Wang,Z.R.,Bian,Y.F.,&Guo,L.(2015).The impact of DIF on estimating accuracy of cognitive diagnostic test.Psychological Exploration,35
,272-278.[王卓然,邊玉芳,郭磊.(2015).項目功能差異對于認知診斷測驗估計準確性的影響.心理學探新,35
,272-278.]Wang,Z.R.,Guo,L.,&Bian,Y.F.(2014).Comparison of DIF detecting methods in cognitive diagnostic test.Acta Psychologica Sinica,46
,1923-1932.[王卓然,郭磊,邊玉芳.(2014).認知診斷測驗中的項目功能差異檢測方法比較.心理學報,46
,1923-1932.]Zhang,W.(2006).Detecting differential item functioning using the DINA model
(Unpublished doctorial dissertation).University of North Carolina at Greensboro.