詹沛達 陳 平 邊玉芳
(北京師范大學中國基礎教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心, 北京 100875)
人們已不滿足于只能分析出一個總分的教育與心理測量方法, 具有診斷功能的測量方法因此逐漸受到人們的關注?;诖? 測驗編制者希望借助被試的作答結果獲得更加豐富的信息, 以便對被試做出更客觀更有針對性的評估和補救。認知診斷評估作為一種將形成性評估和終結性評估相結合的綜合評估形式, 其最終目的是為了更有效地促進學生的發(fā)展, 其作為一種評估手段, 更關注的應是評估后如何更有效地對學生進行補救教學, 或是如何修正現(xiàn)有教學的過程與方法以促進學生更有效地成長。近些年, 認知診斷模型(cognitive diagnostic models, CDMs)得到快速發(fā)展, 常見的有DINA(Junker & Sijtsma, 2001)、LCDM (Henson, Templin,& Willse, 2009)和G-DINA (de la Torre, 2011)等; 另一些拓廣模型(比如, Embretson & Yang, 2013;Huang & Wang, 2014; Li & Wang, 2015; Templin &Bradshaw, 2014; 詹沛達, 李曉敏, 王文中, 邊玉芳,王立君, 2015)也被提出并建議使用在特定的測驗情境中。
在CDMs閃耀著光芒的同時, 多維IRT模型(multidimensional IRT models, MIRTMs)似乎受到些許冷落。而實際上, MIRTMs和CDMs一樣也具有診斷功能(Embretson & Yang, 2013; Stout, 2007;Wang & Nydick, 2015), 只不過因為MIRTMs是在連續(xù)量尺上刻畫或診斷被試的潛變量值, 并沒有直接或明確地對被試進行分類, 導致我們放大了其根據(jù)子維度分排序的功能。另外, 隨著家長及學生對反饋信息精細化的要求越來越高, 當前CDMs中對屬性精細化的研究越來越多(比如, Karelitz, 2004;von Davier, 2005; 詹沛達, 邊玉芳, 王立君, 2016),也有研究直接采用屬性掌握概率這一連續(xù)變量(Zhan, Wang, Li, & Bian, 2016; 詹沛達, 邊玉芳,2015)來進行認知診斷。即不僅希望要診斷出掌握狀態(tài), 還要了解到掌握程度, 而對潛變量的精細化描述恰恰是MIRTMs的優(yōu)勢。
MIRTMs與CDMs的主要區(qū)別在于前者假設潛變量空間由K維連續(xù)變量(即潛在特質(zhì))組成, 而后者假設潛變量空間由K維離散變量(即屬性)組成。而至于如何在這兩類模型中進行選擇, 則通常取決于測驗目標潛變量的含義和測驗目的, 若目標潛變量的含義相對較大或粒度較大(比如數(shù)學能力)則MIRTMs更為常用, 而若含義相對較小或粒度較小(比如分數(shù)進位)則CDMs更為常用; 若測驗目的是探究被試在某方面能力的大小則MIRTMs更為常用, 而若測驗目的僅為診斷被試是否掌握某方面的能力則CDMs更為常用。當然, 萬事非絕對, 暫無研究和證據(jù)表明我們一定要按某種規(guī)則選用兩者中的某一個。
通常根據(jù)潛變量之間的關系, 無論是MIRTMs還是CDMs均大體可分為補償模型和非補償模型這兩類。補償模型認為被試在某一維度的優(yōu)勢可以去彌補其在其他維度的劣勢, 進而假設潛變量之間為累加求和關系; 而非補償模型認為只有被試擁有或達到該題目所考查的所有維度的要求才有較高的概率正確作答該題目, 進而假設潛變量之間為連乘關系。另外, 自MIRTMs和CDMs誕生起, 關于兩者的研究長期是相互分離和獨立的, 直到近些年才有研究去觸碰這兩類模型的交叉點(比如,Bradshaw & Templin, 2014; Embretson & Yang,2013; Wang & Nydick, 2015; 詹沛達等, 2015)。這也在一定程度導致“補償”和“非補償”這兩個概念在MIRTMs和CDMs中的建模(量化)描述是有所差異的。鑒于本文主題且為便于區(qū)分, 下文將MIRTMs中的“非補償”稱為部分補償(partially-compensatory)(Reckase, 2009), “補償”仍保留原有含義(即潛在特質(zhì)之間的累加); 而把CDMs中的“非補償”稱為連接(conjunctive) (Maris, 1999), 把“補償”限定于補償連接縮合規(guī)則(Maris, 1999) (即屬性之間的累加),而不包含以DINO模型為例的分離(disjunctive)縮合規(guī)則(Maris, 1999)。基于上述概念區(qū)分, 可知在“補償”的含義下MIRTMs和CDMs對潛變量之間的關系具有相同的量化定義, 這也為本文后續(xù)研究中對比探究這兩類模型的認知診斷功能奠定了基礎。另外, Bolt和Lall (2003)也指出當使用補償MIRTMs去擬合由部分補償MIRTMs產(chǎn)生的數(shù)據(jù)時,補償MIRTMs的擬合結果與部分補償MIRTMs的擬合結果一樣好; 反過來, 由部分補償MIRTMs去擬合由補償MIRTMs產(chǎn)生的數(shù)據(jù)時卻無法得到與使用補償MIRTMs自身去擬合該數(shù)據(jù)一樣好的結果。因此, 補償MIRTMs在實際應用中比部分補償MIRTMs更為普遍。
結合本文主題, 下面首先介紹驗證性補償多維兩參數(shù)Logistic模型(confirmatory compensatory multidimensional two-parameter Logistic model,CC-M2PLM)及其診斷功能的具體化, 然后通過模擬研究對比探究CC-M2PLM和線性Logistic模型(linear Logistic model, LLM) (Maris, 1999)的認知診斷功能。模擬研究結果表明CC-M2PLM可用于診斷測驗數(shù)據(jù)分析, 且認知診斷功能與直接使用LLM的效果相當; 最后, 以兩則實證數(shù)據(jù)為例來說明CC-MIRTMs在實際診斷測驗分析中的可行性。
在眾多CDMs中, 假設屬性間滿足補償關系的LLM近些年逐漸受到研究者的提及和關注(比如,de la Torre, 2011; 詹沛達等, 2015), 主要原因是:在特定題目中LLM可以把被試的屬性掌握模式細分為組(其中表示題目i所考查的屬性總數(shù)), 這比常用的DINA模型中的2組(即全掌握組和未全掌握組)要精細許多。與LLM相對應, 補償M2PLM (compensatory M2PLM, C-M2PLM)是補償MIRTMs中一個較為常用的模型。限于篇幅原因,LLM的題目反應函數(shù)(item response function, IRF)及其中參數(shù)含義詳見Maris (1999)和詹沛達等(2015); 而C-M2PLM的IRF及其中參數(shù)含義詳見Reckase (2009)。
C-M2PLM在建構之初實為一種探索性(exploratory)模型(Embretson & Yang, 2013), 即假設K維潛在特質(zhì)均對題目i的正確作答概率產(chǎn)生影響。這相當于探索性因素分析中假設所有潛在變量均在觀察變量(作答)上有載荷(區(qū)分度)。然后根據(jù)每個維度上的區(qū)分度參數(shù)估計值來判斷該維度是否對該題目的正確作答概率產(chǎn)生影響, 若無影響則該維度上的區(qū)分度參數(shù)接近于0。在CDMs中Q矩陣為一種驗證性矩陣(confirmatory matrix), 用于指定題目和維度之間的關系, 可以簡化模型及參數(shù)估計的復雜性。借鑒該優(yōu)點, 可通過在探索性C-M2PLM(exploratory C-M2PLM)中引入Q矩陣來限定題目與各維度潛在特質(zhì)之間的關系, 進而得到驗證性的C-M2PLM (記為CC-M2PLM), 則CC-M2PLM的IRF可被描述為:
式中pni1表示被試n在題目i上的正確作答概率,δi=(δi1,δi2,...,δiK)’是K×1維的題目區(qū)分度參數(shù)向量,θn=(θn1,θn2,...,θnK)’是K×1維的潛在特質(zhì)參數(shù)向量(通常θnk∈(-3, 3)),di是截距參數(shù)。類似對模型引入驗證性矩陣的做法亦可參見Embretson和Yang(2013)、Wang和Nydick (2015)。對比LLM和CC-M2PLM可發(fā)現(xiàn), 僅從IRF上來看兩者完全一樣且均屬于驗證性模型范疇。當然, 由于兩者分別屬于MIRTMs和CDMs, 所以兩者的主要差異體現(xiàn)在對潛在變量的量化描述方式上:CC-M2PLM中一般假設K維潛在特質(zhì)滿足多元正態(tài)分布, 即; 而LLM中假設潛在特質(zhì)向量滿足狄利克雷(Dirichlet)分布, 即假設1×K維屬性模式從2K種屬性模式中按某種概率抽取。這導致兩種模型中的被試參數(shù)量尺是不同的, 因此為了實現(xiàn)CC-M2PLM的認知診斷功能就需要對CC-M2PLM中的被試參數(shù)進行某種轉換(詳見2.2節(jié))。
本研究旨在探究模型的認知診斷功能, 所以相對于題目參數(shù)返真性而言, 我們更關注被試參數(shù)的估計返真性。另外, 鑒于這兩類模型中題目參數(shù)的含義不同, 缺乏直接比較的意義。所以下文不再呈現(xiàn)題目參數(shù)的估計結果。而這兩類模型中的題目參數(shù)之間是否存在關系、存在哪種關系, 值得今后進行進一步的探究。
CDMs與MIRTMs的主要差異在于對同一潛變量使用了不同的量尺進行刻畫。在CC-MIRTMs中假設潛變量為連續(xù)變量, 而CDMs中假設潛變量為離散變量, 所以為使兩者具有可比性同時使CC-MIRTMs具有認知診斷功能, 就需要對CC-MIRTMs的潛變量進行轉換。對此, 可以嘗試使用切點(cutoff point,CP)法:當連續(xù)的潛在特質(zhì)值大于等于CP時, 可判斷被試掌握該潛在特質(zhì); 否則判斷被試未掌握該特質(zhì)。在DCM中, CP法通常被用于生成具有相關性的屬性(Chiu, Douglas, & Li, 2009; Wang, Chang, &Huebner, 2011; 詹沛達等, 2016), 如下:
式中,θnk為被試n的第k維潛在特質(zhì)值,CPk表示第k維潛在特質(zhì)上的切點,表示由被試n的第k維潛在特質(zhì)值轉換得到的掌握狀態(tài)。而且為了與CDMs中的屬性(αnk)進行區(qū)分, 下文稱為跨界屬性(transborder attributes)。具體的切點選擇方法詳見3.3節(jié)。
由于式(2)僅是對被試潛在特質(zhì)的一個轉換,并不涉及參數(shù)估計過程, 所以該方法可能具有如下優(yōu)勢:(1)可以同時報告具體潛在特質(zhì)值和掌握狀態(tài),可滿足不同的測驗目的; (2)被試潛在特質(zhì)參數(shù)與題目參數(shù)的量尺并未發(fā)生變化, 已有的MIRTMs題庫可繼續(xù)使用; (3)相比于CDMs, 對MIRTMs進行參數(shù)估計的軟件相對更為成熟和豐富, 可直接使用;(4)所有MIRTMs中的統(tǒng)計指標均可直接使用; (5)模擬研究中可借助CDMs中的部分相關統(tǒng)計指標來對參數(shù)估計返真性進行探究, 比如采用屬性判準率來評估被試參數(shù)的返真性。
模擬研究將以具有認知診斷功能的LLM為“真實”模型來生成作答數(shù)據(jù), 并視其為診斷測驗數(shù)據(jù),并同時采用CC-M2PLM和LLM來擬合數(shù)據(jù)。診斷分析結果以LLM的診斷結果為基線, 進而探究CC-M2PLM與LLM的診斷結果之間的近似程度。如果兩者的診斷結果非常接近甚至幾乎一致, 則可說明CC-M2PLM具有較好的認知診斷功能; 反之,若兩者的診斷結果差異非常大, 則說明CC-M2PLM的認知診斷功能有限。因為本研究需采用式(2)對CC-M2PLM的潛在特質(zhì)估計值進行劃分, 而不同的切點設定可能會導致潛在特質(zhì)被轉換為不同的跨界屬性, 本文先通過一個預研究以尋找合適的切點。
選取主要影響被試參數(shù)估計的三個因素作為自變量:(1)屬性數(shù)量K:少(3)、中(5)、多(7); (2)屬性間四分相關(tetrachoric correlation)系數(shù)ρ:低(0.3)、中(0.65)、高(0.9); (3)題目數(shù)量I:少(15)、中(30)、多(60)。
設定被試數(shù)量為N=3000, 按如下方法生成被試屬性:(1)依據(jù)多元正態(tài)分布MVNK(0, Σ)生成K維連續(xù)變量矩陣; (2)設定各連續(xù)變量滿足標準正態(tài)分布, 之后以0為切點對各連續(xù)變量進行兩段切割;(3)通過設定Σ矩陣來調(diào)控各多分屬性之間的四分相關。另一方面, 設定所有題目的猜測概率均為0.1,非失誤均為0.9。由于LLM采用logit連接函數(shù), 所以需要把所有題目的截距參數(shù)均設定為-2.197, 題目i對屬性k的權重參數(shù)設定為。
在診斷測驗中, 可達矩陣R是實現(xiàn)對每個屬性準確診斷的前提條件(丁樹良, 楊淑群, 汪文義,2010)。因為本研究不考慮屬性層級結構假設(Leighton, Gierl, & Hunka, 2004), 所以R矩陣為單位陣。本研究設定:(1)每個測驗Q矩陣中有且僅包含2個R矩陣(依據(jù)屬性數(shù)量分別有6、10、14題); (2)測驗Q矩陣中除2個R矩陣以外的行隨機從(2K?1)種不含全0模式的屬性模式中隨機抽取;(3)盡量保證每個屬性在所有題目上的平均考查次數(shù)相等。
采用R軟件(version 3.2.2 64-bit; R Core Team,2015)自編程序進行模擬作答生成。根據(jù)各參數(shù)“真值”和LLM計算被試n在題目i上的正確作答概率pni1,則被試作答服從伯努利分布,。本研究使用R軟件中的mirt包(Version 1.14;Chalmers et al., 2015)和CDM包(Version 4.6-0;Robitzsch, Kiefer, George, & Uenlue, 2015)分別對CC-M2PLM和LLM進行參數(shù)估計。對于LLM, 選用默認的EM算法; 而對于CC-M2PLM, 由于涉及高維計算(MIRTMs在參數(shù)估計過程中涉及對協(xié)方差矩陣進行估計, 所以目前5維或7維對于一般的EM算法來說非常具有挑戰(zhàn)性), 這里我們選用相對更適合的MH-RM算法(Cai, 2010)。附錄部分呈現(xiàn)了對這兩個程序包的具體設定, 供實際測驗分析者參考。本研究對整個模擬過程重復30次, 以減少隨機誤差影響。
本研究采用屬性判準率(ACCR)和屬性模式判準率(PCCR)作為被試參數(shù)估計返真性的評價指標(Chen, Xin, Wang, & Chang, 2012)。注意在使用ACCR和PCCR探究CC-M2PLM的被試參數(shù)返真性前, 需先采用式(2)將潛在特質(zhì)估計值轉換為跨界屬性估計值, 具體的切點設置方法詳見3.3節(jié)。
Templin和Bradshaw (2013)指出使用CDMs分析由IRMs生成的作答數(shù)據(jù)時, CDMs會按照IRT量尺上的0點把潛在特質(zhì)θ劃分為掌握和未掌握兩類。對此, 本文簡單重復Templin和Bradshaw (2013)的研究, 并作為預研究以探究適合本研究的切點:即使用CC-M2PLM生成作答數(shù)據(jù)并使用LLM去分析該數(shù)據(jù)。由于是預研究, 本文將簡化其實驗條件(K=3、N=3000、I=30、ρ =0.2), 則, 其中
預研究結果如圖1所示, 這與Templin和Bradshaw (2013)的結論基本一致, 即被試的潛在特質(zhì)“真值”大體上是以0點為分界線被估計為和兩類。
由于數(shù)據(jù)本身沒有發(fā)生變化, 則隱藏在該數(shù)據(jù)背后的潛在建構(即潛變量)也沒有發(fā)生變化, 所以即便我們使用不同的數(shù)據(jù)分析方法或模型去量化該潛變量(即刻畫在不同的量尺上), 這些量化數(shù)值之間也必定存在某種數(shù)學轉換關系。我們可嘗試從量尺角度來看切點選擇的問題, 可以對logistic量尺上的值(θ)進行轉換, 將其轉換到0~1量尺上:, 此時δ所在的0~1量尺其實就是屬性掌握概率量尺(Zhan, Wang, Bian et al., 2016; 詹沛達, 邊玉芳, 2015)。通常, 在該量尺下可以以0.5為切點將屬性掌握概率轉換為0和1的屬性掌握狀態(tài)(de la Torre & Douglas, 2004)。可發(fā)現(xiàn)當δ=0.5時,有θ=0, 這與上述預研究中得到被試潛在特質(zhì)“真值”大體上以logistic量尺上的0點為分界線的結果相符。那么, 基于上述結果且為簡化研究又不失一般性, 下文正式模擬研究將在IRT的logistic量尺上設定所有維度的切點相等:CPk=0, 即當潛在特質(zhì)為正值時, 跨界屬性為1 (掌握)。
圖1 使用LLM去估計由CC-M2PLM生成的作答數(shù)據(jù)的結果
表1中列出了分別使用LLM和CC-M2PLM去擬合由LLM生成的診斷測驗數(shù)據(jù)的結果(限于篇幅僅列出K=7的結果, 其余條件詳見圖2)。首先, 可以看到無論是在哪種實驗條件下, CC-M2PLM的ACCR和PCCR指標值與作為“真實”模型的LLM的指標值是基本一致的, 且絕大多數(shù)差異都在千分位上。其次, 各自變量條件對CC-M2PLM和LLM的診斷結果影響也是一致的。根據(jù)表1和圖2中結果, 足以說明通過式(2)對CC-M2PLM中被試潛在特質(zhì)估計值進行轉換, 確實能夠使CC-M2PLM展現(xiàn)出其本有的認知診斷功能, 且其認知診斷表現(xiàn)與LLM的認知診斷表現(xiàn)幾乎一致。另外, 我們并沒有直接探究CC-M2PLM的參數(shù)估計返真性問題, 原因是:(1)本文旨在探討CC-M2PLM的認知診斷功能, 因此直接分析一個診斷測驗數(shù)據(jù)更符合主題;(2)用LLM去擬合LLM本身生成的數(shù)據(jù)其參數(shù)估計返真性不是問題, 那么用CC-M2PLM去擬合同一批數(shù)據(jù)能夠得到與LLM相一致的結果也足以說明CC-M2PLM的參數(shù)返真性較好。
表1 LLM與CC-M2PLM的被試參數(shù)估計返真性(K=7)
圖2 LLM與CC-M2PLM的被試參數(shù)估計返真性(PCCR, K=3 & 5)
如上文所述, CC-M2PLM除了能給出“掌握”或“未掌握”的診斷結果外, 還能夠給出被試潛在特質(zhì)的具體估計值。表2呈現(xiàn)了(在K=3、ρ=0.3、I=30的條件下)4名被試的潛在特質(zhì)維度估計值和相對應的屬性模式估計結果, 以被試3和4為例, 盡管兩者的跨界屬性(模式)一致, 但相對更為精準的潛在特質(zhì)估計值還是存在些許差異。此外, 我們還在[?0.5, 0.5]范圍內(nèi)為CPk選取11個節(jié)點, 并分別計算轉換后的跨界屬性的返真性, 結果表明CPk=0時的ACCR和PCCR均為最高, 而其他CPk設定均會降低CC-M2PLM的判準率。
表2 CC-M2PLM與LLM的被試參數(shù)估計值對比
綜上所述, 模擬研究結果表明使用式(2)將潛在特質(zhì)轉換為跨界屬性后, 再使用CC-M2PLM分析診斷測驗數(shù)據(jù)的方法具有可行性。這為下文實證數(shù)據(jù)分析提供了前提保證。
實證數(shù)據(jù)分析包含兩個子研究, 分屬于數(shù)學和英語測驗數(shù)據(jù)。模型-數(shù)據(jù)擬合指標涉及:標準化殘差均方根(SRMR)、近似誤差均方根(RMSEA)、Tucker-Lewis指數(shù)(TLI)、比較擬合指數(shù)(CFI)、-2×log(likelihood) (即2LL)、AIC以及BIC。
選用de la Torre (2009)一文中對分數(shù)減法(fraction subtraction)數(shù)據(jù)(Tatsuoka, 2002)的描述, Q矩陣見圖3。該數(shù)據(jù)中I=15、K=5、N=536。同樣使用LLM、CC-M2PLM與DINA去擬合該數(shù)據(jù)。
表3給出了模型?數(shù)據(jù)擬合指標值。3個模型的SRMR指標值分別為0.090、0.094和0.103, 表明模型-數(shù)據(jù)擬合勉強可被接受。綜合4個擬合指標(SRMR < 0.1、RMSEA < 0.05、TLI > 0.9、CFI > 0.9)可知CC-M2PLM對分數(shù)減法數(shù)據(jù)具有較好的擬合結果。CC-M2PLM的?2LL、AIC和BIC在3個模型中均最小, 說明CC-M2PLM對該數(shù)據(jù)的擬合結果相對最好。LLM對該數(shù)據(jù)的擬合結果優(yōu)于DINA。
表4呈現(xiàn)了隨機選取的5名被試的潛在特質(zhì)維度估計值和相對應的跨界屬性(模式), 以被試135和415為例, 盡管兩者的跨界屬性(模式)一致, 但相對更為精準的潛在特質(zhì)估計值仍存在差異。被試2和57的潛在特質(zhì)估計值完全一致, 這因為兩者的作答模式完全一致。從這兩組被試的結果可以看出,當作答模式存在些許差異時(被試135錯誤作答所有題目, 而被試415僅正確作答了第5題), 跨界屬性(模式)或由LLM估計得到的屬性(模式)估計值都無法精準地區(qū)分他們, 而基于CC-M2PLM估計得到的潛在特質(zhì)估計值卻能夠在跨界屬性(模式)的基礎上更精準地區(qū)分他們:第5題僅考查屬性3, 被試135和415的潛在特質(zhì)估計值也可發(fā)現(xiàn)差值最大的為屬性3; 而當作答模式完全一致時, 即便更為精準的潛在特質(zhì)估計值也可以得到相同的估計值。
本研究實證數(shù)據(jù)來自ECPE (Examination for the Certificate of Proficiency in English)。該數(shù)據(jù)中I=28、K=3、N=2922。Q矩陣見圖4, 其中α1到α3分別代表:句法規(guī)則(morphosyntactic rules)、銜接規(guī)則(cohesive rules)和詞匯規(guī)則(lexical rules)。分別使用屬于補償模型的LLM和CC-M2PLM與屬于連接模型的DINA去擬合該數(shù)據(jù)。
圖3 分數(shù)減法數(shù)據(jù)的Q矩陣(K × I 的Q’矩陣。其中, “灰色”為1, “空白”為0)
表3 分數(shù)減法數(shù)據(jù)的模型?數(shù)據(jù)擬合結果
表4 分數(shù)減法數(shù)據(jù)的診斷報告樣例
圖4 ECPE數(shù)據(jù)的Q矩陣(K × I 的Q’矩陣。其中, “灰色”為1, “空白”為0)
表5 ECPE數(shù)據(jù)的模型-數(shù)據(jù)擬合結果
表5給出了模型-數(shù)據(jù)擬合指標值。3個模型的SRMR指標值分別為0.020、0.032和0.033, 表明模型-數(shù)據(jù)擬合理想。對CC-M2PLM而言, RMSEA <0.05、TLI > 0.95、CFI > 0.95, 結合SRMR指標后表明CC-M2PLM的模型-資料擬合情況理想。CC-M2PLM的?2LL、AIC和BIC在3個模型中均最小, 說明CC-M2PLM對該數(shù)據(jù)的擬合結果相對最好。LLM對該數(shù)據(jù)的擬合結果優(yōu)于DINA, 表明該數(shù)據(jù)中的3個屬性之間更傾向是補償關系而非連接關系。
本文首先介紹兩個分別隸屬于MIRTMs和CDMs的驗證性補償模型:CC-M2PLM和LLM。其次, 為兩者具有可比性, 本文嘗試性地把CC-M2PLM中的潛在特質(zhì)轉換為屬于分類變量的跨界屬性, 以期具體化其認知診斷功能。然后, 通過模擬研究探究CC-M2PLM的認知診斷功能, 結果表明CC-M2PLM可用于診斷測驗數(shù)據(jù)分析, 其認知診斷功能與LLM一樣好。最后, 以兩則實證診斷測驗數(shù)據(jù)為例來探究CC-M2PLM的實際應用性。當然任何事物都是相對而言的, 使用MIRTMs也需要付出諸如相對更長的參數(shù)估計耗時、題目參數(shù)與CDMs中的題目參數(shù)含義存在差異等代價。
由于篇幅有限且為聚焦研究主題, 本文對部分研究條件做了簡化或限定:(1)Q矩陣界定正確; (2)被試數(shù)量固定; (3)僅考慮MIRTMs中的兩參數(shù)模型等, 而這些限定的研究條件也均可能是判準率的影響因素, 開放這些條件后MIRTMs的表現(xiàn)如何值得進一步探究。另外, 本研究未關注題目參數(shù), 主要原因在于MIRTMs中的題目參數(shù)與CDMs中的題目參數(shù)之間的關系還有待進一步探究。再有, 本研究僅關注補償模型, 而非補償(i.e., 部分補償和連接)模型的認知診斷功能也值得探究。
Bolt, D. M., & Lall, V. F. (2003). Estimation of compensatory and noncompensatory multidimensional item response models using Markov chain Monte Carlo.Applied Psychological Measurement, 27, 395–414.
Bradshaw, L., & Templin, J. (2014). Combining item response theory and diagnostic classification models: A psychometric model for scaling ability and diagnosing misconceptions.Psychometrika, 79, 403–425.
Cai, L. (2010). Metropolis-Hastings Robbins-Monro algorithm for confirmatory item factor analysis.Journal of Educational and Behavioral Statistics, 35, 307–335.
Chiu, C., Douglas, J., & Li, X. (2009). Cluster analysis for cognitive diagnosis: theory and applications.Psychometrika, 74, 633–665.
Chen, P., Xin, T., Wang, C., & Chang, H.-H. (2012). Online calibration methods for the DINA model with independent attributes in CD-CAT.Psychometrika, 77, 201–222.
Chalmers, P., Pritikin, J., Robitzsch, A., Zoltak, M., Kim, K.,Falk, C. F., & Meade, A. (2015).mirt: Multidimensional Item Response Theory. R package version 1.14, URL http://CRAN.R-project.org/package=mirt
de la Torre, J. (2009). DINA model and parameter estimation:A didactic.Journal of Educational and Behavioral Statistics,34, 115–130.
de la Torre, J. (2011). The generalized DINA model framework.Psychometrika, 76, 179–199.
de la Torre, J., & Douglas, J. (2004). Higher-order latent trait models for cognitive diagnosis.Psychometrika, 69, 333–353.
Ding, S. L., Yang, S. Q., & Wang, W. Y. (2010). The importance of reachability matrix in constructing cognitively diagnostic testing.Journal of Jiangxi Normal University (Natural Sciences Edition), 34, 490–494.
[丁樹良, 楊淑群, 汪文義. (2010). 可達矩陣在認知診斷測驗編制中的重要作用.江西師范大學學報(自然科學版),34, 490–494.]
Embretson, S. E., & Yang, X. D. (2013). A multicomponent latent trait model for diagnosis.Psychometrika, 78, 14–36.
Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory.Applied Psychological Measurement, 25(3), 258–272.
Henson, R. A., Templin, J. L., & Willse, J. T. (2009). Defining a family of cognitive diagnosis models using log-linear models with latent variables.Psychometrika, 74, 191–210.
Huang, H. Y., & Wang, W. C. (2014). The random-effect DINA model.Journal of Educational Measurement, 51,75–97.
Karelitz, T. M. (2004).Ordered category attribute coding framework for cognitive assessments(Unpublished doctorial dissertation). University of Illinois at Urbana– Champaign.
Leighton, J. P., Gierl, M. J., & Hunka, S. M. (2004). The attribute hierarchy method for cognitive assessment: A variation on Tatsuoka’s rule-space approach.Journal of Educational Measurement, 41, 205–237.
Li, X. M., & Wang, W.-C. (2015). Assessment of differential item functioning under cognitive diagnosis models: The DINA model example.Journal of Educational Measurement, 52,28–54.
Maris, E. (1999). Estimating multiple classification latent class models.Psychometrika, 64, 187–212.
R Core Team. (2015).R: A language and environment for statistical computing(Version 2.15.1) [Computer Software].Vienna, Austria: R Foundation for Statistical Computing.Available from http://www.R-project.org/
Reckase, M. (2009).Multidimensional item response theory.New York: Springer.
Robitzsch, A., Kiefer, T., George, C. A., & Uenlue, A. (2015).CDM: Cognitive Diagnosis Modeling. R package version 4.6-0, URL http://CRAN.R-project.org/package=CDM
Stout, W. (2007). Skills diagnosis using IRT-based continuous latent trait models.Journal of Educational Measurement,44, 313–324.
Sun, J., Xin, T., Zhang, S. M., & de la Torre, J. (2013). A polytomous extension of the generalized distance discriminating method.Applied Psychological Measurement,37, 503–521.
Tatsuoka, C. (2002). Data analytic methods for latent partially ordered classification models.Journal of the Royal Statistical Society: Series C (Applied Statistics), 51, 337–350.
Tatsuoka, K. K. (1983). Rule space: An approach for dealing with misconceptions based on item response theory.Journal of Educational Measurement, 20, 345–354.
Templin, J., & Bradshaw, L. (2013). Measuring the reliability of diagnostic classification model examinee estimates.Journal of Classification, 30, 251–275.
Templin, J., & Bradshaw, L. (2014). Hierarchical diagnostic classification models: A family of models for estimating and testing attribute hierarchies.Psychometrika, 79, 317–339.
von Davier, M. (2005).A general diagnostic model applied to language testing data(ETS Research Report no. RR-05-16).Princeton, NJ: Educational Testing Service.Wang, C., Chang, H.-H., & Huebner, A. (2011). Restrictive stochastic item selection methods in cognitive diagnostic computerized adaptive testing.Journal of Educational Measurement, 48, 255–273.Wang, C., & Nydick, S. W. (2015). Comparing two algorithms for calibrating the restricted non-compensatory multidimensional IRT model.Applied Psychological Measurement, 39, 119–134.
Zhan, P. D., & Bian, Y. F. (2015). The probabilistic-inputs,noisy “and” gate model.Psychological Science, 38, 1230–1238.
[詹沛達, 邊玉芳. (2015). 概率性輸入, 噪音“與”門(PINA)模型.心理科學, 38, 1230–1238.]
Zhan, P. D., Bian, Y. F., & Wang, L. J. (2016). Factors affecting the classification accuracy of reparametrized diagnostic classification models for expert-defined polytomous attributes.Acta Psychologica Sinica, 48, 318–330.
[詹沛達, 邊玉芳, 王立君. (2016). 重參數(shù)化的多分屬性診斷分類模型及其判準率影響因素.心理學報, 48, 318–330.]
Zhan, P. D., Li, X. M., Wang, W.-C., Bian, Y.-F., & Wang, L. J.(2015). The multidimensional testlet-effect cognitive diagnostic models.Acta Psychologica Sinica, 47, 689–701.
[詹沛達, 李曉敏, 王文中, 邊玉芳, 王立君. (2015). 多維題組效應認知診斷模型.心理學報, 47, 689–701.]
Zhan, P. D., Wang, W.-C., Bian, Y. F., & Li, X. M. (2016).Higher-order cognitive diagnostic models for polytomous latent attributes. Paper presented at the annual meeting of the National Council on Measurement in Education,Washington, DC.
Zhan, P. D., Wang, W.-C., Li, X. M., & Bian, Y. F. (2016).The probabilistic-inputs, noisy conjunctive model for cognitive diagnosis. Paper presented at the annual meeting of the American Educational Research Association, Washington,DC.
附錄:模擬研究參數(shù)估計程序(以K=3、I=15為例)
1 LLM
R> library (CDM) #載入CDM包
R> Qmatrix <- read.table ("Q3.txt") #讀取Q矩陣
R> Data <- read.table ("data.txt”) #讀取作答數(shù)據(jù)
R> LLM <- gdina (data=Data, q.matrix=Qmatrix, rule="ACDM", linkfct="logit") #ACDM與LLM差異在于連接函數(shù)不同
R> attribute <- IRT.factor.scores (LLM, type="MAP") #讀取被試屬性估計值, 選用MAP方法
R> itempar <- LLM $ coef [, c (1,2,3,6,7) ]) #讀取題目參數(shù)估計值, 原文未呈現(xiàn)
R> summary (LLM) #輸出諸如參數(shù)估計數(shù)量、模型-數(shù)據(jù)擬合指標、屬性相關等信息
R> IRT.modelfit (LLM) #輸出模型-數(shù)據(jù)擬合指標, 如SRMR、AIC、BIC等
2 CC-M2PLM
R> library (mirt) #載入mirt包
R> K<-3 #設定維度數(shù)
R> Q <- matrix(scan("Q3.txt"), ncol=K, byrow=T, dimnames=list(NULL, c('Factor1', 'Factor2', 'Factor3'))) #讀Q矩陣, 維度賦名
R> cc <- 1 - diag(K)
R> COV <- as.matrix(cc==1) #設定維度之間存在相關, 用于參數(shù)估計
R> model <- mirt.model(Q, COV=COV) #依據(jù)Q矩陣, 來界定題目與維度之間的關系
R> Data <- read.table("data.txt”) #讀取作答數(shù)據(jù)
R> CM2PLM <- mirt(data=Data, model=model, method="MHRM", SE=T) #選用MHRM法進行參數(shù)估計
R> theta <- fscores(CM2PLM, method="MAP", full.scores.SE=T) #讀取被試潛在特質(zhì)估計值, 選用MAP方法
R> itempar <- coef(CM2PLM, as.data.frame=T, SE=T) #讀取題目參數(shù)估計值, 原文未呈現(xiàn)
R> M2(CM2PLM) #輸出模型-數(shù)據(jù)絕對擬合指標, 如M2、SRMR、RMSEA等
R> print(CM2PLM) #輸出模型-數(shù)據(jù)相對擬合指標, 如AIC、BIC等
R> CP<- c ( 0, 0, 0) #設定3個維度的切點均為0
R> tb.attribute <- theta
R> for ( k in 1:K) {tb.attribute [ , k ] <- ifelse ( theta [ , k ] > CP [ k ], 1, 0 )} #將潛在特質(zhì)估計值轉換為跨界屬性