摘 要 有效應(yīng)用認知診斷模型(cognitive diagnosis model, CDM)的一個關(guān)鍵步驟是檢查模型和測驗題目是否擬合。盡管已有研究將IRT 中的題目擬合檢驗方法應(yīng)用于CDM 中,然而這些方法在CDM 中的表現(xiàn)仍缺乏系統(tǒng)的比較研究。本研究通過模擬實驗比較了χ 2,G2,S-χ 2,z(r),z(l) 和Stone-Q1 的一類錯誤率和統(tǒng)計檢驗力。實驗結(jié)果顯示,綜合一類錯誤率和統(tǒng)計檢驗力而言,當(dāng)用ACDM 作為生成模型時,z(r) 和z(l) 的效果最優(yōu);當(dāng)生成模型是DINA 或DINO 時,在高質(zhì)量測驗中,z(r) 的表現(xiàn)最好,而在低質(zhì)量測驗中,χ 2 和G2 的表現(xiàn)更好。最后通過一個實測數(shù)據(jù)分析,進一步檢驗了題目擬合檢驗方法的實證應(yīng)用效果。
關(guān)鍵詞 認知診斷模型 題目擬合 一類錯誤率 統(tǒng)計檢驗力
1 引言
認知診斷模型(cognitive diagnosis model,CDM)可以提供關(guān)于每個學(xué)生在學(xué)習(xí)相關(guān)屬性方面的優(yōu)勢和劣勢的重要診斷信息(Li et al., 2020)。盡管CDM 最初是被應(yīng)用于教育評估領(lǐng)域,但它現(xiàn)在正被用于評估其他類型的結(jié)構(gòu),如心理障礙(de laTorre et al., 2018; Xi et al., 2020)和基于情境的能力評估(Sorrel et al., 2016)。當(dāng)前,基于對解決問題過程的不同認知假設(shè),即認知過程、技能或?qū)傩匀绾斡绊憣W(xué)生對項目的作答反應(yīng),已有學(xué)者開發(fā)了不同類型的CDM。像任何基于模型的評估一樣,有效應(yīng)用CDM的關(guān)鍵一步是檢查模型和數(shù)據(jù)的擬合度,即模型預(yù)測與觀察數(shù)據(jù)之間的一致性(Wang et al.,2015)。當(dāng)模型與數(shù)據(jù)不擬合時,使用模型估計的參數(shù)進行推斷的有效性會受到很大的影響。
評估模型和數(shù)據(jù)的擬合,通常需要同時評估測驗水平擬合(test-level fit)和題目水平擬合(item-levelfit)兩個方面。測驗擬合從總體水平上評估模型和數(shù)據(jù)的擬合,測驗擬合通常是比較幾個模型在同一批數(shù)據(jù)的相對擬合(relative fit)統(tǒng)計量。題目擬合用于評估每個題目和模型的擬合度,有助于識別異常題目,通過刪除或修改異常題目將提高整個測驗和模型的擬合水平(Wang et al., 2015)。換句話說,題目水平的擬合分析不僅是對測驗水平擬合的補充檢驗,而且在心理和教育測量工具開發(fā)中也是必不可少的,因為題目擬合結(jié)果將有助于指導(dǎo)題目的修訂或刪除(Liu amp; Maydeu-Olivares, 2014)。
在IRT 框架下,已有大量關(guān)于題目擬合檢驗的研究(Chalmers amp; Ng, 2017; K?hler et al., 2020; Su et"al., 2021; Zhang et al., 2018)。但是,在認知診斷理論下,關(guān)于題目擬合檢驗的研究仍然不多。當(dāng)前,僅有少量研究試著將IRT 中的題目擬合檢驗指標拓展到CDM 中,例如,涂冬波等人(2014)比較了χ 2 和G2 統(tǒng)計量在 DINA 模型的效果;Wang 等人(2015)將 IRT 中的題目擬合指標: Q1 和PD(power-divergence) 等應(yīng)用于 DINA 模型中;Sorrel 等人(2017) 將S -χ 2 應(yīng)用于CDM 中;Chen 等人(2013)將基于題目對(item pairs)的統(tǒng)計量應(yīng)用于CDM 中。然而,一方面,已有的研究主要集中在DINA 模型下,比較傳統(tǒng)題目擬合方法的效果,而這些題目擬合方法在其他CDM 下的效果如何,仍值得探討;另一方面,上述這些題目擬合方法都屬于絕對題目擬合(absolute item fit)指標,絕對題目擬合在實際應(yīng)用中也是最常用的一類模型擬合評價方法,例如在IRT 的應(yīng)用中,有大量的研究使用S -χ 2 指標來評估題目擬合(Acevedo-Mesa et al., 2020; Flens et al., 2019)。盡管這些絕對題目擬合方法已被初步應(yīng)用于CDM 中,但這些方法在CDM 的效果仍缺乏系統(tǒng)比較,在CDM 的題目擬合檢驗中,這些指標的效果如何?面對不同的測驗情境,該如何選擇最佳的題目擬合檢驗指標?因此,本研究旨在不同的實驗條件下,系統(tǒng)比較這些絕對題目擬合方法在CDM 的表現(xiàn),從而為實際使用者在題目擬合方法的選用上提供有價值的參考。