宋麗紅,汪文義,戴海琦,丁樹良
(1.江西師范大學(xué)初等教育學(xué)院,南昌 330022;2.江西師范大學(xué)計算機(jī)信息工程學(xué)院,南昌 330022;
3.江西師范大學(xué)心理學(xué)院,南昌 330022)
?
認(rèn)知診斷模型下整體和項目擬合指標(biāo)*
宋麗紅1,汪文義2,戴海琦3,丁樹良2
(1.江西師范大學(xué)初等教育學(xué)院,南昌 330022;2.江西師范大學(xué)計算機(jī)信息工程學(xué)院,南昌 330022;
3.江西師范大學(xué)心理學(xué)院,南昌 330022)
摘要:認(rèn)知診斷模型能否擬合測驗數(shù)據(jù),直接決定診斷結(jié)果的準(zhǔn)確性。目前國內(nèi)鮮有研究涉及認(rèn)知診斷測驗下的模型-資料擬合檢驗。文章將模型整體擬合指標(biāo)及基于PPMC的項目擬合指標(biāo)應(yīng)用于認(rèn)知診斷模型-資料擬合檢驗。模擬研究基于DINA,R-DINA和R-RUM三個診斷模型檢驗各擬合指標(biāo)的表現(xiàn)。結(jié)果顯示整體和項目擬合指標(biāo)在識別數(shù)據(jù)產(chǎn)生模型時皆有較高準(zhǔn)確率。采用整體和項目擬合指標(biāo)比較了三個競爭模型與Tatsuoka帶分?jǐn)?shù)減法數(shù)據(jù)的擬合情況,顯示R-RUM擬合最好。
關(guān)鍵詞:認(rèn)知診斷模型;DINA;R-DINA;R-RUM;后驗預(yù)測模型檢查;帶分?jǐn)?shù)減法數(shù)據(jù)
1引言
認(rèn)知診斷評估是認(rèn)知心理學(xué)與心理計量學(xué)相結(jié)合的產(chǎn)物,是21世紀(jì)一種新的測量范式。認(rèn)知診斷模型是描述可觀察反應(yīng)與潛在認(rèn)知屬性之間關(guān)系的統(tǒng)計模型,對認(rèn)知診斷評估至關(guān)重要。為了滿足不同情境下實際應(yīng)用需求,研究者開發(fā)出了眾多認(rèn)知診斷模型。相關(guān)文獻(xiàn)顯示,截止到2007年,已有診斷模型超過60個(Fu & Li,2007),而之后又涌現(xiàn)出了不少診斷模型(陳秋梅,張敏強(qiáng),2010;R-DINA,宋麗紅,戴海琦,汪文義,丁樹良,2012)。
在認(rèn)知診斷實踐中,選擇恰當(dāng)?shù)恼J(rèn)知診斷模型是對被試準(zhǔn)確診斷或分類的重要前提(Rupp,Templin,& Henson,2010)。對于特定的診斷測驗,診斷模型的選擇要依據(jù)心理學(xué)或教育學(xué)的理論假設(shè),如模型假設(shè)與測驗作答心理認(rèn)知過程的匹配性(楊向東,2010;Kunina-Habenicht,Rupp,& Wilhelm,2012),測驗Q矩陣與測驗作答所需屬性及屬性結(jié)構(gòu)的吻合性(丁樹良,毛萌萌,汪文義,羅芬,Cui,2012;涂冬波,蔡艷,戴海琦,2013;Chen,Torre,& Zhang,2013;Kunina-Habenicht et al.,2012)。根據(jù)理論假設(shè)確定一個或幾個競爭模型后,需要對診斷模型的模型-資料擬合情況進(jìn)行考察與評估。
從現(xiàn)有資料來看,國內(nèi)外公開發(fā)表的認(rèn)知診斷評估框架下模型-資料擬合研究仍不為多見。Chen等人提出采用-2LL,AIC,BIC和三個殘差指數(shù)識別診斷評估框架下的模型-資料擬合情況(Chen,Torre,& Zhang,2013)。涂冬波、張心、蔡艷和戴海琦(2014)討論了χ2和G2統(tǒng)計量在認(rèn)知診斷模型-資料擬合檢驗中的可行性及效果。然而χ2和G2統(tǒng)計量及Chen等人提出的指標(biāo)都存在需要確定統(tǒng)計量理論分布的問題。Sinharay等人構(gòu)建了基于后驗預(yù)測模型檢查方法(PPMC,Rubin,1984)的檢驗統(tǒng)計量PPP值(posterior predictive p-value,PPP-value)并用于考察貝葉斯網(wǎng)與測驗資料的擬合情況(Sinharay,2006;Sinharay & Almond,2007)。由于基于PPMC方法計算的檢驗統(tǒng)計量PPP值,無需確定統(tǒng)計量分布,因此具有較好的應(yīng)用前景。但Sinharay和Almond(2007)沒有進(jìn)一步對診斷測驗下其指標(biāo)的性能與表現(xiàn)進(jìn)行模擬研究,仍無法確定PPP值統(tǒng)計量在認(rèn)知診斷測驗中的檢驗性能。
2模型資料擬合指標(biāo)
2.1整體相對擬合指標(biāo)
此處簡要介紹基于缺失數(shù)據(jù)的整體相對擬合指標(biāo):偏差-2LL,AIC,BIC,DIC4。指標(biāo)越小,表示模型資料擬合越好。各指標(biāo)計算如下:
AIC=-2LL+2d
BIC=-2LL+dlogN
其中-2LL是對數(shù)似然函數(shù)的條件期望,AIC,BIC 和DIC4在考慮偏差的基礎(chǔ)上,還考慮模型參數(shù)多少以懲罰復(fù)雜模型,pD4表示模型的有效參數(shù)個數(shù)或有效維度(Celeux et al.,2006)。
2.2項目及測驗絕對擬合指標(biāo)
其對應(yīng)的項目或測驗PPP值可類似計算得到,PPP值越大顯示模型-資料擬合越好。
2.2.2Yen統(tǒng)計量
3模擬研究
3.1實驗設(shè)計
模擬研究目的是驗證上述模型整體擬合統(tǒng)計量和項目擬合統(tǒng)計量的偵測性能。模擬采用的項目Q陣含5個相互獨立屬性、30個項目(其中考察1個、2個、3個屬性的項目數(shù)各為10個)。知識狀態(tài)全集數(shù)為32,每種知識狀態(tài)模擬60人,共模擬1920個被試。由于模型存在差異,DINA模型和R-DINA模型的失誤和猜測參數(shù)為:1-s~4-Beta(0.4,1,2,1)和g~4-Beta(0,0.6,1,2),而R-RUM模型中參數(shù)分別為:π~U(0.8,0.98)和r~U(0.1,0.6)。固定Q陣和被試,分別采用DINA,R-DINA和R-RUM(產(chǎn)生數(shù)據(jù)模型,或稱真實模型)模擬得分陣。然后對各批得分陣數(shù)據(jù),分別使用DINA,R-DINA和R-RUM進(jìn)行分析(分析數(shù)據(jù)模型,或稱擬合模型),三個模型均采用MCMC估計,各采用5條鏈,每條鏈長設(shè)置為5000,保留后面4000。
3.2實驗結(jié)果及結(jié)論
3.2.1MCMC收斂檢查
3.2.2整體擬合指標(biāo)表現(xiàn)
表1列出了各情形下相對擬合指標(biāo)DIC4及絕對擬合指標(biāo)G2的測驗PPP值。在DIC4的計算結(jié)果中,對角線元素皆為其所在列最小值,可見DIC4指標(biāo)能正確識別數(shù)據(jù)產(chǎn)生模型。-2LL、AIC和BIC表現(xiàn)類似(結(jié)果未列出)。觀察絕對擬合指標(biāo)G2的測驗PPP值,發(fā)現(xiàn)對角線元素皆為其所在列最大值。由于PPP值越大模型擬合越好,表中數(shù)據(jù)表明基于PPMC的G2檢驗法能較好地識別數(shù)據(jù)產(chǎn)生模型。
表1 模擬數(shù)據(jù)整體擬合指標(biāo)
注:左表頭第一列表示分析數(shù)據(jù)模型,上表頭第二行表示產(chǎn)生數(shù)據(jù)模型
表2 模擬數(shù)據(jù)項目擬合指標(biāo)表現(xiàn)
注:左表頭第二列表示分析數(shù)據(jù)模型,上表頭第二行表示產(chǎn)生數(shù)據(jù)模型
3.2.3項目擬合指標(biāo)表現(xiàn)
表2列出了項目擬合指標(biāo)的表現(xiàn)。在0.01顯著性水平上,基于PPMC的χ2檢驗法拒真率為0;納偽率稍大。尤其R-DINA和R-RUM模型之間的納偽概率較大,這是可能因為R-RUM假設(shè)比R-DINA弱,R-DINA模型產(chǎn)生的數(shù)據(jù),R-RUM可全部擬合。R-RUM模型產(chǎn)生的數(shù)據(jù)用R-DINA進(jìn)行分析時,有10個項目發(fā)生錯判。進(jìn)一步考察10個錯判項目和10個判對的項目(排除10個單個屬性項目),該兩批項目R-RUM的rjk參數(shù)標(biāo)準(zhǔn)差的平均值分別為.09和.17。這一錯判結(jié)果在情理之中,因為在屬性同質(zhì)性較高的情況下,R-RUM模型與R-DINA模型區(qū)別不大,且R-DINA模型簡單得多。G2檢驗方法與χ2檢驗方法表現(xiàn)十分接近(結(jié)果未列出)。Yen統(tǒng)計量總體表現(xiàn)較χ2檢驗法稍差,這可能與Yen統(tǒng)計量需要假定統(tǒng)計量分布有關(guān),而基于PPMC的檢驗方法無需理論分布假設(shè)。
4實測數(shù)據(jù)分析
模擬研究結(jié)果顯示模型整體和項目擬合指標(biāo)均表現(xiàn)不錯,但指標(biāo)能否有效應(yīng)用到實測數(shù)據(jù)分析有待考察。為此,研究采用經(jīng)典的Tatsuoka(2002)分?jǐn)?shù)減法測驗數(shù)據(jù),運用前述各項指標(biāo)評價三個診斷模型(DINA,R-DINA,R-RUM)與該測驗數(shù)據(jù)資料的擬合情況。
Tatsuoka隨文公布的分?jǐn)?shù)減法測驗數(shù)據(jù)含20個項目和536個被試。文章按題目內(nèi)容從中抽取15個帶分?jǐn)?shù)減法項目進(jìn)行分析,項目所測屬性為5個(Sinharay & Almond,2007),被試屬性掌握模式為32種。根據(jù)前述模型整體擬合指標(biāo)和項目擬合指標(biāo),下文對三個競爭模與該數(shù)據(jù)資料的擬合情況進(jìn)行比較與評價。參數(shù)估計采用MCMC方法,總鏈長25000,保留后面15000。
4.1MCMC收斂檢查
4.2模型整體擬合
文章首先考察了三個模型的整體相對擬合指標(biāo)-2LL、AIC、BIC和DIC4,結(jié)果顯示,DINA擬合最差,R-DINA與R-RUM各有優(yōu)勢。從DIC4看,R-RUM下DIC4(9157)比R-DINA下DIC4(9211)稍好;但從BIC來看,R-DINA下BIC(9576)較R-RUM BIC(9827)小較多,原因是R-RUM是一個復(fù)雜模型,在BIC指標(biāo)計算中受到了更大的懲罰。Chen等人(2013)的研究結(jié)果也表明,較之DINA模型,R-RUM模型與該批實測數(shù)據(jù)擬合更好。文章接著考察了R-RUM與R-DINA模型的整體絕對擬合指標(biāo)G2的PPP值,R-RUM模型測驗PPP值為0.07,在.05水平上未達(dá)到顯著,表明R-RUM模型擬合較好。R-DINA的整體絕對擬合指標(biāo)G2的PPP值為0.01,絕對擬合欠佳。
4.3模型項目擬合
表3列出了三個模型在各項目上的似然比統(tǒng)計量的后驗預(yù)測P值(卡方統(tǒng)計量的PPP值與之類似,故略)。在0.01顯著性水平上,DINA模型有3個項目不擬合,與Sinharay和Almond(2007)基于χ2值(相當(dāng)于文中Yen統(tǒng)計量)得出的結(jié)果基本類似;R-RUM與R-DINA模型各有1個項目擬合不佳;相比之下,R-RUM的PPP值較大,擬合最好,這與上述模型整體擬合結(jié)果一致。
表3 帶分?jǐn)?shù)減法數(shù)據(jù)之項目似然比統(tǒng)計量的PPP值
5結(jié)論與討論
模型-資料擬合檢驗是模型選擇的重要依據(jù)。然而,模型-資料擬合檢驗雖可為認(rèn)知診斷模型選擇提供一定信息,但模型的選擇不能僅憑模型擬合數(shù)據(jù)的好壞來評判。認(rèn)知診斷模型的選擇需要綜合考慮多方面的因素,如需要充分結(jié)合文獻(xiàn)調(diào)查、學(xué)科專家和口語報告等方法的結(jié)果,評判所測量的領(lǐng)域涉及的認(rèn)知屬性及屬性間關(guān)系、分析被試作答的心理認(rèn)知過程。診斷模型選擇還要結(jié)合模型的復(fù)雜性與解釋性及診斷目的能否充分實現(xiàn)等因素,如單維項目反應(yīng)模型可能可以較好地擬合數(shù)據(jù),但要求其提供豐富的診斷信息還比較困難;在能夠?qū)崿F(xiàn)診斷目的的前提下,簡單模型較復(fù)雜模型參數(shù)估計更容易,解釋性更好。另外,由于認(rèn)知診斷模型不擬合原因的多樣性,仍需構(gòu)建檢查特定不擬合類型的統(tǒng)計量,如對數(shù)機(jī)率比可用于模型局部獨立性檢驗。文章僅考慮了模型整體擬合指標(biāo)和基于知識狀態(tài)等價類的項目水平擬合指標(biāo),被試擬合指標(biāo)及基于原始分?jǐn)?shù)的項目擬合指標(biāo)有待進(jìn)一步探討和比較。最后,認(rèn)知診斷模型提供的診斷信息,是否能真正在教學(xué)中起到作用,有待更多的實證研究去探討。
參考文獻(xiàn)
陳秋梅,張敏強(qiáng).(2010).認(rèn)知診斷模型發(fā)展及其應(yīng)用方法述評.心理科學(xué)進(jìn)展,3,522-529.
丁樹良,毛萌萌,汪文義,羅芬,Cui,Y.(2012).教育認(rèn)知診斷測驗與認(rèn)知模型一致性的評估.心理學(xué)報,44,1535-1546.
漆書青,戴海崎,丁樹良.(2002).現(xiàn)代教育與心理測量學(xué)原理.北京:高等教育出版社.
宋麗紅,戴海琦,汪文義,丁樹良.(2012).R-DINA模型參數(shù)估計EM算法準(zhǔn)確性檢驗.心理學(xué)探新,32,410-413.
涂冬波,蔡艷,戴海琦.(2013).幾種常用非補(bǔ)償型認(rèn)知診斷模型的比較與選用:基于屬性層級關(guān)系的考量.心理學(xué)報,45,243-252.
涂冬波,張心,蔡艷,戴海琦.(2014).認(rèn)知診斷模型-資料擬合檢驗統(tǒng)計量及其性能.心理科學(xué),37,205-211.
楊向東.(2010).測驗項目反應(yīng)機(jī)制與心理測量模型假設(shè)的對應(yīng)性分析.心理科學(xué)進(jìn)展,18,1349-1358.
Brooks,S.P.,& Gelman,A.(1998).General methods for monitoring convergence of iterative simulations.JournalofComputationalandGraphicalStatistics,47(4),434-455.
Celeux,G.,F(xiàn)orbers,F(xiàn).,Robert,C.P.,& Titterington,D.M.(2006).Deviance information criteria for missing data models.BayesianAnalysis,1,651-674.
Chen,J.,Torre,J.D.L.,& Zhang,Z.(2013).Relative and absolute fit evaluation in cognitive diagnosis modeling.JournalofEducationalMeasurement,50,123-140.
Fu,J.B.,& Li,Y.M.(2007).Cognitivelydiagnosticpsychometricmodels:Anintegrativereview.Paper presented at the National Council on Measurement in Education,Chicago,IL.
Junker,B.W.,& Sijtsma,K.(2001).Cognitive assessment models with few assumptions,and connections with nonparametric item response theory.AppliedPsychologicalMeasurement,25,258-272.
Kunina-Habenicht,O.,Rupp,A.A.,& Wilhelm,O.(2012).The impact of model misspecification on parameter estimation and item-fit assessment in log-linear diagnostic classification models.JournalofEducationalMeasurement,49,59-81.
Rubin,D.B.(1984).Bayesianly justifiable and relevant frequency calculations for the applied statistician.AnnalsofStatistics,12,1151-1172.
Rupp,A.A.,Templin,J.L.,& Henson,R.A.(2010).Diagnosticmeasurement:Theory,methods,andapplications.New York:The Guilford Press.
Sinharay,S.(2006).Model diagnostics for bayesian networks.JournalofEducationalandBehavioralStatistics,31,1-33.
Sinharay,S.,& Almond,R.G.(2007).Assessing fit of cognitive diagnostic models:A case study.EducationalandPsychologicalMeasurement,67,239-257.
Tatsuoka,C.(2002).Data analytic methods for latent partially ordered classification models.JournaloftheRoyalStatisticalSociety:SeriesC(AppliedStatistics),51,337-350.
Global Fit Indices and Item-Fit Indices for Cognitive Diagnostic Models
Song Lihong1,Wang Wenyi2,Dai Haiqi3,Ding Shuliang2
(1.Elementary Educational College,Jiangxi Normal University,Nanchang 330022;2.College of Computer Information Engineering,Jiangxi Normal University,Nanchang 330022;3.College of Psychology,Jiangxi Normal University,Nanchang 330022)
Abstract:One key issue in cognitive diagnostic assessement(CDA)is to select a suitable diagnostic model for a specific test.Mismatch between diagnostic model and test data would lead to decreasing classification accuracy.At present,few studies have addressed model-data fit criterion for CDA.Based on posterior predictive model checking(PPMC),this study introduces several global fit indices and item-fit indices for model evaluations in CDA.The global fit indexes may provide information for answering the question as to the utility of the data for analysis by the model.The item-fit indexes are used to determine the interaction between the item responses and skills that each item is designed to measure.Simulation and real-data studies are conducted to examine the performance of these indices on three CDMs.The simulation results indicate that:(1)global fit indices are almost able to identify the simulation models and detect poor-fitting models;(2)the item fit indices were able to identify fitting items and detect poor-fitting items.The results from real-data analysis indicate that:(1)according to BIC and DIC4and global G2,the R-RUM performed best followed by R-DINA model,and DINA model worst;(2)for the number of item fit,the R-RUM and the R-DINA model also outperform the DINA model.
Key words:cognitive diagnostic model;DINA;R-DINA;R-RUM;posterior predictive model checking;fraction subtraction data
中圖分類號:B841.2
文獻(xiàn)標(biāo)識碼:A
文章編號:1003-5184(2016)01-0079-05
通訊作者:宋麗紅,E-mail:viviansong1981@163.com。
*基金項目:全國教育科學(xué)規(guī)劃教育部重點課題(DHA150285)。