亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        認(rèn)知診斷模型資料擬合檢驗(yàn)方法和統(tǒng)計(jì)量*

        2016-02-01 02:10:50劉彥樓
        心理科學(xué)進(jìn)展 2016年12期
        關(guān)鍵詞:被試測驗(yàn)題目

        陳 孚 辛 濤 劉彥樓 劉 拓 田 偉

        (1北京師范大學(xué)心理學(xué)院;2北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心,北京 100875)

        (3曲阜師范大學(xué)中國教育大數(shù)據(jù)研究院,曲阜 273165)(4天津師范大學(xué)教育科學(xué)學(xué)院,天津 300384)

        1 引言

        作為新一代測驗(yàn)理論,認(rèn)知診斷理論在過去的幾十年間成為了測量學(xué)界研究的熱點(diǎn)。認(rèn)知診斷評(píng)價(jià)結(jié)合了認(rèn)知心理學(xué)理論和統(tǒng)計(jì)模型,通過被試在測驗(yàn)中的實(shí)際作答反應(yīng)獲得被試在所考察的認(rèn)知技能(或稱之為“屬性”)上的掌握情況,從而實(shí)現(xiàn)對(duì)個(gè)體知識(shí)結(jié)構(gòu)、加工技能或認(rèn)知結(jié)構(gòu)進(jìn)行診斷評(píng)估(Leighton&Gierl,2007)。通過認(rèn)知診斷模型(cognitive diagnosticmodels,CDM s)對(duì)測驗(yàn)數(shù)據(jù)的分析,被試可獲得其知識(shí)或技能掌握情況的精細(xì)化報(bào)告,使用者也可達(dá)到形成性和診斷性評(píng)價(jià)的目的(Embretson,1998;Tatsuoka,1983)。據(jù)統(tǒng)計(jì),現(xiàn)有的認(rèn)知診斷模型多達(dá)100多種(辛濤,樂美玲,張佳慧,2012),這些模型對(duì)所考察屬性與作答反應(yīng)關(guān)系的假設(shè)往往是不同的。對(duì)于認(rèn)知診斷實(shí)踐而言,如何從眾多模型中選擇合適的模型?又如何評(píng)價(jià)所選的模型與數(shù)據(jù)之間的匹配程度?模型資料擬合檢驗(yàn)?zāi)軌驗(yàn)檫@些決策提供重要的參考指標(biāo)。

        和其它統(tǒng)計(jì)模型的擬合檢驗(yàn)類似,CDM擬合檢驗(yàn)可分為三個(gè)方面:模型資料全局或整體擬合檢驗(yàn)(global/overallmodel-data fit)考察在整體水平上模型是否良好匹配數(shù)據(jù),項(xiàng)目擬合(item fit)檢驗(yàn)考察測驗(yàn)中的部分項(xiàng)目是否擬合所選模型,個(gè)人擬合(person fit)檢驗(yàn)考察參加測驗(yàn)的被試是否適用于所選模型。需特別說明的是,CDM對(duì)被試的診斷分類應(yīng)基于Q矩陣被正確界定的前提下進(jìn)行,因此對(duì)Q矩陣正確性的檢驗(yàn)也應(yīng)納入CDM擬合檢驗(yàn)的一部分,但由于篇幅有限,且Q矩陣的修正和估計(jì)方法內(nèi)容豐富,已有相關(guān)綜述發(fā)表(劉永,涂冬波,2015),本文在此略去。擬合檢驗(yàn)的另一種分類方式是相對(duì)擬合檢驗(yàn)和絕對(duì)擬合檢驗(yàn),前者用于多個(gè)模型對(duì)同一批數(shù)據(jù)的擬合情況比較,從而通過最優(yōu)的擬合指標(biāo)選擇最適用于分析和診斷的模型,后者用于考察某個(gè)特定的模型與數(shù)據(jù)的擬合情況。

        然而,傳統(tǒng)的基于卡方的擬合檢驗(yàn)方法不適用于CDM,這是由CDM的特性及卡方檢驗(yàn)的使用條件所決定的(Rup p,Tem p lin,&Henson,2010)??ǚ綑z驗(yàn)必須遵循的應(yīng)用條件為足夠大的樣本量,以確保在列聯(lián)表中每個(gè)單元格的期望頻數(shù)不少于5(Agresti&Finlay,1997)。在認(rèn)知診斷測驗(yàn)中,少量的題目就可能產(chǎn)生大量的期望作答反應(yīng)模式。如果樣本量較小,較大數(shù)量的期望作答反應(yīng)模式就易導(dǎo)致列聯(lián)表中的很多單元格不存在觀測值。例如,一個(gè)包含30題的認(rèn)知診斷測驗(yàn),可能的作答反應(yīng)模式超過10億種,但實(shí)際中被試數(shù)量卻有限,因此大量的期望反應(yīng)模式在實(shí)際樣本中無法被觀測到,此時(shí)便造成列聯(lián)表稀疏(sparse)問題。在該情形下,使用卡方檢驗(yàn)會(huì)使檢驗(yàn)所犯的一類錯(cuò)誤率急劇增大。一般而言,傳統(tǒng)的卡方檢驗(yàn)只適用于認(rèn)知診斷測驗(yàn)題目少于10~12個(gè)的情況(Sinharay&A lmond,2007),但該情況在認(rèn)知診斷實(shí)踐中并不多見。

        盡管CDM擬合檢驗(yàn)面臨困境,但已有不少研究者在重復(fù)抽樣技術(shù)(resampling techniques)、后驗(yàn)預(yù)測模型檢查(posterior predictivemodel checking,PPMC)方法和有限信息的絕對(duì)擬合檢驗(yàn)方法基礎(chǔ)上提出了相應(yīng)的擬合檢驗(yàn)統(tǒng)計(jì)量,這些方法或統(tǒng)計(jì)量都能較好地用于模型選擇以及模型數(shù)據(jù)失擬的評(píng)估(e.g.,de la Torre&Douglas,2008;Jurich,2014;Kunina-Habenicht,Rupp,&Wilhelm,2012)。以下部分分別對(duì)CDM的項(xiàng)目擬合、模型絕對(duì)擬合、模型相對(duì)擬合和個(gè)人擬合方法和統(tǒng)計(jì)量進(jìn)行介紹和評(píng)價(jià),最后提出對(duì)未來研究方向的思考和展望。

        2 CDM項(xiàng)目擬合檢驗(yàn)統(tǒng)計(jì)量

        CDM項(xiàng)目擬合檢驗(yàn)一般是絕對(duì)擬合檢驗(yàn)。當(dāng)前,研究者可使用的CDM項(xiàng)目擬合檢驗(yàn)方法大致可以分為三個(gè)方面:基于傳統(tǒng)卡方檢驗(yàn)的擬合統(tǒng)計(jì)量、基于PPMC方法的擬合統(tǒng)計(jì)量以及基于有限信息的擬合統(tǒng)計(jì)量。

        2.1 基于傳統(tǒng)卡方檢驗(yàn)的擬合統(tǒng)計(jì)量

        此類統(tǒng)計(jì)量為傳統(tǒng)的分類數(shù)據(jù)擬合統(tǒng)計(jì)量,用于刻畫每種屬性掌握模式中觀測頻數(shù)和模型預(yù)測的頻數(shù)之間的差異。在項(xiàng)目反應(yīng)理論(item response theory,IRT)框架中,這些統(tǒng)計(jì)量都服從或近似服從卡方分布。

        2.1.1 統(tǒng)計(jì)量

        對(duì)于考察K個(gè)屬性的認(rèn)知診斷測驗(yàn)而言,最多可能存在2K種屬性掌握模式。此時(shí),進(jìn)行卡方檢驗(yàn)的皮爾遜2c統(tǒng)計(jì)量通過下式計(jì)算而得:

        其中Fjl為屬性掌握模式為的被試中答對(duì)題目j的“觀測”頻數(shù)(該頻數(shù)實(shí)際不可觀測,依賴于模型參數(shù)估計(jì)結(jié)果),Ejl為模型預(yù)測的屬性掌握模式為的被試中答對(duì)題目j的期望頻數(shù),K為屬性個(gè)數(shù)。在樣本量足夠大的情況下,該統(tǒng)計(jì)量近似服從以自由度為的卡方分布(m為模型參數(shù)個(gè)數(shù))。

        2.1.2 Q1統(tǒng)計(jì)量

        Q1統(tǒng)計(jì)量是統(tǒng)計(jì)量的變式,其表達(dá)式如下(Yen,1981):

        其中Nl表示被分類到屬性掌握模式中被試的“觀測”頻數(shù)。在數(shù)據(jù)不稀疏的前提下,Q1j服從自由度為的卡方分布(m為模型參數(shù)個(gè)數(shù))。

        2.1.3 PD統(tǒng)計(jì)量

        其中T為總的分組數(shù)(在CDM中,T為可能的屬性掌握模式數(shù)量2K),為分組l中的觀測頻數(shù),El為分組l中的期望頻數(shù)。當(dāng)時(shí),該統(tǒng)計(jì)量為統(tǒng)計(jì)量;當(dāng)?shù)臉O限為0時(shí),該統(tǒng)計(jì)量為統(tǒng)計(jì)量。PD統(tǒng)計(jì)量在取不同值時(shí)具有不同的檢驗(yàn)力,而研究者認(rèn)為是在各種情形下都具有較好檢驗(yàn)力的適中值(Read&Cressie,1988),因此可將時(shí)構(gòu)造的PD統(tǒng)計(jì)量運(yùn)用到CDM項(xiàng)目擬合檢驗(yàn)當(dāng)中(Wang,Shu,Shang,&Xu,2015):

        該統(tǒng)計(jì)量通過被試的屬性掌握模式對(duì)被試進(jìn)行分組。同樣地,在數(shù)據(jù)不稀疏的前提下,PDj統(tǒng)計(jì)量服從自由度為的卡方分布(m為模型參數(shù)個(gè)數(shù))。

        2.1.4 統(tǒng)計(jì)量

        Q1和PD統(tǒng)計(jì)量都依賴于被試的屬性掌握模式的估計(jì)結(jié)果,因此“觀測”頻數(shù)實(shí)際上不可直接觀測。為了避免對(duì)屬性掌握模式點(diǎn)估計(jì)的不準(zhǔn)確性,Wang等(2015)借鑒了Stone(2000)的思想,使用的后驗(yàn)分布獲得每種屬性掌握模式中正確作答題目j被試頻數(shù)的偽數(shù)(pseudo-counts)rjl替代“觀測”頻數(shù)Fjl。rjl的表達(dá)式為:

        由于rjl的計(jì)算依賴于屬性掌握模式的先驗(yàn)分布以及模型參數(shù),不同分組間的觀測頻數(shù)值不是相互獨(dú)立的,同一名被試可以基于相應(yīng)的概率被分類到不同的屬性掌握模式分組中,因此該和統(tǒng)計(jì)量不再服從卡方分布,但可以通過蒙特卡洛重復(fù)抽樣技術(shù)產(chǎn)生一個(gè)經(jīng)驗(yàn)的抽樣分布,作為和統(tǒng)計(jì)量的檢驗(yàn)標(biāo)準(zhǔn)(Stone,2000)。

        卡方類統(tǒng)計(jì)量的最大優(yōu)點(diǎn)在于計(jì)算簡便,易于理解。但由于卡方檢驗(yàn)使用條件的限制,此類統(tǒng)計(jì)量并不能直接應(yīng)用于CDM擬合檢驗(yàn)當(dāng)中(Rupp etal.,2010)?,F(xiàn)有對(duì)上述問題的嘗試的主要途徑是借助蒙特卡洛重復(fù)抽樣技術(shù)獲得統(tǒng)計(jì)量的抽樣分布(Bartholomew&Tzamourani,1999;Tollenaar&Mooijaart,2003),從而完成擬合檢驗(yàn)。但由于該方法需要模擬多個(gè)數(shù)據(jù)集,且需對(duì)每個(gè)數(shù)據(jù)集重新進(jìn)行參數(shù)估計(jì)和擬合統(tǒng)計(jì)量估計(jì),因此實(shí)際使用需要耗費(fèi)大量的時(shí)間。如果模型本身、Q矩陣以及參數(shù)估計(jì)方法較為復(fù)雜,重復(fù)抽樣技術(shù)便難以應(yīng)用到實(shí)踐當(dāng)中。因此,該方法在實(shí)際使用中并不被研究者推薦(Rupp et al.,2010),而是作為其它方法的基礎(chǔ)。

        將傳統(tǒng)卡方類統(tǒng)計(jì)量直接應(yīng)用于CDM項(xiàng)目擬合檢驗(yàn)的研究并不多見。涂冬波、張心、蔡艷和戴海琦(2014)將和統(tǒng)計(jì)量運(yùn)用到DINA(determ inistic inputs,noisy “and”gate)模型的項(xiàng)目擬合檢驗(yàn),通過模擬研究發(fā)現(xiàn)這兩個(gè)統(tǒng)計(jì)量能有效偵查項(xiàng)目失擬情況,但檢驗(yàn)效果會(huì)受測驗(yàn)長度、屬性個(gè)數(shù)等因素的影響。Wang等人(2015)的研究探討了和統(tǒng)計(jì)量在傳統(tǒng)EM算法和PPMC方法(詳見下一部分)下的擬合表現(xiàn)差異,結(jié)果發(fā)現(xiàn)在這兩種估計(jì)方法下和統(tǒng)計(jì)量表現(xiàn)都較好,但這兩個(gè)統(tǒng)計(jì)量在EM算法下的統(tǒng)計(jì)檢驗(yàn)力比在PPMC方法下更高。

        2.2 基于后驗(yàn)預(yù)測模型檢查(PPMC)方法的統(tǒng)計(jì)量

        后驗(yàn)預(yù)測模型檢查(posterior predictivemodel checking,PPMC;Rubin,1984;Sinharay,2006;Sinharay&A lmond,2007)方法的核心是比較觀測數(shù)據(jù)與模型預(yù)測數(shù)據(jù)(replicated data)在差異度量(discrepancymeasures)上的差異大小。該方法是基于貝葉斯模型的擬合檢驗(yàn)方法,主要適用于模型參數(shù)估計(jì)基于貝葉斯框架的情形。PPMC方法一般與MCMC算法結(jié)合,基于MCMC算法中馬爾科夫鏈上每一步得到的模型參數(shù)計(jì)算新的預(yù)測數(shù)據(jù)及擬合統(tǒng)計(jì)量(差異度量)用于評(píng)估模型的擬合情況。過程如下:

        適用于PPMC方法的差異度量較多,主要有簡單相關(guān)系數(shù)(pointbiserial correlations)、項(xiàng)目誤差均方根、基于同分類的項(xiàng)目擬合統(tǒng)計(jì)量(item fit measures based on equivalence classmembership)、基于總分的項(xiàng)目擬合統(tǒng)計(jì)量(item fitmeasures based on raw scores)、項(xiàng)目間關(guān)聯(lián)指標(biāo)(association among the items)和平均絕對(duì)差異(mean absolute deviation)及其近似誤差均方根(RMSEA)。

        2.2.1 簡單相關(guān)系數(shù)

        該統(tǒng)計(jì)量使用的是被試的項(xiàng)目得分和個(gè)人總分之間的點(diǎn)二列相關(guān)Corr.,多應(yīng)用于IRT模型(Lord,1980;Sinharay,2005),可評(píng)估項(xiàng)目之間是否等區(qū)分度(單昕彤,譚輝曄,劉永,吳方文,涂冬波,2014)。在CDM項(xiàng)目擬合檢驗(yàn)中,可通過對(duì)觀測的相關(guān)均值和預(yù)測的相關(guān)均值對(duì)比及PPP值判斷模型對(duì)數(shù)據(jù)的擬合情況。

        2.2.2 項(xiàng)目誤差均方根

        同理,在預(yù)測數(shù)據(jù)中,對(duì)項(xiàng)目j同樣可以計(jì)算其差異度量,最后使用在所有迭代中的比例作為項(xiàng)目擬合好壞的指標(biāo),當(dāng)該比例接近0.5時(shí)說明項(xiàng)目擬合較好。

        項(xiàng)目誤差均方根是一個(gè)較為保守的擬合統(tǒng)計(jì)量,在實(shí)際研究中不適用于項(xiàng)目的絕對(duì)擬合檢驗(yàn),因此通常作為比較項(xiàng)目擬合差異的相對(duì)擬合指標(biāo)(Yan,M islevy,&Almond,2003)。

        2.2.3 基于同分類的項(xiàng)目擬合統(tǒng)計(jì)量

        此類擬合指標(biāo)以同一屬性掌握模式的被試在項(xiàng)目上的正確作答比例為構(gòu)造基礎(chǔ),既可用于評(píng)價(jià)項(xiàng)目擬合,也可用于評(píng)價(jià)總體擬合。定義具有屬性掌握模式的被試在項(xiàng)目上的正答比例為,而在預(yù)測數(shù)據(jù)中該正答比例為。其中并不能通過觀測數(shù)據(jù)直接獲得,而是依賴于模型參數(shù)估計(jì)值。每個(gè)題目和每種屬性掌握模式的組合在MCMC算法的每一次迭代中都有對(duì)應(yīng)的一組和,通過對(duì)兩者的比較以及相應(yīng)的PPP值即可檢驗(yàn)項(xiàng)目擬合情況。由于每個(gè)項(xiàng)目都需對(duì)每種屬性掌握模式進(jìn)行差異度量的檢驗(yàn),因此研究者在此基礎(chǔ)上進(jìn)一步提出了兩個(gè)類和類統(tǒng)計(jì)量用以評(píng)價(jià)項(xiàng)目擬合(Sinharay,2006)。

        令Nk為屬性掌握模式k中的人數(shù),Ejk為具有屬性掌握模式k的被試正確作答項(xiàng)目j的概率,可通過MCMC算法每次迭代的被試參數(shù)和模型參數(shù)計(jì)算而得。則類統(tǒng)計(jì)量為:

        此類統(tǒng)計(jì)量雖然是依據(jù)卡方檢驗(yàn)的思想構(gòu)造的,但由于被試的屬性掌握模式是未知的,此類統(tǒng)計(jì)量的參照分布并不明確,可能會(huì)影響擬合檢驗(yàn)的實(shí)際效果。Sinharay,Almond和Yan(2004)在貝葉斯網(wǎng)絡(luò)(Bayesian Network)框架下使用不同參數(shù)個(gè)數(shù)的模型對(duì)Tatsuoka(1990)的分?jǐn)?shù)減法數(shù)據(jù)進(jìn)行分析,結(jié)果發(fā)現(xiàn)使用類統(tǒng)計(jì)量對(duì)項(xiàng)目擬合和測驗(yàn)總體擬合的檢驗(yàn)效果并不理想。因此,此類統(tǒng)計(jì)量的參照分布和統(tǒng)計(jì)檢驗(yàn)力都需要進(jìn)一步研究(Sinharay&Almond,2007)。此外,此類統(tǒng)計(jì)量基于被試的屬性掌握模式分組,但被試的屬性掌握模式不可直接觀測,而是依賴模型的參數(shù)估計(jì)結(jié)果,因此如果樣本量過小可能會(huì)導(dǎo)致屬性掌握模式的估計(jì)不穩(wěn)定,從而就可能影響該統(tǒng)計(jì)量的檢驗(yàn)效果。研究者因此又提出了基于被試總分的項(xiàng)目擬合指標(biāo)(Sinharay,2006)。

        2.2.4 基于總分的項(xiàng)目擬合統(tǒng)計(jì)量

        同樣是借鑒卡方統(tǒng)計(jì)量的思想,但基于被試總分的項(xiàng)目擬合指標(biāo)是以被試在測驗(yàn)上的原始得分作為分組依據(jù)的。定義總分為的被試在項(xiàng)目上的正答比例為,而在預(yù)測數(shù)據(jù)中該正答比例為。每個(gè)題目和每個(gè)總分的組合在MCMC算法的每一次迭代中都有對(duì)應(yīng)的一組和,通過對(duì)兩者的比較以及相應(yīng)的PPP值檢驗(yàn)便可檢驗(yàn)項(xiàng)目擬合情況。和基于同分類的指標(biāo)構(gòu)造相同,研究者也提出了兩個(gè)類和類統(tǒng)計(jì)量。

        令Nk為獲得總分k的人數(shù),Ejk為具有總分k的被試正確作答項(xiàng)目j的概率,則類統(tǒng)計(jì)量為:

        此類統(tǒng)計(jì)量的擬合檢驗(yàn)方法與基于同分類的擬合統(tǒng)計(jì)量一致。此類統(tǒng)計(jì)量的優(yōu)點(diǎn)在于通過被試總分進(jìn)行分組避免了基于屬性掌握模式分組的參數(shù)估計(jì)不確定性,能提高擬合檢驗(yàn)的效果。Sinharay(2006)基于PPMC方法在貝葉斯網(wǎng)絡(luò)框架下對(duì)這兩類統(tǒng)計(jì)量的擬合效果進(jìn)行了比較,結(jié)果發(fā)現(xiàn)基于總分的項(xiàng)目擬合統(tǒng)計(jì)量比基于同分類的項(xiàng)目擬合統(tǒng)計(jì)量具有更好的擬合檢驗(yàn)效果。

        2.2.5 項(xiàng)目間關(guān)聯(lián)指標(biāo)

        項(xiàng)目間關(guān)聯(lián)指標(biāo)常用于IRT模型的局部獨(dú)立性假設(shè)檢驗(yàn)(Chen&Thissen,1997;Sinharay,2005;Sinharay&Johnson,2003)。令為在第一題上得k分且在第二題上得分的人數(shù),。則可用優(yōu)勢比來刻畫項(xiàng)目間關(guān)聯(lián),該統(tǒng)計(jì)量為:

        在擬合檢驗(yàn)中,一個(gè)完美擬合的模型應(yīng)該能完全解釋數(shù)據(jù)之間的關(guān)聯(lián),因此通過PPMC方法中模型預(yù)測的優(yōu)勢比能夠考察模型對(duì)測驗(yàn)項(xiàng)目關(guān)聯(lián)的解釋程度,從而就能達(dá)到評(píng)價(jià)模型對(duì)數(shù)據(jù)擬合的目的。

        2.2.6 平均絕對(duì)差異及其RM SEA

        Kunina-Habenicht等(2012)在 Henson,Roussos,Douglas和He(2008)研究的基礎(chǔ)上提出了基于某類屬性掌握模式的被試中觀測的和期望的項(xiàng)目正答概率的絕對(duì)差異的MAD統(tǒng)計(jì)量:

        Kunina-Habenicht等(2012)通過模擬研究發(fā)現(xiàn),樣本量大小、測驗(yàn)考察的屬性數(shù)量和題目所考察的屬性數(shù)量都會(huì)影響MADj和的擬合效果,樣本量越大,統(tǒng)計(jì)檢驗(yàn)力越高。此外,的統(tǒng)計(jì)檢驗(yàn)力相比于MADj稍高。

        2.2.7 小結(jié)

        PPMC方法的最大優(yōu)點(diǎn)在于其使用了參數(shù)的后驗(yàn)預(yù)測分布,有效避免參數(shù)估計(jì)不穩(wěn)定的問題,即使在樣本量很小的情形下也可以較好使用。對(duì)于認(rèn)知診斷模型的擬合檢驗(yàn),PPMC方法還是存在一些不可忽視的問題:首先,相關(guān)的模擬研究表明,PPMC方法過于保守,對(duì)于項(xiàng)目或測驗(yàn)的絕對(duì)擬合檢驗(yàn)并不具備優(yōu)良性質(zhì);其次,PPMC方法依賴于MCMC算法,而MCMC算法需要進(jìn)行大量密集的計(jì)算,對(duì)實(shí)踐而言也并非易事;最后,PPMC方法中的PPP值為非均勻分布(Robins,van der Vaart,&Ventura,2000),而原假設(shè)成立時(shí),檢驗(yàn)的p值應(yīng)服從均勻分布,這就導(dǎo)致使用PPP值進(jìn)行假設(shè)檢驗(yàn)時(shí)一類錯(cuò)誤率會(huì)低于設(shè)定的顯著性水平,相應(yīng)的PPMC方法的統(tǒng)計(jì)檢驗(yàn)力也會(huì)受到影響。

        2.3 基于有限信息的項(xiàng)目擬合統(tǒng)計(jì)量

        由于傳統(tǒng)的卡方類統(tǒng)計(jì)量都是建立在被試所有可能的作答反應(yīng)模式基礎(chǔ)上的,因此這類統(tǒng)計(jì)量又稱作完全信息的擬合檢驗(yàn)統(tǒng)計(jì)量?;谟邢扌畔⒌臄M合檢驗(yàn)方法(Reiser,1996;Reiser&Lin,1999)則可以在較大程度上解決基于完全信息的統(tǒng)計(jì)量無法應(yīng)用于CDM擬合檢驗(yàn)的困境。

        和基于完全信息的擬合檢驗(yàn)不同,有限信息擬合檢驗(yàn)利用的是完全列聯(lián)表中的概括性信息,即使用完全列聯(lián)表中的低階信息評(píng)價(jià)模型數(shù)據(jù)擬合。具體來說,在CDM框架中,有限信息擬合檢驗(yàn)通常使用題目對(duì)的雙變量信息(Bivariate information)進(jìn)行擬合檢驗(yàn),如此便可解決傳統(tǒng)擬合檢驗(yàn)的列聯(lián)表稀疏問題。例如,使用傳統(tǒng)的卡方統(tǒng)計(jì)量對(duì)一個(gè)30題的認(rèn)知診斷測驗(yàn)進(jìn)行擬合檢驗(yàn),列聯(lián)表中可能的作答反應(yīng)模式超過10億種,而使用雙變量信息可使作答反應(yīng)模式的數(shù)量銳減至種。當(dāng)然,除了雙變量信息,有限信息擬合檢驗(yàn)也可以基于更高階的題目關(guān)聯(lián)(例如基于三個(gè)題目之間的作答反應(yīng)情況),但隨著題目之間關(guān)聯(lián)復(fù)雜性的提高,對(duì)有限信息統(tǒng)計(jì)量的解釋也會(huì)更加復(fù)雜(Rupp etal.,2010)。下面具體介紹幾種在CDM中可使用的項(xiàng)目有限信息擬合統(tǒng)計(jì)量。

        2.3.1 基于題目對(duì)的對(duì)數(shù)發(fā)生比統(tǒng)計(jì)量

        de la Torre和Douglas(2004)在提出高階DINA模型時(shí)首次提出可以使用基于題目對(duì)之間的關(guān)聯(lián)指標(biāo),即題目對(duì)的對(duì)數(shù)發(fā)生比,作為認(rèn)知診斷項(xiàng)目擬合統(tǒng)計(jì)量。該統(tǒng)計(jì)量的思想近似于IRT框架中殘差協(xié)方差的平均絕對(duì)差異統(tǒng)計(jì)量(M cDonald&Mok,1995)。令為觀測數(shù)據(jù)中在題目j上得k分且在題目¢上得分的人數(shù),為模型預(yù)測數(shù)據(jù)中在題目j上得k分且在題目上得分的人數(shù),且,觀測數(shù)據(jù)樣本量為N,預(yù)測數(shù)據(jù)樣本量為,通過計(jì)算觀測數(shù)據(jù)和預(yù)測數(shù)據(jù)中題目j和題目j¢的對(duì)數(shù)發(fā)生比的絕對(duì)差異便可評(píng)價(jià)項(xiàng)目擬合。該統(tǒng)計(jì)量表達(dá)式如下:

        對(duì)于題目j而言,可以計(jì)算其與測驗(yàn)中其它所有題目之間的的均值用于項(xiàng)目擬合檢驗(yàn)(de la Torre&Douglas,2004),的均值越接近0,模型對(duì)題目j擬合越好。然而,該檢驗(yàn)方法無法獲得檢驗(yàn)的經(jīng)驗(yàn)p值,因此Tem p lin和Henson(2006)以及 Chen,de la Torre和 Zhang(2013)提出可以將該統(tǒng)計(jì)量與蒙特卡洛重復(fù)抽樣方法結(jié)合,計(jì)算題目對(duì)對(duì)數(shù)發(fā)生比的均方根誤差或標(biāo)準(zhǔn)誤及相應(yīng)的經(jīng)驗(yàn)p值用于測驗(yàn)的絕對(duì)擬合檢驗(yàn),其中均方根誤差表達(dá)式為:,標(biāo)準(zhǔn)誤表達(dá)式為:。

        2.3.2 基于題目對(duì)相關(guān)統(tǒng)計(jì)量

        該統(tǒng)計(jì)量通過計(jì)算題目兩兩之間的皮爾遜相關(guān)獲得(DiBello,Roussos,&Stout,2007)。令分別為題目j在觀測數(shù)據(jù)和期望數(shù)據(jù)中的作答反應(yīng)向量,N和分別為觀測數(shù)據(jù)和預(yù)測數(shù)據(jù)的樣本量,則可以通過度量觀測數(shù)據(jù)和期望數(shù)據(jù)中題目對(duì)相關(guān)的差異進(jìn)行擬合檢驗(yàn),該統(tǒng)計(jì)量表達(dá)式如下:

        2.3.3 基于題目對(duì)的Cohen’sk統(tǒng)計(jì)量

        2.3.4 基于單題正確作答比例的統(tǒng)計(jì)量

        以上各個(gè)統(tǒng)計(jì)量都是基于題目對(duì)的信息,而基于單題正確作答比例的統(tǒng)計(jì)量使用的是單個(gè)題目的信息,度量的是觀測數(shù)據(jù)和預(yù)測數(shù)據(jù)中單個(gè)題目正確作答比例的差異。令和分別為題目j在觀測數(shù)據(jù)和期望數(shù)據(jù)中的作答反應(yīng)向量,N和分別為觀測數(shù)據(jù)和預(yù)測數(shù)據(jù)的樣本量,則該統(tǒng)計(jì)量表達(dá)式如下:

        以上統(tǒng)計(jì)量既可以進(jìn)行項(xiàng)目的絕對(duì)擬合檢驗(yàn),也可以對(duì)不同項(xiàng)目的擬合情況進(jìn)行比較。由于這些統(tǒng)計(jì)量沒有明確的理論分布,因此具有一定的局限性。此外,這些統(tǒng)計(jì)量也較難利用更高階的邊際信息。研究發(fā)現(xiàn),進(jìn)行相對(duì)擬合檢驗(yàn)時(shí),基于單題信息的統(tǒng)計(jì)量只能應(yīng)對(duì)模型擬合差異較極端的情況,而當(dāng)模型擬合較為相似時(shí),基于題目對(duì)信息的統(tǒng)計(jì)量表現(xiàn)更好(de la Torre&Douglas,2008)。Chen等人(2013)的研究還發(fā)現(xiàn),基于單題信息的統(tǒng)計(jì)量擬合檢驗(yàn)力很差,幾乎無法真正在實(shí)踐中運(yùn)用,而基于題目對(duì)相關(guān)和對(duì)數(shù)發(fā)生比的統(tǒng)計(jì)量在擬合檢驗(yàn)性能上幾乎沒有差別。此外,基于題目對(duì)相關(guān)和對(duì)數(shù)發(fā)生比的統(tǒng)計(jì)量都無法偵查測驗(yàn)Q矩陣過度設(shè)定(即某些Q矩陣元素由“0”設(shè)定為“1”)的情況。

        3 CDM總體絕對(duì)擬合檢驗(yàn)統(tǒng)計(jì)量

        CDM項(xiàng)目擬合統(tǒng)計(jì)量針對(duì)的是測驗(yàn)項(xiàng)目與數(shù)據(jù)的擬合情況,可用于對(duì)項(xiàng)目的選擇。但在實(shí)踐中,研究者和實(shí)踐者需要明確選用何種認(rèn)知診斷模型擬合數(shù)據(jù),此時(shí)逐一進(jìn)行項(xiàng)目擬合檢驗(yàn)不現(xiàn)實(shí)也不合理。因此,CDM總體絕對(duì)擬合檢驗(yàn)可以幫助研究者考察所選擇模型與數(shù)據(jù)在總體上的絕對(duì)擬合情況,從而保證所選模型的適用性以及對(duì)被試診斷分類的準(zhǔn)確性。

        3.1 卡方類統(tǒng)計(jì)量

        本文2.1部分介紹了用于CDM項(xiàng)目擬合檢驗(yàn)的卡方類統(tǒng)計(jì)量,這些統(tǒng)計(jì)量是通過被試的屬性掌握模式對(duì)被試進(jìn)行分組的??ǚ筋惤y(tǒng)計(jì)量用于CDM總體擬合檢驗(yàn)時(shí)則是通過被試的作答反應(yīng)模式對(duì)被試進(jìn)行分組的。然而前文提到,使用作答反應(yīng)模式進(jìn)行分組極易導(dǎo)致列聯(lián)表稀疏問題,因此卡方類統(tǒng)計(jì)量基本無法用于CDM總體絕對(duì)擬合檢驗(yàn)。

        3.2 基于后驗(yàn)預(yù)測模型檢查(PPMC)方法的統(tǒng)計(jì)量

        大多數(shù)基于PPMC方法的統(tǒng)計(jì)量主要用于項(xiàng)目擬合檢驗(yàn),但可通過對(duì)部分PPMC方法的項(xiàng)目擬合檢驗(yàn)統(tǒng)計(jì)量(如基于同分類的和基于總分的項(xiàng)目擬合統(tǒng)計(jì)量)進(jìn)行加和用于模型的總體擬合檢驗(yàn)。PPMC方法在上文已有詳盡描述。此外,PPMC的差異度量檢驗(yàn)一般會(huì)結(jié)合作圖法一同使用。通過作圖,將觀測數(shù)據(jù)與模型預(yù)測數(shù)據(jù)直接呈現(xiàn),可以直觀展示觀測數(shù)據(jù)和模型預(yù)測數(shù)據(jù)之間的差異(Gelman,Carlin,Stern,&Rubin,2003)。需注意的是,當(dāng)樣本量較大時(shí),該方法顯然會(huì)受到限制,但卻可通過該方法考察數(shù)據(jù)中部分特定小樣本的擬合情況(如高分組被試數(shù)據(jù))(Sinharay,2006)。

        3.3 基于有限信息的總體絕對(duì)擬合統(tǒng)計(jì)量

        3.3.1 MAD統(tǒng)計(jì)量

        Henson,Templin和Willse(2009)在提出LCDM(log-linear cognitive diagnosismodel)框架時(shí)提出可使用觀測數(shù)據(jù)和模型預(yù)測數(shù)據(jù)所有項(xiàng)目對(duì)關(guān)聯(lián)的絕對(duì)差異大小作為總體擬合檢驗(yàn)指標(biāo)。該統(tǒng)計(jì)量需在PPMC框架中獲得,表達(dá)式為:

        其中ijr為觀測數(shù)據(jù)項(xiàng)目對(duì)關(guān)聯(lián),?ijr為預(yù)測數(shù)據(jù)項(xiàng)目對(duì)關(guān)聯(lián)。

        3.3.2 M2統(tǒng)計(jì)量

        前文介紹的用于CDM擬合檢驗(yàn)的有限信息擬合統(tǒng)計(jì)量在實(shí)際使用中存在一定的缺陷,而Maydeu-Olivares和Joe(2005)提出的M r統(tǒng)計(jì)量可以有效避免其它有限信息擬合統(tǒng)計(jì)量的缺點(diǎn),具有較大的擴(kuò)展性。該類統(tǒng)計(jì)量僅用于測驗(yàn)的總體擬合檢驗(yàn)。M r統(tǒng)計(jì)量可以利用任意的邊際階數(shù)信息,即任意數(shù)量的題目關(guān)聯(lián)進(jìn)行擬合檢驗(yàn),因此可作為有限信息擬合檢驗(yàn)的一般性方法。M2統(tǒng)計(jì)量是M r統(tǒng)計(jì)量的一個(gè)特例,其利用的是兩個(gè)題目組成的題目對(duì)信息。相關(guān)研究表明,使用M2統(tǒng)計(jì)量足以進(jìn)行實(shí)際的有限信息擬合檢驗(yàn),且運(yùn)算效率也較高(Cai,Maydeu-Olivares,Coffman,&Thissen,2006;Maydeu-Olivares&Joe,2005)。

        M2統(tǒng)計(jì)量刻畫的是觀測的和期望的邊際頻數(shù)或邊際概率之間的差異,因此需要將數(shù)據(jù)的完全信息縮減為二階的邊際信息,然后通過計(jì)算觀測的和期望的二階邊際殘差得到M2統(tǒng)計(jì)量。令O為每種作答反應(yīng)模式中觀測的人數(shù)比例向量,為每種作答反應(yīng)模式中模型預(yù)測的人數(shù)比例向量,其中為模型參數(shù)的估計(jì)值,則二階邊際殘差R2為:

        其中L2是一個(gè)維的算子矩陣,包含元素為0或1,用以將O和中的完全信息縮減為二階邊際信息。d為線性獨(dú)立的一階和二階殘差的數(shù)量(詳見Maydeu-Olivares&Joe,2006)。得到R2后,通過權(quán)重矩陣W2,便可計(jì)算M2統(tǒng)計(jì)量:

        對(duì)M2統(tǒng)計(jì)量性能的研究大多是在IRT和結(jié)構(gòu)方程模型框架下開展的(Maydeu-Olivares,Cai,&,2011;Maydeu-Olivares&,2013;Maydeu-Olivares&Joe,2005,2006),這些研究結(jié)果都有力證實(shí)了M2統(tǒng)計(jì)量良好的擬合檢驗(yàn)性能。M2統(tǒng)計(jì)量在CDM中應(yīng)用的研究卻相對(duì)少見:Jurich(2014)通過一個(gè)小尺度的模擬研究檢驗(yàn)M2統(tǒng)計(jì)量在LCDM框架中的統(tǒng)計(jì)性質(zhì),結(jié)果表明M2統(tǒng)計(jì)量在CDM框架中也具備對(duì)一類錯(cuò)誤率良好的控制力,并且對(duì)模型的錯(cuò)誤設(shè)定具有較高的檢驗(yàn)力;Liu,Tian和Xin(2016)系統(tǒng)地檢驗(yàn)了M2統(tǒng)計(jì)量在CDM中應(yīng)用的性質(zhì),結(jié)果表明M2統(tǒng)計(jì)量在各種條件下都具備合適的一類錯(cuò)誤率及良好的統(tǒng)計(jì)檢驗(yàn)力,為M2統(tǒng)計(jì)量在CDM中的應(yīng)用夯實(shí)了理論基礎(chǔ)。

        有限信息擬合檢驗(yàn)方法的優(yōu)點(diǎn)在于其能有效避免傳統(tǒng)卡方檢驗(yàn)的列聯(lián)表稀疏問題,也無需通過重復(fù)抽樣或MCMC算法進(jìn)行大量耗時(shí)的計(jì)算,為實(shí)踐提供了便利。此外,部分有限信息擬合統(tǒng)計(jì)量(如M2統(tǒng)計(jì)量)已在其它統(tǒng)計(jì)模型中進(jìn)行了充分的應(yīng)用,其擬合檢驗(yàn)性能較為成熟。當(dāng)然,有限信息擬合檢驗(yàn)方法也存在一些缺點(diǎn),比如早期在CDM中應(yīng)用的統(tǒng)計(jì)量都難以進(jìn)行絕對(duì)擬合檢驗(yàn),而M2統(tǒng)計(jì)量在CDM中的應(yīng)用才剛剛起步,還需更多的模擬和實(shí)證研究進(jìn)行進(jìn)一步的探索。

        4 CDM總體相對(duì)擬合檢驗(yàn)統(tǒng)計(jì)量

        相對(duì)擬合檢驗(yàn)統(tǒng)計(jì)量在CDM擬合檢驗(yàn)中應(yīng)用較多。這類統(tǒng)計(jì)量基于模型資料的擬合情況以及模型本身的復(fù)雜度,可從多個(gè)備選模型中選擇最優(yōu)的模型。常見的CDM相對(duì)擬合檢驗(yàn)統(tǒng)計(jì)量為基于信息量的統(tǒng)計(jì)量,考慮了模型的簡潔性對(duì)數(shù)據(jù)解釋的意義,對(duì)模型的復(fù)雜程度進(jìn)行一定的懲罰。在認(rèn)知診斷測驗(yàn)中,最為常用的相對(duì)擬合統(tǒng)計(jì)量為偏差(deviance,-2Log-Likelihood)、AIC(Akaike,1974)、BIC(Schwarz,1978)、DIC(Spiegelhalter,Best,Carlin,&van der Linde,2002)和貝葉斯因子(Bayes factor,Spiegelhalter&Sm ith,1982),這些統(tǒng)計(jì)量都沒有絕對(duì)的擬合臨界點(diǎn)。

        4.1 偏差

        偏差統(tǒng)計(jì)量是-2倍的似然函數(shù)值的自然對(duì)數(shù),其值越小,表示模型擬合越好。其計(jì)算公式為(其中ML為似然函數(shù)):

        4.2 AIC和BIC

        AIC(Akaike’s information criterion)和 BIC(Bayesian information criterion)可在偏差統(tǒng)計(jì)量的基礎(chǔ)上獲得,二者可用以下公式表示:

        4.3 DIC

        DIC通常用于貝葉斯框架中MCMC算法下的模型比較,是AIC的推廣,同樣包含模型擬合情況和模型復(fù)雜程度兩個(gè)部分。其表達(dá)式如下:

        4.4 貝葉斯因子

        貝葉斯因子通常用于在貝葉斯框架中兩個(gè)非嵌套模型之間的比較。對(duì)于競爭模型M A和M B而言,貝葉斯因子計(jì)算的是二者邊際似然的比值,表達(dá)式如下:

        若BF>1,則支持模型M A,否則支持模型MB。

        大量關(guān)于CDM的模擬或應(yīng)用研究都應(yīng)用了上述統(tǒng)計(jì)量,這是由于在CDM絕對(duì)擬合統(tǒng)計(jì)量亟待開發(fā)的情況下,使用相對(duì)擬合統(tǒng)計(jì)量是較為可行的做法。然而,這些統(tǒng)計(jì)量在CDM中的檢驗(yàn)效果也會(huì)因使用條件不同而存在些許差異。例如,使用MCMC算法時(shí),DIC相比于AIC或BIC具備更優(yōu)良的擬合檢驗(yàn)性能(de la Torre&Douglas,2008)。由于BIC比AIC對(duì)模型自由參數(shù)的懲罰更加嚴(yán)格,因此當(dāng)模型的錯(cuò)誤設(shè)定針對(duì)模型參數(shù)項(xiàng)時(shí),BIC相比于AIC對(duì)模型錯(cuò)誤設(shè)定的偵查效果更差(Kunina-Habenicht et al.,2012)。此外,Galeshi和Skaggs(2014)的研究發(fā)現(xiàn),當(dāng)樣本量較大時(shí),AIC和BIC的擬合檢驗(yàn)效果近似;而當(dāng)樣本量較小時(shí),BIC的擬合檢驗(yàn)效果更優(yōu)越。

        5 個(gè)人擬合檢驗(yàn)方法

        個(gè)人擬合檢驗(yàn)用于考察所選模型是否適用于參加測驗(yàn)的被試。由于認(rèn)知診斷評(píng)價(jià)需要對(duì)被試的屬性掌握模式做出診斷分類,被試的作答反應(yīng)如果和所選模型不符,就可能導(dǎo)致無效的診斷,因此個(gè)人擬合檢驗(yàn)對(duì)于認(rèn)知診斷評(píng)價(jià)來說尤為重要(Cui&Li,2015)。對(duì)于認(rèn)知診斷實(shí)踐而言,如果部分被試的作答反應(yīng)不符合所選用模型的基本假定,或該部分被試的作答反應(yīng)與大部分被試存在較大差異時(shí),便要考慮將這部分被試的數(shù)據(jù)刪除,否則就會(huì)影響模型的參數(shù)估計(jì)結(jié)果及對(duì)被試的診斷(宋麗紅,2012)。若個(gè)人擬合檢驗(yàn)的結(jié)果顯示大部分被試都不擬合模型,則可能是所選用的模型在總體上對(duì)數(shù)據(jù)就不擬合,因而模型的總體擬合是個(gè)人擬合探測的基礎(chǔ)。被試不擬合的原因可能來自三個(gè)方面:首先是所選模型的假設(shè)無法準(zhǔn)確刻畫被試的作答反應(yīng)模式;其次是被試出現(xiàn)了異常作答,例如作弊、對(duì)題干進(jìn)行反常或過度理解、隨機(jī)作答等(Cui&Leighton,2009);最后是測驗(yàn)的Q矩陣存在錯(cuò)誤設(shè)定,例如被試作答所使用的認(rèn)知屬性未被包含在Q矩陣當(dāng)中(Liu,Douglas,&Henson,2009)。當(dāng)前,個(gè)人擬合統(tǒng)計(jì)量的開發(fā)主要還是在IRT框架中進(jìn)行(詳見Rupp,2013),而在CDM框架下開發(fā)的個(gè)人擬合統(tǒng)計(jì)量卻相對(duì)較少。以下部分介紹幾種已經(jīng)在CDM框架中使用的個(gè)人擬合統(tǒng)計(jì)量。

        5.1 被試誤差均方根

        Yan等人(2003)較早提出使用被試誤差均方根評(píng)價(jià)個(gè)人擬合,和使用項(xiàng)目誤差均方根檢驗(yàn)項(xiàng)目擬合類似,使用該統(tǒng)計(jì)量需要在PPMC方法下進(jìn)行。定義觀測數(shù)據(jù)中被試i在項(xiàng)目上 的 作 答 反 應(yīng) 為為在MCMC算法第t次迭代中出現(xiàn)該作答反應(yīng)的期望概率,則觀測數(shù)據(jù)xij在第t次迭代中的平方誤差為。此時(shí)可使用被試i在第t次迭代中的誤差均方根作為被試擬合的差異度量:

        同理,在預(yù)測數(shù)據(jù)中,對(duì)被試i同樣可以計(jì)算其差異度量,最后使用在所有迭代中的比例作為個(gè)人擬合好壞的指標(biāo),當(dāng)該比例接近0.5時(shí)說明個(gè)人擬合較好。然而,該指標(biāo)是在PPMC框架下運(yùn)用的,依賴于特定的算法,在實(shí)際研究中使用具有一定的局限性。

        5.2 層級(jí)一致性指標(biāo)

        層級(jí)一致性指標(biāo)(the hierarchy consistency index,HCI;Cui&Leighton,2009)是基于屬性層級(jí)模型(the attribute hierarchy method,AHM;Leighton,Gierl,&Hunka,2004)建立的個(gè)人擬合統(tǒng)計(jì)量。屬性層級(jí)模型事先假定測驗(yàn)所考察的認(rèn)知屬性之間具有屬性層級(jí)關(guān)系,并且強(qiáng)調(diào)測驗(yàn)編制要在屬性層級(jí)關(guān)系的指導(dǎo)下進(jìn)行。在屬性層級(jí)關(guān)系的假設(shè)下,被試如果答對(duì)了測量復(fù)雜屬性的題目,那么他們也理應(yīng)答對(duì)測量簡單屬性的題目。因此,構(gòu)建HCI的基本思想便是衡量被試的真實(shí)作答反應(yīng)模式與屬性層級(jí)關(guān)系作用下的期望作答反應(yīng)模式之間的匹配程度。HCI的表達(dá)式如下:

        Cui和 Leighton(2009)通過模擬研究發(fā)現(xiàn),HCI對(duì)個(gè)人不擬合的偵查效果會(huì)受到不擬合類型、項(xiàng)目區(qū)分力(item discrim inating power)和測驗(yàn)長度的影響,尤其是當(dāng)測驗(yàn)項(xiàng)目的區(qū)分力都較高時(shí),HCI的檢驗(yàn)力才會(huì)達(dá)到最大。值得注意的是,使用HCI進(jìn)行個(gè)人擬合檢驗(yàn)的前提是測驗(yàn)所考察屬性的層級(jí)關(guān)系已被正確界定,然而實(shí)踐中屬性層級(jí)關(guān)系的界定一般是通過領(lǐng)域?qū)<彝瓿傻?由于專家的知識(shí)經(jīng)驗(yàn)難免存在差異,因此界定的屬性層級(jí)關(guān)系不可能保證完全準(zhǔn)確,此時(shí)使用HCI進(jìn)行擬合檢驗(yàn)得到的不擬合結(jié)果便可能源于Q矩陣的錯(cuò)誤設(shè)定。更重要的是,當(dāng)測驗(yàn)的屬性之間不涉及層級(jí)關(guān)系或者僅有部分屬性之間存在層級(jí)關(guān)系,HCI便失去了檢驗(yàn)效力,因此HCI的這種計(jì)算方法對(duì)不擬合的評(píng)估方式存在一定的局限性。

        5.3 似然比檢驗(yàn)統(tǒng)計(jì)量

        Liu等人(2009)通過對(duì)假設(shè)的反常作答反應(yīng)模式似然值和正常的作答反應(yīng)模式似然值進(jìn)行對(duì)比,提出了用于鑒別具有反常作答反應(yīng)傾向被試的似然比檢驗(yàn)統(tǒng)計(jì)量。為了得到假設(shè)的反常作答反應(yīng)模式的似然值,相應(yīng)的認(rèn)知診斷模型的項(xiàng)目反應(yīng)函數(shù)需要進(jìn)行如下修改:

        邊際似然表達(dá)式為:

        其中l(wèi)0或L0對(duì)應(yīng)的是被試正常作答的假設(shè),而lA或LA對(duì)應(yīng)的是被試反常作答的假設(shè)。

        Liu等人(2009)通過模擬研究發(fā)現(xiàn),當(dāng)測驗(yàn)較長或被試反常作答傾向較明顯時(shí),似然比檢驗(yàn)統(tǒng)計(jì)量對(duì)被試失擬的統(tǒng)計(jì)檢驗(yàn)力較高。此外,在DINA模型框架下,使用基于邊際似然的T2統(tǒng)計(jì)量比使用基于聯(lián)合似然的T1統(tǒng)計(jì)量更加可靠。盡管此類統(tǒng)計(jì)量能夠鑒別出被試的反常作答反應(yīng)傾向,但其缺點(diǎn)在于:此類統(tǒng)計(jì)量只定義了兩種失擬類型,即“不合邏輯的高得分”和“不合邏輯的低得分”兩種情況,而被試的反常作答反應(yīng)可能包含多種形式,被試失擬的來源也較復(fù)雜,所以此類統(tǒng)計(jì)量對(duì)于其它失擬類型的檢驗(yàn)程序和檢驗(yàn)效果還有待研究。

        5.4 lz統(tǒng)計(jì)量

        Cui和Li(2015)通過模擬研究發(fā)現(xiàn),在項(xiàng)目區(qū)分力較高的情形下,lz統(tǒng)計(jì)量在認(rèn)知診斷框架中也呈現(xiàn)漸進(jìn)的正態(tài)分布。

        5.5 反應(yīng)一致性指標(biāo)

        反應(yīng)一致性指標(biāo)(the response conform ity index,RCI;Cui&Li,2015)的基本思想是:Q矩陣無法對(duì)每一個(gè)被試作答所使用的屬性進(jìn)行界定,這就可能導(dǎo)致被試的實(shí)際作答反應(yīng)和Q矩陣預(yù)測的作答反應(yīng)不符,因此RCI用于檢驗(yàn)被試實(shí)際作答反應(yīng)和Q矩陣預(yù)測的作答反應(yīng)之間的一致性。該統(tǒng)計(jì)量表達(dá)式如下:

        其中ia是被試i的屬性掌握模式,為在ia影響下模型估計(jì)的正確作答題目j的概率。表示屬性掌握模式為ia的被試對(duì)題目j的理想反應(yīng),其值為0或1,當(dāng)被試掌握了題目所要求的所有屬性時(shí),,如果被試未掌握全部題目所要求的屬性,則。

        Cui和 Li(2015)使用 C-RUM(compensatory RUM)模型通過模擬研究系統(tǒng)地比較了T2、lz和RCI統(tǒng)計(jì)量的擬合表現(xiàn)。研究結(jié)果表明,當(dāng)題目數(shù)量較多或者題目區(qū)分力較大時(shí),這三個(gè)統(tǒng)計(jì)量都具有較高的統(tǒng)計(jì)檢驗(yàn)力;T2統(tǒng)計(jì)量在各模擬條件下都呈現(xiàn)出了膨脹的一類錯(cuò)誤率,而lz和RCI統(tǒng)計(jì)量的一類錯(cuò)誤率都接近理論假設(shè)。

        6 小結(jié)和展望

        由于認(rèn)知診斷理論是新一代的心理教育測量理論,對(duì)認(rèn)知診斷理論各個(gè)方面的探討都還處于發(fā)展階段,而認(rèn)知診斷模型資料擬合檢驗(yàn)作為提供認(rèn)知診斷評(píng)價(jià)效度證據(jù)的重要方面,更應(yīng)置于重要的研究地位。近20多年來,隨著認(rèn)知診斷理論的日趨完善,不少的研究者提出了相應(yīng)的認(rèn)知診斷擬合統(tǒng)計(jì)量。本文在已有研究的基礎(chǔ)上,詳盡了可實(shí)際應(yīng)用的認(rèn)知診斷擬合檢驗(yàn)統(tǒng)計(jì)量及相關(guān)研究,試圖為未來研究者提供一個(gè)整體的框架,以期對(duì)認(rèn)知診斷研究的進(jìn)一步完善。以下通過一個(gè)表格對(duì)現(xiàn)有主要的CDM擬合檢驗(yàn)研究進(jìn)行總結(jié)(見表1)。

        CDM擬合檢驗(yàn)面臨的困境主要在于認(rèn)知診斷數(shù)據(jù)的稀疏性問題,相關(guān)的擬合檢驗(yàn)方法或統(tǒng)計(jì)量都圍繞于此試圖加以解決。傳統(tǒng)卡方類統(tǒng)計(jì)量盡管最為認(rèn)知診斷擬合檢驗(yàn)所詬病,但由于計(jì)算的簡便性和易理解性,還是值得未來的研究者繼續(xù)借鑒卡方統(tǒng)計(jì)量的思想進(jìn)行改造,并結(jié)合新的途徑以實(shí)現(xiàn)新的突破,例如統(tǒng)計(jì)量在EM算法或PPMC方法下都具有較好的擬合效果(Wang etal.,2015)。PPMC方法通過后驗(yàn)預(yù)測分布解決參數(shù)估計(jì)不準(zhǔn)確問題,能夠?qū)崿F(xiàn)小樣本情形下的擬合檢驗(yàn)(Wang et al.,2015)。盡管在早期的認(rèn)知診斷擬合檢驗(yàn)中PPMC方法應(yīng)用較多,但所提出的統(tǒng)計(jì)量大多都僅僅是一個(gè)差異的度量,各統(tǒng)計(jì)量分布情況不明確,無法可靠地進(jìn)行擬合檢驗(yàn),還需未來研究進(jìn)一步完善。但相比傳統(tǒng)卡方類統(tǒng)計(jì)量,PPMC方法理應(yīng)是一個(gè)更加優(yōu)越的擬合檢驗(yàn)方法。有限信息擬合檢驗(yàn)是最新發(fā)展的CDM擬合檢驗(yàn)方法。有限信息擬合統(tǒng)計(jì)量,尤其是M2統(tǒng)計(jì)量的優(yōu)越性能已在IRT和結(jié)構(gòu)方程模型框架中得到了充分的證明。盡管在CDM框架中有限信息擬合統(tǒng)計(jì)量應(yīng)用較少,但根據(jù)有限信息擬合檢驗(yàn)的基本思想和已有研究結(jié)論,不難發(fā)現(xiàn)有限信息擬合檢驗(yàn)方法對(duì)CDM擬合檢驗(yàn)具有不俗的表現(xiàn),是值得未來研究的CDM擬合檢驗(yàn)領(lǐng)域。

        表1 認(rèn)知診斷模型資料擬合檢驗(yàn)研究總結(jié)

        本文針對(duì)實(shí)踐中如何選用合適的CDM擬合統(tǒng)計(jì)量給出如下建議。針對(duì)項(xiàng)目擬合檢驗(yàn),只有當(dāng)樣本量足夠大且題目數(shù)量很少時(shí),可考慮使用等卡方類統(tǒng)計(jì)量。而對(duì)于一般的認(rèn)知診斷測驗(yàn),應(yīng)盡量避免使用卡方類統(tǒng)計(jì)量。如果模型的參數(shù)估計(jì)使用MCMC算法,可優(yōu)先考慮使用基于PPMC方法的統(tǒng)計(jì)量,例如平均絕對(duì)差異及其RMSEA。而當(dāng)模型的參數(shù)估計(jì)方法不限定于MCMC時(shí),建議使用基于雙變量信息的有限信息擬合統(tǒng)計(jì)量。針對(duì)總體的絕對(duì)擬合檢驗(yàn),根據(jù)Liu等(2016)的研究結(jié)論,M2統(tǒng)計(jì)量的性能良好且穩(wěn)定,可成為在各種條件下的優(yōu)先選擇。針對(duì)個(gè)人擬合檢驗(yàn),可根據(jù)不同個(gè)人擬合檢驗(yàn)統(tǒng)計(jì)量的檢驗(yàn)邏輯進(jìn)行選擇,不同統(tǒng)計(jì)量之間不存在絕對(duì)的優(yōu)劣。例如當(dāng)屬性存在層級(jí)關(guān)系時(shí),則優(yōu)先選擇HCI。而根據(jù)Cui和Li(2015)的研究結(jié)論,RCI更適用于在被試創(chuàng)造性作答、猜測作答、被試瞌睡和Q矩陣錯(cuò)誤設(shè)定情形下的被試失擬檢驗(yàn),而lz對(duì)被試疲勞導(dǎo)致的被試失擬檢驗(yàn)效果更好。

        尤需注意的是,認(rèn)知診斷測驗(yàn)的開發(fā)以及對(duì)被試的診斷評(píng)價(jià)都是在Q矩陣的指導(dǎo)下進(jìn)行的?,F(xiàn)有的CDM擬合檢驗(yàn)方法都假定Q矩陣的界定是正確的,而錯(cuò)誤的Q矩陣對(duì)認(rèn)知診斷的參數(shù)估計(jì)和被試分類都存在影響(Rupp&Templin,2008),因此Q矩陣的正確性對(duì)擬合檢驗(yàn)效果自然起到了先導(dǎo)性和決定性的作用。然而,Q矩陣的正確界定也是認(rèn)知診斷實(shí)踐面臨的重大挑戰(zhàn),最突出的例子便是20多年來研究者對(duì)Tatsuoka(1990)的分?jǐn)?shù)減法數(shù)據(jù)的Q矩陣界定爭議不斷,至今未有定論。因此,為了使現(xiàn)有的CDM擬合檢驗(yàn)方法能更加準(zhǔn)確和有效地運(yùn)用,如何更好地正確界定Q矩陣需要未來研究更多深入的探討。

        對(duì)于未來研究的開展,本文提出以下幾點(diǎn)研究方向的展望。

        第一,現(xiàn)有的大部分?jǐn)M合統(tǒng)計(jì)量性能研究都是基于DINA、C-RUM等特定模型開展的,未來的研究可以探討各統(tǒng)計(jì)量在其它模型或者一般化模型下的擬合檢驗(yàn)性能;

        第二,現(xiàn)有的擬合統(tǒng)計(jì)量開發(fā)都是基于0、1計(jì)分的CDM進(jìn)行的,而CDM也可進(jìn)行多級(jí)計(jì)分或包含多級(jí)屬性,未來的研究可以進(jìn)一步探討不同的擬合檢驗(yàn)方法或統(tǒng)計(jì)量如何在多級(jí)數(shù)據(jù)或多級(jí)屬性下拓展;

        第三,現(xiàn)有的擬合統(tǒng)計(jì)量性能大多未被充分證明,未來的研究可以進(jìn)一步通過模擬研究檢驗(yàn)各統(tǒng)計(jì)量在一類錯(cuò)誤率和統(tǒng)計(jì)檢驗(yàn)力上的表現(xiàn),并且豐富研究條件,使各統(tǒng)計(jì)量性能更加明確。

        劉永,涂冬波.(2015).認(rèn)知診斷測驗(yàn)Q矩陣估計(jì)方法比較.中國考試,(5),53–63.

        單昕彤,譚輝曄,劉永,吳方文,涂冬波.(2014).項(xiàng)目反應(yīng)理論中模型—資料擬合檢驗(yàn)常用統(tǒng)計(jì)量.心理科學(xué)進(jìn)展,22,1350–1362.

        宋麗紅.(2012).DINA改進(jìn)模型(R-DINA)的提出及三個(gè)診斷模型自動(dòng)選擇機(jī)制研究(博士學(xué)位論文).江西師范大學(xué),南昌.

        涂冬波,張心,蔡艷,戴海琦.(2014).認(rèn)知診斷模型-資料擬合檢驗(yàn)統(tǒng)計(jì)量及其性能.心理科學(xué),37,205–211.

        辛濤,樂美玲,張佳慧.(2012).教育測量理論新進(jìn)展及發(fā)展趨勢.中國考試,(5),3–11.

        Agresti,A.,&Finlay,B.(1997).Statisticalmethods for the social sciences(3rd ed.,p.258).Upper Sadd le River,NJ:Prentice Hall.

        Akaike,H.(1974).A new look at the statistical model identification.IEEE Transactions on Automatic Contro l,19(6),716–723.

        Bartholomew,D.J.,&Tzamourani,P.(1999).The goodness of fit of latent trait models in attitude measurement.Socio logical Methods&Research,27,525–546.

        Cai,L.,Maydeu-Olivares,A.,Coffman,D.L.,&Thissen,D.(2006).Lim ited-information goodness-of-fit testing of item response theory models for sparse 2Ptables.British Journal of Mathematical and Statistical Psycho logy,59,173–194.

        Chen,J.S.,de la Torre,J.,&Zhang,Z.(2013).Relative and absolute fit evaluation in cognitive diagnosis modeling.Journal ofEducational Measurement,50,123–140.

        Chen,W.H.,&Thissen,D.(1997).Local dependence indexes for item pairs using item response theory.Journal ofEducational and Behavioral Statistics,22,265–289.

        Cui,Y.(2007).The hierarchy consistency index:Development and analysis(Unpublished doctoral dissertation).University of Alberta,Edmonton,A lberta,Canada.

        Cui,Y.,&Leighton,J.P.(2009).The hierarchy consistency index:Evaluating person fit for cognitive diagnostic assessment.Journal of Educational M easurement,46,429–449.

        Cui,Y.,&Li,J.(2015).Evaluating person fit for cognitive diagnostic assessment.Applied Psychological Measurement,39,223–238.

        de la Torre,J.,&Douglas,J.A.(2004).Higher-order latent trait models for cognitive diagnosis.Psychometrika,69,333–353.

        de la Torre,J.,&Douglas,J.A.(2008).Model evaluation and multip le strategies in cognitive diagnosis:An analysis of fraction subtraction data.Psychometrika,73,595–624.

        DiBello,L.V.,Roussos,L.A.,&Stout,W.F.(2006).Review of cognitively diagnostic assessment and a summary of psychometric models.In C.R.Rao&S.Sinharay(Eds.),Handbookofstatistics(Vol. 26, pp. 979–1030).Am sterdam:Elsevier.

        D rasgow,F.,Levine,M.V.,&W illiam s,E.A.(1985).Appropriateness measurement w ith polychotomous item responsemodels and standardized indices.British Journal ofMathematical and Statistical Psycho logy,38,67–86.

        Embretson,S.E.(1998).A cognitive design system approach to generating valid tests:Application to abstract reasoning.PsychologicalMethods,3,380–396.

        Galeshi,R.,&Skaggs,G.(2014).Traditional fit indices utility in new psychometric model:Cognitive diagnostic model.International Journal of Quantitative Research in Education,2,113–132.

        Gelman,A.,Carlin,J.B.,Stern,H.S.,&Rubin,D.B.(2003).Bayesian data analysis(2nd ed.).New York:Chapman&Hall.

        Henson,R.,Roussos,L.,Douglas,J.,&He,X.M.(2008).Cognitive diagnostic attribute-level discrim ination indices.Applied Psychological Measurement,32,275–288.

        Henson,R.A.,Templin,J.L.,&Willse,J.T.(2009).Defining a fam ily of cognitive diagnosis models using log-linear models w ith latent variables.Psychometrika,74,191–210.

        Jurich,D.P.(2014).Assessing model fit ofmultidimensional item response theory and diagnostic classification models usinglim ited-informationstatistics(Unpublished doctorial dissertation). James M adison University,Harrisonburg,Virginia,United States.

        Kunina-Habenicht,O.,Rupp,A.A.,&W ilhelm,O.(2012).The im pact of model m isspecification on parameter estimation and item-fit assessment in log-linear diagnostic classification models.Journal of Educational Measurement,49,59–81.

        Leighton,J.,& Gierl,M.(2007).Cognitive diagnostic assessment for education:Theory and applications.New York:Cambridge University Press.

        Leighton,J.P.,Gierl,M.J.,&Hunka,S.M.(2004).The attribute hierarchy method for cognitive assessment:A variation on Tatsuoka’s rule-space approach.Journal of Educational Measurement,41,205–237.

        Levy,R.,M islevy,R.J.,&Sinharay,S.(2009).Posterior predictivemodel checking formultidimensionality in item response theory.Applied Psycho logical Measurement,33,519–537.

        Liu,Y.,Douglas,J.A.,&Henson,R.A.(2009).Testing person fit in cognitive diagnosis.Applied Psychological Measurement,33,579–598.

        Liu,Y.L.,Tian,W.,&Xin,T.(2016).An application ofM 2statistic to evaluate the fit of cognitive diagnostic models.Journal of Educational and Behavioral Statistics,41(1),3–26.

        Lord,F.M.(1980).Applications of item response theory to practical testingproblems.Hillsdale,NJ:Law rence Erlbaum Associates.

        Maydeu-O livares,A.,Cai,L.,& Hernández,A.(2011).Comparing the fit of item response theory and factor analysis models.StructuralEquationModeling:A Multidisciplinary Journal,18,333–356.

        Maydeu-Olivares,A.,& Joe,H.(2005).Lim ited-and full-information estimation and goodness-of-fit testing in 2ncontingency tables:A unified framew ork.Journal of the American Statistical Association,100,1009–1020.

        Maydeu-O livares,A.,&Joe,H.(2006).Lim ited information goodness-of-fit testing in multidimensional contingency tables.Psychometrika,71,713–732.

        Maydeu-O livares,A.,&Monta?o,R.(2013).How should we assess the fit of Rasch-type models?Approximating the pow er of goodness-of-fit statistics in categorical data analysis.Psychometrika,78,116–133.

        M cDonald,R.P.,&Mok,M.M.-C.(1995).Goodness of fit in item response models.Multivariate Behavioral Research,30,23–40.

        Oliveri,M.E.,&von Davier,M.(2011).Investigation of model fit and score scale comparability in international assessments.Psychological Testand AssessmentModeling,53,315–333.

        Read,T.R.C.,&Cressie,N.A.C.(1988).Goodness-of-fit statistics for discrete multivariate data.New York,NY:Springer.

        Reiser,M.(1996).Analysis of residuals for the multionm ial item responsemodel.Psychometrika,61,509–528.

        Reiser,M.,&Lin,Y.C.(1999).A goodness-of-fit test for the latent class model w hen expected frequencies are small.Socio logical Methodo logy,29,81–111.

        Robins,J.M.,van der Vaart,A.,&Ventura,V.(2000).Asymptotic distribution of P values in com posite null models.Journal of the American Statistical Association,95,1143–1156.

        Rubin,D.B.(1984).Bayesianly justifiable and relevant frequency calculations for the applied statistician.The Annals ofStatistics,12,1151–1172.

        Rupp,A.A.(2013).A systematic review of themethodology for person fit research in item response theory:Lessons about generalizability of inferences from the design of simulation studies.Psychological Test and Assessment Modeling,55,3–38.

        Rupp,A.A.,& Tem plin,J.L.(2008).The effects of Q-matrix m isspecification on parameter estimates and classification accuracy in the DINA model.Educational and Psycho logical Measurement,68,78–96.

        Rupp,A.A.,Temp lin,J.,&Henson,R.A.(2010).Diagnostic measurement:Theory,methods,and applications.New York:Guilford.

        Schwarz,G.(1978).Estimating the dimension of a model.Annals ofStatistics,6(2),461–464.

        Sinharay,S.(2005).Assessing fit of unidimensional item response theory models using a Bayesian approach.Journal ofEducational Measurement,42,375–394.

        Sinharay,S.(2006). M odel diagnostics for Bayesian netw orks.JournalofEducationalandBehavioral Statistics,31,1–33.

        Sinharay,S.,A lmond,R.,&Yan,D.L.(2004).Assessing fit ofmodels with discrete proficiency variables in educational assessment(ETSRR-04-07).Princeton NJ:ETS.

        Sinharay,S.,&A lmond,R.G.(2007).Assessing fit of cognitive diagnostic models:A case study.Educational and Psychological Measurement,67,239–257.

        Sinharay,S.,&Johnson,M.S.(2003).Simulation studies applyingposteriorpredictivemodelcheckingfor assessing fit of the common item response theory models(ETSRR-03-28).Princeton,NJ:ETS.

        Spiegelhalter,D.J.,&Sm ith,A.F.M.(1982).Bayes factors for linear and log-linear models w ith vague prior information.Journal of the Royal Statistical Society:Series B,44,377–387.

        Spiegelhalter,D.J.,Best,N.G.,Carlin,B.P.,&van der Linde,A.(2002).Bayesian measures ofmodel com plexity and fit.Journal of the Royal Statistical Society:Series B,64,583–639.

        Stone,C.A.(2000).Monte carlo based null distribution for an alternative goodness-of-fit test statistic in IRT models.Journal ofEducational Measurement,37,58–75.

        Tatsuoka,K.K.(1983).Rule space:An approach for dealing w ith m isconceptions based on item response theory.Journal ofEducational Measurement,20,345–354.

        Tatsuoka, K. K. (1990). Toward an integration of item-response theory and cognitive error diagnosis.In N.Frederiksen,R.G laser,A.Lesgold,&M.G.Shafto(Eds.),Diagnostic monitoring of skill and know ledge acquisition(pp.453–488).Hillsdale,NJ:Law rence Erlbaum.

        Tem plin,J.L.,&Henson,R.A.(2006).Measurement of psychological disorders using cognitive diagnosis models.Psycho logical Methods,11,287–305.

        Tollenaar,N.,&M ooijaart,A.(2003).Type I errors and power of the parametric bootstrap goodness-of-fit test:Full and lim ited information.BritishJournalof Mathematical and Statistical Psychology,56,271–288.

        Wang,C.J.,& Gierl,M.J.(2007).Investigating the cognitive attributes underlying student performance on the SAT?critical reading subtest:an application of the attribute hierarchy method.Paper presented at the 2007 annual meeting of the National Council on Measurement in Education.

        Wang,C.,Shu,Z.,Shang,Z.R.,&Xu,G.J.(2015).Assessing item-level fit for the DINA model.Applied Psycho logical Measurement,39,525–538.

        Yan,D.L.,M islevy,R.J.,&A lmond,R.G.(2003).Design and analysis in a cognitive assessment(ETS RR-03-32).Princeton NJ:ETS.

        Yen,W.M.(1981).Using simulation results to choose a latent traitmodel.Applied Psycho logical Measurement,5,245–262.

        猜你喜歡
        被試測驗(yàn)題目
        多級(jí)計(jì)分測驗(yàn)中基于殘差統(tǒng)計(jì)量的被試擬合研究*
        唐朝“高考”的詩歌題目
        文苑(2020年7期)2020-08-12 09:36:22
        關(guān)于題目的要求
        本期練習(xí)類題目參考答案及提示
        《新年大測驗(yàn)》大揭榜
        趣味(語文)(2018年7期)2018-06-26 08:13:48
        兩個(gè)處理t測驗(yàn)與F測驗(yàn)的數(shù)學(xué)關(guān)系
        考試周刊(2016年88期)2016-11-24 13:30:50
        一道不等式題目的推廣
        你知道嗎?
        Positive Solu tions of Non linear Ellip tic Prob lem in a Non-Sm ooth Planar Dom ain
        民族雜居區(qū)大專生學(xué)習(xí)社會(huì)化現(xiàn)狀的調(diào)查與分析
        日韩亚洲一区二区三区在线| 一本色综合久久| 亚洲人成人77777网站| 欧美日韩激情在线一区二区| 在线观看高清视频一区二区三区| 极品人妻被黑人中出种子| 强行无套内谢大学生初次| 亚洲AV毛片无码成人区httP| 日本在线视频二区一区 | 成年人免费黄色h网| 久久免费精品日本久久中文字幕| 久久久久久久亚洲av无码| 久久99精品国产99久久6尤物| 久久精品国产亚洲Av无码偷窍| 日本一二三区在线视频观看 | 中文字幕日韩人妻高清在线| 日本免费久久高清视频| 男女做爰高清免费视频网站| 嫩草影院未满十八岁禁止入内| 日韩精品视频在线观看免费| 高清中文字幕一区二区三区| 在线亚洲高清揄拍自拍一品区 | 黑人巨茎大战俄罗斯美女| 久久久久久久女国产乱让韩| 亚洲av永久无码精品成人| 沐浴偷拍一区二区视频 | 在线亚洲+欧美+日本专区| 亚洲av日韩av综合aⅴxxx| 亚洲av大片在线免费观看| 国产国产精品人在线视| 国产精品麻豆成人av电影艾秋| 探花国产精品三级在线播放| 人妻中文字幕一区二区视频| 免费观看羞羞视频网站| 国产AV无码专区亚洲AⅤ| 少妇一区二区三区乱码| 偷拍综合在线视频二区| 97se亚洲精品一区| 国产91在线|亚洲| 日本免费精品一区二区| 无码国产精品一区二区免费式直播 |