亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        認知診斷模型下整體和項目擬合指標*

        2016-04-07 05:28:13宋麗紅汪文義戴海琦丁樹良
        心理學探新 2016年1期
        關(guān)鍵詞:模型

        宋麗紅,汪文義,戴海琦,丁樹良

        (1.江西師范大學初等教育學院,南昌 330022;2.江西師范大學計算機信息工程學院,南昌 330022;

        3.江西師范大學心理學院,南昌 330022)

        ?

        認知診斷模型下整體和項目擬合指標*

        宋麗紅1,汪文義2,戴海琦3,丁樹良2

        (1.江西師范大學初等教育學院,南昌 330022;2.江西師范大學計算機信息工程學院,南昌 330022;

        3.江西師范大學心理學院,南昌 330022)

        摘要:認知診斷模型能否擬合測驗數(shù)據(jù),直接決定診斷結(jié)果的準確性。目前國內(nèi)鮮有研究涉及認知診斷測驗下的模型-資料擬合檢驗。文章將模型整體擬合指標及基于PPMC的項目擬合指標應用于認知診斷模型-資料擬合檢驗。模擬研究基于DINA,R-DINA和R-RUM三個診斷模型檢驗各擬合指標的表現(xiàn)。結(jié)果顯示整體和項目擬合指標在識別數(shù)據(jù)產(chǎn)生模型時皆有較高準確率。采用整體和項目擬合指標比較了三個競爭模型與Tatsuoka帶分數(shù)減法數(shù)據(jù)的擬合情況,顯示R-RUM擬合最好。

        關(guān)鍵詞:認知診斷模型;DINA;R-DINA;R-RUM;后驗預測模型檢查;帶分數(shù)減法數(shù)據(jù)

        1引言

        認知診斷評估是認知心理學與心理計量學相結(jié)合的產(chǎn)物,是21世紀一種新的測量范式。認知診斷模型是描述可觀察反應與潛在認知屬性之間關(guān)系的統(tǒng)計模型,對認知診斷評估至關(guān)重要。為了滿足不同情境下實際應用需求,研究者開發(fā)出了眾多認知診斷模型。相關(guān)文獻顯示,截止到2007年,已有診斷模型超過60個(Fu & Li,2007),而之后又涌現(xiàn)出了不少診斷模型(陳秋梅,張敏強,2010;R-DINA,宋麗紅,戴海琦,汪文義,丁樹良,2012)。

        在認知診斷實踐中,選擇恰當?shù)恼J知診斷模型是對被試準確診斷或分類的重要前提(Rupp,Templin,& Henson,2010)。對于特定的診斷測驗,診斷模型的選擇要依據(jù)心理學或教育學的理論假設,如模型假設與測驗作答心理認知過程的匹配性(楊向東,2010;Kunina-Habenicht,Rupp,& Wilhelm,2012),測驗Q矩陣與測驗作答所需屬性及屬性結(jié)構(gòu)的吻合性(丁樹良,毛萌萌,汪文義,羅芬,Cui,2012;涂冬波,蔡艷,戴海琦,2013;Chen,Torre,& Zhang,2013;Kunina-Habenicht et al.,2012)。根據(jù)理論假設確定一個或幾個競爭模型后,需要對診斷模型的模型-資料擬合情況進行考察與評估。

        從現(xiàn)有資料來看,國內(nèi)外公開發(fā)表的認知診斷評估框架下模型-資料擬合研究仍不為多見。Chen等人提出采用-2LL,AIC,BIC和三個殘差指數(shù)識別診斷評估框架下的模型-資料擬合情況(Chen,Torre,& Zhang,2013)。涂冬波、張心、蔡艷和戴海琦(2014)討論了χ2和G2統(tǒng)計量在認知診斷模型-資料擬合檢驗中的可行性及效果。然而χ2和G2統(tǒng)計量及Chen等人提出的指標都存在需要確定統(tǒng)計量理論分布的問題。Sinharay等人構(gòu)建了基于后驗預測模型檢查方法(PPMC,Rubin,1984)的檢驗統(tǒng)計量PPP值(posterior predictive p-value,PPP-value)并用于考察貝葉斯網(wǎng)與測驗資料的擬合情況(Sinharay,2006;Sinharay & Almond,2007)。由于基于PPMC方法計算的檢驗統(tǒng)計量PPP值,無需確定統(tǒng)計量分布,因此具有較好的應用前景。但Sinharay和Almond(2007)沒有進一步對診斷測驗下其指標的性能與表現(xiàn)進行模擬研究,仍無法確定PPP值統(tǒng)計量在認知診斷測驗中的檢驗性能。

        2模型資料擬合指標

        2.1整體相對擬合指標

        此處簡要介紹基于缺失數(shù)據(jù)的整體相對擬合指標:偏差-2LL,AIC,BIC,DIC4。指標越小,表示模型資料擬合越好。各指標計算如下:

        AIC=-2LL+2d

        BIC=-2LL+dlogN

        其中-2LL是對數(shù)似然函數(shù)的條件期望,AIC,BIC 和DIC4在考慮偏差的基礎(chǔ)上,還考慮模型參數(shù)多少以懲罰復雜模型,pD4表示模型的有效參數(shù)個數(shù)或有效維度(Celeux et al.,2006)。

        2.2項目及測驗絕對擬合指標

        其對應的項目或測驗PPP值可類似計算得到,PPP值越大顯示模型-資料擬合越好。

        2.2.2Yen統(tǒng)計量

        3模擬研究

        3.1實驗設計

        模擬研究目的是驗證上述模型整體擬合統(tǒng)計量和項目擬合統(tǒng)計量的偵測性能。模擬采用的項目Q陣含5個相互獨立屬性、30個項目(其中考察1個、2個、3個屬性的項目數(shù)各為10個)。知識狀態(tài)全集數(shù)為32,每種知識狀態(tài)模擬60人,共模擬1920個被試。由于模型存在差異,DINA模型和R-DINA模型的失誤和猜測參數(shù)為:1-s~4-Beta(0.4,1,2,1)和g~4-Beta(0,0.6,1,2),而R-RUM模型中參數(shù)分別為:π~U(0.8,0.98)和r~U(0.1,0.6)。固定Q陣和被試,分別采用DINA,R-DINA和R-RUM(產(chǎn)生數(shù)據(jù)模型,或稱真實模型)模擬得分陣。然后對各批得分陣數(shù)據(jù),分別使用DINA,R-DINA和R-RUM進行分析(分析數(shù)據(jù)模型,或稱擬合模型),三個模型均采用MCMC估計,各采用5條鏈,每條鏈長設置為5000,保留后面4000。

        3.2實驗結(jié)果及結(jié)論

        3.2.1MCMC收斂檢查

        3.2.2整體擬合指標表現(xiàn)

        表1列出了各情形下相對擬合指標DIC4及絕對擬合指標G2的測驗PPP值。在DIC4的計算結(jié)果中,對角線元素皆為其所在列最小值,可見DIC4指標能正確識別數(shù)據(jù)產(chǎn)生模型。-2LL、AIC和BIC表現(xiàn)類似(結(jié)果未列出)。觀察絕對擬合指標G2的測驗PPP值,發(fā)現(xiàn)對角線元素皆為其所在列最大值。由于PPP值越大模型擬合越好,表中數(shù)據(jù)表明基于PPMC的G2檢驗法能較好地識別數(shù)據(jù)產(chǎn)生模型。

        表1 模擬數(shù)據(jù)整體擬合指標

        注:左表頭第一列表示分析數(shù)據(jù)模型,上表頭第二行表示產(chǎn)生數(shù)據(jù)模型

        表2 模擬數(shù)據(jù)項目擬合指標表現(xiàn)

        注:左表頭第二列表示分析數(shù)據(jù)模型,上表頭第二行表示產(chǎn)生數(shù)據(jù)模型

        3.2.3項目擬合指標表現(xiàn)

        表2列出了項目擬合指標的表現(xiàn)。在0.01顯著性水平上,基于PPMC的χ2檢驗法拒真率為0;納偽率稍大。尤其R-DINA和R-RUM模型之間的納偽概率較大,這是可能因為R-RUM假設比R-DINA弱,R-DINA模型產(chǎn)生的數(shù)據(jù),R-RUM可全部擬合。R-RUM模型產(chǎn)生的數(shù)據(jù)用R-DINA進行分析時,有10個項目發(fā)生錯判。進一步考察10個錯判項目和10個判對的項目(排除10個單個屬性項目),該兩批項目R-RUM的rjk參數(shù)標準差的平均值分別為.09和.17。這一錯判結(jié)果在情理之中,因為在屬性同質(zhì)性較高的情況下,R-RUM模型與R-DINA模型區(qū)別不大,且R-DINA模型簡單得多。G2檢驗方法與χ2檢驗方法表現(xiàn)十分接近(結(jié)果未列出)。Yen統(tǒng)計量總體表現(xiàn)較χ2檢驗法稍差,這可能與Yen統(tǒng)計量需要假定統(tǒng)計量分布有關(guān),而基于PPMC的檢驗方法無需理論分布假設。

        4實測數(shù)據(jù)分析

        模擬研究結(jié)果顯示模型整體和項目擬合指標均表現(xiàn)不錯,但指標能否有效應用到實測數(shù)據(jù)分析有待考察。為此,研究采用經(jīng)典的Tatsuoka(2002)分數(shù)減法測驗數(shù)據(jù),運用前述各項指標評價三個診斷模型(DINA,R-DINA,R-RUM)與該測驗數(shù)據(jù)資料的擬合情況。

        Tatsuoka隨文公布的分數(shù)減法測驗數(shù)據(jù)含20個項目和536個被試。文章按題目內(nèi)容從中抽取15個帶分數(shù)減法項目進行分析,項目所測屬性為5個(Sinharay & Almond,2007),被試屬性掌握模式為32種。根據(jù)前述模型整體擬合指標和項目擬合指標,下文對三個競爭模與該數(shù)據(jù)資料的擬合情況進行比較與評價。參數(shù)估計采用MCMC方法,總鏈長25000,保留后面15000。

        4.1MCMC收斂檢查

        4.2模型整體擬合

        文章首先考察了三個模型的整體相對擬合指標-2LL、AIC、BIC和DIC4,結(jié)果顯示,DINA擬合最差,R-DINA與R-RUM各有優(yōu)勢。從DIC4看,R-RUM下DIC4(9157)比R-DINA下DIC4(9211)稍好;但從BIC來看,R-DINA下BIC(9576)較R-RUM BIC(9827)小較多,原因是R-RUM是一個復雜模型,在BIC指標計算中受到了更大的懲罰。Chen等人(2013)的研究結(jié)果也表明,較之DINA模型,R-RUM模型與該批實測數(shù)據(jù)擬合更好。文章接著考察了R-RUM與R-DINA模型的整體絕對擬合指標G2的PPP值,R-RUM模型測驗PPP值為0.07,在.05水平上未達到顯著,表明R-RUM模型擬合較好。R-DINA的整體絕對擬合指標G2的PPP值為0.01,絕對擬合欠佳。

        4.3模型項目擬合

        表3列出了三個模型在各項目上的似然比統(tǒng)計量的后驗預測P值(卡方統(tǒng)計量的PPP值與之類似,故略)。在0.01顯著性水平上,DINA模型有3個項目不擬合,與Sinharay和Almond(2007)基于χ2值(相當于文中Yen統(tǒng)計量)得出的結(jié)果基本類似;R-RUM與R-DINA模型各有1個項目擬合不佳;相比之下,R-RUM的PPP值較大,擬合最好,這與上述模型整體擬合結(jié)果一致。

        表3 帶分數(shù)減法數(shù)據(jù)之項目似然比統(tǒng)計量的PPP值

        5結(jié)論與討論

        模型-資料擬合檢驗是模型選擇的重要依據(jù)。然而,模型-資料擬合檢驗雖可為認知診斷模型選擇提供一定信息,但模型的選擇不能僅憑模型擬合數(shù)據(jù)的好壞來評判。認知診斷模型的選擇需要綜合考慮多方面的因素,如需要充分結(jié)合文獻調(diào)查、學科專家和口語報告等方法的結(jié)果,評判所測量的領(lǐng)域涉及的認知屬性及屬性間關(guān)系、分析被試作答的心理認知過程。診斷模型選擇還要結(jié)合模型的復雜性與解釋性及診斷目的能否充分實現(xiàn)等因素,如單維項目反應模型可能可以較好地擬合數(shù)據(jù),但要求其提供豐富的診斷信息還比較困難;在能夠?qū)崿F(xiàn)診斷目的的前提下,簡單模型較復雜模型參數(shù)估計更容易,解釋性更好。另外,由于認知診斷模型不擬合原因的多樣性,仍需構(gòu)建檢查特定不擬合類型的統(tǒng)計量,如對數(shù)機率比可用于模型局部獨立性檢驗。文章僅考慮了模型整體擬合指標和基于知識狀態(tài)等價類的項目水平擬合指標,被試擬合指標及基于原始分數(shù)的項目擬合指標有待進一步探討和比較。最后,認知診斷模型提供的診斷信息,是否能真正在教學中起到作用,有待更多的實證研究去探討。

        參考文獻

        陳秋梅,張敏強.(2010).認知診斷模型發(fā)展及其應用方法述評.心理科學進展,3,522-529.

        丁樹良,毛萌萌,汪文義,羅芬,Cui,Y.(2012).教育認知診斷測驗與認知模型一致性的評估.心理學報,44,1535-1546.

        漆書青,戴海崎,丁樹良.(2002).現(xiàn)代教育與心理測量學原理.北京:高等教育出版社.

        宋麗紅,戴海琦,汪文義,丁樹良.(2012).R-DINA模型參數(shù)估計EM算法準確性檢驗.心理學探新,32,410-413.

        涂冬波,蔡艷,戴海琦.(2013).幾種常用非補償型認知診斷模型的比較與選用:基于屬性層級關(guān)系的考量.心理學報,45,243-252.

        涂冬波,張心,蔡艷,戴海琦.(2014).認知診斷模型-資料擬合檢驗統(tǒng)計量及其性能.心理科學,37,205-211.

        楊向東.(2010).測驗項目反應機制與心理測量模型假設的對應性分析.心理科學進展,18,1349-1358.

        Brooks,S.P.,& Gelman,A.(1998).General methods for monitoring convergence of iterative simulations.JournalofComputationalandGraphicalStatistics,47(4),434-455.

        Celeux,G.,F(xiàn)orbers,F(xiàn).,Robert,C.P.,& Titterington,D.M.(2006).Deviance information criteria for missing data models.BayesianAnalysis,1,651-674.

        Chen,J.,Torre,J.D.L.,& Zhang,Z.(2013).Relative and absolute fit evaluation in cognitive diagnosis modeling.JournalofEducationalMeasurement,50,123-140.

        Fu,J.B.,& Li,Y.M.(2007).Cognitivelydiagnosticpsychometricmodels:Anintegrativereview.Paper presented at the National Council on Measurement in Education,Chicago,IL.

        Junker,B.W.,& Sijtsma,K.(2001).Cognitive assessment models with few assumptions,and connections with nonparametric item response theory.AppliedPsychologicalMeasurement,25,258-272.

        Kunina-Habenicht,O.,Rupp,A.A.,& Wilhelm,O.(2012).The impact of model misspecification on parameter estimation and item-fit assessment in log-linear diagnostic classification models.JournalofEducationalMeasurement,49,59-81.

        Rubin,D.B.(1984).Bayesianly justifiable and relevant frequency calculations for the applied statistician.AnnalsofStatistics,12,1151-1172.

        Rupp,A.A.,Templin,J.L.,& Henson,R.A.(2010).Diagnosticmeasurement:Theory,methods,andapplications.New York:The Guilford Press.

        Sinharay,S.(2006).Model diagnostics for bayesian networks.JournalofEducationalandBehavioralStatistics,31,1-33.

        Sinharay,S.,& Almond,R.G.(2007).Assessing fit of cognitive diagnostic models:A case study.EducationalandPsychologicalMeasurement,67,239-257.

        Tatsuoka,C.(2002).Data analytic methods for latent partially ordered classification models.JournaloftheRoyalStatisticalSociety:SeriesC(AppliedStatistics),51,337-350.

        Global Fit Indices and Item-Fit Indices for Cognitive Diagnostic Models

        Song Lihong1,Wang Wenyi2,Dai Haiqi3,Ding Shuliang2

        (1.Elementary Educational College,Jiangxi Normal University,Nanchang 330022;2.College of Computer Information Engineering,Jiangxi Normal University,Nanchang 330022;3.College of Psychology,Jiangxi Normal University,Nanchang 330022)

        Abstract:One key issue in cognitive diagnostic assessement(CDA)is to select a suitable diagnostic model for a specific test.Mismatch between diagnostic model and test data would lead to decreasing classification accuracy.At present,few studies have addressed model-data fit criterion for CDA.Based on posterior predictive model checking(PPMC),this study introduces several global fit indices and item-fit indices for model evaluations in CDA.The global fit indexes may provide information for answering the question as to the utility of the data for analysis by the model.The item-fit indexes are used to determine the interaction between the item responses and skills that each item is designed to measure.Simulation and real-data studies are conducted to examine the performance of these indices on three CDMs.The simulation results indicate that:(1)global fit indices are almost able to identify the simulation models and detect poor-fitting models;(2)the item fit indices were able to identify fitting items and detect poor-fitting items.The results from real-data analysis indicate that:(1)according to BIC and DIC4and global G2,the R-RUM performed best followed by R-DINA model,and DINA model worst;(2)for the number of item fit,the R-RUM and the R-DINA model also outperform the DINA model.

        Key words:cognitive diagnostic model;DINA;R-DINA;R-RUM;posterior predictive model checking;fraction subtraction data

        中圖分類號:B841.2

        文獻標識碼:A

        文章編號:1003-5184(2016)01-0079-05

        通訊作者:宋麗紅,E-mail:viviansong1981@163.com。

        *基金項目:全國教育科學規(guī)劃教育部重點課題(DHA150285)。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        天堂69亚洲精品中文字幕| 亚洲字幕av一区二区三区四区| 亚洲av熟女天堂久久天堂| 日本黑人亚洲一区二区 | 一区二区三区视频在线免费观看| 亚洲一区二区三区免费网站| 亚洲欧美v国产一区二区| 国产专区国产av| 人与嘼av免费| 亚洲中文字幕精品一区二区| 日韩精品视频免费在线观看网站| 欧美人妻aⅴ中文字幕| 天天做天天爱天天综合网| 久久久久久人妻一区二区无码Av | 国产专区亚洲专区久久| 免费无码又爽又高潮视频| 亚洲av无码男人的天堂在线| 国产精品无码久久久久久蜜臀AV| 国产一品二品三区在线观看| 国产专区一线二线三线码 | 国产AV无码专区亚洲AV桃花庵| 亚洲成av人片在久久性色av| 80s国产成年女人毛片| 国产又黄又大又粗的视频| 亚洲欧美在线视频| 中文字幕高清视频婷婷| 欧美牲交videossexeso欧美| 免费一区二区三区久久| 国产91九色视频在线播放| 精品中文字幕精品中文字幕| 久久精品国产亚洲av麻豆色欲| 无尽动漫性视频╳╳╳3d| 高跟丝袜一区二区三区| 国产自拍成人免费视频| 免费看黄a级毛片| 毛片毛片免费看| 日韩人妻大奶子生活片| 国产色欲av一区二区三区| 国产精品ⅴ无码大片在线看| 日韩一区二区超清视频| 日本视频一区二区三区|