亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

認(rèn)知診斷測驗(yàn)的屬性分類一致性和分類準(zhǔn)確性指標(biāo)*

2016-07-13 10:03:00汪文義宋麗紅丁樹良

心理學(xué)探新 2016年3期

關(guān)鍵詞：屬性信度

汪文義，宋麗紅，陳　平，丁樹良，程　艷

(1.江西師范大學(xué)計算機(jī)信息工程學(xué)院，南昌 330022；2.江西師范大學(xué)初等教育學(xué)院，南昌 330022；3.北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心，北京 100875)

認(rèn)知診斷測驗(yàn)的屬性分類一致性和分類準(zhǔn)確性指標(biāo)*

汪文義1，宋麗紅2，陳平3，丁樹良1，程艷1

摘要：分類一致性和分類準(zhǔn)確性是衡量考試信效度的兩個重要評價指標(biāo)。基于項(xiàng)目反應(yīng)理論下分類一致性和分類準(zhǔn)確性指標(biāo)，提出認(rèn)知診斷測驗(yàn)的屬性(模式)分類一致性和分類準(zhǔn)確性指標(biāo)，討論分類一致性指標(biāo)、分類準(zhǔn)確性指標(biāo)與屬性估計誤差之間的關(guān)系，并由屬性掌握概率的估計標(biāo)準(zhǔn)誤推導(dǎo)出屬性分類準(zhǔn)確性的上限。結(jié)果顯示：屬性(模式)分類一致性可準(zhǔn)確估計重測一致性；分類準(zhǔn)確性指標(biāo)計算簡單，可準(zhǔn)確估計認(rèn)知診斷測驗(yàn)的判準(zhǔn)率。

關(guān)鍵詞：分類一致性；分類準(zhǔn)確性；屬性經(jīng)驗(yàn)信度；屬性α信度；確定性輸入噪聲與門模型

1引言

在認(rèn)知診斷評估領(lǐng)域中，診斷測驗(yàn)的信效度是一個較新的研究領(lǐng)域。認(rèn)知診斷主要是在離散潛在空間對被試分類，連續(xù)潛在空間下信度評估方法不能直接應(yīng)用于診斷測驗(yàn)(Henson，2005；Roussos et al.，2007)。因此，診斷分?jǐn)?shù)信度常常沒有報告，屬性分類結(jié)果的可信度就無從得知(Templin & Bradshaw，2013)。

總之，已有診斷測驗(yàn)的信度和效度評價方法，主要基于模擬的方法、α系數(shù)、相關(guān)系數(shù)或僅給出模式分類指標(biāo)等。筆者基于Rudner方法或Guo方法的思想(Guo，2006；Rudner，2001，2005；Wyse & Hao，2012)，構(gòu)建單個測驗(yàn)的分類一致性和分類準(zhǔn)確性指標(biāo)。該研究與以前研究的區(qū)別在于：(1)無需模擬平行測驗(yàn)，也不是基于α系數(shù)，眾所周知，α系數(shù)僅在平行測驗(yàn)、τ等價測驗(yàn)或基本τ等價測驗(yàn)條件下適用；(2)給出計算簡單的屬性(模式)分類一致性和分類準(zhǔn)確性指標(biāo)；(3)研究分類一致性和信度系數(shù)之間的關(guān)系；(4)研究分類準(zhǔn)確性與模擬的判準(zhǔn)率之間的關(guān)系。

2分類一致性和分類準(zhǔn)確性指標(biāo)

2.1確定性輸入噪音與門模型及知識狀態(tài)估計

以最近研究較多的非補(bǔ)償?shù)恼J(rèn)知診斷模型確定性輸入噪音與門模型(DINA)為例，討論新指標(biāo)的構(gòu)建，該模型的項(xiàng)目反應(yīng)函數(shù)(de la Torre，2009)：

被試在M個項(xiàng)目上的得分向量為Xi=(xi1，xi2，…，xiM)，給定αi，在局部獨(dú)立性假設(shè)下，其似然函數(shù)為：

如通過EM算法估計項(xiàng)目參數(shù)后(de la Torre，2009)，則可采用極大似然法(MLE)、最大后驗(yàn)估計法(MAPE)或?qū)傩缘倪呺H后驗(yàn)概率估計法(MPPE)估計知識狀態(tài)。MAPE估計如下：

然后，可通過確定各屬性的劃界分?jǐn)?shù)，得出被試i在各個屬性上掌握或未掌握狀態(tài)。劃界分?jǐn)?shù)需要進(jìn)行設(shè)定，不同設(shè)定方法對分類信度的影響值得研究(Rupp，Templin，& Henson，2010)。此處劃界分?jǐn)?shù)的設(shè)定不在研究范圍之內(nèi)，僅將各屬性的劃界分?jǐn)?shù)均設(shè)為0.5。

2.2屬性(模式)分類準(zhǔn)確性指標(biāo)

用于估計單個測驗(yàn)分類準(zhǔn)確性的Rudner方法計算簡單(陳平，李珍，辛濤，高慧健，2011；韓寧，2008)且有諸多應(yīng)用(Lathrop & Cheng，2013)。分類準(zhǔn)確性即所有類別上的被試觀察分類與期望分類一致的比率(Rudner，2001，2005)。Guo方法(Guo，2006)弱化了Rudner方法的假設(shè)，計算僅依賴于似然函數(shù)(與采用均勻先驗(yàn)的后驗(yàn)分布對應(yīng))，計算相對簡單，被視為是Rudner方法的改進(jìn)方法。

2.3屬性(模式)分類一致性指標(biāo)

分類一致性反映兩份平行測驗(yàn)或獨(dú)立重測下被試的分類一致性。據(jù)Wyse和 Hao(2012)分類一致性的計算或類似于Templin和Bradshaw(2013)構(gòu)建的列聯(lián)表，可得屬性k的分類一致性指標(biāo)為：

類似地，可得模式分類一致性指標(biāo)為：

2.4屬性分類一致性指標(biāo)、分類準(zhǔn)確性指標(biāo)與屬性概率的標(biāo)準(zhǔn)誤的關(guān)系

由定義知，屬性分類一致性大于分類準(zhǔn)確性(Wyse & Hao，2012)。Templin和Henson(2009)源于IRT中經(jīng)驗(yàn)信度指標(biāo)(可參見BILOG-MG手冊)，提出了屬性經(jīng)驗(yàn)信度指標(biāo)如下：

3模擬研究

3.1研究目的

通過模擬研究，評價分類一致性、屬性信度和模擬重測一致性的關(guān)系；評價分類準(zhǔn)確性與模擬判準(zhǔn)率的關(guān)系；考察兩指標(biāo)的影響因素。

3.2研究設(shè)計

考慮6個相互獨(dú)立屬性，模擬10000被試，項(xiàng)目數(shù)固定為300，猜測與失誤參數(shù)分別服從U(0.05，0.25)和U(0.05，0.40)，項(xiàng)目以0.2的概率考察屬性，得到兩個不同Q陣的題庫。采用隨機(jī)組卷(RD)和無約束的CDI組卷(Henson，2005)，各得到一個含30個項(xiàng)目的測驗(yàn)Q陣及項(xiàng)目參數(shù)，重復(fù)模擬30個得分陣。

3.3評價指標(biāo)

3.4研究結(jié)果

表1　屬性或模式的判準(zhǔn)率和分類準(zhǔn)確性均值

表1從上至下4種條件下，MAP估計的模式分類一致性分別為：0.59，0.87，0.37，0.65，而重測一致性分別為：0.53，0.83，0.32，0.71。重測一致性根據(jù)Roussos等(2007)的方法，采用模擬方法計算得到。圖1至圖4給出了各模擬條件下屬性的信度指標(biāo)的均值，結(jié)果顯示：經(jīng)驗(yàn)信度和分類一致性比α信度，更為接近重測一致性，尤其是在CDI組卷?xiàng)l件下。因CDI組卷基本上選擇考察單個屬性的項(xiàng)目，考察相同屬性的項(xiàng)目基本滿足基本τ等價條件，而隨機(jī)組卷有的項(xiàng)目考察多個屬性，易違背單維性條件。

圖1　U(0.05，0.25)、RD條件下各信度系數(shù)比較

圖2　U(0.05，0.25)、CDI條件下各信度系數(shù)比較

圖3　U(0.05，0.40)、RD條件下各信度系數(shù)比較

圖4　 U(0.05，0.40)、CDI條件下各信度系數(shù)比較

4實(shí)證數(shù)據(jù)分析

5結(jié)論和討論

屬性(模式)分類準(zhǔn)確性指標(biāo)可較好估計模擬的屬性(模式)判準(zhǔn)率；由屬性概率標(biāo)準(zhǔn)誤可得出分類準(zhǔn)確性的上限；屬性α信度系數(shù)表現(xiàn)不如分類一致性和經(jīng)驗(yàn)信度系數(shù)；構(gòu)建的分類一致性和分類準(zhǔn)確性指標(biāo)比Cui等(2012)提出的指標(biāo)計算要簡便。

新構(gòu)建的診斷測驗(yàn)分類一致性和分類準(zhǔn)確性指標(biāo)，可較好反映屬性報告分?jǐn)?shù)的分類信、效度，對測驗(yàn)信、效度評估具有重要應(yīng)用價值。分類準(zhǔn)確性可較好估計判準(zhǔn)率，意義在于：(1)通常判準(zhǔn)率在真實(shí)測驗(yàn)中得不到，可使用分類準(zhǔn)確性指標(biāo)評價真實(shí)測驗(yàn)的判準(zhǔn)率；(2)可為變長計算機(jī)化自適應(yīng)診斷測驗(yàn)下特定的終止規(guī)則提供解釋，如僅以最大后驗(yàn)概率0.8的標(biāo)準(zhǔn)終止測驗(yàn)，基本上可以認(rèn)為所有被試的判準(zhǔn)率接近0.8(汪文義，丁樹良，宋麗紅，2014)。測驗(yàn)信效度在測驗(yàn)編制、組卷和自適應(yīng)診斷測驗(yàn)中的應(yīng)用，有待研究。

該研究僅基于DINA模型定義和討論新指標(biāo)，但新指標(biāo)可應(yīng)用于其它有顯式表達(dá)式的認(rèn)知診斷模型，即可通過顯示函數(shù)給出知識狀態(tài)和項(xiàng)目參數(shù)下項(xiàng)目反應(yīng)答對概率的數(shù)學(xué)表達(dá)式，如融合模型和確定性輸入噪聲或門模型等。是否可稍加改變以適合屬性層級模型，值得研究。Q矩陣作為效度證據(jù)的重要來源之一，直接決定診斷反饋結(jié)果的準(zhǔn)確性和有效性。該研究在分類準(zhǔn)確性估計中尚未考慮Q矩陣本身質(zhì)量好壞的影響，這些指標(biāo)是否對Q矩陣誤指(宋麗紅，汪文義，丁樹良，2015；汪文義，宋麗紅，丁樹良，2015)敏感，以及可否作為評價Q矩陣質(zhì)量的一項(xiàng)指標(biāo)，值得思考。其他因素，如樣本量大小、屬性層級結(jié)構(gòu)、測驗(yàn)長度對其影響如何也有待關(guān)注。

值得注意的是，IRT經(jīng)驗(yàn)信度是建立在潛變量方差和誤差方差相互獨(dú)立假設(shè)之上的。在認(rèn)知診斷模型中，潛變量為分類變量，潛變量方差和誤差方差不相互獨(dú)立(Templin & Bradshaw，2013)，因此使用Templin和Henson(2009)提出的屬性經(jīng)驗(yàn)信度應(yīng)慎重。

參考文獻(xiàn)

陳平，李珍，辛濤，高慧健.(2011).標(biāo)準(zhǔn)參照測驗(yàn)決策一致性指標(biāo)研究的總結(jié)與展望.心理發(fā)展與教育，2，210-215.

丁樹良，毛萌萌，汪文義，羅芬，Cui，Y.(2012).教育認(rèn)知診斷測驗(yàn)與認(rèn)知模型一致性的評估.心理學(xué)報，44，1535-1546.

關(guān)守義.(2009).克龍巴赫α系數(shù)研究述評.心理科學(xué)，32，685-687.

韓寧.(2008).評價考試質(zhì)量的新指標(biāo)：決策一致性和決策準(zhǔn)確性.中國考試，6，3-6.

孟慶茂，劉紅云.(2002).α系數(shù)在使用中存在的問題.心理學(xué)探新，22(3)，42-47.

宋麗紅,汪文義,丁樹良.(2015).測驗(yàn)Q矩陣的修正方法及其比較研究.江西師范大學(xué)學(xué)報(自然科學(xué)版),39,623-630.

汪文義，丁樹良，宋麗紅.(2014).兼顧測驗(yàn)效率和題庫使用率的CD-CAT選題策略.心理科學(xué)，37，212-216.

汪文義,宋麗紅,丁樹良.(2015).基于探索性因素分析的Q矩陣標(biāo)定方法.江西師范大學(xué)學(xué)報(自然科學(xué)版),39,138-144,170.

Cui，Y.，Gierl，M.J.，& Chang，H.-H.(2012).Estimating classification consistency and accuracy for cognitive diagnostic assessment.JournalofEducationalMeasurement，49，19-38.

de la Torre，J.(2009).DINA model and parameter estimation：A didactic.JournalofEducationalandBehavioralStatistics，34，115-130.

Gierl，M.J.，Cui，Y.，& Zhou，J.(2009).Reliability and attribute-based scoring in cognitive diagnostic assessment.JournalofEducationalMeasurement，46，293-313.

Guo，F(xiàn).(2006).Expected classification accuracy using the latent distribution.PracticalAssessment，Research&Evaluation，11，1-6.

Henson，R.(2005).Test construction for cognitive diagnosis.AppliedPsychologicalMeasurement，29，262-277.

Lathrop，Q.N.，& Cheng，Y.(2013).Two approaches to estimation of classification accuracy rate under item response theory.AppliedPsychologicalMeasurement，37，226-241.

Lee，W.C.，Brennan，R.L.，& Wan，L.(2009).Classificationconsistency and accuracy for complex assessments under the compound multinomial model.AppliedPsychologicalMeasurement，33，374-390.

Liu，H.Y.，You，X.F.，Wang，W.Y.，Ding，S.L.，& Chang，H.H.(2013).The development of computerized adaptive testing with cognitive diagnosis for an english achievement test in China.JournalofClassification，30，152-172.

Roussos，L.A.，DiBello，L.V.，Stout，W.，Hartz，S.M.，Henson，R.A.，& Templin，J.L.(2007).The fusion model skills diagnosis system.In J.P.Leighton & M.J.Gierl(Eds.)，Cognitivediagnosticassessmentforeducation：Theoryandapplications(pp.275-318).New York：Cambridge University Press.

Rudner，L.M.(2001).Computing the expected proportions of misclassified examinees.PracticalAssessment，Research&Evaluation，7，1-8.

Rudner，L.M.(2005).Expected classification accuracy.PracticalAssessmentResearch&Evaluation，10，1-4.

Rupp，A.A.，Templin，J.L.，& Henson，R.A.(2010).Diagnosticmeasurement：Theory，methods，andapplications.New York：The Guilford Press.

Sijtsma，K.(2009).On the use，the misuse，and the very limited usefulness of Cronbach’s alpha.Psychometrika，74，107-120.

Templin，J.，& Bradshaw，L.(2013).Measuring the reliability of diagnostic classification model examinee estimates.JournalofClassification，30，251-275.

Templin，J.，& Henson，R.(April，2009).Quantifyingreliabilityindiagnosticclassificationmodels.Paper presented at the annual meeting of the National Council on Measurement in Education，San Diego，CA.

Wyse，A.E.，& Hao，S.(2012).Anevaluation of item response theory classification accuracy and consistency indices.AppliedPsychologicalMeasurement，36，602-624.

An Evaluation of Attribute-level Classification Consistency and Accuracy Indices in Cognitive Diagnostic Assessment

Wang Wenyi1，Song Lihong2，Chen Ping3，Ding Shuliang1，Cheng Yan1

(1.College of Computer Information Engineering，Jiangxi Normal University，Nanchang 330022；2.Elementary Educational College，Jiangxi Normal University，Nanchang 330022；3.Collaborative Innovation Center of Assessment toward Basic Education Quality，Beijing Normal University，Beijing 100875)

Abstract：Classification consistency and accuracy indices can be used as important indicators of the reliability and validity of classification results.Cognitive diagnostic assessment focuses on make attribute classification-based decisions while reliability of classification is often not reported in diagnostic score reporting.Classification consistency and accuracy indices(Cui，et al.，2012)were used to evaluate the consistency and accuracy of classification results at the whole-pattern level，but it needs to develop attribute-level classification consistency and accuracy indices for CDA(Cui，et al.，2012).The study investigated attribute-level and pattern-level classification consistency and accuracy indices based on the Rudner method or the Guo method(Guo，2006)in item response theory.Procedures were developed for the computation of classification consistency and accuracy indices specifically designed for cognitive diagnostic assessments.We also used simulated data from the deterministic input noisy “and” gate model to evaluate their performances.According to the simulation results，the classification accuracy indices performed well with simulated diagnostic tests in that their values matched closely with the simulated correct classification rates across different simulation conditions.In addition，classification consistency indices matched with the results of the test-retest consistency indices.

Key words：classification consistency index；classification accuracy index；empirical reliability of attribute；Cronbach’s α reliability of attribute；the deterministic input noisy “and” gate model

*基金項(xiàng)目：全國教育科學(xué)規(guī)劃教育部重點(diǎn)課題(DHA150285)，國家自然科學(xué)基金(31500909,30860084,31160203,31360237,31300862,61262080)，教育部人文社會科學(xué)研究青年基金項(xiàng)目(13YJC880060)，江西省社會科學(xué)研究“十二五”(2012年)規(guī)劃項(xiàng)目(12JY07)，江西省教育科學(xué)2013年度一般課題(13YB032)，江西省教育廳科技計劃項(xiàng)目(GJJ13207)，東北師范大學(xué)應(yīng)用統(tǒng)計教育部重點(diǎn)實(shí)驗(yàn)室開放課題(KLAS130028614)，國家社會科學(xué)基金(12BYY055)，國家教育科學(xué)規(guī)劃項(xiàng)目(CCA110109)，江西師范大學(xué)青年成長基金和博士啟動基金。

通訊作者：宋麗紅，E-mail：viviansong1981@163.com。

中圖分類號：B841.2

文獻(xiàn)標(biāo)識碼：A

文章編號：1003-5184(2016)03-0264-06