亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        認(rèn)知診斷測驗的屬性分類一致性和分類準(zhǔn)確性指標(biāo)*

        2016-07-13 10:03:00汪文義宋麗紅丁樹良
        心理學(xué)探新 2016年3期
        關(guān)鍵詞:屬性信度

        汪文義,宋麗紅,陳 平,丁樹良,程 艷

        (1.江西師范大學(xué)計算機(jī)信息工程學(xué)院,南昌 330022;2.江西師范大學(xué)初等教育學(xué)院,南昌 330022;3.北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心,北京 100875)

        ?

        認(rèn)知診斷測驗的屬性分類一致性和分類準(zhǔn)確性指標(biāo)*

        汪文義1,宋麗紅2,陳平3,丁樹良1,程艷1

        (1.江西師范大學(xué)計算機(jī)信息工程學(xué)院,南昌 330022;2.江西師范大學(xué)初等教育學(xué)院,南昌 330022;3.北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心,北京 100875)

        摘要:分類一致性和分類準(zhǔn)確性是衡量考試信效度的兩個重要評價指標(biāo)。基于項目反應(yīng)理論下分類一致性和分類準(zhǔn)確性指標(biāo),提出認(rèn)知診斷測驗的屬性(模式)分類一致性和分類準(zhǔn)確性指標(biāo),討論分類一致性指標(biāo)、分類準(zhǔn)確性指標(biāo)與屬性估計誤差之間的關(guān)系,并由屬性掌握概率的估計標(biāo)準(zhǔn)誤推導(dǎo)出屬性分類準(zhǔn)確性的上限。結(jié)果顯示:屬性(模式)分類一致性可準(zhǔn)確估計重測一致性;分類準(zhǔn)確性指標(biāo)計算簡單,可準(zhǔn)確估計認(rèn)知診斷測驗的判準(zhǔn)率。

        關(guān)鍵詞:分類一致性;分類準(zhǔn)確性;屬性經(jīng)驗信度;屬性α信度;確定性輸入噪聲與門模型

        1引言

        在認(rèn)知診斷評估領(lǐng)域中,診斷測驗的信效度是一個較新的研究領(lǐng)域。認(rèn)知診斷主要是在離散潛在空間對被試分類,連續(xù)潛在空間下信度評估方法不能直接應(yīng)用于診斷測驗(Henson,2005;Roussos et al.,2007)。因此,診斷分?jǐn)?shù)信度常常沒有報告,屬性分類結(jié)果的可信度就無從得知(Templin & Bradshaw,2013)。

        總之,已有診斷測驗的信度和效度評價方法,主要基于模擬的方法、α系數(shù)、相關(guān)系數(shù)或僅給出模式分類指標(biāo)等。筆者基于Rudner方法或Guo方法的思想(Guo,2006;Rudner,2001,2005;Wyse & Hao,2012),構(gòu)建單個測驗的分類一致性和分類準(zhǔn)確性指標(biāo)。該研究與以前研究的區(qū)別在于:(1)無需模擬平行測驗,也不是基于α系數(shù),眾所周知,α系數(shù)僅在平行測驗、τ等價測驗或基本τ等價測驗條件下適用;(2)給出計算簡單的屬性(模式)分類一致性和分類準(zhǔn)確性指標(biāo);(3)研究分類一致性和信度系數(shù)之間的關(guān)系;(4)研究分類準(zhǔn)確性與模擬的判準(zhǔn)率之間的關(guān)系。

        2分類一致性和分類準(zhǔn)確性指標(biāo)

        2.1確定性輸入噪音與門模型及知識狀態(tài)估計

        以最近研究較多的非補償?shù)恼J(rèn)知診斷模型確定性輸入噪音與門模型(DINA)為例,討論新指標(biāo)的構(gòu)建,該模型的項目反應(yīng)函數(shù)(de la Torre,2009):

        被試在M個項目上的得分向量為Xi=(xi1,xi2,…,xiM),給定αi,在局部獨立性假設(shè)下,其似然函數(shù)為:

        如通過EM算法估計項目參數(shù)后(de la Torre,2009),則可采用極大似然法(MLE)、最大后驗估計法(MAPE)或?qū)傩缘倪呺H后驗概率估計法(MPPE)估計知識狀態(tài)。MAPE估計如下:

        然后,可通過確定各屬性的劃界分?jǐn)?shù),得出被試i在各個屬性上掌握或未掌握狀態(tài)。劃界分?jǐn)?shù)需要進(jìn)行設(shè)定,不同設(shè)定方法對分類信度的影響值得研究(Rupp,Templin,& Henson,2010)。此處劃界分?jǐn)?shù)的設(shè)定不在研究范圍之內(nèi),僅將各屬性的劃界分?jǐn)?shù)均設(shè)為0.5。

        2.2屬性(模式)分類準(zhǔn)確性指標(biāo)

        用于估計單個測驗分類準(zhǔn)確性的Rudner方法計算簡單(陳平,李珍,辛濤,高慧健,2011;韓寧,2008)且有諸多應(yīng)用(Lathrop & Cheng,2013)。分類準(zhǔn)確性即所有類別上的被試觀察分類與期望分類一致的比率(Rudner,2001,2005)。Guo方法(Guo,2006)弱化了Rudner方法的假設(shè),計算僅依賴于似然函數(shù)(與采用均勻先驗的后驗分布對應(yīng)),計算相對簡單,被視為是Rudner方法的改進(jìn)方法。

        2.3屬性(模式)分類一致性指標(biāo)

        分類一致性反映兩份平行測驗或獨立重測下被試的分類一致性。據(jù)Wyse和 Hao(2012)分類一致性的計算或類似于Templin和Bradshaw(2013)構(gòu)建的列聯(lián)表,可得屬性k的分類一致性指標(biāo)為:

        類似地,可得模式分類一致性指標(biāo)為:

        2.4屬性分類一致性指標(biāo)、分類準(zhǔn)確性指標(biāo)與屬性概率的標(biāo)準(zhǔn)誤的關(guān)系

        由定義知,屬性分類一致性大于分類準(zhǔn)確性(Wyse & Hao,2012)。Templin和Henson(2009)源于IRT中經(jīng)驗信度指標(biāo)(可參見BILOG-MG手冊),提出了屬性經(jīng)驗信度指標(biāo)如下:

        3模擬研究

        3.1研究目的

        通過模擬研究,評價分類一致性、屬性信度和模擬重測一致性的關(guān)系;評價分類準(zhǔn)確性與模擬判準(zhǔn)率的關(guān)系;考察兩指標(biāo)的影響因素。

        3.2研究設(shè)計

        考慮6個相互獨立屬性,模擬10000被試,項目數(shù)固定為300,猜測與失誤參數(shù)分別服從U(0.05,0.25)和U(0.05,0.40),項目以0.2的概率考察屬性,得到兩個不同Q陣的題庫。采用隨機(jī)組卷(RD)和無約束的CDI組卷(Henson,2005),各得到一個含30個項目的測驗Q陣及項目參數(shù),重復(fù)模擬30個得分陣。

        3.3評價指標(biāo)

        3.4研究結(jié)果

        表1 屬性或模式的判準(zhǔn)率和分類準(zhǔn)確性均值

        表1從上至下4種條件下,MAP估計的模式分類一致性 分別為:0.59,0.87,0.37,0.65,而重測一致性分別為:0.53,0.83,0.32,0.71。重測一致性根據(jù)Roussos等(2007)的方法,采用模擬方法計算得到。圖1至圖4給出了各模擬條件下屬性的信度指標(biāo)的均值,結(jié)果顯示:經(jīng)驗信度和分類一致性比α信度,更為接近重測一致性,尤其是在CDI組卷條件下。因CDI組卷基本上選擇考察單個屬性的項目,考察相同屬性的項目基本滿足基本τ等價條件,而隨機(jī)組卷有的項目考察多個屬性,易違背單維性條件。

        圖1 U(0.05,0.25)、RD條件下各信度系數(shù)比較

        圖2 U(0.05,0.25)、CDI條件下各信度系數(shù)比較

        圖3 U(0.05,0.40)、RD條件下各信度系數(shù)比較

        圖4  U(0.05,0.40)、CDI條件下各信度系數(shù)比較

        4實證數(shù)據(jù)分析

        5結(jié)論和討論

        屬性(模式)分類準(zhǔn)確性指標(biāo)可較好估計模擬的屬性(模式)判準(zhǔn)率;由屬性概率標(biāo)準(zhǔn)誤可得出分類準(zhǔn)確性的上限;屬性α信度系數(shù)表現(xiàn)不如分類一致性和經(jīng)驗信度系數(shù);構(gòu)建的分類一致性和分類準(zhǔn)確性指標(biāo)比Cui等(2012)提出的指標(biāo)計算要簡便。

        新構(gòu)建的診斷測驗分類一致性和分類準(zhǔn)確性指標(biāo),可較好反映屬性報告分?jǐn)?shù)的分類信、效度,對測驗信、效度評估具有重要應(yīng)用價值。分類準(zhǔn)確性可較好估計判準(zhǔn)率,意義在于:(1)通常判準(zhǔn)率在真實測驗中得不到,可使用分類準(zhǔn)確性指標(biāo)評價真實測驗的判準(zhǔn)率;(2)可為變長計算機(jī)化自適應(yīng)診斷測驗下特定的終止規(guī)則提供解釋,如僅以最大后驗概率0.8的標(biāo)準(zhǔn)終止測驗,基本上可以認(rèn)為所有被試的判準(zhǔn)率接近0.8(汪文義,丁樹良,宋麗紅,2014)。測驗信效度在測驗編制、組卷和自適應(yīng)診斷測驗中的應(yīng)用,有待研究。

        該研究僅基于DINA模型定義和討論新指標(biāo),但新指標(biāo)可應(yīng)用于其它有顯式表達(dá)式的認(rèn)知診斷模型,即可通過顯示函數(shù)給出知識狀態(tài)和項目參數(shù)下項目反應(yīng)答對概率的數(shù)學(xué)表達(dá)式,如融合模型和確定性輸入噪聲或門模型等。是否可稍加改變以適合屬性層級模型,值得研究。Q矩陣作為效度證據(jù)的重要來源之一,直接決定診斷反饋結(jié)果的準(zhǔn)確性和有效性。該研究在分類準(zhǔn)確性估計中尚未考慮Q矩陣本身質(zhì)量好壞的影響,這些指標(biāo)是否對Q矩陣誤指(宋麗紅,汪文義,丁樹良,2015;汪文義,宋麗紅,丁樹良,2015)敏感,以及可否作為評價Q矩陣質(zhì)量的一項指標(biāo),值得思考。其他因素,如樣本量大小、屬性層級結(jié)構(gòu)、測驗長度對其影響如何也有待關(guān)注。

        值得注意的是,IRT經(jīng)驗信度是建立在潛變量方差和誤差方差相互獨立假設(shè)之上的。在認(rèn)知診斷模型中,潛變量為分類變量,潛變量方差和誤差方差不相互獨立(Templin & Bradshaw,2013),因此使用Templin和Henson(2009)提出的屬性經(jīng)驗信度應(yīng)慎重。

        參考文獻(xiàn)

        陳平,李珍,辛濤,高慧健.(2011).標(biāo)準(zhǔn)參照測驗決策一致性指標(biāo)研究的總結(jié)與展望.心理發(fā)展與教育,2,210-215.

        丁樹良,毛萌萌,汪文義,羅芬,Cui,Y.(2012).教育認(rèn)知診斷測驗與認(rèn)知模型一致性的評估.心理學(xué)報,44,1535-1546.

        關(guān)守義.(2009).克龍巴赫α系數(shù)研究述評.心理科學(xué),32,685-687.

        韓寧.(2008).評價考試質(zhì)量的新指標(biāo):決策一致性和決策準(zhǔn)確性.中國考試,6,3-6.

        孟慶茂,劉紅云.(2002).α系數(shù)在使用中存在的問題.心理學(xué)探新,22(3),42-47.

        宋麗紅,汪文義,丁樹良.(2015).測驗Q矩陣的修正方法及其比較研究.江西師范大學(xué)學(xué)報(自然科學(xué)版),39,623-630.

        汪文義,丁樹良,宋麗紅.(2014).兼顧測驗效率和題庫使用率的CD-CAT選題策略.心理科學(xué),37,212-216.

        汪文義,宋麗紅,丁樹良.(2015).基于探索性因素分析的Q矩陣標(biāo)定方法.江西師范大學(xué)學(xué)報(自然科學(xué)版),39,138-144,170.

        Cui,Y.,Gierl,M.J.,& Chang,H.-H.(2012).Estimating classification consistency and accuracy for cognitive diagnostic assessment.JournalofEducationalMeasurement,49,19-38.

        de la Torre,J.(2009).DINA model and parameter estimation:A didactic.JournalofEducationalandBehavioralStatistics,34,115-130.

        Gierl,M.J.,Cui,Y.,& Zhou,J.(2009).Reliability and attribute-based scoring in cognitive diagnostic assessment.JournalofEducationalMeasurement,46,293-313.

        Guo,F(xiàn).(2006).Expected classification accuracy using the latent distribution.PracticalAssessment,Research&Evaluation,11,1-6.

        Henson,R.(2005).Test construction for cognitive diagnosis.AppliedPsychologicalMeasurement,29,262-277.

        Lathrop,Q.N.,& Cheng,Y.(2013).Two approaches to estimation of classification accuracy rate under item response theory.AppliedPsychologicalMeasurement,37,226-241.

        Lee,W.C.,Brennan,R.L.,& Wan,L.(2009).Classificationconsistency and accuracy for complex assessments under the compound multinomial model.AppliedPsychologicalMeasurement,33,374-390.

        Liu,H.Y.,You,X.F.,Wang,W.Y.,Ding,S.L.,& Chang,H.H.(2013).The development of computerized adaptive testing with cognitive diagnosis for an english achievement test in China.JournalofClassification,30,152-172.

        Roussos,L.A.,DiBello,L.V.,Stout,W.,Hartz,S.M.,Henson,R.A.,& Templin,J.L.(2007).The fusion model skills diagnosis system.In J.P.Leighton & M.J.Gierl(Eds.),Cognitivediagnosticassessmentforeducation:Theoryandapplications(pp.275-318).New York:Cambridge University Press.

        Rudner,L.M.(2001).Computing the expected proportions of misclassified examinees.PracticalAssessment,Research&Evaluation,7,1-8.

        Rudner,L.M.(2005).Expected classification accuracy.PracticalAssessmentResearch&Evaluation,10,1-4.

        Rupp,A.A.,Templin,J.L.,& Henson,R.A.(2010).Diagnosticmeasurement:Theory,methods,andapplications.New York:The Guilford Press.

        Sijtsma,K.(2009).On the use,the misuse,and the very limited usefulness of Cronbach’s alpha.Psychometrika,74,107-120.

        Templin,J.,& Bradshaw,L.(2013).Measuring the reliability of diagnostic classification model examinee estimates.JournalofClassification,30,251-275.

        Templin,J.,& Henson,R.(April,2009).Quantifyingreliabilityindiagnosticclassificationmodels.Paper presented at the annual meeting of the National Council on Measurement in Education,San Diego,CA.

        Wyse,A.E.,& Hao,S.(2012).Anevaluation of item response theory classification accuracy and consistency indices.AppliedPsychologicalMeasurement,36,602-624.

        An Evaluation of Attribute-level Classification Consistency and Accuracy Indices in Cognitive Diagnostic Assessment

        Wang Wenyi1,Song Lihong2,Chen Ping3,Ding Shuliang1,Cheng Yan1

        (1.College of Computer Information Engineering,Jiangxi Normal University,Nanchang 330022;2.Elementary Educational College,Jiangxi Normal University,Nanchang 330022;3.Collaborative Innovation Center of Assessment toward Basic Education Quality,Beijing Normal University,Beijing 100875)

        Abstract:Classification consistency and accuracy indices can be used as important indicators of the reliability and validity of classification results.Cognitive diagnostic assessment focuses on make attribute classification-based decisions while reliability of classification is often not reported in diagnostic score reporting.Classification consistency and accuracy indices(Cui,et al.,2012)were used to evaluate the consistency and accuracy of classification results at the whole-pattern level,but it needs to develop attribute-level classification consistency and accuracy indices for CDA(Cui,et al.,2012).The study investigated attribute-level and pattern-level classification consistency and accuracy indices based on the Rudner method or the Guo method(Guo,2006)in item response theory.Procedures were developed for the computation of classification consistency and accuracy indices specifically designed for cognitive diagnostic assessments.We also used simulated data from the deterministic input noisy “and” gate model to evaluate their performances.According to the simulation results,the classification accuracy indices performed well with simulated diagnostic tests in that their values matched closely with the simulated correct classification rates across different simulation conditions.In addition,classification consistency indices matched with the results of the test-retest consistency indices.

        Key words:classification consistency index;classification accuracy index;empirical reliability of attribute;Cronbach’s α reliability of attribute;the deterministic input noisy “and” gate model

        *基金項目:全國教育科學(xué)規(guī)劃教育部重點課題(DHA150285),國家自然科學(xué)基金(31500909,30860084,31160203,31360237,31300862,61262080),教育部人文社會科學(xué)研究青年基金項目(13YJC880060),江西省社會科學(xué)研究“十二五”(2012年)規(guī)劃項目(12JY07),江西省教育科學(xué)2013年度一般課題(13YB032),江西省教育廳科技計劃項目(GJJ13207),東北師范大學(xué)應(yīng)用統(tǒng)計教育部重點實驗室開放課題(KLAS130028614),國家社會科學(xué)基金(12BYY055),國家教育科學(xué)規(guī)劃項目(CCA110109),江西師范大學(xué)青年成長基金和博士啟動基金。

        通訊作者:宋麗紅,E-mail:viviansong1981@163.com。

        中圖分類號:B841.2

        文獻(xiàn)標(biāo)識碼:A

        文章編號:1003-5184(2016)03-0264-06

        猜你喜歡
        屬性信度
        《廣東地區(qū)兒童中醫(yī)體質(zhì)辨識量表》的信度和效度研究
        對兩種實體觀的探析
        青春歲月(2016年22期)2016-12-23 13:59:29
        用好文件“屬性” 解決實際問題
        論集體建設(shè)用地使用權(quán)的用益物權(quán)屬性
        關(guān)于公允價值本質(zhì)與特性的探析
        中國市場(2016年35期)2016-10-19 03:23:05
        Winsock控件的屬性及應(yīng)用方法
        科技視界(2016年9期)2016-04-26 11:41:42
        科技成果評價的信度分析及模型優(yōu)化
        體育社會調(diào)查問卷信度檢驗的方法學(xué)探索——基于中文核心體育期刊163篇文章分析
        耳鳴殘疾問卷中文版的信度和效度檢驗及其臨床應(yīng)用
        中文版腦性癱瘓兒童生活質(zhì)量問卷的信度
        精品三级av无码一区| 麻豆成人久久精品二区三区免费| 亚洲av成熟国产一区二区| 99久久99久久精品免费看蜜桃| 成人性生交片无码免费看| 国产自在自线午夜精品视频在| 美女性色av一区二区三区| 曰批免费视频播放免费| 免费看黄视频亚洲网站| 亚洲色精品三区二区一区| 日韩精品无码免费专区网站| 97日日碰日日摸日日澡| 久久久精品久久久国产| aaa日本高清在线播放免费观看| 麻豆久久久9性大片| 内射中出无码护士在线| 中文字幕无码免费久久9一区9| 99久久久69精品一区二区三区| 99国产精品久久久久久久成人热| 精品国产av最大网站| 久久一日本道色综合久久大香| 丰满人妻被公侵犯的视频| 欧美成人秋霞久久aa片| 久久无码av三级| 欧美—iGAO视频网| 精品在线观看一区二区视频| 成人无码av免费网站| 一本久久a久久精品亚洲| 亚洲AV秘 无码一区二区三| 亚洲国产最新免费av| 国产精品精品自在线拍| 亚洲熟妇少妇任你躁在线观看| 蜜桃网站在线免费观看视频| 亚洲av免费不卡在线观看| 国产成熟人妻换╳╳╳╳| 自拍 另类 综合 欧美小说| 白色白色白色在线观看视频| 浪货趴办公桌~h揉秘书电影| 抽搐一进一出试看60秒体验区| 亚洲精品无人区一区二区三区| 女人av天堂国产在线|