盧 燕,張 穎,王 鋼,張泉慧
(國(guó)家醫(yī)學(xué)考試中心,北京 100097)
教育測(cè)量學(xué)常用基于經(jīng)典測(cè)量理論(CTT)的肯德?tīng)柡椭C系數(shù)(W系數(shù))以及內(nèi)部一致性百分比(如Kappa系數(shù)等)[1]來(lái)評(píng)價(jià)評(píng)分者誤差。概括化理論(Generalizability Theory,GT)簡(jiǎn)稱(chēng)概化理論,是20世紀(jì)60年代由克隆巴赫(Cronbach,LJ.)和格萊塞(Qeser,R.)[2]等以數(shù)學(xué)形式化后引進(jìn)測(cè)量領(lǐng)域的一種心理計(jì)量學(xué)理論,后為布倫南(Brennan,R.L)[3]等人所大力發(fā)展,是用于分析考試信度與效度的一種較先進(jìn)的測(cè)量學(xué)理論方法。概化理論的研究有兩個(gè)階段,G研究與D研究[4]。G研究主要分解方差來(lái)源;D研究則根據(jù)G結(jié)果計(jì)算信度系數(shù)。
國(guó)家醫(yī)學(xué)考試中心受衛(wèi)生部委托于2010年啟動(dòng)了《中國(guó)心血管內(nèi)科專(zhuān)科醫(yī)師考試體系建設(shè)項(xiàng)目》,2012年嘗試性開(kāi)展了心血管內(nèi)科專(zhuān)科醫(yī)師考試工作。目前該考試分為兩部分,即即專(zhuān)業(yè)理論考試和專(zhuān)業(yè)技能考核。其中專(zhuān)業(yè)技能考核采取計(jì)算機(jī)輔助標(biāo)準(zhǔn)結(jié)構(gòu)化臨床綜合技能面試(以下簡(jiǎn)稱(chēng)面試)。本研究即以概化理論為工具,評(píng)估此考試面試部分的評(píng)分者信度與誤差,并嘗試性提出改進(jìn)方案。
1.研究對(duì)象。從2012心血管內(nèi)科專(zhuān)科醫(yī)生考試面試多套試題中隨機(jī)抽取了一套,以所有作答此套試題的考生分?jǐn)?shù)作為研究樣本,其中考生人數(shù)142名,考官組21組,每組3名,共63名。
2.研究方法。按照概化理論,本考試測(cè)量目標(biāo)為考生(p)在面試中表現(xiàn)的臨床技能能力,測(cè)量側(cè)面為考官,即評(píng)分者(r)側(cè)面。
本研究的概化理論分析分為兩個(gè)部分:第一部分以各考官組為單位的概化理論G研究,由于在考官組內(nèi)每個(gè)考生接受所有考官的評(píng)價(jià),因此實(shí)驗(yàn)設(shè)計(jì)模式為考生×考官,即p×r隨機(jī)單面交叉設(shè)計(jì);第二部分以各考官組為單位的概化理論D研究。
3.研究工具。本研究使用了美國(guó)衣阿華(Iowa)大學(xué)考試中心主任布瑞南(Brennan)教授主持編寫(xiě)的用于多元概化理論分析的計(jì)算機(jī)程序mGENOVA。
1.各考官組概化理論G研究結(jié)果。表1為G研究所得各考官組內(nèi)各效應(yīng)的方差分量與分量所占總方差的比例的平均值。21組考生效應(yīng)的方差占總方差比例的平均值為81.76%,各組考官主效應(yīng)占總方差比例的平均值為4.99%,此結(jié)果說(shuō)明大部分考官組內(nèi),考生面試分?jǐn)?shù)的差異是由考生的能力差異造成的,考官所帶來(lái)的分?jǐn)?shù)變異相當(dāng)少,各考官組內(nèi)考官評(píng)分標(biāo)準(zhǔn)比較一致。
表1 各考官組G研究結(jié)果(n=142,mean=62.92)
2.各考官組的概化理論D研究結(jié)果。表2為D研究所得21個(gè)考官組的絕對(duì)誤差、相對(duì)誤差的平均方差估計(jì)量及概化系數(shù)和可靠性指數(shù)。由表2可知,21個(gè)考官組概化系數(shù)的平均數(shù)為0.9317,可靠性指數(shù) 為0.9135,由此可知,面試各考官組的評(píng)分者信度較好。
表2 各考官組D研究結(jié)果(n=142,mean=62.92)
3.評(píng)分者數(shù)量對(duì)考生分?jǐn)?shù)變異的影響。一般認(rèn)為,增加評(píng)分者的數(shù)量能夠很好的提高考試的信度,減少評(píng)分者帶來(lái)的誤差。概化理論的D研究就可以探討在其他測(cè)量側(cè)面不變的情況,增加評(píng)分者側(cè)面人數(shù)對(duì)考試信度的影響。每組考官人數(shù)在2-5名,隨著評(píng)分者人數(shù)的增加,可靠性指數(shù)也在增加,依次為:0.9224,0.9469,0.9561,0.9674。從具體數(shù)字可知,當(dāng)評(píng)分者在2個(gè)時(shí),可靠性指數(shù)就已經(jīng)達(dá)到了0.9224,遠(yuǎn)高于一般認(rèn)為的可接受標(biāo)準(zhǔn)0.8,因此,為了節(jié)約人力物力、降低考試成本,在保持考試信度水平的條件下,基于目前的考官隊(duì)伍水平與結(jié)構(gòu),可以考慮將每組考官人數(shù)由3人調(diào)整為2人。
本研究采用隨機(jī)單側(cè)面交叉設(shè)計(jì),對(duì)2012年度心血管內(nèi)科專(zhuān)科醫(yī)師考試面試得分進(jìn)行了概化理論的研究。G研究結(jié)果顯示,考官為考生分?jǐn)?shù)所帶來(lái)的評(píng)分者誤差占總體方差量的比例較小。同時(shí)D研究的結(jié)果也顯示,面試各考官組的評(píng)分者信度較好。
本研究還嘗試改變各考官組內(nèi)考官的數(shù)量,計(jì)算其對(duì)總體分?jǐn)?shù)的可靠性指數(shù)的影響,結(jié)果顯示,當(dāng)將每組內(nèi)的3個(gè)考官變?yōu)?個(gè)考官時(shí),可靠性指數(shù)依舊保持在了0.9224的水平。因此,基于目前的考官隊(duì)伍水平與結(jié)構(gòu),可以考慮將每組考官人數(shù)由3人調(diào)整為2人。
[1]徐曉峰,劉 勇.評(píng)分者內(nèi)部一致性的研究與應(yīng)用[J].心理科學(xué),2007,30(5):1178-1178.
[2]Rajaratuam N,Cronbach L J,Qeser G C.Generalizabiblity of stratified parallel Tests[M].Chicago:Psychometrika,1965.3-4.
[3]Brennan,R.L.Variance components in generalizability theory[M].Berlin:Springer,2010.15-16.
[4]楊志明,張 雷.測(cè)評(píng)的概化理論及其應(yīng)用[M].北京:北京教育科學(xué)出版社,2003.22-23.
中國(guó)高等醫(yī)學(xué)教育2013年12期