郭東威,丁根宏
(1. 周口師范學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,河南 周口 466000;2. 河海大學(xué)理學(xué)院,江蘇 南京 211100)
在教育測(cè)量中,有一些測(cè)驗(yàn)難以用客觀的方法打分,往往會(huì)受到評(píng)分者主觀因素的影響而產(chǎn)生較大誤差,比如對(duì)競(jìng)賽論文、作文及藝術(shù)作品等的評(píng)分.評(píng)分誤差從廣義上可以分為系統(tǒng)誤差、隨機(jī)誤差和人為誤差.系統(tǒng)誤差是指由評(píng)分者評(píng)分風(fēng)格引起的恒定有規(guī)律的偏差,總是以一定的大小和方向偏離真分?jǐn)?shù).例如,有的評(píng)分者非常嚴(yán)格,評(píng)分普遍偏低;有的評(píng)分者較為寬松,評(píng)分普遍偏高;有的評(píng)分者的評(píng)分區(qū)分度較大,而有的評(píng)分者的評(píng)分區(qū)分度較小.隨機(jī)誤差是指由評(píng)分者不確定因素引起的無(wú)規(guī)律的偏差,評(píng)分大小和方向均是完全隨機(jī)地偏離真分?jǐn)?shù).人為誤差是指評(píng)分者有意提高或降低評(píng)分.從信度的角度來(lái)說(shuō),系統(tǒng)誤差對(duì)評(píng)分者之間的信度影響較小,也就是對(duì)被試的等級(jí)影響不大,但是會(huì)造成評(píng)分不準(zhǔn)確,不能客觀反應(yīng)被試的水平;隨機(jī)誤差和人為誤差對(duì)評(píng)分者之間的信度一般影響較大,容易造成評(píng)分的不一致.為了公平評(píng)判被試的水平,通常由多個(gè)評(píng)分者對(duì)被試進(jìn)行評(píng)分.如果每個(gè)被試都有相同的評(píng)分者進(jìn)行評(píng)分,也就是評(píng)分矩陣是完整的,并且評(píng)分者之間的信度較高,那么可以用傳統(tǒng)法(直接取均分法)作為被試的終評(píng)成績(jī).這樣的終評(píng)成績(jī)雖然存在誤差,但是依據(jù)分值大小化為等級(jí),可以較好地反應(yīng)被試者在被試群體中的相對(duì)水平.在大型競(jìng)賽或考試中,受多種客觀因素的制約,如被試人數(shù)眾多、評(píng)分者數(shù)量有限、評(píng)閱時(shí)間限制等,上述理想的評(píng)閱方案一般行不通,通常是每個(gè)被試隨機(jī)分配給幾個(gè)評(píng)分者進(jìn)行評(píng)分,也就是說(shuō)評(píng)分矩陣是殘缺不全的.在這種情況下,即使評(píng)分者之間的信度很高,也不易直接對(duì)原始評(píng)分取均值作為被試的終評(píng)成績(jī),因?yàn)檫@樣的終評(píng)成績(jī)由于系統(tǒng)誤差的影響既不能很好地反映被試的客觀水平,也不能科學(xué)地反映被試的相對(duì)水平(等級(jí)).
國(guó)內(nèi)外應(yīng)用多種方法對(duì)主觀型評(píng)分做了大量的研究.1993年WIGGLESWORTH[1]的研究表明評(píng)分者之間的變異是測(cè)量誤差的主要來(lái)源之一.盡管評(píng)分者經(jīng)過(guò)培訓(xùn)并遵守評(píng)分量表的規(guī)則,但是不同的評(píng)分者對(duì)同一被試的評(píng)分依然不一致,甚至有時(shí)差異很大[2-3].在經(jīng)典測(cè)量理論(CTT)的基礎(chǔ)上發(fā)展起來(lái)了概化理論(GT),該理論通過(guò)方差分析等技術(shù),從多個(gè)側(cè)面進(jìn)行量化分析來(lái)估計(jì)不同誤差對(duì)測(cè)量分?jǐn)?shù)的影響[4-6].2002年我國(guó)學(xué)者嚴(yán)芳等[7]介紹了用結(jié)構(gòu)方程模型來(lái)估計(jì)概化理論中的評(píng)分者信度.Rasch模型是項(xiàng)目反應(yīng)理論的基本模型之一,田青源[8]、王躍武等[9]應(yīng)用Rasch模型研究了主觀評(píng)分中評(píng)分者的信度.陳菊詠[10]、馬春燕[11]分別利用LONGFORD方法對(duì)評(píng)分者信度及異常分?jǐn)?shù)進(jìn)行了研究.此外,還有其他一些方法,可以參看文獻(xiàn)[12-15].
本文主要研究系統(tǒng)誤差、人為誤差及評(píng)委誤判在殘缺評(píng)分型競(jìng)賽中的影響.如作文競(jìng)賽、大學(xué)生數(shù)學(xué)建模競(jìng)賽等,這類大型競(jìng)賽不僅重視成績(jī)(分?jǐn)?shù)),以測(cè)驗(yàn)被試的絕對(duì)水平,而且還很看重等級(jí)(名次),用來(lái)評(píng)出獲獎(jiǎng)?wù)?為了較好地測(cè)量被試的客觀水平,本研究采用體育競(jìng)技排名方法科利法對(duì)被試進(jìn)行評(píng)價(jià).實(shí)例分析表明,該方法對(duì)被試進(jìn)行評(píng)價(jià)具有無(wú)偏性及較好的穩(wěn)定性.所謂無(wú)偏性是指被試的終評(píng)成績(jī)(或等級(jí))僅與各評(píng)分者對(duì)被試的排名有關(guān),不受原始評(píng)分系統(tǒng)誤差的影響.穩(wěn)定性是指當(dāng)某一個(gè)或幾個(gè)原始分?jǐn)?shù)出現(xiàn)異常時(shí),不至于導(dǎo)致終評(píng)等級(jí)嚴(yán)重偏離客觀情況.穩(wěn)定性好的評(píng)判方法,能夠有效減小人為誤差及評(píng)委誤判造成的不公平,盡可能保證評(píng)判結(jié)果的科學(xué)性.
評(píng)分者信度是度量帶有主觀判斷成分的測(cè)量可靠與否的重要指標(biāo),包括評(píng)分者內(nèi)信度(intra-rater reliability)和評(píng)分者間信度(inter-rater reliability).評(píng)分者內(nèi)信度是指單個(gè)評(píng)分者對(duì)同一組被試的答卷進(jìn)行兩次評(píng)分的一致性程度[16].考察評(píng)分者內(nèi)信度通常需要同一評(píng)分者對(duì)答卷先進(jìn)行一次評(píng)分,然后間隔一定時(shí)間后以隨機(jī)順序?qū)ζ渲匦略u(píng)分,兩組評(píng)分之間的相關(guān)系數(shù)即為評(píng)分者內(nèi)信度.評(píng)分者間信度是指多個(gè)評(píng)分者對(duì)同一批被試的答卷進(jìn)行評(píng)分的一致性程度[3].本文主要應(yīng)用評(píng)分者間信度進(jìn)行分析,信度越高表示評(píng)分者對(duì)被試的評(píng)判越一致.
如果被試答卷是由兩位評(píng)分者按照各自的評(píng)分標(biāo)準(zhǔn)進(jìn)行評(píng)分,則評(píng)分者間信度可以用每份答卷的2個(gè)分?jǐn)?shù)之間的積差相關(guān)系數(shù)來(lái)表示.一般要求在成對(duì)的受過(guò)訓(xùn)練的評(píng)分者之間平均相關(guān)系數(shù)達(dá)到0.90以上,才認(rèn)為評(píng)分是客觀的[3].假設(shè)A、B 2個(gè)評(píng)分者對(duì)n份答卷進(jìn)行評(píng)分,評(píng)分向量分別為X=(x1,x2,…,xn)和Y=(y1,y2,…,yn),xi和yi分別表示評(píng)分者A和B對(duì)i答卷的評(píng)分,那么積差相關(guān)系數(shù)的計(jì)算公式可表示為
(1)
由于積差相關(guān)系數(shù)不具有等距單位,因此不能直接進(jìn)行加減算術(shù)運(yùn)算.若需要將測(cè)量中幾部分的積差相關(guān)系數(shù)綜合成一個(gè)總的系數(shù)來(lái)表示多個(gè)評(píng)分者間的整體信度時(shí),可以用統(tǒng)計(jì)學(xué)家費(fèi)舍(Fisher)的Zr轉(zhuǎn)換法,轉(zhuǎn)換公式為
(2)
然后求出Zr的均值,最后再利用式(2)的反函數(shù)求出多個(gè)評(píng)分者間的整體信度.
使用積差相關(guān)法要滿足以下幾個(gè)條件:評(píng)分是連續(xù)性數(shù)據(jù);每個(gè)評(píng)分者的評(píng)分總體服從正態(tài)分布或接近正態(tài)分布,至少是單峰對(duì)稱的分布;評(píng)分者的評(píng)分相互獨(dú)立;兩組分?jǐn)?shù)之間呈線性關(guān)系;被試數(shù)量不少于30.
等級(jí)相關(guān)是指評(píng)分者對(duì)答卷以等級(jí)的方式進(jìn)行評(píng)判時(shí),各評(píng)判等級(jí)次序之間的相關(guān).根據(jù)評(píng)分者多少可以分為斯皮爾曼(Spearman)二列等級(jí)相關(guān)及肯德?tīng)柡椭C系數(shù)(the Kendall’s coefficient of concordance)多列等級(jí)相關(guān).
1.2.1 斯皮爾曼等級(jí)相關(guān) 斯皮爾曼等級(jí)相關(guān)適用于度量2個(gè)評(píng)分者以等級(jí)方式評(píng)判同一組答卷的一致性程度.計(jì)算斯皮爾曼等級(jí)相關(guān)系數(shù)時(shí)不要求評(píng)判等級(jí)呈正態(tài)分布,也不要求被試數(shù)量大于等于30,相對(duì)積差相關(guān)要求較低,因此使用范圍較廣.計(jì)算斯皮爾曼等級(jí)相關(guān)系數(shù)的公式為
(3)
其中,rtt表示2個(gè)評(píng)分者之間的信度系數(shù)(等級(jí)相關(guān)系數(shù));Di表示i答卷的2個(gè)等級(jí)之差;n表示被試人數(shù).
1.2.2 肯德?tīng)柡椭C系數(shù) 當(dāng)有2個(gè)以上評(píng)分者以等級(jí)方式對(duì)同一組被試進(jìn)行評(píng)判時(shí),表示評(píng)分者評(píng)判等級(jí)之間的一致性程度的量稱為肯德?tīng)柡椭C系數(shù)(評(píng)分者間信度).
單個(gè)評(píng)分者對(duì)所有被試的評(píng)判沒(méi)有相同等級(jí)時(shí),肯德?tīng)柡椭C系數(shù)計(jì)算公式為
(4)
其中,rtt表示評(píng)分者之間的信度系數(shù)(肯德?tīng)柡椭C系數(shù));K表示評(píng)分者人數(shù);Ri表示K個(gè)評(píng)分者對(duì)i答卷評(píng)判的等級(jí)之和;n表示被試人數(shù).
當(dāng)單個(gè)評(píng)分者對(duì)所有被試的評(píng)判有相同等級(jí)時(shí),肯德?tīng)柡椭C系數(shù)計(jì)算公式可校正為
(5)
其中,m表示相同等級(jí)的個(gè)數(shù),其余變量的含義與式(4)中相同.
當(dāng)K(K≥3)個(gè)評(píng)分者以連續(xù)性評(píng)分的方式對(duì)同一組n個(gè)被試進(jìn)行評(píng)判時(shí),評(píng)分者間的信度可以用克龍巴赫α系數(shù)來(lái)估計(jì),計(jì)算公式為
(6)
為了克服勝率法的缺陷,WESLEY COLLEY根據(jù)拉普拉斯的“繼承法則”(rule of succession)對(duì)其進(jìn)行了改進(jìn),即
(7)
假設(shè)上式為一等式,代入式(7),得
或?qū)憺?/p>
(8)
根據(jù)科利評(píng)分ri的大小可以確定各被試的等級(jí).由于科利評(píng)分ri∈(0,1),不符合人們習(xí)慣的百分制表示法,不過(guò)可以用多種方法把它轉(zhuǎn)化為百分制分?jǐn)?shù).比如:
(3)由于科利評(píng)分ri∈(0,1),因此最簡(jiǎn)單的方法可以直接用100乘以科利分.
利用科利法對(duì)被試進(jìn)行等級(jí)排名是無(wú)偏的,即評(píng)判的結(jié)果僅利用被試與被試在直接比較情況下的優(yōu)劣(等級(jí))信息,而不直接利用原始評(píng)分.無(wú)偏性在一定程度上增強(qiáng)了評(píng)判結(jié)果的穩(wěn)定性,即當(dāng)被試由多個(gè)評(píng)分者評(píng)判,出現(xiàn)個(gè)別異常分?jǐn)?shù)時(shí),由于不直接利用原始分?jǐn)?shù)做最終的評(píng)判,減小了原始分?jǐn)?shù)對(duì)終評(píng)的影響,使得終評(píng)等級(jí)不會(huì)出現(xiàn)較大偏差,在下一節(jié)“實(shí)例分析及比較”中可以明顯看出“穩(wěn)定性”的效果.
本節(jié)以H高校大學(xué)生數(shù)學(xué)建模競(jìng)賽為例來(lái)說(shuō)明科利法的有效性.競(jìng)賽論文30篇,評(píng)分者5人.為了實(shí)驗(yàn)的可靠性,30篇論文的主題(問(wèn)題)完全一樣,選擇的5位評(píng)分者均為外校教授或副教授職稱,并多次參加全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽的評(píng)閱工作,具有豐富的閱卷經(jīng)驗(yàn).5位評(píng)分者均收到這30篇論文及完全一樣的評(píng)分標(biāo)準(zhǔn),且論文上沒(méi)有作者信息只有編號(hào),按百分制評(píng)分.各評(píng)分者原始評(píng)分及對(duì)應(yīng)等級(jí)見(jiàn)表1.
表1 原始評(píng)分及對(duì)應(yīng)等級(jí)
被試個(gè)數(shù)n=30,可以用Shapiro-Wilk檢驗(yàn)(W檢驗(yàn))來(lái)檢驗(yàn)各評(píng)分者的評(píng)分是否服從正態(tài)分布,檢驗(yàn)結(jié)果見(jiàn)表2.結(jié)果表明5位評(píng)分者的評(píng)分在顯著性水平0.10下均服從正態(tài)分布.
表2 Shapiro-Wilk檢驗(yàn)結(jié)果
5位評(píng)分者評(píng)分的均值及標(biāo)準(zhǔn)差見(jiàn)表3.
表3 評(píng)分均值及標(biāo)準(zhǔn)差
用Hartley檢驗(yàn)法對(duì)5位評(píng)分者的評(píng)分進(jìn)行方差齊性檢驗(yàn),計(jì)算結(jié)果為
3.474 4>H1-0.05(5,29)≈2.78,
即在顯著性水平α=0.05下,認(rèn)為5位評(píng)分者的評(píng)分方差有顯著差異.由于方差有顯著差異,因此無(wú)法用方差分析來(lái)檢驗(yàn)均值是否有顯著差異,但是從表3可以看出,5位評(píng)分者評(píng)分均值的極差為7.34,說(shuō)明本次的評(píng)分存在一定的系統(tǒng)誤差,其中評(píng)委2和4均分較大,評(píng)委1、3、5均分較小,評(píng)委1和3方差較大,而評(píng)分者2和4的方差較小.
由表1中的數(shù)據(jù)用3種方法計(jì)算評(píng)分者信度,結(jié)果見(jiàn)表4.
3種方法計(jì)算結(jié)果均在0.95以上,說(shuō)明評(píng)分者信度較高,評(píng)判結(jié)果具有較高的一致性.
表4 評(píng)分者信度
基于以上對(duì)評(píng)分者評(píng)分的均值、方差及信度的分析,可以認(rèn)為論文的等級(jí)由標(biāo)準(zhǔn)分(Z分?jǐn)?shù))法來(lái)確定是比較科學(xué)的,具有較強(qiáng)的可信度.為方便表述,稱之為“標(biāo)準(zhǔn)等級(jí)”.事實(shí)上,由傳統(tǒng)法(取原始評(píng)分均值)排名與按照標(biāo)準(zhǔn)分均值排名的結(jié)果僅有稍微差別,見(jiàn)表5,表中斜體加黑標(biāo)出的即為有差異的結(jié)果.
表5 傳統(tǒng)法與標(biāo)準(zhǔn)分法等級(jí)比較
從表5中可以看出傳統(tǒng)法容易出現(xiàn)等級(jí)相同的現(xiàn)象,例如論文18、19、28的等級(jí)排名均為8.
下面以實(shí)驗(yàn)來(lái)分析系統(tǒng)誤差、隨機(jī)誤差及人為誤差對(duì)殘缺型評(píng)分的影響.首先將表1中每篇論文隨機(jī)去掉2個(gè)分?jǐn)?shù),但是最終要保證每個(gè)評(píng)分者都評(píng)閱18篇論文,結(jié)果見(jiàn)表6.
表6 殘缺評(píng)分表
下面分兩類實(shí)驗(yàn)來(lái)比較不同評(píng)判方法結(jié)果的穩(wěn)定性.第一類是縱向?qū)嶒?yàn):隨機(jī)選擇一個(gè)評(píng)分進(jìn)行不同變異(相當(dāng)于評(píng)分者評(píng)分時(shí)誤判、故意提高或降低分?jǐn)?shù)),然后根據(jù)傳統(tǒng)法、標(biāo)準(zhǔn)分法及科利法分別確定被試等級(jí),并與表5中的“標(biāo)準(zhǔn)等級(jí)”進(jìn)行比較,計(jì)算斯皮爾曼等級(jí)相關(guān)系數(shù).記符號(hào)xij表示評(píng)委j對(duì)論文i的評(píng)分.不妨選擇評(píng)分x13,3做實(shí)驗(yàn),依次將x13,3=71變異為60、65、75、80、85、90.計(jì)算斯皮爾曼等級(jí)相關(guān)系數(shù),結(jié)果見(jiàn)表7.
表7 斯皮爾曼等級(jí)相關(guān)系數(shù)
相關(guān)系數(shù).
第二類是橫向?qū)嶒?yàn):隨機(jī)選擇個(gè)別評(píng)分進(jìn)行變異.進(jìn)行5組實(shí)驗(yàn),變異情況分別為:變異1:x12,1=69→86,x21,4=81→70;變異2:x8,5=81→70,x18,3=82→65;變異3:x7,3=95→80;變異4:x24,4=64→75;變異5:x18,3=76→60,x23,3=60→80.3種評(píng)判方法的結(jié)果與“標(biāo)準(zhǔn)等級(jí)”比較的斯皮爾曼等級(jí)相關(guān)系數(shù)見(jiàn)表8.
表8 斯皮爾曼等級(jí)相關(guān)系數(shù)
由表7及表8斯皮爾曼等級(jí)相關(guān)系數(shù)可知,由于評(píng)分誤差的存在,3種評(píng)判方法的結(jié)果與“標(biāo)準(zhǔn)等級(jí)”均有差異,尤其是傳統(tǒng)方法評(píng)判的結(jié)果偏差最大.無(wú)論是在正常情況下還是變異之后,由r2A>r1A說(shuō)明在殘缺評(píng)分情況下系統(tǒng)誤差會(huì)給傳統(tǒng)方法的評(píng)判結(jié)果帶來(lái)較大偏差,由r3A>r2A>r1A說(shuō)明科利法的評(píng)判結(jié)果要比傳統(tǒng)法及標(biāo)準(zhǔn)分法更客觀合理.2個(gè)表中r3A分別均在0.99及0.98以上,說(shuō)明科利法較傳統(tǒng)法及標(biāo)準(zhǔn)分法更穩(wěn)定,即當(dāng)個(gè)別分?jǐn)?shù)出現(xiàn)異常時(shí),依然可以得出較客觀的評(píng)判結(jié)果.
在殘缺型主觀評(píng)分測(cè)量中,傳統(tǒng)法及標(biāo)準(zhǔn)分法的評(píng)判結(jié)果受評(píng)分誤差影響較大,尤其是傳統(tǒng)法.科利法的評(píng)判結(jié)果是無(wú)偏的,它僅用到被試與被試之間直接比較的等級(jí)信息,而不直接利用原始評(píng)分,因此降低了系統(tǒng)誤差及個(gè)別異常分?jǐn)?shù)對(duì)評(píng)判結(jié)果的影響,具有較好的穩(wěn)定性.