鐘 韜,魏慶曜
(四川交通職業(yè)技術(shù)學(xué)院,四川 成都 611130)
職業(yè)能力測(cè)評(píng)中評(píng)分者信度FINN系數(shù)與ICC的計(jì)算與MATLAB實(shí)現(xiàn)
鐘 韜,魏慶曜
(四川交通職業(yè)技術(shù)學(xué)院,四川 成都 611130)
對(duì)FINN系數(shù)與組內(nèi)相關(guān)系數(shù)ICC進(jìn)行研究和分析,詳細(xì)介紹了FINN系數(shù)與組內(nèi)相關(guān)系數(shù)ICC的數(shù)學(xué)原理與計(jì)算方法.將FINN系數(shù)與組內(nèi)相關(guān)系數(shù)應(yīng)用于職業(yè)能力測(cè)評(píng),結(jié)果顯示FINN系數(shù)更能得到較好的信度值.而ICC更依賴評(píng)分點(diǎn)平均值的方差,在職業(yè)能力測(cè)評(píng)中容易得到較低的信度值,從而測(cè)量不出重要的信度.文章例解了FINN系數(shù)與組內(nèi)相關(guān)系數(shù)ICC的MATLAB計(jì)算程序.
FINN系數(shù);組內(nèi)相關(guān)系數(shù)ICC;評(píng)分者信度
隨著我國(guó)職業(yè)教育課程和教學(xué)改革的深入,如何對(duì)學(xué)生的職業(yè)能力進(jìn)行有效的評(píng)價(jià)成為大家關(guān)注的一個(gè)重點(diǎn)問(wèn)題.在對(duì)學(xué)生的某些表現(xiàn)性進(jìn)行評(píng)估的時(shí)候,要求評(píng)分者之間的評(píng)判標(biāo)準(zhǔn)是一致的.特別是當(dāng)表現(xiàn)性評(píng)價(jià)的結(jié)果將用于重要決策時(shí),為了保證評(píng)價(jià)的客觀性以降低決策的風(fēng)險(xiǎn),我們應(yīng)該對(duì)評(píng)分者信度進(jìn)行嚴(yán)密的考察.
對(duì)于學(xué)生職業(yè)能力測(cè)評(píng)中評(píng)分者信度的計(jì)算,目前缺少現(xiàn)成的統(tǒng)一的方法,此文旨在探討FINN系數(shù)和組內(nèi)相關(guān)系數(shù)(intra-class correlation coefficient,簡(jiǎn)稱“ICC”)這兩種方法.FINN系數(shù)的數(shù)學(xué)模型由心理學(xué)教授R.H.FINN在1970年提出,它非常適用于等級(jí)制的表現(xiàn)性評(píng)價(jià)問(wèn)題,但國(guó)內(nèi)文獻(xiàn)對(duì)該模型的解釋和研究非常缺乏.另一方面,對(duì)于一般的表現(xiàn)性評(píng)價(jià)問(wèn)題,ICC雖然是一個(gè)較好的方法,但是否適用于職業(yè)能力測(cè)評(píng)這類實(shí)證問(wèn)題仍有待考證.
此文旨在對(duì)FINN系數(shù)與ICC進(jìn)行深入的研究和分析,剖析FINN系數(shù)與組內(nèi)相關(guān)系數(shù)ICC的數(shù)學(xué)原理與計(jì)算方法;給出了FINN系數(shù)與組內(nèi)相關(guān)系數(shù)ICC的MATLAB的計(jì)算程序;并以職業(yè)能力測(cè)評(píng)中的能力模型和測(cè)評(píng)數(shù)據(jù)為背景,分別使用FINN系數(shù)與ICC(組內(nèi)相關(guān)系數(shù))對(duì)職業(yè)能力測(cè)評(píng)數(shù)據(jù)的評(píng)分者一致性進(jìn)行計(jì)算,最后對(duì)計(jì)算的結(jié)果進(jìn)行了系統(tǒng)的分析和整理,指出了應(yīng)用FINN系數(shù)與組內(nèi)相關(guān)系數(shù)ICC計(jì)算評(píng)分者信度需要注意的問(wèn)題.此文為高校職業(yè)能力測(cè)評(píng)的研究者計(jì)算評(píng)分者信度提供了依據(jù)和計(jì)算方法.
1.1 FINN系數(shù)的概念
該模型假設(shè):如果評(píng)判結(jié)果的實(shí)際的方差Variance(observed)為零,代表所有評(píng)分者達(dá)成完全協(xié)議或具有完全的可靠性,可靠性為1.另一方面,如果只是完全隨機(jī)的對(duì)測(cè)評(píng)對(duì)象作出評(píng)級(jí),這種情況下評(píng)級(jí)的概率分布將滿足均勻的離散分布,這時(shí)的方差我們稱之為預(yù)期的方差Variance(expected),此時(shí)的可靠性為0.
1.2 FINN系數(shù)的計(jì)算
1.2.1 構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量:
SST的自由度為:kr-1,
SSR的自由度為:k-1,
SSC的自由度為:r-1,
《天鵝》是大提琴獨(dú)奏曲,旋律純凈質(zhì)樸,給人帶來(lái)的是美的享受。在欣賞這首樂(lè)曲時(shí),教師先讓學(xué)生聆聽(tīng)音頻,并給出了基本要求:仔細(xì)聆聽(tīng)樂(lè)曲,自己總結(jié)一下,看樂(lè)曲速度、情緒、風(fēng)格等方面都有什么特點(diǎn)?學(xué)生拿到任務(wù)后,都潛心聆聽(tīng),并自發(fā)展開(kāi)討論。經(jīng)過(guò)一番學(xué)習(xí)研究,學(xué)生都能夠給出自己的見(jiàn)解。有學(xué)生認(rèn)為,這首樂(lè)曲運(yùn)行速度比較緩慢,旋律中充滿沉靜與思考,仿佛看到了朦朧的月色下一只天鵝在水面翩翩起舞,給人帶來(lái)的感覺(jué)是舒適、靜謐和遐想。也有學(xué)生說(shuō),這首樂(lè)曲是獨(dú)奏形式展現(xiàn)的,增加了太多思考的內(nèi)容,給人以心靈的觸動(dòng)。
SSW的自由度為:k·(r-1),
SSE的自由度為:(k-1)·(r-1).
1.2.4 FINN系數(shù)的計(jì)算公式:
2.1 組內(nèi)相關(guān)系數(shù)的概念
生物統(tǒng)計(jì)學(xué)家James Aharris教授[2]在1912年提出來(lái)組內(nèi)相關(guān)系數(shù)這一概念,并將其應(yīng)用于流行病學(xué)和遺傳學(xué)等自然科學(xué)領(lǐng)域.目前也有部分學(xué)者將其應(yīng)用于各種社會(huì)科學(xué)定量研究中.如管理學(xué)、心理學(xué)等學(xué)科中的信度評(píng)估[3-5],經(jīng)濟(jì)學(xué)、社會(huì)學(xué)和教育學(xué)中成員間各種社會(huì)經(jīng)濟(jì)指標(biāo)的相似程度.同時(shí)它還是統(tǒng)計(jì)學(xué)中很多高級(jí)模型的基礎(chǔ),如判斷是否需要建立多層線性的數(shù)學(xué)模型.
組內(nèi)相關(guān)系數(shù)(ICC)是衡量和評(píng)價(jià)觀察者間信度的量化指標(biāo)之一.1966年Bartko首次將它運(yùn)用于測(cè)量和評(píng)估信度的大小[6].ICC等于個(gè)體的變異度除以總的變異度,它的計(jì)算結(jié)果介于0~1之間.0代表信度極低,評(píng)分結(jié)果完全不可信,l表示信度極高,評(píng)分結(jié)果完全可信.一般情況下,ICC低于0.4代表信度較差,大于0.75則代表信度良好.當(dāng)ICC應(yīng)用于定量資料時(shí),則要求較高的信度值[7].
2.2 組內(nèi)相關(guān)系數(shù)的計(jì)算
根據(jù)研究目的的不同,ICC可劃分為各種不同的類型,用于估計(jì)不同總體參數(shù).因此對(duì)同一組數(shù)據(jù),不同類型的ICC計(jì)算結(jié)果是不相同的.在職業(yè)能力測(cè)評(píng)中,由于既要考慮行因素的隨機(jī)效應(yīng),又要考慮列因素的隨機(jī)效應(yīng),因此我們選用了兩因素隨機(jī)效應(yīng)模型(twoway random effects mode1)[6]:
式中,μ:所有觀察數(shù)據(jù)的總均數(shù),為常數(shù);ri:行因素(即被測(cè)試者)的隨機(jī)效應(yīng),服從符合獨(dú)立正態(tài)分布,均數(shù)為0,方差為σ2r;cj:列因素(即被測(cè)試者)的隨機(jī)效應(yīng),服從獨(dú)立正態(tài)分布,均數(shù)為0,方差為σ2c;eij:隨機(jī)殘差的效應(yīng),服從獨(dú)立正態(tài)分布,均數(shù)為0,方差為σ2e;所有效應(yīng)互相獨(dú)立.
又因?yàn)檠芯吭O(shè)計(jì)(比如KOMET項(xiàng)目)在進(jìn)一步研究中是使用單個(gè)評(píng)分者評(píng)分,而且需要考慮評(píng)分者系統(tǒng)誤差,因此我們選擇Single Absolute agreement[6]類型:
綜上所述,我們選擇ICC(A,1)用于職業(yè)能力測(cè)評(píng)中評(píng)分者信度的計(jì)算,其計(jì)算公式如下:
若選用Single consistency[6]類型,則計(jì)算公式如下:
表1數(shù)據(jù)是在一次針對(duì)汽修專業(yè)學(xué)生的職業(yè)能力測(cè)評(píng)中,關(guān)于應(yīng)對(duì)“發(fā)動(dòng)機(jī)水溫過(guò)高”故障處理的評(píng)分?jǐn)?shù)據(jù).由17位教師(評(píng)分者)針對(duì)40個(gè)能力點(diǎn)進(jìn)行的評(píng)分.
表1 “發(fā)動(dòng)機(jī)水溫過(guò)高”故障處理評(píng)分?jǐn)?shù)據(jù)(初測(cè))Table 1 Score data of disposing"Engine water temperature is too high"(first evaluation)
表2數(shù)據(jù)是在評(píng)分者培訓(xùn)后所進(jìn)行的測(cè)評(píng),評(píng)分?jǐn)?shù)據(jù)是由與初測(cè)相同的17位教師針對(duì)40個(gè)能力點(diǎn)給出的評(píng)分.
表2 “發(fā)動(dòng)機(jī)水溫過(guò)高”故障處理評(píng)分?jǐn)?shù)據(jù)(復(fù)測(cè))Table 2 Score data of disposing“Engine water temperature is too high”(second evaluation)
分別采用FINN(oneway)、FINN(twoway)、ICC (C,1)、ICC(A,1)計(jì)算兩次測(cè)試的評(píng)分者信度.計(jì)算結(jié)果如表3.
表3 兩次測(cè)評(píng)的評(píng)分者信度Table 3 The reliability of the two test scores
通過(guò)對(duì)以上結(jié)果的分析,我們發(fā)現(xiàn)FINN系數(shù)獲得的評(píng)分者信度值相比ICC會(huì)比較樂(lè)觀.計(jì)算組內(nèi)相關(guān)系數(shù)ICC的方法,是一種較為嚴(yán)格的評(píng)價(jià)方法,但它存在一個(gè)問(wèn)題,即評(píng)分點(diǎn)平均值的一個(gè)極小的方差,也會(huì)致使ICC“測(cè)量不出或測(cè)量不出重要的信度”(Wirtz/Caspaper 2002).比如在表3中,利用ICC計(jì)算的結(jié)果就比較小.雖然這時(shí)也可以接受一個(gè)較小的ICC值,但卻很難確定一個(gè)明確的閾值,說(shuō)明合格與不合格的評(píng)分者信度之間的界限在哪里.
在職業(yè)能力測(cè)評(píng)中的實(shí)踐中,由于普遍采用的是等級(jí)評(píng)分制,評(píng)分結(jié)果是離散數(shù)據(jù),離散數(shù)據(jù)本身會(huì)丟失一部分信息.又由于不可避免各個(gè)評(píng)分點(diǎn)的難度存在差異,評(píng)分點(diǎn)平均值的方差會(huì)導(dǎo)致ICC“測(cè)量不出或測(cè)量不出重要的信度”.和ICC相比,F(xiàn)INN系數(shù)“明顯不依賴評(píng)分點(diǎn)平均值的方差”(Asendorf/Wallbott 1979).因此,在職業(yè)能力這一類測(cè)評(píng)中適合將FINN系數(shù)用作計(jì)算評(píng)分者信度的標(biāo)準(zhǔn).
在實(shí)際應(yīng)用中要注意:FINN系數(shù)介于0.0~1.0.其中,0.0表示評(píng)分者的評(píng)分結(jié)果之間不存在任何聯(lián)系;而1.0表示評(píng)分者之間既有相同的平均值也有相同的方差.數(shù)值越接近1.0,評(píng)分結(jié)果的評(píng)分者信度越高.FINN系數(shù)在0.5~0.7表示及格,大于0.7表示良好.在職業(yè)能力測(cè)評(píng)中,只有較高的FINN系數(shù)才是令人滿意的評(píng)分者信度,也就是說(shuō),在實(shí)踐中只有0.7以上的FINN系數(shù)才是足夠高的.
[1]FINN R H.A Note on Estimating the Reliability of Categorical Data [J].Educational and Psychological Measurement,1970,30:71.
[2]HARRIS J A.The formation of condensed correlation tables when the number of combinations is large[J].The American Naturalist,1912,46 (548):477-486.
[3]曾五一,黃炳藝.調(diào)查問(wèn)卷的可信度和有效度分析[J].統(tǒng)計(jì)與信息論壇,2005,6:13-17.
[4]楊奇明,林堅(jiān).組內(nèi)相關(guān)系數(shù):定義辨析、估計(jì)方法與實(shí)際應(yīng)用[J].浙江大學(xué)學(xué)報(bào),2013,40(5):509-515.
[5]楊建鋒,王重鳴,類內(nèi)相關(guān)系數(shù)的原理及其應(yīng)用[J].心理科學(xué),2008,2:434-437.
[6]余紅梅,羅艷虹.組內(nèi)相關(guān)系數(shù)及其軟件實(shí)現(xiàn)[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2011,28(5):497-500.
[7]潘曉平,倪宗瓚.組內(nèi)相關(guān)系數(shù)在信度評(píng)價(jià)中的應(yīng)用[J].華西醫(yī)科大學(xué)學(xué)報(bào),1999,1:62-63.
[8]FISHER R A.Statistical Methods for Research Workers[M].Edinburgh:Oliver and Boyd,1925.
[9]王維,陳青山,劉治民.應(yīng)用Excel完成組內(nèi)相關(guān)系數(shù)ICC的計(jì)算和評(píng)價(jià)[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2008,25(3):314-315.
[10]安娜斯塔西A蘇珊娜.心里測(cè)量[M].繆小春,竺陪梁,譯.杭州:浙江教育出版社,2001:111-129.
[11]黃廣楊.教育測(cè)量與評(píng)價(jià)[M].上海:華東師范大學(xué)出版社,1993:275-276.
[12]GLEASON J R.Computing intraclass correlations and large ANOVAs [J].Stata technical bulletin,1997,6(35):26.
[13]黃衛(wèi)石.國(guó)家公務(wù)員考試面試評(píng)分者信度的研究[J].安徽教育學(xué)報(bào),1998(3):82-85.
[14]漆書(shū)青.現(xiàn)代測(cè)量理論在考試中的運(yùn)用[M].武漢:華中師范大學(xué)出版社,1998:78-80.
[15]LYNCH,BRIAN K.Language Assessment and Programme Evaluation [M].UK:Edinburgh University Press,2003:87-88.
(責(zé)任編輯:付強(qiáng),張陽(yáng),李建忠,羅敏;英文編輯:周序林)
Calculation of FINN coefficient and ICC for rater reliability in competence assessment and the MATLAB program
ZHONG Tao,WEI Qing-yao
(SichuanVocational and Technical College of Communications,Chengdu 611130,P.R.C.)
This paper is devoted to researching and analyzing the FINN coefficient and ICC.The concept and calculation method of them were presented in detail.Being applied to the competence assessment,the results show that by using FINN coefficient,people can get better reliability value.Because ICC depends more on the average variance of Score point,it is easy to get low reliability value in competence assessment,so that people can’t detect important reliability in this case.The matlab program is given in this paper.
FINN coefficient;ICC;rater reliability
O213;F241
A
2095-4271(2015)04-0489-05
10.11920/xnmdzk.2015.04.018
2015-05-12
鐘韜(1981-),男,漢族,四川人,講師,研究方向:應(yīng)用數(shù)學(xué)和高等教育研究,E-mail地址:tom_joan@163.com.
魏慶曜(1956-),男,漢族,重慶人,教授,研究方向:高等教育研究,E-mail地址:sccdwqy@163.com.
教育部哲學(xué)社會(huì)科學(xué)研究重大攻關(guān)項(xiàng)目(13JZD047-09);交通運(yùn)輸部科技項(xiàng)目(2012-319-284-310).