摘要: 信度是衡量考試質(zhì)量的重要指標(biāo)之一,由于主觀考試受評(píng)分員因素的影響很大,因此其信度研究備受測(cè)量界的關(guān)注。本文主要介紹了幾種主觀考試信度的計(jì)算方法及其適用范圍,以幫助測(cè)量使用者根據(jù)需要更好地選擇使用。
關(guān)鍵詞: 主觀考試信度 評(píng)分員信度 計(jì)算方法
考試從其本質(zhì)來(lái)說(shuō)是一種測(cè)量工具,用來(lái)考查被試的某種知識(shí)和能力。按照評(píng)分方法,考試可分為主觀考試和客觀考試。主觀考試是指在評(píng)分過(guò)程中需要評(píng)分員根據(jù)評(píng)分標(biāo)準(zhǔn)作出判斷的考試,作文、口語(yǔ)、聽(tīng)寫(xiě)等開(kāi)放式反應(yīng)項(xiàng)目都是典型的主觀考試。主觀試題由于能提供更多有關(guān)被試的信息,因此應(yīng)用范圍越來(lái)越廣,但由于評(píng)分員的評(píng)分存在差異,有關(guān)主觀考試信度的研究一直倍受測(cè)量界廣泛的關(guān)注。不論采用哪種形式,不論使用什么樣的操作程序,對(duì)主觀考試信度作出最終評(píng)價(jià)的依據(jù)總是某種形式的數(shù)字,因此,本文主要探討幾種主觀考試信度的計(jì)算方法。
1.主觀考試信度
由于主觀考試無(wú)固定答案,評(píng)分時(shí),評(píng)分員需根據(jù)評(píng)分標(biāo)準(zhǔn)作出自己的判斷,因而評(píng)分受評(píng)分員主觀因素的影響很大,評(píng)分員給出的分?jǐn)?shù)并不總是穩(wěn)定的。因此,主觀考試的信度主要指評(píng)分員信度或評(píng)分員一致性。評(píng)分員信度又可分為評(píng)分員間信度和評(píng)分員內(nèi)信度。評(píng)分員間信度指兩名或兩名以上評(píng)分員對(duì)相同試卷評(píng)分取得的一致性;評(píng)分員內(nèi)信度指同一評(píng)分員在不同的時(shí)間對(duì)相同試卷評(píng)分所取得的一致性。
2.經(jīng)典測(cè)量理論(CTT)計(jì)算評(píng)分員信度的方法
經(jīng)典測(cè)量理論有以下幾種方法計(jì)算主觀考試信度。
2.1斯皮爾曼-布朗估計(jì)法(Spearman-Brown Prophecy Formula)
主觀考試一般由兩名或兩名以上的評(píng)分員進(jìn)行獨(dú)立評(píng)分,其評(píng)分信度可用計(jì)算這幾名評(píng)分員評(píng)分的相關(guān)來(lái)表示。其公式如下:
2.2積差相關(guān)估計(jì)法
如果兩名評(píng)分員都以原始分?jǐn)?shù)評(píng)分,其評(píng)分信度可用積差相關(guān)系數(shù)表示。其計(jì)算公式(張凱,2002)為:
2.3等級(jí)相關(guān)估計(jì)法
如果兩名評(píng)分員以等級(jí)分?jǐn)?shù)評(píng)分,其評(píng)分信度可用等級(jí)相關(guān)系數(shù)表示。其計(jì)算公式為:
2.4肯德?tīng)枺↘andall)和諧系數(shù)估計(jì)法
當(dāng)兩名以上(K名)評(píng)分員以等級(jí)分?jǐn)?shù)評(píng)分,其評(píng)分信度可用肯德?tīng)柕燃?jí)相關(guān)系數(shù)表示。其計(jì)算公式(張厚粲,徐建平,2003)為:
評(píng)分之和的平方和。
2.5 α系數(shù)估計(jì)法
當(dāng)兩名以上(K名)評(píng)分員采用連續(xù)評(píng)分時(shí),其評(píng)分信度還可用α系數(shù)表示。其計(jì)算公式(王孝玲,2004)為:
3.概化理論計(jì)算主觀考試信度的方法
由于經(jīng)典測(cè)量理論不能從多方面考查影響被試語(yǔ)言表現(xiàn)的誤差來(lái)源,當(dāng)測(cè)量涉及較多側(cè)面時(shí),其測(cè)量誤差的估計(jì)方法有重大缺陷。如評(píng)分者信度、測(cè)量結(jié)果跨時(shí)間的穩(wěn)定性系數(shù)、跨不同測(cè)驗(yàn)版本的等值復(fù)本信度等都需要分開(kāi)逐個(gè)處理(楊志明、張雷,2003)。從上文我們也可以看出,考查評(píng)分員信度的方法只是求兩個(gè)或多個(gè)評(píng)分員獨(dú)立評(píng)分的相關(guān)。但相關(guān)法并不一定能提供證據(jù)證實(shí)變量之間的概念關(guān)系,完全不相同、不相關(guān)的概念也可能具有很高的正相關(guān)(Jackson Maraun,1996)。因此,用相關(guān)法考查評(píng)分員信度,無(wú)法估計(jì)評(píng)分員的系統(tǒng)誤差。但在CTT基礎(chǔ)上發(fā)展起來(lái)的概化理論(generalizability theory,GT)則不存在類(lèi)似的問(wèn)題,它通過(guò)引進(jìn)方差分析技術(shù)可以將測(cè)驗(yàn)總誤差分解,因而可以詳細(xì)地探討分?jǐn)?shù)總誤差的來(lái)源,分析不同來(lái)源的誤差在總誤差中的大?。钪久?、張雷,2003),從而估計(jì)不同的誤差對(duì)測(cè)驗(yàn)分?jǐn)?shù)的影響(Brennan,2001),比如估計(jì)評(píng)分員評(píng)分變異對(duì)被試分?jǐn)?shù)變異的影響,這些都是對(duì)分?jǐn)?shù)作出正確解釋的基礎(chǔ)。
這里我們主要介紹基于概化理論的Longford(1995)評(píng)分員信度估計(jì)方法。
部分實(shí)現(xiàn)。評(píng)分時(shí),不同評(píng)分員的個(gè)體特征如年齡、性別、經(jīng)驗(yàn)、個(gè)人喜好等會(huì)導(dǎo)致他們對(duì)同一篇作文的評(píng)分有所不同,評(píng)分員的一些臨時(shí)狀態(tài),如情緒波動(dòng)、外界環(huán)境影響、疲勞程度等也會(huì)影響評(píng)分的準(zhǔn)確性??紤]到這些因素,Longford提出了一個(gè)基本的加法模型來(lái)表示被試的觀測(cè)分?jǐn)?shù):
也叫殘項(xiàng)(residual terms)。它指除了評(píng)分員嚴(yán)厲度以外的任何影響評(píng)分差異的因素。
將影響被試能力的誤差總來(lái)源分解后,評(píng)分員間信度可以用不同評(píng)分員給同一篇作文所評(píng)分?jǐn)?shù)的方差來(lái)表示,其公式為:
如果同一名評(píng)分員對(duì)同一篇作文進(jìn)行兩次獨(dú)立的評(píng)分,那么,其評(píng)分員內(nèi)信度也可用他兩次評(píng)分的方差來(lái)表示:
另一種估計(jì)評(píng)分員信度的方法是計(jì)算評(píng)分員評(píng)分的均方誤差MSE。MSE越小,評(píng)分信度越高。如果對(duì)同一篇作文評(píng)4.結(jié)語(yǔ)
在計(jì)算評(píng)分員信度時(shí),對(duì)于相同的材料,我們可以采用不同的算法。本文介紹了經(jīng)典測(cè)量理論中幾種有關(guān)評(píng)分員信度的估計(jì)方法,以及一種新的Longford計(jì)算評(píng)分員信度的方法。Longford方法能分解評(píng)分總誤差,探討不同的誤差來(lái)源,但由于沒(méi)有現(xiàn)成的計(jì)算軟件,運(yùn)用該方法需要評(píng)分員自己編制運(yùn)行程序,因而對(duì)評(píng)分員提出了更高的技術(shù)要求。雖然經(jīng)典測(cè)量理論越來(lái)越受到測(cè)量界的批評(píng),人們也在不斷地研發(fā)和嘗試新的方法以代替經(jīng)典測(cè)量理論中估計(jì)評(píng)分員信度的方法,但其計(jì)算方法相對(duì)而言還是要簡(jiǎn)單得多。在新的測(cè)量技術(shù)和方法得到推廣之前,經(jīng)典測(cè)量理論仍將被繼續(xù)使用。我們也期待既有理論上的突破,計(jì)算的誤差更小,評(píng)分員信度更高,又運(yùn)行簡(jiǎn)便的方法早日問(wèn)世。
參考文獻(xiàn):
[1]Brennan,R.L.Generalizability theory[M].New York:Springer-Verlag Inc,2001.
[2]Henning,G.語(yǔ)言測(cè)試指南:發(fā)展、評(píng)估與研究[M].北京:外語(yǔ)教學(xué)與研究出版社,2001.
[3]Jackson Maraun.The conceptual validity of empirical scale construction:the case of sensation seeking scale[J]. Personality and Individual Differences,1996,(21),1.
[4]Longford,T.Models for Uncertainty in Educational Testing[M].New York:Springer-Verlag New York,Inc.,1995.
[5]王孝玲.教育測(cè)量[M].上海:華東師范大學(xué)出版社,2004.
[6]楊志明,張雷.測(cè)評(píng)的概化理論及其應(yīng)用[M].北京:教育科學(xué)出版社,2003.
[7]張厚粲,徐建平.現(xiàn)代心理與教育統(tǒng)計(jì)學(xué)[M].北京:北京師范大學(xué)出版社,2003.
[8]張凱.語(yǔ)言測(cè)試?yán)碚撆c實(shí)踐[M].北京:北京語(yǔ)言大學(xué)出版社,2002.
校級(jí)科研課題:項(xiàng)目編號(hào)SK0746