亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

主觀題評分中的評分者漂移及其傳統(tǒng)檢測方法

2018-11-06 01:23:02趙海燕

中國考試 2018年8期

趙海燕辛濤田偉

（1.北京教育考試院，北京 100083；2.北京師范大學心理學部，北京 100875；3.北京師范大學中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心，北京 100875）

主觀題作為一種重要的題目形式，由于形式多樣、考查靈活以及能夠探查考生深層次的能力，備受測驗編制者和命題者的青睞，業(yè)已成為眾多大型測驗和考試的重要組成部分[1-2]。主觀題評分通常先制訂評分細則，再由評分員根據(jù)主觀印象按照細則對行為樣本進行評定。不管評定量尺建構(gòu)得如何好，量尺信度仍然主要取決于進行評定的人，主觀題最突出的構(gòu)念無關(guān)變異主要來自于評分員[3]。研究表明，評分員自身在多次評分時難以保持一致，不同評分員對于相同行為樣本的評分也不盡相同。評分員自身以及不同評分員間在多次評定上的不一致性,直接降低了結(jié)果分數(shù)的信度和效度,這種現(xiàn)象被稱為評分者效應(yīng)（rater effects）[4]。一段時間以來，研究者傾向于將評分者效應(yīng)視為評分員固有的一種靜態(tài)特征，不隨時間、場合和任務(wù)發(fā)生改變，并以相同方式影響著所有被評價的行為樣本。隨著研究的深入，研究者逐漸認識到評分員的表現(xiàn)會隨著時間、場合以及任務(wù)的變化而改變[3,5-6]，從而引起評分者效應(yīng)的波動，即發(fā)生評分者漂移（rater DRIFT）。

一些大型測驗機構(gòu)和教育管理部門已經(jīng)意識到評分者漂移的存在與危害，如美國教育與心理測驗標準（The Standards for Educational and Psychological Testing）明確指出：測驗實施者必須對評分員的表現(xiàn)進行實時監(jiān)控，以確定是否存在評分者漂移，并在報告結(jié)果分數(shù)時要去除這種測驗無關(guān)變異的影響[7]。評分者漂移的存在凸顯了動態(tài)評估的重要性，為評分過程的質(zhì)量監(jiān)控提出了新的挑戰(zhàn)。在此背景下，研究評分者漂移的模式、規(guī)律以及內(nèi)在機制，深入挖掘評卷質(zhì)量的發(fā)展與保持機制，不僅對評分過程的改進、有效監(jiān)控機制的建立、評分員的遴選與評價的完善具有重要的實踐價值，也能為補償方案的制定奠定基礎(chǔ)，最終有助于提升大規(guī)?？荚嚨男哦?、效度與公平性。

評分者漂移屬于新近出現(xiàn)的研究主題，對多數(shù)研究者而言比較陌生。有鑒于此，本文將重點介紹評分者漂移的定義、使用的指標與傳統(tǒng)的檢測方法，并對未來研究方向加以展望。

1 評分者效應(yīng)及評分者漂移

1.1 評分者效應(yīng)

研究表明，評分員的知識背景、綜合能力、工作經(jīng)驗、情緒偏好以及疲勞程度等個人特征，均會對評分的精確性和客觀性產(chǎn)生影響，從而導致評分者效應(yīng)的出現(xiàn)[4]；在主觀題和其他類似任務(wù)的評分中，評分者效應(yīng)非常普遍，這些效應(yīng)會隨著培訓與監(jiān)控減弱，但不會完全消失[4,8-15]。

Scullen等認為，評分者效應(yīng)是一大類效應(yīng)，導致這類效應(yīng)的系統(tǒng)變異與評分員在評定中的表現(xiàn)有關(guān)，與被試的行為無關(guān)[16]。評分者效應(yīng)按表現(xiàn)與影響機制可細分為多個子類別。一般說來，最受關(guān)注的效應(yīng)有嚴厲度或?qū)捤啥刃?yīng)（severity/leniency）、不準確性效應(yīng)以及評定量尺使用模式上的系統(tǒng)變異，如趨中效應(yīng)（central tendency）和范圍限制等[17]。

1.2 評分者漂移

在評分進程中，諸多因素都可能影響評分員的行為表現(xiàn)，其中包括個人因素、評卷環(huán)境的物理因素以及評分過程中的學習、質(zhì)量監(jiān)控和培訓的延遲作用等。大規(guī)模考試的評卷過程短則持續(xù)數(shù)天，長則持續(xù)數(shù)個星期；影響評分表現(xiàn)的諸多因素都會隨著時間、場合以及任務(wù)的變化而變化；相應(yīng)地，評分員的表現(xiàn)也會發(fā)生改變[3]，從而引起評分者效應(yīng)的波動，即評分者漂移。

評分者漂移的定義也隨著研究進程的發(fā)展而逐漸演變。早期研究認為，評分者漂移源自于評分員使用評分細則的前后不一致[18]。隨著研究的推進，研究者認識到評分員會“隨著時間進程的推進逐漸地、或多或少地展示出評分者效應(yīng)”，評分者漂移是“評分員隨著評卷時間進程的推進所發(fā)生的在評分表現(xiàn)上的差異性變化”[19]。實際上，在Wolfe等的最初提法中，評分者漂移的英文名稱DRIFT近似為Differential Reader Functioning over Time的首字母，意為評分員的跨時間功能差異[5]。評分者漂移也是多種評分者效應(yīng)波動的總稱，如嚴厲度漂移、不準確性漂移以及趨中效應(yīng)漂移等。

評分員的嚴厲度水平會隨著評卷進程的推進而變化：當評卷過程持續(xù)較長時間時，評分員的平均評定可能在今天與明天、上午與下午，甚至試卷批次間發(fā)生波動，即評分員表現(xiàn)出嚴厲度漂移[6]。趨中效應(yīng)同樣會發(fā)生波動：隨著評卷進程的推進，一些評分員會更加頻繁地使用量尺的中間類別，表現(xiàn)一種漸進的范圍限制，即發(fā)生量尺類別使用的漂移[6]。不準確性效應(yīng)也會隨著評卷進程發(fā)生漂移：一方面，練習效應(yīng)使一些評分員變得更加準確；另一方面，疲勞和厭倦也可能導致評分誤差隨著評卷進程的推進而上升。此外，一些評分項目還包含持續(xù)培訓或階段性校正，這些做法也會導致不準確性效應(yīng)發(fā)生變化[20]。

評分者漂移領(lǐng)域最受青睞的是嚴厲度效應(yīng)，大部分研究均針對該效應(yīng)展開[3,18]。只有少數(shù)研究關(guān)注其他效應(yīng)的漂移[6,21-23]。研究表明，即使在相同評分環(huán)境下，不同評分員的評分表現(xiàn)也會隨著時間進程的推進出現(xiàn)不同的趨勢。總的說來，研究者已經(jīng)認識到了評分者漂移研究的意義與價值，并進行了一定規(guī)模的研究。這些研究的方法和結(jié)論對了解評分行為有所助益，盡管仍存在一些不盡人意之處。

2 傳統(tǒng)的檢測方法

早期研究多采用重復評定策略，借助評定間的分數(shù)變化、相關(guān)分析和方差分析探查嚴厲度的跨時間變化[24]。隨后，Congdon等[3]基于多面Rasch模型（Many Faceted Rasch Model,MFRM）[25]和差異檢驗方法檢測嚴厲度漂移；在此基礎(chǔ)上，Wolfe等拓展了一個監(jiān)控評分者漂移的通用框架，并用于檢測多個效應(yīng)的漂移[6,26]。此外，還有一些研究借助多水平模型檢測評分者漂移[23,27-28]。下文著重介紹傳統(tǒng)的檢測方法。

2.1 監(jiān)控評分者漂移的通用框架

Wolfe等提出的通用框架將評分者漂移的監(jiān)控過程分為4個步驟：一是將評卷進程劃分為時間片段，劃分基于評卷進程的長度和內(nèi)部特點，相應(yīng)地可按星期、天，甚至小時進行劃分。二是確定評分者效應(yīng)的指標，計算各時段的指標值并進行基線比較或相鄰比較。前者選擇一個時段作為參照，探查評分員在參照時段和目標時段間的行為變化；后者則將某一時段與相鄰時段進行比較，以偵測評分員在相鄰時段間的行為變化。兩者在本質(zhì)上屬于簡單的差異顯著性檢驗；當結(jié)果顯示差異顯著時，即認定存在評分者漂移。三是選擇刻畫評分者漂移的參照框架，可分為內(nèi)部參照框架和外部參照框架。內(nèi)部參照框架根據(jù)特定評分員與其他評分員的一致性程度來刻畫其表現(xiàn)，適用于采用多重評定的評分程序；外部參照框架則根據(jù)評分員的評定與某外部標準（如客觀題分數(shù)或?qū)＜掖蚍郑┑囊恢滦猿潭葋砜坍嬈浔憩F(xiàn)，適用于采用單一評定的評分程序。四是決定是否采用錨定策略以及是否使用全部數(shù)據(jù)建立鏈接。使用外部參照框架時，要采用錨定策略，即用外部指標固定某些參數(shù)值。若不采用錨定策略，則要使用全部數(shù)據(jù)建立量尺標度[6]。

2.2 多面Rasch模型及其變式

傳統(tǒng)Rasch模型可視為包含兩個面：個體能力和題目難度。事實上，個體在主觀題上的得分不僅取決于其能力和題目難度，還受到評分員嚴厲度和題目特定等級難度等因素的影響。有鑒于此，Linacre將傳統(tǒng)Rasch模型拓展為多面Rasch模型?；A(chǔ)的多面Rasch模型中只加入了一個評分員側(cè)面，其數(shù)學表達式為：

其中，πnrx和πnrx-1分別為個體n被評分員r評為等級x和x-1的概率；An為個體n的能力水平，即在潛在能力連續(xù)體上的位置；Sr為評分員r的嚴厲度；Tx為等級x相對于等級x-1的難度或閾限位置。

多面Rasch模型有幾種變式可用于處理評分者漂移。第一個變式中加入了一個時間側(cè)面，故稱為時間模型（the time facet model）[25]，可用于探測評分員在不同時段間的整體變化。要直接估計評分員個體在每一時段的水平，則要用到分離模型（the separate model）[25]。時間模型也可以進一步擴展為交互作用模型（the interaction model）[25]，模型中加入了評分員和時間的交互項，表示評分員在每一時段對其總嚴厲度的偏離。

多面Rasch模型自誕生以來，廣泛用于主觀題的分數(shù)等值、評分者效應(yīng)偵測、題目審定過程的質(zhì)量監(jiān)控和考試公平性研究等領(lǐng)域[2,8-9,11-13,20,26]。在評分者漂移的傳統(tǒng)檢測方法中，多個指標直接源自或部分基于多面Rasch模型。

2.3 靜態(tài)評分者效應(yīng)的指標

2.3.1 嚴厲度效應(yīng)

當評分員打分具有持續(xù)低于或高于個體真實能力水平的傾向時，就表現(xiàn)出嚴厲度或?qū)捤啥刃?yīng)[9,11,29]。對嚴厲度效應(yīng)的定義通常處于一定的測驗理論框架下。如在項目反應(yīng)理論框架下，嚴厲度或?qū)捤啥刃?yīng)被定義為：相較于其他評分員，目標評分員一致地給出偏低或者偏高的評定的傾向，前提是考慮該評分員所評的特定行為樣本的水平[13,20]。嚴厲度效應(yīng)的度量可直接使用經(jīng)典測量理論框架下的平均數(shù)，當然這只作為一種粗略的度量；更常見的做法是從評分者模型中直接獲得嚴厲度估計，大多數(shù)評分者模型均直接給出了嚴厲度參數(shù)，如多面Rasch模型的Sr等。

2.3.2 趨中效應(yīng)

范圍限制是指評分員未能使用整個量尺，將評定限制在量尺的某個范圍或區(qū)域內(nèi)[12,29]。當分數(shù)聚集在量尺中部時，范圍限制一般也被稱為趨中效應(yīng)，趨中效應(yīng)是范圍限制的一個特例[12,29]。趨中效應(yīng)并不影響量尺中段評定的準確性和有效性，但會導致低端被試能力的高估和高端被試能力的低估。與嚴厲度效度不同，趨中效應(yīng)在多數(shù)評分者模型中并沒有直接指標，研究者為此開發(fā)了若干導出指標。

探測范圍限制和趨中效應(yīng)，最簡單的指標是原始分的標準差或方差[30]。一般說來，分數(shù)向平均數(shù)集中且標準差較小意味著存在趨中效應(yīng)[31]。

多面Rasch模型的常用估計程序FACETS[32]給出的均方擬合指標（fit indexes），也可用于探測趨中效應(yīng)。均方擬合指標相當于卡方統(tǒng)計量除以自由度，取值范圍為0～+∞。均方擬合指標的值在0.50～1.50[10]或0.60～1.50[33]表明擬合度可以接受。當存在趨中效應(yīng)時，擬合統(tǒng)計量明顯小于1[31]。

基于模型考查趨中效應(yīng)還可計算殘差與期望值的相關(guān)（the expected-residual correlation，rres,exp）[4,31]。殘差與期望值的相關(guān)被稱為殘期相關(guān)；當存在趨中效應(yīng)時，殘期相關(guān)為負，趨近于-1；當存在極端化傾向（趨中效應(yīng)的反面）時，殘期相關(guān)為正，趨近于+1[4]。類似指標還有殘差與模型分的相關(guān)（the correlation between ratee measures and modelbased residuals，rres,score）。殘差與模型分的相關(guān)被稱為殘模相關(guān)，同樣可作為趨中效應(yīng)指標。二者的區(qū)別在于分數(shù)的單位，期望值的單位為logit，模型分的單位則為原始分數(shù)單位[31]。

2.3.3 不準確性效應(yīng)

不準確性效應(yīng)指評分員的評分與個體真實能力間看似隨機的差異與分歧[4]。通常，評分者效應(yīng)強調(diào)對評分誤差的均衡的系統(tǒng)性貢獻；與此不同的是，不準確性效應(yīng)屬于非均衡性誤差，可以因時間、特質(zhì)、群體、被評價個體的不同而異[12]，實際上對效度構(gòu)成更大的潛在威脅[8]。評分情境下的諸多因素均會導致不準確性效應(yīng)出現(xiàn)，如評分員對測驗的內(nèi)容背景了解不充分，評分前未經(jīng)過充分培訓，具有不可改變的偏見等，主要原因都是評分員未掌握評分細則[31]。

不準確性效應(yīng)同樣可借助殘期相關(guān)進行偵測。Wolfe指出，當存在趨中效應(yīng)時，殘期相關(guān)為負向；當存在不準確性效應(yīng)時，殘期相關(guān)接近零[4]。度量不準確性效應(yīng)還可借助一個基于原始分的指標：他評相關(guān)，即與其他評分員給分的相關(guān)（rSR-ROR）。相較準確性較低的評分員，準確性較高的評分員的他評相關(guān)指標應(yīng)更高一些[12]。與他評相關(guān)類似的指標是原模相關(guān)[31]，即評分員所給原始分數(shù)與模型估得的個體能力分數(shù)間的相關(guān)（the score-measure correlation或the point-measure correlation，rscore,measure）。較高的正的原模相關(guān)說明評分員給分與被試能力估計間具有較強的一致性[31]。此外，均方擬合指標可說明評分員能否對行為樣本進行可信區(qū)分，因此可同時作為趨中效應(yīng)和不準確性效應(yīng)的指標。這兩個指標的期望值均為1，大于1表明變異大于預期，即存在不準確性效應(yīng)[33-34]。

2.4 嚴厲度漂移檢測方法

傳統(tǒng)方法檢測嚴厲度漂移，首先要基于分離模型或交互作用模型[30]擬合得到分時段的嚴厲度指標，然后對不同時段的指標進行差異檢驗。

當基于分離模型擬合數(shù)據(jù)時，可計算標準化差異指標（Signed Area Index,SAI）探查嚴厲度漂移[6,35]，用公式表示為：

其中，SAIrc表示標準化差異指標；c為待比較的時段，b為基線時段;Src和Srb指評分員r在時段c和b的嚴厲度估計。SAI的顯著性檢驗主要借助Z檢驗[6,35]，用公式表示為：

其中，ZSAIrc表示標準化差異指標的檢驗值和表示在時段c和b的評分員嚴厲度估計的方差。ZSAIrc的正值表示評分員變得嚴厲，負值表示變得寬松。計算出ZSAIrc后，可將它與標準正態(tài)分布直接比較。一些學者建議將它看作效果量指標（effect size indicator），數(shù)值大于0.50表示效應(yīng)有意義[36]。

擬合交互作用模型得到的交互項估計Irt可直接作為嚴厲度漂移指標，表示評分員在每一時段的嚴厲度對其自身平均嚴厲度的偏離。對該指標可進行Waldt-test檢驗，零假設(shè)為評分員在時段c對其總嚴厲度的偏離為0。當樣本足夠大時，可以將t值與Z分布直接比較，t值計算公式表示為：

一些研究使用標準化差異指標探查嚴厲度漂移[15,18]。這個指標的主要不足在于其分布未知。大多數(shù)研究者假設(shè)，在零假設(shè)條件下標準化差異指標服從標準正態(tài)分布[3,15,18]。另一些研究使用交互項指標探測嚴厲度漂移[3,38]。此外，還有些研究對上述兩個指標進行比較，但并未得出一致結(jié)論[6]。

2.5 均方類指標檢測方法

評分員所給分數(shù)的標準差或方差可作為趨中效應(yīng)的粗略指標。比較評分員在不同時段所做評定的方差，可用來說明是否存在趨中效應(yīng)漂移。方差的比較一般采用F檢驗，指標計算公式表示為：

當存在趨中效應(yīng)時，源自FACETS程序的均方擬合指標一般小于1。若評分員出現(xiàn)趨中效應(yīng)漂移，均方擬合指標也會相應(yīng)變小。因此，均方擬合指標在統(tǒng)計上顯著降低將指示這種量尺類別使用上的變化。均方擬合指標近似符合卡方分布除以自由度，那么，兩個均方擬合指標的比值應(yīng)近似地符合F分布，自由度分別等于各自的自由度。檢驗值計算公式表示為：

其中，MSc和MSb分別為時段c和時段b的均方擬合指標。評分員變異性的跨時間下降將導致均方擬合指標的數(shù)值隨之下降，即Ffit小于1[6]。此外，F(xiàn)fit還可以用作不準確性漂移的檢測指標，檢驗原理與指標計算公式相同。

2.6 相關(guān)系數(shù)類指標檢測方法

在評分者效應(yīng)的指標中，多個均為相關(guān)系數(shù)，如度量不準確性效應(yīng)的他評相關(guān)[12]和原模相關(guān)[31]、度量趨中效應(yīng)和不準確性效應(yīng)的殘期相關(guān)[4,31]以及度量趨中效應(yīng)的殘模相關(guān)[31]等。對于這類指標，要先將相關(guān)系數(shù)轉(zhuǎn)化為Fisher-Z函數(shù)，再進行Z檢驗。如對于他評相關(guān)，轉(zhuǎn)換公式與檢驗指標計算公式表示為[6]：

其中，ZrSR-RORc與ZrSR-RORb分別為在時段c和b的他評相關(guān)的Fisher-Z函數(shù)轉(zhuǎn)換值。Nc和Nb分別為ZrSR-RORc與ZrSR-RORb所基于的評定數(shù)。其他幾個相關(guān)系數(shù)類指標的檢驗同理。

利用差異檢驗法偵測評分者漂移，優(yōu)點是簡單明了，可以遵循現(xiàn)成的統(tǒng)計原理；不足在于每次只能比較兩個時段，難以縱覽評分者漂移的全貌。此外，當劃分時段較多時，比較數(shù)量也隨之增加；多重比較的Ⅰ類錯誤率也會相應(yīng)地呈指數(shù)增長。在這種情況下須對Ⅰ類錯誤率進行校正[27]。

3 結(jié)束語

針對評分者效應(yīng)和漂移，前人做了大量的研究。這些研究著眼于諸多評分者效應(yīng)，基于不同的研究方法，在一定程度上揭示了評分者效應(yīng)和漂移的機制以及負面影響。令人遺憾的是，評分者效應(yīng)和漂移領(lǐng)域的大部分研究均針對有限的評分周期、有限的評分員樣本以及有限的評分者效應(yīng)展開。

結(jié)合現(xiàn)有研究的不足，對未來研究的可能方向加以展望：

首先，評分者效應(yīng)和漂移領(lǐng)域目前大部分研究均采取心理測量取向，重視評分者模型的開發(fā)，并不關(guān)注效應(yīng)產(chǎn)生的認知過程。事實上，研究評分者效應(yīng)和漂移，除了心理測量取向外，還可以著眼于認知過程，通過構(gòu)筑認知模型，厘清評分過程中的不同要素的作用及關(guān)系[14,17,39]。在評分者效應(yīng)領(lǐng)域，兩個取向的研究目前基本處于分離狀態(tài)。然而，評分行為的外在表現(xiàn)和內(nèi)在認知過程是難以分割的有機整體。只有將認知過程和心理測量有效融合，才能真正揭示外在差異背后的深層次心理原因，從而實現(xiàn)對評分者效應(yīng)和漂移的有效鑒別與控制，最終保證行為表現(xiàn)測量的信度、效度和公平性。

其次，評分者效應(yīng)和漂移研究方法相對單一，過于倚重差異檢驗方法，并未考慮多重評分策略導致的數(shù)據(jù)層級性。多次差異檢驗不僅易導致I類錯誤率增加，而且很難反映評分員的整體趨勢變化。目前，評分者漂移的研究主要基于多面Rasch模型和差異檢驗方法。傳統(tǒng)方法有其優(yōu)勢，也存在明顯的不足。相較而言，借助適合數(shù)據(jù)結(jié)構(gòu)特點的多水平模型偵測評分者漂移，不失為一種可行方法。評分者漂移在測量領(lǐng)域并不屬于熱點主題，目前多水平方面的應(yīng)用尚處于起步階段，在效應(yīng)變量的選取、時間變量的加入、模型的細節(jié)設(shè)置方面都有待深入研究。這些探索將有助于提升評分者漂移檢測的效度和效率。

第三，評分者效應(yīng)的大部分研究、評分者漂移的絕大部分研究均針對嚴厲度效應(yīng)進行，只有極少數(shù)研究關(guān)注其他效應(yīng)[6]。而且，大多數(shù)研究均基于英語作文評分背景下的有限評分員樣本，嚴重制約了結(jié)論的外部效度。不僅很少有研究關(guān)注高利害性大規(guī)模教育考試的真實評分過程，而且較大樣本的多種評分者效應(yīng)的整合研究在國內(nèi)外都是稀缺的。事實上，統(tǒng)計無法從根本上消除評分者效應(yīng)和漂移。對于評分者漂移的調(diào)控，認識到其存在以及危害性僅僅是一個開端，更重要的是從評分設(shè)計入手，在評分過程中尋求解決方案。研究評分過程和評分設(shè)計的改進，在研究設(shè)計上要綜合考慮各方面因素，加入足夠的評分員變量，綜合多種評分者效應(yīng)，實現(xiàn)對評分過程的全面刻畫。在此基礎(chǔ)上采取恰當?shù)慕y(tǒng)計解決方案，才能在效應(yīng)發(fā)生后進行有效的事后補救。