人力資源管理中的評分者偏差及其控制方法

2016-11-17 09:03:52李英武魏敏媛彭坤霞麗

中國人力資源開發(fā) 2016年16期

· 李英武　魏敏媛　彭坤霞麗

人力資源管理中的評分者偏差及其控制方法

· 李英武魏敏媛彭坤霞麗

在所有人力資源管理涉及主觀評價的環(huán)節(jié)，常常會受到評分者個體差異或個體差異與情境交互作用影響而產(chǎn)生偏差，這些主觀偏差往往會影響人力資源管理的科學(xué)性和公正性。當(dāng)前，評分者寬容誤差和暈輪誤差是研究領(lǐng)域關(guān)注最多的兩類主觀偏差，大量的研究揭示可以采用多質(zhì)多法、概化理論以及項目反應(yīng)理論等測量理論對人力資源管理中的評分者偏差進(jìn)行甄別，有效降低評分者偏差對人力資源管理的負(fù)作用。

人力資源管理評分者偏差寬容誤差暈輪誤差

人力資源甄選的目的在于評估應(yīng)聘者的個體差異，尋找人崗相適符合組織發(fā)展需求的應(yīng)聘者。但是，近期大量的研究揭示這樣一個規(guī)律，就是在人力資源甄選以及績效評估等環(huán)節(jié)，特別是面試、無領(lǐng)導(dǎo)小組、評價中心、績效上級評估涉及人力資源管理者進(jìn)行主觀賦分的測評環(huán)節(jié)，評價結(jié)果數(shù)據(jù)往往會反映一部分評分者的特征，如不同的評分者可能對面試題目或績效評估標(biāo)準(zhǔn)有著自己的理解，評分者對特定的應(yīng)聘者存在刻板印象，這種由評分者個人特征對測評結(jié)果造成的偏差分?jǐn)?shù)，學(xué)界取了名稱叫“評分者偏差”，這些偏差隱含于整個人力資源主觀評價諸多領(lǐng)域，如人力資源招聘、績效評估、競聘上崗、人才盤點等環(huán)節(jié)，甚至一些資深人力資源管理者也未必意識到，但實際上卻會對人力資源管理的科學(xué)性和公正性造成重大的影響。因此成為人力資源管理領(lǐng)域關(guān)注的熱點問題。

一、什么是評分者偏差

那么什么是評分者偏差呢？Hoyt（2000）認(rèn)為評分者偏差就是評分者間產(chǎn)生的意見分歧。Lumley和McNamara（1995）認(rèn)為在整個人力資源管理中所有涉及主觀評分的過程都可能會產(chǎn)生評分者誤差，其中一部分誤差為隨機誤差，即隨機的不容易進(jìn)行系統(tǒng)分析的誤差，如人力資源甄選評分當(dāng)時的天氣環(huán)境因素或者評分者的情緒狀態(tài)等，這些誤差隨機出現(xiàn)，雖然能夠察覺但是往往在實踐時關(guān)注不夠。另外一部分誤差是由評分者的個體差異導(dǎo)致的誤差，如評分者的寬嚴(yán)度（severity），評分者寬嚴(yán)度比較隱蔽，以系統(tǒng)性模式隱含于測評結(jié)果中，而且比較難于發(fā)現(xiàn)。如評分者會對某一類應(yīng)聘者（或員工），某個選拔題目或績效評估標(biāo)準(zhǔn)更為嚴(yán)厲或?qū)捤?，也就是說評分者的個體差異與評分情境發(fā)生了交互作用，這種交互作用影響了測評的一致性和有效性程度。Campbell和Fiske（1959）認(rèn)為人力資源中第二種誤差更隱蔽也更具危害性，這種偏差隱含于評分結(jié)果中，但測評分?jǐn)?shù)或者觀測分?jǐn)?shù)（observed scores）有部分誤差并非被試的真實能力結(jié)果，屬于與評價無關(guān)的系統(tǒng)性誤差。Wigglesworth（1993）將這種評分者偏差解釋為評分者與評分環(huán)節(jié)各個方面交互呈現(xiàn)出來的系統(tǒng)性模式。

那么評分者偏差有哪些來源呢？Lumley和McNamara（1995）根據(jù)評分過程的不同，將評分偏差從評分者本人、評分量表、評分對象，認(rèn)為評分者偏差主要來源于以下五種渠道：一是評分者本人的寬嚴(yán)程度不同所導(dǎo)致的評分者偏差，評分太寬松或評分太嚴(yán)厲，都會降低評分有效性；二是評分者之間在自身內(nèi)部一致性程度上存在的差異，如有的評分者評分標(biāo)準(zhǔn)掌握比較好，評分尺度把握穩(wěn)定而有的評分者在評分時忽寬忽嚴(yán)，評分穩(wěn)定的評分者與不穩(wěn)定的評分者之間的差異；三是評分者觀察被試行為的時機不同而出現(xiàn)的評分差異；四是評分者對被試的認(rèn)知存在分歧，即對相同外顯行為的歸因解釋或認(rèn)知評價不同而導(dǎo)致的評價；五是評分者對評分量表、評分等級的理解不同而出現(xiàn)的差異。其中評分者的寬嚴(yán)程度與評定任務(wù)之間還存在交互作用，當(dāng)評定任務(wù)較難時，等級較多標(biāo)準(zhǔn)較為復(fù)雜時（如人力資源管理中流行一時的360度評價）不同的評分者在交互作用中會呈現(xiàn)不同的偏差模式（Hoyt， 2001）。

二、評分者偏差的類型

Hoyt（2000）在研究中發(fā)現(xiàn)，既往研究主要將評分者偏差分為兩類：一類叫寬容誤差（leniency errors），另外一類稱為暈輪誤差（halo errors）。寬容誤差由不同的評價來源造成（Sharon & Bartlett， 1969）。一般來說，自我評價比上級評價和同事評價更寬容，其中上級評價和同事評價差異不大（Sundar & Kardes， 2015）。Myford和Wolfe（2003）認(rèn)為除了上述評分者偏差外，還有全距限制（restriction of range）和中心化趨勢（central tendency）。全距限制是指評分者傾向給的分?jǐn)?shù)受到全距分?jǐn)?shù)的限制，造成不容易區(qū)分高分者或低分者；中心化趨勢也叫居中趨勢、集中趨勢，是指評分者給受評者的分?jǐn)?shù)圍繞平均數(shù)或眾數(shù)上下波動，分?jǐn)?shù)范圍較小。例如，人力資源管理中曾經(jīng)應(yīng)用非常廣泛的360度評級體系，通常對績效評價的10等級評分進(jìn)行值域限定，這樣管理者或者顧客在進(jìn)行評分時，由于限定了評分等級，只能在1至10等級進(jìn)行選擇，由此產(chǎn)生的測量誤差，即全距限制。此外，我們在銀行柜臺辦理相關(guān)匯款業(yè)務(wù)后，有時柜員會請你對他（或她）的服務(wù)進(jìn)行滿意度進(jìn)行評價，在“滿意”“一般”“不滿意”三個等級中進(jìn)行選擇，限定的評價等級也會產(chǎn)生此類全距限制評分偏差。研究揭示，使用限定的評分等級進(jìn)行評分，顧客的評分通常會向上偏移，出現(xiàn)“寬容偏差”（Hoyt， 2000）。

暈輪誤差表現(xiàn)為同一評分者評價變量間的高相關(guān)性而造成這一現(xiàn)象的原因主要源于管理者對員工的總體印象會影響特定績效評估維度上的評分（Lance et al.， 1994）。。例如，某位應(yīng)聘者在面試環(huán)節(jié)，語言表達(dá)流暢，這時人力資源經(jīng)理在面試評分時可能會將應(yīng)聘者知識、技能、認(rèn)知能力等維度評分都評定的較高，這樣同一位人力資源經(jīng)理在不同維度語言表達(dá)能力、知識、技能、認(rèn)知能力等變量間就存在“以總概偏”，即暈輪誤差。在績效評價領(lǐng)域的研究中，學(xué)者們發(fā)現(xiàn)在很多績效評定過程的大部分評分偏差其實是由暈輪效應(yīng)引起的，這些特定的、系統(tǒng)的暈輪效應(yīng)顯著解釋了大部分評分偏差（Viswesvaran et al.，2014）。暈輪誤差可能是大多數(shù)人力資源管理中主觀測評中最嚴(yán)重的問題之一，會降低績效評價的區(qū)分度。

此外，也有研究者分析了不同評分者間的差異對績效評估分?jǐn)?shù)影響，發(fā)現(xiàn)可以將評分者偏差進(jìn)行區(qū)分。在人力資源管理中，通常會存在多個評分者（或者是上級管理者）評價多個員工的情況，評分者間的評分偏差也會影響員工最終績效評定的測評均值、測評方差。例如，評定分?jǐn)?shù)膨脹（grade inflation）就是評分者偏差影響測評均值的一種。評分量表規(guī)定達(dá)到平均水平的員工可以給年度成績C，但如果所有評分者都將C理解為不及格的成績，就很可能造成所有員工績效成績都高于平均水平這樣違反現(xiàn)實的情況發(fā)生。不過由于所有評分者的評分偏差恒定，分?jǐn)?shù)膨脹并不會影響員工的排名，所以許多研究都不考慮這一問題。當(dāng)評分者的評分偏差不定，員工的排名受到評分偏差的影響時，問題就較為復(fù)雜了。

Viswesvaran（2014）等認(rèn)為評分者特定偏差（rater-specific bias）或二元特定偏差（dyad-specific bias）都可能影響績效測評的方差，或者說績效評估的離散程度。Viswesvaran等（2014）指出如果一些評分者認(rèn)為C是個令人滿意的成績，而另一些評分者認(rèn)為C是個不及格的成績，就出現(xiàn)了評分者特定偏差，類似于寬容誤差。二元特定偏差更為復(fù)雜，如果部分評分者或所有評分者讓一些與績效無關(guān)的被試的特質(zhì)（例如是否具有吸引力，書寫是否美觀）影響了評分，那么評分者對被試的不同印象就會影響測評成績的方差。評分者特定偏差和二元特定偏差都會降低被試排名的可信度，但由于某一評分者對不同被試的評分偏差不同，二元特定偏差很難估計或糾正。

當(dāng)評分者偏差影響測評方差時，相伴而生的另一個問題就是評分者特定方差（rater-specific variance）或二元特定方差（dyad-specific variance）對測評變量間相關(guān)性的影響。如果評分者在若干變量上為被試打分，由于偏差協(xié)方差的存在，觀測到的測評變量間的相關(guān)性可能不同于真實的（無偏差的）相關(guān)性。例如，如果某位管理者在各個績效考核維度上都給自己偏愛的員工打高分（二元特定方差），則維度間的相關(guān)性就提高了；如果員工不都由同一批管理者打分且評分者特定偏差（測評時評分者個人的寬容程度）和測評維度相一致，那么維度間的相關(guān)性也會提高。

三、如何甄別評分者偏差

（一）采用傳統(tǒng)經(jīng)典方法甄別偏差

面對上面闡述的多種評分者偏差，恐怕很多人力資源管理者都會感到手足無措，不知道如何處理。其實，對于評分者偏差的甄別技術(shù)非常成熟，而相關(guān)研究已經(jīng)持續(xù)了近60年。早在1959年，Campbell和Fiske（1959）就提出了多質(zhì)多法（Multitrait-Multimethod Analysis）來分析評分者偏差，在心理測量領(lǐng)域被譽為“評分偏差”甄別的經(jīng)典方法。這種方法能夠有效分析具有多個評分維度、不同評分來源的測評數(shù)據(jù)，能夠提供測評的收斂效度與區(qū)分效度。收斂效度指的是用不同方法測量同一特質(zhì)所得結(jié)果的一致程度。區(qū)分效度指的是的不同特質(zhì)的測評間的獨立程度。此外，評分者偏差的經(jīng)典甄別方法還有Guilford（1954）提出的方差分析（ANOVA）和Joreskog（1970）提出的驗證性因子分析都可用于測量收斂效度和區(qū)分效度，還可以檢驗方法偏差和暈輪效應(yīng)。

（二）采用現(xiàn)代概化理論甄別偏差

1972年Cronbach（1972）所提出的概化理論（Generalizability Theory）目前在國外人力資源管理領(lǐng)域是甄別評分偏差另一常用方法，如Guilford提出的方差分析方法（ANOVA）一樣，概化理論可以同時對評價數(shù)據(jù)的多個誤差源及誤差源間的交互作用進(jìn)行檢驗。概化分析的重點在于估計模型中效應(yīng)引起的方差（而不是檢驗?zāi)切┬?yīng)的統(tǒng)計顯著性），進(jìn)而給出心理測量學(xué)的解釋，并得出不同誤差源相對重要程度以及它們對測評質(zhì)量的影響等重要信息。

當(dāng)把測評中的偏差考慮為單一方差時，評分者方差和二元方差（dyadic variance）都可能是誤差源，由此得出一元概化模型（Univariate Model）：

一元概化模型是經(jīng)典的信度理論真分?jǐn)?shù)模型（the true score model of classical reliability theory）的擴展，真分?jǐn)?shù)模型將觀察分?jǐn)?shù)分為真分?jǐn)?shù)和測量誤差。經(jīng)典模型中的真分?jǐn)?shù)部分類似于一元概化模型中的被試方差。一元概化模型將經(jīng)典信度理論中的單一誤差項進(jìn)一步分解為三部分：表示由組間誤差（評分者偏差）產(chǎn)生的系統(tǒng)變異，表示組內(nèi)誤差或測評的隨機方差。將組間誤差從組內(nèi)誤差中分離出來對于估計評分者偏差的影響和選取測量的方式至關(guān)重要。

當(dāng)評分者在多個變量上對被試進(jìn)行評價時，各變量間相關(guān)系數(shù)的估計值會因誤差方差（包括偏差方差）而降低，也可能出現(xiàn)暈輪效應(yīng)，相關(guān)系數(shù)的估計值因偏差協(xié)方差而升高。在這種情況下，Hoyt（2000）建議使用二元概化模型來糾正因組內(nèi)誤差和組間誤差而扭曲的二元相關(guān)系數(shù)。在變量X和Y上，評分者r對被試t評價的方差如下：

變量X和Y間協(xié)方差的觀測值如下：

變量X和Y間相關(guān)系數(shù)的觀測值如下：

在測評設(shè)計中需要注意兩個問題：一是觀測否具有關(guān)聯(lián)性，二是所有評分者是否評價所有被試。首先，當(dāng)出現(xiàn)以下情況時可以認(rèn)為對變量X和Y的觀測具有關(guān)聯(lián)性：觀測均由同一個評分者進(jìn)行；觀測由不同評分者進(jìn)行，但是評分者間不獨立。當(dāng)只評估單個變量或者兩變量由獨立的評分組進(jìn)行評估時，偏差協(xié)方差才為零。其次，當(dāng)所有評分者評價所有被試時，由于全部的評分者效應(yīng)是恒定的，評分者方差對觀測分?jǐn)?shù)方差沒有影響，因此不屬于誤差方差。然而，在大多數(shù)情況下，被試通常由不同的評分者或不同的評分組進(jìn)行測評，這時評分者方差就屬于誤差方差。

國內(nèi)應(yīng)用概化理論進(jìn)行評分者偏差研究的文獻(xiàn)在近十年慢慢增多。其中，嚴(yán)芳和李偉明（2002）在實行公務(wù)員面試的某省直國家機關(guān)中隨機抽取27名被試，采用概化理論，通過一元概化分析和多元概化分析，對結(jié)構(gòu)化面試過程中的評價信息評分誤差、評分者信度進(jìn)行了較深入的理論探討，為完善結(jié)構(gòu)化面試的測量設(shè)計、最優(yōu)化測評決策提供了有益的參考。隨后，嚴(yán)芳和李偉明（2002）認(rèn)為由于概化理論中方差分量估計的工具和途徑有限，使該方法的推廣受到限制，為研究者介紹了結(jié)構(gòu)方程建模（SEM）估計概化理論中方差分量，并通過對某省直國家機關(guān)公務(wù)員錄用考試結(jié)構(gòu)化面試的評分者信度分析，闡述用結(jié)構(gòu)方程模型（SEM）估計概化理論中不同設(shè)計下的評分者信度研究。

康春華等（2010）應(yīng)用概化理論對人才招聘中常用無領(lǐng)導(dǎo)小組討論和行為面試兩種技術(shù)進(jìn)行了評分者信度的研究。應(yīng)用一元交叉設(shè)計和多元交叉設(shè)計對某公司的某次人事測評結(jié)果的評價者一致性信度進(jìn)行評估。研究結(jié)果表明，在一元概化理論和多元概化理論兩種模式下，信度系數(shù)都達(dá)到了較高水平，相比較而言，一元交叉設(shè)計信度低于多元交叉設(shè)計的合成概化系數(shù)。在評分者個數(shù)增加到4-6個時，測試的評分者信度會有較大的提高。

（三）采用多層面Rasch模型甄別偏差

由單參數(shù)Rasch模型延伸而來的多層面Rasch模型（Multi-factor Rasch Model）是分析評分者偏差的另一個重要工具。Linacre（1989）Rasch數(shù)學(xué)模型的基本想法是某個考生答對某道題的概率大小不僅取決于考生自身的能力，也取決于這道題目的難度。多層面Rasch模型將Rasch數(shù)學(xué)模型的思想擴展到更多的側(cè)面，其中應(yīng)聘者能力、人事選拔題目難度、評分者的寬嚴(yán)程度、評分量表中相鄰等級的階梯難度等都會共同作用，影響應(yīng)聘者最終得分。在多層面Rasch模型下，這些方面的影響被參數(shù)化，并在模型中共同決定應(yīng)聘者取得某一分值的概率大小。

多層面Rasch模型可以把應(yīng)聘者的能力水平、項目的難度值和評分者的寬嚴(yán)程度放在同一個線性的量表下，提供反映評分者之間及其自身的一致性程度，以及評分者與應(yīng)聘者、評分項目與評分等級之間的交互作用的數(shù)據(jù)。已有研究表明，多層面Rasch模型能準(zhǔn)確地找出影響評分信度的評分者偏差的來源，是一種有效分析評分者行為進(jìn)而揭示評分者偏差的研究方法。這個新的理論框架使得我們可以在測量寫作能力時客觀、公平，并且能處理由不同評分者、不同寫作任務(wù)等所導(dǎo)致的誤差（孫曉敏、張厚粲， 2006）。

相比于概化理論，多層面Rasch模型在國內(nèi)的應(yīng)用較為廣泛。孫曉敏和張厚粲（2006）使用項目反應(yīng)理論（Item Response Theory， IRT）中的多層面Rasch模型，對兩組共12名評委在國家公務(wù)員結(jié)構(gòu)化面試中的評委偏差進(jìn)行了分析結(jié)果發(fā)現(xiàn)：不同評委之間在寬嚴(yán)程度上差異顯著，且不同評委跨考生、跨維度、跨性別、跨時間評定行為時自身一致性也存在差異。同時，孫曉敏和薛剛（2008）利用多層面Rasch模型對66名考生在結(jié)構(gòu)化面試中的成績進(jìn)行分析，剔除了評委等具體測量情境因素導(dǎo)致的誤差對原始分?jǐn)?shù)的影響，得到考生的能力估計值以及個體水平的評分者一致性信息。他們對基于考生能力估計值和考生面試分得到的決策結(jié)果進(jìn)行比較，發(fā)現(xiàn)測量誤差的確對決策造成影響，對個別考生的影響甚至相當(dāng)巨大。進(jìn)一步使用Facets偏差分析以及評委寬嚴(yán)程度的Facets分析追蹤誤差源。結(jié)果表明，將來自不同面試組的被試進(jìn)行面試原始成績的直接比較，評委的自身一致性和評委彼此之間在寬嚴(yán)程度上的差異均將導(dǎo)致誤差。

國內(nèi)的語言測試研究者們雖然開始重視多層面Rasch模型的應(yīng)用研究，但其研究多集中在通過該模型驗證某種考試的評分者自身一致性和評分者之間的一致性，以探討其評分信度。劉建達(dá)（2008）利用多層面Rasch模型對中外教師在語用能力測試評卷中的表現(xiàn)進(jìn)行了對比研究；賀滿足（2007）通過這一模型分析了整體評分法和分析評分法對評分者嚴(yán)厲度的影響。黃瑋瑩（2010）采用全交叉模式的評分設(shè)計，運用多層面Rasch模型對30名大學(xué)英語教師的英語寫作評分行為進(jìn)行分析，探討評分者與分析性評分量表中的各項指標(biāo)、等級以及與不同能力的考生之間呈現(xiàn)怎樣的交互模式。研究結(jié)果表明，評分者們的整體性評分比分析性評分更松，而評分者與評分量表及考生交互產(chǎn)生的偏差也呈現(xiàn)出系統(tǒng)性的子模式。在評分者與評分項目的交互作用方面，在篇章層面較嚴(yán)厲的評分者對語言應(yīng)用層面則傾向于較寬容；反之亦然。而在評分者與考生的交互作用方面，對最高水平和最低水平的考生的作文的評定都呈現(xiàn)出較嚴(yán)厲的傾向。當(dāng)同一位評分者同時對這兩個水平組考生作文進(jìn)行評定時，偏差呈現(xiàn)截然不同的傾向，即對其中一個水平組的評分偏嚴(yán)厲，則對另一個水平組偏寬容。

郭慶科等（2009）在多層面Rasch模型框架下比較了兩類結(jié)構(gòu)化面試分別是行為性面試和情景性面試。結(jié)果發(fā)現(xiàn)行為性面試中被試能力估計值分布范圍略廣，且更為均勻，支持了情景性面試中更容易出現(xiàn)社會期望性反應(yīng)的結(jié)論。從評分者偏差上看，行為性面試中發(fā)生偏差的次數(shù)更多一些，說明行為性問題可能更不易評定，導(dǎo)致評分者間分歧較大。但幾處較大的偏差卻出現(xiàn)在情景性問題的評分中。除此之外兩類面試的評分者一致性都很好，評分者寬嚴(yán)度和評分偏差等方面的差異都不是太大，說明兩類面試的總體心理測量學(xué)性能都很好，都可以在人事測評中應(yīng)用?？傮w上看行為性面試較好。

張新玲等（2010）運用多層面Rasch模型從被試、評分員、任務(wù)和評分標(biāo)準(zhǔn)等方面對190份高考英語（廣東卷）讀寫結(jié)合寫作任務(wù)成績的差異來源進(jìn)行了效度分析，發(fā)現(xiàn)：該任務(wù)總體能夠有效區(qū)分不同水平受試，且分絕大部分成績差異可通過受試者被考察的能力得到解釋；但該任務(wù)相對偏難，個別評分員對評分標(biāo)準(zhǔn)的實際使用與模型預(yù)測值之間的擬合度低，有必要根據(jù)進(jìn)一步研究改進(jìn)評分標(biāo)準(zhǔn)、加強評分員培訓(xùn)。

四、人力資源管理實踐中如何降低評分者偏差負(fù)面效應(yīng)

在人力資源管理實踐中，Hoyt（2000）認(rèn)為可通過巧妙地測評設(shè)計來降低評分者偏差的負(fù)作用，比如避免評分者間的關(guān)聯(lián)性，使用多個評分者對被試進(jìn)行評價，盡可能使用全交叉式測評（每個評分者給每個被試打分），在進(jìn)行統(tǒng)計功效分析時考慮使用概化測量。為了降低評分者個人因素造成的暈輪誤差、寬容誤差、評分者特定誤差和二元特定誤差，可通過多質(zhì)多法、概化模型和多層面Rasch模型等方法對測評中評分者造成的方差變異進(jìn)行計算和分析，在一定程度上控制評分者對測評產(chǎn)生的影響。

此外，在人力資源招聘選拔中，可采用不完全分組設(shè)計（incomplete block design），不同應(yīng)聘者由不同組評分者進(jìn)行評估，被試間加總后的評分者效應(yīng)各不相同并且評分者層次的差異導(dǎo)致了一部分觀測分?jǐn)?shù)的差異（Kane et al.， 1976；Kenny， 1991）。這種評分設(shè)計在受訓(xùn)的評分者較多時適用。

1. 谷向東、李錚：《領(lǐng)導(dǎo)干部競爭性選拔中考官評分者信度研究》，載《中國人力資源開發(fā)》， 2012年第7期，第43-46頁。

2. 郭慶科、周京、王楠：《基于多面Rasch模型對兩類結(jié)構(gòu)化面試性能的對比》，載《山東師范大學(xué)學(xué)報（人文社會科學(xué)版）》， 2010年第1期，第108-113頁。

3. 賀滿足：《大學(xué)英語寫作評分方法對評分者嚴(yán)厲程度的影響——整體評分法和分析評分法的對比分析》，載《湖南第一師范學(xué)報》，2007年第4期，第59-61頁。

4. 黃瑋瑩：《大學(xué)英語教師評分者偏差的多層面 Rasch模型分析》，載《外語教育》， 2010年，第162-169頁。

5. 康春花、姜宇、辛濤：《概化理論在人事測評中的評分者一致性研究》，載《心理科學(xué)》，2010年第6期，第1456-1460頁。

6. 劉建達(dá)；《評卷人效應(yīng)的多層面Rasch模型研究》，載《現(xiàn)代外語（季刊）》，2010年第2期，第185-220頁。

7. 石志亮、韓寶成：《多面Rasch模型分析軟件 Facets 在英語測試中的應(yīng)用》，載《中國英語教育》，2009年第2期，第1-10頁。

8. 孫曉敏、張厚粲：《國家公務(wù)員結(jié)構(gòu)化面試中評委偏差的IRT分析》，載《心理學(xué)報》， 2006年第4期，第614-625頁。

9. 孫曉敏、薛剛：《多面Rasch模型在結(jié)構(gòu)化面試中的應(yīng)用》，載《心理學(xué)報》，2008年第9期，第1030-1039頁。

10. 謝煥瑛：《國家重點實驗室評估專家評分偏差效應(yīng)分析》，載《研究與發(fā)展管理》， 2007年第6期，第134-138頁。.

11. 嚴(yán)芳、李偉明：《用結(jié)構(gòu)方程建模（SEM）估計概論理論（GT）中的評分者信度》，載《心理學(xué)報》，2002年第5期，第534-539頁。

12. 張新玲、曾用強、張潔：《對大規(guī)模讀寫結(jié)合寫作任務(wù)的效度驗證》，載《解放軍外國語學(xué)院學(xué)報》，2010年第2期，第50-54頁。

13. Campbell D T， Fiske D W. Convergent and discriminant validation by the multitraitmultimethod matrix. Psychological bulletin， 1959， 56（2）： 81-105.

14. Cronbach L J. The dependability of behavioral measurements： Theory of generalizability for scores and profiles. John Wiley & Sons， 1972， 5（1）： 103-111

15. Engelhard Jr G. The measurement of writing ability with a many-faceted Rasch model. Applied Measurement in Education， 1992， 5（3）： 171-191.

16. Fleiss J L. Balanced incomplete block designs for inter-rater reliability studies. Applied Psychological Measurement， 1981， 5（1）： 105-112.

17. Guilford J P. Psychometric methods. Journal of the American Statistical Association，1954：22-26.

18. Hoyt W T. Rater bias in psychological research： When is it a problem and what can we do about it？ Psychological Methods， 2000， 5（1）： 64-86.

19. Joreskog K G. A general method for estimating a linear structural equation system. Ets Research Bulletin， 1970，5（2）： 1-41.

20. Kane J S， Bernardin H J， Villanova P， et al. Stability of rater leniency： Three studies. Academy of Management Journal， 1995， 38（4）： 1036-1051.

21. Kane M T， Gillmore G M， Crooks T J. Student evaluations of teaching： The generalizability of class means. Journal of Educational Measurement， 1976， 13（3）： 171-183.

22. Kenny D A. A general model of consensus and accuracy in interpersonal perception. Psychological Review， 1991， 98（2）： 155-163.

23. Klimoski R J， London M. Role of the rater in performance appraisal. Journal of Applied Psychology， 1974， 59（4）： 445-451.

24. Lance C E， LaPointe J A， Fisicaro S A. Tests of three causal models of halo rater error. Organizational Behavior and Human Decision Processes， 1994， 57（1）： 83-96.

25. Linacre J M. Multi-faceted Rasch measurement. Chicago， IL： MESA， 1989： 41-62.

26. Lumley T， McNamara T F. Rater characteristics and rater bias： Implications for training. Language Testing， 1995， 12（1）： 54-71.

27.Myford， C. M.， & Wolfe， E. W. Detecting and measuring rater effects using manyfacet rasch measurement： part ii. Journal of Applied Measurement， 2003， 4（4）： 386-422.

28. Saal F E， Downey R G， Lahey M A. Rating the ratings： Assessing the psychometric quality of rating data. Psychological Bulletin， 1980， 88（1）： 413-438.

29. Shavelson R J， Webb N M. Generalizability theory： A primer. Sage Publications， 1991，38（14）： 1486-1494.29. Sharon A T， Bartlett C J. Effect of instructional conditions in producing leniency on two types of rating scales. Personnel Psychology， 1969， 22（3）： 251-263.

30. Sundar， A.， & Kardes， F. R. （2015）. The role of perceived variability and the health halo effect in nutritional inference and consumption. Psychology & Marketing， 32（5）： 512-521.

31. Viswesvaran， C.， Ones， D. S.， Schmidt， F. L.， Le， H.， & Oh， I. S. （2014）. Measurement error obfuscates scientific knowledge： path to cumulative knowledge requires corrections for unreliability and psychometric meta-analyses. Industrial & Organizational Psychology， 7（4）：507-518.

32. Wigglesworth G. Exploring bias analysis as a tool for improving rater consistency in assessing oral interaction. Language Testing， 1993， 10（3）： 305-319.

33. Wilson H G. Parameter estimation for peer grading under incomplete design. Educational and psychological measurement， 1988， 48（1）： 69-81.

■ 責(zé)編/王震Tel: 010-88383907E-mail: hrdwangz@126.com

What is and How to Reduce Rater Bias in Human Resource Management

Li Yingwu， Wei Minyuan and Peng Kunxiali
（Department of Psychology， Renmin University of China）

Evaluations and assessments are often biased by personal factors of raters in human resource management， which cause their fairness influenced. Rater biases are usually caused by severity and internal consistency of raters， and interaction with ratees and rating tasks. Leniency errors and halo errors are the most focused rater bias. Researchers have screened rater bias with Multitrait-Multimethod Analysis， Generalizability Theory， Multi-factor Rasch Model and other measurement theory. Researchers also reduce adverse side effects of rater bias through proper measurement design and other methods.

Human Resource Management； Rater Bias； Leniency Errors； Halo Errors

李英武，中國人民大學(xué)心理學(xué)系，副教授，碩士生導(dǎo)師，應(yīng)用心理學(xué)博士。

魏敏媛，中國人民大學(xué)心理學(xué)系，碩士研究生。

彭坤霞麗，中國人民大學(xué)心理學(xué)系，碩士研究生。

本文受國家社會科學(xué)基金一般項目“公務(wù)員分類錄用面試的科學(xué)性研究”（14BZZ087）資助。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

人力資源管理中的評分者偏差及其控制方法

一、什么是評分者偏差

二、評分者偏差的類型

三、如何甄別評分者偏差

四、人力資源管理實踐中如何降低評分者偏差負(fù)面效應(yīng)

一、什么是評分者偏差

二、評分者偏差的類型