情境判斷測驗(yàn)的研究和應(yīng)用進(jìn)展

2014-02-04 12:53:10

中國人力資源開發(fā) 2014年7期

●

■責(zé)編/張新新 Tel: 010-88383907 E-mail: hrdxin@126.com

情境判斷測驗(yàn)（Situational judgment tests，SJTs）是一種測量方法，給作答者呈現(xiàn)工作中可能會遇到的情境，每個情境包括多個行為選項(xiàng)，作答者對這些行為選項(xiàng)進(jìn)行評價。情境判斷測驗(yàn)（以下簡稱“測驗(yàn)”)通常是紙筆形式，也可以口頭、錄像或電腦形式呈現(xiàn)（Clevenger et al., 2001；Weekley &Ployhart, 2005）。

測驗(yàn)的使用可追溯到20世紀(jì)20年代。第一個廣泛使用的測驗(yàn)是華盛頓社會智力測驗(yàn)，其中一個分測驗(yàn)為社會情境判斷。近20年來，測驗(yàn)的應(yīng)用和研究顯著增加，目前測驗(yàn)主要用作高利害情境的選拔方法。例如，美國和加拿大的政府、軍隊、警察和私有機(jī)構(gòu)使用測驗(yàn)篩選候選人（Catano etal., 2007）。歐洲人事選拔辦公室將測驗(yàn)用于許多職位的選拔中。如人際情境判斷測驗(yàn)在英國用于給實(shí)習(xí)醫(yī)生頒發(fā)合格證書（Patterson et al.，2005），在比利時用于選拔醫(yī)學(xué)生（Lievens& Sackett, 2007）。

國內(nèi)研究者對情境判斷測驗(yàn)也高度關(guān)注。漆書青和戴海琦（2003）、唐素萍（2004）、王沛和董俊花(2005)對測驗(yàn)的性質(zhì)、功能、開發(fā)程序和效度等問題進(jìn)行了研究。陳紅斌（2005）構(gòu)建了人壽保險代理人銷售能力情境判斷測驗(yàn)，李遠(yuǎn)（2007）開發(fā)的測評多維度能力的情境判斷測驗(yàn)用于領(lǐng)導(dǎo)勝任力研究，徐守森等人（2008）編制的情境判斷測驗(yàn)測評北京奧運(yùn)志愿者8個方面勝任特征，吳小玲（2011）編制了企業(yè)中層管理者一般管理素質(zhì)情境判斷測驗(yàn)，鐘志杰（2012）開發(fā)了測量公務(wù)員內(nèi)隱知識的情境判斷測驗(yàn)，原寧（2012）開發(fā)了黨政領(lǐng)導(dǎo)干部誠信情境判斷測驗(yàn)?？偟膩碚f，國內(nèi)有關(guān)情境判斷測驗(yàn)的研究處于起步階段，學(xué)者比較關(guān)注測驗(yàn)的形式和開發(fā)程序，信度和效度研究比較缺乏。實(shí)踐方面，如在北京市公開選拔領(lǐng)導(dǎo)干部和廣州市公開招考企業(yè)高層經(jīng)營者測評中都使用了情境判斷測驗(yàn)。

本文從情境判斷測驗(yàn)的理論基礎(chǔ)、編制、信度和效度等方面對現(xiàn)有研究進(jìn)行系統(tǒng)全面的梳理，總結(jié)測驗(yàn)的優(yōu)勢和不足，指導(dǎo)人事選拔和評價實(shí)踐，并提出未來研究的建議。

一、情境判斷測驗(yàn)的理論基礎(chǔ)

近年來，學(xué)者們開始重視對測驗(yàn)理論基礎(chǔ)和本質(zhì)的研究。主要代表為20世紀(jì)90 年代Motowidlo等人提出的行為一致性原理和內(nèi)隱特質(zhì)理論。他們基于關(guān)鍵事件分析和專家判斷編制了一套用于選拔電信行業(yè)初級經(jīng)理的情境判斷測驗(yàn), 結(jié)果顯示,作答者的得分與其上級評定的相關(guān)為0.28-0.37（p<0.01）, 即測驗(yàn)在一定程度上預(yù)測個體的工作表現(xiàn)。為了解釋這一結(jié)果，Motowidlo 等人提出，測驗(yàn)題目基于實(shí)際工作情境中的行為反應(yīng)，要求作答者根據(jù)慣有行為模式進(jìn)行評價或選擇, 遵循行為一致性原理，即過去的行為是未來行為的最好預(yù)測。Motowidlo等人將測驗(yàn)稱為低仿真模擬，因?yàn)闇y驗(yàn)?zāi)M工作情境。

測驗(yàn)結(jié)果除了可以在一定程度上預(yù)測工作績效, 還與認(rèn)知能力測驗(yàn)和人格測驗(yàn)存在較高的相關(guān)（Chan, 2006；Ployhart & Weekley, 2006）。Motowidlo等人（2006）提出的內(nèi)隱特質(zhì)理論（implicit trait policy），在一定程度上解釋了測驗(yàn)結(jié)果和人格測驗(yàn)有較高相關(guān)的原因。該理論認(rèn)為，個體在人格特質(zhì)上的差別影響對顯示這一人格特質(zhì)的行為有效性的判斷。例如，宜人性高的個體較宜人性低的個體在評價行為有效性時，會賦予宜人性更高的權(quán)重，即他們會給高宜人性的行為更高的評價，而給低宜人性的行為更低的評價。

雖然行為一致性原理和內(nèi)隱特質(zhì)理論解釋了情境判斷測驗(yàn)為什么能預(yù)測工作行為，但目前，關(guān)于測驗(yàn)與績效的準(zhǔn)確機(jī)制很大程度上仍是推測。未來需要對測驗(yàn)的理論基礎(chǔ)和本質(zhì)進(jìn)行深入的探討與研究。

二、情境判斷測驗(yàn)的編制過程

Motowidlo 等人(1990)提出，測驗(yàn)的編制包括以下三個階段。第一，進(jìn)行工作分析。從主題專家（如在職官員、管理者或客戶）那里搜集工作情境的關(guān)鍵事件，或者不給主題專家提供關(guān)鍵事件的具體指導(dǎo)，或者指導(dǎo)主題專家寫下從工作分析中獲得的與勝任特征有關(guān)的事件。搜集關(guān)鍵事件后，將關(guān)鍵事件歸類，選擇有代表性的情境，把事件編輯成類似長度和格式的題干。題干有四個特征：題干的仿真度不同，錄像呈現(xiàn)情境比書面描述有更高的仿真度；題干長度不同；題干復(fù)雜性不同；題干的可理解性不同。第二步，另一組主題專家或無經(jīng)驗(yàn)的員工提供對每個情境的一個或多個反應(yīng)。主題專家能夠鑒別最好的反應(yīng)，提供普遍反應(yīng)；無經(jīng)驗(yàn)的員工提供廣泛的反應(yīng)。搜集反應(yīng)選項(xiàng)后，編輯行為選項(xiàng)。測驗(yàn)的最普遍形式是多項(xiàng)反應(yīng)，每個情境可有3至12個甚至更多的反應(yīng)選項(xiàng)。最后，開發(fā)計分鍵。McDaniel等人（2001）提出，與認(rèn)知能力測驗(yàn)不同，情境判斷測驗(yàn)題目的反應(yīng)選項(xiàng)都是合理的，是哪個答案“最好”的問題，而不是哪個答案“正確”問題。確定計分鍵的方式要包括專家計分、實(shí)證計分、理論計分和因子計分等（Bergman et al., 2006）。專家計分時，專家（或優(yōu)秀員工）對反應(yīng)的有效性作出判斷，或者確定最好和最差的選項(xiàng)。確定為“最好的”選項(xiàng)計分為正確，確定為“最差的”選項(xiàng)計分為不正確。實(shí)證計分時，對樣本進(jìn)行施測，將高績效個體選擇的反應(yīng)選項(xiàng)計分為正確，低績效個體選擇的選項(xiàng)計分為不正確。理論計分時，反映理論的選項(xiàng)計分為正確，與理論矛盾的選項(xiàng)為不正確，與理論無關(guān)的選項(xiàng)計分為0。理論計分可能更易于作假（Hough & Paullin, 1994），理論可能有缺陷或不正確。因子計分在題目沒有確定構(gòu)想時使用，也用于篩選題目（Hough&Paullin,1994）。一些測驗(yàn)使用多種計分方式，如專家和實(shí)證綜合計分。

目前，哪種計分方式更好并沒有一致結(jié)論，相關(guān)研究也很少。未來需要對不同的計分方式進(jìn)行研究，并將研究結(jié)果用于指導(dǎo)測驗(yàn)開發(fā)和人事測評實(shí)踐。

三、情境判斷測驗(yàn)的指導(dǎo)語和賦分方法

情境判斷測驗(yàn)的反應(yīng)指導(dǎo)語主要有四種（李遠(yuǎn)，2007；王沛、董俊花，2005）：第一種要求作答者從多種反應(yīng)選項(xiàng)中選擇最有效的反應(yīng)，稱為知識型指導(dǎo)語，變式是要求作答者選擇最有效和最無效的反應(yīng)。第二種要求作答者選擇最可能采取的反應(yīng)，稱為行為型指導(dǎo)語，變式是要求選出最可能采取的和最不可能采取的反應(yīng)。上述兩種方式都屬于迫選式。第三種方式是要求作答者評價每個反應(yīng)選項(xiàng)對解決情境中問題的有效性。一般采用5點(diǎn)或7點(diǎn)利克特量表，請作答者按照從1（非常無效）到5或7（非常有效）的量表評價每個反應(yīng)的有效程度。第四種方式在Steinberg等（1995）對“內(nèi)隱知識”研究中使用較多，要求作答者對反應(yīng)選項(xiàng)按照有效性或先后順序進(jìn)行排序。

根據(jù)指導(dǎo)語類型，賦分標(biāo)準(zhǔn)與方法相應(yīng)有如下幾類：第一，選出最有效選項(xiàng)（最可能選項(xiàng)），選對（與專家選項(xiàng)相同）為“1分”，選錯為“0分”；第二，選出最有效（最可能）選項(xiàng)與最無效（最不可能）選項(xiàng)，選對一項(xiàng)為“1分”，選對兩項(xiàng)得“2分”，均選錯得“0分”；或者將最有效（最可能）項(xiàng)選為最無效（最不可能）項(xiàng)得“-1分”，反之也得“-1分”；或者令作答者選出最有效和最無效項(xiàng)，但求取的是專家在這兩項(xiàng)上設(shè)定值前項(xiàng)減后項(xiàng)的差；第三，使用利克特量表時，事先由專家將每一反應(yīng)在“最有效至最無效（最可能至最不可能）”等級量表上評出值，再計算作答者評出值與專家設(shè)定值的離差，離差小者為優(yōu)；或者不求離差而求相關(guān)系數(shù)值，這時，要求反應(yīng)選項(xiàng)的個數(shù)應(yīng)多；或者只考察最有效(最可能)項(xiàng)上的離差；第四，使用排序式時，按專家排序的標(biāo)準(zhǔn)給每個反應(yīng)選項(xiàng)賦予一定的分值，然后把作答者的選擇按此標(biāo)準(zhǔn)進(jìn)行數(shù)量化。

不同的測驗(yàn)指導(dǎo)語和賦分方法各有優(yōu)勢和不足，可能會對測驗(yàn)的效度產(chǎn)生影響，但目前還缺乏相關(guān)效度的比較研究，測驗(yàn)開發(fā)者可以根據(jù)實(shí)際測評需要進(jìn)行適當(dāng)?shù)倪x擇，未來研究需要對此進(jìn)行深入的探討。

四、情境判斷測驗(yàn)的信度和效度

（一）信度

1.內(nèi)部一致性信度

情境判斷測驗(yàn)的大多數(shù)信度研究考查內(nèi)部一致性信度。McDaniel等人（2001）的元分析總結(jié)了這些研究，內(nèi)部一致性信度系數(shù)在0.43-0.94，更長的測驗(yàn)有更高的內(nèi)部一致性。Ployhart和Ehrhart（2003）發(fā)現(xiàn)反應(yīng)指導(dǎo)語類型影響內(nèi)部一致性。要求作答者“評定每個反應(yīng)的效度”產(chǎn)生最高的內(nèi)部一致性（0.73），選擇兩個反應(yīng)（最好和最差）的指導(dǎo)語有稍低的內(nèi)部一致性（0.60），而僅選擇一個反應(yīng)（如最有效的反應(yīng)是什么？）有最低的內(nèi)部一致性（0.24）。Catano等人（2012）綜述了1990－2011年39個研究的內(nèi)部一致性資料。這些研究中測驗(yàn)的題目數(shù)從3至60，指導(dǎo)語包括所有類型。對研究中的56個信度系數(shù)進(jìn)行元分析，平均校正r是0.46，這表明測驗(yàn)的內(nèi)部一致性較低。影響信度系數(shù)的因素包括題目數(shù)和指導(dǎo)語等。需要注意的是，測驗(yàn)內(nèi)部一致性在0.8以下，而大多數(shù)專家認(rèn)為在高利害情境中可接受的信度值應(yīng)在0.8以上。McDaniel等人（2007），Whetzel和McDaniel （2009）and Lievens等人（2008）認(rèn)為大多數(shù)測驗(yàn)是異質(zhì)的，內(nèi)部一致性僅是單維度測驗(yàn)的合適信度測量，低估了情境判斷測驗(yàn)的信度，再測信度或平行信度是更合理的信度估計。

2.再測信度和平行信度

再測信度要求作答者一段時間后在同一測驗(yàn)上再次測試，只有幾個研究探討了測驗(yàn)的再測信度。Ployhart等人(2004)報告再測信度為0.84。Bruce和Learner（1958）及Richardson等人（1981）發(fā)現(xiàn)再測信度為0.77-0.89。Lievens等人（2005a）報告一周后，錄像形式的測驗(yàn)再測信度為0.66，兩次測試的內(nèi)部一致性分別為0.3和0.4。Catano等人（2012）的縱向研究中，研究1學(xué)生樣本用“應(yīng)該做”指導(dǎo)語，2周后測驗(yàn)的再測信度為0.82，內(nèi)部一致性分別為0.46和0.52，測驗(yàn)與認(rèn)知能力（0.3）和宜人性（0.24）相關(guān)顯著。研究2中，在職人力資源工作人員使用“最可能/最不可能做”指導(dǎo)語，3個月后再測信度為0.66，兩次測試的內(nèi)部一致性分別為0.43和0.61。這表明，兩個不同的人群，兩種不同類型的指導(dǎo)語，不同的再測時間間隔，再測信度比內(nèi)部一致性信度更高。

平行信度要求使用不同的題目測量同樣的構(gòu)想，開發(fā)程序復(fù)雜，用時較長，而且數(shù)據(jù)搜集困難，因此平行信度的研究很少。Clause等人（1998）開發(fā)測驗(yàn)的平行形式，再測信度為0.7-0.77，四個版本測驗(yàn)內(nèi)部一致性0.58-0.6。Chan和Schmitt（2002）估計平行信度為0.76。

總之，內(nèi)部一致性不是情境判斷測驗(yàn)的合適信度測量，再測信度是更合理的信度估計，在未來的測驗(yàn)研究和開發(fā)中應(yīng)使用再測信度作為信度指標(biāo)。

（二）效度

1.標(biāo)準(zhǔn)關(guān)聯(lián)效度

選拔實(shí)踐中一個重要問題是選拔工具能否預(yù)測工作績效，研究表明情境判斷測驗(yàn)是工作績效的較好預(yù)測源。Wagner 和Sternberg(1991)開發(fā)了管理者內(nèi)隱知識測驗(yàn)，測驗(yàn)分?jǐn)?shù)和各種績效標(biāo)準(zhǔn)中等相關(guān)。在McDaniel等人(1997)的元分析研究中，發(fā)現(xiàn)測驗(yàn)?zāi)茴A(yù)測工作績效，效度為0.56，與Hunter and Schmidt（1998）發(fā)現(xiàn)的認(rèn)知能力測驗(yàn)效度0.51接近。McDaniel等人 (2001)對95個研究的標(biāo)準(zhǔn)關(guān)聯(lián)效度進(jìn)行了元分析，發(fā)現(xiàn)測驗(yàn)和工作績效的相關(guān)是0.34。以工作分析為基礎(chǔ)開發(fā)的測驗(yàn)比沒有工作分析的測驗(yàn)有更高的效度（0.38和0.29）。一些研究表明測驗(yàn)作為入學(xué)測驗(yàn)的一部分，也是教育環(huán)境中的有效預(yù)測源（Lievens et al., 2005a, b;Oswald et al., 2004）。McDaniel等人（2007) 對118個研究的元分析表明，測驗(yàn)總的效度系數(shù)是0.26。這些效度結(jié)論幾乎全部以同時效度研究為基礎(chǔ)，使用在職者而不是求職者作為被試。

Christian等人（2010）的元分析研究表明，大多數(shù)測驗(yàn)測量領(lǐng)導(dǎo)（占37.50%），接下來是人際技能（占12.50%）、個性傾向（占9.56%）、團(tuán)隊工作技能（占4.41%）、工作知識和技能（占2.94%）。測量團(tuán)隊工作技能的測驗(yàn)平均效度為0.38，領(lǐng)導(dǎo)技能測驗(yàn)的平均效度為0.28，人際技能測驗(yàn)的平均效度為0.25，評價盡責(zé)性的測驗(yàn)平均效度為0.24，工作知識和技能測驗(yàn)的平均效度為0.19?？傊蠖鄶?shù)測驗(yàn)測量領(lǐng)導(dǎo)和人際技能，測量團(tuán)隊工作技能和領(lǐng)導(dǎo)的測驗(yàn)相對有較高的工作績效效度。

2.遞增效度

除了每個預(yù)測源的效度外，考察測驗(yàn)在其它預(yù)測源之上的預(yù)測效度，理論和實(shí)踐上也很重要。McDaniel等人（2007）對測驗(yàn)的遞增效度進(jìn)行了元分析，發(fā)現(xiàn)測驗(yàn)提供認(rèn)知能力之上的遞增效度為3%-5%，個性之上的遞增效度大約在6%和7%之間，認(rèn)知能力和個性之上的遞增效度在1%至2%之間。

3.構(gòu)想和內(nèi)容效度

研究表明，測驗(yàn)與多種構(gòu)想有關(guān)。Wagner和Sternberg（1985）提出測驗(yàn)測量認(rèn)知能力之外的東西，稱“內(nèi)隱知識”或“實(shí)踐智力”。McDaniel等人（2001）的元分析中，測驗(yàn)與認(rèn)知能力的相關(guān)為0.46。錄像測驗(yàn)比紙筆測驗(yàn)與認(rèn)知能力的相關(guān)更低（Weekley and Jones,1997），基于工作分析的測驗(yàn)比沒有工作分析的測驗(yàn)與認(rèn)知能力有更高的相關(guān)（0.50和0.38）。其它研究者提出測驗(yàn)測量工作知識、工作經(jīng)驗(yàn)或人際變量（McDaniel and Nguyen, 2001; Weekley and Jones, 1999）。McDaniel等人（2007）的元分析表明，知識型指導(dǎo)語測驗(yàn)比行為型指導(dǎo)語測驗(yàn)與認(rèn)知能力測驗(yàn)的相關(guān)更高（0.35和0.19）；行為型指導(dǎo)語測驗(yàn)比知識型指導(dǎo)語測驗(yàn)與宜人性（0.37和0.19），盡責(zé)性（0.34和0.24）和情緒穩(wěn)定性（0.35和0.12）的相關(guān)更高。這些研究表明，知識型指導(dǎo)語測驗(yàn)是最高表現(xiàn)測量，行為型指導(dǎo)語測驗(yàn)是典型表現(xiàn)測量。

因素分析表明，情境判斷測驗(yàn)包含多個難以解釋的因素（Schmitt and Chan, 2006）。這是因?yàn)闇y驗(yàn)是評價工作相關(guān)知識、技能和能力的測量方法（McDaniel and Whetzel, 2005; Weekley and Jones, 1999）。測驗(yàn)題目涉及廣泛的情境，對題目的反應(yīng)是能力、經(jīng)驗(yàn)和個性共同作用的結(jié)果。Smith和McDaniel（1998）發(fā)現(xiàn)測驗(yàn)的最大相關(guān)是年齡和工作經(jīng)驗(yàn)，測量通過生活和工作經(jīng)驗(yàn)獲得的工作知識和技能。測驗(yàn)與個性中的盡責(zé)性（r=0.32）、情緒穩(wěn)定性（r=0.22）和認(rèn)知能力（r=0.22）相關(guān)，表明測驗(yàn)評價與工作相關(guān)的多種構(gòu)想。一些研究者強(qiáng)調(diào)內(nèi)容效度證據(jù)作為建立測驗(yàn)效度的一種方法（McDaniel & Nguyen,2001; Schmitt & Chan,2006; Stemler & Sternberg,2006），大多數(shù)測驗(yàn)情境來自于關(guān)鍵事件，這提高了它們的工作相關(guān)性和工作內(nèi)容覆蓋面。

總之，測驗(yàn)?zāi)茴A(yù)測工作績效，具有較好的標(biāo)準(zhǔn)關(guān)聯(lián)效度和遞增效度，尤其適合測量團(tuán)隊工作技能、領(lǐng)導(dǎo)和人際技能等。但大多數(shù)測驗(yàn)具有特定的背景，因此需要開發(fā)適用于特定工作和文化的測驗(yàn)工具。另外，開發(fā)者可以通過改變反應(yīng)指導(dǎo)語來改變測驗(yàn)的構(gòu)想，測量認(rèn)知能力時，可以使用知識型指導(dǎo)語；測量個性時，可以使用行為型指導(dǎo)語，但要注意行為型指導(dǎo)語測驗(yàn)易于作假。需要注意的是，情景判斷測驗(yàn)所測內(nèi)容還存在爭議，因而對測驗(yàn)結(jié)果的解釋要謹(jǐn)慎，不能盲目下結(jié)論。

五、影響情境判斷測驗(yàn)效度的因素

1.測驗(yàn)形式

Richman-Hirsch等人（2000）研究表明，多媒體形式的測驗(yàn)比計算機(jī)化和紙筆形式的測驗(yàn)有更大的表面效度，作答者感知更積極。Lievens等人（2006a）研究表明，錄像形式的測驗(yàn)變?yōu)榧埞P形式顯著降低測驗(yàn)的標(biāo)準(zhǔn)關(guān)聯(lián)效度，紙筆形式測驗(yàn)與認(rèn)知能力有更高的相關(guān)。錄像和多媒體形式的測驗(yàn)有更高的仿真度，呈現(xiàn)的信息也更豐富更詳細(xì)，這導(dǎo)致更高的標(biāo)準(zhǔn)關(guān)聯(lián)效度。Kanning等人（2006）研究發(fā)現(xiàn)，情境和反應(yīng)都以錄像形式呈現(xiàn)的交互式情境判斷測驗(yàn)，獲得作答者的最好評價。但錄像形式的測驗(yàn)開發(fā)成本更高，開發(fā)難度也更大，需要編制劇本、聘請演員、拍攝、編輯錄像等程序。而且錄像形式的測驗(yàn)使用成本也更高，需要準(zhǔn)備電腦等相關(guān)設(shè)備。

2.練習(xí)和訓(xùn)練

當(dāng)一種選拔方法流行時，相關(guān)人員會參與商業(yè)測驗(yàn)訓(xùn)練計劃，掌握提高測驗(yàn)分?jǐn)?shù)的策略，進(jìn)而提高選上的可能性。那么，測驗(yàn)成績能通過訓(xùn)練提高嗎？只有個別研究探討過這一問題。Cullen等人（2006）研究了大學(xué)入學(xué)測試中作為選拔工具的情境判斷測驗(yàn)的可訓(xùn)練性。結(jié)果表明，一些測驗(yàn)對訓(xùn)練敏感。Lievens等人（2012）研究表明，在高利害選拔中，訓(xùn)練可提高測驗(yàn)分?jǐn)?shù)，訓(xùn)練效應(yīng)大約0.5個標(biāo)準(zhǔn)差。這表明，訓(xùn)練影響情境判斷測驗(yàn)的效度，未來研究需要確定這一提高是表面提高還是真正提高。類似的問題是，當(dāng)相關(guān)人員再次測驗(yàn)時分?jǐn)?shù)能否提高。Lievens等人（2005b）研究表明，測驗(yàn)的再測效應(yīng)并不比傳統(tǒng)的認(rèn)知能力測驗(yàn)大。

3.作假

考慮到測驗(yàn)是低仿真模擬，使用自我報告形式，有必要探討測驗(yàn)可作假的程度。Hooper等人（2006）總結(jié)已有的情境判斷測驗(yàn)研究，發(fā)現(xiàn)被要求盡可能誠實(shí)回答的作答者和被要求作假的作答者平均分?jǐn)?shù)有差異，差異在0.08-0.89個標(biāo)準(zhǔn)差之間，作假效應(yīng)比個性測驗(yàn)小得多。他們提出了幾個可能使測驗(yàn)更易作假的中介變量：第一，測驗(yàn)題目有更大的認(rèn)知負(fù)荷時，不易作假。第二，越明晰的題目更易于作假。第三，反應(yīng)指導(dǎo)語類型是關(guān)鍵因素，因?yàn)樗绊憸y驗(yàn)的認(rèn)知負(fù)荷和反應(yīng)失真量（Nguyen et al.,2005b; Ployhart and Ehrhart, 2003），行為型指導(dǎo)語測驗(yàn)比知識型指導(dǎo)語測驗(yàn)更易作假。最后，研究設(shè)計類型，實(shí)驗(yàn)室研究考查作答者在測驗(yàn)中是否能作假（即作假的能力），與作答者在實(shí)際選拔中是否作假（即作假動機(jī)）并不是同樣的問題。

4.反應(yīng)指導(dǎo)語類型

反應(yīng)指導(dǎo)語可能影響測驗(yàn)的標(biāo)準(zhǔn)關(guān)聯(lián)效度。一些研究者（McDaniel etal., 2007）提出，知識型指導(dǎo)語更有效，因?yàn)闇y驗(yàn)測量工作知識，后者是工作績效的好的預(yù)測源。其它研究者（Ployhart & Ehrhart, 2003）提出，行為型指導(dǎo)語測驗(yàn)可能更有效，因?yàn)轭A(yù)期的行為預(yù)測未來的行為。Reynolds等人（2000）發(fā)現(xiàn)不易作假的測驗(yàn)有更高的效度。Nguyen等人（2005）發(fā)現(xiàn)，行為型測驗(yàn)比知識型測驗(yàn)更易作假，作假效應(yīng)大小在0.15和0.34之間，知識型測驗(yàn)分?jǐn)?shù)與認(rèn)知能力的相關(guān)（0.56）比行為型測驗(yàn)（0.38）更大。McDaniel等人（2007）進(jìn)行了一個元分析，發(fā)現(xiàn)兩種不同的指導(dǎo)語類型并不顯著影響測驗(yàn)的標(biāo)準(zhǔn)關(guān)聯(lián)效度。這一結(jié)果的一個可能原因是作答者忽略了行為型測驗(yàn)的反應(yīng)指導(dǎo)語，報告他們的知識；另一個可能的原因是工作績效的一些方面能夠由認(rèn)知能力或個性預(yù)測。知識型測驗(yàn)測量如何行動的知識，誠實(shí)者和作假者都真實(shí)回答。在行為型測驗(yàn)中，誠實(shí)者報告行為傾向，作假者報告他們的知識。如果所有的作答者誠實(shí)回答，那么行為型測驗(yàn)將比知識型測驗(yàn)產(chǎn)生更高的效度，因?yàn)榍罢咴u價的行為傾向比后者評價的知識能更好預(yù)測未來的行為。然而，當(dāng)作答者作假時，兩種指導(dǎo)語測驗(yàn)都測量知識，效度相同。Lievens等人（2009）進(jìn)行了高利害選拔情境中的大樣本研究（醫(yī)學(xué)院入學(xué)選拔），與低利害情境中研究相反，兩種指導(dǎo)語測驗(yàn)上的平均分?jǐn)?shù)沒有顯著差異；與以前研究一致，知識型測驗(yàn)與認(rèn)知能力的相關(guān)比行為型測驗(yàn)更高。兩種指導(dǎo)語條件下，測驗(yàn)的標(biāo)準(zhǔn)關(guān)聯(lián)效度沒有差異。

總之，雖然情境判斷測驗(yàn)與個性測驗(yàn)相比不易作假，但在一定程度上仍可作假。在人事選拔實(shí)踐中，建議使用知識型指導(dǎo)語，因?yàn)橹R型測驗(yàn)更不易作假。未來研究需要進(jìn)一步探討影響測驗(yàn)效度的因素，尤其是練習(xí)和訓(xùn)練的影響，并將研究結(jié)果用于指導(dǎo)人事測評實(shí)踐，提高選拔效度。

六、實(shí)踐應(yīng)用與探索

在北京市競爭性選拔領(lǐng)導(dǎo)干部和后備干部素質(zhì)測評中，多次使用《領(lǐng)導(dǎo)能力測驗(yàn)》。該測驗(yàn)屬于紙筆情境判斷測驗(yàn)，由北京雙高人才發(fā)展中心與北師大心理學(xué)院合作開發(fā)。開發(fā)過程包括：關(guān)鍵事件訪談、情境設(shè)置、行為反應(yīng)收集、測驗(yàn)試測、效度檢驗(yàn)、常模構(gòu)建。采用關(guān)鍵事件訪談法進(jìn)行工作分析，對北京市30多名機(jī)關(guān)、企事業(yè)單位的中高層領(lǐng)導(dǎo)干部進(jìn)行訪談。對他們描述的“關(guān)鍵事件”進(jìn)行篩選、編輯和修訂，設(shè)計測驗(yàn)的情境部分。進(jìn)行開放式問卷調(diào)查，收集這些情境下的各種行為反應(yīng)，進(jìn)行編輯和整理，保留4個反應(yīng)作為題目選項(xiàng)。測驗(yàn)題目以四選一的選擇題形式呈現(xiàn)，作答者在四個選項(xiàng)中選擇最恰當(dāng)?shù)倪x項(xiàng)。采用2-1-1-0計分方法，10名相關(guān)專家對題目選項(xiàng)進(jìn)行評價，最好的選項(xiàng)計2分，最差的選項(xiàng)計0分，其余選項(xiàng)計1分。

題目例子：你是某集團(tuán)總裁，最近突然接到一位副總和產(chǎn)品總監(jiān)的辭職報告，并且聽說他們有意加盟另一家規(guī)模和薪酬水平相近的公司。你認(rèn)為他們跳槽最可能的原因是：1.為了尋求個人利益最大化，他們的選擇是可以理解的；2.他們同時跳槽，是為了表示對公司的不滿，是缺乏忠誠度的表現(xiàn)；3.自己忽略了和他們的溝通，沒能提供充分發(fā)揮他們能力的平臺；4.公司忽略了為他們提供專業(yè)培訓(xùn)機(jī)會，影響了他們的職業(yè)發(fā)展

對100多人的樣本進(jìn)行試測，包括領(lǐng)導(dǎo)干部、企業(yè)管理人員、部分在讀大學(xué)生。通過項(xiàng)目分析，保留64題，包括人脈建立、執(zhí)行力、團(tuán)隊管理和戰(zhàn)略管理4個維度，每個維度包含2-6個要素。題目的區(qū)分度均大于0.15，在高、中、低三個難度水平都有分布。其中3個維度的α系數(shù)在0.51以上，達(dá)到了能力情境測驗(yàn)的要求。比較學(xué)生組和領(lǐng)導(dǎo)組在測驗(yàn)上的平均得分，考察測驗(yàn)的同時效度，結(jié)果表明學(xué)生組和領(lǐng)導(dǎo)組在人脈建立和戰(zhàn)略管理上的得分存在顯著差異，學(xué)生組得分低于領(lǐng)導(dǎo)組；學(xué)生組在執(zhí)行力和團(tuán)隊管理上的得分也低于領(lǐng)導(dǎo)組。根據(jù)近2000名領(lǐng)導(dǎo)人才的測試數(shù)據(jù)，構(gòu)建測驗(yàn)的常模。將各要素得分轉(zhuǎn)化為標(biāo)準(zhǔn)分，根據(jù)得分高低分成高、中、低3個評價等級，開發(fā)了相應(yīng)的評語解釋體系。在此基礎(chǔ)上，開發(fā)了《領(lǐng)導(dǎo)能力測驗(yàn)系統(tǒng)軟件》，可以自動進(jìn)行數(shù)據(jù)處理，提供個人測試評價報告。

七、未來研究方向和建議

雖然情境判斷測驗(yàn)在人事選拔和教育領(lǐng)域中已成為有效的預(yù)測工具，但對測驗(yàn)的了解還剛開始。本文在綜述已有文獻(xiàn)和研究基礎(chǔ)上，提出未來研究和實(shí)踐建議如下：

第一，需要對測驗(yàn)的理論基礎(chǔ)和本質(zhì)進(jìn)一步研究。早期的情境判斷測驗(yàn)研究關(guān)注測驗(yàn)的預(yù)測效度，追求的往往是測驗(yàn)對個體未來工作行為的預(yù)測效果，造成情境判斷測驗(yàn)的理論研究相對滯后。雖然行為一致性原理和內(nèi)隱特質(zhì)理論對測驗(yàn)為什么能預(yù)測工作行為提出了解釋，但目前，關(guān)于測驗(yàn)與工作績效的準(zhǔn)確機(jī)制相當(dāng)大程度上仍然是推測，測驗(yàn)的本質(zhì)還不甚明確，需要未來研究進(jìn)一步探討。

第二，探討用新的刺激和反應(yīng)形式呈現(xiàn)測驗(yàn)并進(jìn)行研究。動畫是呈現(xiàn)刺激的新形式，雖然動畫并不能呈現(xiàn)錄像形式的大量信息，但更容易通過網(wǎng)絡(luò)使用。新反應(yīng)形式是給作答者呈現(xiàn)錄像形式的情境，讓他們表演反應(yīng)，同時用相機(jī)或攝像頭錄下來。未來研究應(yīng)該比較新形式和傳統(tǒng)形式測驗(yàn)的效度。

第三，要想使測驗(yàn)在國際選拔實(shí)踐中取得進(jìn)展，應(yīng)探討測驗(yàn)的跨文化適用性（Lievens, 2006）。即，在一種文化中開發(fā)的測驗(yàn)?zāi)芊褚浦膊⒂糜诹硪环N文化，作為有效的預(yù)測源？Such和Schmidt（2004）探討同一測驗(yàn)在不同國家的效度，結(jié)果表明測驗(yàn)在英國和澳大利亞是有效的，在墨西哥并沒有預(yù)測性。未來可對相關(guān)問題進(jìn)行進(jìn)一步研究。

第四，未來研究迫切需要進(jìn)一步探討測驗(yàn)的效度。首先，已有研究主要以同時效度為基礎(chǔ)，結(jié)論多大程度上能推廣到選拔樣本不甚明確。求職者在高利害情境下完成測驗(yàn)，比在職者更可能作假。其次，應(yīng)探討測驗(yàn)與其它選拔方法組合的效度。例如，研究測驗(yàn)在其它低仿真模擬如情境面試或行為面試之上的遞增效度，在其它高仿真模擬如評價中心基礎(chǔ)上測驗(yàn)的用途。最后，進(jìn)一步研究不同的測驗(yàn)特征對效度的影響。已有研究已經(jīng)確定刺激仿真度（紙筆和錄像形式）和反應(yīng)指導(dǎo)語類型（知識型和行為型）是決定測驗(yàn)認(rèn)知負(fù)荷的關(guān)鍵因素。未來需要進(jìn)一步研究，其它測驗(yàn)特征對效度的影響，如題目具體性水平、題目長度及測驗(yàn)內(nèi)容等。

最后，需要研究各種賦分方法的效果。例如，使用利克特量表賦分時，絕大多數(shù)測驗(yàn)使用原始分?jǐn)?shù)，而Legree等人（2005）提出，分?jǐn)?shù)需要進(jìn)行個體內(nèi)標(biāo)準(zhǔn)化，以消除使用利克特量表時的評價標(biāo)準(zhǔn)個體差異。一種賦分策略比其它策略產(chǎn)生的分?jǐn)?shù)能更好預(yù)測績效嗎？未來研究需要對此進(jìn)行比較和探討，并將研究結(jié)果用于指導(dǎo)人事選拔實(shí)踐，完善測驗(yàn)工具，提高選拔效度。

總之，未來研究應(yīng)從各方面提高情境判斷測驗(yàn)作為人事選拔和評價工具的信度和效度，選拔效度的提高必將推動測驗(yàn)工具在人事選拔和評價中的應(yīng)用，并最終服務(wù)于我國的人力資源開發(fā)和管理。

1.漆書青、戴海琦：《情景判斷測驗(yàn)的性質(zhì)、功能與開發(fā)編制》，載《心理學(xué)探新》，2003年第4期，第42-46頁。

2.唐素萍：《情景判斷測驗(yàn)的開發(fā)程序、構(gòu)思效度及研究趨勢》，載《心理科學(xué)進(jìn)展》，2004年第1期，第119-125頁。

3.王沛、董俊花：《人力資源管理中情景判斷測驗(yàn)的開發(fā)與應(yīng)用》，載《寧波大學(xué)學(xué)報（教育科學(xué)版）》，2005年第5期，第17-21頁。

4.李遠(yuǎn)：《企業(yè)領(lǐng)導(dǎo)勝任力情景判斷測驗(yàn)的效度研究》，浙江大學(xué)碩士學(xué)位論文，2007年。

5.徐守森、車宏生、祖彬、林絢暉：《北京奧運(yùn)志愿者的勝任特征模型——情境判斷測驗(yàn)的應(yīng)用》，載《首都體育學(xué)院學(xué)報》，2008年第6期，第35-38頁。

6.仲志杰：《我國公務(wù)員內(nèi)隱知識情景判斷測驗(yàn)的開發(fā)及信效度研究》，重慶大學(xué)碩士學(xué)位論文，2012年。

7.Bergman, M.E., Drasgow, F., Donovan, M.A., Henning, J.B., & Juraska,S.Scoring situational judgment tests: Once you get the data, your troubles begin.International Journal of Selection and Assessment, 2006, 14:223－235.

8.Catano, V.M.Brochu, A.,& Lamerson, C.D.Assessing the Reliability of Situational Judgment Tests Used in High-Stakes Situations.International Journal of Selection and Assessment, 2012, 20:333－346.

9.Chan, D.Interactive effects of situational judgment effectiveness and proactive personality on work perceptions and work outcomes.Journal of Applied Psychology, 2006, 91(2): 475-481.

10.Christian, M.S., Edwards, B.D., & Bradley, J.C.Situational judgment tests:constructs assessed and a meta-analysis of their criterion-related validities.Personnel Psychology, 2010,63:83-117.

11.Lievens,F.& Sackett, P.R..Video-based versus written situational judgment tests: A comparison in terms of predictive validity.Journal of Applied Psychology,2006,91(5):1181-1188.

12.Lievens, F., & Sackett, P.R..Situational Judgment Tests in High-Stakes Settings: Issues and Strategies With Generating Alternate Forms.Journal of Applied Psychology, 2007,92(4): 1043-1055.

13.Lievens, F., Peeters, H., & Schollaert, E..Situational judgment test: a review of recent research.Personnel Review, 2008,37:426-441.

14.Lievens, F., Sackett,P.R..The Effects of Response Instructions on Situational Judgment Test Performance and Validity in a High-Stakes Context.Journal of Applied Psychology, 2009,94(4):1095–1101.

15.Lievens, F.,Buyse,T., Sackett P.R.and Connelly B.S..The Effects of Coaching on Situational JudgmentTests in High-stakes Selection.International Journal of Selection and Assessment, 2012,20(3):272-282.

16.McDaniel, M.A., Morgeson, F.P., Finnegan, E.B., Campion, M.A., &Braverman, E.P..Use of Situational judgment tests to Predict job performance: A clarification of the literature.Journal of Applied Psychology, 2001,86:730-740.

17.McDaniel, M.A., & Nguyen, N.T..Situatsional judgment tests: A review of practice and constructs assessed.International Journal of Selection and Assessment,2001,9:103-113.

18.McDaniel, M.A., Hartman, N.S., Whetzel, D.L., & Grubb, W.L..Situational judgment tests, response instructions, and validity: A meta-analysis.Personnel Psychology, 2007,60: 63–91.

19.Motowidlo, S.J., Dunnette , M.D., & Carter, G.W..An alternative selection procedure: The low-fidelity simulation.Journal of Applied Psychology, 1990,75: 640–647.

20.Motowidlo, S.J., Hooper, A.C., & Jackson, H.L..Implicit policies about relations between personality traits and behavioral effectiveness in situational judgment items.Journal of Applied Psychology, 2006,91(4): 749-761.

21.Nguyen, N.T., Biderman, M.D., & McDaniel, M.A..Effects of response instructions on faking a situational judgment test.International Journal of Selection and Assessment, 2005,13: 250-260.

22.Ployhart, R.E., & Ehrhart, M.G..Be careful what you ask for: effects of response instructions on the construct validity and reliability of situational judgment tests.International Journal of Selection and Assessment, 2003,11:1-16.

23.Smith, K.C., & McDaniel, M.A..Criterion and construct validity evidence for a situational judgment measure.In 13th annual conference of the Society for Industrial and Organizational Psychology, Dallas, TX.1998,8.

24.Stemler, S.E., & Sternberg, R.J..Using situational judgment tests to measure practical intelligence.Situational judgment tests: Theory, measurement, and application, 2006:107-131.

25.Whetzel, D.L., & McDaniel, M.A..Situational judgment tests: An overview of current research.Human Resource Management Review, 2009,19: 188–202.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放