● 谷向東 李 錚
■責編 韓樹杰 Tel:010-68345891 E-mail:hrdhsj@126.com
1.同一考場內考官評分者信度。過去有關面試評分信度的研究集中于對結構化面試的研究,目前使用較多的半結構化面試則增加了自由追問的互動環(huán)節(jié),評分難度加大;無領導小組討論對考官的評分技能要求更高,評分難度更大。因此,開展對半結構化面試和無領導小組討論的相關研究很有必要,本文擬對考官評分做考場內一致性分析,從而為提高考場內評分一致性提供建議。
2.不同類考官間的評分相關性分析。在面試中,評價者因年齡、性別、主觀評分標準、知識素養(yǎng)與經(jīng)驗、教育背景等的不同,會對評分內部一致性產(chǎn)生影響。國外研究發(fā)現(xiàn)在面試與無領導小組討論測評中,不同評價者對評價結果差異較大。本研究將探索在半結構化面試和無領導小組討論中各類考官的評分相關性情況,探索不同類考官的評分差異。
3.各類考官在不同測評要素上出現(xiàn)極端分情況的比較分析。由于考官的背景不同,他們對于不同測評要素的理解不同,特別是對于考生面試行為的解讀有一定的差異,影響評分的信度,因此,本研究擬對各類考官在不同要素上出現(xiàn)極端評分的情況進行統(tǒng)計分析,分析各類考官的評分特點,從而為考官的選擇和培訓提供建議。
4.半結構化面試考生入場順序與考生成績關系的統(tǒng)計分析。胡黎(2008)發(fā)現(xiàn)中間偏后進入考場的考生的結構化面試成績比前面進入考場的考生高4.5分,隨著面試時間延長,考官的各要素評分有所偏高。對此,本研究對半結構化面試中的考生入場順序與考生成績排名進行分析,研究入場順序會對考生成績產(chǎn)生怎樣的影響,從而為提高考官評分技能提供建議。
研究對象為參加2010-2011年北京市副局級領導干部競爭性選拔的面試考官,根據(jù)考官來源,將考官分為四類:用人單位考官、上級考官、同級考官、專家考官。
本研究中半結構化面試總計共有23個考場,每個考場有9名考官,共207名考官,但5名因故未到場,因此最后有202名考官計入統(tǒng)計;無領導小組討論先后總計共有15個考場,每個考場有5-9名考官,共有130名考官。
但是,拉克斯的細胞生長趨勢卻讓整個研究室大呼意外,因為他們驚奇地發(fā)現(xiàn),從拉克斯身體里取出的癌細胞具有不可思議的復制速度,無論給海拉細胞多大的空間,它都能迅速填滿,它看起來能永無止境地生長下去。
本次研究采用統(tǒng)計軟件SPSS對面試結果進行了數(shù)據(jù)整理、錄入和分析。
本研究采用非參數(shù)檢驗中K Related Samples對各個考場內的評分一致性進行了檢驗,具體結果如下:
1.半結構化面試
在23個考場中,有18個考場的內部的評分者信度系數(shù)顯著高于0.4,說明整體上半結構化面試考場內考官的評分達到了較好的一致性,不同考官對評分標準的把握較為一致。雖然不同考場的考官結構有所區(qū)別,但他們對測評要素和考生表現(xiàn)做出較為一致的解讀和判斷。仍有個別考場內考官評分一致性不太理想,這說明應當嚴格把關考官的選擇和配置,規(guī)范考官評分,培訓考官能力,從而提高每個考場的面試的信度。
2.無領導小組討論
在15個考場中,有7個考場的內部的評分者信度系數(shù)顯著高于0.4,有多個考場內考官評分一致性不太理想。這主要是因為無領導小組討論測評的評分難度大,專業(yè)化要求高,考官需要更加深入的培訓和足夠的實踐經(jīng)驗,而目前半天的培訓難以使考官熟練地掌握此技能。另外,無領導小組討論中考生人數(shù)多,行為表現(xiàn)豐富,需要觀察的信息量較大,而不同的考官對這些行為表現(xiàn)會有不同的理解和解讀,因此考官評分一致性不夠高。
將四類考官之間的評分作相關分析,以考察不同類型考官之間的評分一致性。具體結果如下:
1.半結構化面試
表1顯示,在半結構化面試中,除了專家考官與上級考官、同級考官之間評分的相關性不顯著,其他類型考官之間的評分呈顯著的相關性(0.255—0.495),這說明不同考官類別之間的評分者信度達到中等水平。具體來說,與用人單位考官評分相關性由強到弱的考官類型依次是上級考官、同級考官、專家考官。專家考官與其他考官的相關性較弱或不相關,這可能有以下原因:一方面,專家考官大部分是具有專業(yè)背景的高校教師,他們屬于“圈子外”人士,受其他考官群體的約束力較小,評分獨立性強;另一方面,專家考官對目標崗位職位最不熟悉,專業(yè)、經(jīng)驗、背景與其他考官不同,與來自黨政部門的其他考官評價視角不同,也可能導致他們的評分與其他類型的考官相關性較弱。
2.無領導小組討論
表2顯示,用人單位考官、上級考官與同級考官之間在評分上呈現(xiàn)弱相關,專家考官與其他考官評分之間均無顯著相關。這可能有兩方面原因:一方面,無領導小組討論對考官的評分技術要求較高,考官需要在一定時間內對小組中6名考生進行3-4個測評要素的評分,考官對測評知識和技能的掌握成為挑戰(zhàn)考官的重要因素;另一方面,進一步的細化統(tǒng)計分析與訪談發(fā)現(xiàn),專家考官與黨政機關領導對人評價的內隱標準有所不同,前者相對更加關注個體的影響力和感染力、思想的開放性、思維邏輯水平的高低等,而后者則相對更加關注考生品德水平是否低調穩(wěn)重、政策理論水平、解決問題客觀性和現(xiàn)實性等。所以加強考官的評分技能訓練,統(tǒng)一標準還是十分必要的。
由于本研究未實現(xiàn)對四類考官評分的預測效度進行統(tǒng)計,因此,究竟哪類考官更能有效選出優(yōu)秀人才,有待進一步研究。
表1 半結構化面試各類考官評分相關分析
表2 無領導小組討論各類考官評分相關分析
為了研究不同考官類型間評分差異,我們采用極端分比例的統(tǒng)計方法,所謂極端分是指將考官標準分的絕對值大于2的考官評分。某考官的評分為極端分,說明該考官打分與考官群體的評分相比處于邊緣狀態(tài),偏高或者偏低。
具體統(tǒng)計方法為:將每類考官評分極端分在考場中的出現(xiàn)次數(shù)作為分子,每類考官的評分次數(shù)作為分母,從而計算出不同類型考官評分出現(xiàn)極端分的比例,公式如下:
每類考官出現(xiàn)極端分的比例=極端分在考場中出現(xiàn)次數(shù)/(該類考官總人數(shù)*6)
上述公式的統(tǒng)計方法基于以下考慮:每類考官的人數(shù)不一樣,采用出現(xiàn)率的方法可避免出現(xiàn)人數(shù)多的考官類型出現(xiàn)極端分概率高的情況。數(shù)據(jù)分析結果如下:
1.半結構化面試
表3顯示,在半結構化面試中,上級考官、專家考官在總分的極端分出現(xiàn)率都較高,上級考官在宏觀思維能力、統(tǒng)籌思維能力、分析解決問題能力的評分中極端分的出現(xiàn)率較高,專家考官在統(tǒng)籌思維能力、分析解決問題能力、客觀認知能力、語言表達能力要素、的評分中極端分的出現(xiàn)率較高,這可能是上級考官、專家考官的觀察視角與眾不同,而且在自己評價與多數(shù)人不一致時,能獨立作出自己的評價決策,同時對自己評分結果是否合理更少顧慮,所以分數(shù)偏離整個考官群體大。
2.無領導小組討論
表4顯示,在無領導小組討論中,上級考官、專家考官所評總分的極端分的出現(xiàn)率較高,并在邏輯思維能力、溝通影響能力、合作共事能力的要素評分中極端分的出現(xiàn)率較高,此外,其他類型的考官主要在邏輯思維能力出現(xiàn)較高比例的極端分。分析各類考官的心理狀態(tài)應該可以推論:用人單位考官和同級考官在評分時較為謹慎,上級考官和專家考官評分獨立性強,對評分尺度的把握更自由,更敢于拉開考生之間的分數(shù)差距。
進一步的統(tǒng)計分析表明,打出極端分的考官其評分的離散程度也更高,因而對于候選人的排名結果影響更大。由于上級考官和專家考官在評分時極端值的出現(xiàn)率高,而且離散程度也更高,因此這兩類考官對考生排名的影響更大,這點在選擇、培訓考官的時候應該引起注意。
為了研究考生的入場順序對于評分結果是否有影響,我們對不同入場順序的考生的名次進行統(tǒng)計分析。表5顯示,中間兩位入場的考生的在面試中得第1名的人數(shù)比其他考生多;最后一位入場的考生,在面試中得第1和第6的人數(shù)均為0,但得第2、3、4名的人數(shù)最多。采用SPSS進行數(shù)據(jù)分析后發(fā)現(xiàn),第3位進入考場的考生成績差異檢驗顯著(χ2=11.5,p<0.05),他們更容易獲得更好的名次。這可能是抽到前兩名入場的考生會產(chǎn)生更大的心理壓力,影響了考場發(fā)揮,考官也因為一開始不熟悉崗位要求等,更容易給出“中庸”的分數(shù)。因此,本研究證明人們通常所公認的第一位入場的考生處于不利位置的想法是有根據(jù),但由于樣本數(shù)的限制,這一問題仍需進一步證實和探討。
表3 半結構化面試不同考官類型在各個要素上評分統(tǒng)計(單位:%)
表4 無領導小組討論不同考官類型在各個要素上評分統(tǒng)計(單位:%)
對副局級領導干部競爭性選拔的半結構化面試和無領導小組討論的考官評分數(shù)據(jù)分析結果表明,按照測量學的標準,考官評分的信度系數(shù)還不夠理想,有一定的提升空間,為此,本研究提出以下建議與措施:
1.加強對考官的培訓。一是開展評分者參考框架的培訓(frame-of-reference training),使不同的考官對測評的維度和打分的水平保持一致的認識和理解,使得每位考官的評分保持在一個統(tǒng)一的尺度和標準上,從而達到考官評分的標準化,實現(xiàn)評分的結構化、規(guī)范化;二是提高主考官測評能力,包括提高主考官控制半結構化面試進程的能力、合理發(fā)問和追問的能力;三是提高考官的觀察判斷能力。在面試中尤其在無領導小組討論中,能正確地把握目標崗位的各個能力要素的具體操作化行為定義,對考生的動作、語言、情緒狀態(tài)等所反映的有關能力要素進行迅速、科學的判斷、歸類,并進行量化評分;四是鼓勵督促考官盡量對考生的行為表現(xiàn)中的關鍵點進行記錄,使得最后評分更有參照依據(jù)和更加準確,這點在小組討論中尤其重要,小組討論的信息量很大,按照人類的記憶規(guī)律,在最后評分階段考官能夠有效回憶的內容并不多了,因此,考官能否在觀察的同時記錄下考生的表現(xiàn),實現(xiàn)對關鍵行為的記錄,對評分的信效度有比較大的影響。
表5 不同入場順序與考生半結構化成績排名(單位:人數(shù))
2.考官在正式面試前最好進行“預評分練習”。鑒于在半結構化面試中考官的評分可能受到考生入場順序的影響,建議在第一位考生入場接受測試前,創(chuàng)造條件進行一場模擬面試練習,可以讓工作人員扮演 “第一位被試”接受測試,考官進行評分演練與討論,也可以讓考官們對照“錄像中的被試”進行評分演練與討論。總之,讓考官盡快熟悉測試的題目和評分過程,建立評分的參照標準,這樣,在正式評分時就可以很好進入狀態(tài)。
3.極端分不計入成績。本研究表明,考官評分的信度和效度仍有進一步提升的空間,鑒于極端分對測試結果的影響較大,因而在對考生面試成績進行計算時,建議去掉考官評分最高分與最低分,從而在一定程度上大大提高面試信度?,F(xiàn)在計算機技術日益普及,建議開發(fā)一些簡單的專門統(tǒng)計軟件,實現(xiàn)采用標準分進行分數(shù)的統(tǒng)計,可以非常有效地降低不同考官評分尺度不一致的不良影響。
4.挑選合適的考官,優(yōu)化考官結構。目前在競爭性選拔面試中任考官的基本是 “臨時考官”,多為領導干部,部分考官雖從事人事工作,但并不掌握現(xiàn)代測評所需的知識、技能與經(jīng)驗,因此,在這種情況下應多挑選具有以下特點的領導與專家做考官:熟悉競爭性選拔的目標崗位、對這項工作高度重視與負責、有一定測評專業(yè)水準。當然,加強考官隊伍的專業(yè)化建設才是最根本的遠期解決途徑。
5.謹慎引入新的測評方式。測評對于考官的知識和技能要求是很高的,一些新的測評方式對于非專門從事測評的人來說尤為困難,因此,在競爭性選拔時,應當謹慎采用新的測評方式,以確保信效度水平。在引入新的測評方式前,務必加強考官的培訓工作,保證考官的評分能力達到一定水準再使用。
1.谷向東:《中西方人才測評考官評分模式的對比分析》,載《中國人力資源開發(fā)》,2011年第8期。
2.胡月星,趙郝銳:《公開選拔副廳級黨政領導干部結構化面試評估報告》,載《中國浦東干部學院學報》,2009年第4期。
3.胡黎:《公務員結構化面試測評信效度實證研究》,重慶大學碩士論文,2008年。
4.Schmidt, F. L., & Zimmerman, R. D. A counterintuitive hypothesis about employment interview validity and some supporting evidence.Journal of Applied Psychology,2004,89:553-561.