李英武 張海麗 胡心約
摘?要:基于多面Rasch模型(MFRM),對某中央直屬系統(tǒng)公務(wù)員遴選策論的主觀評分偏差進(jìn)行分析,探討考生的能力水平,評分者寬嚴(yán)度、評分內(nèi)部一致性、維度難度和評分量尺等因素對遴選考試決策的影響。結(jié)果發(fā)現(xiàn):評分者的寬嚴(yán)度差異顯著;評分者對特定評分維度的使用差異顯著;評分者與評分維度間交互作用顯著,不同評分者在特定評分指標(biāo)上評分偏差明顯。通過MFRM分析公務(wù)員遴選策論的測評結(jié)果,可深入了解考生的真實(shí)能力差異,策論評分維度的難度,并對公務(wù)員遴選測評中的主觀評分偏差來源進(jìn)行甄別,以完善國家公務(wù)員策論試題命制,建立評分者培訓(xùn)體系,提高公務(wù)員遴選考試決策的科學(xué)性,夯實(shí)考試測量學(xué)的理論與方法基礎(chǔ)。
關(guān)鍵詞:公務(wù)員遴選;策論;評分者偏差;多面Rasch模型
中圖分類號:D630?文獻(xiàn)標(biāo)識(shí)碼:A?文章編號:1009-3176(2021)06-089-(11)
一、問題提出
“育才造士,為國之本?!必瀼匦聲r(shí)代黨的組織路線,建設(shè)忠誠干凈擔(dān)當(dāng)?shù)母咚刭|(zhì)干部隊(duì)伍是關(guān)鍵,重點(diǎn)是要做好干部培育、選拔、管理、使用工作[1]。為優(yōu)化領(lǐng)導(dǎo)機(jī)關(guān)公務(wù)員隊(duì)伍結(jié)構(gòu),我國黨群機(jī)關(guān)、政府部門根據(jù)政策規(guī)定,從已具備公務(wù)員身份和相關(guān)資歷的人員中選拔公務(wù)員的方法,稱為公務(wù)員遴選。通過遴選,具備優(yōu)秀基層工作經(jīng)驗(yàn)的公務(wù)員,進(jìn)入到上一級機(jī)關(guān)工作,對優(yōu)化公務(wù)員隊(duì)伍來源和經(jīng)歷結(jié)構(gòu)、擴(kuò)大選人用人視野、建立來自基層的公務(wù)員選拔培養(yǎng)鏈,起到了重要作用[2]。
公務(wù)員遴選,一般采用考試與考察相結(jié)合的選拔方式,考慮到考生均已有公務(wù)員身份以及政府機(jī)關(guān)急需“筆桿子”的現(xiàn)實(shí)要求[3],遴選筆試主要采用對策性論文寫作測驗(yàn)(以下簡稱“策論”),對考生的政策理論水平、分析和解決實(shí)際問題的能力等素質(zhì)進(jìn)行評估。測評中通常需要評分者使用評分量尺,對考生的策論寫作表現(xiàn)進(jìn)行主觀賦分。既往的研究顯示,主觀評分類測驗(yàn),易受多種因素的影響而產(chǎn)生評分者偏差(Rater Bias)[4],即評分偏離既定標(biāo)準(zhǔn)所表現(xiàn)出的系統(tǒng)性行為模式,導(dǎo)致考生原始觀測分?jǐn)?shù)與真實(shí)能力出現(xiàn)偏差。如,考官寬嚴(yán)尺度不穩(wěn)定(Severity Drift)、隨意評分或者打中間分保險(xiǎn)分,分?jǐn)?shù)趨中化(Central Tendency)等,均可導(dǎo)致評分者偏差,不僅會(huì)影響考生的成績評分,更會(huì)威脅考試的科學(xué)性和公平性[5]。
2013年,王寓周對某省政協(xié)機(jī)關(guān)的遴選考試成績進(jìn)行了研究,追蹤調(diào)查了考生入職后的工作表現(xiàn),發(fā)現(xiàn)部分遴選筆試高分考生進(jìn)入機(jī)關(guān)后,實(shí)際的工作表現(xiàn)并不理想[6]。由此可見,有效甄別遴選策論中的主觀評分偏差,不僅是學(xué)術(shù)界關(guān)注的測量學(xué)問題,在實(shí)際工作中同樣對規(guī)范公務(wù)員遴選程序具有重要價(jià)值。但現(xiàn)有公務(wù)員遴選研究,關(guān)注評分者偏差問題尚缺乏實(shí)證數(shù)據(jù)分析。近期的研究顯示,主觀評價(jià)類測驗(yàn)在閱卷時(shí),通常要求評分者綜合卷面信息,通過觀察感知,從記憶中提取評分線索,權(quán)衡使用評分標(biāo)準(zhǔn),對考生的能力進(jìn)行推論,做出錄用決策判斷[7]。復(fù)雜的評分環(huán)節(jié),均可能受到個(gè)體認(rèn)知偏差的影響,導(dǎo)致成績評定無法反映考生的真實(shí)能力水平[8]。如,在英語綜合閱讀和寫作測試研究中發(fā)現(xiàn),評分者寬嚴(yán)度可顯著影響成績評價(jià)[9]。有鑒于此,研究者呼吁,應(yīng)關(guān)注主觀評價(jià)類考試中評分偏差的來源及其影響[10]。
1.理論基礎(chǔ)
為解決上述議題,本研究在選擇可適用的理論模型時(shí),綜合考慮考生的能力、題目任務(wù)難度、評分者寬嚴(yán)度和項(xiàng)目難度四個(gè)參數(shù)。梳理國內(nèi)外的文獻(xiàn)發(fā)現(xiàn),學(xué)術(shù)界普遍認(rèn)為項(xiàng)目反應(yīng)理論(Item Response Theory,IRT)中的多面Rasch模型,能夠滿足公務(wù)員遴選策論筆試數(shù)據(jù)進(jìn)行主觀偏差分析的參數(shù)要求[11]。
項(xiàng)目反應(yīng)理論假設(shè),考生的潛在特質(zhì)水平與其在某一項(xiàng)目上的反應(yīng)之間存在函數(shù)關(guān)系,考生在某一項(xiàng)目的正確反應(yīng)概率(Response probability)越高,說明考生潛在特質(zhì)能力(θ)水平越高。丹麥數(shù)學(xué)家Rasch提出了單參數(shù)Rasch模型,進(jìn)一步將考生能力(θ)、項(xiàng)目難度測得的實(shí)際值進(jìn)行等價(jià)轉(zhuǎn)換,賦予考生的能力值與項(xiàng)目難度以客觀和等距特性[12]。Linacre在單參數(shù)Rasch模型基礎(chǔ)上,進(jìn)一步提出多面Rasch模型(Many Facet Rasch Model, MFRM),認(rèn)為考生獲得特定分值的概率,不僅取決于考生能力(θ)和項(xiàng)目難度,還會(huì)受到評分者寬嚴(yán)度、評定量尺特定分?jǐn)?shù)等級難度等因素的影響[13],進(jìn)而導(dǎo)致主觀評分偏差的出現(xiàn)。由于MFRM在評分者偏差研究上具有顯著優(yōu)勢,能夠甄別評分者整體和個(gè)體水平等多種類型的偏差,并為偏差提供了多種可靠的衡量指標(biāo)[14],近年來越來越多的研究者建議采用MFRM對主觀評分情境評分者偏差進(jìn)行甄別[15]。
2.研究問題
2020年國家公務(wù)員局頒布的《公務(wù)員公開遴選辦法(試行)》[16]規(guī)定,公務(wù)員遴選策論主要測評四個(gè)維度:一是對策合理性,主要考察應(yīng)試者是不是能準(zhǔn)確運(yùn)用與工作相關(guān)的法律、法規(guī)和有關(guān)政策;發(fā)現(xiàn)問題、分析問題,準(zhǔn)確把握事物的現(xiàn)狀和產(chǎn)生的影響;積極探索事物發(fā)展的規(guī)律,預(yù)測發(fā)展的趨勢,有針對性地提出問題解決相關(guān)對策的素質(zhì)。二是政策理論水平,主要考察應(yīng)試者是不是能正確理解并貫徹執(zhí)行黨和政府的各項(xiàng)方針政策,求真務(wù)實(shí),忠誠執(zhí)行上級的各項(xiàng)決策和部署,服務(wù)于大局兼顧全局,完成工作任務(wù)的素質(zhì)。三是文字表達(dá)能力,測評考生運(yùn)用語言文字闡明觀點(diǎn)意見,正確使用文字,流暢規(guī)范表達(dá)。四是論文邏輯性,測評考生論文寫作結(jié)構(gòu)完整,表述簡明扼要,句子中“指代關(guān)系”清晰,邏輯是平穩(wěn)的,無邏輯跳躍或邏輯斷層?;诩韧鶉鴥?nèi)外主觀評分偏差甄別研究范式[17],本研究采用MFRM分析,檢驗(yàn)公務(wù)員遴選策論評分中的主觀偏差來源及其對考生能力排序的影響。
二、研究方法
1.研究對象與程序
樣本數(shù)據(jù)來自2011年某直屬系統(tǒng)公務(wù)員遴選策論評分檔案數(shù)據(jù)(Archive Data)。研究者在128名策論評分者中,隨機(jī)抽取7名評分者及其對應(yīng)的98名考生評分?jǐn)?shù)據(jù)進(jìn)行分析。本次策論評分,分為四個(gè)評分維度(政治理論和政策水平,解決問題措施或?qū)Σ叩暮侠硇裕淖直磉_(dá)能力,論文邏輯性),每個(gè)維度采用Likert10點(diǎn)評分。文字表達(dá)能力占總分權(quán)重的10%,論文邏輯性占總分權(quán)重的20%,政策理論水平占總分權(quán)重的20%,對策的合理性占總分權(quán)重的50%,策論總分為100分;參評考生計(jì)98人,其中男性84人(85.7%),女性14人(14.3%);年齡均值為36.53歲,標(biāo)準(zhǔn)差為5.45;大學(xué)本科學(xué)歷占22.4%,其余均為碩士及以上學(xué)歷。
2.模型及分析工具
研究采用Linacre編制的MFRM分析程序FACETS 3.80.4[18],對考生能力、評分者寬嚴(yán)度、題目難度、評分等級等因素進(jìn)行分析,該程序的模型函數(shù)表達(dá)式如下:
FACETS采用非條件極大似然法(Unconditional Maximum Likelihood)對MFRM中的各個(gè)參數(shù)進(jìn)行估計(jì)。在參數(shù)估計(jì)的過程中,評分等級之和被用作對模型中的每個(gè)側(cè)面進(jìn)行估計(jì)的充分統(tǒng)計(jì)量。通過FACETS分析,可得到考生的能力、項(xiàng)目的難度、評分者的寬嚴(yán)程度以及評分量表等級等側(cè)面的參數(shù)估計(jì)值,標(biāo)準(zhǔn)差以及模型擬合Fit統(tǒng)計(jì)量。
三、研究結(jié)果
1.考生MFRM分析結(jié)果
本次策論考試98名考生的能力值范圍為-1.49至3.15logits,全距為4.64logits,平均數(shù)為0.44(SE=0.97)。其中,66號考生能力水平最高,能力值為3.15logits(SE=0.26);27號考生能力水平最低,能力值為-1.49logits(SE=0.19),具體情況見表1。Infit值(InfitMnSq),表示評分者對考生評分的一致性程度。在MFRM中,F(xiàn)it值是描述模型預(yù)期值和觀測值之間差異的統(tǒng)計(jì)量,分為Outfit與Infit兩種統(tǒng)計(jì)量,Outfit統(tǒng)計(jì)量敏感性不足,因此大多數(shù)研究主要以Infit統(tǒng)計(jì)量作為衡量評分者一致性的依據(jù)。參照既往研究,本研究將Infit可接受的取值范圍設(shè)定為0.5至1.5[19]。
在表1中,考生能力估計(jì)值標(biāo)準(zhǔn)誤均方的平方根(RMSE)代表估計(jì)的平均誤差。考生能力估計(jì)值標(biāo)準(zhǔn)誤均方的平方根(RMSE)為0.21,表明考生的測量誤差很低。Adj S.D.是校正測量誤差之后估計(jì)值的標(biāo)準(zhǔn)差,Adj S.D.的平方即為真實(shí)變異,考生能力估計(jì)值標(biāo)準(zhǔn)誤均方的平方根(RMSE)代表估計(jì)的平均誤差A(yù)dj S.D.=0.95。分離比(Separation)是Adj S.D.除以RMSE得到的數(shù)值,表示測量分?jǐn)?shù)整體有效性,要達(dá)到傳統(tǒng)考試測量學(xué)0.90水平的置信度,Separation需要達(dá)到3.0。本研究中Separation的數(shù)值為4.50,符合測量學(xué)參數(shù)要求。進(jìn)一步考察模型真實(shí)變異占原始觀測值變異的比重,即分離信度(Separation Reliability),相當(dāng)于KR-20或Conbachα系數(shù),正常取值范圍是0~1[20],本次策論的分離信度值為0.95,說明本次策論題目的內(nèi)部一致性較高,能將考生區(qū)分不同的能力水平。對考生之間能力的差異進(jìn)行χ2檢驗(yàn),結(jié)果表明χ2(97)=1941.6,p<0.01,參加策論測評的考生能力水平之間差異顯著。
在表1中,以每個(gè)評分者在各評分維度上的加權(quán)平均分?jǐn)?shù),作為考生最后的策論成績,為了比較考生排序之間的差異,以及評分者的主觀偏差對考生產(chǎn)生影響,本研究將考生的策論原始分?jǐn)?shù)和基于MFRM矯正評分者偏差后分?jǐn)?shù)進(jìn)行了排序,因策論考試前5名考生有資格進(jìn)入下一輪面試,為此本研究重點(diǎn)分析前五名考生評分偏差情況。結(jié)果顯示,考生43、考生44按照原始分?jǐn)?shù)可進(jìn)入前5名面試范圍,但是按照MFRM矯正評分者偏差影響后的考生真實(shí)能力值排序,則考生45、考生46應(yīng)獲得面試資格。
2.評分者M(jìn)FRM分析結(jié)果
那么,為什么考生的策論成績排名會(huì)出現(xiàn)較大變動(dòng)呢?為此,本研究進(jìn)一步采用MFRM對評分者的寬嚴(yán)度情況進(jìn)行了分析。在表2中對評分者寬嚴(yán)程度以及評分內(nèi)部一致性(Intra Reliablity)進(jìn)行了匯總,并以評分者寬嚴(yán)程度進(jìn)行降序排序。
統(tǒng)計(jì)結(jié)果顯示,評分者2評分最嚴(yán)厲,評分者6評分最寬松。評分者的分離比為9.41,分離信度為0.99。對評分者之間寬嚴(yán)程度的差異大小進(jìn)行χ2檢驗(yàn),結(jié)果為χ2(6)=537.3,p<0.01,表明不同評分者之間寬嚴(yán)程度存在顯著差異。按照擬合統(tǒng)計(jì)量可接受的范圍(0.5~1.5),除評分者3以外,其他評分者對考生的遴選成績評分賦值處于合理區(qū)間,評分者3成為本研究主觀評分偏差的關(guān)注重點(diǎn)。
既往研究認(rèn)為,考官對評分標(biāo)尺的理解與掌握程度會(huì)影響評分偏差,為此本研究進(jìn)一步分析了評分者3的內(nèi)部評分一致性(Intra Reliablity,即采用相同標(biāo)準(zhǔn)為不同考生賦分情況)。數(shù)據(jù)顯示評分者3的Infit值為1.54,評分者3的內(nèi)部一致性較低,在評價(jià)96號考生的政策理論水平維度時(shí)給了2分,按照評分者3自身的寬嚴(yán)程度,對于該能力水平的考生,模型統(tǒng)計(jì)預(yù)期評分為5.7。實(shí)際評分跟模型期望分之間相差3.7分,偏離了4.2個(gè)標(biāo)準(zhǔn)差,屬于異常評定結(jié)果,初步判定評分者3未熟練掌握政策理論水平維度的評分賦值,存在隨意賦分風(fēng)險(xiǎn)。
3.策論評分維度的難度分析
從評分者3評分偏差分析可見,不同題目評分維度難度情況會(huì)影響評分者偏差。為此研究進(jìn)一步對評分維度難度情況進(jìn)行了分析,見表4。數(shù)據(jù)分析顯示,對策合理性維度的難度值最高,政策理論水平在4個(gè)維度中評分者較容易掌握。所有評分維度均吻合MFRM模型期望,維度Infit值在0.5至1.5之間,即評分者跨評分維度的評分一致性較好,評分者在同一評分維度上的寬嚴(yán)度相近。評分維度的分離比為3.44,分離信度為0.92,分離信度卡方檢驗(yàn)結(jié)果χ(3)2=38.4,p<0.01,說明現(xiàn)有遴選策論評分維度之間差異顯著,題目可較好區(qū)分考生能力,產(chǎn)生了期待中的考生表現(xiàn)差異。通過評估考生在策論考試評分維度上的表現(xiàn),可有效區(qū)分不同能力水平的考生。
4.策論評分量尺的評分等級分析
表5是對原始十點(diǎn)評分量尺使用情況的分析結(jié)果,表中第一列為量尺的評分等級。第二、三列是評分等級的使用次數(shù)及占總次數(shù)的比例。從表中可見評分等級1并未被評分者使用;等級6的使用次數(shù)最多,占總數(shù)的31.52%。說明在本次策論評分者賦分相對寬松,傾向于給出較高分?jǐn)?shù)。平均能力估計(jì)值(Average Measure)是各等級所對應(yīng)的能力估計(jì)值,理論上來說,考生能力水平越高,獲得的評分等級越高。本研究中各等級的平均能力估計(jì)值呈遞增趨勢,符合MFRM模型參數(shù)要求。Outfit MS值接近理想值1.0,表明該等級的評定可以對測量估計(jì)提供建設(shè)性的信息[21]。等級臨界值(Step Calibtrations Measure)即前后等級過渡點(diǎn)的能力值,當(dāng)考生能力低于這個(gè)臨界值時(shí),考生可能獲得前一等級評分;高于臨界值時(shí),更可能獲得后一等級得分,理論上獲得高分比獲得低分要求的能力更高,因而臨界值應(yīng)呈現(xiàn)遞增趨勢。表5的分析結(jié)果顯示,本次策論評分臨界值呈遞增趨勢,符合MFRM模型參數(shù)要求。
從圖1的等級概率曲線圖中(橫軸是能力值,縱軸是獲得某一等級的概率)可以看到,除等級1未被評分者使用外,其他等級都有獨(dú)立波峰,說明其他評分等級都有可能被相應(yīng)能力區(qū)間的考生獲得??傮w而言,本次公務(wù)員遴選考試中策論采用Likert10點(diǎn)計(jì)分是可行的。
前面的分析涉及的是模型各側(cè)面的擬合性,而對于策論評分各維度整體的擬合性,通常以異常反應(yīng)(Unexpected Responses)作為指標(biāo),具體異常值統(tǒng)計(jì)匯總,見下表6。
根據(jù)Linacre提出的標(biāo)準(zhǔn),當(dāng)分?jǐn)?shù)標(biāo)準(zhǔn)化殘差(StRes)的絕對值大于或等于3的反應(yīng)小于或等于總反應(yīng)的l%,且分?jǐn)?shù)標(biāo)準(zhǔn)殘差的絕對值大于或等于2的反應(yīng)少于或等于總反應(yīng)的5%時(shí),則模型整體擬合度是可接受的[22]。本研究中,標(biāo)準(zhǔn)化殘差的絕對值大于或等于3的反應(yīng)有23個(gè),占總反應(yīng)(2744)的0.8%,說明研究的觀察值與模型擬合程度是可接受的。
但應(yīng)該引起遴選考試管理者重視的是,政策理論水平評分維度,評分者共出現(xiàn)13次異常評分反應(yīng),對策合理性評分維度出現(xiàn)5次異常評分反應(yīng),分別占總異常評分反應(yīng)次數(shù)的57%和21%,說明評分者在上述維度上的評分不穩(wěn)定。文字表達(dá)能力和論文邏輯性兩個(gè)維度評分者掌握較好,因此異常的評分反應(yīng)出現(xiàn)較少。其中,3號評分者異常評分反應(yīng)出現(xiàn)次數(shù)最多,共計(jì)11次,占總異常反應(yīng)次數(shù)的47%,占總異常反應(yīng)次數(shù)的26%,可初步推斷3號評分者對評分維度的掌握程度不夠牢固。
5.評分者與評分維度的交互作用分析
評分者與評分維度的偏差分析可考察評分者在不同難度評分維度上的評分偏差情況。
統(tǒng)計(jì)結(jié)果顯示,7名評分者與4個(gè)評分維度的28對組合中,評分者與評分維度之間偏差顯著情況,共出現(xiàn)了8次占28.57%。在評分維度1(政策理論水平)上,評分者2和評分者7傾向于給考生評定更高分?jǐn)?shù),評分者3傾向于給予更低打分;在評分維度2(對策合理性)上,評分者1傾向于給予低評分,評分者3和評分者4傾向于給予高分?jǐn)?shù);在評分維度3(論文邏輯性)上,評分者3傾向于給予高分?jǐn)?shù);在評分維度4(文字表達(dá)能力)上,評分者1傾向于給予更高的得分。總體統(tǒng)計(jì)結(jié)果顯示,評分者與評分維度的交互作用顯著(χ2(28)=160.1p<0.01),說明維度難度可影響評分者的評分。
四、結(jié)論與討論
1.結(jié)果分析
本研究基于MFRM對2011年某直屬系統(tǒng)公務(wù)員遴選考試中策論測驗(yàn)的主觀評分偏差,從考生、評分者以及評分維度3個(gè)層面對策論數(shù)據(jù)進(jìn)行了分析。結(jié)果顯示,2011年該直屬系統(tǒng)遴選考試中使用的策論測驗(yàn),具有較好的內(nèi)部一致性,不同的評分維度可以有效區(qū)別考生不同側(cè)面的能力差異。對考生而言,最容易的題目是政策理論水平,得分最困難的是對策合理性。不同能力的考生在策論測驗(yàn)上的表現(xiàn)存在顯著差異,但考生的策論原始分?jǐn)?shù)與其MFRM能力值并不完全一致,相同能力的考生可能得到不同的名次。在公務(wù)員遴選考試的實(shí)踐當(dāng)中,在進(jìn)行錄用決策時(shí)往往是基于考生的策論原始成績排序來確定面試資格,本研究的分析顯示,遴選決策會(huì)受到評分者主觀偏差的影響,存在高能力考生被誤判出局的風(fēng)險(xiǎn)。
此外本研究發(fā)現(xiàn),評分者與評分維度之間的交互作用顯著,說明評分者在特定評分維度上的評分偏差顯著。對此,存在三種理論解釋:一是評分者對不同評分維度的理解不同,短時(shí)間內(nèi)難以將不同維度的評分準(zhǔn)則轉(zhuǎn)化為具體的評分參考,導(dǎo)致對評分量尺的理解和使用出現(xiàn)偏差。二是在策論中,盡管評分者對文字表達(dá)能力和論文邏輯性評分維度的理解較為一致,但可能由于評分時(shí)間較緊張,評分者需要在規(guī)定時(shí)間內(nèi)完成評分任務(wù),緊張時(shí)的評分情境消耗評分者的認(rèn)知資源,持續(xù)疲勞導(dǎo)致評分偏差的出現(xiàn)。三是有研究認(rèn)為,評分者盡責(zé)性以及評分動(dòng)機(jī),也可能是誘發(fā)主觀評分偏差產(chǎn)生的原因[24]。
2.未來研究
本研究基于MFRM模型,對公務(wù)員遴選考試策論的評分者偏差及其影響進(jìn)行了甄別,從評分者、考生和評分維度等側(cè)面對公務(wù)員遴選考試策論測驗(yàn)中評分者主觀評分偏差進(jìn)行了深入分析,具有一定的實(shí)踐指導(dǎo)意義??忌鎸?shí)能力與策論原始成績并不完全匹配,既往基于考生能力原始觀測值排序作為公務(wù)員遴選決策的依據(jù),存在較大遴選錄用決策風(fēng)險(xiǎn),未來研究可以進(jìn)一步,基于縱向追蹤研究范式收集更多效標(biāo)證據(jù)進(jìn)行深入研究。此外,本研究通過對評分者偏差的分析發(fā)現(xiàn),探討評分者對評分維度以及評分量尺的掌握情況,有助于為未來評分者培訓(xùn)提供現(xiàn)代測量學(xué)依據(jù),也能為不同評分者的特定評分偏差傾向提供針對性反饋,未來研究可選擇公務(wù)員考試面試官培訓(xùn)情境,基于考官培訓(xùn)實(shí)踐設(shè)計(jì)相應(yīng)的干預(yù)研究。但本研究依然存在一定局限性。如,評分者與考生性別、試卷呈現(xiàn)順序、評分時(shí)間等因素也會(huì)誘發(fā)評分偏差的產(chǎn)生[25],未來研究可納入多變量進(jìn)行系統(tǒng)探討,全面地甄別和控制評分者主觀偏差的負(fù)面效應(yīng)。
參考文獻(xiàn):
[1]習(xí)近平.在全國組織工作會(huì)議上的講話[M].北京:人民出版社,2018:14.
[2]傅興國.努力提高公務(wù)員選用科學(xué)化水平[J].求是,2018(8):39–41.
[3]侯晉雄.公開遴選與完善基層公務(wù)員培養(yǎng)選拔機(jī)制研究[J].重慶理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)),2014,28(8):88–95.
[4][20][24]BERNARDIN H J, THOMASON S, BUCKLEY M R, et al.?Rater rating-level bias and accuracy in performance appraisals: the impact of rater personality, performance management competence, and rater accountability[J].?Human resource management, 2016, 55(2): 321–340.
[5]WOLFE E W.?Identifying rater effects using latent trait models[J].?Psychology science, 2014, 46: 35–51.
[6]王寓周.四川省政協(xié)機(jī)關(guān)公務(wù)員遴選實(shí)效性之調(diào)查研究[D/OL],成都:電子科技大學(xué),2013:12.[2021-06-30]?.http://cdmd.cnki.com.cn/Article/CDMD-10614-1014137832.htm.
[7]MASRAN M N,NOR M M, MASHITAH M R.?Validatingmeasure of authentic assessment standard for childrens development and learning using many facet Rasch model[J].?Advanced science letters, 2017, 23(3): 2132–2136.
[8]?TOFFOLI S F, DE ANDRADE, BORNIA A C.?Evaluation of open items using the many-facet Rasch model[J].?Journal of applied statistics, 2016, 43(2): 299–316.
[9]?BRINTHAUPT T M, KANG M.?Many-faceted Rasch calibration an example using the self-talk scale[J].?Assessment, 2012, 21(2): 241–249.
[10]王佶旻,鄧志娜.評分員對不同體裁作文評分的多面Rasch模型分析[J].考試研究,2018,34(1):80–89.
[11][19]GOODWIN S.?A many-facet Rasch analysis comparing essay rater behavior on an academic English reading/writing test used for two purposes[J].?Assessing writing, 2016, 30(4): 21–31.
[12]俞韞燁,謝小慶.基于多面Rasch模型的作文網(wǎng)上評卷“趨中評分”判定研究[J].中國考試,2012(1):6–13.
[13]ZUPANC K, BOSNIC Z.?Automated essay evaluation with semantic analysis[J].?Knowledge-based systems, 2017, 120(15): 118–132.
[14]?MICHAEL G, UNKELBACH C.?Halo effects from agency behaviors and communion behaviors depend on social context: why technicians benefit more from showing tidiness than nurses do[J].?European journal of social psychology, 2017, 48(5): 701–717.
[15]?WINKE P, GASS S, MYFORD C.?Raters L2 background as a potential source of bias in rating oral performance[J].?Languagetesting, 2013, 30(2): 231–252.
[16]公務(wù)員公開遴選辦法(試行)[EB/OL].國家公務(wù)員局官網(wǎng),(2020-10-29)[2020-11-01].http://subb.scs.gov.cn/pp/gkweb/core/web/ui/business/article/articledetail.html?ArticleId=8a81f3237545c18101757349a7fe20d6&id=0000000065183dac01651c4ef5ac0023&eid=0000000065183dac01651c4f74de0025.
[17]孫曉敏,張厚粲.國家公務(wù)員結(jié)構(gòu)化中評分者偏差的IRT分析[J].心理學(xué)報(bào),2006,38(4):614–625.
[18]LINACRE J M.?FACETS: Computer program for many-faceted Rasch measurement[M].?Chicago: MESA Press, 1988: 14.
[21]?HARARI M B, RUDOLPH C W.?The effect of rater accountability on performance ratings: a meta-analytic review[J].?Human resource management review, 2017, 27(1): 121–133.
[22][25]?BRADLEY K D, PEABODY M R, MENSAH R K.?Applying the many-facet Rasch measurement model to explore reviewer ratings of conference proposals[J].?Journal of applied measurement, 2017, 17(3):283–292.
[23]?GARRIDO M E, ROMERO S, ORTEGA E, et al.?Designing a questionnaire on parents for children in sport[J].?Journal of sport & health research, 2011, 3(2): 153–164.
(責(zé)任編輯?方?卿)