王文成
近年來,網(wǎng)上閱卷以其高效便捷、經(jīng)濟(jì)節(jié)約、誤差易控等優(yōu)勢,被廣泛運(yùn)用于高考、公務(wù)員招錄、公開選拔領(lǐng)導(dǎo)干部等大規(guī)??荚囬喚砉ぷ髦?。但與傳統(tǒng)人工閱卷相比,網(wǎng)上閱卷技術(shù)使得對閱卷人員評分一致性即時(shí)控制成為現(xiàn)實(shí),其造成的嚴(yán)重后果之一,便是閱卷人員在主觀性試題評分上規(guī)避雙評閱卷員評分不一致的風(fēng)險(xiǎn),把通過計(jì)算機(jī)的一致性檢驗(yàn)成為閱卷的價(jià)值首選,即“人—機(jī)對抗”現(xiàn)象。過分追求雙評閱卷員之間評分的一致性,客觀上容易導(dǎo)致評分背離考生的真實(shí)能力素質(zhì),進(jìn)而產(chǎn)生符合評分一致性檢驗(yàn)的“合法性”評分誤差。這對于競爭性選拔考試非常危險(xiǎn)。因此,從源頭上探明主觀題網(wǎng)上閱卷評分誤差的產(chǎn)生因素及其控制策略,對于有效控制考試誤差,維護(hù)考試公平,成為維護(hù)考試信用的當(dāng)務(wù)之急。
所謂網(wǎng)上閱卷,是指一種與傳統(tǒng)人工紙質(zhì)閱卷不同的閱卷方式,它以計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和電子掃描、圖片裁切技術(shù)為依托,把考生的答卷通過掃描轉(zhuǎn)化為電子圖片編碼儲存,通過計(jì)算機(jī)網(wǎng)絡(luò)將考生電子試卷按要求隨機(jī)分發(fā)給閱卷員,其中客觀題由計(jì)算機(jī)程序控制對考生填涂的信息點(diǎn)自動判分,主觀題不是在考生的原始答卷上直接評分,而是由閱卷員在計(jì)算機(jī)網(wǎng)絡(luò)終端瀏覽考生答題信息的電子圖像進(jìn)行評分,最后由計(jì)算機(jī)程序自動統(tǒng)計(jì)合成考生成績庫的閱卷方式。(見圖1)主觀題網(wǎng)上閱卷主要有以下關(guān)鍵環(huán)節(jié)。
一是雙評。要求計(jì)算機(jī)將每個(gè)考生的每題作答呈現(xiàn)隨機(jī)分發(fā)給兩個(gè)閱卷員評閱,必須由不同的閱卷員評兩遍。對于同一考生的同一答題,當(dāng)兩個(gè)閱卷員同題賦分之差小于規(guī)定的誤差值時(shí),計(jì)算機(jī)自動取兩人的平均分作為該題最終得分。二是三評。如果兩個(gè)閱卷員同題賦分差值超過規(guī)定的誤差值時(shí),計(jì)算機(jī)會自動把該題的答題圖片隨機(jī)發(fā)給第三人評閱;第三個(gè)閱卷員評閱完畢后,服務(wù)器再將三評結(jié)果與前兩評結(jié)果進(jìn)行兩兩比對,若滿足誤差控制條件,則取其平均值作為最后分?jǐn)?shù);如果都大于規(guī)定的誤差值,系統(tǒng)將自動傳至閱卷組長裁決。三是仲裁。閱卷組長根據(jù)前三個(gè)閱卷員的評分結(jié)果,最終確定一個(gè)合理的分?jǐn)?shù)作為最終分?jǐn)?shù)。四是成績合成。當(dāng)所有考生的所有答題都評閱完畢之后,計(jì)算機(jī)自動合成每個(gè)考生的所有分?jǐn)?shù)。正是因?yàn)檫@種嚴(yán)格的主觀題評分制度和程序性設(shè)計(jì),讓人們產(chǎn)生了一個(gè)錯覺——在網(wǎng)上閱卷的技術(shù)體系中,不再有評分誤差的存在空間。
果真如此?從上述分析可見,網(wǎng)上閱卷的實(shí)質(zhì)是網(wǎng)絡(luò)信息技術(shù)對人工閱卷輔助,把人工評卷積累的豐富經(jīng)驗(yàn)和現(xiàn)代高新技術(shù)相結(jié)合,只是在技術(shù)手段上進(jìn)行了升級改造,一方面使得傳統(tǒng)閱卷以紙?jiān)嚲頌榻橘|(zhì)的傳遞變?yōu)橐噪娮影婷鏋榻橘|(zhì)的閱卷終端傳遞,便于閱卷員直接在計(jì)算機(jī)上對電子化答案進(jìn)行評分;另一方面把數(shù)據(jù)統(tǒng)計(jì)技術(shù)嵌入閱卷系統(tǒng)內(nèi),加快了閱卷人員評分結(jié)果的統(tǒng)計(jì)分析與處理,實(shí)現(xiàn)了閱卷質(zhì)量技術(shù)控制的便捷化、適時(shí)化。但是,從閱卷評分的本質(zhì)上看,閱卷人員運(yùn)用人工智慧通過考生作答介質(zhì)對其能力素質(zhì)的價(jià)值評判這一性質(zhì)沒有得到根本改變。
圖1 網(wǎng)上閱卷簡明流程
評分誤差,是指假定考生能力一定的條件下,在評分過程中由于試卷內(nèi)容、評分環(huán)境、評分手段以及評分人員主觀人為因素相互作用,使評分員對考生評分結(jié)果及其應(yīng)用與被測考生在該考試時(shí)的真實(shí)能力之間的不一致現(xiàn)象的測量效應(yīng)。
凡測量都有誤差。網(wǎng)上閱卷的主觀題評分誤差與傳統(tǒng)人工紙質(zhì)閱卷所產(chǎn)生的主觀題評分誤差并無本質(zhì)差別,但由于計(jì)算機(jī)技術(shù)的引進(jìn),通過自動屏蔽考生信息,根除了人為干預(yù)考試分?jǐn)?shù)的可能性,確保評卷過程客觀公正;通過雙評、多評的誤差控制機(jī)制,以及評卷結(jié)果的一致性檢驗(yàn)等功能,增強(qiáng)了閱卷員的評分一致性,保證評卷科學(xué)準(zhǔn)確;通過自動的加分、登分與統(tǒng)計(jì)分析,避免人工操作可能導(dǎo)致的粗大誤差。所以,網(wǎng)上閱卷主觀題的評分誤差主要體現(xiàn)為評分標(biāo)準(zhǔn)與參考答案設(shè)置不科學(xué)所引起的工具誤差、閱卷員業(yè)務(wù)水平差異所造成的人員誤差等。
應(yīng)該說,基于網(wǎng)上閱卷技術(shù)而實(shí)施的雙評、多評的誤差控制機(jī)制,以及單題評卷結(jié)果的一致性檢驗(yàn)等功能,較好解決了閱卷員之間的評分一致性問題。但正是這一技術(shù),卻無法解決閱卷員之間的“寬寬嚴(yán)嚴(yán)”問題,而且在以閱卷員評分一致性為導(dǎo)向的評分質(zhì)量評價(jià)制度設(shè)計(jì)下,催生了“人—機(jī)對抗”現(xiàn)象,致使主觀題評分誤差的控制出現(xiàn)了死角。在網(wǎng)上閱卷狀態(tài)下,計(jì)算機(jī)能夠?qū)崟r(shí)提供閱卷員單題評閱結(jié)果的數(shù)據(jù),質(zhì)量分析系統(tǒng)通過比較閱卷員之間、閱卷員與閱卷小組之間的評分分布、平均分、標(biāo)準(zhǔn)差等數(shù)據(jù)之間的差異性,監(jiān)控閱卷員之間的評分一致性。當(dāng)某閱卷員評分偏離值大于評分偏離值上限或日評分均值與總體評分均值差異較大時(shí),計(jì)算機(jī)自動發(fā)出警示信息,提示質(zhì)檢組對該閱卷員的評閱試題進(jìn)行抽查。在大規(guī)??荚嚨拈喚淼奶囟ōh(huán)境下,閱卷員為了通過計(jì)算機(jī)閱卷系統(tǒng)的評分一致性檢驗(yàn),在主觀性試題評閱中選擇了“打保險(xiǎn)分”的下策,或者當(dāng)兩個(gè)閱卷員對同道主觀題評分同嚴(yán)同寬時(shí),這種評分的一致性很可能讓評分誤差得到了合法性的掩蓋。
所謂自身性因素,主要是指主觀性試題及其參考答案和評分標(biāo)準(zhǔn)所具有的特性,以及試題命制、參考答案與評分標(biāo)準(zhǔn)設(shè)置的能否符合或反映這些特性要求,而所構(gòu)成的誤差因素。就目前我國筆試主觀題的情況來看,如申論題、作文題、論述題、解答題等,其參考答案一般不是唯一結(jié)論,評分標(biāo)準(zhǔn)上下波動大、分?jǐn)?shù)不等值;有的試題如擴(kuò)張反應(yīng)性試題的評分標(biāo)準(zhǔn)甚至體現(xiàn)為“評分要求”的形式,具有很強(qiáng)的概括性與抽象性,標(biāo)準(zhǔn)不易掌握。同時(shí),被試者對試題的解答又不可能與評分標(biāo)準(zhǔn)完全一致,具有多樣性的特點(diǎn)。這些因素的存在,致使閱卷員對評分標(biāo)準(zhǔn)的掌握具有很強(qiáng)的主觀性,具有很大的自由裁量空間。
以2011年某省高考語文新課標(biāo)卷作文評分標(biāo)準(zhǔn)為例(如表1所示):在“評分要素”上規(guī)定了基礎(chǔ)等級(包括內(nèi)容和表達(dá)兩項(xiàng))和發(fā)展等級,對每個(gè)評分要素的評價(jià)標(biāo)志作了原則性規(guī)定(如“基礎(chǔ)等級”內(nèi)容中的“符合題意、中心明確”等),對評價(jià)標(biāo)度作了四級劃分,其中每個(gè)等級之間的標(biāo)度僅以程度區(qū)分描述為值閾。問題在于考生的作文在內(nèi)容、表達(dá)、特征三方面究竟達(dá)到了哪一等級,只能由閱卷員根據(jù)自己的經(jīng)驗(yàn)作出判斷。具體來說,考生的作文在“發(fā)展等級·特征”方面是否“深刻”、“豐富”、“有文采”、“有創(chuàng)意”,需要閱卷員自行判斷。所以,參考答案與評分標(biāo)準(zhǔn)是造成主觀題評分誤差的工具性因素,這一點(diǎn)無論是傳統(tǒng)人工閱卷,還是網(wǎng)上閱卷,都無法避免。
賦分標(biāo)準(zhǔn)以分?jǐn)?shù)段的形式出現(xiàn),增大了閱卷員的自由裁量權(quán)。表1中的評分標(biāo)度中,4個(gè)等級的級差均為5分,即同一等級的作文,仍有5分的浮動范圍。這樣的評分標(biāo)準(zhǔn)操作上賦予閱卷員很大的自由裁量權(quán),如果不采取相應(yīng)的控制措施,極易產(chǎn)生評分誤差。隨著基礎(chǔ)教育課程改革的深入展開,類似這樣的問題會更加突出,如果閱卷員不能科學(xué)把握試題特點(diǎn)和評分標(biāo)準(zhǔn),則評分誤差的控制問題將更加突出。
更為嚴(yán)重的是,近年來人數(shù)超過百萬的公務(wù)員錄用考試申論科目作文的評分標(biāo)準(zhǔn),也出現(xiàn)上述類似問題:“一些地方參照高考作文,一些地方按議論文的評價(jià)標(biāo)準(zhǔn)來評價(jià)申論作文,這是對申論的誤解,至少是理解不深刻。申論要求結(jié)合材料寫作,而事實(shí)上,材料一旦給定,論點(diǎn)、論據(jù)、論證這三要素都將受到極大制約,因而寫出來的優(yōu)秀作文應(yīng)當(dāng)有很多規(guī)定之處?!盵1]問題的嚴(yán)重之處在于,申論考試的作文題與高考作文題有著本質(zhì)的不同,申論和高考作文雖然都比較關(guān)注“內(nèi)容”、“表達(dá)”和“特征”等指標(biāo),但申論考試是模擬國家機(jī)關(guān)處置政務(wù)工作時(shí)的工作思路、站有立場、所持態(tài)度、主體觀點(diǎn)、處事風(fēng)格、對策舉措等的一種行為,申論作文更加關(guān)注的是考生作為公務(wù)員,如何站在政府立場上表達(dá)對申論材料所指觀點(diǎn)的理解與看法,一以貫之的是政治性和思想性。所以,公務(wù)員考試的閱卷員如果不能把握申論命題的特點(diǎn),掌握考生寫作的規(guī)律,尤其是在“由一些從高校抽調(diào)的青年教師(包括研究生)去閱申論試卷,在他們對申論的理解都成問題的情況下”,[2]其對作文的評分單憑一個(gè)框架性的“等級評分標(biāo)準(zhǔn)”,所產(chǎn)生的評分誤差,恐怕要比高考作為評分有過之而無不及。
評分標(biāo)準(zhǔn)難以把握,也是網(wǎng)上閱卷評分誤差不好控制的重要因素。這種情況有兩種表現(xiàn):一是參考答案設(shè)置過于簡略,閱卷人員難以把握同一尺度,導(dǎo)致評分誤差。這種情形多見于公務(wù)員招錄考試申論科目的概括題和對策題:“在按點(diǎn)給分的情況下,答案要點(diǎn)不全面是一個(gè)非常嚴(yán)重的問題。如果考生根據(jù)材料寫出了相對合理的答案要點(diǎn),而參考答案和評分標(biāo)準(zhǔn)中都沒有涉及,這樣部分高素質(zhì)考生將與公務(wù)員失之交臂?!盵3]二是評分標(biāo)準(zhǔn)、細(xì)則設(shè)定過繁。如2011年高考文綜第45題(15分):
表1 2011年某省高考語文作文等級評分標(biāo)準(zhǔn)
材料:我國北方草原歷史上是游牧民族的家園,他們以部落為基本的社會組織,時(shí)而因其共同利益結(jié)成部落聯(lián)盟,各部落在草原上遷徙不定,往往為爭奪草地、水源相互仇殺。清朝入關(guān)前,統(tǒng)一漠西蒙古,開始分定各地部界,嚴(yán)禁互相侵越;入關(guān)后仿八旗制度形式逐步改造蒙古社會,形成盟旗制度。蒙古各部大者被分為數(shù)旗,小者自為一旗,旗長由蒙古各部首領(lǐng)世襲擔(dān)任。各旗有固定的牧地,不相統(tǒng)屬,旗民不得越境放牧,日常往來亦受限制。合數(shù)旗為一盟,盟長、副盟長以及會盟地由朝廷指定,對各旗進(jìn)行監(jiān)督,處理各旗不能解決的糾紛,盟不是一級行政機(jī)構(gòu),盟長不得干涉各旗事務(wù)、發(fā)布政令。各旗直接受中央政府管理。一切重大事務(wù)的裁決權(quán)屬于理藩院,各旗旗長有義務(wù)率旗下兵丁,應(yīng)召出征。蒙古族舊有的部名義上保存下來,不具有行政功能。
——摘編自翁獨(dú)健《中國民族關(guān)系史綱要》等
(1)指出旗、盟與草原傳統(tǒng)部落、部落聯(lián)盟的區(qū)別。(5分)
(2)簡析盟旗制度的歷史作用。(10分)
圖2 第45題組評分分布曲線
圖3 第45題組平均分曲線
而對于45題組評卷情況,從圖2可以看出,首先是評分分布曲線是處于一種比較混亂的狀態(tài),特別是5分、9分、11分,組員所評的分?jǐn)?shù)比重相差較大,如11分評卷員程的比重最小,為2.86%,而最高比重為評卷員陳,比重為26.18%,而全組此分比重在百分之十幾,相差很大。5分、9分情況亦是如此。
從圖3顯示的平均分曲線上,亦可以看出有較大一部分評卷員與全體評卷員在平均分上是有一定的差距的。
第45題的評分細(xì)則是:
(1)旗、盟是清政府針對蒙古地區(qū)制定的一種管理體制;部落、部落聯(lián)盟是草原游牧民族自身的社會政治組織(任意1句3分,兩句5分)。
(2)在尊重蒙古族社會傳統(tǒng)的基礎(chǔ)上,改造了草原的社會政治面貌(2分);削弱了蒙古貴族的權(quán)力,加強(qiáng)了對草原的影響(2分);有利于當(dāng)?shù)厣鐣€(wěn)定和經(jīng)濟(jì)發(fā)展(2分);加強(qiáng)了清朝統(tǒng)治的基礎(chǔ)(2分);使統(tǒng)一多民族國家更為鞏固(2分)。
從參考答案可以看出,這道題給分點(diǎn)多,共8個(gè)給分點(diǎn)、分值高(為15分),計(jì)分方法復(fù)雜,標(biāo)準(zhǔn)不好把握是其出現(xiàn)評分曲線不一致的重要原因。
在管理學(xué)看來,隨著技術(shù)的進(jìn)步,系統(tǒng)越來越自動化,越來越復(fù)雜,非但沒有減少或控制人因失誤的發(fā)生,反而人因誤差發(fā)生的可能性及影響增大了。這其中很大的原因并不在于個(gè)人因素及技術(shù)設(shè)備等方面的原因,而在于系統(tǒng)中的那些潛在的管理錯誤,即組織與管控因素。英國曼徹斯特大學(xué)心理學(xué)家Reason認(rèn)為,當(dāng)沒有發(fā)生其他技術(shù)失效或人誤時(shí),管理錯誤也是人誤或人誤的結(jié)果。在沒有發(fā)生其他技術(shù)失效或人誤差時(shí),這些管理錯誤似乎并未對系統(tǒng)的安全構(gòu)成威脅,因?yàn)橥槐挥X察,或者是不被認(rèn)為是錯誤。當(dāng)事后追查事故的原因時(shí),由于那些作為事故觸發(fā)器的技術(shù)失效或人誤最為明顯,更易被人們認(rèn)定為事故的直接原因,而潛在的管理錯誤的作用則往往被忽略了。Reason警告我們,正是這種過于簡單的原因分析模型,使得人們難以發(fā)現(xiàn)那些引發(fā)誤差的更重要的因素[4]。主觀題網(wǎng)上閱卷誤差控制同樣面臨這樣的問題:閱卷員自身或閱卷環(huán)境的問題所帶來的影響是有限的,而且在計(jì)算機(jī)系統(tǒng)的保障下是可控的;但是如果計(jì)算機(jī)系統(tǒng)或者管理上出了問題,那么等于說網(wǎng)上閱卷所帶來的保障就成了一道“馬其諾防線”,失去了應(yīng)有的作用。
更為重要的是,組織和管控因素會對閱卷員產(chǎn)生影響,主要是因?yàn)殚喚韱T并不是作為孤立的個(gè)體,而是作為閱卷組的一員而存在的,不但受到自身心理、生理因素的約束,還受到環(huán)境、物質(zhì)條件以及組織規(guī)程的約束,因此,閱卷員的評分誤差都是在受到閱卷組織管理下發(fā)生的,因此勢必會受到組織與管控因素的影響。組織與管控因素對閱卷員的影響主要反映在組織規(guī)范、組織溝通、組織功能、組織文化氛圍等,具體表現(xiàn)在閱卷員的生理、心理、精神面貌等方面,最終體現(xiàn)在誤差發(fā)生率上。在網(wǎng)上閱卷中,閱卷時(shí)間、閱卷速度與閱卷質(zhì)量發(fā)生了碰撞,在此情況下,對閱卷質(zhì)量的追求被固化在“又快又好”上。建構(gòu)在網(wǎng)絡(luò)信息技術(shù)上的網(wǎng)上閱卷系統(tǒng)在閱卷質(zhì)量評價(jià)上的最大優(yōu)勢之一,就是使閱卷組織對閱卷員的評分一致性進(jìn)行動態(tài)實(shí)時(shí)監(jiān)控成為可能,評分一致性就成為閱卷組織評價(jià)閱卷員工作質(zhì)量的重要指標(biāo)。在注重組織管控因素中,弱化對真分?jǐn)?shù)的追求,轉(zhuǎn)而強(qiáng)化對評分一致性的渴望,成為通過閱卷組織監(jiān)控的下意識選擇。也正是在這種緊張的工作氛圍中,閱卷員能夠順利通過組織評價(jià)的基本沖動,無形中消解了評分誤差控制的重要環(huán)節(jié)。
在主觀題網(wǎng)上閱卷評分過程中,閱卷員的思想道德素質(zhì)、業(yè)務(wù)素質(zhì)與能力水平、身心素質(zhì)的差異,是導(dǎo)致評分誤差的主要因素。
思想道德素質(zhì)影響?!霸u分人員的責(zé)任心、工作態(tài)度如何,對評卷的質(zhì)量有很大的影響,同時(shí)也是造成誤差的重要因素”[5]。如果評分者沒有優(yōu)良的思想政治素質(zhì)和良好的職業(yè)道德,不能嚴(yán)格遵守評分紀(jì)律,認(rèn)真履行工作職責(zé),就會受單一任務(wù)觀的支配,利用網(wǎng)上閱卷系統(tǒng)在閱卷員評分一致性檢驗(yàn)的技術(shù)漏洞,賦“保險(xiǎn)分”,即對主觀題的評分不是以考生實(shí)際水平為依據(jù),而是給“中間分”,結(jié)果導(dǎo)致評分誤差。此種情況在統(tǒng)計(jì)學(xué)上體現(xiàn)為閱卷員個(gè)人評分分布在中間分?jǐn)?shù)段的離散程度呈集中趨勢。
業(yè)務(wù)能力影響。閱卷員良好的業(yè)務(wù)素質(zhì)與能力是準(zhǔn)確評分的關(guān)鍵,能否科學(xué)把握評分標(biāo)準(zhǔn)并合理賦分,是判斷主觀題閱卷員是否合格的基本標(biāo)準(zhǔn)。要做到這兩點(diǎn),閱卷員必須精通考試科目的基本理論、基本知識和所涉及的專業(yè)知識、業(yè)務(wù)技能,正確領(lǐng)會命題意圖,把概括性、抽象性的評分標(biāo)準(zhǔn)轉(zhuǎn)化為具體的可操作的標(biāo)尺,形成對評分標(biāo)準(zhǔn)的科學(xué)把握,準(zhǔn)確評判考生作答。否則,很可能出現(xiàn)單純把考生的作答機(jī)械對照參考答案,導(dǎo)致那些不解題意、漫天撒網(wǎng)羅織答案要點(diǎn)的考生得分偏高,而能深入理解題意但解題思路不同于參考答案的考生得分較低。由于公務(wù)員錄用考試“申論考試試題沒有統(tǒng)一的標(biāo)準(zhǔn)答案,只有一個(gè)大概的參考答案,評分方式完全靠評卷人的主觀判斷。一般參加公務(wù)員考試的人數(shù)都很多,閱卷的時(shí)候只能夠使多數(shù)人共同完成閱卷任務(wù),由于閱卷人員在工作經(jīng)歷、文化水平、對事物的認(rèn)識等方面都存在差異性。在閱卷過程中,閱卷人對同一份試卷的判定就會不同,即使是同一個(gè)閱卷人對不同試卷的判定標(biāo)準(zhǔn)也是很難做到一致性?!盵6]其必然的結(jié)果是,對于業(yè)務(wù)能力不足的閱卷員,要么是局限參考答案要點(diǎn),在閱卷中評分過嚴(yán);要么是不理解參考答案要點(diǎn),閱卷時(shí)打分忽高忽低,受到警示后轉(zhuǎn)而打“保險(xiǎn)分”。
心理素質(zhì)影響。由于主觀性試題的評分是對考生作答結(jié)果認(rèn)知和進(jìn)行主觀判定的過程,評分者在評分時(shí)的心理狀態(tài)和心理傾向,對于考生作答的認(rèn)識和判斷所產(chǎn)生的效應(yīng),必然不同程度地影響著他們對評分標(biāo)準(zhǔn)的把握,而產(chǎn)生評分誤差。造成主觀題評分誤差的心理因素主要有:一是情緒效應(yīng)。心理學(xué)研究表明,人們對事物的感知往往受到情緒的影響,這就是情緒效應(yīng)。在網(wǎng)上閱卷中,評分者或喜悅、或抑郁,往往會直接地影響對考生答題正確程度的評判,以分?jǐn)?shù)的形式體現(xiàn)出來。在好的情緒狀態(tài)下,評分者對考生作答易于產(chǎn)生濃厚的興趣,發(fā)現(xiàn)其中的新奇點(diǎn)、細(xì)微的長處或不足,給出較為精確的評價(jià);反之,則難以集中精力,常出現(xiàn)憑印象給分的情況。一般來說,影響閱卷員情緒的主要因素有閱卷的環(huán)境、閱卷的進(jìn)度以及由此產(chǎn)生的工作壓力、突發(fā)事件和考生的試卷是否整潔等。二是投射效應(yīng)。人們往往有一種傾向,總是假設(shè)他人與自己是相同的,以自己的認(rèn)識水平、本身好惡為標(biāo)準(zhǔn)對人和事作出評價(jià),心理學(xué)把這種現(xiàn)象稱為“投射效應(yīng)”。受此類心理效應(yīng)的影響,尤其是在申論、策論和作文題或理工科計(jì)算題的評閱中,閱卷員常會設(shè)想存在一個(gè)理想化的評分模式,往往以“自己的理想標(biāo)準(zhǔn)”取代評分標(biāo)準(zhǔn),來衡量考生的作答。這樣一來,不同的評分人員由于彼此之間認(rèn)識水平、個(gè)人好惡的差異,使得他們即使是面對同一試題,也可能做出不同甚至相去甚遠(yuǎn)的判斷。三是首因效應(yīng)和近因效應(yīng)。在主觀題網(wǎng)上閱卷評分中,閱卷員往往對首先獲得的信息留有較鮮明的印象。如對語文科目中的作文題、競爭性選拔筆試中的論述題、策論題,就可能因?yàn)槠渚实拈_題而吸引閱卷員的注意,最后使得閱卷員的評分產(chǎn)生誤差,這就是首因效應(yīng)對主觀題評分的影響。與首因效應(yīng)相反,最后給人留下的信息也往往能給人以強(qiáng)烈的印象,這在心理學(xué)上稱為“近因效應(yīng)”。四是暈輪效應(yīng)。即一俊遮百丑、片面評價(jià)。這種心理效應(yīng)在評判寫作題時(shí)容易造成評分誤差,如一篇作文由于或主題、或選材、或結(jié)構(gòu)、或語言、或書寫等某一個(gè)方面比較突出,而其他方面平平,甚至拙劣,但仍可能取得較高的分?jǐn)?shù);反之,一篇文章正是由于某一方面的不足,就可能使分?jǐn)?shù)受到過分的壓低。除此之外,定勢效應(yīng)、時(shí)差效應(yīng)、比照效應(yīng)等,都不同程度地影響著對評分標(biāo)準(zhǔn)的把握,致使所評分?jǐn)?shù)不能很好地代表考生的實(shí)際水平。需要指出的是,閱卷員的身體健康狀況,也會對評分的客觀性產(chǎn)生影響,如果閱卷人員體質(zhì)較差,長時(shí)間工作會因疲勞而使身心狀態(tài)發(fā)生變化,影響評分的準(zhǔn)確程度。
在主觀題網(wǎng)上閱卷評分中,條件因素主要體現(xiàn)為方法、手段和技能,主要范圍包括:評分者素質(zhì)條件與資格認(rèn)定規(guī)程,制定評分細(xì)則的技術(shù)規(guī)范,閱卷評分的程序與質(zhì)量標(biāo)準(zhǔn)等,評分的時(shí)間安排與閱卷強(qiáng)度設(shè)置、網(wǎng)上閱卷相應(yīng)設(shè)備的配置水平等。如果不能科學(xué)掌握與合理利用這些評分技術(shù),無論按要點(diǎn)賦分或按測評要素賦分,分項(xiàng)分等評分還是綜合評分,單評還是雙評或者三評,都會對主觀題網(wǎng)上閱卷評分產(chǎn)生直接的影響。
不僅如此,對評分質(zhì)量的監(jiān)控是否及時(shí)有效,也是評分誤差產(chǎn)生的關(guān)鍵性因素之一。由于主觀題網(wǎng)上閱卷評分誤差的來源多樣、類型復(fù)雜、難以控制等特性,單憑培訓(xùn)閱卷員、試評、制定評分細(xì)則等評前控制,無法避免評分過程中給分偏寬偏嚴(yán)的系統(tǒng)性誤差和打分忽高忽低的隨機(jī)性誤差,如果沒有評中控制,評分工作就會很可能處于失控狀態(tài),評分的準(zhǔn)確性就難以保證。
網(wǎng)上閱卷評分誤差的控制,其實(shí)質(zhì)仍然是規(guī)范閱卷員的評分行為,提升閱卷員的思想素質(zhì)和業(yè)務(wù)能力。但對于網(wǎng)上閱卷“人—機(jī)對抗”背景下產(chǎn)生的主觀題評分誤差的控制,在綜合運(yùn)用組建閱卷組織、建立閱卷隊(duì)伍、加強(qiáng)業(yè)務(wù)培訓(xùn)、制定規(guī)則程序等方式方法的基礎(chǔ)上,應(yīng)更加注重閱卷過程中的技術(shù)控制,其具體著力點(diǎn)在于:
主要有兩種方法進(jìn)行評價(jià),其一,把專家組所評樣卷讓閱卷員進(jìn)行評閱,計(jì)算每一樣卷閱卷員與專家組的差值,判定是否在誤差允許范圍之內(nèi),計(jì)算出樣卷符合要求的百分比,評定評卷教師評分標(biāo)準(zhǔn)把握程度是否準(zhǔn)確。其二,計(jì)算專家組和閱卷員在樣卷得分的相關(guān)系數(shù),評定閱卷員和專家組在樣卷評分上的一致性。通過上述兩種技術(shù)控制,檢驗(yàn)閱卷員對評分標(biāo)準(zhǔn)的掌握情況,實(shí)現(xiàn)對主觀題評分誤差的有效控制。
對寬寬嚴(yán)嚴(yán)的技術(shù)控制,可通過兩種方法:一是比較不同時(shí)段,本人閱卷標(biāo)準(zhǔn)差、平均分、有效度和閱卷速度;比較復(fù)評的標(biāo)準(zhǔn)差、平均分、有效度和閱卷速度,評價(jià)評卷員掌握評分標(biāo)準(zhǔn)的嚴(yán)寬程度,始終如一,是否隨意性大。不同時(shí)段和復(fù)評相關(guān)系數(shù)越大越好,具體數(shù)值達(dá)到0.9以上。二是計(jì)算集中程度。在閱卷過程中,集中程度反映了閱卷員評分的穩(wěn)定性,即對考生作答情況的評定是偏松或是偏嚴(yán)。其評價(jià)指標(biāo)是每道題目上每個(gè)閱卷員給分的算術(shù)平均數(shù)。以每道題考生最終成績的總平均數(shù)為參照點(diǎn),閱卷員給分的平均數(shù)越接近考生最終成績的總平均數(shù),說明評分誤差越小。
在實(shí)際閱卷中,離散程度主要有兩種傾向:一是趨中性,即朝著平均數(shù)打分,表現(xiàn)為或者盡量多給中間檔次的分?jǐn)?shù),或者確定檔次之后,給各檔次的中間分。二是發(fā)散性,即趨向于給高分或低分,兩極分化嚴(yán)重。從試卷的隨機(jī)分發(fā)以及考生得分的正態(tài)分布曲線來說,過于高度的趨中或過分的發(fā)散傾向,對閱卷的準(zhǔn)確性和公平性都是不利的。對此,可主要通過計(jì)算各個(gè)閱卷員評分的方差和標(biāo)準(zhǔn)差來度量其離散程度。采用的參照點(diǎn)有兩個(gè):一是群體中方差的中值,通過差異檢驗(yàn)值信度越高的表示閱卷評分誤差越??;二是把閱卷員的標(biāo)準(zhǔn)差作為一個(gè)分布來看待,用該分布的均值作為參照點(diǎn),離分布的均值越遠(yuǎn)表示評分誤差越大。
評分有效度是指每道題目上每個(gè)閱卷員評閱的有效試卷量占所評試卷量的比例。數(shù)值越大,表示閱卷質(zhì)量越好,評分誤差控制的越好。閱卷員對某份試卷的評分與考生最終得分的差值的絕對值小于本題目允許的最大誤差的1/2,則這份試卷屬于有效閱卷。一般而言,有效度越高的閱卷員,個(gè)人尺度越接近標(biāo)準(zhǔn)尺度。閱卷員評分的有效度有下面幾種情況:一是雙評差值未超出差值閾限,則兩位評分員的評分都記為有效;二是三評給出的分?jǐn)?shù)和與之相近的雙評中的一位閱卷員的評分,如果沒有超出差值閾限,則此二位閱卷員共同決定了該試題的最終得分,該二位閱卷員的評分都記為有效。三是如果與三評分?jǐn)?shù)相差較大的另一個(gè)評卷員給出的分?jǐn)?shù),小于本題目允許的最大誤差的1/2,則該評分也被記為有效。
[1][2][3]郭五林.申論命題與閱卷中存在的問題分析[J].秘書之友,2009(11):31-34.
[4]彭澎,黃曙東.組織管理因素對人因事故的作用與影響[J].人類工效學(xué),2001(2):34-38.
[5]梁其健,葛為民.考試管理的理論與技術(shù)[M].武漢:華中師范大學(xué)出版社.2002.
[6]吳梅.湖南省公務(wù)員錄用考試測評體系研究[D].長沙:湖南大學(xué)碩士學(xué)位論文,2010.