楊帆 鄧欣
摘要:網(wǎng)上評卷是當(dāng)前技術(shù)環(huán)境下教育考試領(lǐng)域的主流評卷方式,是教育考試評分過程中的關(guān)鍵抓手。本文對網(wǎng)上評卷誤差來源進行了審視分析,發(fā)現(xiàn)標準答案和評分細則制定的科學(xué)性程度、評卷教師的專業(yè)素質(zhì)以及評卷過程的組織管理因素是評分誤差的三個重要來源。結(jié)合工作實踐并通過調(diào)研交流等方法歸納出了降低網(wǎng)上評卷誤差的有效策略,為準確高效地開展網(wǎng)上評卷工作、實現(xiàn)考試公平公正提供條件保障。
關(guān)鍵詞:網(wǎng)上評卷? 誤差來源? 誤差控制
一、網(wǎng)上評卷誤差控制研究背景
隨著網(wǎng)絡(luò)技術(shù)的高速發(fā)展和圖像掃描裁切技術(shù)的飛躍式進步,教育考試領(lǐng)域開始廣泛采用網(wǎng)上評卷模式。其中,客觀題一般直接利用OMR[1](光標閱讀機)識別技術(shù)由計算機對應(yīng)涂點信息進行批改判分;作答在答題卡上的主觀題答題經(jīng)圖像信息采集、切分、校驗等過程處理后轉(zhuǎn)化成為電子圖像,通過網(wǎng)絡(luò)隨機分給評卷教師進行在線判分,評卷工作全部結(jié)束后,在數(shù)據(jù)庫內(nèi)對分數(shù)進行合并計算,得出考生最終考試成績。
作為新興評卷方式并迅速得到推廣應(yīng)用進而取得主導(dǎo)地位,網(wǎng)上評卷具有諸多顯著優(yōu)勢:第一,有利于信息的安全保密。網(wǎng)上評卷減少了答題卡流轉(zhuǎn)環(huán)節(jié),評閱對象為任務(wù)題目的作答圖像,剪除了其干預(yù)非任務(wù)題目的可能。且作答圖像自動屏蔽考生信息,判分完成自動提交,避免了暗箱操作造成的公允偏失,增強了流程控制的安全性。第二,有利于提高評卷效率,縮短工作周期。網(wǎng)上評卷省略了答題卡翻閱、簽名、退卷等步驟,評卷教師只需在計算機上登錄評分系統(tǒng),利用鍵盤進行打分、切換等操作,方便快捷高效。計算機自動完成分數(shù)記錄、加總、復(fù)核等環(huán)節(jié),避免了人工統(tǒng)分的低效失誤。第三,有利于提高評閱質(zhì)量,降低評分誤差。每位評卷教師的判分過程和結(jié)論不受他人影響和干擾,完全獨立開展;同時通過質(zhì)量內(nèi)控措施及多渠道質(zhì)檢等手段,可以關(guān)注每個個體工作開展情況,及時糾正偏差。第四,考生答題卡原始圖像信息和評卷數(shù)據(jù)易存儲、易統(tǒng)計、易分析,一方面有利于教育考試部門利用數(shù)據(jù)挖掘技術(shù)更有針對性地優(yōu)化試卷內(nèi)容,另一方面有利于根據(jù)評卷過程表現(xiàn),逐步篩選創(chuàng)建專業(yè)化高素質(zhì)的評卷教師數(shù)據(jù)庫。
雖然網(wǎng)上評卷已然成為教育考試實施過程中的重要抓手之一,但并不意味著新舊評卷模式轉(zhuǎn)換后評卷誤差問題得到了根本性的解決。厘清影響評卷誤差的主、客觀因素,探索能夠降低乃至解決評卷誤差的有效措施,是本文研究的重點問題。
二、網(wǎng)上評卷誤差源起審視
標準化考試題型一般包括客觀題和主觀題兩種,本文所說評卷誤差主要是指主觀題評閱中出現(xiàn)的誤差,即評卷教師判斷下的考生得分和能反映考生真實水平的分數(shù)之間的差異。評卷誤差控制是根據(jù)考試的性質(zhì)、目的和要求,通過各種途徑糾正命題、考試過程和評分過程中出現(xiàn)的誤差[2]。評分誤差的影響因素主要有以下幾種。
1.標準答案與評分細則的局限性
評卷專家組根據(jù)試題特點、標準答案制定可參考性、可操作性強、便于推廣應(yīng)用的評分細則,評卷教師以評分細則為參考和指南對主觀題進行評分。因此,標準答案以及評分細則能否完整真實地反映出試題考察的目的指向,并且通過評卷過程準確地在考生得分上體現(xiàn)出來,是傳統(tǒng)評卷方式和網(wǎng)上評卷方式共同面臨并亟待解決的問題。
標準答案與評分細則的科學(xué)性程度帶來的誤差在以下兩種情形中表現(xiàn)較為明顯:一是二者具有高度概括性和抽象性。主要見于作文題等題型,考生的答案多樣性明顯,評卷教師對評分標準又難以把握,自由裁量空間大,主觀偏好作用強,難以自始至終把握同一評分尺度。二是二者描述過度詳盡,要點設(shè)置過多。主要見于主觀性較高的分析題等題型,此類題目得分點多,總分值高,計分方式復(fù)雜,考生的答案冗長并且要點不明顯,評卷教師難以順利找出所有得分點并統(tǒng)籌衡量評分,由此帶來評分誤差。
2.評卷教師業(yè)務(wù)能力的差異性
評卷教師專業(yè)素質(zhì)是否過硬、教育培訓(xùn)水平的高低以及認知風(fēng)格決定了對評分細則的把握程度以及運用的持續(xù)一致性,是影響評卷誤差的關(guān)鍵。評卷教師必須熟悉評卷科目涉及的專業(yè)知識,具備過硬的專業(yè)能力,才能夠正確把握試題的命題意圖、考察的知識方向,從而科學(xué)靈活地評價考生答案,合理判斷并準確賦分,避免嚴苛呆板的機械給分。
3.評卷過程中心理因素的誘導(dǎo)性
評卷教師基于“理性人”假設(shè)的前提被選拔參與評卷工作,然而他們除了具有相同的知識背景、文化傳統(tǒng)等共性要件,還具有不同的成長經(jīng)歷、欣賞習(xí)慣、心態(tài)情緒等個性因素。不同評卷教師甚至同一評卷教師在不同階段,都可能因個人原因?qū)е略u分差異,其中,個性因素導(dǎo)致的評卷教師的心理差異是導(dǎo)致評分誤差產(chǎn)生的最主要誘因。
(1)排位效應(yīng)(ranking effect)
在評卷過程中,即使是同一位評卷教師評閱同一份答卷,在不同的評閱時間段,也會出現(xiàn)分數(shù)上的細微差別,這種差別和試卷呈現(xiàn)的位次有關(guān),我們稱之為“排位效應(yīng)”。排位效應(yīng)是大腦因信息接收順序不同而影響認知的一種表現(xiàn)。一般來說,評卷教師評分行為往往存在先評較松,后評較嚴的趨勢,我們稱之為“首因效應(yīng)”。如果一位教師在連續(xù)評閱多份質(zhì)量較低的答卷之后,系統(tǒng)分配給予一份要點較為完整的答卷,那么該份答卷評分可能偏高。反之評分可能偏低,我們稱之為“近因效應(yīng)”。
(2)再認識效應(yīng)(rerecognition effect)
從整體來看,每位評卷教師的心理素質(zhì)、業(yè)務(wù)能力是相對穩(wěn)定的,但并不是一成不變的,人們對于事物或過程的正確認識,往往需要經(jīng)過多次的再認識過程才能確立。在評卷過程中,隨著評閱試卷數(shù)量的增多,不同考生的回答內(nèi)容、方式會反作用于評卷教師的思維,其對于評分細則的理解將連續(xù)不斷的深化和更新,我們稱之為“再認識效應(yīng)”。這種過程性理解的進階差異,會對評分的一致性帶來一定程度的影響。
(3)暈輪效應(yīng)(halo effect)
暈輪效應(yīng)又稱光環(huán)效應(yīng),是指評卷教師對考生作答形式或內(nèi)容的某一方面特征形成好的印象后,擴大到對考生作答整體的評分中去,以偏概全地打出分數(shù)。字跡干凈整潔、字體規(guī)范美觀的作答往往能夠取得良好的評分印象,此類試卷最終判分結(jié)果往往高于單純依據(jù)作答內(nèi)容給予的評分,這是評卷中典型的暈輪效應(yīng)。
(4)疲勞效應(yīng)(fatigue effect)
評分教師在長時間高強度的評分工作后,情緒和動機都會減弱,感到身體疲勞、精力不足,評分責(zé)任心、使命感有所下降,績效水平降低,導(dǎo)致評分一致性變差,評分準確性降低。
(5)趨中性傾向(neutral tendencies)
有研究表明,隨著評卷工作的進行,同一位評卷教師評卷速度、出分率等會提高,但是會出現(xiàn)趨中評分傾向[3]。趨中評分傾向指評卷教師在評卷過程中分數(shù)整體集中在中間分數(shù)段上下小幅度波動。趨中評分這種帶有“平均主義”色彩的評分策略有利于評卷教師規(guī)避評分不一致的風(fēng)險和爭議,順利通過評分一致性檢驗,但是將直接導(dǎo)致評價效度降低,影響考生真實水平的呈現(xiàn),帶來評分誤差。
(6)極端性傾向(extreme tendencies)
對于部分評卷教師,一旦接收到存在趨中評分傾向的監(jiān)控反饋后,可能會出現(xiàn)矯枉過正的現(xiàn)象,即弱化評分標準的一致性,評出一定量的高分或者低分改善趨中評分趨勢。此外,在作文等主觀性較強題目的評閱中,評卷教師會受個人情感體驗、文化認知、生活經(jīng)歷等因素的影響,對考生作答內(nèi)容產(chǎn)生情緒共鳴或抵觸,從而打出過高或過低的分數(shù)。
(7)異化的目標追求(the pursuit of alienation)
網(wǎng)上評卷系統(tǒng)可以提供實時單題評閱進程分析數(shù)據(jù),通過對比評卷教師單體打分結(jié)果和整體判分分布、平均分、標準差等數(shù)據(jù),來監(jiān)控評卷教師之間的評分一致性,確保評卷質(zhì)量。當(dāng)個體判分游離于預(yù)設(shè)準允偏差值上限之外,電腦會自動發(fā)出警報信息,提醒質(zhì)檢組對該教師的打分進行檢查。這種評分一致性實時監(jiān)控促使評卷教師的關(guān)注點下意識地從最重要的目標“真分數(shù)”轉(zhuǎn)移到了“評分一致性”上面來,從而產(chǎn)生了“快且一致”的不合理目標追求,明顯偏離了評卷工作的初衷。
4.評卷流程組織管理的專業(yè)性
有學(xué)者認為,評卷教師自身或評卷環(huán)境的問題所帶來的影響是有限且可控的;但是如果計算機系統(tǒng)或者管理上出了問題,網(wǎng)上評卷所帶來的保障就失去了應(yīng)有的作用[4]。評卷工作往往時間緊、任務(wù)重、責(zé)任大,這對評卷教師個人的能力素質(zhì)提出了高要求的同時,管理人員和管理模式的專業(yè)性水平也面臨著極大的挑戰(zhàn)。不舒適的評卷環(huán)境、不合理的組織規(guī)程、不科學(xué)的工作模式、不完備的督查措施、不順暢的交流溝通等必然帶來評卷教師的不適感受,從而降低評卷質(zhì)量,加大評卷誤差。
三、網(wǎng)上評卷誤差控制措施
為提高評卷質(zhì)量,保證考試信度,必須以評分誤差控制為核心標的,建立科學(xué)有效的防控管理體系,通過有效的流程控制和過程管理,使評分結(jié)果能夠準確反映出學(xué)生的真實水平,發(fā)揮出考試在選拔和評價中的甄別作用。
1.科學(xué)制定標準答案與評分細則
科學(xué)合理的標準答案和評分細則是評卷教師在評卷過程中最重要的參考,是實現(xiàn)評卷公平公正的先決條件。標準答案應(yīng)盡可能多地涉及回答角度,清晰詳細地羅列答案的基本結(jié)構(gòu)框架、重點內(nèi)容,方便評卷教師了解題目考察意圖并初步判斷試題的難易程度,并制定評分細則。評分細則要根據(jù)題目類型細化評分量表,給出每道題目的滿分、得分、扣分規(guī)則等。一般來說主觀題評分細則類型可以分為三類:分級評分、分步評分和要點評分。分級評分適用于主觀性強、開放性大的題目;分步評分適用于答題步驟明確的題目;要點評分適用于主觀性較強、半開放式的題目。
2.建設(shè)高素質(zhì)評卷教師隊伍
評卷教師必須具備較高的專業(yè)素養(yǎng),這是保證閱卷信度和效度的前提。一般在教育考試中,評卷教師的選聘應(yīng)當(dāng)遵循“從相關(guān)專業(yè)正式教師中選聘”的原則,應(yīng)符合“有規(guī)定年限教學(xué)經(jīng)驗并滿足職稱等級要求;具備所評科目的專業(yè)知識;責(zé)任心強、作風(fēng)正派、遵守工作紀律、身體健康;無直系親屬參加考試;熟悉計算機操作技能”等條件。
嚴格的選聘控制能夠初步淘汰不適合網(wǎng)上評卷的教師,但并不等同于選拔出的人員都能夠優(yōu)秀地完成工作任務(wù)。部分評卷教師對網(wǎng)上評卷工作不夠熟悉,應(yīng)對困難和挑戰(zhàn)的準備不足,單憑個人理解掌握評分要求不準確,仍然不能滿足評卷工作需要,因此遴選結(jié)束后必須做好配套培訓(xùn)工作。
3.合理設(shè)置評分方法
(1)明確多評控制標準
多評機制是控制評分誤差的有效方法。雙評由兩位評卷教師進行獨立評分,所評分數(shù)之差為雙評差值,其允許存在的極限差為雙評差值閾限。當(dāng)雙評差值小于閾限時,評卷系統(tǒng)以兩位評卷老師的平均值作為最終得分。當(dāng)雙評差值大于雙評差值閾限時,該答案分發(fā)給第三位評卷教師進行三評。
《國家教育考試網(wǎng)上評卷統(tǒng)計測量暫行規(guī)范》規(guī)定:“評分過程中,雙評差值閾限一般不能大于題目滿分的1/6。”一般情況下將題目滿分的1/6~1/5作為實操過程中的最大允許上限。但是僅有差值閾限最大值的限制性不足以滿足評卷誤差控制的操作需要。評卷專家組對不同考試題目的理解和誤差包容度不同,差值閾限的設(shè)置尺度并不統(tǒng)一。雙評差值閾限應(yīng)盡可能詳細地提供差值閾限設(shè)置采用的計算方式方法,而不是僅僅提供上限值。研究顯示,在相同信度水平的條件下,測驗分數(shù)分布(尤其是標準差)決定著差值閾限的大小,評分差值閾限的基線值應(yīng)為1.24倍的標準差[5]。
(2)合理設(shè)置單題時限
使用技術(shù)手段在網(wǎng)上閱卷系統(tǒng)內(nèi)設(shè)置主觀題最低瀏覽時間,能夠有效防止評卷教師追求高速草率打分的現(xiàn)象發(fā)生。在實際操作過程中,要注意時限長短要與單題分值、要點數(shù)量、評分的難易程度等正向匹配。對于客觀性較強、考生發(fā)揮空間較小的主觀題或者無作答內(nèi)容的試卷,為提高閱卷效率,避免不必要的時間浪費,可以不進行時間限制。
(3)重視試評的積極作用
在正式評卷前,試評是必不可少的前期準備工作。學(xué)科組專家根據(jù)不同題目類型、回答水平等挑選出一份或者幾份答卷進行集體討論、合理打分,之后將這些答卷自動分配到評卷教師計算機終端,評卷教師在不可視專家組打分情況下根據(jù)已掌握的題目要求、評分細則進行打分。隨后,組織評卷教師對比分析兩組結(jié)論,對專家組打分要點、評分思路進行細致研究和反復(fù)揣摩,體會不同分數(shù)等級的差異所在。通過試評,可以有效幫助評卷教師熟悉題目特點、考察方向、評分細則和操作系統(tǒng),并檢驗個人對評分細則的理解掌握程度,從而調(diào)整給分策略使之更加貼近評分要求。
4.構(gòu)建質(zhì)量檢驗評價體系
為保證評卷質(zhì)量,應(yīng)綜合運用多種評測手段,建立多維度質(zhì)量檢驗評價體系,實現(xiàn)對所有評卷教師的工作開展情況的追蹤和檢查,一旦發(fā)現(xiàn)異常,可提醒評卷教師及時修正,確保評卷工作高質(zhì)高效進行。組成評卷質(zhì)量檢驗評價體系常用的技術(shù)手段有評分結(jié)果分布曲線檢驗、評卷質(zhì)量抽查、評分一致性檢驗、異常得分率檢查等。
(1)評分結(jié)果分布曲線檢驗
正常情況下,評分結(jié)果分布曲線應(yīng)該呈現(xiàn)正態(tài)分布趨勢,通過評卷系統(tǒng)內(nèi)置檢驗?zāi)K調(diào)取個人和小組評分結(jié)果分布曲線并過濾出異常曲線,可以直觀對比檢查個人間和個人與小組間的差異,從而實現(xiàn)評卷質(zhì)量異常檢查。
(2)評卷質(zhì)量抽查
質(zhì)檢組和學(xué)科組組長可以對已評試卷進行隨機抽樣,對評卷教師打分的恰當(dāng)性進行人工檢查,對不符合評分細則和尺度的試卷采取返回重評處理,從而實現(xiàn)對部分偏離規(guī)則的評分予以糾正。
(3)評分一致性檢驗
單評或多評機制均適用于評分一致性檢驗。對于分值較低的題,可將已評閱的試卷再次發(fā)還本人,通過檢查兩次評分結(jié)果的差異是否在規(guī)定范圍內(nèi),來判斷其評分質(zhì)量和穩(wěn)定性。對于分值較高的題,可隨機分發(fā)給兩位不同的評卷教師進行評閱,如果評分差距在誤差控制閾值內(nèi),則評分具有一致性,分數(shù)取兩者平均分;如果超出閾值,則發(fā)給第三位教師進行評分,直到評分具有一致性。
(4)異常得分率檢查
雖然一份試題不同題目考察的知識點和方式不盡相同,但每位考生的水平是相對穩(wěn)定的,主客觀題目得分率應(yīng)具有一致性。通過對比相關(guān)題目的得分率,可以定位得分率存在較大波動的考生并進行重點檢查,從而保證考生成績的真實性和有效性。
5.強化評分過程反饋交流
在線實時監(jiān)控模塊可以及時發(fā)現(xiàn)異常糾正偏差,但其效用應(yīng)不止于此,異常反饋的過程不僅起到糾錯糾偏的作用,更能促進工作的交流互動,幫助個體人員以更宏觀的視角來把握個人工作開展情況,突破自我局限。如果能夠按照評分階段將平均分、平均評卷速度、標準差等數(shù)據(jù)適時地反饋給評卷教師,使其能夠了解自己以及整體的評分情況,從而及時調(diào)整評分策略,就能實現(xiàn)評分細則執(zhí)行和評卷速度掌握的雙優(yōu)化、雙促進,達到減少評分誤差的最終目的。
6.完善網(wǎng)上評卷組織體系
網(wǎng)上評卷工作組織體系包含了組織結(jié)構(gòu)、工作模式、質(zhì)量管理等多環(huán)節(jié)的布局設(shè)置,是評卷自身實施和發(fā)展的訴求。在組織結(jié)構(gòu)上,可采用網(wǎng)絡(luò)型組織結(jié)構(gòu),并注重塔式角色分工。成立網(wǎng)上評卷工作領(lǐng)導(dǎo)小組作為管理機構(gòu),負責(zé)評卷工作的全面組織領(lǐng)導(dǎo);下設(shè)評卷工作辦公室和評卷專家委員會,實行集體領(lǐng)導(dǎo)與分工負責(zé)管理模式,分別負責(zé)具體事項的組織協(xié)調(diào)和試卷評閱工作。在工作模式上,根據(jù)涉及學(xué)科劃分為多個學(xué)科組。學(xué)科組實行組長負責(zé)制,任命有學(xué)術(shù)權(quán)威、有組織能力、業(yè)內(nèi)認可的老師為學(xué)科組長,具體負責(zé)本學(xué)科的試評、評卷以及與之相關(guān)的題組之間人員調(diào)配、總體進度控制、各項質(zhì)檢參數(shù)設(shè)置等工作。在質(zhì)量管理上,可單獨設(shè)置質(zhì)檢組,負責(zé)對評卷教師的工作質(zhì)量進行檢查并對異常卷進行處理。
7.嚴格網(wǎng)上評卷管理制度
合理的管理制度可以簡化管理過程,提高管理效率。在其適用范圍內(nèi)具有權(quán)威性和相對穩(wěn)定性,通過強制約束力作用的發(fā)揮可以保證工作的有序和高效運轉(zhuǎn)。
(1)日報告制度
每日定時工作例會匯報當(dāng)天閱卷情況,及時妥善的處理遇到的困難和問題,以確保后續(xù)工作不影響、不間斷、不停滯。
(2)安全保密制度
充分利用人臉識別等現(xiàn)代化技術(shù)手段,確保將無關(guān)人員隔離在專用場地之外;明確工作紀律,確保評卷信息數(shù)據(jù)安全。
(3)獎懲制度
制定明確的獎懲規(guī)則,正面激勵的同時對違反要求的行為予以約束,避免其病態(tài)膨脹和失控。
(4)評價和總結(jié)制度
評卷工作結(jié)束后,各學(xué)科組要提交專業(yè)化的評卷報告,對命題等前置性環(huán)節(jié)提出合理建議。同時,還要總結(jié)考評方向,將評卷和教學(xué)研究、教學(xué)實際相結(jié)合,真正發(fā)揮評卷工作的積極作用。
參考文獻
[1] 高曉波,姜濤.基于邊緣檢測的OMR圖像傾斜矯正[J].長春理工大學(xué)學(xué)報:自然科學(xué)版,2011,34(01).
[2] 范鵬,張景華.大規(guī)模標準化考試網(wǎng)上評卷中的誤差控制研究[J].中國輕工教育,2012(01).
[3] 高丙成,秦旭芳.成人高考網(wǎng)上評卷的評分者差異研究[J]. 烏魯木齊職業(yè)大學(xué)學(xué)報,2007(01).
[4] 王文成.“人—機對抗”視域下主觀題評分誤差控制策略探究[J].中國考試,2013(09).
[5] 趙世明.主觀題無紙化評分中的誤差控制[J].河南大學(xué)學(xué)報:社會科學(xué)版,2007(01).
【責(zé)任編輯? ?鄭雪凌】