關(guān)于公務(wù)員申論閱卷若干問題的研究與探討

2019-09-06 10:16:52李蔥蔥人力資源和社會保障部北京100011

四川行政學(xué)院學(xué)報 2019年4期

文/李蔥蔥（人力資源和社會保障部，北京 100011）

內(nèi)容提要：隨著國家公務(wù)員考試社會關(guān)注度和影響力與日俱增，公共科目筆試申論閱卷方法的科學(xué)性研究也越來越受到重視。從2004 年起，申論網(wǎng)絡(luò)閱卷技術(shù)在實踐中不斷發(fā)展、完善、廣泛使用。多年實踐證明，可以通過加強“標準卷”的檢測力度，提升閱卷員評閱的準確性；探索調(diào)整雙評誤差閾值，嚴控“保守分”；充分發(fā)揮專家組長的正確引領(lǐng)和指導(dǎo)作用等方式，進一步完善申論閱卷的質(zhì)量控制技術(shù)，控制和減少評閱過程中的誤差概率。

隨著國家公務(wù)員考試不斷發(fā)展，規(guī)模日漸擴大，社會關(guān)注度和影響力與日俱增，對考試管理的科學(xué)化與規(guī)范化越來越成為考試工作者面臨且亟待解決的一項重要任務(wù)。進入21 世紀后，隨著信息技術(shù)、網(wǎng)絡(luò)技術(shù)突飛猛進，發(fā)展迅猛，針對公共科目筆試申論閱卷方法的科學(xué)性研究也越來越受到重視。伴隨研究工作的不斷深入，網(wǎng)絡(luò)化閱卷技術(shù)方法開始引入申論閱卷。從2004 年開始，國考申論用網(wǎng)絡(luò)化閱卷代替了人工評閱，其后，網(wǎng)絡(luò)閱卷技術(shù)在實踐中不斷發(fā)展、完善，逐漸形成較為成熟的主觀題閱卷技術(shù)方法，并逐步在全國31 個省區(qū)市公務(wù)員考試申論閱卷中推廣使用。

一、主觀題網(wǎng)絡(luò)評閱的理念與方法

以申論為代表的主觀題網(wǎng)絡(luò)化閱卷的基本工作流程是：信息錄入設(shè)備（光電閱讀器、圖像掃描儀）讀取考生紙質(zhì)答題卡上的答題信息，并錄入計算機系統(tǒng)，經(jīng)技術(shù)處理后，考生答題信息由掃描系統(tǒng)轉(zhuǎn)入評分系統(tǒng)，評分系統(tǒng)隨機派發(fā)考生答卷給不同的閱卷員，閱卷員在電腦（評卷客戶端）前操作鍵盤進行評閱。

成績計算一般采取雙評出成績，即每份答卷都要被隨機分發(fā)給兩個不同的閱卷員分別評閱，即進行1 評和2 評。若1 評和2 評的分數(shù)差值在誤差允許范圍內(nèi)，則取兩者平均數(shù)作為該答卷分數(shù)；若1 評和2 評分數(shù)差值超過誤差允許值，則系統(tǒng)交由第三名閱卷員評閱，即進入3 評。若3 評與1 評或2 評的分數(shù)差值在誤差允許范圍，則取這兩個分數(shù)值的平均數(shù)作為該答卷分數(shù)；若1 評、2 評和3評兩兩之間的分數(shù)差值均超過誤差允許值，試卷進入4 評，評分系統(tǒng)交由專家組長進行終裁。需要強調(diào)的是，若1 評和2 評兩者分數(shù)差距過大，為慎重起見，有些評分系統(tǒng)設(shè)計成跳過3 評環(huán)節(jié)，直接將答卷轉(zhuǎn)入4 評，交由專家組長進行終裁。從上述工作流程和成績計算方法可以看出，網(wǎng)絡(luò)化閱卷環(huán)境下，所有考生的成績（分數(shù)）至少要經(jīng)過2 名以上閱卷員的評閱才能確定，這種雙評乃至多評的評閱理念和方法，也就是多人次評閱的誤差控制方法，構(gòu)成申論網(wǎng)絡(luò)化閱卷質(zhì)量控制的核心技術(shù)，也是迄今主觀題對評分誤差進行控制相對有效的一種重要手段。

針對某年度申論試卷的統(tǒng)計分析表明，在該年度申論試卷的各個題目上，只有1 評和2 評的試卷份數(shù)占到了試卷總數(shù)的90%以上，換句話說，雙評出成績的試卷占據(jù)了絕大多數(shù)。統(tǒng)計還表明，1 評分數(shù)和2 評分數(shù)的平均分、標準差和差異系數(shù)三項統(tǒng)計指標均高度一致，可見1 評分數(shù)和2 評分數(shù)具有相似的集中趨勢和離散程度。針對各個題目間差異系數(shù)和離散程度的統(tǒng)計比較，也都從不同的側(cè)面表明加入3 評環(huán)節(jié)降低了分數(shù)的偏差、提高了分數(shù)的可靠性。總之，統(tǒng)計結(jié)果證明，由于采用了多人次評閱以矯正誤差的方法，申論網(wǎng)絡(luò)化閱卷的整體趨勢表現(xiàn)為寬嚴適當(dāng)，評分者之間以及評分者內(nèi)部的一致性較高，只有少數(shù)試卷的評判可能存在過寬或過嚴的情況，該年度申論網(wǎng)上閱卷質(zhì)量總體上是令人滿意的。

實踐證明，通過多人次評閱以矯正誤差，是主觀題閱卷質(zhì)量控制非常有效的一種方法，特別是對于類似申論這種大規(guī)模主觀題閱卷，更是迄今解決主觀題評分誤差相對有效的一種技術(shù)手段。由于該方法只有通過網(wǎng)絡(luò)化閱卷才能做到評閱全覆蓋，從控制和減少評分誤差、提高主觀題評閱科學(xué)性這個角度，這一評閱理念及其方法無疑具有重大的現(xiàn)實意義。此外，在登分環(huán)節(jié)，評分系統(tǒng)自動登錄并合成申論各題的分數(shù)及試卷總分，由于評分系統(tǒng)自動實現(xiàn)登分與核分，徹底解決了人工操作誤差率高、工作量大等弊端，極大的提高了主觀題閱卷的工作效率。

需要指出，以申論為代表的主觀題網(wǎng)絡(luò)化閱卷是一個系統(tǒng)工程，不僅僅是雙評乃至多評的誤差控制技術(shù)，整個閱卷流程與工作環(huán)節(jié)都貫穿著控制評分誤差、確保評閱質(zhì)量的核心思想，這一核心思想在閱卷工作中的具體表現(xiàn)，就是閱卷流程實施嚴格的質(zhì)量控制以及采取一系列公平性的措施，有效確保了申論閱卷的公平和公正。

二、當(dāng)前網(wǎng)絡(luò)評閱面臨的主要問題及其原因初探

心理測量學(xué)理論認為，考試評價的基本目標是要測量考生在某一方面的知識或能力，而要做出盡可能準確的評價，必須對測量誤差進行有效的控制。一般根據(jù)誤差來源的不同，區(qū)分測量誤差為隨機誤差和系統(tǒng)誤差兩種類型。隨機誤差是與測量目的無關(guān)的偶然因素引起的變化無規(guī)律的誤差，它使得多次的測量結(jié)果不一致，測量的準確性、一致性較差；系統(tǒng)誤差則是與測量目的無關(guān)的因素引起的恒定的有規(guī)律的誤差，由于它穩(wěn)定的存在于每一次測量中，具有重復(fù)性和規(guī)律性，常常導(dǎo)致測量的準確性較差。

通常來說，客觀題考試因答案唯一且采用機器閱卷，一般誤差小，測量信度較高；主觀題考試由于答案不唯一，加之評分者根據(jù)主觀性較強的評分標準賦分，因此誤差相對較大，測量精度較低，特別是因考試測量工具本身或者測驗實施過程中某些規(guī)律性錯誤所造成的系統(tǒng)誤差，往往會對考試測量結(jié)果造成一定的影響。因此，針對形成系統(tǒng)誤差的根源或癥結(jié)，區(qū)分不同的情況，可以采取有針對性的措施，努力控制、減少甚至消除考試測量的系統(tǒng)誤差。

（一）主觀題網(wǎng)絡(luò)評閱中的評分誤差概率

針對申論評分誤差的控制，當(dāng)前的網(wǎng)絡(luò)評分系統(tǒng)已經(jīng)比較有效的控制了來自不同方面的隨機誤差和系統(tǒng)誤差，但是在閱卷質(zhì)量控制技術(shù)方面，也還存在一些需要改進和完善之處。比如作為網(wǎng)評系統(tǒng)核心技術(shù)手段之一的雙評模式，根據(jù)統(tǒng)計，通過1、2 評決定成績的試卷份數(shù)占到了試卷總量的90%以上，也就是說，絕大多數(shù)考生的成績是由雙評所決定的。然而雙評的具體給分情況如何？雙評所給出的分數(shù)是否都是準確無誤？

一項針對申論評分誤差概率的研究顯示，申論閱卷的雙評模式也存在少量的誤差概率。所謂誤差概率，該項研究給出如下解釋：“假定某考生的真實能力以分數(shù)表示為X，兩名評分員給該考生的分數(shù)分別是X1和X2?！绻鸛1和X2差值的絕對值在規(guī)定的范圍之內(nèi)，那么計算機閱卷系統(tǒng)認為該分數(shù)是可以接受的。但是實際上，兩名評分員給考生的分數(shù)有可能同時偏高或偏低。此時，雖然考生是以兩名評分員給出分數(shù)的平均數(shù)作為最終得分，但是這個最終得分卻距離其真實能力X 比較遠，這樣就可能造成評分的誤差。我們將這種誤差的可能性定義為誤差概率?！备鶕?jù)上述解釋，筆者認為誤差概率的基本含義，就是指評分員兩兩給分同時偏高或偏低的試卷占試卷總量的比例，也就是試卷總量中雙評誤差（以下簡稱“雙誤”）試卷所占的比例。

該項研究的基本思路是從模擬真分數(shù)推導(dǎo)主觀題網(wǎng)絡(luò)評分的誤差概率。其主要方法是隨機抽取90 名閱卷員，對50 名考生答卷給出分數(shù)。首先，把90 名評分員對某位考生某題的90 個分數(shù)的平均值作為該考生在該題目上的真實能力（即真分數(shù)X）。其次，將該考生該題得到的90 個分數(shù)兩兩組合，90 個分數(shù)任意兩兩組合的對數(shù)為4005 對，計算多少對分數(shù)組合超出了規(guī)定的分數(shù)閾值，對剩下的在規(guī)定的分數(shù)閾值范圍內(nèi)的分數(shù)組合，計算其分數(shù)均值并與前述考生的真分數(shù)X進行對比。將平均值上下一個標準差之內(nèi)的分數(shù)作為可以接受的、在誤差范圍之內(nèi)的分數(shù)，將平均值上下一個標準差之外的分數(shù)作為不可接受的、有評分誤差的分數(shù)，將落在真分數(shù)前后一個標準差之外的分數(shù)占全部分數(shù)的比例作為不可接受的誤差概率，從而得到某位考生在某題上的誤差概率。將該題多名考生誤差概率進行匯總并計算平均值，就得到了某個題目評分的平均誤差概率。

通過對申論各題評分誤差概率的計算，該項研究得出以下結(jié)論：在目前申論的閱卷人數(shù)、時間和質(zhì)量監(jiān)控條件下，絕大多數(shù)考生的得分在考試設(shè)計的可接受的誤差范圍內(nèi)，只有少數(shù)考生的最終得分在自己的真實能力一個標準差的范圍之外，這個標準差是3.6～5.9 分之間。

從理論和實踐兩方面來看，各類考試主觀題的評分誤差都很難完全避免。題目過難或過易、評分標準的培訓(xùn)不到位、評分流程和評分監(jiān)控的管理過程存在疏漏等都有可能產(chǎn)生評分誤差。因此，梳理其中可能存在的某些因素或現(xiàn)象，有助于我們采取有針對性的解決辦法和措施。

表1 實驗中使用的申論評分數(shù)據(jù)

（二）對評分誤差概率產(chǎn)生原因的簡要分析

以筆者的研究與觀察，除了個別閱卷員對標答的理解與執(zhí)行出現(xiàn)偏差外，評分過程中部分閱卷員打“保守分”是形成并加劇“雙誤”的一個重要原因。所謂打“保守分”，主要是指一些閱卷員打分集中在某一固定的分數(shù)區(qū)間。比如某題滿分10 分，誤差閾值2 分，平均分為3 分，如果較多的1 評、2 評給分都集中在3-4 分，由于不超過誤差閾值，雙評成績有效，取1 評、2 評兩者平均數(shù)作為考生成績，分數(shù)分布就會在3 分或4 分附近集中，形成分數(shù)在較低分數(shù)區(qū)間的聚集（統(tǒng)計學(xué)意義上分數(shù)分布的正偏態(tài)）。對于這部分閱卷員的打分行為，我們通常稱之為打“保守分”，因為其中顯然有一些給分并沒有反映出考生在該題上的真實水平，兩名評分員給出的分數(shù)很可能同時偏低，造成“雙誤”，類似情況在中考、高考等知識型考試主觀題評閱（如作文）中也有不同程度的體現(xiàn)。

從測驗分數(shù)的解釋和應(yīng)用角度來看，與人的多數(shù)心理特性呈正態(tài)分布相一致，考試分數(shù)的正態(tài)分布即兩頭小、中間大，高分與低分段較少、中等分數(shù)段居多，原本是一種正常的、合理的分數(shù)分布的規(guī)律和特點。但是，閱卷過程中由于一些閱卷員打“保守分”，分數(shù)在某一特定的區(qū)間不斷聚集，致使整體的分數(shù)分布由原本較為平緩的正態(tài)分布發(fā)生偏移，逐漸形成在某一特定分數(shù)上的集中趨勢，而且隨著閱卷過程的持續(xù)，打“保守分”的現(xiàn)象逐漸增加，在某一特定分數(shù)上的分數(shù)聚集越來越多，分數(shù)分布的集中度不斷增加，進而造成較為嚴重的分數(shù)分布的趨中化。

申論分數(shù)分布的趨中特點可以從試題試卷統(tǒng)計分析中得到驗證。針對閱卷員的打分傾向，某年申論閱卷統(tǒng)計分析報告給出了粗略的估計：每個人獨立打高分的比例很低，約在0.5%左右，依此粗略估計，如果認為兩個人打分是完全獨立的，則被兩個人同時打高分的比例僅為0.03%左右。雖然雙評同時給高分的比例極低，但是一評給高分、另一評給低分的比例還是會比0.03%這個比例要高一些，這樣，試卷便進入到3 評乃至4 評。對于進入到3 評、4 評的試卷的給分總體趨勢和傾向，該報告通過進一步分析發(fā)現(xiàn)：除在第1題上“寬寬試卷”（3 評和4 評評分者給分比前兩評中的高分還高，即采取相對寬容的評分策略）和“嚴嚴試卷”（3 評和4 評評分者給分比前兩評中的低分還低，即采取相對嚴格的評分策略）基本持平外，在其他6 個題目上，“嚴嚴試卷”在3 評4 評試卷中所占的比例都明顯高于“寬寬試卷”。這說明第三個人或者組長在大多數(shù)情況下傾向于采用比較嚴格的評分策略（詳見表2 和表3）。

表2 搖寬嚴試卷匯總表（一）

統(tǒng)計結(jié)果顯示，3 評和4 評給分一般會受到較低分數(shù)的影響，因此考生成績最終還是會落在較低的分數(shù)上，整體的分數(shù)最終還是會被拉低、并集中在某一分值較低的狹窄區(qū)間（如平均分附近），也就是說，申論各題均不同程度的呈現(xiàn)出分數(shù)分布的集中趨勢和低分特征。從實際評閱過程來看，一些閱卷員打“保守分”無疑在很大程度上形成并加劇了分數(shù)分布的集中趨勢，它最直接的后果表現(xiàn)為降低了申論考試的區(qū)分度，影響了申論對考生基本能力的區(qū)分程度和鑒別效果。

從技術(shù)角度分析，雙評誤差閾值的設(shè)定以及閱卷質(zhì)量監(jiān)控強調(diào)閱卷員間評分的一致性，某種程度上也加劇了閱卷員為規(guī)避雙評誤差而選擇打“保守分”的傾向。由于閱卷員把通過系統(tǒng)的一致性檢驗作為首選，為達此目的，某些閱卷員選擇打“保守分”，趨向同寬同嚴，目的都是規(guī)避雙評誤差風(fēng)險以通過一致性檢驗，而且這種非正常的評分現(xiàn)象，有時會掩蓋在評分一致性的表象之下。

比如某些閱卷員的評分被采用數(shù)多，采用率高，這種情況一方面有可能反映其評分的可信度較高，但另一方面，如果該閱卷員在打“保守分”，并與別的也打“保守分”的閱卷員給分形成匹配，假設(shè)分數(shù)匹配多集中在誤差閾值內(nèi)，評分系統(tǒng)就會顯示出該閱卷員的高采用率。換句話說，系統(tǒng)顯示某些閱卷員有效試卷的高采用率，其背后很可能隱含著某種危險，實際存在的評分誤差有可能獲得一種“合法性”的掩蓋，一旦出現(xiàn)這種情況，對主觀題評分誤差的監(jiān)控就會出現(xiàn)盲區(qū)和死角。

再比如三評率作為衡量評分者一致性的重要指標，也需要一分為二，客觀看待。所謂三評率，通常指超出誤差閾值進入三評的試卷占全部在閱試卷的比率。從一般的意義上說，三評率較低，說明超出誤差閾值進入三評的試卷量較少，閱卷員整體標準把握的一致性較好，分數(shù)的可信度較高，但這只是問題的一個方面；另一方面，較低的三評率很有可能掩蓋了分數(shù)分布的趨中化，即分數(shù)的分布在某一區(qū)間高度集中，呈嚴重的正偏態(tài)或負偏態(tài)，這種情況提示很可能存在打“保守分”的現(xiàn)象。

具體來說，如果評分數(shù)都集中在某一區(qū)間（如平均分附近），且都在誤差閾值范圍內(nèi)，試卷不可能進入三評，此時表面上看誤差卷很少，三評率很低，但在全距嚴重縮小、分數(shù)分布高度集中的情況下，實際上存在著閱卷員打“保守分”的現(xiàn)象，由于這種現(xiàn)象通過三評率指標較難發(fā)現(xiàn)，從三評率角度監(jiān)控評閱質(zhì)量出現(xiàn)盲區(qū)，因此，切不可僅以三評率指標的高低來輕易判斷、評估閱卷員的閱卷質(zhì)量狀況。

表3 搖寬嚴試卷匯總表（二）

三、完善申論閱卷質(zhì)量控制技術(shù)的可行性分析

針對申論閱卷雙評模式存在的誤差概率，可以嘗試從技術(shù)和管理等不同角度探討改進和完善的策略方法。筆者多年參與申論閱卷的管理工作，認為主要應(yīng)從以下三個方面采取有針對性的解決辦法，進一步完善申論閱卷的質(zhì)量控制技術(shù)，力爭控制和減少評閱過程中的雙評誤差概率。

（一）加強“標準卷”的檢測力度，提升閱卷員評閱的準確性

如何更加精準地評估、檢驗閱卷員標答執(zhí)行的準確性，有效糾正和控制閱卷員打“保守分”，這是解決雙評誤差概率的癥結(jié)所在。筆者認為，根據(jù)網(wǎng)絡(luò)閱卷的工作流程，對準確性的檢驗比較可行且有效的監(jiān)控手段，就是加大“標準卷”的檢測力度。

所謂“標準卷”（又叫“標桿卷”），通常指專家組長（核心專家）在標答制訂和正評階段從考生答卷中抽取的、具有一致的評價并共同確認分數(shù)的試卷?？紤]到檢測的目的和效果，“標準卷”一般要求盡可能覆蓋到好中差各個不同的分數(shù)段，并且要包含一些具有代表性的、可能引發(fā)爭議的答卷，這些“標準卷”直接導(dǎo)入評分系統(tǒng)，在評閱過程中按一定比例隨機發(fā)放給閱卷員進行評閱。

評閱過程中發(fā)放“標準卷”的主要目的，是在設(shè)定“標準卷”分數(shù)為整體參照標準、即設(shè)定其分數(shù)正確可信的前提下，檢驗閱卷員給分與“標準卷”分數(shù)的差異情況，通過觀察其分數(shù)差異，了解、評價閱卷員個體評分的準確性，這一方法構(gòu)成申論閱卷一項重要的質(zhì)量控制技術(shù)手段。

表4 搖第1－4題各個類型標準卷上的均值情況一覽表

標準卷檢測在閱卷質(zhì)量管理中的重要作用，可以從試卷統(tǒng)計分析中得到確認。表4 為某年申論試卷各題各個類型標準卷上的均值情況一覽表。根據(jù)統(tǒng)計結(jié)果，第1、2、3 題評分者打分與標準卷分數(shù)的分差并不大，兩者差值的平均值基本在誤差允許范圍內(nèi)。第4 題考慮到是寫作題，滿分為40 分，1 評2 評之間的誤差閾值設(shè)定為7 分或8 分，評分者與標準卷兩者分數(shù)差值的均值最大為7.71（不到8 分），基本等同于雙評誤差閾值，說明評分者打分與標準卷的分差仍在可控范圍之內(nèi)，這就從標準卷檢測角度證明，正評階段閱卷員整體對標準的把握還是相對比較準確和穩(wěn)定。

由此可見，“標準卷”作為一個標桿，一個參照物，可以很好地檢驗閱卷員個體評分的準確性。針對評分系統(tǒng)發(fā)現(xiàn)的打分與標準卷分差較大的閱卷員，專家組長會重點予以關(guān)注，采取相應(yīng)方法和措施進行指導(dǎo)，及時糾正其可能存在的評分偏差。從這個角度來看，增加“標準卷”的發(fā)放數(shù)量、發(fā)放頻率、發(fā)放時間等，及時加強對相關(guān)數(shù)據(jù)的研究分析，可以非常直觀、準確地了解閱卷員標準把握的準確性程度。更為重要的是，通過“標準卷”檢測，可以非常及時地發(fā)現(xiàn)閱卷員評閱過程中一些帶有系統(tǒng)性、傾向性的問題，諸如對答題要點的錯誤理解、對評分標準和賦分細則的不當(dāng)把握等，發(fā)現(xiàn)這些帶有規(guī)律性的問題，采取各種技術(shù)手段（重評、限速等）和管理方法（復(fù)核試卷、單獨指導(dǎo)等），及時進行干預(yù)，可以有效控制閱卷員打“保守分”，減少評閱過程中的雙評誤差比例?？傊?，樹立問題導(dǎo)向，加強“標準卷”的檢測，發(fā)揮其重要的監(jiān)控指導(dǎo)作用，在現(xiàn)有的網(wǎng)絡(luò)技術(shù)條件下，不失為控制和減少雙評誤差概率的一種有效的質(zhì)量控制技術(shù)手段。

（二）探索調(diào)整雙評誤差閾值，控制閱卷員打“保守分”，減輕申論分數(shù)分布的趨中特點

依筆者多年實際評閱工作的經(jīng)驗和體會，嘗試從技術(shù)角度采取措施，控制和減少閱卷員打“保守分，減輕申論分數(shù)分布的趨中特點，這是減少雙評誤差概率的另一項重要的質(zhì)量控制技術(shù)手段。

當(dāng)分數(shù)全距縮小后，是否仍采用現(xiàn)行的雙評誤差閾值，有必要進行深入的量化分析與研究?，F(xiàn)行的主觀題雙評誤差閾值設(shè)定一般掌握在題目分值的五分之一（寫作題略寬），這一標準設(shè)定源自于高考主觀題評分，其理論依據(jù)建立在對主觀題評分誤差的統(tǒng)計測算結(jié)果，即主觀題評分誤差的均值大約是題目分數(shù)的五分之一，這一均值大體上構(gòu)成主觀題評分誤差的臨界點，超出這個臨界點，主觀題的評分誤差變得不可控，分數(shù)的可靠性會受到影響。根據(jù)上述測算結(jié)果，各類考試（教育考試、人事考試等）主觀題評分的誤差閾值一般設(shè)定在題目分數(shù)的五分之一，比如20 分的題目，五分之一的雙評誤差閾值就是4 分，雙評誤差超過4 分，試卷需要進入三評或交由專家組長復(fù)核。

筆者認為，通過計算題目全距縮小的程度以及具體的分數(shù)分布狀況（方差、標準差、峰度等），可以適當(dāng)調(diào)整雙評誤差閾值大小。假設(shè)20 分的試題，雙評誤差閾值由目前的五分之一擴大為四分之一，也就是由4 分擴大到5 分，理論上存在這樣一種可能性：由于誤差控制標準相對寬松，兩兩分數(shù)的匹配空間會適當(dāng)增加，當(dāng)分數(shù)全距拉開后，標準差也會相應(yīng)增加，分數(shù)分布將趨向平緩，各個分數(shù)段的得分有可能變得均衡（當(dāng)然這與題目的分值大小會有一定關(guān)系）。更重要的是，誤差閾值相對寬松后，閱卷員為規(guī)避雙評誤差而采取打“保守分”策略，以增加評分匹配性或采用率的欲望有可能降低或減弱，評分趨中現(xiàn)象有望得到緩解、改善，分數(shù)的分布將會趨向合理，題目對考生的區(qū)分鑒別能力將會得到加強，從這個意義上說，限制閱卷員打“保守分”，減輕評分趨中現(xiàn)象，有助于控制和減少評閱過程中的雙評誤差概率。

需要指出的是，雙評誤差閾值擴大，分數(shù)分布的具體結(jié)果究竟如何，尚需接受一定范圍的實踐檢驗，并根據(jù)考生樣本容量和題目評閱的相關(guān)數(shù)據(jù)進行測算，絕不是一個簡單拍腦袋就可以回答的問題。但是，探討從技術(shù)角度改進評閱方法，控制閱卷員打“保守分”，從根本上解決評閱過程中的雙評誤差現(xiàn)象，這是申論閱卷乃至所有主觀題評閱都需要關(guān)注的重點和難點，這方面尚需考試工作者深入進行理論研究與實踐探索，以期進一步提高主觀題評閱的科學(xué)性。

（三）充分發(fā)揮閱卷專家組長的正確引領(lǐng)和指導(dǎo)作用

實際評閱過程中除了少數(shù)閱卷員打“保守分”外，個別閱卷員對標答的理解與執(zhí)行出現(xiàn)偏差，也是形成并加劇評分誤差的一個重要原因。以筆者的觀察和判斷，出現(xiàn)上述偏差主要在于某些外源性因素的影響。從整體工作流程來看，由于申論標答制訂階段嚴格的質(zhì)量控制程序和質(zhì)量控制標準，基于標答自身因素所引起的誤差并不顯著，某些外源性因素的影響可能更加重要。

引起誤差的外源性因素，主要是指閱卷員培訓(xùn)、試評以及正評階段造成誤差的各種疏漏和失誤。比如培訓(xùn)過程中，針對少數(shù)閱卷員提出的不同意見，專家組長（核心專家）未能進行有說服力的回應(yīng)、說明和解釋，致使其針對標答內(nèi)容的錯誤理解或不同觀點不但未能化解，反而進一步得到默認和強化；培訓(xùn)、試評和正評過程中，由于不同專家組長之間意見觀點不統(tǒng)一、同一專家組長對標答的解釋前后不一致、專家組長對標答的解釋說明含混不清等多方面因素，造成閱卷員對標答的理解不一致，從而產(chǎn)生執(zhí)行上的偏差；此外，面對人數(shù)眾多的閱卷員群體，專家組長的質(zhì)量管理很難做到全覆蓋無死角，這就造成少數(shù)閱卷員評分過程中的失誤有可能被忽略或遺漏，當(dāng)上述個別的、偶發(fā)的誤差因素經(jīng)疊加、累積，形成擴散，就有可能在閱卷員間形成對標答一定范圍的誤解和誤用。鑒于此，加強對專家組長的遴選和使用，強化專家組長對閱卷員的正確引領(lǐng)和指導(dǎo)顯得至關(guān)重要。

申論閱卷過程中一個非常重要的質(zhì)量控制手段，就是專家組長借助網(wǎng)絡(luò)評分系統(tǒng)適時、動態(tài)地進行評閱質(zhì)量監(jiān)控，以確保閱卷員整體的評閱工作質(zhì)量和效率。需要指出的是，評分系統(tǒng)的使用在質(zhì)量控制方面呈現(xiàn)更加及時性、動態(tài)性和多樣性，然而該系統(tǒng)只是一個平臺，它只是提示了閱卷員存在評閱誤差的各種可能性，具體到對監(jiān)控指標的分析理解以及對監(jiān)控結(jié)果的實際運用，還是需要結(jié)合人工進行判斷取舍。因此專家組長及時跟蹤、分析評分系統(tǒng)的監(jiān)控數(shù)據(jù)，對閱卷員個體進行有針對性地指導(dǎo)與幫助，成為申論閱卷正評階段質(zhì)量控制的一項重要內(nèi)容。

在這個過程中，專家組長既要樹立全面、審慎的觀點。注意綜合多個指標，從多個角度，全面、客觀評估閱卷員的工作質(zhì)量，切忌以偏概全，僅憑系統(tǒng)中某一項統(tǒng)計指標或某一個統(tǒng)計數(shù)據(jù)輕易做出判斷和結(jié)論。同時還必須重視進行試卷復(fù)核。通過及時跟蹤分析系統(tǒng)監(jiān)控指標和統(tǒng)計數(shù)據(jù)，發(fā)現(xiàn)、鎖定問題閱卷員，運用試卷復(fù)核方法，對異常情況進行確認，找出具體原因，進行有針對性的指導(dǎo)和幫助。試卷復(fù)核可以抽查閱卷員某一分數(shù)段、某一時間段直至全部所閱試卷，它是專家組長發(fā)現(xiàn)問題的最有效手段，也是閱卷質(zhì)量管理最重要、最常用的一種方法。需要強調(diào)的是，針對某一批次的異常分數(shù)試卷，或評分存在問題的某一批次試卷，評分系統(tǒng)一般都設(shè)有試卷回收功能，可以做到必要時回收并取消該批次直至全部所閱試卷的分數(shù)，試卷重新進入評分系統(tǒng)進行重評。評分系統(tǒng)這一糾錯功能的設(shè)計，為確保申論閱卷質(zhì)量提供了有力的技術(shù)保障。

針對進一步強化專家組長在閱卷質(zhì)量管理中的引領(lǐng)指導(dǎo)作用，需要重點關(guān)注并解決以下問題：首先，要重視專家組長的遴選。務(wù)必確保承擔(dān)閱卷質(zhì)量管理重任的專家組長具有較高的業(yè)務(wù)能力和勇于擔(dān)當(dāng)?shù)呢?zé)任意識，對于某些能力欠缺、責(zé)任心不強的專家組長要堅決淘汰。管理部門要通過建立必要的專家競爭機制，形成良性循環(huán)，努力打造一支高水平的閱卷核心專家隊伍；其次，要根據(jù)專家組長各自不同的特點和能力，優(yōu)化各題組人員搭配組合。配置各題組人選要統(tǒng)籌兼顧，充分考慮不同專家在年齡、性格、能力、經(jīng)驗等方面的相互匹配與互補，使之盡可能團結(jié)協(xié)作，互相補臺，形成合力；第三，要充分重視專家組長與閱卷員間必要的溝通與交流。針對閱卷員提出的有關(guān)標答內(nèi)容和評分標準的質(zhì)疑，專家組長必須及時回應(yīng)解釋，通過充分的、有理有據(jù)的分析說明（必要時可結(jié)合具體試卷的點評），務(wù)必說服閱卷員改變錯誤認識或不當(dāng)觀點，盡可能統(tǒng)一評分標準尺度。專家組長切忌對閱卷員的質(zhì)疑或不同意見視若無睹，不予回應(yīng)，從而加劇其對抗情緒和逆反心理，影響評分執(zhí)行的準確性和穩(wěn)定性。

總之，充分發(fā)揮核心專家的正確指導(dǎo)和引領(lǐng)作用，主要目的是力求糾正閱卷員對標答的錯誤認識和理解，盡可能減少和控制主觀題評閱過程中的雙評誤差試卷。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

關(guān)于公務(wù)員申論閱卷若干問題的研究與探討

一、主觀題網(wǎng)絡(luò)評閱的理念與方法

二、當(dāng)前網(wǎng)絡(luò)評閱面臨的主要問題及其原因初探