亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)于公務(wù)員申論閱卷若干問題的研究與探討

        2019-09-06 10:16:52李蔥蔥人力資源和社會保障部北京100011
        四川行政學(xué)院學(xué)報 2019年4期
        關(guān)鍵詞:主觀題試卷閾值

        文/李蔥蔥(人力資源和社會保障部,北京 100011)

        內(nèi)容提要:隨著國家公務(wù)員考試社會關(guān)注度和影響力與日俱增,公共科目筆試申論閱卷方法的科學(xué)性研究也越來越受到重視。從2004 年起,申論網(wǎng)絡(luò)閱卷技術(shù)在實踐中不斷發(fā)展、完善、廣泛使用。多年實踐證明,可以通過加強“標準卷”的檢測力度,提升閱卷員評閱的準確性;探索調(diào)整雙評誤差閾值,嚴控“保守分”;充分發(fā)揮專家組長的正確引領(lǐng)和指導(dǎo)作用等方式,進一步完善申論閱卷的質(zhì)量控制技術(shù),控制和減少評閱過程中的誤差概率。

        隨著國家公務(wù)員考試不斷發(fā)展,規(guī)模日漸擴大,社會關(guān)注度和影響力與日俱增,對考試管理的科學(xué)化與規(guī)范化越來越成為考試工作者面臨且亟待解決的一項重要任務(wù)。進入21 世紀后,隨著信息技術(shù)、網(wǎng)絡(luò)技術(shù)突飛猛進,發(fā)展迅猛,針對公共科目筆試申論閱卷方法的科學(xué)性研究也越來越受到重視。伴隨研究工作的不斷深入,網(wǎng)絡(luò)化閱卷技術(shù)方法開始引入申論閱卷。從2004 年開始,國考申論用網(wǎng)絡(luò)化閱卷代替了人工評閱,其后,網(wǎng)絡(luò)閱卷技術(shù)在實踐中不斷發(fā)展、完善,逐漸形成較為成熟的主觀題閱卷技術(shù)方法,并逐步在全國31 個省區(qū)市公務(wù)員考試申論閱卷中推廣使用。

        一、主觀題網(wǎng)絡(luò)評閱的理念與方法

        以申論為代表的主觀題網(wǎng)絡(luò)化閱卷的基本工作流程是:信息錄入設(shè)備(光電閱讀器、圖像掃描儀)讀取考生紙質(zhì)答題卡上的答題信息,并錄入計算機系統(tǒng),經(jīng)技術(shù)處理后,考生答題信息由掃描系統(tǒng)轉(zhuǎn)入評分系統(tǒng),評分系統(tǒng)隨機派發(fā)考生答卷給不同的閱卷員,閱卷員在電腦(評卷客戶端)前操作鍵盤進行評閱。

        成績計算一般采取雙評出成績,即每份答卷都要被隨機分發(fā)給兩個不同的閱卷員分別評閱,即進行1 評和2 評。若1 評和2 評的分數(shù)差值在誤差允許范圍內(nèi),則取兩者平均數(shù)作為該答卷分數(shù);若1 評和2 評分數(shù)差值超過誤差允許值,則系統(tǒng)交由第三名閱卷員評閱,即進入3 評。若3 評與1 評或2 評的分數(shù)差值在誤差允許范圍,則取這兩個分數(shù)值的平均數(shù)作為該答卷分數(shù);若1 評、2 評和3評兩兩之間的分數(shù)差值均超過誤差允許值,試卷進入4 評,評分系統(tǒng)交由專家組長進行終裁。需要強調(diào)的是,若1 評和2 評兩者分數(shù)差距過大,為慎重起見,有些評分系統(tǒng)設(shè)計成跳過3 評環(huán)節(jié),直接將答卷轉(zhuǎn)入4 評,交由專家組長進行終裁。從上述工作流程和成績計算方法可以看出,網(wǎng)絡(luò)化閱卷環(huán)境下,所有考生的成績(分數(shù))至少要經(jīng)過2 名以上閱卷員的評閱才能確定,這種雙評乃至多評的評閱理念和方法,也就是多人次評閱的誤差控制方法,構(gòu)成申論網(wǎng)絡(luò)化閱卷質(zhì)量控制的核心技術(shù),也是迄今主觀題對評分誤差進行控制相對有效的一種重要手段。

        針對某年度申論試卷的統(tǒng)計分析表明,在該年度申論試卷的各個題目上,只有1 評和2 評的試卷份數(shù)占到了試卷總數(shù)的90%以上,換句話說,雙評出成績的試卷占據(jù)了絕大多數(shù)。統(tǒng)計還表明,1 評分數(shù)和2 評分數(shù)的平均分、標準差和差異系數(shù)三項統(tǒng)計指標均高度一致,可見1 評分數(shù)和2 評分數(shù)具有相似的集中趨勢和離散程度。針對各個題目間差異系數(shù)和離散程度的統(tǒng)計比較,也都從不同的側(cè)面表明加入3 評環(huán)節(jié)降低了分數(shù)的偏差、提高了分數(shù)的可靠性。總之,統(tǒng)計結(jié)果證明,由于采用了多人次評閱以矯正誤差的方法,申論網(wǎng)絡(luò)化閱卷的整體趨勢表現(xiàn)為寬嚴適當(dāng),評分者之間以及評分者內(nèi)部的一致性較高,只有少數(shù)試卷的評判可能存在過寬或過嚴的情況,該年度申論網(wǎng)上閱卷質(zhì)量總體上是令人滿意的。

        實踐證明,通過多人次評閱以矯正誤差,是主觀題閱卷質(zhì)量控制非常有效的一種方法,特別是對于類似申論這種大規(guī)模主觀題閱卷,更是迄今解決主觀題評分誤差相對有效的一種技術(shù)手段。由于該方法只有通過網(wǎng)絡(luò)化閱卷才能做到評閱全覆蓋,從控制和減少評分誤差、提高主觀題評閱科學(xué)性這個角度,這一評閱理念及其方法無疑具有重大的現(xiàn)實意義。此外,在登分環(huán)節(jié),評分系統(tǒng)自動登錄并合成申論各題的分數(shù)及試卷總分,由于評分系統(tǒng)自動實現(xiàn)登分與核分,徹底解決了人工操作誤差率高、工作量大等弊端,極大的提高了主觀題閱卷的工作效率。

        需要指出,以申論為代表的主觀題網(wǎng)絡(luò)化閱卷是一個系統(tǒng)工程,不僅僅是雙評乃至多評的誤差控制技術(shù),整個閱卷流程與工作環(huán)節(jié)都貫穿著控制評分誤差、確保評閱質(zhì)量的核心思想,這一核心思想在閱卷工作中的具體表現(xiàn),就是閱卷流程實施嚴格的質(zhì)量控制以及采取一系列公平性的措施,有效確保了申論閱卷的公平和公正。

        二、當(dāng)前網(wǎng)絡(luò)評閱面臨的主要問題及其原因初探

        心理測量學(xué)理論認為,考試評價的基本目標是要測量考生在某一方面的知識或能力,而要做出盡可能準確的評價,必須對測量誤差進行有效的控制。一般根據(jù)誤差來源的不同,區(qū)分測量誤差為隨機誤差和系統(tǒng)誤差兩種類型。隨機誤差是與測量目的無關(guān)的偶然因素引起的變化無規(guī)律的誤差,它使得多次的測量結(jié)果不一致,測量的準確性、一致性較差;系統(tǒng)誤差則是與測量目的無關(guān)的因素引起的恒定的有規(guī)律的誤差,由于它穩(wěn)定的存在于每一次測量中,具有重復(fù)性和規(guī)律性,常常導(dǎo)致測量的準確性較差。

        通常來說,客觀題考試因答案唯一且采用機器閱卷,一般誤差小,測量信度較高;主觀題考試由于答案不唯一,加之評分者根據(jù)主觀性較強的評分標準賦分,因此誤差相對較大,測量精度較低,特別是因考試測量工具本身或者測驗實施過程中某些規(guī)律性錯誤所造成的系統(tǒng)誤差,往往會對考試測量結(jié)果造成一定的影響。因此,針對形成系統(tǒng)誤差的根源或癥結(jié),區(qū)分不同的情況,可以采取有針對性的措施,努力控制、減少甚至消除考試測量的系統(tǒng)誤差。

        (一)主觀題網(wǎng)絡(luò)評閱中的評分誤差概率

        針對申論評分誤差的控制,當(dāng)前的網(wǎng)絡(luò)評分系統(tǒng)已經(jīng)比較有效的控制了來自不同方面的隨機誤差和系統(tǒng)誤差,但是在閱卷質(zhì)量控制技術(shù)方面,也還存在一些需要改進和完善之處。比如作為網(wǎng)評系統(tǒng)核心技術(shù)手段之一的雙評模式,根據(jù)統(tǒng)計,通過1、2 評決定成績的試卷份數(shù)占到了試卷總量的90%以上,也就是說,絕大多數(shù)考生的成績是由雙評所決定的。然而雙評的具體給分情況如何?雙評所給出的分數(shù)是否都是準確無誤?

        一項針對申論評分誤差概率的研究顯示,申論閱卷的雙評模式也存在少量的誤差概率。所謂誤差概率,該項研究給出如下解釋:“假定某考生的真實能力以分數(shù)表示為X,兩名評分員給該考生的分數(shù)分別是X1和X2?!绻鸛1和X2差值的絕對值在規(guī)定的范圍之內(nèi),那么計算機閱卷系統(tǒng)認為該分數(shù)是可以接受的。但是實際上,兩名評分員給考生的分數(shù)有可能同時偏高或偏低。此時,雖然考生是以兩名評分員給出分數(shù)的平均數(shù)作為最終得分,但是這個最終得分卻距離其真實能力X 比較遠,這樣就可能造成評分的誤差。我們將這種誤差的可能性定義為誤差概率?!备鶕?jù)上述解釋,筆者認為誤差概率的基本含義,就是指評分員兩兩給分同時偏高或偏低的試卷占試卷總量的比例,也就是試卷總量中雙評誤差(以下簡稱“雙誤”)試卷所占的比例。

        該項研究的基本思路是從模擬真分數(shù)推導(dǎo)主觀題網(wǎng)絡(luò)評分的誤差概率。其主要方法是隨機抽取90 名閱卷員,對50 名考生答卷給出分數(shù)。首先,把90 名評分員對某位考生某題的90 個分數(shù)的平均值作為該考生在該題目上的真實能力(即真分數(shù)X)。其次,將該考生該題得到的90 個分數(shù)兩兩組合,90 個分數(shù)任意兩兩組合的對數(shù)為4005 對,計算多少對分數(shù)組合超出了規(guī)定的分數(shù)閾值,對剩下的在規(guī)定的分數(shù)閾值范圍內(nèi)的分數(shù)組合,計算其分數(shù)均值并與前述考生的真分數(shù)X進行對比。將平均值上下一個標準差之內(nèi)的分數(shù)作為可以接受的、在誤差范圍之內(nèi)的分數(shù),將平均值上下一個標準差之外的分數(shù)作為不可接受的、有評分誤差的分數(shù),將落在真分數(shù)前后一個標準差之外的分數(shù)占全部分數(shù)的比例作為不可接受的誤差概率,從而得到某位考生在某題上的誤差概率。將該題多名考生誤差概率進行匯總并計算平均值,就得到了某個題目評分的平均誤差概率。

        通過對申論各題評分誤差概率的計算,該項研究得出以下結(jié)論:在目前申論的閱卷人數(shù)、時間和質(zhì)量監(jiān)控條件下,絕大多數(shù)考生的得分在考試設(shè)計的可接受的誤差范圍內(nèi),只有少數(shù)考生的最終得分在自己的真實能力一個標準差的范圍之外,這個標準差是3.6~5.9 分之間。

        從理論和實踐兩方面來看,各類考試主觀題的評分誤差都很難完全避免。題目過難或過易、評分標準的培訓(xùn)不到位、評分流程和評分監(jiān)控的管理過程存在疏漏等都有可能產(chǎn)生評分誤差。因此,梳理其中可能存在的某些因素或現(xiàn)象,有助于我們采取有針對性的解決辦法和措施。

        表1 實驗中使用的申論評分數(shù)據(jù)

        (二)對評分誤差概率產(chǎn)生原因的簡要分析

        以筆者的研究與觀察,除了個別閱卷員對標答的理解與執(zhí)行出現(xiàn)偏差外,評分過程中部分閱卷員打“保守分”是形成并加劇“雙誤”的一個重要原因。所謂打“保守分”,主要是指一些閱卷員打分集中在某一固定的分數(shù)區(qū)間。比如某題滿分10 分,誤差閾值2 分,平均分為3 分,如果較多的1 評、2 評給分都集中在3-4 分,由于不超過誤差閾值,雙評成績有效,取1 評、2 評兩者平均數(shù)作為考生成績,分數(shù)分布就會在3 分或4 分附近集中,形成分數(shù)在較低分數(shù)區(qū)間的聚集(統(tǒng)計學(xué)意義上分數(shù)分布的正偏態(tài))。對于這部分閱卷員的打分行為,我們通常稱之為打“保守分”,因為其中顯然有一些給分并沒有反映出考生在該題上的真實水平,兩名評分員給出的分數(shù)很可能同時偏低,造成“雙誤”,類似情況在中考、高考等知識型考試主觀題評閱(如作文)中也有不同程度的體現(xiàn)。

        從測驗分數(shù)的解釋和應(yīng)用角度來看,與人的多數(shù)心理特性呈正態(tài)分布相一致,考試分數(shù)的正態(tài)分布即兩頭小、中間大,高分與低分段較少、中等分數(shù)段居多,原本是一種正常的、合理的分數(shù)分布的規(guī)律和特點。但是,閱卷過程中由于一些閱卷員打“保守分”,分數(shù)在某一特定的區(qū)間不斷聚集,致使整體的分數(shù)分布由原本較為平緩的正態(tài)分布發(fā)生偏移,逐漸形成在某一特定分數(shù)上的集中趨勢,而且隨著閱卷過程的持續(xù),打“保守分”的現(xiàn)象逐漸增加,在某一特定分數(shù)上的分數(shù)聚集越來越多,分數(shù)分布的集中度不斷增加,進而造成較為嚴重的分數(shù)分布的趨中化。

        申論分數(shù)分布的趨中特點可以從試題試卷統(tǒng)計分析中得到驗證。針對閱卷員的打分傾向,某年申論閱卷統(tǒng)計分析報告給出了粗略的估計:每個人獨立打高分的比例很低,約在0.5%左右,依此粗略估計,如果認為兩個人打分是完全獨立的,則被兩個人同時打高分的比例僅為0.03%左右。雖然雙評同時給高分的比例極低,但是一評給高分、另一評給低分的比例還是會比0.03%這個比例要高一些,這樣,試卷便進入到3 評乃至4 評。對于進入到3 評、4 評的試卷的給分總體趨勢和傾向,該報告通過進一步分析發(fā)現(xiàn):除在第1題上“寬寬試卷”(3 評和4 評評分者給分比前兩評中的高分還高,即采取相對寬容的評分策略)和“嚴嚴試卷”(3 評和4 評評分者給分比前兩評中的低分還低,即采取相對嚴格的評分策略)基本持平外,在其他6 個題目上,“嚴嚴試卷”在3 評4 評試卷中所占的比例都明顯高于“寬寬試卷”。這說明第三個人或者組長在大多數(shù)情況下傾向于采用比較嚴格的評分策略(詳見表2 和表3)。

        表2 搖寬嚴試卷匯總表(一)

        統(tǒng)計結(jié)果顯示,3 評和4 評給分一般會受到較低分數(shù)的影響,因此考生成績最終還是會落在較低的分數(shù)上,整體的分數(shù)最終還是會被拉低、并集中在某一分值較低的狹窄區(qū)間(如平均分附近),也就是說,申論各題均不同程度的呈現(xiàn)出分數(shù)分布的集中趨勢和低分特征。從實際評閱過程來看,一些閱卷員打“保守分”無疑在很大程度上形成并加劇了分數(shù)分布的集中趨勢,它最直接的后果表現(xiàn)為降低了申論考試的區(qū)分度,影響了申論對考生基本能力的區(qū)分程度和鑒別效果。

        從技術(shù)角度分析,雙評誤差閾值的設(shè)定以及閱卷質(zhì)量監(jiān)控強調(diào)閱卷員間評分的一致性,某種程度上也加劇了閱卷員為規(guī)避雙評誤差而選擇打“保守分”的傾向。由于閱卷員把通過系統(tǒng)的一致性檢驗作為首選,為達此目的,某些閱卷員選擇打“保守分”,趨向同寬同嚴,目的都是規(guī)避雙評誤差風(fēng)險以通過一致性檢驗,而且這種非正常的評分現(xiàn)象,有時會掩蓋在評分一致性的表象之下。

        比如某些閱卷員的評分被采用數(shù)多,采用率高,這種情況一方面有可能反映其評分的可信度較高,但另一方面,如果該閱卷員在打“保守分”,并與別的也打“保守分”的閱卷員給分形成匹配,假設(shè)分數(shù)匹配多集中在誤差閾值內(nèi),評分系統(tǒng)就會顯示出該閱卷員的高采用率。換句話說,系統(tǒng)顯示某些閱卷員有效試卷的高采用率,其背后很可能隱含著某種危險,實際存在的評分誤差有可能獲得一種“合法性”的掩蓋,一旦出現(xiàn)這種情況,對主觀題評分誤差的監(jiān)控就會出現(xiàn)盲區(qū)和死角。

        再比如三評率作為衡量評分者一致性的重要指標,也需要一分為二,客觀看待。所謂三評率,通常指超出誤差閾值進入三評的試卷占全部在閱試卷的比率。從一般的意義上說,三評率較低,說明超出誤差閾值進入三評的試卷量較少,閱卷員整體標準把握的一致性較好,分數(shù)的可信度較高,但這只是問題的一個方面;另一方面,較低的三評率很有可能掩蓋了分數(shù)分布的趨中化,即分數(shù)的分布在某一區(qū)間高度集中,呈嚴重的正偏態(tài)或負偏態(tài),這種情況提示很可能存在打“保守分”的現(xiàn)象。

        具體來說,如果評分數(shù)都集中在某一區(qū)間(如平均分附近),且都在誤差閾值范圍內(nèi),試卷不可能進入三評,此時表面上看誤差卷很少,三評率很低,但在全距嚴重縮小、分數(shù)分布高度集中的情況下,實際上存在著閱卷員打“保守分”的現(xiàn)象,由于這種現(xiàn)象通過三評率指標較難發(fā)現(xiàn),從三評率角度監(jiān)控評閱質(zhì)量出現(xiàn)盲區(qū),因此,切不可僅以三評率指標的高低來輕易判斷、評估閱卷員的閱卷質(zhì)量狀況。

        表3 搖寬嚴試卷匯總表(二)

        三、完善申論閱卷質(zhì)量控制技術(shù)的可行性分析

        針對申論閱卷雙評模式存在的誤差概率,可以嘗試從技術(shù)和管理等不同角度探討改進和完善的策略方法。筆者多年參與申論閱卷的管理工作,認為主要應(yīng)從以下三個方面采取有針對性的解決辦法,進一步完善申論閱卷的質(zhì)量控制技術(shù),力爭控制和減少評閱過程中的雙評誤差概率。

        (一)加強“標準卷”的檢測力度,提升閱卷員評閱的準確性

        如何更加精準地評估、檢驗閱卷員標答執(zhí)行的準確性,有效糾正和控制閱卷員打“保守分”,這是解決雙評誤差概率的癥結(jié)所在。筆者認為,根據(jù)網(wǎng)絡(luò)閱卷的工作流程,對準確性的檢驗比較可行且有效的監(jiān)控手段,就是加大“標準卷”的檢測力度。

        所謂“標準卷”(又叫“標桿卷”),通常指專家組長(核心專家)在標答制訂和正評階段從考生答卷中抽取的、具有一致的評價并共同確認分數(shù)的試卷??紤]到檢測的目的和效果,“標準卷”一般要求盡可能覆蓋到好中差各個不同的分數(shù)段,并且要包含一些具有代表性的、可能引發(fā)爭議的答卷,這些“標準卷”直接導(dǎo)入評分系統(tǒng),在評閱過程中按一定比例隨機發(fā)放給閱卷員進行評閱。

        評閱過程中發(fā)放“標準卷”的主要目的,是在設(shè)定“標準卷”分數(shù)為整體參照標準、即設(shè)定其分數(shù)正確可信的前提下,檢驗閱卷員給分與“標準卷”分數(shù)的差異情況,通過觀察其分數(shù)差異,了解、評價閱卷員個體評分的準確性,這一方法構(gòu)成申論閱卷一項重要的質(zhì)量控制技術(shù)手段。

        表4 搖第1-4題各個類型標準卷上的均值情況一覽表

        標準卷檢測在閱卷質(zhì)量管理中的重要作用,可以從試卷統(tǒng)計分析中得到確認。表4 為某年申論試卷各題各個類型標準卷上的均值情況一覽表。根據(jù)統(tǒng)計結(jié)果,第1、2、3 題評分者打分與標準卷分數(shù)的分差并不大,兩者差值的平均值基本在誤差允許范圍內(nèi)。第4 題考慮到是寫作題,滿分為40 分,1 評2 評之間的誤差閾值設(shè)定為7 分或8 分,評分者與標準卷兩者分數(shù)差值的均值最大為7.71(不到8 分),基本等同于雙評誤差閾值,說明評分者打分與標準卷的分差仍在可控范圍之內(nèi),這就從標準卷檢測角度證明,正評階段閱卷員整體對標準的把握還是相對比較準確和穩(wěn)定。

        由此可見,“標準卷”作為一個標桿,一個參照物,可以很好地檢驗閱卷員個體評分的準確性。針對評分系統(tǒng)發(fā)現(xiàn)的打分與標準卷分差較大的閱卷員,專家組長會重點予以關(guān)注,采取相應(yīng)方法和措施進行指導(dǎo),及時糾正其可能存在的評分偏差。從這個角度來看,增加“標準卷”的發(fā)放數(shù)量、發(fā)放頻率、發(fā)放時間等,及時加強對相關(guān)數(shù)據(jù)的研究分析,可以非常直觀、準確地了解閱卷員標準把握的準確性程度。更為重要的是,通過“標準卷”檢測,可以非常及時地發(fā)現(xiàn)閱卷員評閱過程中一些帶有系統(tǒng)性、傾向性的問題,諸如對答題要點的錯誤理解、對評分標準和賦分細則的不當(dāng)把握等,發(fā)現(xiàn)這些帶有規(guī)律性的問題,采取各種技術(shù)手段(重評、限速等)和管理方法(復(fù)核試卷、單獨指導(dǎo)等),及時進行干預(yù),可以有效控制閱卷員打“保守分”,減少評閱過程中的雙評誤差比例??傊?,樹立問題導(dǎo)向,加強“標準卷”的檢測,發(fā)揮其重要的監(jiān)控指導(dǎo)作用,在現(xiàn)有的網(wǎng)絡(luò)技術(shù)條件下,不失為控制和減少雙評誤差概率的一種有效的質(zhì)量控制技術(shù)手段。

        (二)探索調(diào)整雙評誤差閾值,控制閱卷員打“保守分”,減輕申論分數(shù)分布的趨中特點

        依筆者多年實際評閱工作的經(jīng)驗和體會,嘗試從技術(shù)角度采取措施,控制和減少閱卷員打“保守分,減輕申論分數(shù)分布的趨中特點,這是減少雙評誤差概率的另一項重要的質(zhì)量控制技術(shù)手段。

        當(dāng)分數(shù)全距縮小后,是否仍采用現(xiàn)行的雙評誤差閾值,有必要進行深入的量化分析與研究?,F(xiàn)行的主觀題雙評誤差閾值設(shè)定一般掌握在題目分值的五分之一(寫作題略寬),這一標準設(shè)定源自于高考主觀題評分,其理論依據(jù)建立在對主觀題評分誤差的統(tǒng)計測算結(jié)果,即主觀題評分誤差的均值大約是題目分數(shù)的五分之一,這一均值大體上構(gòu)成主觀題評分誤差的臨界點,超出這個臨界點,主觀題的評分誤差變得不可控,分數(shù)的可靠性會受到影響。根據(jù)上述測算結(jié)果,各類考試(教育考試、人事考試等)主觀題評分的誤差閾值一般設(shè)定在題目分數(shù)的五分之一,比如20 分的題目,五分之一的雙評誤差閾值就是4 分,雙評誤差超過4 分,試卷需要進入三評或交由專家組長復(fù)核。

        筆者認為,通過計算題目全距縮小的程度以及具體的分數(shù)分布狀況(方差、標準差、峰度等),可以適當(dāng)調(diào)整雙評誤差閾值大小。假設(shè)20 分的試題,雙評誤差閾值由目前的五分之一擴大為四分之一,也就是由4 分擴大到5 分,理論上存在這樣一種可能性:由于誤差控制標準相對寬松,兩兩分數(shù)的匹配空間會適當(dāng)增加,當(dāng)分數(shù)全距拉開后,標準差也會相應(yīng)增加,分數(shù)分布將趨向平緩,各個分數(shù)段的得分有可能變得均衡(當(dāng)然這與題目的分值大小會有一定關(guān)系)。更重要的是,誤差閾值相對寬松后,閱卷員為規(guī)避雙評誤差而采取打“保守分”策略,以增加評分匹配性或采用率的欲望有可能降低或減弱,評分趨中現(xiàn)象有望得到緩解、改善,分數(shù)的分布將會趨向合理,題目對考生的區(qū)分鑒別能力將會得到加強,從這個意義上說,限制閱卷員打“保守分”,減輕評分趨中現(xiàn)象,有助于控制和減少評閱過程中的雙評誤差概率。

        需要指出的是,雙評誤差閾值擴大,分數(shù)分布的具體結(jié)果究竟如何,尚需接受一定范圍的實踐檢驗,并根據(jù)考生樣本容量和題目評閱的相關(guān)數(shù)據(jù)進行測算,絕不是一個簡單拍腦袋就可以回答的問題。但是,探討從技術(shù)角度改進評閱方法,控制閱卷員打“保守分”,從根本上解決評閱過程中的雙評誤差現(xiàn)象,這是申論閱卷乃至所有主觀題評閱都需要關(guān)注的重點和難點,這方面尚需考試工作者深入進行理論研究與實踐探索,以期進一步提高主觀題評閱的科學(xué)性。

        (三)充分發(fā)揮閱卷專家組長的正確引領(lǐng)和指導(dǎo)作用

        實際評閱過程中除了少數(shù)閱卷員打“保守分”外,個別閱卷員對標答的理解與執(zhí)行出現(xiàn)偏差,也是形成并加劇評分誤差的一個重要原因。以筆者的觀察和判斷,出現(xiàn)上述偏差主要在于某些外源性因素的影響。從整體工作流程來看,由于申論標答制訂階段嚴格的質(zhì)量控制程序和質(zhì)量控制標準,基于標答自身因素所引起的誤差并不顯著,某些外源性因素的影響可能更加重要。

        引起誤差的外源性因素,主要是指閱卷員培訓(xùn)、試評以及正評階段造成誤差的各種疏漏和失誤。比如培訓(xùn)過程中,針對少數(shù)閱卷員提出的不同意見,專家組長(核心專家)未能進行有說服力的回應(yīng)、說明和解釋,致使其針對標答內(nèi)容的錯誤理解或不同觀點不但未能化解,反而進一步得到默認和強化;培訓(xùn)、試評和正評過程中,由于不同專家組長之間意見觀點不統(tǒng)一、同一專家組長對標答的解釋前后不一致、專家組長對標答的解釋說明含混不清等多方面因素,造成閱卷員對標答的理解不一致,從而產(chǎn)生執(zhí)行上的偏差;此外,面對人數(shù)眾多的閱卷員群體,專家組長的質(zhì)量管理很難做到全覆蓋無死角,這就造成少數(shù)閱卷員評分過程中的失誤有可能被忽略或遺漏,當(dāng)上述個別的、偶發(fā)的誤差因素經(jīng)疊加、累積,形成擴散,就有可能在閱卷員間形成對標答一定范圍的誤解和誤用。鑒于此,加強對專家組長的遴選和使用,強化專家組長對閱卷員的正確引領(lǐng)和指導(dǎo)顯得至關(guān)重要。

        申論閱卷過程中一個非常重要的質(zhì)量控制手段,就是專家組長借助網(wǎng)絡(luò)評分系統(tǒng)適時、動態(tài)地進行評閱質(zhì)量監(jiān)控,以確保閱卷員整體的評閱工作質(zhì)量和效率。需要指出的是,評分系統(tǒng)的使用在質(zhì)量控制方面呈現(xiàn)更加及時性、動態(tài)性和多樣性,然而該系統(tǒng)只是一個平臺,它只是提示了閱卷員存在評閱誤差的各種可能性,具體到對監(jiān)控指標的分析理解以及對監(jiān)控結(jié)果的實際運用,還是需要結(jié)合人工進行判斷取舍。因此專家組長及時跟蹤、分析評分系統(tǒng)的監(jiān)控數(shù)據(jù),對閱卷員個體進行有針對性地指導(dǎo)與幫助,成為申論閱卷正評階段質(zhì)量控制的一項重要內(nèi)容。

        在這個過程中,專家組長既要樹立全面、審慎的觀點。注意綜合多個指標,從多個角度,全面、客觀評估閱卷員的工作質(zhì)量,切忌以偏概全,僅憑系統(tǒng)中某一項統(tǒng)計指標或某一個統(tǒng)計數(shù)據(jù)輕易做出判斷和結(jié)論。同時還必須重視進行試卷復(fù)核。通過及時跟蹤分析系統(tǒng)監(jiān)控指標和統(tǒng)計數(shù)據(jù),發(fā)現(xiàn)、鎖定問題閱卷員,運用試卷復(fù)核方法,對異常情況進行確認,找出具體原因,進行有針對性的指導(dǎo)和幫助。試卷復(fù)核可以抽查閱卷員某一分數(shù)段、某一時間段直至全部所閱試卷,它是專家組長發(fā)現(xiàn)問題的最有效手段,也是閱卷質(zhì)量管理最重要、最常用的一種方法。需要強調(diào)的是,針對某一批次的異常分數(shù)試卷,或評分存在問題的某一批次試卷,評分系統(tǒng)一般都設(shè)有試卷回收功能,可以做到必要時回收并取消該批次直至全部所閱試卷的分數(shù),試卷重新進入評分系統(tǒng)進行重評。評分系統(tǒng)這一糾錯功能的設(shè)計,為確保申論閱卷質(zhì)量提供了有力的技術(shù)保障。

        針對進一步強化專家組長在閱卷質(zhì)量管理中的引領(lǐng)指導(dǎo)作用,需要重點關(guān)注并解決以下問題:首先,要重視專家組長的遴選。務(wù)必確保承擔(dān)閱卷質(zhì)量管理重任的專家組長具有較高的業(yè)務(wù)能力和勇于擔(dān)當(dāng)?shù)呢?zé)任意識,對于某些能力欠缺、責(zé)任心不強的專家組長要堅決淘汰。管理部門要通過建立必要的專家競爭機制,形成良性循環(huán),努力打造一支高水平的閱卷核心專家隊伍;其次,要根據(jù)專家組長各自不同的特點和能力,優(yōu)化各題組人員搭配組合。配置各題組人選要統(tǒng)籌兼顧,充分考慮不同專家在年齡、性格、能力、經(jīng)驗等方面的相互匹配與互補,使之盡可能團結(jié)協(xié)作,互相補臺,形成合力;第三,要充分重視專家組長與閱卷員間必要的溝通與交流。針對閱卷員提出的有關(guān)標答內(nèi)容和評分標準的質(zhì)疑,專家組長必須及時回應(yīng)解釋,通過充分的、有理有據(jù)的分析說明(必要時可結(jié)合具體試卷的點評),務(wù)必說服閱卷員改變錯誤認識或不當(dāng)觀點,盡可能統(tǒng)一評分標準尺度。專家組長切忌對閱卷員的質(zhì)疑或不同意見視若無睹,不予回應(yīng),從而加劇其對抗情緒和逆反心理,影響評分執(zhí)行的準確性和穩(wěn)定性。

        總之,充分發(fā)揮核心專家的正確指導(dǎo)和引領(lǐng)作用,主要目的是力求糾正閱卷員對標答的錯誤認識和理解,盡可能減少和控制主觀題評閱過程中的雙評誤差試卷。

        猜你喜歡
        主觀題試卷閾值
        淺談“立體幾何主觀題”的復(fù)習(xí)備考
        淺談高中政治“認識類”主觀題答題技巧
        井岡教育(2022年2期)2022-10-14 03:11:28
        極坐標方程主觀題考點分析
        高考政治主觀題對學(xué)生思維能力的考查
        甘肅教育(2021年10期)2021-11-02 06:14:28
        小波閾值去噪在深小孔鉆削聲發(fā)射信號處理中的應(yīng)用
        基于自適應(yīng)閾值和連通域的隧道裂縫提取
        比值遙感蝕變信息提取及閾值確定(插圖)
        河北遙感(2017年2期)2017-08-07 14:49:00
        Module5 A Trip Along the Three Gorges
        Module5 Great People and Great Inventions of Ancient China
        Module 4 Sandstorms in Asia
        亚洲中文字幕精品久久a| 97精品久久久久中文字幕| 成人久久久久久久久久久| 国产成人精品精品欧美| 国产一区二区三区亚洲天堂| 国产一区二区三区日韩在线观看| 成人在线免费电影| 两个人看的www高清视频中文| www.日本一区| 美女被内射很爽的视频网站| 国产一二三四2021精字窝| 人禽伦免费交视频播放| 久久99国产亚洲高清| av有码在线一区二区三区| 亚洲综合欧美色五月俺也去| 久久男人av资源网站无码| 久久天天躁狠狠躁夜夜中文字幕| 日韩一本之道一区中文字幕| 国产亚洲精品a片久久久| 无码人妻一区二区三区免费n鬼沢| 手机在线中文字幕国产| 海外华人在线免费观看| 中文无码一区二区不卡av| 久久永久免费视频| 亚洲黑寡妇黄色一级片| 欧美疯狂性受xxxxx喷水| 亚洲成色www久久网站夜月| 爆乳日韩尤物无码一区| 中文字幕人妻互换av| 免费看黑人男阳茎进女阳道视频| 欧美在线专区| 久久久精品人妻一区二区三区免费| 久久久久亚洲精品男人的天堂| 亚洲成色www久久网站夜月| 极品av在线播放| 久久综合九色综合97婷婷| 亚洲av麻豆aⅴ无码电影| 久久精品亚洲中文无东京热| 亚洲av综合日韩精品久久| 不卡一卡二卡三乱码免费网站| 亚洲无毛片|