大規(guī)模英語口語考試評(píng)分質(zhì)量保障體系建設(shè)

2024-01-01 00:00:00夏偉蓉唐俊楊林李巍

西南交通大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版) 2024年4期

關(guān)鍵詞：評(píng)卷評(píng)分標(biāo)準(zhǔn)口語

摘要：大規(guī)模外語口語考試在線評(píng)分質(zhì)量體系建設(shè)是一項(xiàng)系統(tǒng)工程，也是保障評(píng)分信度和可靠性的關(guān)鍵環(huán)節(jié)。在全國大學(xué)英語四、六級(jí)考試（CET）在線評(píng)分流程頂層設(shè)計(jì)指導(dǎo)下，三維度在線評(píng)分質(zhì)量保障體系將口語評(píng)分過程中樣卷及培訓(xùn)卷挑選流程、評(píng)分員培訓(xùn)流程、評(píng)分過程動(dòng)態(tài)監(jiān)控流程三個(gè)不同層面的子系統(tǒng)一環(huán)扣一環(huán)關(guān)聯(lián)起來，使標(biāo)準(zhǔn)化工作機(jī)制一步一步落到實(shí)處。該體系從宏觀和微觀的管理視角，自上而下而又自下而上地從不同層面對(duì)評(píng)分誤差進(jìn)行控制，以降低評(píng)分中因評(píng)分員主觀因素造成的給分差異。CET-SET6在線評(píng)分實(shí)踐表明，該保障體系的實(shí)施提升了CET-SET評(píng)分信度和效度，有效保障了評(píng)分質(zhì)量。該體系的建設(shè)也可為提高大規(guī)模、高風(fēng)險(xiǎn)考試在線評(píng)分信度、效度及質(zhì)量管理水平提供一定的借鑒和參考。

關(guān)鍵詞：大規(guī)?？谡Z考試；評(píng)分質(zhì)量保障體系；CET-SET在線評(píng)分；培訓(xùn)體系；動(dòng)態(tài)監(jiān)控體系

一、引言

評(píng)分質(zhì)量高低關(guān)乎大規(guī)模考試分?jǐn)?shù)的可比性和可解釋性，與命題、施測(cè)等環(huán)節(jié)一樣是保證考試結(jié)果公平公正的一個(gè)重要環(huán)節(jié)［1］。全國大學(xué)英語四、六級(jí)口語考試（College English Test-Spoken English Test，以下簡(jiǎn)稱CET-SET）1999年開始施考，以兩位經(jīng)過嚴(yán)格培訓(xùn)和選拔的授權(quán)考官對(duì)3～4位考生面試的方式進(jìn)行了13年。由于受場(chǎng)地及考官數(shù)量限制，每年考生規(guī)?？刂圃?0萬人左右。2013年CET-SET計(jì)算機(jī)網(wǎng)絡(luò)化考試在全國鋪開，極大提高了考試效率，降低了考試成本和組織難度，使大規(guī)模CET-SET考試成為現(xiàn)實(shí)。至新冠疫情前的2019年，考生規(guī)模已達(dá)到每年近百萬人［2］。新冠疫情后考生規(guī)模逐步恢復(fù)，在不遠(yuǎn)的將來CET-SET會(huì)成為CET考試不可或缺的項(xiàng)目之一。

大規(guī)?？谡Z考試評(píng)分的主觀性很強(qiáng)，其評(píng)分質(zhì)量是保證考試信度和效度的關(guān)鍵環(huán)節(jié)。CET-SET 2013年實(shí)施網(wǎng)絡(luò)化在線集中評(píng)分至今已11年。近年來國內(nèi)學(xué)者對(duì)口語考試評(píng)分質(zhì)量從不同方面做了研究，成果主要集中在四個(gè)方面。第一，口語評(píng)分的效度［3～4］。張曉藝、金艷從交互構(gòu)念理論視角設(shè)計(jì)了“按能力分項(xiàng)評(píng)分量表”和“按任務(wù)評(píng)分量表”，比較了兩種量表對(duì)評(píng)分結(jié)果以及對(duì)考試構(gòu)念效度的影響［3］；王海貞用內(nèi)省法收集TEM4口語評(píng)分員對(duì)評(píng)分過程的口頭反饋，檢驗(yàn)了口試評(píng)分的構(gòu)念效度，建立了一個(gè)影響口語評(píng)分和分?jǐn)?shù)解釋的因素模型［4］。第二，不同評(píng)分方法對(duì)評(píng)分效果的比較［5～9］。此類研究的結(jié)論不盡相同。劉建達(dá)、呂劍濤從評(píng)分一致性和分?jǐn)?shù)維度差異的角度考查了整體評(píng)分法（holistic scoring）和分析評(píng)分法（analytic scoring）的評(píng)分效果，發(fā)現(xiàn)用分析評(píng)分法“評(píng)卷員內(nèi)部一致性較高”，而用整體評(píng)分法評(píng)分員容易出現(xiàn)趨中給分現(xiàn)象［6］；呂長竑等人以校本口語考試為例，比較了分解評(píng)分（analytic scoring）、整體評(píng)分（holistic scoring）、任務(wù)分項(xiàng)評(píng)分（item analytical scoring）的同質(zhì)性、效度、信度和可操作性程度，發(fā)現(xiàn)整體評(píng)分法“操作性較強(qiáng)，效度和信度相對(duì)較高”［7］；張潔分析了PETS三級(jí)口語考試評(píng)分誤差程度和原因，發(fā)現(xiàn)整體評(píng)分法“對(duì)考生能力的區(qū)分度較弱”［8］，這一結(jié)論在一定程度上與劉建達(dá)、呂劍濤的研究結(jié)論吻合。這些不同研究結(jié)果說明哪種評(píng)分方法更適合大規(guī)?？谡Z考試評(píng)分仍需深入研究。第三，口語評(píng)分者偏差及因素研究。此類研究將評(píng)分員作為考查對(duì)象，分析評(píng)分員自身一致性及誤差產(chǎn)生的原因，探索控制誤差提高評(píng)分質(zhì)量的方案［9～10］。如戴朝暉、尤其達(dá)運(yùn)用多側(cè)面Rasch模型，探討了校本大學(xué)英語口語考試評(píng)分者的寬嚴(yán)偏差及自身一致性偏差對(duì)評(píng)分效果的影響［9］。第四，口語機(jī)器評(píng)分系統(tǒng)驗(yàn)證及可行性研究，探索人工智能評(píng)分的質(zhì)量和準(zhǔn)確性［2，11～13］。金艷等人以CET-SET4口語評(píng)分為例，對(duì)我國自主研發(fā)的科大訊飛智能口語評(píng)分系統(tǒng)進(jìn)行了效度驗(yàn)證，研究證明人—機(jī)評(píng)分結(jié)果有較好的相關(guān)性和分?jǐn)?shù)等級(jí)分布一致性。由于人工智能評(píng)分技術(shù)還不成熟，研究尚不夠深入，仍有很多問題需要進(jìn)一步驗(yàn)證，目前人工智能評(píng)分在大規(guī)?？谡Z考試中尚不能代替人工評(píng)分，只能“作為人工評(píng)分的質(zhì)檢或補(bǔ)充手段”［2］。

從上述研究可以看出，已有文獻(xiàn)對(duì)大規(guī)模口語考試評(píng)分質(zhì)量保障體系建設(shè)的研究尚顯不足，尤其是針對(duì)CET-SET這種高風(fēng)險(xiǎn)全國統(tǒng)一口語考試，從評(píng)分信度的角度建立評(píng)分質(zhì)量保障體系的研究很少。隨著CET筆試與口試一體化進(jìn)程的逐步推進(jìn)和實(shí)施，CET-SET必將成為CET必考項(xiàng)目，考生規(guī)模會(huì)越來越大，評(píng)卷任務(wù)也會(huì)越來越重。如何在全國有十多個(gè)評(píng)卷點(diǎn)，每次考試有二十多個(gè)不同題目的情況下，通過構(gòu)建評(píng)分質(zhì)量保障體系為CET-SET評(píng)分結(jié)果的一致性或可比性保駕護(hù)航？為此，本文以CET-SET-6在線評(píng)分為例，立足中國國情及CET-SET口語評(píng)分現(xiàn)狀，從宏觀和微觀的管理視角以及評(píng)分過程多維度保障體系構(gòu)建視角，探討CET-SET評(píng)分質(zhì)量保障體系建設(shè)，管窺其中不同管理層面的操作，以期為提高大規(guī)模、高風(fēng)險(xiǎn)口語考試評(píng)分信度、效度及質(zhì)量管理提供一定借鑒和參考。

二、CET-SET三維度評(píng)分質(zhì)量保障體系

建立評(píng)分質(zhì)量保障體系總體模型是建構(gòu)在線評(píng)分系統(tǒng)工程的第一步。該模型是在全國大學(xué)英語四、六級(jí)考試委員會(huì)制定的評(píng)分流程頂層框架指導(dǎo)下的延伸和完善，含三個(gè)子系統(tǒng)：專家挑選樣卷/培訓(xùn)卷流程系統(tǒng)、評(píng)分員培訓(xùn)系統(tǒng)、評(píng)分過程動(dòng)態(tài)實(shí)時(shí)監(jiān)控系統(tǒng)。每個(gè)子系統(tǒng)從評(píng)分的不同層面、不同關(guān)鍵節(jié)點(diǎn)把關(guān)，各體系相互關(guān)聯(lián)共同形成一個(gè)自上而下而又自下而上的保障體系，為評(píng)卷質(zhì)量保駕護(hù)航，各個(gè)系統(tǒng)間的關(guān)系及作用見圖1。

圖1中CET-SET的文字評(píng)分標(biāo)準(zhǔn)體現(xiàn)的是該項(xiàng)考試的構(gòu)念效度，是對(duì)考生口語能力做出的操作性界定，評(píng)分方法是實(shí)現(xiàn)的路徑；評(píng)分流程的頂層設(shè)計(jì)是為了使評(píng)分過程標(biāo)準(zhǔn)化、規(guī)范化和科學(xué)化，指導(dǎo)三個(gè)子系統(tǒng)的科學(xué)運(yùn)作；專家挑選樣卷及培訓(xùn)卷體系的作用是為評(píng)分培訓(xùn)提供參考；評(píng)分過程動(dòng)態(tài)監(jiān)控體系則對(duì)評(píng)分員在評(píng)分過程中出現(xiàn)的各種偏差進(jìn)行實(shí)時(shí)監(jiān)控。

三、CET-SET6考試內(nèi)容、評(píng)分標(biāo)準(zhǔn)及評(píng)分方法

（一）考試內(nèi)容

CET-SET有四級(jí)和六級(jí)，級(jí)別不同考試內(nèi)容也有所不同。以CET-SET6為例，考試內(nèi)容含自我介紹、回答兩個(gè)問題、個(gè)人陳述及雙人互動(dòng)（討論），其中自我介紹是考生熱身項(xiàng)目，不在評(píng)分范圍內(nèi)，實(shí)際評(píng)分任務(wù)類型有四個(gè)，詳見表1。

（二）評(píng)分標(biāo)準(zhǔn)

CET-SET6和CET-SET4的評(píng)分標(biāo)準(zhǔn)都是以大學(xué)英語課程教學(xué)要求（指南）中衡量考生能力水平的尺度為依據(jù)，是考試構(gòu)念的操作化定義，也是控制評(píng)分誤差及評(píng)價(jià)培訓(xùn)質(zhì)量不可缺少的基本環(huán)節(jié)和前提?？谡Z評(píng)分中，評(píng)分員對(duì)評(píng)分標(biāo)準(zhǔn)所測(cè)構(gòu)念的理解是否一致、對(duì)評(píng)分標(biāo)準(zhǔn)的把握是否準(zhǔn)確和穩(wěn)定直接影響評(píng)分信度和質(zhì)量。

CET-SET6和CET-SET4評(píng)分標(biāo)準(zhǔn)都包括三個(gè)維度，即語言的準(zhǔn)確性和范圍、話語的長短和連貫性、語言的靈活性和適切性，分別涉及語言表達(dá)、語篇組織及語用能力。其中語言表達(dá)包含語音、語言準(zhǔn)確度和復(fù)雜度，對(duì)語音的評(píng)判則采用英語通用語的觀點(diǎn)，允許考生有不影響理解的母語口音；語篇組織維度包含語流長短，內(nèi)容的相關(guān)度、豐富度和連貫性，發(fā)言中停頓的頻度和長短；語用維度包括考生發(fā)言是否與語境相適應(yīng)、是否積極參與討論、討論中的貢獻(xiàn)及發(fā)言中有效信息量、交際策略的使用等。每個(gè)維度滿分5分，采用2～5的評(píng)分量表，最小間距為0.5分，共15分。三個(gè)維度的加權(quán)值依次是1.2、1.0、0.8，由評(píng)分軟件根據(jù)評(píng)分員所給分?jǐn)?shù)自動(dòng)加權(quán)計(jì)算后形成從A+到D的不同等級(jí)。

（三）評(píng)分方法

不同評(píng)分方法對(duì)評(píng)分效果會(huì)產(chǎn)生程度不同的影響［5～8］。CET-SET6和CET-SET4均實(shí)行分解評(píng)分法與能力等級(jí)評(píng)估相結(jié)合的方法評(píng)分。分解評(píng)分法（analytic scoring）指評(píng)分員從不同維度對(duì)考生的口語水平進(jìn)行評(píng)分，再根據(jù)每個(gè)維度的得分計(jì)算總分。能力等級(jí)評(píng)估法是一種整體評(píng)分法（holistic scoring），指評(píng)分員依據(jù)評(píng)分標(biāo)準(zhǔn)，根據(jù)自己對(duì)考生口語水平的總體印象和判斷給出能力等級(jí)。能力等級(jí)評(píng)估法采用“能做”描述語，從能做什么到能做到什么程度進(jìn)行整體評(píng)估，評(píng)判考生“運(yùn)用語言能力能夠完成的任務(wù)及任務(wù)的完成程度”［14］。CET-SET6能力等級(jí)描述與CET-SET4的等級(jí)描述不同，CET-SET6更注重考生對(duì)深層觀點(diǎn)及情感表達(dá)的程度，而CET-SET4則主要考查考生對(duì)某一事情的敘述。CET-SET6能力等級(jí)描述見表2。

分解評(píng)分從微觀視角觀察考生不同維度的具體表現(xiàn)，能力等級(jí)評(píng)估則從宏觀視角對(duì)考生口語表達(dá)的整體水平進(jìn)行評(píng)判。兩種評(píng)分方法的結(jié)合可以彌補(bǔ)各自的不足。例如，因評(píng)分員側(cè)重評(píng)分維度的不同方面或?qū)υu(píng)分標(biāo)準(zhǔn)的理解有偏差而產(chǎn)生的誤差，通過對(duì)考生的表現(xiàn)進(jìn)行整體能力等級(jí)的定位，可對(duì)分解評(píng)分的某項(xiàng)給分加以微調(diào)，以更加客觀反映考生口語能力水平等級(jí)。

四、CET-SET評(píng)分標(biāo)準(zhǔn)化流程體系

（一）評(píng)分標(biāo)準(zhǔn)化流程設(shè)計(jì)

作為大規(guī)模全國統(tǒng)一口語考試，CET-SET評(píng)分流程的設(shè)計(jì)關(guān)乎整個(gè)評(píng)卷質(zhì)量的上層構(gòu)筑，是評(píng)分過程標(biāo)準(zhǔn)化、規(guī)范化建設(shè)中的關(guān)鍵，也是最大限度提高評(píng)分信度的基礎(chǔ)保障。

2007年CET筆試作文及翻譯題實(shí)施網(wǎng)絡(luò)化在線評(píng)分。為了做到分?jǐn)?shù)跨考次、跨題目、跨時(shí)間、跨評(píng)分點(diǎn)之間的一致，四、六級(jí)考委會(huì)專家制定了一套標(biāo)準(zhǔn)化評(píng)分流程［15］作為CET主觀題評(píng)分質(zhì)量保障體系的頂層設(shè)計(jì)（見圖2）。實(shí)施以來該流程體系在CET作文和翻譯題評(píng)分中不斷改進(jìn)和完善。2013年CET-SET實(shí)施在線集中評(píng)分，同樣嚴(yán)格按照該流程操作，在工作程序和組織形式上有效保證了CET-SET在線評(píng)分的科學(xué)落地。

上述流程中的六個(gè)模塊分別代表六個(gè)不同的關(guān)鍵質(zhì)量控制點(diǎn)。上層三個(gè)模塊與評(píng)分者的直接參與有關(guān)，下層三個(gè)模塊對(duì)評(píng)分結(jié)果產(chǎn)生的系統(tǒng)誤差進(jìn)行調(diào)整，與計(jì)量學(xué)技術(shù)的運(yùn)用及數(shù)據(jù)等值處理有關(guān)。這六個(gè)質(zhì)量控制點(diǎn)圍繞評(píng)分結(jié)果的一致性和分?jǐn)?shù)的等值，一環(huán)扣一環(huán)步步遞進(jìn)，共同構(gòu)成CET-SET評(píng)分質(zhì)量保障體系的頂層設(shè)計(jì)，使評(píng)卷過程程序化、標(biāo)準(zhǔn)化。其中上層三個(gè)模塊（即挑選標(biāo)準(zhǔn)樣卷和培訓(xùn)卷、閱卷員培訓(xùn)和試評(píng)、評(píng)卷的實(shí)時(shí)質(zhì)量監(jiān)控）為下層三個(gè)模塊（即閱卷點(diǎn)數(shù)據(jù)分析和處理、試題之間分?jǐn)?shù)等值處理、考次之間分?jǐn)?shù)等值處理）提供評(píng)分結(jié)果的數(shù)據(jù)，對(duì)評(píng)分信度有直接影響，也是下層三個(gè)模塊質(zhì)量保障的前提和基礎(chǔ)。每個(gè)模塊關(guān)注評(píng)分過程中不同的關(guān)鍵要素，各自均有不同的標(biāo)準(zhǔn)化工作程序，六個(gè)子系統(tǒng)既相互關(guān)聯(lián)，又相互影響，對(duì)保障CET-SET4、CET-SET6口語評(píng)卷的整體質(zhì)量共同發(fā)揮作用。

由于計(jì)量學(xué)統(tǒng)計(jì)分析及數(shù)據(jù)等值處理不在本文研究范圍內(nèi)，下面將聚焦樣卷及培訓(xùn)卷挑選工作流程、評(píng)分員培訓(xùn)體系及評(píng)分過程質(zhì)量監(jiān)控體系三個(gè)子系統(tǒng)的構(gòu)建，討論與評(píng)分者直接有關(guān)的CET-SET口語評(píng)分質(zhì)量保障體系建設(shè)和運(yùn)作機(jī)制。

（二）樣卷及培訓(xùn)卷挑選工作

專家依據(jù)評(píng)分標(biāo)準(zhǔn)選定的樣卷和培訓(xùn)卷是決定評(píng)分培訓(xùn)質(zhì)量的關(guān)鍵，也是控制評(píng)分誤差的第一個(gè)重要環(huán)節(jié)，關(guān)系到不同試題之間、全國不同評(píng)卷點(diǎn)之間評(píng)分結(jié)果是否一致、是否有可比性的問題。這一環(huán)節(jié)的工作為評(píng)分培訓(xùn)提供與CET-SET文字評(píng)分標(biāo)準(zhǔn)描述的等級(jí)相對(duì)應(yīng)的樣本卷及培訓(xùn)考核卷，為評(píng)分員正確理解評(píng)分標(biāo)準(zhǔn)、有效控制評(píng)分誤差提供幫助。目前每年CET-SET上半年、下半年各考一次，每次四級(jí)、六級(jí)口語各考一天，每天11場(chǎng)，每場(chǎng)換一套試題，也就是說，每次考試各有11個(gè)平行試題。全國有11個(gè)口語評(píng)卷點(diǎn)，通常一個(gè)評(píng)卷點(diǎn)只評(píng)閱一個(gè)試題，隨機(jī)分配。這樣做的好處是可以提高評(píng)分的穩(wěn)定性，避免因題目難易度差異導(dǎo)致評(píng)分誤差，也為后期分?jǐn)?shù)統(tǒng)計(jì)等值處理提供相對(duì)可靠的數(shù)據(jù)。CET-SET4、CET-SET6挑選標(biāo)準(zhǔn)樣卷及培訓(xùn)卷的工作由全國大學(xué)英語四、六級(jí)考委會(huì)組織實(shí)施。遵循一致性原則，工作程序分為專家按試題選卷、小組討論樣卷等值、全體討論樣卷等值、考委會(huì)專家審定四個(gè)標(biāo)準(zhǔn)化環(huán)節(jié)（見圖3）。

樣卷（Range-finders）是遵照CET-SET文字評(píng)分標(biāo)準(zhǔn)描述從大量考生實(shí)考錄音中挑選出來的參照卷，分為A、B、C、D四個(gè)不同等級(jí)，作為與文字標(biāo)準(zhǔn)匹配的樣本卷。培訓(xùn)卷是選出的3～6組（每2個(gè)考生為一組）、一般覆蓋A+、A、B+、B、C+、C、D不同水平等級(jí)的培訓(xùn)工作卷，其中包括處于等級(jí)臨界水平的卷子，用于評(píng)分員培訓(xùn)時(shí)的試評(píng)和考核。

圖3流程中，每個(gè)專家首先按照各自評(píng)卷點(diǎn)要評(píng)分的試題，選好樣卷和培訓(xùn)卷。之后進(jìn)入小組討論，由組長組織專家對(duì)4個(gè)不同平行試題的樣卷是否等值提出意見，同時(shí)做出給分說明，凡是與評(píng)分標(biāo)準(zhǔn)不吻合的一律重新挑選再次討論，直到大家的意見一致為止。這樣基本做到了每4個(gè)平行試題、4個(gè)不同評(píng)卷點(diǎn)的樣卷等值。小組討論后，由考委會(huì)組織6個(gè)組22位專家共同討論所有樣卷的給分和等級(jí)是否跨試題等值?？紤]到實(shí)際評(píng)分中評(píng)分員在區(qū)別中等水平的考生時(shí)容易產(chǎn)生誤差，專家們重點(diǎn)討論處于中間段的B級(jí)和C級(jí)的樣卷，并對(duì)所給分?jǐn)?shù)進(jìn)行解釋，對(duì)照評(píng)分標(biāo)準(zhǔn)說明為什么會(huì)給這個(gè)分?jǐn)?shù)，以進(jìn)一步保障所選樣卷跨試題、跨級(jí)別（四級(jí)、六級(jí)）、跨評(píng)卷點(diǎn)的等值，為下一步評(píng)分員培訓(xùn)打下良好基礎(chǔ)。

五、CET-SET評(píng)分員培訓(xùn)體系

（一）評(píng)分培訓(xùn)作用及原則

評(píng)分培訓(xùn)是“訓(xùn)練評(píng)分人前后一致地使用評(píng)分標(biāo)準(zhǔn)的系統(tǒng)過程”［16］，目的是減少因評(píng)分員的主觀認(rèn)知差異產(chǎn)生的評(píng)分誤差，增強(qiáng)評(píng)分員自身、評(píng)分員之間、評(píng)分小組之間評(píng)分結(jié)果的一致性，幫助評(píng)分員能一致正確地理解評(píng)分標(biāo)準(zhǔn)，在評(píng)分過程中始終激活評(píng)分標(biāo)準(zhǔn)并正確使用。徐鷹、曾用強(qiáng)提倡評(píng)分培訓(xùn)既要重視評(píng)分結(jié)果的一致性，也要重視培訓(xùn)的過程［16］。培訓(xùn)不是一勞永逸的，要提升培訓(xùn)質(zhì)量應(yīng)遵循三個(gè)并重的原則，即評(píng)分結(jié)果的一致性和評(píng)分過程并重，自上而下的集體培訓(xùn)和自下而上的個(gè)性化培訓(xùn)并重，首日培訓(xùn)、中期培訓(xùn)與持續(xù)培訓(xùn)并重。

（二）評(píng)分培訓(xùn)類型、過程及流程

本著上述原則，CET-SET的評(píng)分培訓(xùn)體系中包含四種不同類型的培訓(xùn)：一是評(píng)分前一天的大組長先期培訓(xùn)，為次日的培訓(xùn)做準(zhǔn)備；二是評(píng)分首日的評(píng)分員集體培訓(xùn)，這是自上而下的集中培訓(xùn)；三是評(píng)分第二天的小組中期培訓(xùn)，目的是強(qiáng)化對(duì)評(píng)分標(biāo)準(zhǔn)的理解，減少因評(píng)分員個(gè)體特征或背景差異造成對(duì)評(píng)分標(biāo)準(zhǔn)定位的“脫靶”現(xiàn)象，提高評(píng)分的一致性和準(zhǔn)確性；四是貫穿評(píng)分全過程的個(gè)性化持續(xù)培訓(xùn)，這是一種自下而上的針對(duì)性互動(dòng)性培訓(xùn)。這四類培訓(xùn)均與評(píng)分質(zhì)量監(jiān)控體系緊密相連（見圖4）?？紤]到線上評(píng)分時(shí)評(píng)分員戴著耳機(jī)工作強(qiáng)度大，容易產(chǎn)生疲勞，目前CET-SET評(píng)分一般持續(xù)2天左右，每天評(píng)卷時(shí)長不超過7小時(shí)。

1. 大組長先期培訓(xùn)

評(píng)分組大組長是CET-SET評(píng)分質(zhì)量保障體系中的關(guān)鍵人物。大組長人選是從多次評(píng)分中認(rèn)真負(fù)責(zé)、評(píng)卷質(zhì)量優(yōu)秀、情緒穩(wěn)定、有協(xié)調(diào)能力的杰出評(píng)分員中選拔的。大組長一般有較長時(shí)間大學(xué)英語教學(xué)經(jīng)歷，對(duì)CET-SET評(píng)分標(biāo)準(zhǔn)的理解透徹，有豐富的口語評(píng)分經(jīng)驗(yàn)和評(píng)分策略，更重要的是有能力服眾，即評(píng)分組員對(duì)大組長有充分的信任感，對(duì)大組長的意見比較重視。

大組長先期培訓(xùn)對(duì)保障組間評(píng)分一致性有較好的作用。評(píng)卷工作開始前一天，評(píng)卷點(diǎn)點(diǎn)長組織大組長先期培訓(xùn)，時(shí)間為1.5～2小時(shí)。培訓(xùn)步驟及內(nèi)容如下：第一、點(diǎn)長總結(jié)上一次評(píng)分質(zhì)量并指出問題，將此作為本次評(píng)卷的參考。第二、評(píng)分員熟悉所評(píng)題目、復(fù)習(xí)文字評(píng)分標(biāo)準(zhǔn)、對(duì)照各個(gè)等級(jí)的樣卷討論，統(tǒng)一認(rèn)識(shí)。第三、評(píng)分員盲評(píng)專家提供的培訓(xùn)卷（專家分?jǐn)?shù)隱去），自己打分后對(duì)照專家所給分?jǐn)?shù)和等級(jí)，比較自己的與專家的分?jǐn)?shù)及等級(jí)的區(qū)別，做好給分說明記錄，以便在組內(nèi)討論。第四、大組長對(duì)培訓(xùn)卷進(jìn)行更加合理的選擇和分類，目的是界定次日集體培訓(xùn)的量。如果本次評(píng)卷中有經(jīng)驗(yàn)的評(píng)分員占絕大多數(shù)，培訓(xùn)量可適當(dāng)減少，如果新手較多，培訓(xùn)量要適當(dāng)增加。大組長根據(jù)評(píng)分員結(jié)構(gòu)情況從專家提供的4～6組培訓(xùn)卷中選出最有代表性的2～3組作為評(píng)分員首日培訓(xùn)必需試評(píng)或考核的材料，其余2～3組作為個(gè)性化培訓(xùn)材料放入評(píng)分系統(tǒng)中另一個(gè)欄目備用，在后續(xù)的分組中期培訓(xùn)或個(gè)性化持續(xù)培訓(xùn)時(shí)選用。

2. 評(píng)分員首日集體培訓(xùn)

評(píng)分員首日集體培訓(xùn)采用自上而下的模式，時(shí)間約2～2.5小時(shí)。首先，點(diǎn)長通過局域網(wǎng)聯(lián)機(jī)模式連接各個(gè)評(píng)分組工作的教室，重申安全保密條例，總結(jié)上次評(píng)分質(zhì)量，表揚(yáng)評(píng)分質(zhì)量高的評(píng)分員（宣布獎(jiǎng)勵(lì)政策），發(fā)揮“榜樣的力量”，指出發(fā)現(xiàn)的問題并提醒大家注意。之后由大組長組織本組評(píng)分員分組培訓(xùn)。培訓(xùn)步驟及內(nèi)容如下：第一，熟悉所評(píng)題目和內(nèi)容、理解并討論文字評(píng)分標(biāo)準(zhǔn)的描述及內(nèi)涵。第二，學(xué)習(xí)和討論樣卷，對(duì)照文字評(píng)分標(biāo)準(zhǔn)講解并討論專家的給分及等級(jí)。第三，全組評(píng)分員各自獨(dú)立試評(píng)一組培訓(xùn)卷（隱去專家給分）并在網(wǎng)上提交自己的給分。待本組所有評(píng)分員完成后，組長公布專家的給分及等級(jí)，檢查本組評(píng)分員給分的等級(jí)差異，針對(duì)差異較大的給分結(jié)合評(píng)分標(biāo)準(zhǔn)及樣卷進(jìn)行小組集體討論和交流，使評(píng)分員及時(shí)調(diào)整自己與評(píng)分標(biāo)準(zhǔn)的差距。第四，組織本組評(píng)分員繼續(xù)對(duì)第二組及第三組培訓(xùn)卷進(jìn)行兩輪考核式評(píng)分，組長進(jìn)一步組織討論，統(tǒng)一大家的認(rèn)識(shí)和定位，評(píng)分員再次調(diào)整或縮小自己與評(píng)分標(biāo)準(zhǔn)的差距，為實(shí)際評(píng)分中判分的一致性打下基礎(chǔ)。第五，考核過關(guān)的評(píng)分員經(jīng)大組長允許可以開始正式評(píng)分。第六，對(duì)仍有問題的評(píng)分員由大組長個(gè)別“約談”，面對(duì)面進(jìn)行個(gè)性化、針對(duì)性培訓(xùn)，合格后方可開始正式評(píng)分。

3. 評(píng)分員分組中期培訓(xùn)

評(píng)分員分組中期培訓(xùn)既有半針對(duì)性的性質(zhì)，也有階段性校正的特點(diǎn)，一般在第二天開始評(píng)分前進(jìn)行。經(jīng)過首日培訓(xùn)及評(píng)分后，大組長及專家通過評(píng)分系統(tǒng)提供的實(shí)時(shí)反饋數(shù)據(jù)及自己的抽查和評(píng)估會(huì)發(fā)現(xiàn)一些針對(duì)性問題，例如有的評(píng)分員在不同方面對(duì)標(biāo)準(zhǔn)的把握有自己的側(cè)重和偏移，有的給分寬嚴(yán)程度有差異、有的有趨中給分等現(xiàn)象。中期培訓(xùn)在大組長主持下，首先針對(duì)本組前一天評(píng)分情況進(jìn)行簡(jiǎn)要小結(jié)，指出具體問題。然后重溫標(biāo)準(zhǔn)樣卷，尤其是對(duì)中間的B級(jí)和C級(jí)兩個(gè)等級(jí)的區(qū)別和判斷進(jìn)行討論，以減少部分評(píng)分員對(duì)高于或低于平均水平的考生仍評(píng)為中間分值這一現(xiàn)象。討論之后選擇一組事先準(zhǔn)備好的備用考核卷進(jìn)行培訓(xùn)，評(píng)分員進(jìn)行針對(duì)性自我調(diào)整。中期培訓(xùn)的時(shí)間比較短，一般20～30分鐘，目的是讓本組評(píng)分員通過回顧樣卷及再次試評(píng)進(jìn)一步熟悉和定位評(píng)分標(biāo)準(zhǔn)，擱置自己的主觀經(jīng)驗(yàn)，逐步學(xué)會(huì)并能夠始終一致地運(yùn)用評(píng)分標(biāo)準(zhǔn)，從而提高自己在評(píng)分期間保持高水平評(píng)分質(zhì)量的能力。

CET-SET評(píng)分實(shí)行“隨機(jī)分配雙評(píng)+仲裁”的工作方式。每組兩個(gè)考生的口語錄音被隨機(jī)分發(fā)給兩位評(píng)分員背對(duì)背給每個(gè)考生評(píng)分，若二人給分誤差在允許范圍內(nèi)，該考生得分則取二人所給分?jǐn)?shù)的平均分，如果給分差值大于等于2.5分，即雙評(píng)差值閾限≥2.5分，評(píng)分系統(tǒng)會(huì)自動(dòng)將該考生的兩個(gè)得分納入仲裁程序，由專家重新給分，專家給分為最后得分。專家仲裁后被“淘汰”的那個(gè)評(píng)分由系統(tǒng)自動(dòng)記錄為“無效卷”，評(píng)分員無法獲得“無效卷”的評(píng)分酬勞，這樣做的目的是提醒評(píng)分員認(rèn)真嚴(yán)格按照評(píng)分標(biāo)準(zhǔn)評(píng)分，要對(duì)每一位考生負(fù)責(zé)。實(shí)踐證明，20～30分鐘的中期培訓(xùn)效果很好，培訓(xùn)后評(píng)分仲裁率明顯下降。表3以 CET-SET6兩個(gè)考次實(shí)考評(píng)分的仲裁率情況變化為例，說明中期培訓(xùn)的作用。

S212考次新手評(píng)分員的占比為40%，首日培訓(xùn)后進(jìn)入正評(píng)，S212考次評(píng)分仲裁率（5.86%）明顯比無新手評(píng)分員的S222考次評(píng)分仲裁率（4.08%）高。經(jīng)過中期培訓(xùn)，S212考次仲裁率為4.83%，下降了1.03%，這是不小的進(jìn)步。S222考次中期培訓(xùn)后評(píng)分仲裁率為3.62%，下降了0.46%。表3的數(shù)據(jù)說明中期培訓(xùn)對(duì)提高評(píng)分質(zhì)量是有效的，同時(shí)也說明在新手評(píng)分員比較多的情況下培訓(xùn)任務(wù)及難度會(huì)增加，因此在選擇評(píng)分培訓(xùn)的量和步驟時(shí)應(yīng)把新手評(píng)分員的占比作為一個(gè)重要因素來考量。

4. 個(gè)性化持續(xù)培訓(xùn)

上述培訓(xùn)并不能消除評(píng)分員自身的嚴(yán)厲度差異，也不能保證評(píng)分員會(huì)完全一致地對(duì)照評(píng)分標(biāo)準(zhǔn)評(píng)分。因此，評(píng)分員集中培訓(xùn)后的個(gè)性化持續(xù)培訓(xùn)必須貫穿評(píng)分過程的始終，這是提高評(píng)分質(zhì)量的另一層保障。個(gè)性化培訓(xùn)建立在首日集體培訓(xùn)和中期分組培訓(xùn)的宏觀數(shù)據(jù)反饋及大組長/專家對(duì)評(píng)分員個(gè)體微觀抽查等動(dòng)態(tài)評(píng)估的基礎(chǔ)上，與質(zhì)量監(jiān)控體系緊密相連，關(guān)注評(píng)分員在評(píng)分過程中行為的變化。這是一種自下而上的培訓(xùn)，有互動(dòng)性和針對(duì)性特點(diǎn)，對(duì)提高評(píng)分員評(píng)分自我一致性、減少隨機(jī)誤差、提高評(píng)分的準(zhǔn)確性有較好效果。

個(gè)性化培訓(xùn)步驟及內(nèi)容如下：第一，通過抽查、分類及評(píng)估，鎖定需要持續(xù)培訓(xùn)的個(gè)體目標(biāo)及特征、確定評(píng)分員間一致性較差的個(gè)體、發(fā)現(xiàn)評(píng)分誤差較大的評(píng)分員、找出給分趨中的評(píng)分員等。這需要大組長及專家熟練運(yùn)用在線評(píng)分系統(tǒng)提供的反饋數(shù)據(jù)，以及根據(jù)微觀抽查發(fā)現(xiàn)的問題，找到監(jiān)控的關(guān)注重點(diǎn)，再針對(duì)個(gè)體評(píng)分員不同的評(píng)分行為及時(shí)糾正偏差。第二，根據(jù)不同情況采用不同的控制偏差的工作方式，目的是使這部分評(píng)分員能前后一致地使用評(píng)分標(biāo)準(zhǔn)。誤差產(chǎn)生的原因各不相同：有些因?yàn)樵u(píng)分員的不同背景因素，例如教學(xué)經(jīng)歷、個(gè)人特點(diǎn)、認(rèn)知方式等；有些因?yàn)閷?duì)嚴(yán)厲度的把握有偏見而產(chǎn)生給分偏寬或偏嚴(yán)；有些則因?yàn)閷?duì)評(píng)分標(biāo)準(zhǔn)的側(cè)重點(diǎn)有偏差；還有些與個(gè)人的責(zé)任心和工作態(tài)度有關(guān)。個(gè)性化培訓(xùn)非?？简?yàn)大組長及專家對(duì)不同類型的評(píng)分員誤差特征進(jìn)行判斷的能力以及與評(píng)分員協(xié)調(diào)交流的能力。由于持續(xù)培訓(xùn)結(jié)合了個(gè)性化反饋，對(duì)評(píng)分員減少評(píng)分過程中各種偏差、提高評(píng)分質(zhì)量有很大幫助。

六、CET-SET評(píng)分過程動(dòng)態(tài)監(jiān)控

（一）監(jiān)控體系的建構(gòu)

在十余年的CET-SET在線評(píng)分中我們觀察到，經(jīng)過幾輪嚴(yán)格培訓(xùn)及糾偏之后，評(píng)分中一般不會(huì)出現(xiàn)較大面積的系統(tǒng)性誤差。很多誤差則來自評(píng)分員個(gè)體原因，產(chǎn)生“評(píng)分者效應(yīng)”（rater effects）或“評(píng)分者漂移”（rater drift）現(xiàn)象［17］，即評(píng)分員自身的各種因素導(dǎo)致的評(píng)分不一致或評(píng)分波動(dòng)引起的誤差。這一情況與趙海燕等人的研究結(jié)論吻合［18］。因此，通過建立科學(xué)的監(jiān)控機(jī)制幫助我們及時(shí)發(fā)現(xiàn)評(píng)分過程中因評(píng)分者效應(yīng)導(dǎo)致的各種動(dòng)態(tài)誤差并進(jìn)行針對(duì)性控制，對(duì)保障評(píng)分質(zhì)量有十分重要的作用。

大規(guī)模口語考試評(píng)分過程中的動(dòng)態(tài)監(jiān)控并不是評(píng)分大組長或?qū)＜译S意而行的事情。監(jiān)控什么，如何監(jiān)控，怎樣把關(guān)，如何及時(shí)準(zhǔn)確發(fā)現(xiàn)評(píng)分員個(gè)體誤差、找到產(chǎn)生誤差的原因，運(yùn)用哪些方法或策略進(jìn)行針對(duì)性實(shí)時(shí)控制等，是擺在大組長及專家面前的挑戰(zhàn)，也是CET-SET評(píng)分監(jiān)控中面臨的首要任務(wù)。為此，我們構(gòu)建了一個(gè)評(píng)分過程動(dòng)態(tài)監(jiān)控體系（見圖5），該監(jiān)控體系明確了監(jiān)控中重要的質(zhì)量把關(guān)點(diǎn)CET-SET的評(píng)分速度已由評(píng)分軟件自動(dòng)控制。以CET-SET6為例，評(píng)分員不聽完所有應(yīng)評(píng)分的四項(xiàng)任務(wù)則無法提交成績，無法進(jìn)入下一組考生的評(píng)分。因此作為監(jiān)控中關(guān)鍵質(zhì)量把關(guān)點(diǎn)之一的評(píng)分速度控制沒有列在圖5的監(jiān)控體系內(nèi)。、界定了這些關(guān)鍵節(jié)點(diǎn)的主要監(jiān)控維度及內(nèi)容，并對(duì)評(píng)分誤差控制策略提出了建議，目的是提高監(jiān)控的質(zhì)量和效率、提高監(jiān)控中控制誤差的有效性和準(zhǔn)確性，指導(dǎo)大組長/專家進(jìn)行監(jiān)控及糾偏工作。

圖5中的三個(gè)工作模塊，分別代表該體系中三個(gè)關(guān)鍵要素，各自有不同的工作重點(diǎn)和目的，模塊間相互影響、相互關(guān)聯(lián)，共同對(duì)提高CET-SET口語評(píng)分過程的監(jiān)控質(zhì)量和效率發(fā)揮作用。其中“監(jiān)控關(guān)鍵質(zhì)量把關(guān)點(diǎn)”指向監(jiān)控的主要內(nèi)容及維度，目的是幫助大組長/專家鎖定監(jiān)控重點(diǎn)目標(biāo)；“監(jiān)控方法”指向怎樣監(jiān)控，目的是找到誤差產(chǎn)生的個(gè)體原因；“誤差控制策略”指向如何實(shí)施監(jiān)控，目的是提高控制誤差的實(shí)效，把誤差控制到最低。

在監(jiān)控的實(shí)操中有評(píng)卷點(diǎn)點(diǎn)長/專家層面的監(jiān)控和大組長層面的監(jiān)控。兩個(gè)層面監(jiān)控的把關(guān)點(diǎn)相同，但側(cè)重點(diǎn)和作用不同。點(diǎn)長/專家的作用是掌控全局，既要從宏觀上對(duì)培訓(xùn)質(zhì)量和評(píng)分質(zhì)量整體把關(guān)，避免出現(xiàn)整體性偏差，如組間評(píng)分一致性偏差、系統(tǒng)性給分過高或過低以及大面積給分趨中現(xiàn)象等，又要從微觀上監(jiān)測(cè)評(píng)分過程中出現(xiàn)的典型問題和評(píng)分員自身的極端偏差及異常情況，提醒大組長注意，必要時(shí)直接與問題評(píng)分員溝通交流。大組長的作用是對(duì)本組評(píng)分質(zhì)量負(fù)責(zé)，其監(jiān)控內(nèi)容更加微觀和具體、更加細(xì)致。大組長經(jīng)常直接面對(duì)面與評(píng)分員交談?dòng)懻摚窃u(píng)分質(zhì)量把關(guān)的一線指揮官。

（二）監(jiān)控中的關(guān)鍵質(zhì)量把關(guān)點(diǎn)

CET筆試主觀題作文/翻譯在線評(píng)分都有考生的客觀成績作參考，有主—客觀相關(guān)成績的對(duì)比作為監(jiān)控的整體質(zhì)量考量參數(shù)之一，CET-SET則沒有，其監(jiān)控體系中的關(guān)鍵質(zhì)量把關(guān)點(diǎn)主要瞄準(zhǔn)以下五個(gè)方面。一是組間一致性，即不同評(píng)分大組間的分?jǐn)?shù)等級(jí)分布曲線一致性，避免出現(xiàn)局部性系統(tǒng)偏差。二是均分之差，即某位評(píng)分員的平均分與本組及全體評(píng)分員的平均分對(duì)比之差。及時(shí)發(fā)現(xiàn)給分過寬或過嚴(yán)的個(gè)體，根據(jù)均分之差衡量評(píng)分員對(duì)評(píng)分嚴(yán)厲度的把握。三是標(biāo)準(zhǔn)差，根據(jù)標(biāo)準(zhǔn)差判斷離散情況，即把某個(gè)體評(píng)分員的標(biāo)準(zhǔn)差與同組及全體評(píng)分員進(jìn)行比較，標(biāo)準(zhǔn)差偏低說明有給分趨中傾向，偏高則說明有發(fā)散給分傾向。監(jiān)控離散情況時(shí)同時(shí)要查看相關(guān)評(píng)分員的給分分布，準(zhǔn)確定位某評(píng)分員的給分主要集中在哪個(gè)區(qū)間或哪個(gè)分?jǐn)?shù)等級(jí)，以便針對(duì)性糾正。四是依據(jù)仲裁后的無效卷數(shù)量和百分比，判斷評(píng)分員能否前后一致地使用評(píng)分標(biāo)準(zhǔn)。需要注意的是，這四項(xiàng)監(jiān)控指標(biāo)都要在有一定閱卷量及統(tǒng)計(jì)數(shù)據(jù)的前提下才有意義。因此，評(píng)分前期的監(jiān)控需參考培訓(xùn)時(shí)記錄的數(shù)據(jù)及高頻抽查時(shí)鎖定的重點(diǎn)目標(biāo)。五是評(píng)分員是否對(duì)評(píng)分工作認(rèn)真負(fù)責(zé)。這一點(diǎn)對(duì)保障評(píng)分質(zhì)量相當(dāng)重要。評(píng)估時(shí)既要綜合考慮評(píng)分員的均分之差、標(biāo)準(zhǔn)差、無效卷率等多個(gè)維度的參數(shù)是否頻繁出現(xiàn)異常，又要多方面觀察其整體表現(xiàn)，例如是否常遲到早退、是否不負(fù)責(zé)任地打中間分等。對(duì)于責(zé)任心不強(qiáng)的評(píng)分員堅(jiān)決不讓其再次閱卷。有數(shù)據(jù)作支撐加上多方觀察，可比較全面客觀地評(píng)價(jià)評(píng)分員的表現(xiàn)和評(píng)分質(zhì)量，為建立評(píng)分員信息庫、優(yōu)化評(píng)分員隊(duì)伍、淘汰不合格評(píng)分員、挑選優(yōu)秀評(píng)分員、選拔未來大組長或?qū)＜倚驮u(píng)分員提供可靠依據(jù)和參考。

（三）監(jiān)控的方法

發(fā)揮數(shù)據(jù)的功效是CET-SET評(píng)分監(jiān)控中必用的手段之一。有效利用實(shí)時(shí)數(shù)據(jù)可以將原來大海撈針式的、盲目的抽查劃定在一個(gè)有針對(duì)性的范圍內(nèi)，使抽查變得更有目的性、更容易發(fā)現(xiàn)問題、更加準(zhǔn)確鎖定重點(diǎn)抽查對(duì)象。但對(duì)數(shù)據(jù)的定量分析必須和針對(duì)性抽查的定性分析結(jié)合起來運(yùn)用，只有這樣才能確認(rèn)評(píng)分員產(chǎn)生個(gè)體誤差背后的深層原因。評(píng)分系統(tǒng)提供的數(shù)據(jù)是一組一組“冷漠的”量化數(shù)字和曲線，顯示的是評(píng)分員評(píng)分行為的某種宏觀傾向或趨勢(shì)，并不能顯示評(píng)分員在微觀層面自身一致性波動(dòng)產(chǎn)生誤差的內(nèi)在個(gè)體原因。因此，專家及大組長以數(shù)據(jù)為基礎(chǔ)的質(zhì)性化抽查與分析是深入探究潛在誤差和確認(rèn)誤差產(chǎn)生的深層原因的相當(dāng)有效的方法。專家及大組長必要時(shí)可借鑒有聲思維的方法，及時(shí)進(jìn)行一對(duì)一約談，詢問并傾聽評(píng)分員的給分原因，探明問題的隱性根源及類型，這樣才能針對(duì)性解決相關(guān)問題。例如，某位評(píng)分員“覺得這個(gè)考生的語音語調(diào)特別好，所以給了高分”，這表明該評(píng)分員對(duì)評(píng)分標(biāo)準(zhǔn)的理解有偏差，看重考生發(fā)音而忽視了評(píng)分標(biāo)準(zhǔn)的其他維度，如內(nèi)容和切題性。另一位評(píng)分員認(rèn)為“我平時(shí)教英語專業(yè)口語，要求高給分嚴(yán)，對(duì)四六級(jí)口語考試也容不得考生的表達(dá)有語法錯(cuò)誤，所以給這位考生低分”，這表明該評(píng)分員還未從自己的背景和教學(xué)經(jīng)驗(yàn)中脫離出來，還未突破自我局限，以自己固有的標(biāo)準(zhǔn)代替了CET-SET的評(píng)分標(biāo)準(zhǔn)。還有一位評(píng)分員覺得“這個(gè)考生不停地在說，感覺挺流利的，就給了B級(jí)”。大組長與該評(píng)分員一起仔細(xì)聽錄音后發(fā)現(xiàn)該考生事先背了一些“模板句”，考試時(shí)將題目中的關(guān)鍵詞填進(jìn)去，發(fā)言似乎“流利”，但連貫性差，內(nèi)容空洞，適切性差，答非所問，這說明該評(píng)分員評(píng)分時(shí)比較草率，沒有仔細(xì)分辨考生發(fā)言的內(nèi)容是否切題和連貫等。專家及大組長對(duì)此類評(píng)分員要特別注意，須加大后續(xù)抽查及個(gè)性化反饋—提醒力度，以防出現(xiàn)因責(zé)任心問題產(chǎn)生的誤差。此外，跟進(jìn)式高頻抽查的方法可以幫助我們及時(shí)確認(rèn)波動(dòng)較大或存在問題較多的評(píng)分員在經(jīng)過約談或提醒之后是否有改進(jìn)。只有探明誤差產(chǎn)生的個(gè)體原因，才能使反饋信息更具體、更準(zhǔn)確，使評(píng)分員充分認(rèn)識(shí)到自己所存在的問題，從而提高誤差控制的實(shí)效。

（四）誤差控制方法

如前所述，CET-SET的評(píng)分誤差多來自評(píng)分員個(gè)體原因?qū)е碌脑u(píng)分不一致或評(píng)分波動(dòng)引起的誤差，這也是控制誤差的重點(diǎn)。借助數(shù)據(jù)鎖定重點(diǎn)監(jiān)控目標(biāo)、通過抽查及約談探明誤差產(chǎn)生的潛在原因盡管對(duì)誤差控制很有幫助，但并不能保證誤差控制的效果，因此選擇控制誤差的方法和策略則非常重要。方式不對(duì)則效果不好，因?yàn)槲覀兠鎸?duì)的評(píng)分員來自不同高校，其中不少有高級(jí)職稱，有自己的背景、教學(xué)經(jīng)驗(yàn)以及固有的心理認(rèn)知模式，大組長/專家須根據(jù)不同類型的誤差和誤差產(chǎn)生的原因選擇不同的方法或策略，避免只用數(shù)據(jù)說話和用簡(jiǎn)單的批評(píng)式方法糾正誤差，應(yīng)針對(duì)不同的個(gè)體、不同的問題采用不同的方法，例如采用針對(duì)性約談、個(gè)性化線上反饋有針對(duì)性的問題、針對(duì)性再進(jìn)行培訓(xùn)/考核，以及對(duì)誤差大的試卷返回重評(píng)等方法，還可根據(jù)評(píng)分前期、中期和后期評(píng)分員的動(dòng)態(tài)變化選擇適當(dāng)?shù)谋O(jiān)控方法。總之，目的只有一個(gè)，即把誤差控制到最低。

七、結(jié)語及啟示

減少主觀題評(píng)分誤差是國內(nèi)外學(xué)者長期不懈的研究課題，也是世界性難題。本文將大規(guī)?？谡Z考試在線評(píng)分質(zhì)量保障體系作為一項(xiàng)系統(tǒng)工程，運(yùn)用歸納分析及個(gè)案分析的方法，從CET-SET6評(píng)分標(biāo)準(zhǔn)及評(píng)分方法入手，解讀了CET-SET評(píng)分標(biāo)準(zhǔn)化流程頂層設(shè)計(jì)，把評(píng)分質(zhì)量保障體系中的三個(gè)子系統(tǒng)，即專家挑選樣卷及培訓(xùn)卷工作流程體系、評(píng)卷員評(píng)分培訓(xùn)體系、評(píng)分過程動(dòng)態(tài)監(jiān)控體系整合在一起，作為大規(guī)模英語口語考試評(píng)分質(zhì)量保障體系建設(shè)的一部分。本文分析了這些體系中的主要工作模塊、工作流程和不同管理層面的操作，探討了它們?nèi)绾蜗嗷リP(guān)聯(lián)、相互影響，共同對(duì)保障大規(guī)模CET-SET口語評(píng)卷的整體質(zhì)量發(fā)揮作用，進(jìn)而有效地對(duì)評(píng)分誤差進(jìn)行控制，提高CET-SET評(píng)分的信度和效度。期望本文能為進(jìn)一步完善CET-SET評(píng)分質(zhì)量保障體系提供參考，也為提高大規(guī)模、高風(fēng)險(xiǎn)口語考試評(píng)分質(zhì)量管理提供一定的借鑒和參考。

參考文獻(xiàn)：

［1］羅娟，肖云南.高風(fēng)險(xiǎn)語言測(cè)試的公平性檢驗(yàn)框架研究——以高考英語為例［J］.外語學(xué)刊，2018，（1）：86-91.

［2］金艷，王偉，張曉藝，等.大學(xué)英語四級(jí)口語考試自動(dòng)評(píng)分效度初探［J］.中國考試，2020，（7）：25-33.

［3］張曉藝，金艷.評(píng)分量表對(duì)口語考試構(gòu)念效度的影響：交互構(gòu)念理論視角［J］.外語界，2019，（1）：61-70.

［4］王海貞.基于評(píng)分過程證據(jù)的英語專業(yè)四級(jí)口試效度研究［J］.解放軍外國語學(xué)院學(xué)報(bào)，2007，30（4）：49-53+68.

［5］金檀，劉力，郭凱.口語測(cè)試評(píng)分標(biāo)準(zhǔn)研究與實(shí)踐三十年［J］.現(xiàn)代外語，2016，39（6）：853-862.

［6］劉建達(dá)，呂劍濤.大規(guī)模計(jì)算機(jī)口試分析評(píng)分效度研究［J］.現(xiàn)代外語，2015，38（2）：248-257+297.

［7］呂長竑，宋冰，王焰，等.口語測(cè)試評(píng)分標(biāo)準(zhǔn)比較研究［J］.外語教學(xué)與研究，2008，40（6）：440-446+481.

［8］張潔.PETS三級(jí)口語考試評(píng)分誤差研究——結(jié)合定量統(tǒng)計(jì)和定性描述的方法［J］.外語測(cè)試與教學(xué)，2012，（2）：33-42.

［9］戴朝暉，尤其達(dá).大學(xué)英語計(jì)算機(jī)口語考試評(píng)分者偏差分析［J］.外語界，2010，（5）：87-95.

［10］徐柳，蔡宏文.英語口語測(cè)試任務(wù)特征對(duì)評(píng)分員關(guān)注點(diǎn)的影響［J］.現(xiàn)代外語，2019，42（4）：540-551.

［11］呂鳴.智能測(cè)評(píng)技術(shù)在大規(guī)模英語口語考試評(píng)卷中的探索與實(shí)踐［J］.中國考試，2015，（10）：51-57.

［12］金艷，王偉，楊浩然.語言測(cè)試中的技術(shù)應(yīng)用：基于大學(xué)英語四、六級(jí)考試的實(shí)踐分析［J］.外語測(cè)試與教學(xué)，2021，（1）：1-7，27.

［13］孫海洋，張敏.英語口語機(jī)器評(píng)分和人工評(píng)分的對(duì)比研究［J］.外語研究，2020，（4）：57-62+105，112.

［14］金艷，揭薇.中國英語能力等級(jí)量表的“口語量表”制定原則和方法［J］.外語界，2017，（2）：10-19.

［15］金艷，楊惠中.走中國特色的語言測(cè)試道路：大學(xué)英語四、六級(jí)考試三十年的啟示［J］.外語界，2018，（2）：29-39.

［16］徐鷹，曾用強(qiáng).評(píng)分人培訓(xùn)的研究現(xiàn)狀及展望［J］.中國考試，2014，（2）：10-18.

［17］Jing Huang，Gaowei Chen.Individualized Feedback to Raters in Language Assessment：Impacts on Rater" Effects［J］.Assessing Writing，2022，52（4）：1-14.

［18］趙海燕，辛濤，田偉.大規(guī)模教育考試作文評(píng)分的趨中漂移和不準(zhǔn)確性漂移研究［J］.中國考試，2020，（3）：13-20.

Construction of Rating Quality Assurance System for Large-scale English Oral Test： Taking CET-SET6 Online Scoring as an Example

XIA Weirong， TANG Jun， YANG Lin， LI Wei

Abstract： Establishing a quality assurance system for online scoring of large-scale foreign language oral proficiency examinations is not only a comprehensive undertaking but also a crucial step in ensuring the reliability and validity of scoring. Guided by the overarching framework of the process for the College English Test （CET） in China， the development of a three-dimensional quality assurance system integrates various subsystems at different levels to ensure the selection of range finders and samples for rater training assessment， the online training of raters， and the dynamic monitoring of the scoring process. This systematic approach facilitates the step-by-step implementation of standardized mechanisms. From both macro and micro management perspectives， this system effectively controls scoring errors at different levels， thereby reducing scoring discrepancies resulting from subjective factors among raters. Practical application of this quality assurance system in CET-SET6 online rating demonstrates its effectiveness in enhancing the reliability and validity of scoring， consequently ensuring the overall quality of the scoring process. Furthermore， the construction of this system can serve as a model for enhancing the management of online rating quality in other large-scale， high-risk oral test scoring.

Key words： Large-scale English oral test; quality assurance system; CET-SET6 on-line scoring; rater training system; dynamic monitoring system

（責(zé)任編輯：陳艷艷）

基金項(xiàng)目：四川省教育考試院2021年重點(diǎn)科研課題“中國特色的大規(guī)模大學(xué)英語四、六級(jí)口語考試：四川省中心考點(diǎn)機(jī)考回顧及反思”（KSYZ20210006）

作者簡(jiǎn)介：夏偉蓉，西南交通大學(xué)外國語學(xué)院教授，主要從事外國語言學(xué)及應(yīng)用語言學(xué)研究，E-mail：kwxiao@139.com;唐俊、楊林、李巍，四川省教育考試院。

引用格式：夏偉蓉.大規(guī)模英語口語考試評(píng)分質(zhì)量保障體系建設(shè)——以CET-SET6在線評(píng)分為例［J］.西南交通大學(xué)學(xué)報(bào)（社會(huì)科學(xué)版），2024，（4）：51-67.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大規(guī)模英語口語考試評(píng)分質(zhì)量保障體系建設(shè)