亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大規(guī)模英語(yǔ)口語(yǔ)考試評(píng)分質(zhì)量保障體系建設(shè)

        2024-01-01 00:00:00夏偉蓉唐俊楊林李巍
        關(guān)鍵詞:評(píng)卷評(píng)分標(biāo)準(zhǔn)口語(yǔ)

        摘 要: 大規(guī)模外語(yǔ)口語(yǔ)考試在線評(píng)分質(zhì)量體系建設(shè)是一項(xiàng)系統(tǒng)工程,也是保障評(píng)分信度和可靠性的關(guān)鍵環(huán)節(jié)。在全國(guó)大學(xué)英語(yǔ)四、六級(jí)考試(CET)在線評(píng)分流程頂層設(shè)計(jì)指導(dǎo)下,三維度在線評(píng)分質(zhì)量保障體系將口語(yǔ)評(píng)分過(guò)程中樣卷及培訓(xùn)卷挑選流程、評(píng)分員培訓(xùn)流程、評(píng)分過(guò)程動(dòng)態(tài)監(jiān)控流程三個(gè)不同層面的子系統(tǒng)一環(huán)扣一環(huán)關(guān)聯(lián)起來(lái),使標(biāo)準(zhǔn)化工作機(jī)制一步一步落到實(shí)處。該體系從宏觀和微觀的管理視角,自上而下而又自下而上地從不同層面對(duì)評(píng)分誤差進(jìn)行控制,以降低評(píng)分中因評(píng)分員主觀因素造成的給分差異。CET-SET6在線評(píng)分實(shí)踐表明,該保障體系的實(shí)施提升了CET-SET評(píng)分信度和效度,有效保障了評(píng)分質(zhì)量。該體系的建設(shè)也可為提高大規(guī)模、高風(fēng)險(xiǎn)考試在線評(píng)分信度、效度及質(zhì)量管理水平提供一定的借鑒和參考。

        關(guān)鍵詞: 大規(guī)??谡Z(yǔ)考試;評(píng)分質(zhì)量保障體系;CET-SET在線評(píng)分;培訓(xùn)體系;動(dòng)態(tài)監(jiān)控體系

        一、引言

        評(píng)分質(zhì)量高低關(guān)乎大規(guī)模考試分?jǐn)?shù)的可比性和可解釋性,與命題、施測(cè)等環(huán)節(jié)一樣是保證考試結(jié)果公平公正的一個(gè)重要環(huán)節(jié)[1]。全國(guó)大學(xué)英語(yǔ)四、六級(jí)口語(yǔ)考試(College English Test-Spoken English Test,以下簡(jiǎn)稱CET-SET)1999年開始施考,以兩位經(jīng)過(guò)嚴(yán)格培訓(xùn)和選拔的授權(quán)考官對(duì)3~4位考生面試的方式進(jìn)行了13年。由于受場(chǎng)地及考官數(shù)量限制,每年考生規(guī)模控制在10萬(wàn)人左右。2013年CET-SET計(jì)算機(jī)網(wǎng)絡(luò)化考試在全國(guó)鋪開,極大提高了考試效率,降低了考試成本和組織難度,使大規(guī)模CET-SET考試成為現(xiàn)實(shí)。至新冠疫情前的2019年,考生規(guī)模已達(dá)到每年近百萬(wàn)人[2]。新冠疫情后考生規(guī)模逐步恢復(fù),在不遠(yuǎn)的將來(lái)CET-SET會(huì)成為CET考試不可或缺的項(xiàng)目之一。

        大規(guī)模口語(yǔ)考試評(píng)分的主觀性很強(qiáng),其評(píng)分質(zhì)量是保證考試信度和效度的關(guān)鍵環(huán)節(jié)。CET-SET 2013年實(shí)施網(wǎng)絡(luò)化在線集中評(píng)分至今已11年。近年來(lái)國(guó)內(nèi)學(xué)者對(duì)口語(yǔ)考試評(píng)分質(zhì)量從不同方面做了研究,成果主要集中在四個(gè)方面。第一,口語(yǔ)評(píng)分的效度[3~4]。張曉藝、金艷從交互構(gòu)念理論視角設(shè)計(jì)了“按能力分項(xiàng)評(píng)分量表”和“按任務(wù)評(píng)分量表”,比較了兩種量表對(duì)評(píng)分結(jié)果以及對(duì)考試構(gòu)念效度的影響[3];王海貞用內(nèi)省法收集TEM4口語(yǔ)評(píng)分員對(duì)評(píng)分過(guò)程的口頭反饋,檢驗(yàn)了口試評(píng)分的構(gòu)念效度,建立了一個(gè)影響口語(yǔ)評(píng)分和分?jǐn)?shù)解釋的因素模型[4]。第二,不同評(píng)分方法對(duì)評(píng)分效果的比較[5~9]。此類研究的結(jié)論不盡相同。劉建達(dá)、呂劍濤從評(píng)分一致性和分?jǐn)?shù)維度差異的角度考查了整體評(píng)分法(holistic scoring)和分析評(píng)分法(analytic scoring)的評(píng)分效果,發(fā)現(xiàn)用分析評(píng)分法“評(píng)卷員內(nèi)部一致性較高”,而用整體評(píng)分法評(píng)分員容易出現(xiàn)趨中給分現(xiàn)象[6];呂長(zhǎng)竑等人以校本口語(yǔ)考試為例,比較了分解評(píng)分(analytic scoring)、整體評(píng)分(holistic scoring)、任務(wù)分項(xiàng)評(píng)分(item analytical scoring)的同質(zhì)性、效度、信度和可操作性程度,發(fā)現(xiàn)整體評(píng)分法“操作性較強(qiáng),效度和信度相對(duì)較高”[7];張潔分析了PETS三級(jí)口語(yǔ)考試評(píng)分誤差程度和原因,發(fā)現(xiàn)整體評(píng)分法“對(duì)考生能力的區(qū)分度較弱”[8],這一結(jié)論在一定程度上與劉建達(dá)、呂劍濤的研究結(jié)論吻合。這些不同研究結(jié)果說(shuō)明哪種評(píng)分方法更適合大規(guī)模口語(yǔ)考試評(píng)分仍需深入研究。第三,口語(yǔ)評(píng)分者偏差及因素研究。此類研究將評(píng)分員作為考查對(duì)象,分析評(píng)分員自身一致性及誤差產(chǎn)生的原因,探索控制誤差提高評(píng)分質(zhì)量的方案[9~10]。如戴朝暉、尤其達(dá)運(yùn)用多側(cè)面Rasch模型,探討了校本大學(xué)英語(yǔ)口語(yǔ)考試評(píng)分者的寬嚴(yán)偏差及自身一致性偏差對(duì)評(píng)分效果的影響[9]。第四,口語(yǔ)機(jī)器評(píng)分系統(tǒng)驗(yàn)證及可行性研究,探索人工智能評(píng)分的質(zhì)量和準(zhǔn)確性[2,11~13]。金艷等人以CET-SET4口語(yǔ)評(píng)分為例,對(duì)我國(guó)自主研發(fā)的科大訊飛智能口語(yǔ)評(píng)分系統(tǒng)進(jìn)行了效度驗(yàn)證,研究證明人—機(jī)評(píng)分結(jié)果有較好的相關(guān)性和分?jǐn)?shù)等級(jí)分布一致性。由于人工智能評(píng)分技術(shù)還不成熟,研究尚不夠深入,仍有很多問(wèn)題需要進(jìn)一步驗(yàn)證,目前人工智能評(píng)分在大規(guī)??谡Z(yǔ)考試中尚不能代替人工評(píng)分,只能“作為人工評(píng)分的質(zhì)檢或補(bǔ)充手段”[2]。

        從上述研究可以看出,已有文獻(xiàn)對(duì)大規(guī)??谡Z(yǔ)考試評(píng)分質(zhì)量保障體系建設(shè)的研究尚顯不足,尤其是針對(duì)CET-SET這種高風(fēng)險(xiǎn)全國(guó)統(tǒng)一口語(yǔ)考試,從評(píng)分信度的角度建立評(píng)分質(zhì)量保障體系的研究很少。隨著CET筆試與口試一體化進(jìn)程的逐步推進(jìn)和實(shí)施,CET-SET必將成為CET必考項(xiàng)目,考生規(guī)模會(huì)越來(lái)越大,評(píng)卷任務(wù)也會(huì)越來(lái)越重。如何在全國(guó)有十多個(gè)評(píng)卷點(diǎn),每次考試有二十多個(gè)不同題目的情況下,通過(guò)構(gòu)建評(píng)分質(zhì)量保障體系為CET-SET評(píng)分結(jié)果的一致性或可比性保駕護(hù)航?為此,本文以CET-SET-6在線評(píng)分為例,立足中國(guó)國(guó)情及CET-SET口語(yǔ)評(píng)分現(xiàn)狀,從宏觀和微觀的管理視角以及評(píng)分過(guò)程多維度保障體系構(gòu)建視角,探討CET-SET評(píng)分質(zhì)量保障體系建設(shè),管窺其中不同管理層面的操作,以期為提高大規(guī)模、高風(fēng)險(xiǎn)口語(yǔ)考試評(píng)分信度、效度及質(zhì)量管理提供一定借鑒和參考。

        二、CET-SET三維度評(píng)分質(zhì)量保障體系

        建立評(píng)分質(zhì)量保障體系總體模型是建構(gòu)在線評(píng)分系統(tǒng)工程的第一步。該模型是在全國(guó)大學(xué)英語(yǔ)四、六級(jí)考試委員會(huì)制定的評(píng)分流程頂層框架指導(dǎo)下的延伸和完善,含三個(gè)子系統(tǒng):專家挑選樣卷/培訓(xùn)卷流程系統(tǒng)、評(píng)分員培訓(xùn)系統(tǒng)、評(píng)分過(guò)程動(dòng)態(tài)實(shí)時(shí)監(jiān)控系統(tǒng)。每個(gè)子系統(tǒng)從評(píng)分的不同層面、不同關(guān)鍵節(jié)點(diǎn)把關(guān),各體系相互關(guān)聯(lián)共同形成一個(gè)自上而下而又自下而上的保障體系,為評(píng)卷質(zhì)量保駕護(hù)航,各個(gè)系統(tǒng)間的關(guān)系及作用見圖1。

        圖1中CET-SET的文字評(píng)分標(biāo)準(zhǔn)體現(xiàn)的是該項(xiàng)考試的構(gòu)念效度,是對(duì)考生口語(yǔ)能力做出的操作性界定,評(píng)分方法是實(shí)現(xiàn)的路徑;評(píng)分流程的頂層設(shè)計(jì)是為了使評(píng)分過(guò)程標(biāo)準(zhǔn)化、規(guī)范化和科學(xué)化,指導(dǎo)三個(gè)子系統(tǒng)的科學(xué)運(yùn)作;專家挑選樣卷及培訓(xùn)卷體系的作用是為評(píng)分培訓(xùn)提供參考;評(píng)分過(guò)程動(dòng)態(tài)監(jiān)控體系則對(duì)評(píng)分員在評(píng)分過(guò)程中出現(xiàn)的各種偏差進(jìn)行實(shí)時(shí)監(jiān)控。

        三、CET-SET6考試內(nèi)容、評(píng)分標(biāo)準(zhǔn)及評(píng)分方法

        (一)考試內(nèi)容

        CET-SET有四級(jí)和六級(jí),級(jí)別不同考試內(nèi)容也有所不同。以CET-SET6為例,考試內(nèi)容含自我介紹、回答兩個(gè)問(wèn)題、個(gè)人陳述及雙人互動(dòng)(討論),其中自我介紹是考生熱身項(xiàng)目,不在評(píng)分范圍內(nèi),實(shí)際評(píng)分任務(wù)類型有四個(gè),詳見表1。

        (二)評(píng)分標(biāo)準(zhǔn)

        CET-SET6和CET-SET4的評(píng)分標(biāo)準(zhǔn)都是以大學(xué)英語(yǔ)課程教學(xué)要求(指南)中衡量考生能力水平的尺度為依據(jù),是考試構(gòu)念的操作化定義,也是控制評(píng)分誤差及評(píng)價(jià)培訓(xùn)質(zhì)量不可缺少的基本環(huán)節(jié)和前提??谡Z(yǔ)評(píng)分中,評(píng)分員對(duì)評(píng)分標(biāo)準(zhǔn)所測(cè)構(gòu)念的理解是否一致、對(duì)評(píng)分標(biāo)準(zhǔn)的把握是否準(zhǔn)確和穩(wěn)定直接影響評(píng)分信度和質(zhì)量。

        CET-SET6和CET-SET4評(píng)分標(biāo)準(zhǔn)都包括三個(gè)維度,即語(yǔ)言的準(zhǔn)確性和范圍、話語(yǔ)的長(zhǎng)短和連貫性、語(yǔ)言的靈活性和適切性,分別涉及語(yǔ)言表達(dá)、語(yǔ)篇組織及語(yǔ)用能力。其中語(yǔ)言表達(dá)包含語(yǔ)音、語(yǔ)言準(zhǔn)確度和復(fù)雜度,對(duì)語(yǔ)音的評(píng)判則采用英語(yǔ)通用語(yǔ)的觀點(diǎn),允許考生有不影響理解的母語(yǔ)口音;語(yǔ)篇組織維度包含語(yǔ)流長(zhǎng)短,內(nèi)容的相關(guān)度、豐富度和連貫性,發(fā)言中停頓的頻度和長(zhǎng)短;語(yǔ)用維度包括考生發(fā)言是否與語(yǔ)境相適應(yīng)、是否積極參與討論、討論中的貢獻(xiàn)及發(fā)言中有效信息量、交際策略的使用等。每個(gè)維度滿分5分,采用2~5的評(píng)分量表,最小間距為0.5分,共15分。三個(gè)維度的加權(quán)值依次是1.2、1.0、0.8,由評(píng)分軟件根據(jù)評(píng)分員所給分?jǐn)?shù)自動(dòng)加權(quán)計(jì)算后形成從A+到D的不同等級(jí)。

        (三)評(píng)分方法

        不同評(píng)分方法對(duì)評(píng)分效果會(huì)產(chǎn)生程度不同的影響[5~8]。CET-SET6和CET-SET4均實(shí)行分解評(píng)分法與能力等級(jí)評(píng)估相結(jié)合的方法評(píng)分。分解評(píng)分法(analytic scoring)指評(píng)分員從不同維度對(duì)考生的口語(yǔ)水平進(jìn)行評(píng)分,再根據(jù)每個(gè)維度的得分計(jì)算總分。能力等級(jí)評(píng)估法是一種整體評(píng)分法(holistic scoring),指評(píng)分員依據(jù)評(píng)分標(biāo)準(zhǔn),根據(jù)自己對(duì)考生口語(yǔ)水平的總體印象和判斷給出能力等級(jí)。能力等級(jí)評(píng)估法采用“能做”描述語(yǔ),從能做什么到能做到什么程度進(jìn)行整體評(píng)估,評(píng)判考生“運(yùn)用語(yǔ)言能力能夠完成的任務(wù)及任務(wù)的完成程度”[14]。CET-SET6能力等級(jí)描述與CET-SET4的等級(jí)描述不同,CET-SET6更注重考生對(duì)深層觀點(diǎn)及情感表達(dá)的程度,而CET-SET4則主要考查考生對(duì)某一事情的敘述。CET-SET6能力等級(jí)描述見表2。

        分解評(píng)分從微觀視角觀察考生不同維度的具體表現(xiàn),能力等級(jí)評(píng)估則從宏觀視角對(duì)考生口語(yǔ)表達(dá)的整體水平進(jìn)行評(píng)判。兩種評(píng)分方法的結(jié)合可以彌補(bǔ)各自的不足。例如,因評(píng)分員側(cè)重評(píng)分維度的不同方面或?qū)υu(píng)分標(biāo)準(zhǔn)的理解有偏差而產(chǎn)生的誤差,通過(guò)對(duì)考生的表現(xiàn)進(jìn)行整體能力等級(jí)的定位,可對(duì)分解評(píng)分的某項(xiàng)給分加以微調(diào),以更加客觀反映考生口語(yǔ)能力水平等級(jí)。

        四、CET-SET評(píng)分標(biāo)準(zhǔn)化流程體系

        (一)評(píng)分標(biāo)準(zhǔn)化流程設(shè)計(jì)

        作為大規(guī)模全國(guó)統(tǒng)一口語(yǔ)考試,CET-SET評(píng)分流程的設(shè)計(jì)關(guān)乎整個(gè)評(píng)卷質(zhì)量的上層構(gòu)筑,是評(píng)分過(guò)程標(biāo)準(zhǔn)化、規(guī)范化建設(shè)中的關(guān)鍵,也是最大限度提高評(píng)分信度的基礎(chǔ)保障。

        2007年CET筆試作文及翻譯題實(shí)施網(wǎng)絡(luò)化在線評(píng)分。為了做到分?jǐn)?shù)跨考次、跨題目、跨時(shí)間、跨評(píng)分點(diǎn)之間的一致,四、六級(jí)考委會(huì)專家制定了一套標(biāo)準(zhǔn)化評(píng)分流程[15]作為CET主觀題評(píng)分質(zhì)量保障體系的頂層設(shè)計(jì)(見圖2)。實(shí)施以來(lái)該流程體系在CET作文和翻譯題評(píng)分中不斷改進(jìn)和完善。2013年CET-SET實(shí)施在線集中評(píng)分,同樣嚴(yán)格按照該流程操作,在工作程序和組織形式上有效保證了CET-SET在線評(píng)分的科學(xué)落地。

        上述流程中的六個(gè)模塊分別代表六個(gè)不同的關(guān)鍵質(zhì)量控制點(diǎn)。上層三個(gè)模塊與評(píng)分者的直接參與有關(guān),下層三個(gè)模塊對(duì)評(píng)分結(jié)果產(chǎn)生的系統(tǒng)誤差進(jìn)行調(diào)整,與計(jì)量學(xué)技術(shù)的運(yùn)用及數(shù)據(jù)等值處理有關(guān)。這六個(gè)質(zhì)量控制點(diǎn)圍繞評(píng)分結(jié)果的一致性和分?jǐn)?shù)的等值,一環(huán)扣一環(huán)步步遞進(jìn),共同構(gòu)成CET-SET評(píng)分質(zhì)量保障體系的頂層設(shè)計(jì),使評(píng)卷過(guò)程程序化、標(biāo)準(zhǔn)化。其中上層三個(gè)模塊(即挑選標(biāo)準(zhǔn)樣卷和培訓(xùn)卷、閱卷員培訓(xùn)和試評(píng)、評(píng)卷的實(shí)時(shí)質(zhì)量監(jiān)控)為下層三個(gè)模塊(即閱卷點(diǎn)數(shù)據(jù)分析和處理、試題之間分?jǐn)?shù)等值處理、考次之間分?jǐn)?shù)等值處理)提供評(píng)分結(jié)果的數(shù)據(jù),對(duì)評(píng)分信度有直接影響,也是下層三個(gè)模塊質(zhì)量保障的前提和基礎(chǔ)。每個(gè)模塊關(guān)注評(píng)分過(guò)程中不同的關(guān)鍵要素,各自均有不同的標(biāo)準(zhǔn)化工作程序,六個(gè)子系統(tǒng)既相互關(guān)聯(lián),又相互影響,對(duì)保障CET-SET4、CET-SET6口語(yǔ)評(píng)卷的整體質(zhì)量共同發(fā)揮作用。

        由于計(jì)量學(xué)統(tǒng)計(jì)分析及數(shù)據(jù)等值處理不在本文研究范圍內(nèi),下面將聚焦樣卷及培訓(xùn)卷挑選工作流程、評(píng)分員培訓(xùn)體系及評(píng)分過(guò)程質(zhì)量監(jiān)控體系三個(gè)子系統(tǒng)的構(gòu)建,討論與評(píng)分者直接有關(guān)的CET-SET口語(yǔ)評(píng)分質(zhì)量保障體系建設(shè)和運(yùn)作機(jī)制。

        (二)樣卷及培訓(xùn)卷挑選工作

        專家依據(jù)評(píng)分標(biāo)準(zhǔn)選定的樣卷和培訓(xùn)卷是決定評(píng)分培訓(xùn)質(zhì)量的關(guān)鍵,也是控制評(píng)分誤差的第一個(gè)重要環(huán)節(jié),關(guān)系到不同試題之間、全國(guó)不同評(píng)卷點(diǎn)之間評(píng)分結(jié)果是否一致、是否有可比性的問(wèn)題。這一環(huán)節(jié)的工作為評(píng)分培訓(xùn)提供與CET-SET文字評(píng)分標(biāo)準(zhǔn)描述的等級(jí)相對(duì)應(yīng)的樣本卷及培訓(xùn)考核卷,為評(píng)分員正確理解評(píng)分標(biāo)準(zhǔn)、有效控制評(píng)分誤差提供幫助。目前每年CET-SET上半年、下半年各考一次,每次四級(jí)、六級(jí)口語(yǔ)各考一天,每天11場(chǎng),每場(chǎng)換一套試題,也就是說(shuō),每次考試各有11個(gè)平行試題。全國(guó)有11個(gè)口語(yǔ)評(píng)卷點(diǎn),通常一個(gè)評(píng)卷點(diǎn)只評(píng)閱一個(gè)試題,隨機(jī)分配。這樣做的好處是可以提高評(píng)分的穩(wěn)定性,避免因題目難易度差異導(dǎo)致評(píng)分誤差,也為后期分?jǐn)?shù)統(tǒng)計(jì)等值處理提供相對(duì)可靠的數(shù)據(jù)。CET-SET4、CET-SET6挑選標(biāo)準(zhǔn)樣卷及培訓(xùn)卷的工作由全國(guó)大學(xué)英語(yǔ)四、六級(jí)考委會(huì)組織實(shí)施。遵循一致性原則,工作程序分為專家按試題選卷、小組討論樣卷等值、全體討論樣卷等值、考委會(huì)專家審定四個(gè)標(biāo)準(zhǔn)化環(huán)節(jié)(見圖3)。

        樣卷(Range-finders)是遵照CET-SET文字評(píng)分標(biāo)準(zhǔn)描述從大量考生實(shí)考錄音中挑選出來(lái)的參照卷,分為A、B、C、D四個(gè)不同等級(jí),作為與文字標(biāo)準(zhǔn)匹配的樣本卷。培訓(xùn)卷是選出的3~6組(每2個(gè)考生為一組)、一般覆蓋A+、A、B+、B、C+、C、D不同水平等級(jí)的培訓(xùn)工作卷,其中包括處于等級(jí)臨界水平的卷子,用于評(píng)分員培訓(xùn)時(shí)的試評(píng)和考核。

        圖3流程中,每個(gè)專家首先按照各自評(píng)卷點(diǎn)要評(píng)分的試題,選好樣卷和培訓(xùn)卷。之后進(jìn)入小組討論,由組長(zhǎng)組織專家對(duì)4個(gè)不同平行試題的樣卷是否等值提出意見,同時(shí)做出給分說(shuō)明,凡是與評(píng)分標(biāo)準(zhǔn)不吻合的一律重新挑選再次討論,直到大家的意見一致為止。這樣基本做到了每4個(gè)平行試題、4個(gè)不同評(píng)卷點(diǎn)的樣卷等值。小組討論后,由考委會(huì)組織6個(gè)組22位專家共同討論所有樣卷的給分和等級(jí)是否跨試題等值??紤]到實(shí)際評(píng)分中評(píng)分員在區(qū)別中等水平的考生時(shí)容易產(chǎn)生誤差,專家們重點(diǎn)討論處于中間段的B級(jí)和C級(jí)的樣卷,并對(duì)所給分?jǐn)?shù)進(jìn)行解釋,對(duì)照評(píng)分標(biāo)準(zhǔn)說(shuō)明為什么會(huì)給這個(gè)分?jǐn)?shù),以進(jìn)一步保障所選樣卷跨試題、跨級(jí)別(四級(jí)、六級(jí))、跨評(píng)卷點(diǎn)的等值,為下一步評(píng)分員培訓(xùn)打下良好基礎(chǔ)。

        五、CET-SET評(píng)分員培訓(xùn)體系

        (一)評(píng)分培訓(xùn)作用及原則

        評(píng)分培訓(xùn)是“訓(xùn)練評(píng)分人前后一致地使用評(píng)分標(biāo)準(zhǔn)的系統(tǒng)過(guò)程”[16],目的是減少因評(píng)分員的主觀認(rèn)知差異產(chǎn)生的評(píng)分誤差,增強(qiáng)評(píng)分員自身、評(píng)分員之間、評(píng)分小組之間評(píng)分結(jié)果的一致性,幫助評(píng)分員能一致正確地理解評(píng)分標(biāo)準(zhǔn),在評(píng)分過(guò)程中始終激活評(píng)分標(biāo)準(zhǔn)并正確使用。徐鷹、曾用強(qiáng)提倡評(píng)分培訓(xùn)既要重視評(píng)分結(jié)果的一致性,也要重視培訓(xùn)的過(guò)程[16]。培訓(xùn)不是一勞永逸的,要提升培訓(xùn)質(zhì)量應(yīng)遵循三個(gè)并重的原則,即評(píng)分結(jié)果的一致性和評(píng)分過(guò)程并重,自上而下的集體培訓(xùn)和自下而上的個(gè)性化培訓(xùn)并重,首日培訓(xùn)、中期培訓(xùn)與持續(xù)培訓(xùn)并重。

        (二)評(píng)分培訓(xùn)類型、過(guò)程及流程

        本著上述原則,CET-SET的評(píng)分培訓(xùn)體系中包含四種不同類型的培訓(xùn):一是評(píng)分前一天的大組長(zhǎng)先期培訓(xùn),為次日的培訓(xùn)做準(zhǔn)備;二是評(píng)分首日的評(píng)分員集體培訓(xùn),這是自上而下的集中培訓(xùn);三是評(píng)分第二天的小組中期培訓(xùn),目的是強(qiáng)化對(duì)評(píng)分標(biāo)準(zhǔn)的理解,減少因評(píng)分員個(gè)體特征或背景差異造成對(duì)評(píng)分標(biāo)準(zhǔn)定位的“脫靶”現(xiàn)象,提高評(píng)分的一致性和準(zhǔn)確性;四是貫穿評(píng)分全過(guò)程的個(gè)性化持續(xù)培訓(xùn),這是一種自下而上的針對(duì)性互動(dòng)性培訓(xùn)。這四類培訓(xùn)均與評(píng)分質(zhì)量監(jiān)控體系緊密相連(見圖4)??紤]到線上評(píng)分時(shí)評(píng)分員戴著耳機(jī)工作強(qiáng)度大,容易產(chǎn)生疲勞,目前CET-SET評(píng)分一般持續(xù)2天左右,每天評(píng)卷時(shí)長(zhǎng)不超過(guò)7小時(shí)。

        1. 大組長(zhǎng)先期培訓(xùn)

        評(píng)分組大組長(zhǎng)是CET-SET評(píng)分質(zhì)量保障體系中的關(guān)鍵人物。大組長(zhǎng)人選是從多次評(píng)分中認(rèn)真負(fù)責(zé)、評(píng)卷質(zhì)量?jī)?yōu)秀、情緒穩(wěn)定、有協(xié)調(diào)能力的杰出評(píng)分員中選拔的。大組長(zhǎng)一般有較長(zhǎng)時(shí)間大學(xué)英語(yǔ)教學(xué)經(jīng)歷,對(duì)CET-SET評(píng)分標(biāo)準(zhǔn)的理解透徹,有豐富的口語(yǔ)評(píng)分經(jīng)驗(yàn)和評(píng)分策略,更重要的是有能力服眾,即評(píng)分組員對(duì)大組長(zhǎng)有充分的信任感,對(duì)大組長(zhǎng)的意見比較重視。

        大組長(zhǎng)先期培訓(xùn)對(duì)保障組間評(píng)分一致性有較好的作用。評(píng)卷工作開始前一天,評(píng)卷點(diǎn)點(diǎn)長(zhǎng)組織大組長(zhǎng)先期培訓(xùn),時(shí)間為1.5~2小時(shí)。培訓(xùn)步驟及內(nèi)容如下:第一、點(diǎn)長(zhǎng)總結(jié)上一次評(píng)分質(zhì)量并指出問(wèn)題,將此作為本次評(píng)卷的參考。第二、評(píng)分員熟悉所評(píng)題目、復(fù)習(xí)文字評(píng)分標(biāo)準(zhǔn)、對(duì)照各個(gè)等級(jí)的樣卷討論,統(tǒng)一認(rèn)識(shí)。第三、評(píng)分員盲評(píng)專家提供的培訓(xùn)卷(專家分?jǐn)?shù)隱去),自己打分后對(duì)照專家所給分?jǐn)?shù)和等級(jí),比較自己的與專家的分?jǐn)?shù)及等級(jí)的區(qū)別,做好給分說(shuō)明記錄,以便在組內(nèi)討論。第四、大組長(zhǎng)對(duì)培訓(xùn)卷進(jìn)行更加合理的選擇和分類,目的是界定次日集體培訓(xùn)的量。如果本次評(píng)卷中有經(jīng)驗(yàn)的評(píng)分員占絕大多數(shù),培訓(xùn)量可適當(dāng)減少,如果新手較多,培訓(xùn)量要適當(dāng)增加。大組長(zhǎng)根據(jù)評(píng)分員結(jié)構(gòu)情況從專家提供的4~6組培訓(xùn)卷中選出最有代表性的2~3組作為評(píng)分員首日培訓(xùn)必需試評(píng)或考核的材料,其余2~3組作為個(gè)性化培訓(xùn)材料放入評(píng)分系統(tǒng)中另一個(gè)欄目備用,在后續(xù)的分組中期培訓(xùn)或個(gè)性化持續(xù)培訓(xùn)時(shí)選用。

        2. 評(píng)分員首日集體培訓(xùn)

        評(píng)分員首日集體培訓(xùn)采用自上而下的模式,時(shí)間約2~2.5小時(shí)。首先,點(diǎn)長(zhǎng)通過(guò)局域網(wǎng)聯(lián)機(jī)模式連接各個(gè)評(píng)分組工作的教室,重申安全保密條例,總結(jié)上次評(píng)分質(zhì)量,表?yè)P(yáng)評(píng)分質(zhì)量高的評(píng)分員(宣布獎(jiǎng)勵(lì)政策),發(fā)揮“榜樣的力量”,指出發(fā)現(xiàn)的問(wèn)題并提醒大家注意。之后由大組長(zhǎng)組織本組評(píng)分員分組培訓(xùn)。培訓(xùn)步驟及內(nèi)容如下:第一,熟悉所評(píng)題目和內(nèi)容、理解并討論文字評(píng)分標(biāo)準(zhǔn)的描述及內(nèi)涵。第二,學(xué)習(xí)和討論樣卷,對(duì)照文字評(píng)分標(biāo)準(zhǔn)講解并討論專家的給分及等級(jí)。第三,全組評(píng)分員各自獨(dú)立試評(píng)一組培訓(xùn)卷(隱去專家給分)并在網(wǎng)上提交自己的給分。待本組所有評(píng)分員完成后,組長(zhǎng)公布專家的給分及等級(jí),檢查本組評(píng)分員給分的等級(jí)差異,針對(duì)差異較大的給分結(jié)合評(píng)分標(biāo)準(zhǔn)及樣卷進(jìn)行小組集體討論和交流,使評(píng)分員及時(shí)調(diào)整自己與評(píng)分標(biāo)準(zhǔn)的差距。第四,組織本組評(píng)分員繼續(xù)對(duì)第二組及第三組培訓(xùn)卷進(jìn)行兩輪考核式評(píng)分,組長(zhǎng)進(jìn)一步組織討論,統(tǒng)一大家的認(rèn)識(shí)和定位,評(píng)分員再次調(diào)整或縮小自己與評(píng)分標(biāo)準(zhǔn)的差距,為實(shí)際評(píng)分中判分的一致性打下基礎(chǔ)。第五,考核過(guò)關(guān)的評(píng)分員經(jīng)大組長(zhǎng)允許可以開始正式評(píng)分。第六,對(duì)仍有問(wèn)題的評(píng)分員由大組長(zhǎng)個(gè)別“約談”,面對(duì)面進(jìn)行個(gè)性化、針對(duì)性培訓(xùn),合格后方可開始正式評(píng)分。

        3. 評(píng)分員分組中期培訓(xùn)

        評(píng)分員分組中期培訓(xùn)既有半針對(duì)性的性質(zhì),也有階段性校正的特點(diǎn),一般在第二天開始評(píng)分前進(jìn)行。經(jīng)過(guò)首日培訓(xùn)及評(píng)分后,大組長(zhǎng)及專家通過(guò)評(píng)分系統(tǒng)提供的實(shí)時(shí)反饋數(shù)據(jù)及自己的抽查和評(píng)估會(huì)發(fā)現(xiàn)一些針對(duì)性問(wèn)題,例如有的評(píng)分員在不同方面對(duì)標(biāo)準(zhǔn)的把握有自己的側(cè)重和偏移,有的給分寬嚴(yán)程度有差異、有的有趨中給分等現(xiàn)象。中期培訓(xùn)在大組長(zhǎng)主持下,首先針對(duì)本組前一天評(píng)分情況進(jìn)行簡(jiǎn)要小結(jié),指出具體問(wèn)題。然后重溫標(biāo)準(zhǔn)樣卷,尤其是對(duì)中間的B級(jí)和C級(jí)兩個(gè)等級(jí)的區(qū)別和判斷進(jìn)行討論,以減少部分評(píng)分員對(duì)高于或低于平均水平的考生仍評(píng)為中間分值這一現(xiàn)象。討論之后選擇一組事先準(zhǔn)備好的備用考核卷進(jìn)行培訓(xùn),評(píng)分員進(jìn)行針對(duì)性自我調(diào)整。中期培訓(xùn)的時(shí)間比較短,一般20~30分鐘,目的是讓本組評(píng)分員通過(guò)回顧樣卷及再次試評(píng)進(jìn)一步熟悉和定位評(píng)分標(biāo)準(zhǔn),擱置自己的主觀經(jīng)驗(yàn),逐步學(xué)會(huì)并能夠始終一致地運(yùn)用評(píng)分標(biāo)準(zhǔn),從而提高自己在評(píng)分期間保持高水平評(píng)分質(zhì)量的能力。

        CET-SET評(píng)分實(shí)行“隨機(jī)分配雙評(píng)+仲裁”的工作方式。每組兩個(gè)考生的口語(yǔ)錄音被隨機(jī)分發(fā)給兩位評(píng)分員背對(duì)背給每個(gè)考生評(píng)分,若二人給分誤差在允許范圍內(nèi),該考生得分則取二人所給分?jǐn)?shù)的平均分,如果給分差值大于等于2.5分,即雙評(píng)差值閾限≥2.5分,評(píng)分系統(tǒng)會(huì)自動(dòng)將該考生的兩個(gè)得分納入仲裁程序,由專家重新給分,專家給分為最后得分。專家仲裁后被“淘汰”的那個(gè)評(píng)分由系統(tǒng)自動(dòng)記錄為“無(wú)效卷”,評(píng)分員無(wú)法獲得“無(wú)效卷”的評(píng)分酬勞,這樣做的目的是提醒評(píng)分員認(rèn)真嚴(yán)格按照評(píng)分標(biāo)準(zhǔn)評(píng)分,要對(duì)每一位考生負(fù)責(zé)。實(shí)踐證明,20~30分鐘的中期培訓(xùn)效果很好,培訓(xùn)后評(píng)分仲裁率明顯下降。表3以 CET-SET6兩個(gè)考次實(shí)考評(píng)分的仲裁率情況變化為例,說(shuō)明中期培訓(xùn)的作用。

        S212考次新手評(píng)分員的占比為40%,首日培訓(xùn)后進(jìn)入正評(píng),S212考次評(píng)分仲裁率(5.86%)明顯比無(wú)新手評(píng)分員的S222考次評(píng)分仲裁率(4.08%)高。經(jīng)過(guò)中期培訓(xùn),S212考次仲裁率為4.83%,下降了1.03%,這是不小的進(jìn)步。S222考次中期培訓(xùn)后評(píng)分仲裁率為3.62%,下降了0.46%。表3的數(shù)據(jù)說(shuō)明中期培訓(xùn)對(duì)提高評(píng)分質(zhì)量是有效的,同時(shí)也說(shuō)明在新手評(píng)分員比較多的情況下培訓(xùn)任務(wù)及難度會(huì)增加,因此在選擇評(píng)分培訓(xùn)的量和步驟時(shí)應(yīng)把新手評(píng)分員的占比作為一個(gè)重要因素來(lái)考量。

        4. 個(gè)性化持續(xù)培訓(xùn)

        上述培訓(xùn)并不能消除評(píng)分員自身的嚴(yán)厲度差異,也不能保證評(píng)分員會(huì)完全一致地對(duì)照評(píng)分標(biāo)準(zhǔn)評(píng)分。因此,評(píng)分員集中培訓(xùn)后的個(gè)性化持續(xù)培訓(xùn)必須貫穿評(píng)分過(guò)程的始終,這是提高評(píng)分質(zhì)量的另一層保障。個(gè)性化培訓(xùn)建立在首日集體培訓(xùn)和中期分組培訓(xùn)的宏觀數(shù)據(jù)反饋及大組長(zhǎng)/專家對(duì)評(píng)分員個(gè)體微觀抽查等動(dòng)態(tài)評(píng)估的基礎(chǔ)上,與質(zhì)量監(jiān)控體系緊密相連,關(guān)注評(píng)分員在評(píng)分過(guò)程中行為的變化。這是一種自下而上的培訓(xùn),有互動(dòng)性和針對(duì)性特點(diǎn),對(duì)提高評(píng)分員評(píng)分自我一致性、減少隨機(jī)誤差、提高評(píng)分的準(zhǔn)確性有較好效果。

        個(gè)性化培訓(xùn)步驟及內(nèi)容如下:第一,通過(guò)抽查、分類及評(píng)估,鎖定需要持續(xù)培訓(xùn)的個(gè)體目標(biāo)及特征、確定評(píng)分員間一致性較差的個(gè)體、發(fā)現(xiàn)評(píng)分誤差較大的評(píng)分員、找出給分趨中的評(píng)分員等。這需要大組長(zhǎng)及專家熟練運(yùn)用在線評(píng)分系統(tǒng)提供的反饋數(shù)據(jù),以及根據(jù)微觀抽查發(fā)現(xiàn)的問(wèn)題,找到監(jiān)控的關(guān)注重點(diǎn),再針對(duì)個(gè)體評(píng)分員不同的評(píng)分行為及時(shí)糾正偏差。第二,根據(jù)不同情況采用不同的控制偏差的工作方式,目的是使這部分評(píng)分員能前后一致地使用評(píng)分標(biāo)準(zhǔn)。誤差產(chǎn)生的原因各不相同:有些因?yàn)樵u(píng)分員的不同背景因素,例如教學(xué)經(jīng)歷、個(gè)人特點(diǎn)、認(rèn)知方式等;有些因?yàn)閷?duì)嚴(yán)厲度的把握有偏見而產(chǎn)生給分偏寬或偏嚴(yán);有些則因?yàn)閷?duì)評(píng)分標(biāo)準(zhǔn)的側(cè)重點(diǎn)有偏差;還有些與個(gè)人的責(zé)任心和工作態(tài)度有關(guān)。個(gè)性化培訓(xùn)非??简?yàn)大組長(zhǎng)及專家對(duì)不同類型的評(píng)分員誤差特征進(jìn)行判斷的能力以及與評(píng)分員協(xié)調(diào)交流的能力。由于持續(xù)培訓(xùn)結(jié)合了個(gè)性化反饋,對(duì)評(píng)分員減少評(píng)分過(guò)程中各種偏差、提高評(píng)分質(zhì)量有很大幫助。

        六、CET-SET評(píng)分過(guò)程動(dòng)態(tài)監(jiān)控

        (一)監(jiān)控體系的建構(gòu)

        在十余年的CET-SET在線評(píng)分中我們觀察到,經(jīng)過(guò)幾輪嚴(yán)格培訓(xùn)及糾偏之后,評(píng)分中一般不會(huì)出現(xiàn)較大面積的系統(tǒng)性誤差。很多誤差則來(lái)自評(píng)分員個(gè)體原因,產(chǎn)生“評(píng)分者效應(yīng)”(rater effects)或“評(píng)分者漂移”(rater drift)現(xiàn)象[17],即評(píng)分員自身的各種因素導(dǎo)致的評(píng)分不一致或評(píng)分波動(dòng)引起的誤差。這一情況與趙海燕等人的研究結(jié)論吻合[18]。因此,通過(guò)建立科學(xué)的監(jiān)控機(jī)制幫助我們及時(shí)發(fā)現(xiàn)評(píng)分過(guò)程中因評(píng)分者效應(yīng)導(dǎo)致的各種動(dòng)態(tài)誤差并進(jìn)行針對(duì)性控制,對(duì)保障評(píng)分質(zhì)量有十分重要的作用。

        大規(guī)模口語(yǔ)考試評(píng)分過(guò)程中的動(dòng)態(tài)監(jiān)控并不是評(píng)分大組長(zhǎng)或?qū)<译S意而行的事情。監(jiān)控什么,如何監(jiān)控,怎樣把關(guān),如何及時(shí)準(zhǔn)確發(fā)現(xiàn)評(píng)分員個(gè)體誤差、找到產(chǎn)生誤差的原因,運(yùn)用哪些方法或策略進(jìn)行針對(duì)性實(shí)時(shí)控制等,是擺在大組長(zhǎng)及專家面前的挑戰(zhàn),也是CET-SET評(píng)分監(jiān)控中面臨的首要任務(wù)。為此,我們構(gòu)建了一個(gè)評(píng)分過(guò)程動(dòng)態(tài)監(jiān)控體系(見圖5),該監(jiān)控體系明確了監(jiān)控中重要的質(zhì)量把關(guān)點(diǎn)CET-SET的評(píng)分速度已由評(píng)分軟件自動(dòng)控制。以CET-SET6為例,評(píng)分員不聽完所有應(yīng)評(píng)分的四項(xiàng)任務(wù)則無(wú)法提交成績(jī),無(wú)法進(jìn)入下一組考生的評(píng)分。因此作為監(jiān)控中關(guān)鍵質(zhì)量把關(guān)點(diǎn)之一的評(píng)分速度控制沒有列在圖5的監(jiān)控體系內(nèi)。、界定了這些關(guān)鍵節(jié)點(diǎn)的主要監(jiān)控維度及內(nèi)容,并對(duì)評(píng)分誤差控制策略提出了建議,目的是提高監(jiān)控的質(zhì)量和效率、提高監(jiān)控中控制誤差的有效性和準(zhǔn)確性,指導(dǎo)大組長(zhǎng)/專家進(jìn)行監(jiān)控及糾偏工作。

        圖5中的三個(gè)工作模塊,分別代表該體系中三個(gè)關(guān)鍵要素,各自有不同的工作重點(diǎn)和目的,模塊間相互影響、相互關(guān)聯(lián),共同對(duì)提高CET-SET口語(yǔ)評(píng)分過(guò)程的監(jiān)控質(zhì)量和效率發(fā)揮作用。其中“監(jiān)控關(guān)鍵質(zhì)量把關(guān)點(diǎn)”指向監(jiān)控的主要內(nèi)容及維度,目的是幫助大組長(zhǎng)/專家鎖定監(jiān)控重點(diǎn)目標(biāo);“監(jiān)控方法”指向怎樣監(jiān)控,目的是找到誤差產(chǎn)生的個(gè)體原因;“誤差控制策略”指向如何實(shí)施監(jiān)控,目的是提高控制誤差的實(shí)效,把誤差控制到最低。

        在監(jiān)控的實(shí)操中有評(píng)卷點(diǎn)點(diǎn)長(zhǎng)/專家層面的監(jiān)控和大組長(zhǎng)層面的監(jiān)控。兩個(gè)層面監(jiān)控的把關(guān)點(diǎn)相同,但側(cè)重點(diǎn)和作用不同。點(diǎn)長(zhǎng)/專家的作用是掌控全局,既要從宏觀上對(duì)培訓(xùn)質(zhì)量和評(píng)分質(zhì)量整體把關(guān),避免出現(xiàn)整體性偏差,如組間評(píng)分一致性偏差、系統(tǒng)性給分過(guò)高或過(guò)低以及大面積給分趨中現(xiàn)象等,又要從微觀上監(jiān)測(cè)評(píng)分過(guò)程中出現(xiàn)的典型問(wèn)題和評(píng)分員自身的極端偏差及異常情況,提醒大組長(zhǎng)注意,必要時(shí)直接與問(wèn)題評(píng)分員溝通交流。大組長(zhǎng)的作用是對(duì)本組評(píng)分質(zhì)量負(fù)責(zé),其監(jiān)控內(nèi)容更加微觀和具體、更加細(xì)致。大組長(zhǎng)經(jīng)常直接面對(duì)面與評(píng)分員交談?dòng)懻?,是評(píng)分質(zhì)量把關(guān)的一線指揮官。

        (二)監(jiān)控中的關(guān)鍵質(zhì)量把關(guān)點(diǎn)

        CET筆試主觀題作文/翻譯在線評(píng)分都有考生的客觀成績(jī)作參考,有主—客觀相關(guān)成績(jī)的對(duì)比作為監(jiān)控的整體質(zhì)量考量參數(shù)之一,CET-SET則沒有,其監(jiān)控體系中的關(guān)鍵質(zhì)量把關(guān)點(diǎn)主要瞄準(zhǔn)以下五個(gè)方面。一是組間一致性,即不同評(píng)分大組間的分?jǐn)?shù)等級(jí)分布曲線一致性,避免出現(xiàn)局部性系統(tǒng)偏差。二是均分之差,即某位評(píng)分員的平均分與本組及全體評(píng)分員的平均分對(duì)比之差。及時(shí)發(fā)現(xiàn)給分過(guò)寬或過(guò)嚴(yán)的個(gè)體,根據(jù)均分之差衡量評(píng)分員對(duì)評(píng)分嚴(yán)厲度的把握。三是標(biāo)準(zhǔn)差,根據(jù)標(biāo)準(zhǔn)差判斷離散情況,即把某個(gè)體評(píng)分員的標(biāo)準(zhǔn)差與同組及全體評(píng)分員進(jìn)行比較,標(biāo)準(zhǔn)差偏低說(shuō)明有給分趨中傾向,偏高則說(shuō)明有發(fā)散給分傾向。監(jiān)控離散情況時(shí)同時(shí)要查看相關(guān)評(píng)分員的給分分布,準(zhǔn)確定位某評(píng)分員的給分主要集中在哪個(gè)區(qū)間或哪個(gè)分?jǐn)?shù)等級(jí),以便針對(duì)性糾正。四是依據(jù)仲裁后的無(wú)效卷數(shù)量和百分比,判斷評(píng)分員能否前后一致地使用評(píng)分標(biāo)準(zhǔn)。需要注意的是,這四項(xiàng)監(jiān)控指標(biāo)都要在有一定閱卷量及統(tǒng)計(jì)數(shù)據(jù)的前提下才有意義。因此,評(píng)分前期的監(jiān)控需參考培訓(xùn)時(shí)記錄的數(shù)據(jù)及高頻抽查時(shí)鎖定的重點(diǎn)目標(biāo)。五是評(píng)分員是否對(duì)評(píng)分工作認(rèn)真負(fù)責(zé)。這一點(diǎn)對(duì)保障評(píng)分質(zhì)量相當(dāng)重要。評(píng)估時(shí)既要綜合考慮評(píng)分員的均分之差、標(biāo)準(zhǔn)差、無(wú)效卷率等多個(gè)維度的參數(shù)是否頻繁出現(xiàn)異常,又要多方面觀察其整體表現(xiàn),例如是否常遲到早退、是否不負(fù)責(zé)任地打中間分等。對(duì)于責(zé)任心不強(qiáng)的評(píng)分員堅(jiān)決不讓其再次閱卷。有數(shù)據(jù)作支撐加上多方觀察,可比較全面客觀地評(píng)價(jià)評(píng)分員的表現(xiàn)和評(píng)分質(zhì)量,為建立評(píng)分員信息庫(kù)、優(yōu)化評(píng)分員隊(duì)伍、淘汰不合格評(píng)分員、挑選優(yōu)秀評(píng)分員、選拔未來(lái)大組長(zhǎng)或?qū)<倚驮u(píng)分員提供可靠依據(jù)和參考。

        (三)監(jiān)控的方法

        發(fā)揮數(shù)據(jù)的功效是CET-SET評(píng)分監(jiān)控中必用的手段之一。有效利用實(shí)時(shí)數(shù)據(jù)可以將原來(lái)大海撈針式的、盲目的抽查劃定在一個(gè)有針對(duì)性的范圍內(nèi),使抽查變得更有目的性、更容易發(fā)現(xiàn)問(wèn)題、更加準(zhǔn)確鎖定重點(diǎn)抽查對(duì)象。但對(duì)數(shù)據(jù)的定量分析必須和針對(duì)性抽查的定性分析結(jié)合起來(lái)運(yùn)用,只有這樣才能確認(rèn)評(píng)分員產(chǎn)生個(gè)體誤差背后的深層原因。評(píng)分系統(tǒng)提供的數(shù)據(jù)是一組一組“冷漠的”量化數(shù)字和曲線,顯示的是評(píng)分員評(píng)分行為的某種宏觀傾向或趨勢(shì),并不能顯示評(píng)分員在微觀層面自身一致性波動(dòng)產(chǎn)生誤差的內(nèi)在個(gè)體原因。因此,專家及大組長(zhǎng)以數(shù)據(jù)為基礎(chǔ)的質(zhì)性化抽查與分析是深入探究潛在誤差和確認(rèn)誤差產(chǎn)生的深層原因的相當(dāng)有效的方法。專家及大組長(zhǎng)必要時(shí)可借鑒有聲思維的方法,及時(shí)進(jìn)行一對(duì)一約談,詢問(wèn)并傾聽評(píng)分員的給分原因,探明問(wèn)題的隱性根源及類型,這樣才能針對(duì)性解決相關(guān)問(wèn)題。例如,某位評(píng)分員“覺得這個(gè)考生的語(yǔ)音語(yǔ)調(diào)特別好,所以給了高分”,這表明該評(píng)分員對(duì)評(píng)分標(biāo)準(zhǔn)的理解有偏差,看重考生發(fā)音而忽視了評(píng)分標(biāo)準(zhǔn)的其他維度,如內(nèi)容和切題性。另一位評(píng)分員認(rèn)為“我平時(shí)教英語(yǔ)專業(yè)口語(yǔ),要求高給分嚴(yán),對(duì)四六級(jí)口語(yǔ)考試也容不得考生的表達(dá)有語(yǔ)法錯(cuò)誤,所以給這位考生低分”,這表明該評(píng)分員還未從自己的背景和教學(xué)經(jīng)驗(yàn)中脫離出來(lái),還未突破自我局限,以自己固有的標(biāo)準(zhǔn)代替了CET-SET的評(píng)分標(biāo)準(zhǔn)。還有一位評(píng)分員覺得“這個(gè)考生不停地在說(shuō),感覺挺流利的,就給了B級(jí)”。大組長(zhǎng)與該評(píng)分員一起仔細(xì)聽錄音后發(fā)現(xiàn)該考生事先背了一些“模板句”,考試時(shí)將題目中的關(guān)鍵詞填進(jìn)去,發(fā)言似乎“流利”,但連貫性差,內(nèi)容空洞,適切性差,答非所問(wèn),這說(shuō)明該評(píng)分員評(píng)分時(shí)比較草率,沒有仔細(xì)分辨考生發(fā)言的內(nèi)容是否切題和連貫等。專家及大組長(zhǎng)對(duì)此類評(píng)分員要特別注意,須加大后續(xù)抽查及個(gè)性化反饋—提醒力度,以防出現(xiàn)因責(zé)任心問(wèn)題產(chǎn)生的誤差。此外,跟進(jìn)式高頻抽查的方法可以幫助我們及時(shí)確認(rèn)波動(dòng)較大或存在問(wèn)題較多的評(píng)分員在經(jīng)過(guò)約談或提醒之后是否有改進(jìn)。只有探明誤差產(chǎn)生的個(gè)體原因,才能使反饋信息更具體、更準(zhǔn)確,使評(píng)分員充分認(rèn)識(shí)到自己所存在的問(wèn)題,從而提高誤差控制的實(shí)效。

        (四)誤差控制方法

        如前所述,CET-SET的評(píng)分誤差多來(lái)自評(píng)分員個(gè)體原因?qū)е碌脑u(píng)分不一致或評(píng)分波動(dòng)引起的誤差,這也是控制誤差的重點(diǎn)。借助數(shù)據(jù)鎖定重點(diǎn)監(jiān)控目標(biāo)、通過(guò)抽查及約談探明誤差產(chǎn)生的潛在原因盡管對(duì)誤差控制很有幫助,但并不能保證誤差控制的效果,因此選擇控制誤差的方法和策略則非常重要。方式不對(duì)則效果不好,因?yàn)槲覀兠鎸?duì)的評(píng)分員來(lái)自不同高校,其中不少有高級(jí)職稱,有自己的背景、教學(xué)經(jīng)驗(yàn)以及固有的心理認(rèn)知模式,大組長(zhǎng)/專家須根據(jù)不同類型的誤差和誤差產(chǎn)生的原因選擇不同的方法或策略,避免只用數(shù)據(jù)說(shuō)話和用簡(jiǎn)單的批評(píng)式方法糾正誤差,應(yīng)針對(duì)不同的個(gè)體、不同的問(wèn)題采用不同的方法,例如采用針對(duì)性約談、個(gè)性化線上反饋有針對(duì)性的問(wèn)題、針對(duì)性再進(jìn)行培訓(xùn)/考核,以及對(duì)誤差大的試卷返回重評(píng)等方法,還可根據(jù)評(píng)分前期、中期和后期評(píng)分員的動(dòng)態(tài)變化選擇適當(dāng)?shù)谋O(jiān)控方法??傊康闹挥幸粋€(gè),即把誤差控制到最低。

        七、結(jié)語(yǔ)及啟示

        減少主觀題評(píng)分誤差是國(guó)內(nèi)外學(xué)者長(zhǎng)期不懈的研究課題,也是世界性難題。本文將大規(guī)??谡Z(yǔ)考試在線評(píng)分質(zhì)量保障體系作為一項(xiàng)系統(tǒng)工程,運(yùn)用歸納分析及個(gè)案分析的方法,從CET-SET6評(píng)分標(biāo)準(zhǔn)及評(píng)分方法入手,解讀了CET-SET評(píng)分標(biāo)準(zhǔn)化流程頂層設(shè)計(jì),把評(píng)分質(zhì)量保障體系中的三個(gè)子系統(tǒng),即專家挑選樣卷及培訓(xùn)卷工作流程體系、評(píng)卷員評(píng)分培訓(xùn)體系、評(píng)分過(guò)程動(dòng)態(tài)監(jiān)控體系整合在一起,作為大規(guī)模英語(yǔ)口語(yǔ)考試評(píng)分質(zhì)量保障體系建設(shè)的一部分。本文分析了這些體系中的主要工作模塊、工作流程和不同管理層面的操作,探討了它們?nèi)绾蜗嗷リP(guān)聯(lián)、相互影響,共同對(duì)保障大規(guī)模CET-SET口語(yǔ)評(píng)卷的整體質(zhì)量發(fā)揮作用,進(jìn)而有效地對(duì)評(píng)分誤差進(jìn)行控制,提高CET-SET評(píng)分的信度和效度。期望本文能為進(jìn)一步完善CET-SET評(píng)分質(zhì)量保障體系提供參考,也為提高大規(guī)模、高風(fēng)險(xiǎn)口語(yǔ)考試評(píng)分質(zhì)量管理提供一定的借鑒和參考。

        參考文獻(xiàn):

        [1]羅娟,肖云南.高風(fēng)險(xiǎn)語(yǔ)言測(cè)試的公平性檢驗(yàn)框架研究——以高考英語(yǔ)為例[J].外語(yǔ)學(xué)刊,2018,(1):86-91.

        [2]金艷,王偉,張曉藝,等.大學(xué)英語(yǔ)四級(jí)口語(yǔ)考試自動(dòng)評(píng)分效度初探[J].中國(guó)考試,2020,(7):25-33.

        [3]張曉藝,金艷.評(píng)分量表對(duì)口語(yǔ)考試構(gòu)念效度的影響:交互構(gòu)念理論視角[J].外語(yǔ)界,2019,(1):61-70.

        [4]王海貞.基于評(píng)分過(guò)程證據(jù)的英語(yǔ)專業(yè)四級(jí)口試效度研究[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2007,30(4):49-53+68.

        [5]金檀,劉力,郭凱.口語(yǔ)測(cè)試評(píng)分標(biāo)準(zhǔn)研究與實(shí)踐三十年[J].現(xiàn)代外語(yǔ),2016,39(6):853-862.

        [6]劉建達(dá),呂劍濤.大規(guī)模計(jì)算機(jī)口試分析評(píng)分效度研究[J].現(xiàn)代外語(yǔ),2015,38(2):248-257+297.

        [7]呂長(zhǎng)竑,宋冰,王焰,等.口語(yǔ)測(cè)試評(píng)分標(biāo)準(zhǔn)比較研究[J].外語(yǔ)教學(xué)與研究,2008,40(6):440-446+481.

        [8]張潔.PETS三級(jí)口語(yǔ)考試評(píng)分誤差研究——結(jié)合定量統(tǒng)計(jì)和定性描述的方法[J].外語(yǔ)測(cè)試與教學(xué),2012,(2):33-42.

        [9]戴朝暉,尤其達(dá).大學(xué)英語(yǔ)計(jì)算機(jī)口語(yǔ)考試評(píng)分者偏差分析[J].外語(yǔ)界,2010,(5):87-95.

        [10]徐柳,蔡宏文.英語(yǔ)口語(yǔ)測(cè)試任務(wù)特征對(duì)評(píng)分員關(guān)注點(diǎn)的影響[J].現(xiàn)代外語(yǔ),2019,42(4):540-551.

        [11]呂鳴.智能測(cè)評(píng)技術(shù)在大規(guī)模英語(yǔ)口語(yǔ)考試評(píng)卷中的探索與實(shí)踐[J].中國(guó)考試,2015,(10):51-57.

        [12]金艷,王偉,楊浩然.語(yǔ)言測(cè)試中的技術(shù)應(yīng)用:基于大學(xué)英語(yǔ)四、六級(jí)考試的實(shí)踐分析[J].外語(yǔ)測(cè)試與教學(xué),2021,(1):1-7,27.

        [13]孫海洋,張敏.英語(yǔ)口語(yǔ)機(jī)器評(píng)分和人工評(píng)分的對(duì)比研究[J].外語(yǔ)研究,2020,(4):57-62+105,112.

        [14]金艷,揭薇.中國(guó)英語(yǔ)能力等級(jí)量表的“口語(yǔ)量表”制定原則和方法[J].外語(yǔ)界,2017,(2):10-19.

        [15]金艷,楊惠中.走中國(guó)特色的語(yǔ)言測(cè)試道路:大學(xué)英語(yǔ)四、六級(jí)考試三十年的啟示[J].外語(yǔ)界,2018,(2):29-39.

        [16]徐鷹,曾用強(qiáng).評(píng)分人培訓(xùn)的研究現(xiàn)狀及展望[J].中國(guó)考試,2014,(2):10-18.

        [17]Jing Huang,Gaowei Chen.Individualized Feedback to Raters in Language Assessment:Impacts on Rater" Effects[J].Assessing Writing,2022,52(4):1-14.

        [18]趙海燕,辛濤,田偉.大規(guī)模教育考試作文評(píng)分的趨中漂移和不準(zhǔn)確性漂移研究[J].中國(guó)考試,2020,(3):13-20.

        Construction of Rating Quality Assurance System for Large-scale English Oral Test: Taking CET-SET6 Online Scoring as an Example

        XIA Weirong, TANG Jun, YANG Lin, LI Wei

        Abstract: Establishing a quality assurance system for online scoring of large-scale foreign language oral proficiency examinations is not only a comprehensive undertaking but also a crucial step in ensuring the reliability and validity of scoring. Guided by the overarching framework of the process for the College English Test (CET) in China, the development of a three-dimensional quality assurance system integrates various subsystems at different levels to ensure the selection of range finders and samples for rater training assessment, the online training of raters, and the dynamic monitoring of the scoring process. This systematic approach facilitates the step-by-step implementation of standardized mechanisms. From both macro and micro management perspectives, this system effectively controls scoring errors at different levels, thereby reducing scoring discrepancies resulting from subjective factors among raters. Practical application of this quality assurance system in CET-SET6 online rating demonstrates its effectiveness in enhancing the reliability and validity of scoring, consequently ensuring the overall quality of the scoring process. Furthermore, the construction of this system can serve as a model for enhancing the management of online rating quality in other large-scale, high-risk oral test scoring.

        Key words: Large-scale English oral test; quality assurance system; CET-SET6 on-line scoring; rater training system; dynamic monitoring system

        (責(zé)任編輯:陳艷艷)

        基金項(xiàng)目: 四川省教育考試院2021年重點(diǎn)科研課題“中國(guó)特色的大規(guī)模大學(xué)英語(yǔ)四、六級(jí)口語(yǔ)考試:四川省中心考點(diǎn)機(jī)考回顧及反思”(KSYZ20210006)

        作者簡(jiǎn)介: 夏偉蓉,西南交通大學(xué)外國(guó)語(yǔ)學(xué)院教授,主要從事外國(guó)語(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué)研究,E-mail:kwxiao@139.com;唐俊、楊林、李巍,四川省教育考試院。

        引用格式: 夏偉蓉.大規(guī)模英語(yǔ)口語(yǔ)考試評(píng)分質(zhì)量保障體系建設(shè)——以CET-SET6在線評(píng)分為例[J].西南交通大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2024,(4):51-67.

        猜你喜歡
        評(píng)卷評(píng)分標(biāo)準(zhǔn)口語(yǔ)
        北京高考語(yǔ)文卷已現(xiàn)滿分作文
        2019年對(duì)口升學(xué)考試網(wǎng)上評(píng)卷考生答題注意事項(xiàng)
        酒中的口語(yǔ)詩(shī)
        文苑(2018年22期)2018-11-19 02:54:18
        永遠(yuǎn)的格紋
        優(yōu)雅(2017年11期)2017-11-11 08:59:21
        提高口語(yǔ)Level 讓你語(yǔ)出驚人
        “畫?!痹u(píng)卷
        教育(2016年49期)2017-03-20 02:23:28
        大規(guī)??荚嚲W(wǎng)上評(píng)卷中趨中評(píng)分的成因探析
        初高中英語(yǔ)作文評(píng)分標(biāo)準(zhǔn)初探
        海峽兩岸高考語(yǔ)文作文評(píng)分標(biāo)準(zhǔn)的比較研究
        口語(yǔ)對(duì)對(duì)碰
        在线观看午夜视频一区二区| 久久久久久久尹人综合网亚洲| 在线播放中文字幕一区二区三区| 五月激情四射开心久久久| 免费大片黄国产在线观看| 国产美女露脸口爆吞精| 中文字幕乱码亚洲无线精品一区| 日本一区不卡在线观看| 国产情侣一区二区三区| 污污内射在线观看一区二区少妇| 国产成人免费a在线视频| 美腿丝袜中文字幕在线观看| 国产一区二区三区三区四区精品| 亚洲人成网址在线播放| 久久久久久久98亚洲精品| 日本激情一区二区三区| 日韩精品亚洲一区二区| 999久久久国产精品| 色综合久久久久综合999| 亚州中文字幕乱码中文字幕| 亚洲夜夜性无码| 色窝窝免费播放视频在线| 最新国产美女一区二区三区| 青青草手机免费播放视频| 日韩av无码精品一二三区| 亚洲国产AV无码男人的天堂| av在线免费播放网站| 国产午夜视频在线观看.| 久久国产精品精品国产色婷婷 | 久久无码专区国产精品| 一级午夜视频| 狼人狠狠干首页综合网| 边添小泬边狠狠躁视频| 69久久夜色精品国产69| 国产极品美女到高潮视频| 中文字幕乱码日本亚洲一区二区 | 国产精品又湿又黄九九九久久嫩草 | 国产一区二区波多野结衣| 91亚洲最新国语中文字幕| 人妻少妇哀求别拔出来| 国产欧美一区二区精品仙草咪|