涂穎
寫作測(cè)試的評(píng)分涉及包含評(píng)分員、評(píng)分量表、考生、 寫作任務(wù)和評(píng)分員培訓(xùn)在內(nèi)的一系列影響因素及其之間的交互作用 (Milanovic & Saville,1996;Weigle,2002;Barkaoui,2008;陸遠(yuǎn),2010)[1-4]。 這些因素及其交互作用的存在導(dǎo)致評(píng)分過程和結(jié)果呈現(xiàn)出差異性。在寫作測(cè)試中,這種差異很大程度上來自于評(píng)分員差異。 Eckes(2008)發(fā)現(xiàn),評(píng)分員差異與評(píng)分員特征有關(guān),而與考生的表現(xiàn)無關(guān)[5]。 評(píng)分員差異導(dǎo)致了評(píng)分結(jié)果與真分?jǐn)?shù)的偏離, 因此對(duì)寫作測(cè)試的信度和效度及考試的公平性構(gòu)成了直接威脅。 寫作評(píng)估和教育測(cè)量領(lǐng)域的專家普遍認(rèn)為, 評(píng)分員培訓(xùn)對(duì)于獲得可信的作文考試評(píng)分至關(guān)重要。 例如,Weigle(1994)指出,寫作測(cè)試評(píng)分信效度的核心問題是評(píng)分員培訓(xùn);培訓(xùn)幫助評(píng)分員界定了評(píng)分標(biāo)準(zhǔn),調(diào)整了其對(duì)考生和任務(wù)的期望值, 從而提高了評(píng)分員之間的一致性[6]。
對(duì)作文評(píng)分員培訓(xùn)效果的實(shí)證研究(Shohamy et al.,1992;Weigle,1994;顏靜蘭,2018)表明,培訓(xùn)能夠減少評(píng)分員之間的差異,提高評(píng)分一致性[7-9]。 然而, 一 些研究 (Hoyt & Kerns,1999;Barrett,2001;Myford & Wolfe,2000;燕翔宇,2010;張文星、鄒申,2015)[10-14]則揭示出評(píng)分員培訓(xùn)在減少評(píng)分員差異等方面的效果比預(yù)期要低得多。由此可見,研究者對(duì)評(píng)分員培訓(xùn)效果尚未達(dá)成共識(shí)。同時(shí),在對(duì)相關(guān)文獻(xiàn)的梳理中發(fā)現(xiàn),許多研究對(duì)培訓(xùn)過程的描述十分簡(jiǎn)略,使得我們對(duì)培訓(xùn)過程到底是如何進(jìn)行的、 培訓(xùn)又是如何產(chǎn)生作用的等信息知之甚少。
因此,基于培訓(xùn)效果的爭(zhēng)論及其實(shí)證結(jié)果,本文將從評(píng)分員培訓(xùn)對(duì)評(píng)分員差異的積極影響和消極影響兩個(gè)方面對(duì)相關(guān)文獻(xiàn)進(jìn)行梳理, 分析當(dāng)前研究存在的不足,并提出進(jìn)一步的探究方法,以期對(duì)今后的研究提供一些參考。
大量研究者對(duì)評(píng)分員培訓(xùn)持積極態(tài)度 (如Jacobs et al.,1981;Charney,1984;Lumley & McNamara,1995;Wolfe et al.,1999;Elder et al.,2007;Knoch et al.,2007;陸遠(yuǎn),2010)[15-21]。他們認(rèn)為評(píng)分員培訓(xùn)有利于調(diào)和由不同專業(yè)背景評(píng)分員所造成的評(píng)判差異(Jacobs et al.1981)[22]; 有助于評(píng)分員更加清晰地理解評(píng)分標(biāo)準(zhǔn), 同時(shí)有助于鼓勵(lì)評(píng)分員依照設(shè)定好的標(biāo)準(zhǔn)、 而不是根據(jù)他們自己的標(biāo)準(zhǔn)作出判斷(Charney,1984)[23]; 能通過使評(píng)分員熟悉寫作任務(wù)的要求以及不同考生的特征來減少評(píng)分員對(duì)作文期望值的偏差,提高評(píng)分一致性(Elder,2007)[24];可以幫助評(píng)分員準(zhǔn)確地理解評(píng)分標(biāo)準(zhǔn), 從而減少評(píng)分員嚴(yán)厲度的總體差異(陸遠(yuǎn),2010)[25]。
以上觀點(diǎn)在一些實(shí)證研究中得到了證明。例如,Shohamy et al.(1992)[26]對(duì)比了不同職業(yè)背景和培訓(xùn)情況下的評(píng)分員作文打分的可靠性。結(jié)果發(fā)現(xiàn):評(píng)分員的職業(yè)背景對(duì)評(píng)分效果沒有影響, 而評(píng)分員是否經(jīng)過訓(xùn)練對(duì)評(píng)分效果有顯著的影響, 受過培訓(xùn)的評(píng)分員比未受培訓(xùn)的評(píng)分員評(píng)分更可信 (比率分別是0.91-0.93 vs.0.80-0.90)。 這一研究成果突出了評(píng)分員培訓(xùn)的重要性,Weigle(1994)[27]對(duì)此做了進(jìn)一步的探索。 Weigle 采取有聲思維和跟進(jìn)訪談形式對(duì)有經(jīng)驗(yàn)和無經(jīng)驗(yàn)的評(píng)分員(各8 名)在培訓(xùn)前后分別評(píng)判相同的作文進(jìn)行調(diào)查研究, 探討培訓(xùn)對(duì)ESL 水平測(cè)試作文評(píng)分員的影響。 通過對(duì)比培訓(xùn)前后各評(píng)分員對(duì)評(píng)分標(biāo)準(zhǔn)中三個(gè)子類(內(nèi)容、修辭、語言)的給分差,研究發(fā)現(xiàn),規(guī)范的培訓(xùn)成功地使這些評(píng)分員的打分更一致。最后,通過分析4 名評(píng)分員在培訓(xùn)前后的有聲思維和跟進(jìn)訪談內(nèi)容, 總結(jié)了評(píng)分員培訓(xùn)的積極效果。 Weigle 表示,培訓(xùn)幫助他們“界定了評(píng)分標(biāo)準(zhǔn)(clarification of the rating criteria)、調(diào)整了對(duì)考生和任務(wù)的期望值 (revising expectations of examinees and task)、關(guān)注評(píng)分員之間一致性(concern for interrater agreement)”。
隨著計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展與成熟, 機(jī)器評(píng)分和網(wǎng)絡(luò)在線培訓(xùn)逐步興起, 并引發(fā)了討論。 Elder et al.(2007)[28]就網(wǎng)絡(luò)評(píng)分培訓(xùn)進(jìn)行了問卷調(diào)查。 結(jié)果表明,網(wǎng)絡(luò)培訓(xùn)對(duì)評(píng)分員內(nèi)部一致性、評(píng)分員嚴(yán)厲度及偏差的影響非常小,只是局限在某些方面。這次研究從側(cè)面證明了面對(duì)面培訓(xùn)的重要性, 盡管面對(duì)面培訓(xùn)相比網(wǎng)絡(luò)培訓(xùn)而言更耗費(fèi)時(shí)間和金錢, 但仍是較為有效的培訓(xùn)方式。Knoch et al.(2007)[29]則詳細(xì)對(duì)比了傳統(tǒng)的面對(duì)面培訓(xùn)和在線培訓(xùn)在嚴(yán)厲度、 內(nèi)在一致性、集中趨勢(shì)、光環(huán)效應(yīng)以及顯著偏誤等方面的效果。 結(jié)果顯示,兩種方式都能有效降低評(píng)分員效應(yīng),并且從正面證明了面對(duì)面培訓(xùn)由于結(jié)合了個(gè)性化反饋,對(duì)減少各種偏差更有效。
最近的一項(xiàng)研究(顏靜蘭,2018)[30]證實(shí),培訓(xùn)較大程度上縮小了評(píng)分員給分與專家給分之間的差異,能幫助其掌握新的評(píng)分標(biāo)準(zhǔn),確保閱卷質(zhì)量。 實(shí)驗(yàn)首先對(duì)TEM 評(píng)分員進(jìn)行寫作專項(xiàng)培訓(xùn),包括TEM作文新題型的理解與認(rèn)識(shí)、 寫作題目和材料的解讀與分析以及寫作評(píng)分標(biāo)準(zhǔn)的培訓(xùn), 再將TEM4 評(píng)分員參加專項(xiàng)培訓(xùn)后對(duì)一套樣卷的打分情況 (包括給分平均分、集體平均分值差異、個(gè)體最大分值差異)與專家給分進(jìn)行對(duì)比。結(jié)果顯示,培訓(xùn)前評(píng)分員對(duì)第一套樣卷的打分與專家組的評(píng)分差距較大, 平均分值差異可達(dá)到5-8 分, 個(gè)體最大分差可達(dá)10 分;經(jīng)過培訓(xùn),集體平均分值差異最大為3 分,個(gè)體分值最大差異為4 分,總體情況得到了很大改善。該項(xiàng)研究對(duì)培訓(xùn)過程的描述較為詳細(xì), 為評(píng)分員培訓(xùn)研究提供了很好的參照。
從上述研究不難看出, 評(píng)分員培訓(xùn)提高了評(píng)分員之間給分的一致性,降低了評(píng)分員效應(yīng),對(duì)減少評(píng)分員差異產(chǎn)生了積極影響,提高了評(píng)分信度。
有學(xué)者對(duì)培訓(xùn)的效果持相反觀點(diǎn)。 有些研究人員(如Charney,1984;Huot,1990)認(rèn)為,如果評(píng)分員培訓(xùn)的目的是為了達(dá)到評(píng)分的一致性, 那么所達(dá)成的共識(shí)很可能只是停留在文章表面,如書寫和拼寫,而不是基于任何實(shí)質(zhì)性的標(biāo)準(zhǔn), 寫作質(zhì)量真正的優(yōu)劣往往被忽略[31,32]。 Barritt et al.(1986)同樣提出擔(dān)憂, 一味強(qiáng)調(diào)對(duì)評(píng)分員進(jìn)行培訓(xùn)以達(dá)成共識(shí)會(huì)迫使他們忽略自己在評(píng)判文章方面所積累的經(jīng)驗(yàn)和專業(yè)知識(shí)[33]。 Vaughan(1991)指出,不管如何培訓(xùn),評(píng)分員依舊會(huì)關(guān)注不同的文本特征并形成不同的評(píng)分內(nèi)化標(biāo)準(zhǔn)[34]。
以上觀點(diǎn)在一些實(shí)證研究中也得到了印證。Vaughan(1991)采取有聲思維研究受過培訓(xùn)的評(píng)分員使用整體評(píng)分法評(píng)閱作文的心理過程, 確定了一些獨(dú)特的閱讀策略或閱讀風(fēng)格,如“第一印象主導(dǎo)風(fēng)格 (first-impression-dominates style)”、“兩類別風(fēng)格(two-category style)”、只關(guān)注結(jié)構(gòu)和語法的“語法導(dǎo)向風(fēng)格(grammar-oriented style)”等,并得出結(jié)論:盡管經(jīng)過相同的培訓(xùn), 不同的評(píng)分員依舊關(guān)注不同的文章要素,并可能存在閱讀文章的個(gè)性化方式[35]。 與之相似,Eckes(2008)使用李克特四級(jí)量表考察了64名受過培訓(xùn)的托??荚噷懽鞑糠衷u(píng)分員對(duì)評(píng)分標(biāo)準(zhǔn)各個(gè)維度,如流利性、完整性和語法正確性等的重視度。 多面Rasch 分析表明,評(píng)分員對(duì)各標(biāo)準(zhǔn)的重要性看法有很大不同。 而后,通過雙模聚類技術(shù)(a twomode clustering technique)凸現(xiàn)了6 種不同類型的評(píng)分員。 其中四種類型是根據(jù)評(píng)分員對(duì)評(píng)分標(biāo)準(zhǔn)中某一項(xiàng)目給予高度重視而命名, 分別是: 句法至上型(Syntax Type)、準(zhǔn)確度至上型(Correctness Type)、結(jié)構(gòu)至上型 (Structure Type)、 流利度至上型(Fluency Type)評(píng)分員。 另外兩種類型則根據(jù)評(píng)分員對(duì)標(biāo)準(zhǔn)中某一項(xiàng)目的忽視而命名, 即非流利型 (Non-fluency Type)和非論證型(Non-argumentation Type)評(píng)分員。因此,正如Eckes 所說,評(píng)分員遠(yuǎn)沒有將他們的注意力均衡地分布在一套評(píng)分標(biāo)準(zhǔn)中[36]。 Winke & Lim(2015)引入眼動(dòng)追蹤技術(shù)(eye-tracking technology)更加直觀地證明了這一點(diǎn)。 研究通過記錄9 名受過培訓(xùn)的評(píng)分員使用分項(xiàng)評(píng)分量表評(píng)閱40 篇作文時(shí)的眼動(dòng)數(shù)據(jù)表明,并非每個(gè)子類別(內(nèi)容、結(jié)構(gòu)、詞匯、語言使用、書寫)都受到了同等的關(guān)注,具體表現(xiàn)為評(píng)分員對(duì)結(jié)構(gòu)和內(nèi)容兩個(gè)維度最為關(guān)注, 而對(duì)書寫的關(guān)注最少[37]。Eckstein et al.(2019)同樣使用眼動(dòng)追蹤技術(shù),探究5 名受過培訓(xùn)的TESOL 英語教師在評(píng)閱L1 和L2 寫作時(shí)的評(píng)分行為差異。 結(jié)果表明,評(píng)分員有意地閱讀L1 文本的修辭、組織和語法,而忽略L2 文本的語法。 這表明評(píng)分員對(duì)文本的關(guān)注點(diǎn)存在明顯的偏向;同時(shí)說明,即使經(jīng)過培訓(xùn),評(píng)分員對(duì)不同考生背景的文本仍然表現(xiàn)出不同的評(píng)閱風(fēng)格[38]。
此外,越來越多的相關(guān)研究表明,即使經(jīng)過嚴(yán)格的培訓(xùn),評(píng)分員之間的嚴(yán)厲度仍然存在顯著的差異。Weigle (1998) 利用基于項(xiàng)目反應(yīng)理論的多層面Rasch 模型(Many-Facet Rasch Model,MFRM)分析發(fā)現(xiàn), 盡管經(jīng)過培訓(xùn)后大多數(shù)評(píng)分員的一致性有所改善,評(píng)分員之間的嚴(yán)厲度仍然存在顯著差異[39]。 張文星、鄒申(2015)和李美娟、劉紅云(2015)同樣運(yùn)用多層面Rasch 模型對(duì)大規(guī)模英語考試作文評(píng)分員的評(píng)分?jǐn)?shù)據(jù)進(jìn)行分析,二者的實(shí)驗(yàn)結(jié)果均表明,評(píng)分員在寬嚴(yán)度方面存在顯著差異[40,41]。 可見,評(píng)分員培訓(xùn)效果似乎又不盡如人意。
基于相關(guān)文獻(xiàn)就評(píng)分員培訓(xùn)對(duì)評(píng)分員差異的影響進(jìn)行了回顧。整體而言,評(píng)分員培訓(xùn)的研究在近四十年取得了豐碩成果。 盡管評(píng)分員培訓(xùn)效果的研究結(jié)論不一, 但評(píng)分員培訓(xùn)目前仍是寫作測(cè)試人工評(píng)分的必經(jīng)環(huán)節(jié), 也是最常見的減少評(píng)分員差異的重要途徑,其目的在于增強(qiáng)評(píng)分員一致性,提高測(cè)試信效度,保證考試公平性。 因此,評(píng)分員培訓(xùn)研究無論對(duì)于施測(cè)者還是受測(cè)者均有重要意義。
研究得出的評(píng)分員培訓(xùn)效果不一, 其原因可能在于以下幾點(diǎn):
首先, 使用的評(píng)分標(biāo)準(zhǔn)不同。 如有的研究 (如Vaughan,1991)使用的是整體性評(píng)分標(biāo)準(zhǔn)[42],而有的研究(Weigle,1994)使用的是分析性評(píng)分標(biāo)準(zhǔn)[43]。 按照Weigle(2002)和Weir(2005)的說法,分析性量表比整體性量表更有助于提高培訓(xùn)效果[44,45]。由此可見,評(píng)分標(biāo)準(zhǔn)不一,培訓(xùn)效果有別也就不足為奇。
第二,在內(nèi)容方面大多關(guān)注培訓(xùn)后評(píng)分寬嚴(yán)度、一致性和偏差的變化, 對(duì)培訓(xùn)后的評(píng)分過程是如何影響評(píng)分結(jié)果的,尚不明確,如培訓(xùn)前后關(guān)注焦點(diǎn)的變化。
第三,在培訓(xùn)方法上,多采取統(tǒng)一的集中培訓(xùn)模式,忽略了評(píng)分員在閱讀方式、決策風(fēng)格、認(rèn)知特點(diǎn)等方面的個(gè)體差異,因此可能抵消培訓(xùn)效果。
最后,在培訓(xùn)效果評(píng)估方面,大多是從統(tǒng)計(jì)學(xué)的角度出發(fā), 如采用Rasch 模型對(duì)評(píng)分結(jié)果進(jìn)行統(tǒng)計(jì)分析。Rasch 模型的輸出數(shù)據(jù)雖能較為全面地診斷評(píng)分員在評(píng)分中所存在的問題, 卻無法提供更為直觀且有針對(duì)性的反饋。
此外, 盡管在寫作評(píng)估的文獻(xiàn)中對(duì)評(píng)分員培訓(xùn)的討論頗多, 但培訓(xùn)是如何使評(píng)分員就評(píng)分達(dá)成一致的, 評(píng)分員培訓(xùn)又是如何影響評(píng)分過程等方面的研究相對(duì)較少。 早在Weigle1998 年的研究中就強(qiáng)調(diào), 僅僅能夠?yàn)榭忌谋憩F(xiàn)分配一個(gè)更準(zhǔn)確的數(shù)字是不夠的, 除非我們確定這個(gè)數(shù)字代表了被測(cè)試能力的更準(zhǔn)確的定義[46]。 徐鷹、曾用強(qiáng)同樣認(rèn)為,評(píng)分員培訓(xùn)“不僅應(yīng)關(guān)注以分?jǐn)?shù)為代表的評(píng)分結(jié)果,也應(yīng)關(guān)注分?jǐn)?shù)所代表的意義和評(píng)分人的給分過程”[47]。 這就意味著, 未來評(píng)分員培訓(xùn)研究應(yīng)更多地將關(guān)注點(diǎn)放在培訓(xùn)過程上, 通過對(duì)比培訓(xùn)前后評(píng)分員的決策過程來探究培訓(xùn)效果。在研究方法上,未來的研究可以引入眼動(dòng)追蹤技術(shù),該技術(shù)具有實(shí)時(shí)追蹤優(yōu)勢(shì),能夠生動(dòng)、清晰地記錄評(píng)分員評(píng)分過程的眼動(dòng)軌跡,為評(píng)分員決策過程研究提供直接的測(cè)量工具。 通過眼動(dòng)指標(biāo)以及注視圖和熱點(diǎn)圖可以驗(yàn)證與探討評(píng)分員培訓(xùn)前后評(píng)判關(guān)注點(diǎn)的變化, 進(jìn)一步揭示培訓(xùn)后評(píng)分過程與評(píng)分信效度的關(guān)系。此外,利用眼動(dòng)追蹤技術(shù)能夠?yàn)樵u(píng)分員提供直觀而又有針對(duì)性的反饋信息,由此最大化培訓(xùn)的積極效果,從而提高閱卷質(zhì)量與考試公平性, 也為寫作教學(xué)與測(cè)試提供建設(shè)性的啟發(fā)。