亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

評(píng)分員培訓(xùn)對(duì)作文評(píng)分員差異的影響研究述評(píng)

2021-01-02 06:47:11涂穎

考試研究 2021年3期

關(guān)鍵詞：評(píng)分標(biāo)準(zhǔn)眼動(dòng)一致性

涂穎

一、引言

寫作測(cè)試的評(píng)分涉及包含評(píng)分員、評(píng)分量表、考生、寫作任務(wù)和評(píng)分員培訓(xùn)在內(nèi)的一系列影響因素及其之間的交互作用（Milanovic & Saville，1996；Weigle，2002；Barkaoui，2008；陸遠(yuǎn)，2010）[1-4]。這些因素及其交互作用的存在導(dǎo)致評(píng)分過程和結(jié)果呈現(xiàn)出差異性。在寫作測(cè)試中，這種差異很大程度上來自于評(píng)分員差異。 Eckes（2008）發(fā)現(xiàn)，評(píng)分員差異與評(píng)分員特征有關(guān)，而與考生的表現(xiàn)無關(guān)[5]。評(píng)分員差異導(dǎo)致了評(píng)分結(jié)果與真分?jǐn)?shù)的偏離，因此對(duì)寫作測(cè)試的信度和效度及考試的公平性構(gòu)成了直接威脅。寫作評(píng)估和教育測(cè)量領(lǐng)域的專家普遍認(rèn)為，評(píng)分員培訓(xùn)對(duì)于獲得可信的作文考試評(píng)分至關(guān)重要。例如，Weigle（1994）指出，寫作測(cè)試評(píng)分信效度的核心問題是評(píng)分員培訓(xùn)；培訓(xùn)幫助評(píng)分員界定了評(píng)分標(biāo)準(zhǔn)，調(diào)整了其對(duì)考生和任務(wù)的期望值，從而提高了評(píng)分員之間的一致性[6]。

對(duì)作文評(píng)分員培訓(xùn)效果的實(shí)證研究（Shohamy et al.，1992；Weigle，1994；顏靜蘭，2018）表明，培訓(xùn)能夠減少評(píng)分員之間的差異，提高評(píng)分一致性[7-9]。然而，一些研究（Hoyt & Kerns，1999；Barrett，2001；Myford & Wolfe，2000；燕翔宇，2010；張文星、鄒申，2015）[10-14]則揭示出評(píng)分員培訓(xùn)在減少評(píng)分員差異等方面的效果比預(yù)期要低得多。由此可見，研究者對(duì)評(píng)分員培訓(xùn)效果尚未達(dá)成共識(shí)。同時(shí)，在對(duì)相關(guān)文獻(xiàn)的梳理中發(fā)現(xiàn)，許多研究對(duì)培訓(xùn)過程的描述十分簡(jiǎn)略，使得我們對(duì)培訓(xùn)過程到底是如何進(jìn)行的、培訓(xùn)又是如何產(chǎn)生作用的等信息知之甚少。

因此，基于培訓(xùn)效果的爭(zhēng)論及其實(shí)證結(jié)果，本文將從評(píng)分員培訓(xùn)對(duì)評(píng)分員差異的積極影響和消極影響兩個(gè)方面對(duì)相關(guān)文獻(xiàn)進(jìn)行梳理，分析當(dāng)前研究存在的不足，并提出進(jìn)一步的探究方法，以期對(duì)今后的研究提供一些參考。

二、評(píng)分員培訓(xùn)對(duì)評(píng)分員差異的積極影響

大量研究者對(duì)評(píng)分員培訓(xùn)持積極態(tài)度（如Jacobs et al.，1981；Charney，1984；Lumley & McNamara，1995；Wolfe et al.，1999；Elder et al.，2007；Knoch et al.，2007；陸遠(yuǎn)，2010）[15-21]。他們認(rèn)為評(píng)分員培訓(xùn)有利于調(diào)和由不同專業(yè)背景評(píng)分員所造成的評(píng)判差異（Jacobs et al.1981）[22]；有助于評(píng)分員更加清晰地理解評(píng)分標(biāo)準(zhǔn)，同時(shí)有助于鼓勵(lì)評(píng)分員依照設(shè)定好的標(biāo)準(zhǔn)、而不是根據(jù)他們自己的標(biāo)準(zhǔn)作出判斷（Charney，1984）[23]；能通過使評(píng)分員熟悉寫作任務(wù)的要求以及不同考生的特征來減少評(píng)分員對(duì)作文期望值的偏差，提高評(píng)分一致性（Elder，2007）[24]；可以幫助評(píng)分員準(zhǔn)確地理解評(píng)分標(biāo)準(zhǔn)，從而減少評(píng)分員嚴(yán)厲度的總體差異（陸遠(yuǎn)，2010）[25]。

以上觀點(diǎn)在一些實(shí)證研究中得到了證明。例如，Shohamy et al.（1992）[26]對(duì)比了不同職業(yè)背景和培訓(xùn)情況下的評(píng)分員作文打分的可靠性。結(jié)果發(fā)現(xiàn)：評(píng)分員的職業(yè)背景對(duì)評(píng)分效果沒有影響，而評(píng)分員是否經(jīng)過訓(xùn)練對(duì)評(píng)分效果有顯著的影響，受過培訓(xùn)的評(píng)分員比未受培訓(xùn)的評(píng)分員評(píng)分更可信（比率分別是0.91-0.93 vs.0.80-0.90）。這一研究成果突出了評(píng)分員培訓(xùn)的重要性，Weigle（1994）[27]對(duì)此做了進(jìn)一步的探索。 Weigle 采取有聲思維和跟進(jìn)訪談形式對(duì)有經(jīng)驗(yàn)和無經(jīng)驗(yàn)的評(píng)分員（各8 名）在培訓(xùn)前后分別評(píng)判相同的作文進(jìn)行調(diào)查研究，探討培訓(xùn)對(duì)ESL 水平測(cè)試作文評(píng)分員的影響。通過對(duì)比培訓(xùn)前后各評(píng)分員對(duì)評(píng)分標(biāo)準(zhǔn)中三個(gè)子類（內(nèi)容、修辭、語言）的給分差，研究發(fā)現(xiàn)，規(guī)范的培訓(xùn)成功地使這些評(píng)分員的打分更一致。最后，通過分析4 名評(píng)分員在培訓(xùn)前后的有聲思維和跟進(jìn)訪談內(nèi)容，總結(jié)了評(píng)分員培訓(xùn)的積極效果。 Weigle 表示，培訓(xùn)幫助他們“界定了評(píng)分標(biāo)準(zhǔn)（clarification of the rating criteria）、調(diào)整了對(duì)考生和任務(wù)的期望值（revising expectations of examinees and task）、關(guān)注評(píng)分員之間一致性（concern for interrater agreement）”。

隨著計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展與成熟，機(jī)器評(píng)分和網(wǎng)絡(luò)在線培訓(xùn)逐步興起，并引發(fā)了討論。 Elder et al.（2007）[28]就網(wǎng)絡(luò)評(píng)分培訓(xùn)進(jìn)行了問卷調(diào)查。結(jié)果表明，網(wǎng)絡(luò)培訓(xùn)對(duì)評(píng)分員內(nèi)部一致性、評(píng)分員嚴(yán)厲度及偏差的影響非常小，只是局限在某些方面。這次研究從側(cè)面證明了面對(duì)面培訓(xùn)的重要性，盡管面對(duì)面培訓(xùn)相比網(wǎng)絡(luò)培訓(xùn)而言更耗費(fèi)時(shí)間和金錢，但仍是較為有效的培訓(xùn)方式。Knoch et al.（2007）[29]則詳細(xì)對(duì)比了傳統(tǒng)的面對(duì)面培訓(xùn)和在線培訓(xùn)在嚴(yán)厲度、內(nèi)在一致性、集中趨勢(shì)、光環(huán)效應(yīng)以及顯著偏誤等方面的效果。結(jié)果顯示，兩種方式都能有效降低評(píng)分員效應(yīng)，并且從正面證明了面對(duì)面培訓(xùn)由于結(jié)合了個(gè)性化反饋，對(duì)減少各種偏差更有效。

最近的一項(xiàng)研究（顏靜蘭，2018）[30]證實(shí)，培訓(xùn)較大程度上縮小了評(píng)分員給分與專家給分之間的差異，能幫助其掌握新的評(píng)分標(biāo)準(zhǔn)，確保閱卷質(zhì)量。實(shí)驗(yàn)首先對(duì)TEM 評(píng)分員進(jìn)行寫作專項(xiàng)培訓(xùn)，包括TEM作文新題型的理解與認(rèn)識(shí)、寫作題目和材料的解讀與分析以及寫作評(píng)分標(biāo)準(zhǔn)的培訓(xùn)，再將TEM4 評(píng)分員參加專項(xiàng)培訓(xùn)后對(duì)一套樣卷的打分情況（包括給分平均分、集體平均分值差異、個(gè)體最大分值差異）與專家給分進(jìn)行對(duì)比。結(jié)果顯示，培訓(xùn)前評(píng)分員對(duì)第一套樣卷的打分與專家組的評(píng)分差距較大，平均分值差異可達(dá)到5-8 分，個(gè)體最大分差可達(dá)10 分；經(jīng)過培訓(xùn)，集體平均分值差異最大為3 分，個(gè)體分值最大差異為4 分，總體情況得到了很大改善。該項(xiàng)研究對(duì)培訓(xùn)過程的描述較為詳細(xì)，為評(píng)分員培訓(xùn)研究提供了很好的參照。

從上述研究不難看出，評(píng)分員培訓(xùn)提高了評(píng)分員之間給分的一致性，降低了評(píng)分員效應(yīng)，對(duì)減少評(píng)分員差異產(chǎn)生了積極影響，提高了評(píng)分信度。

三、評(píng)分員培訓(xùn)對(duì)評(píng)分員差異的消極影響

有學(xué)者對(duì)培訓(xùn)的效果持相反觀點(diǎn)。有些研究人員（如Charney，1984；Huot，1990）認(rèn)為，如果評(píng)分員培訓(xùn)的目的是為了達(dá)到評(píng)分的一致性，那么所達(dá)成的共識(shí)很可能只是停留在文章表面，如書寫和拼寫，而不是基于任何實(shí)質(zhì)性的標(biāo)準(zhǔn)，寫作質(zhì)量真正的優(yōu)劣往往被忽略[31，32]。 Barritt et al.（1986）同樣提出擔(dān)憂，一味強(qiáng)調(diào)對(duì)評(píng)分員進(jìn)行培訓(xùn)以達(dá)成共識(shí)會(huì)迫使他們忽略自己在評(píng)判文章方面所積累的經(jīng)驗(yàn)和專業(yè)知識(shí)[33]。 Vaughan（1991）指出，不管如何培訓(xùn)，評(píng)分員依舊會(huì)關(guān)注不同的文本特征并形成不同的評(píng)分內(nèi)化標(biāo)準(zhǔn)[34]。

以上觀點(diǎn)在一些實(shí)證研究中也得到了印證。Vaughan（1991）采取有聲思維研究受過培訓(xùn)的評(píng)分員使用整體評(píng)分法評(píng)閱作文的心理過程，確定了一些獨(dú)特的閱讀策略或閱讀風(fēng)格，如“第一印象主導(dǎo)風(fēng)格（first-impression-dominates style）”、“兩類別風(fēng)格（two-category style）”、只關(guān)注結(jié)構(gòu)和語法的“語法導(dǎo)向風(fēng)格（grammar-oriented style）”等，并得出結(jié)論：盡管經(jīng)過相同的培訓(xùn)，不同的評(píng)分員依舊關(guān)注不同的文章要素，并可能存在閱讀文章的個(gè)性化方式[35]。與之相似，Eckes（2008）使用李克特四級(jí)量表考察了64名受過培訓(xùn)的托?？荚噷懽鞑糠衷u(píng)分員對(duì)評(píng)分標(biāo)準(zhǔn)各個(gè)維度，如流利性、完整性和語法正確性等的重視度。多面Rasch 分析表明，評(píng)分員對(duì)各標(biāo)準(zhǔn)的重要性看法有很大不同。而后，通過雙模聚類技術(shù)（a twomode clustering technique）凸現(xiàn)了6 種不同類型的評(píng)分員。其中四種類型是根據(jù)評(píng)分員對(duì)評(píng)分標(biāo)準(zhǔn)中某一項(xiàng)目給予高度重視而命名，分別是：句法至上型（Syntax Type）、準(zhǔn)確度至上型（Correctness Type）、結(jié)構(gòu)至上型（Structure Type）、流利度至上型（Fluency Type）評(píng)分員。另外兩種類型則根據(jù)評(píng)分員對(duì)標(biāo)準(zhǔn)中某一項(xiàng)目的忽視而命名，即非流利型（Non-fluency Type）和非論證型（Non-argumentation Type）評(píng)分員。因此，正如Eckes 所說，評(píng)分員遠(yuǎn)沒有將他們的注意力均衡地分布在一套評(píng)分標(biāo)準(zhǔn)中[36]。 Winke & Lim（2015）引入眼動(dòng)追蹤技術(shù)（eye-tracking technology）更加直觀地證明了這一點(diǎn)。研究通過記錄9 名受過培訓(xùn)的評(píng)分員使用分項(xiàng)評(píng)分量表評(píng)閱40 篇作文時(shí)的眼動(dòng)數(shù)據(jù)表明，并非每個(gè)子類別（內(nèi)容、結(jié)構(gòu)、詞匯、語言使用、書寫）都受到了同等的關(guān)注，具體表現(xiàn)為評(píng)分員對(duì)結(jié)構(gòu)和內(nèi)容兩個(gè)維度最為關(guān)注，而對(duì)書寫的關(guān)注最少[37]。Eckstein et al.（2019）同樣使用眼動(dòng)追蹤技術(shù)，探究5 名受過培訓(xùn)的TESOL 英語教師在評(píng)閱L1 和L2 寫作時(shí)的評(píng)分行為差異。結(jié)果表明，評(píng)分員有意地閱讀L1 文本的修辭、組織和語法，而忽略L2 文本的語法。這表明評(píng)分員對(duì)文本的關(guān)注點(diǎn)存在明顯的偏向；同時(shí)說明，即使經(jīng)過培訓(xùn)，評(píng)分員對(duì)不同考生背景的文本仍然表現(xiàn)出不同的評(píng)閱風(fēng)格[38]。

此外，越來越多的相關(guān)研究表明，即使經(jīng)過嚴(yán)格的培訓(xùn)，評(píng)分員之間的嚴(yán)厲度仍然存在顯著的差異。Weigle （1998）利用基于項(xiàng)目反應(yīng)理論的多層面Rasch 模型（Many-Facet Rasch Model，MFRM）分析發(fā)現(xiàn)，盡管經(jīng)過培訓(xùn)后大多數(shù)評(píng)分員的一致性有所改善，評(píng)分員之間的嚴(yán)厲度仍然存在顯著差異[39]。張文星、鄒申（2015）和李美娟、劉紅云（2015）同樣運(yùn)用多層面Rasch 模型對(duì)大規(guī)模英語考試作文評(píng)分員的評(píng)分?jǐn)?shù)據(jù)進(jìn)行分析，二者的實(shí)驗(yàn)結(jié)果均表明，評(píng)分員在寬嚴(yán)度方面存在顯著差異[40，41]。可見，評(píng)分員培訓(xùn)效果似乎又不盡如人意。

四、總結(jié)及啟示

基于相關(guān)文獻(xiàn)就評(píng)分員培訓(xùn)對(duì)評(píng)分員差異的影響進(jìn)行了回顧。整體而言，評(píng)分員培訓(xùn)的研究在近四十年取得了豐碩成果。盡管評(píng)分員培訓(xùn)效果的研究結(jié)論不一，但評(píng)分員培訓(xùn)目前仍是寫作測(cè)試人工評(píng)分的必經(jīng)環(huán)節(jié)，也是最常見的減少評(píng)分員差異的重要途徑，其目的在于增強(qiáng)評(píng)分員一致性，提高測(cè)試信效度，保證考試公平性。因此，評(píng)分員培訓(xùn)研究無論對(duì)于施測(cè)者還是受測(cè)者均有重要意義。

研究得出的評(píng)分員培訓(xùn)效果不一，其原因可能在于以下幾點(diǎn)：

首先，使用的評(píng)分標(biāo)準(zhǔn)不同。如有的研究（如Vaughan，1991）使用的是整體性評(píng)分標(biāo)準(zhǔn)[42]，而有的研究（Weigle，1994）使用的是分析性評(píng)分標(biāo)準(zhǔn)[43]。按照Weigle（2002）和Weir（2005）的說法，分析性量表比整體性量表更有助于提高培訓(xùn)效果[44，45]。由此可見，評(píng)分標(biāo)準(zhǔn)不一，培訓(xùn)效果有別也就不足為奇。

第二，在內(nèi)容方面大多關(guān)注培訓(xùn)后評(píng)分寬嚴(yán)度、一致性和偏差的變化，對(duì)培訓(xùn)后的評(píng)分過程是如何影響評(píng)分結(jié)果的，尚不明確，如培訓(xùn)前后關(guān)注焦點(diǎn)的變化。

第三，在培訓(xùn)方法上，多采取統(tǒng)一的集中培訓(xùn)模式，忽略了評(píng)分員在閱讀方式、決策風(fēng)格、認(rèn)知特點(diǎn)等方面的個(gè)體差異，因此可能抵消培訓(xùn)效果。

最后，在培訓(xùn)效果評(píng)估方面，大多是從統(tǒng)計(jì)學(xué)的角度出發(fā)，如采用Rasch 模型對(duì)評(píng)分結(jié)果進(jìn)行統(tǒng)計(jì)分析。Rasch 模型的輸出數(shù)據(jù)雖能較為全面地診斷評(píng)分員在評(píng)分中所存在的問題，卻無法提供更為直觀且有針對(duì)性的反饋。

此外，盡管在寫作評(píng)估的文獻(xiàn)中對(duì)評(píng)分員培訓(xùn)的討論頗多，但培訓(xùn)是如何使評(píng)分員就評(píng)分達(dá)成一致的，評(píng)分員培訓(xùn)又是如何影響評(píng)分過程等方面的研究相對(duì)較少。早在Weigle1998 年的研究中就強(qiáng)調(diào)，僅僅能夠?yàn)榭忌谋憩F(xiàn)分配一個(gè)更準(zhǔn)確的數(shù)字是不夠的，除非我們確定這個(gè)數(shù)字代表了被測(cè)試能力的更準(zhǔn)確的定義[46]。徐鷹、曾用強(qiáng)同樣認(rèn)為，評(píng)分員培訓(xùn)“不僅應(yīng)關(guān)注以分?jǐn)?shù)為代表的評(píng)分結(jié)果，也應(yīng)關(guān)注分?jǐn)?shù)所代表的意義和評(píng)分人的給分過程”[47]。這就意味著，未來評(píng)分員培訓(xùn)研究應(yīng)更多地將關(guān)注點(diǎn)放在培訓(xùn)過程上，通過對(duì)比培訓(xùn)前后評(píng)分員的決策過程來探究培訓(xùn)效果。在研究方法上，未來的研究可以引入眼動(dòng)追蹤技術(shù)，該技術(shù)具有實(shí)時(shí)追蹤優(yōu)勢(shì)，能夠生動(dòng)、清晰地記錄評(píng)分員評(píng)分過程的眼動(dòng)軌跡，為評(píng)分員決策過程研究提供直接的測(cè)量工具。通過眼動(dòng)指標(biāo)以及注視圖和熱點(diǎn)圖可以驗(yàn)證與探討評(píng)分員培訓(xùn)前后評(píng)判關(guān)注點(diǎn)的變化，進(jìn)一步揭示培訓(xùn)后評(píng)分過程與評(píng)分信效度的關(guān)系。此外，利用眼動(dòng)追蹤技術(shù)能夠?yàn)樵u(píng)分員提供直觀而又有針對(duì)性的反饋信息，由此最大化培訓(xùn)的積極效果，從而提高閱卷質(zhì)量與考試公平性，也為寫作教學(xué)與測(cè)試提供建設(shè)性的啟發(fā)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

評(píng)分員培訓(xùn)對(duì)作文評(píng)分員差異的影響研究述評(píng)

一、引言

二、評(píng)分員培訓(xùn)對(duì)評(píng)分員差異的積極影響

三、評(píng)分員培訓(xùn)對(duì)評(píng)分員差異的消極影響

四、總結(jié)及啟示

二、評(píng)分員培訓(xùn)對(duì)評(píng)分員差異的積極影響

三、評(píng)分員培訓(xùn)對(duì)評(píng)分員差異的消極影響

四、總結(jié)及啟示