吳昊 韓葉
(海軍軍醫(yī)大學(xué)國(guó)際軍事醫(yī)學(xué)交流中心外語(yǔ)教研室,上海 200433)
寫(xiě)作作為英語(yǔ)的輸出性技能之一,在評(píng)價(jià)學(xué)生語(yǔ)言知識(shí)的吸收和應(yīng)用上扮演著非常重要的角色。文章重點(diǎn)比較了兩種常用的寫(xiě)作評(píng)價(jià)方法:分析性評(píng)價(jià)和整體性評(píng)價(jià)。采用 Bachman和 Palmer(1996)的《測(cè)試效用框架》(framework of test usefulness),文章從信度、效度和實(shí)用性等角度對(duì)兩種評(píng)價(jià)方式進(jìn)行了對(duì)比。最后,基于比較分析中提到的理論和實(shí)證發(fā)現(xiàn),文章為寫(xiě)作教學(xué)和評(píng)價(jià)給出了一系列建議。
分析性評(píng)價(jià)(analytical assessment)是一種對(duì)評(píng)價(jià)標(biāo)準(zhǔn)中各個(gè)維度分別打分并將總分或加權(quán)分?jǐn)?shù)作為評(píng)價(jià)結(jié)果的評(píng)價(jià)方式。成績(jī)一般以字母、數(shù)字或百分比等形式體現(xiàn)。分析性評(píng)價(jià)關(guān)注應(yīng)試者在各個(gè)維度中的表現(xiàn),每一個(gè)維度的評(píng)價(jià)過(guò)程相對(duì)獨(dú)立。在寫(xiě)作測(cè)試中,評(píng)分員可以分別給詞匯、語(yǔ)法、篇章結(jié)構(gòu)、連貫性等維度制定評(píng)價(jià)標(biāo)準(zhǔn),然后依照這些評(píng)價(jià)標(biāo)準(zhǔn)給應(yīng)試者的各項(xiàng)表現(xiàn)逐一打分,取總成績(jī)或者加權(quán)分?jǐn)?shù)。
整體性評(píng)價(jià)(holistic assessment)是一種綜合考慮評(píng)價(jià)標(biāo)準(zhǔn)后直接給出評(píng)價(jià)結(jié)果的評(píng)價(jià)方式。評(píng)分員將應(yīng)試者的表現(xiàn)對(duì)標(biāo)到評(píng)價(jià)標(biāo)準(zhǔn)中的對(duì)應(yīng)等級(jí)并給出評(píng)價(jià)結(jié)果。成績(jī)一般以字母、數(shù)字或百分比等形式。在評(píng)價(jià)過(guò)程中,評(píng)分員給出的分?jǐn)?shù)反映了他們對(duì)應(yīng)試者在任務(wù)中的表現(xiàn)的總體印象。評(píng)分員需要經(jīng)過(guò)嚴(yán)格的培訓(xùn)以保證他們的判斷符合評(píng)分標(biāo)準(zhǔn)的要求。
本節(jié)采用Bachman和Palmer(1996)提出的《測(cè)試效用框架》重點(diǎn)對(duì)比兩種評(píng)價(jià)方式的四個(gè)核心特點(diǎn):信度、結(jié)構(gòu)效度和實(shí)用性,并引用實(shí)證研究的發(fā)現(xiàn)加以佐證。
評(píng)價(jià)方式的信度指的是不同評(píng)分員對(duì)于應(yīng)試者表現(xiàn)的判斷具有多高的一致性。較高的信度意味著評(píng)分員多數(shù)情況下都能夠給出一致的評(píng)價(jià)結(jié)果。評(píng)價(jià)實(shí)操通常關(guān)注兩種信度:評(píng)分員間信度(inter-rater reliability)和評(píng)分員內(nèi)信度(intra-rater reliability)。前者衡量不同評(píng)分員對(duì)同一試卷的評(píng)價(jià)一致性,而后者衡量同一位評(píng)分員對(duì)同一試卷進(jìn)行多次評(píng)價(jià)的一致性。
分析性評(píng)價(jià)通常比整體性評(píng)價(jià)具有更高的信度。在Ghalib和Al-Hattami(2015)的研究中,三名專(zhuān)業(yè)評(píng)分員在接受了兩個(gè)小時(shí)的培訓(xùn)后為30名英語(yǔ)專(zhuān)業(yè)學(xué)生的寫(xiě)作試卷打分。評(píng)分員首先使用整體性評(píng)價(jià)對(duì)30篇稿件進(jìn)行評(píng)分,然后使用分析性評(píng)價(jià)為同一批文章打分,為保證兩次評(píng)價(jià)的獨(dú)立性,時(shí)間間隔為一個(gè)月。當(dāng)三名評(píng)分員使用分析性評(píng)價(jià)時(shí),評(píng)分員間的差異不顯著,但當(dāng)他們使用整體性評(píng)價(jià)時(shí),差異顯著。這表示分析性評(píng)價(jià)的評(píng)價(jià)結(jié)果一致性和可靠性更高。此外,類(lèi)內(nèi)相關(guān)系數(shù)(intra-class correlation coefficient)表明,當(dāng)三位評(píng)分員使用分析性評(píng)價(jià)時(shí),他們的類(lèi)內(nèi)相關(guān)系數(shù)更高,更高的類(lèi)內(nèi)相關(guān)系數(shù)意味著更高的評(píng)分員內(nèi)信度。
在之后的研究中,Knoch(2009)訓(xùn)練了10位評(píng)分員對(duì)100份稿件進(jìn)行評(píng)分,發(fā)現(xiàn)在大學(xué)學(xué)術(shù)英語(yǔ)的教學(xué)環(huán)境下,分析性評(píng)價(jià)比整體性評(píng)價(jià)具有更高的評(píng)分員間可靠性,這彌補(bǔ)了Ghalib和Al-Hattami的研究中缺乏評(píng)分員間信度測(cè)量的問(wèn)題。此外,在一項(xiàng)類(lèi)似的研究中,Zhang等人通過(guò)分層抽樣從5,000名中國(guó)EFL學(xué)生中選取了300份答卷,得到的結(jié)論與Ghalib和Al-Hattami一致。
以上研究發(fā)現(xiàn)均可以有力支持分析性評(píng)價(jià)比整體性評(píng)價(jià)具有更高的信度。但是,目前大多數(shù)有關(guān)評(píng)價(jià)方式的研究都集中在大學(xué)英語(yǔ)教學(xué)背景下,其他語(yǔ)言學(xué)習(xí)環(huán)境下(如中小學(xué)、校外語(yǔ)言學(xué)習(xí)中心、其他語(yǔ)種的學(xué)習(xí))的實(shí)證研究開(kāi)展不足。未來(lái)的研究可以考慮在更多學(xué)習(xí)環(huán)境下開(kāi)展,以使論點(diǎn)的普適性更強(qiáng)。
評(píng)價(jià)方式的效度指的是評(píng)價(jià)的準(zhǔn)確性,反映了測(cè)試內(nèi)容在多大程度上吻合教學(xué)內(nèi)容的安排。在效度的各個(gè)維度中,建構(gòu)效度最受關(guān)注。寫(xiě)作測(cè)試的建構(gòu)效度指的是一次寫(xiě)作測(cè)試能夠在多大程度上將應(yīng)試者在不同技能上的表現(xiàn)區(qū)別開(kāi)來(lái),建構(gòu)效度越高,這種能力就越強(qiáng)。一般來(lái)講,分析性評(píng)價(jià)比整體性評(píng)價(jià)具有更高的建構(gòu)效度。以上文提到的雅思寫(xiě)作測(cè)試和托福寫(xiě)作測(cè)試做對(duì)比,雅思寫(xiě)作測(cè)試給應(yīng)試者的各項(xiàng)寫(xiě)作能力分別評(píng)分,這樣每項(xiàng)技能的表現(xiàn)都可以區(qū)分開(kāi)來(lái),例如某位應(yīng)試者在語(yǔ)法多樣性和準(zhǔn)確性這一項(xiàng)的表現(xiàn)只得到了5分,但這并不影響他在詞匯豐富程度這一項(xiàng)得到6分,這樣就避免了評(píng)分員因個(gè)人喜好給某個(gè)維度賦予更多權(quán)重,從而對(duì)整個(gè)測(cè)試評(píng)價(jià)過(guò)程的信度帶來(lái)負(fù)面影響。
相比之下,整體性評(píng)價(jià)根據(jù)評(píng)分員的總體印象給出一個(gè)單一的分?jǐn)?shù),這是其結(jié)構(gòu)效度相對(duì)較低的主要原因。畢竟整體性評(píng)價(jià)不能像分析性評(píng)價(jià)那樣對(duì)每一個(gè)維度分別評(píng)價(jià)。結(jié)構(gòu)效度低的評(píng)價(jià)方式在報(bào)告成績(jī)時(shí)會(huì)給應(yīng)試者帶來(lái)一定程度的消極感受:例如,托福寫(xiě)作測(cè)試采用整體性評(píng)價(jià),考生備考時(shí)很難很快理解3分的作文比4分的作文差在哪里,是連貫性,文章結(jié)構(gòu),還是詞匯準(zhǔn)確度?即使是評(píng)價(jià)經(jīng)驗(yàn)豐富的教師拿到這樣兩份試卷后做出的解釋也不一定和評(píng)分員給出評(píng)價(jià)時(shí)的原因相同,因?yàn)槿绻@位評(píng)分員因個(gè)人喜好更看重文章結(jié)構(gòu),而這份試卷的結(jié)構(gòu)恰好完整且清晰,那么這份試卷拿到高分的可能性便會(huì)大大增加,反之亦然。
評(píng)價(jià)方式的實(shí)用性衡量的是整個(gè)評(píng)價(jià)過(guò)程所需的人力、財(cái)力和時(shí)間成本。在大多數(shù)情況下,評(píng)價(jià)周期拉得越長(zhǎng),成本越高。研究表明,在對(duì)同一份樣卷進(jìn)行評(píng)價(jià)時(shí),整體性評(píng)價(jià)所花費(fèi)的時(shí)間遠(yuǎn)遠(yuǎn)少于分析性評(píng)價(jià),因?yàn)槭褂梅治鲂栽u(píng)價(jià)的評(píng)分員需要更多的時(shí)間給每個(gè)維度逐一評(píng)分。此外,如果分析性評(píng)價(jià)因其側(cè)重點(diǎn)在設(shè)計(jì)過(guò)程中賦予了各個(gè)維度不均等的權(quán)重,用于計(jì)算最終得分的時(shí)間將會(huì)更久。研究表明,分析性評(píng)價(jià)在評(píng)分員培訓(xùn)中所花費(fèi)的時(shí)間是整體性評(píng)價(jià)的兩倍,在正式評(píng)價(jià)環(huán)節(jié)中所花費(fèi)的時(shí)間更是整體性評(píng)價(jià)的四倍。在Zhang等人(2015)的研究中,同一批14名評(píng)分員對(duì)300份英語(yǔ)寫(xiě)作樣本進(jìn)行評(píng)分,使用分析性評(píng)價(jià)需要花費(fèi)多達(dá)8.5天,而整體性評(píng)價(jià)僅花費(fèi)了1.5天,兩者相差5.7倍。很顯然,與分析性評(píng)價(jià)相比,整體性評(píng)價(jià)的“性?xún)r(jià)比”更高。
首先,評(píng)價(jià)方式的選擇應(yīng)該考慮測(cè)試的目的。由于整體性評(píng)價(jià)的實(shí)用性很高,它經(jīng)常作為大規(guī)模評(píng)價(jià)或在有限時(shí)間、有限資源內(nèi)完成的緊急需求下的首選評(píng)價(jià)方式。然而,如果一次寫(xiě)作測(cè)試是為了向教師和學(xué)生提供診斷性信息,分析性評(píng)價(jià)無(wú)疑是更好的選擇。研究表明,分析性評(píng)價(jià)可以提高評(píng)分的透明度、提升評(píng)分員內(nèi)信度和評(píng)分員間信度、激發(fā)教師對(duì)教學(xué)實(shí)踐的反思以及促進(jìn)學(xué)生進(jìn)行自我感知和評(píng)價(jià)。
其次,評(píng)價(jià)標(biāo)準(zhǔn)的設(shè)計(jì)應(yīng)當(dāng)清晰、明確、合理。一份合格的寫(xiě)作評(píng)價(jià)標(biāo)準(zhǔn)應(yīng)該對(duì)寫(xiě)作技能的定義、得分方式、各個(gè)維度的權(quán)重以及分?jǐn)?shù)的反饋方式有精確的解釋。此外,如果測(cè)試的目的是評(píng)價(jià)某一特定語(yǔ)言技能的掌握情況,那么評(píng)價(jià)標(biāo)準(zhǔn)應(yīng)當(dāng)給出明確的側(cè)重點(diǎn)。例如,如果教師希望用寫(xiě)作測(cè)試考察英語(yǔ)初學(xué)者對(duì)于過(guò)去式的掌握和運(yùn)用,那么語(yǔ)法的準(zhǔn)確性應(yīng)該被賦予更多的權(quán)重,相反對(duì)于初學(xué)者來(lái)說(shuō)文章結(jié)構(gòu)和語(yǔ)義連貫性這些高階技能不應(yīng)該成為本次測(cè)試的重點(diǎn)。此外,教師也應(yīng)當(dāng)考慮在本次測(cè)試中采用分析性評(píng)價(jià),因?yàn)樗梢栽谡{(diào)整語(yǔ)法技能在評(píng)價(jià)標(biāo)準(zhǔn)中的權(quán)重的同時(shí)提供給學(xué)生更詳細(xì)的反饋,例如,將語(yǔ)法技能增加到50%,而將剩余的50%分配給詞匯、文章結(jié)構(gòu)、文章內(nèi)容等方面。
評(píng)價(jià)標(biāo)準(zhǔn)確立后,還需要進(jìn)行評(píng)價(jià)標(biāo)準(zhǔn)的培訓(xùn)和樣卷的試評(píng)和解析。評(píng)價(jià)標(biāo)準(zhǔn)培訓(xùn)的主要目的是保證評(píng)價(jià)標(biāo)準(zhǔn)的信度和效度。測(cè)試的組織者應(yīng)當(dāng)帶領(lǐng)評(píng)分員認(rèn)真核對(duì)答案、學(xué)習(xí)評(píng)價(jià)標(biāo)準(zhǔn)和評(píng)價(jià)要求。此外,提供樣卷的試評(píng)和解析是最有助于保證信度和效度的方式之一。樣卷的數(shù)量不必過(guò)大,3到10份具有代表性的樣卷就足以幫助評(píng)分員在評(píng)價(jià)前對(duì)應(yīng)試者的群體水平有一個(gè)大致的了解,也可以保證評(píng)分員在評(píng)價(jià)實(shí)操中快速回顧和參考。相關(guān)研究表明,大部分的評(píng)分員對(duì)于樣卷的依賴(lài)程度很高,尤其是在處理疑難答卷時(shí)(如處于及格邊緣、優(yōu)秀邊緣的答卷),樣卷往往可以提供非常有效的參考。
文章通過(guò)對(duì)比發(fā)現(xiàn),分析性評(píng)價(jià)因其給每個(gè)維度逐一打分的特質(zhì),具有更高的信度、結(jié)構(gòu)效度。相比之下,整體性評(píng)價(jià)因其只需打一次分?jǐn)?shù),在時(shí)間和人力成本上具有更強(qiáng)優(yōu)勢(shì)。兩種評(píng)價(jià)方式對(duì)應(yīng)不同的測(cè)試需求,教師應(yīng)當(dāng)綜合考慮測(cè)試的目的和測(cè)試結(jié)果的功能。此外,測(cè)試發(fā)起方應(yīng)當(dāng)制定規(guī)則合理、描述清晰的評(píng)價(jià)標(biāo)準(zhǔn),并進(jìn)行全面的評(píng)價(jià)培訓(xùn)以保證測(cè)試的信度和效度。