吳雪峰 肖楊田
(1.南京林業(yè)大學(xué) 外國(guó)語學(xué)院,江蘇 南京 210037;2.大理大學(xué) 外國(guó)語學(xué)院,云南 大理 671000)
寫作測(cè)試考查學(xué)生運(yùn)用英語進(jìn)行書面表達(dá)和交際的能力,是典型的行為表現(xiàn)型測(cè)試(performance test)。寫作測(cè)評(píng)評(píng)分是評(píng)分員、評(píng)分量表和寫作文本間三者間交互作用的結(jié)果(Weigle,2002),具有較強(qiáng)的主觀色彩,而開發(fā)與各類寫作測(cè)試相適應(yīng)的評(píng)分量表可幫助評(píng)分員在評(píng)分時(shí)做到有章可循(Becker,2016)。作為衡量和評(píng)價(jià)學(xué)生寫作能力的重要工具,評(píng)分量表的自身質(zhì)量和效度至關(guān)重要。評(píng)分量表和評(píng)分方式是課堂測(cè)評(píng)的核心(Marzano,2002),但教師很少致力于改革寫作評(píng)分量表,對(duì)課堂二語寫作的評(píng)改缺乏科學(xué)、高效的方法。教師評(píng)分時(shí)一般亦無相關(guān)培訓(xùn)或指導(dǎo),多數(shù)情況下臨時(shí)編制評(píng)分量表供當(dāng)次評(píng)分使用,很少對(duì)其進(jìn)行專門的效度驗(yàn)證。因此,評(píng)分量表質(zhì)量如何不得而知,難以保證。而基于不合理、不科學(xué)的評(píng)分量表而得到的評(píng)分結(jié)果,以及據(jù)此作出的評(píng)分決策極易破壞測(cè)評(píng)的公平和公正(Barkaoui,2010)。
目前,有關(guān)評(píng)分量表效度驗(yàn)證的研究主要針對(duì)大規(guī)模、高風(fēng)險(xiǎn)英語考試中的寫作評(píng)分量表(Shaw et al.,2007),課堂環(huán)境下英語寫作評(píng)分量表的效度研究相對(duì)匱乏。此外,評(píng)分量表的效度驗(yàn)證不僅要關(guān)注評(píng)分結(jié)果,更應(yīng)關(guān)注評(píng)分過程中評(píng)分量表的具體作用和功能,重視評(píng)分員在評(píng)分過程中對(duì)評(píng)分量表的感受和評(píng)價(jià),構(gòu)建更加完整的效度證據(jù)鏈(Knoch et al.,2007)。本研究以課堂環(huán)境下的一則“概要寫作”評(píng)分量表為例(吳雪峰,2018),該評(píng)分量表與依靠專家主觀判斷的傳統(tǒng)評(píng)分量表有所不同,它是基于考生概要寫作測(cè)試樣本,采用更加科學(xué)合理的“數(shù)據(jù)驅(qū)動(dòng)法”研制而成,因而更具真實(shí)性、信度較高(劉力 等,2013)。寫作評(píng)分量表制定完成后,研究人員需對(duì)其進(jìn)行細(xì)致、深入的效度驗(yàn)證,這是評(píng)分量表開發(fā)過程中不可或缺的環(huán)節(jié)。效度研究可從多種角度入手,有助于全面審視評(píng)分量表的質(zhì)量,找到評(píng)分量表中可能存在的問題和不足并對(duì)其進(jìn)行修訂或調(diào)整,從而以高質(zhì)量的評(píng)分量表確保公平、合理地開展英語寫作評(píng)分工作(Knoch,2011)。本研究聚焦評(píng)分量表的使用過程,采用定量、定性相結(jié)合的混合研究范式,通過分析評(píng)分結(jié)果并結(jié)合評(píng)分員在評(píng)分時(shí)的有聲思維及評(píng)分后的半結(jié)構(gòu)式訪談,回溯評(píng)分過程,深入探討該評(píng)分量表的效度。本研究對(duì)其他各類英語寫作評(píng)分量表的效度驗(yàn)證亦具有一定的借鑒意義。
英語寫作評(píng)分量表效度研究聚焦不同類型評(píng)分量表的對(duì)比研究,如分析整體式與分項(xiàng)式評(píng)分量表之間的優(yōu)劣差異。研究表明分項(xiàng)式評(píng)分量表能更好地區(qū)分考生寫作能力,并有效提升評(píng)分的一致性和穩(wěn)定性(Knoch,2011;李航,2015),而整體式評(píng)分量表能顯著提高評(píng)分效率(Barkaoui,2007)。此外,Knoch(2009)基于多層面Rasch模型(MFRM)對(duì)比了描述語比較宏觀的評(píng)分量表和描述語較為詳細(xì)的評(píng)分量表,發(fā)現(xiàn)后者更能有效保障評(píng)分結(jié)果的可靠性。Huhta等(2014)對(duì)比了兩則基于歐洲語言共同參考框架(CEFR)的評(píng)分量表,其中一則描述語直接摘自CEFR,另一則由研究者根據(jù)寫作構(gòu)念改編CEFR描述語而成,后者較之前者在內(nèi)容方面更加具體。與Knoch(2009)的研究結(jié)果不同的是,Huhta et al.(2014)的研究表明兩則評(píng)分量表均具有較好的區(qū)分度。
近年來的評(píng)分量表效度研究則越來越重視構(gòu)建更加多維、深入的證據(jù)鏈。Deygers和Gorp(2015)采用項(xiàng)目反應(yīng)理論、主成分分析、半結(jié)構(gòu)式訪談相結(jié)合的方法驗(yàn)證一則改編自CEFR的評(píng)分量表的效度,結(jié)果表明評(píng)分員能有效使用評(píng)分量表,但對(duì)評(píng)分量表內(nèi)容的理解不盡相同。Mendoza和Knoch(2018)對(duì)一則學(xué)術(shù)寫作評(píng)分量表分兩個(gè)階段進(jìn)行了效度驗(yàn)證。第一階段五名評(píng)分員試用評(píng)分量表后,根據(jù)MFRM數(shù)據(jù)及評(píng)分員反饋對(duì)評(píng)分量表進(jìn)行修改,再交由第二階段的六名評(píng)分員使用,并通過問卷征求評(píng)分員對(duì)評(píng)分量表的評(píng)價(jià)和建議。結(jié)果表明修改后的評(píng)分量表可有效提升評(píng)分信度并得到評(píng)分員的積極評(píng)價(jià)。兩項(xiàng)研究的共同點(diǎn)在于它們都將評(píng)分量表視作一個(gè)整體進(jìn)行效度驗(yàn)證,而Becker(2018)的研究不僅考查評(píng)分量表的整體科學(xué)性,還專門評(píng)估了評(píng)分量表內(nèi)部的構(gòu)成要素,其研究表明各評(píng)分維度完整覆蓋了測(cè)試構(gòu)念,評(píng)分量表中的縱向等級(jí)大多能有效區(qū)分不同寫作能力的考生,但3分和4分之間的區(qū)分度不高,需進(jìn)一步調(diào)整或修改。此外,還有研究關(guān)注專門用途評(píng)分量表的效度,如銜接連貫度評(píng)分量表(Knoch,2007)、寫作測(cè)試任務(wù)真實(shí)性評(píng)分量表(Behizadeh,2014)、寫作功能表達(dá)評(píng)分量表(Kuiken et al.,2017)等。
上述研究大多以結(jié)果為導(dǎo)向,分析考生的寫作成績(jī)來評(píng)判評(píng)分量表的效度,也有少量研究以過程為導(dǎo)向,關(guān)注評(píng)分量表的具體使用過程。Shirazi(2012)通過評(píng)分員有聲思維發(fā)現(xiàn)其在評(píng)分過程中很少依靠評(píng)分量表,而是根據(jù)各自的主觀標(biāo)準(zhǔn)進(jìn)行評(píng)分。Jeong(2015)對(duì)比了無評(píng)分量表和有評(píng)分量表情況下的寫作評(píng)分,發(fā)現(xiàn)兩次評(píng)分結(jié)果雖無顯著性差異,但有評(píng)分量表時(shí)評(píng)分員關(guān)注的覆蓋面更廣、更全。Winke等(2015)的眼動(dòng)實(shí)驗(yàn)結(jié)果進(jìn)一步表明評(píng)分量表對(duì)評(píng)分工作起到持續(xù)的引導(dǎo)作用,且評(píng)分員對(duì)評(píng)分量表各個(gè)維度的關(guān)注程度有所不同。還有研究對(duì)比了不同評(píng)分經(jīng)驗(yàn)的評(píng)分員在使用評(píng)分量表過程中的差異,發(fā)現(xiàn)較之評(píng)分經(jīng)驗(yàn),評(píng)分量表對(duì)評(píng)分過程產(chǎn)生了更大的影響(Barkaoui,2010)。此外,作為熟練評(píng)分員的教師在使用評(píng)分量表時(shí),其評(píng)分結(jié)果的一致性、科學(xué)性以及對(duì)評(píng)分量表的解讀能力均優(yōu)于新手評(píng)分員(Li et al.,2015)。
綜上,許多研究主要依賴對(duì)比不同類型評(píng)分量表、衡量靜態(tài)評(píng)分結(jié)果的可靠性等手段,效度證據(jù)的完整度相對(duì)不足。部分研究雖關(guān)注評(píng)分量表的使用過程,但主要目的在于觀察評(píng)分員特征或揭示評(píng)分員與評(píng)分量表之間的互動(dòng)關(guān)系,而非評(píng)分量表自身的質(zhì)量和效度。鑒于此,本研究以一則“概要寫作”評(píng)分量表為例,基于評(píng)分量表的使用過程對(duì)其進(jìn)行效度驗(yàn)證,擬回答下列兩個(gè)研究問題。
(1)在評(píng)分過程中,評(píng)分量表是否能保障評(píng)分可靠性?
(2)評(píng)分量表的描述語、評(píng)分維度、各級(jí)別分值等要素對(duì)評(píng)分過程有何影響?
受試包含學(xué)生、教師兩個(gè)群體。前者為江蘇某高校英語專業(yè)本科三年級(jí)學(xué)生(n=63),其中男生九人,女生54人,均已通過英語專業(yè)四級(jí)考試(平均成績(jī)70.13分),英語基本功較為扎實(shí)。教師為該高校在職英語教師(n=7),擔(dān)任概要寫作的評(píng)分工作(具體見表1)。
表1 評(píng)分員信息一覽表
本研究所使用的評(píng)分量表由五個(gè)維度組成,即“語言準(zhǔn)確”“語言復(fù)雜”“忠實(shí)源文”“銜接連貫”“寫作規(guī)范”,分值權(quán)重依次為25%、20%、20%、25%、10%。各維度包含從“優(yōu)秀”到“極差”五個(gè)等級(jí)。暫設(shè)概要寫作任務(wù)滿分為100分,并按照上述分值權(quán)重為每個(gè)等級(jí)平均賦分,詳見表2。評(píng)分員根據(jù)整體印象在各維度確定某等級(jí),然后在其對(duì)應(yīng)的賦分區(qū)間內(nèi)擇定最終得分。
表2 等待效度驗(yàn)證的概要寫作評(píng)分量表① 限于篇幅,評(píng)分量表描述語未能呈現(xiàn),可參考《中國(guó)外語教育》2018年第2期第65-66頁。
概要寫作源文由筆者與兩名英語專業(yè)教師共同挑選,最終擇定2014年考研英語中的第二篇閱讀理解,主題為美國(guó)法律人才培養(yǎng),一致認(rèn)為源文難度與受試學(xué)生的英語水平比較吻合,全文共計(jì)413詞。
63名學(xué)生在英語寫作課上完成概要寫作,限時(shí)45分鐘,篇幅100詞以內(nèi)。研究者對(duì)63份概要寫作逐一編號(hào),并隱去學(xué)生信息。評(píng)分員在評(píng)分前均接受了培訓(xùn),包括閱讀和分析源文、熟悉評(píng)分量表等。研究者從63份概要寫作中選出好、中、差三個(gè)樣本供評(píng)分員參考,通過試評(píng)和討論幫助評(píng)分員在評(píng)分寬嚴(yán)度把握方面形成基本共識(shí)。此外,本研究采用有聲思維探索評(píng)分量表在評(píng)分過程中的作用和影響,研究者就有聲思維的過程和方法向評(píng)分員做了解釋和說明。
為避免相互干擾,培訓(xùn)結(jié)束后七名評(píng)分員被分別安排到七間不同的教室進(jìn)行獨(dú)立評(píng)分,并使用手機(jī)錄制有聲思維,評(píng)分時(shí)間為三小時(shí)。結(jié)束后,又采用半結(jié)構(gòu)式訪談了解評(píng)分員在評(píng)分量表使用過程中的感受。研究者對(duì)有聲思維與訪談錄音進(jìn)行了轉(zhuǎn)寫,采用內(nèi)容分析法(Patton,2015)進(jìn)行編碼,自下而上地提煉主題。
MFRM廣泛應(yīng)用于英語寫作測(cè)試評(píng)分研究,可在同一洛基量尺上對(duì)不同層面的個(gè)體進(jìn)行度量,為評(píng)分量表效度驗(yàn)證提供豐富的證據(jù)(Bond et al.,2015)。本研究借助FACETS 3.58軟件進(jìn)行定量分析。構(gòu)建的數(shù)學(xué)模型包括評(píng)分員、考生、評(píng)分維度三個(gè)層面:
log(Pnijk/Pnijk-1)=Bn-Cj-Di-Fk 8136A635
其中,Pnijk表示評(píng)分員j對(duì)考生n在維度i上打k分的概率;Pnijk-1為其他情況相同時(shí),該考生被評(píng)為(k-1)分的概率;Bn、Di、Cj、Fk分別代表第n個(gè)考生概要寫作能力、維度i的難度、第j個(gè)評(píng)分員的嚴(yán)厲度以及各維度中得k分相對(duì)于(k-1)分的相對(duì)難度。
MFRM分析直觀呈現(xiàn)了評(píng)分員在評(píng)分過程中對(duì)寬嚴(yán)度的把握及其自身評(píng)分一致性情況(表3)。
表3 評(píng)分員寬嚴(yán)度及一致性統(tǒng)計(jì)結(jié)果
表3中的第二列顯示評(píng)分員在寬嚴(yán)度方面的差異,六號(hào)評(píng)分員最嚴(yán)格(0.13 logit),五號(hào)評(píng)分員最寬松(-0.09 logit)。分隔系數(shù)為3.37,分割信度為0.92,卡方值為86.9(df=6;p<0.01),說明評(píng)分員在寬嚴(yán)度方面存在顯著性差異。但其寬嚴(yán)度洛基值均在±1 logit 之間,且寬嚴(yán)度全距0.22 logit (-0.09~0.13 logit)遠(yuǎn)低于被試能力全距(1.9 logit)的1/4,說明評(píng)分員嚴(yán)厲度差異總體上不會(huì)對(duì)評(píng)分結(jié)果產(chǎn)生決定性影響(Myford et al.,2003)。
通過觀察加權(quán)均方擬合統(tǒng)計(jì)量(Infit MnSq)可了解評(píng)分員內(nèi)部一致性,公認(rèn)度較高的取值區(qū)間為0.5~1.5,可說明數(shù)據(jù)擬合良好,評(píng)分員穩(wěn)定性較高(Linacre,1999)。表3顯示,七位評(píng)分員的Infit MnSq值均在可接受范圍內(nèi),評(píng)分員在評(píng)分過程中能保持比較穩(wěn)定的寬嚴(yán)度。
基于過程導(dǎo)向的評(píng)分量表效度驗(yàn)證,其焦點(diǎn)是在評(píng)分過程中,評(píng)分量表能否規(guī)范和引導(dǎo)評(píng)分行為,保障評(píng)分質(zhì)量,可借助評(píng)分員在評(píng)分過程中的一致性指標(biāo)進(jìn)行觀察(Weir,2005;Deygers et al.,2015)。MFRM分析結(jié)果表明,評(píng)分員在相互一致性方面差異顯著,可能與其在學(xué)歷、教齡、認(rèn)知等個(gè)體因素方面差異較大有關(guān)。由表1可知評(píng)分員年齡跨度為18歲,教齡跨度23年,其中兩人擁有博士學(xué)位,研究方向也各不相同。上述差異可能是導(dǎo)致評(píng)分員間評(píng)分一致性差異的主要原因。許多研究表明評(píng)分員在接受培訓(xùn)的程度、評(píng)分風(fēng)格、評(píng)分策略等方面差異顯著(Knoch,2011;徐鷹,2016a),但這并不一定會(huì)對(duì)評(píng)分結(jié)果的可靠性造成根本性破壞。本研究MFRM結(jié)果顯示評(píng)分員間嚴(yán)厲度差異總體上未對(duì)評(píng)分結(jié)果起決定性作用,且加權(quán)均方擬合值表明所有評(píng)分員在評(píng)分過程中呈現(xiàn)出較好的內(nèi)部一致性,說明評(píng)分量表指導(dǎo)下的評(píng)分過程總體來講是科學(xué)的,評(píng)分結(jié)果是可信的。
3.2.1 描述語
評(píng)分員一致認(rèn)為描述語表述清晰,易于理解,在使用過程中沒有出現(xiàn)對(duì)描述語的不解、疑惑等情況。其中R4說到:
描述語都很清楚、明了,沒有哪一條會(huì)讓我覺得模棱兩可。對(duì)描述語的內(nèi)容,我看一遍就能完全明白它的意思。
語義清晰的描述語有效增強(qiáng)了評(píng)分量表的便捷性和實(shí)用性,促使量表在使用過程中發(fā)揮更大的作用,比如R6認(rèn)為:
這個(gè)評(píng)分量表使用起來很方便,一步一步地引導(dǎo)。現(xiàn)在專四、專八都有概要寫作,平時(shí)課上也經(jīng)常給學(xué)生進(jìn)行練習(xí),這個(gè)評(píng)分量表可以直接被使用到我平時(shí)教學(xué)的評(píng)分中去。
描述語質(zhì)量對(duì)評(píng)分量表在實(shí)際使用過程中的效用至關(guān)重要。表述模糊的描述語加重評(píng)分員認(rèn)知負(fù)荷,迫使其解讀描述語時(shí)加入個(gè)人猜測(cè)或推斷,加劇評(píng)分的主觀性,最終影響評(píng)分量表的效度(Rakedzon et al.,2017)。本研究中評(píng)分員對(duì)描述語給予了積極的評(píng)價(jià),認(rèn)為描述語準(zhǔn)確、清晰、無歧義,這對(duì)統(tǒng)一評(píng)分員認(rèn)識(shí),保障評(píng)分量表效度具有重要意義。許多研究都強(qiáng)調(diào)描述語這一特點(diǎn)的重要性,甚至認(rèn)為是研制評(píng)分量表中最具挑戰(zhàn)性的一環(huán)(Rezaei et al.,2010)。但這并非意味著描述語越詳細(xì)越好,描述語過于細(xì)化反而會(huì)束縛評(píng)分員手腳,使其在評(píng)分過程中過度糾結(jié)評(píng)分量表中的某一細(xì)則,繼而影響評(píng)分效率和評(píng)分決策的果斷性(Li et al.,2015)。鑒于此,描述語應(yīng)避免過度具體或模糊兩個(gè)極端,結(jié)合寫作測(cè)試類型和目的在二者之間找到最佳平衡,并通過評(píng)分員培訓(xùn)等環(huán)節(jié)保障評(píng)分員對(duì)描述語解讀的一致性。
3.2.2 評(píng)分維度分析
表4顯示五個(gè)維度在難度上有顯著差異,分隔系數(shù)為4.32,信度為0.95,卡方值為125.4(d.f.=4;p<0.01)。各維度logit值表明語言準(zhǔn)確,語言復(fù)雜(0.12 logit)難度最大,得分最低,說明評(píng)分員一定程度上繼承了傳統(tǒng)評(píng)分風(fēng)格,在評(píng)分過程中對(duì)語言層面的質(zhì)量更加敏感,因此會(huì)更加嚴(yán)格。忠實(shí)源文(-0.13 logit)難度最小,最易得高分,可能是因?yàn)楦乓獙懽魇芟抻谠次膬?nèi)容,而學(xué)生均為英語專業(yè)高年級(jí)本科生,語言基本功較扎實(shí),不會(huì)輕易跑題或偏題(吳雪峰等,2018)。各維度Infit MnSq值在可接受范圍內(nèi)(0.94~1.06 logit),不存在非擬合或過度擬合的維度。
表4 評(píng)分維度的MFRM統(tǒng)計(jì)結(jié)果
對(duì)評(píng)分維度的劃分,所有評(píng)分員給予了充分肯定,認(rèn)為五個(gè)維度完整地體現(xiàn)了概要寫作構(gòu)念,維度設(shè)置合理。評(píng)分員R3提道:
所有應(yīng)當(dāng)覆蓋的維度都考慮進(jìn)來了,沒有遺漏,包括詞匯、句法、內(nèi)容等各方面,還突出考查了考生能否恰當(dāng)處理概要寫作與源文的關(guān)系,也就是“忠實(shí)源文”度。
然而,也有評(píng)分員對(duì)評(píng)分維度的數(shù)量表示擔(dān)憂,擔(dān)心設(shè)置五個(gè)維度會(huì)影響評(píng)分效率。評(píng)分員R5指出:
維度確實(shí)比較完整,也很有必要。但如果用于大型考試,像專四專八、四六級(jí),閱卷太耗時(shí)了,要考慮五個(gè)維度啊,哪來得及呢?用于平時(shí)測(cè)驗(yàn)倒還行。
對(duì)分值權(quán)重分配,多位評(píng)分員提出質(zhì)疑,尤其是針對(duì)“忠實(shí)源文”,認(rèn)為該維度分值權(quán)重偏低,應(yīng)充分考慮概要寫作的特殊性及其構(gòu)念內(nèi)涵,賦予該維度更高的權(quán)重。評(píng)分員R1表示:
概要寫作的第一要?jiǎng)?wù)就是內(nèi)容要匹配源文。目前只占20%感覺低了點(diǎn)。如果學(xué)生的概要寫作語言優(yōu)美、結(jié)構(gòu)完整,但寫的內(nèi)容和源文相關(guān)性很差或者風(fēng)牛馬不相及,那還有什么意義呢?
在此基礎(chǔ)上,評(píng)分員R6則明確提出“忠實(shí)源文”度是整個(gè)評(píng)分量表中最重要的維度,應(yīng)該給予其最高的權(quán)重,他認(rèn)為:
沒有哪個(gè)維度能和“忠實(shí)源文”度相提并論,20%的權(quán)重偏低了,必須提高,其他有的維度要降下去,降哪個(gè)再慎重考慮。
盡管評(píng)分員均贊同維度的設(shè)置,但在分值權(quán)重方面提出異議,尤其是“忠實(shí)源文”維度,認(rèn)為20%的權(quán)重過低,應(yīng)當(dāng)賦予該維度最高的權(quán)重。從測(cè)試構(gòu)念來看,概要寫作是基于閱讀考查寫作能力的測(cè)試任務(wù),學(xué)生需在理解源文的基礎(chǔ)上,通過認(rèn)知加工和處理,使用自己的語言簡(jiǎn)明扼要地概述源文主要信息(Yu,2009)。概要寫作的構(gòu)念尤其強(qiáng)調(diào)所寫概要和源文間的匹配度。除“簡(jiǎn)明扼要”和“自己組織語言”以外,未對(duì)語言質(zhì)量提出具體要求,語言維度權(quán)重過高會(huì)導(dǎo)致考分解釋的偏差,即分?jǐn)?shù)主要反映語言能力而非概要寫作能力,這與概要寫作的測(cè)試構(gòu)念是相悖的。此外,該量表分值權(quán)重的確定主要依靠回歸分析(吳雪峰,2018),是否合理還取決于評(píng)分員在評(píng)分過程中的感受及評(píng)價(jià)(Barkaoui,2010),因此可適當(dāng)提升“忠實(shí)源文”維度的權(quán)重,降低語言準(zhǔn)確、語言復(fù)雜維度的權(quán)重,做到“較高的分值比例給那些較能體現(xiàn)或代表寫作能力的部分”(鄒申,2011:114)。
3.2.3 級(jí)別設(shè)置與分值使用
評(píng)分量表各維度均由五個(gè)級(jí)別組成,其設(shè)置與分值使用是否合理主要考慮以下層面:(1)分值使用的整體分布;(2)Outfit MnSq值是否小于2;(3)分階校準(zhǔn)值是否隨分值增加而單向遞增(李清華,2014)。具體見表5。
表5 各維度分值使用情況一覽表① C表示Count,即評(píng)分員打出該分?jǐn)?shù)的頻次;OM表示Outfit MnSq,即未加權(quán)均方擬合統(tǒng)計(jì)量;SC表示Step calibration,即分階校準(zhǔn)值。此外,表中黑色底紋用以區(qū)別各維度中的不同評(píng)分等級(jí)。如維度1中,由低到高各等級(jí)的分值區(qū)間依次為:0-5;6-10;11-15;16-20;21-25,其他維度以此類推。
分值 1語言準(zhǔn)確度2銜接連貫度3忠實(shí)源文度4語言復(fù)雜度5寫作規(guī)范度(25分)(25分)(20分)(20分)(10分)8 3 1.5 -0.82 2 1.3 -0.27images/BZ_160_1094_547_1183_622.pngimages/BZ_160_1183_547_1301_622.pngimages/BZ_160_1301_547_1449_622.pngimages/BZ_160_1449_547_1537_622.pngimages/BZ_160_1537_547_1655_622.pngimages/BZ_160_1655_547_1803_622.pngimages/BZ_160_1803_547_1921_622.pngimages/BZ_160_1921_547_2039_622.png0.38 9 4 1.3 -0.68 5 0.8 -1.16? 30 0.8 -0.42 40 0.8 -0.98 83 0.9 0.41 10images/BZ_160_383_697_472_772.pngimages/BZ_160_472_697_590_772.pngimages/BZ_160_590_697_738_772.pngimages/BZ_160_738_697_826_772.pngimages/BZ_160_826_697_944_772.pngimages/BZ_160_944_697_1094_772.png28 1.0 0.05 44 1.3 -0.34images/BZ_160_1803_697_1921_772.pngimages/BZ_160_1921_697_2039_772.png1.91 11 19 1.1 -0.64 29 0.9 -0.56 26 1.4 0.09 26 1.0 0.33 12 30 0.8 -0.75? 27 1.3 -0.08images/BZ_160_1094_848_1183_923.pngimages/BZ_160_1183_848_1301_923.pngimages/BZ_160_1301_848_1449_923.pngimages/BZ_160_1449_848_1537_923.pngimages/BZ_160_1537_848_1655_923.pngimages/BZ_160_1655_848_1803_923.png13 15 0.9 0.43 12 0.6 0.70 52 1.2 0.22 77 0.9 -0.22 14 21 0.4 -0.56? 33 1.1 -1.08? 48 1.1 0.24 38 0.9 0.66 15images/BZ_160_383_1073_472_1148.pngimages/BZ_160_472_1073_590_1148.pngimages/BZ_160_590_1073_738_1148.pngimages/BZ_160_738_1073_826_1148.pngimages/BZ_160_826_1073_944_1148.pngimages/BZ_160_944_1073_1094_1148.png46 1.0 0.26 34 1.1 0.13?16 97 1.3 -0.40 99 1.5 -0.42images/BZ_160_1094_1148_1183_1224.pngimages/BZ_160_1183_1148_1301_1224.pngimages/BZ_160_1301_1148_1449_1224.pngimages/BZ_160_1449_1148_1537_1224.pngimages/BZ_160_1537_1148_1655_1224.pngimages/BZ_160_1655_1148_1803_1224.png17 33 1.1 1.00 29 1.3 1.32 35 0.9 0.68 20 1.1 0.89 18 30 1.1 0.07? 25 1.0 0.27? 27 1.0 0.75 15 1.0 0.64?19 11 1.0 1.04 14 0.8 0.76 7 1.3 2.04 3 0.6 2.18 20images/BZ_160_383_1449_472_1524.pngimages/BZ_160_472_1449_590_1524.pngimages/BZ_160_590_1449_738_1524.pngimages/BZ_160_738_1449_826_1524.pngimages/BZ_160_826_1449_944_1524.pngimages/BZ_160_944_1449_1094_1524.pngimages/BZ_160_1094_1449_1537_1524.pngimages/BZ_160_1537_1449_1655_1524.pngimages/BZ_160_1655_1449_1803_1524.png21 31 0.9 0.20 24 1.3 0.74 22 21 1.2 0.72 15 1.4 0.93 23 4 0.6 2.19 6 0.8 1.56 24 1 0.9 2.18 4 1.1 1.29?25
首先,就總體分布而言,評(píng)分員在各維度上均未使用過一級(jí)中的任何分值??紤]到受試學(xué)生均為英語專業(yè)三年級(jí)學(xué)生,英語基本功較扎實(shí),這樣的結(jié)果是完全正常的。各維度使用的分值大多集中在第二至五級(jí)。此外,MFRM分析顯示學(xué)生層面分隔系數(shù)為4.19,分割信度為0.95,卡方值為844.9(df=62,p=.00),說明評(píng)分量表能顯著區(qū)分學(xué)生的概要寫作能力。總之,評(píng)分過程中分值使用比較均衡、合理,無某分值或分?jǐn)?shù)段過度集中的現(xiàn)象。其次,各維度所有分值Outfit MnSq均小于2,且大多接近1,說明評(píng)分量表擬合良好,獲得某分值的學(xué)生其預(yù)測(cè)分?jǐn)?shù)和實(shí)際分?jǐn)?shù)無顯著差異,該分值能準(zhǔn)確反映學(xué)生的實(shí)際寫作水平(Linacre,1999)。
然而從表5我們還是看到,各維度分階校準(zhǔn)值未隨分值增加而單向遞增,出現(xiàn)“分階無序”現(xiàn)象(表5中?號(hào)),表明評(píng)分員在使用這些分值時(shí)無法做到準(zhǔn)確把握和使用,這些分值不能很好地區(qū)分不同寫作能力的學(xué)生。各維度分階無序頻次從高到低為:語言準(zhǔn)確六次、銜接連貫六次、語言復(fù)雜四次、忠實(shí)源文兩次、寫作規(guī)范一次。評(píng)分量表三、四級(jí)使用的分值最多,分別為八次和七次;二、五級(jí)數(shù)量較小,均為三次,說明評(píng)分員主要在中等級(jí)別無法準(zhǔn)確把握和使用相應(yīng)分值。但分階無序現(xiàn)象大多發(fā)生在某級(jí)別內(nèi)部(如語言準(zhǔn)確維度三級(jí)中的12、14、15等三個(gè)分值),基本不涉及跨級(jí)別的臨界分值。以語言準(zhǔn)確度為例,三到五級(jí)最低分依次為11分、16分、21分,均未出現(xiàn)分階無序現(xiàn)象,說明在評(píng)分過程中,評(píng)分員借助評(píng)分量表能有效區(qū)別隸屬不同級(jí)別的學(xué)生,但無法在各級(jí)別內(nèi)部做出精準(zhǔn)決斷。
有聲思維也證實(shí)了評(píng)分過程中評(píng)分員存在這種困難。R5在評(píng)分時(shí)說道:
語言質(zhì)量還不錯(cuò),用了一些從句,高級(jí)詞匯也有,可以放在第四檔。這檔的分值13-16分。打哪一個(gè)分?jǐn)?shù)呢?14還是15、16?有點(diǎn)暈……好吧,就15吧。說實(shí)話我真不知道該選哪一個(gè)。時(shí)間差不多了,別想了,就15分吧。好糾結(jié)啊。
評(píng)分員訪談表明,評(píng)分員能較好地區(qū)分各維度中的五個(gè)級(jí)別,認(rèn)為各級(jí)別間差異顯著,有利于快速、準(zhǔn)確地判定學(xué)生習(xí)作所屬級(jí)別。但在各級(jí)別內(nèi)部具體賦分時(shí)有一定的難度。評(píng)分員R6說道:
一個(gè)級(jí)別包含4-5個(gè)分值,那我就有四個(gè)選擇。給作文定級(jí)已經(jīng)費(fèi)了一番腦子了,馬上又要做“四選一”,有點(diǎn)痛苦。我很糾結(jié),四個(gè)分值之間到底是什么差異,我不是很清楚。
評(píng)分員雖能有效區(qū)分量表的五個(gè)級(jí)別,但從某級(jí)別內(nèi)部分值區(qū)間擇取具體分值時(shí)無法準(zhǔn)確把握,這與前人研究結(jié)果是一致的(Jeffrey,2015;徐鷹,2016b),因?yàn)楦骷?jí)別描述語是對(duì)該級(jí)別寫作能力的整體性描述,量表中并無針對(duì)內(nèi)部分值區(qū)間中各分值的具體化描述,因此評(píng)分員通過主觀推測(cè)而非依賴實(shí)際標(biāo)準(zhǔn)擇定最后分值,再加上評(píng)分時(shí)間限制,故出現(xiàn)上述賦分困難。也有寫作測(cè)試(如托福、雅思)采用單點(diǎn)分值,即每個(gè)級(jí)別只對(duì)應(yīng)一個(gè)分值,如五個(gè)級(jí)別對(duì)應(yīng)分值為1至5,其效度優(yōu)于分值區(qū)間式評(píng)分量表(關(guān)丹丹等,2011)。但單點(diǎn)分值評(píng)分模式下被歸入同一級(jí)別的習(xí)作,質(zhì)量仍有差異,因而有損考試公平(Deygers et al.,2015),同時(shí)會(huì)限制分?jǐn)?shù)的多樣性,導(dǎo)致寫作分?jǐn)?shù)解釋的趨同性,不利于給出有效的考試反饋(Rezaei et al.,2010)。國(guó)內(nèi)大規(guī)模英語考試(如CET4/6,TEM4/8)均采用區(qū)間分值量表進(jìn)行評(píng)分,多年來歷經(jīng)實(shí)踐已較為成熟,其效度已得到廣泛的社會(huì)公認(rèn)。綜上,區(qū)間分值和單點(diǎn)分值各有利弊,采用何種形式應(yīng)因地因時(shí)制宜,做出合理安排。本研究所設(shè)分值較高(100分),可采取降低分值、合并分?jǐn)?shù)段等方式縮小評(píng)分員的分值擇取范圍。
為克服評(píng)分過程中抉擇具體分值時(shí)的困難,評(píng)分員采取了一系列對(duì)策。我們從有聲思維報(bào)告中提煉出五種策略,即:搜索關(guān)鍵詞、搜索關(guān)鍵錯(cuò)誤、分析推斷、前后比較、自我修正,使用頻次見表6?!八阉麝P(guān)鍵詞”指通過觀察關(guān)鍵詞的呈現(xiàn)或缺位判斷是否覆蓋源文核心信息,是否使用有效銜接手段,為忠實(shí)源文、銜接連貫維度的評(píng)分提供依據(jù);“搜索關(guān)鍵錯(cuò)誤”主要用于語言準(zhǔn)確、語言復(fù)雜及寫作規(guī)范維度的評(píng)分;“分析推斷”幫助評(píng)分員在各級(jí)別間及及其內(nèi)部進(jìn)行分值選擇;“前后比較”指評(píng)分員在賦分猶豫時(shí)翻閱、對(duì)比已經(jīng)評(píng)閱、正在評(píng)閱和即將評(píng)閱的習(xí)作,以做出更加合理的評(píng)分決策?!白晕倚拚敝冈u(píng)分員意識(shí)到自己評(píng)分有誤或不妥,主動(dòng)修改和糾正所賦分值。
表6 評(píng)分策略使用頻次
不難看出,評(píng)分員實(shí)施后兩個(gè)策略不需直接求助評(píng)分量表,但前三個(gè)策略的使用與評(píng)分量表直接相關(guān),是評(píng)分員結(jié)合評(píng)分量表各維度的具體要求而采取的相應(yīng)策略,其使用頻次達(dá)到了448次,遠(yuǎn)超后兩個(gè)策略的14次,一定程度上說明評(píng)分量表在評(píng)分過程中起到了積極的引導(dǎo)作用。評(píng)分員在評(píng)分過程中的猶豫不決以及采用各種補(bǔ)救性評(píng)分策略,主要?dú)w因于評(píng)分量表中顯性指導(dǎo)的缺失(Jeffrey,2015),即分值區(qū)間中各分值無對(duì)應(yīng)的具體標(biāo)準(zhǔn)供參考,可從考生文本中篩選與各分值大致對(duì)應(yīng)的例文,并在評(píng)分員培訓(xùn)中集體講解和學(xué)習(xí),幫助其統(tǒng)一認(rèn)識(shí),掌握標(biāo)準(zhǔn),提升評(píng)分量表的效度。
本研究以過程導(dǎo)向?yàn)橐暯?對(duì)一則英語概要寫作評(píng)分量表進(jìn)行了效度驗(yàn)證。研究表明在評(píng)分過程中,該評(píng)分量表能有效幫助評(píng)分員把控寬嚴(yán)度并保障評(píng)分一致性;橫向來看,描述語清晰準(zhǔn)確,評(píng)分維度完整,但“忠實(shí)源文”維度的分值權(quán)重應(yīng)適當(dāng)調(diào)高??v向來看,最突出的問題是評(píng)分員在各級(jí)別內(nèi)部分值的選擇上存在困難,因此有必要通過降低分值、合并分?jǐn)?shù)段、增加評(píng)分參考樣本等方法進(jìn)一步改進(jìn)評(píng)分量表。行為表現(xiàn)型測(cè)試中一般不存在完美無缺的評(píng)分量表(Rezaei et al.,2010),因此多維度、多視角的效度驗(yàn)證必不可少,從而為評(píng)分量表的修訂和完善提供充足的理據(jù)支持。