英語(yǔ)寫作評(píng)分標(biāo)準(zhǔn)模型的建構(gòu)及其效度研究

2018-11-07 12:13:26吳雪峰柳燁琛

外國(guó)語(yǔ)文 2018年5期

吳雪峰柳燁琛殷緣

(南京林業(yè)大學(xué) 外國(guó)語(yǔ)學(xué)院，江蘇南京 210037)

0 引言

英語(yǔ)寫作測(cè)試包括“獨(dú)立型寫作”(independent writing)與“綜合型寫作”(integrative writing)兩種類型。獨(dú)立型寫作指考生不依賴其他語(yǔ)言技能(如閱讀)，就給定的話題或圖表等進(jìn)行寫作。綜合型寫作則要求考生運(yùn)用其他語(yǔ)言技能(一般為閱讀和聽力)完成寫作任務(wù)，包含讀寫結(jié)合與聽讀寫結(jié)合兩種形式，前者在各類英語(yǔ)考試中的使用頻率遠(yuǎn)高于后者。相比獨(dú)立型寫作而言，讀寫結(jié)合型寫作更具測(cè)試真實(shí)性，應(yīng)用更加普遍(Shin et al., 2015)。兩種類型的寫作測(cè)試均屬“做事型”測(cè)試，具有極強(qiáng)的主觀性，需開發(fā)科學(xué)合理、方便操作的評(píng)分標(biāo)準(zhǔn)以確保評(píng)分質(zhì)量和信度(Becker, 2016)。然而一直以來(lái)，在評(píng)分標(biāo)準(zhǔn)的開發(fā)方面，國(guó)內(nèi)外各類英語(yǔ)考試大多各自為政，評(píng)分標(biāo)準(zhǔn)的質(zhì)量參差不齊。本文在回顧、分析和總結(jié)國(guó)內(nèi)外主要寫作測(cè)試評(píng)分標(biāo)準(zhǔn)的基礎(chǔ)上嘗試構(gòu)建“英語(yǔ)寫作測(cè)試評(píng)分模型”，并以“概要寫作”為例，依據(jù)該模型設(shè)計(jì)相應(yīng)的評(píng)分標(biāo)準(zhǔn)并通過(guò)多層面Rasch模型驗(yàn)證該評(píng)分標(biāo)準(zhǔn)及評(píng)分模型的效度，以期為各類英語(yǔ)寫作評(píng)分標(biāo)準(zhǔn)的研制提供可參考的操作性框架。

1 英語(yǔ)寫作評(píng)分標(biāo)準(zhǔn)概覽

1.1 獨(dú)立型寫作評(píng)分標(biāo)準(zhǔn)概覽

國(guó)內(nèi)方面，高考英語(yǔ)、四、六級(jí)(CET-4/CEF6)、研究生入學(xué)英語(yǔ)考試(以下簡(jiǎn)稱“考研英語(yǔ)”)及全國(guó)公共英語(yǔ)等級(jí)考試(PETS)等均包含獨(dú)立型寫作測(cè)試。下面以考研英語(yǔ)和PETS-5考試中的獨(dú)立型寫作測(cè)試為例，簡(jiǎn)要分析其評(píng)分標(biāo)準(zhǔn)。限于篇幅，本文在概述各評(píng)分標(biāo)準(zhǔn)時(shí)僅以評(píng)分標(biāo)準(zhǔn)中最高檔的描述語(yǔ)為例。

由表1可知，考研英語(yǔ)寫作評(píng)分標(biāo)準(zhǔn)可分為個(gè)5維度：寫作內(nèi)容(描述語(yǔ)①)、銜接連貫(描述語(yǔ)④)、語(yǔ)言措辭(描述語(yǔ)②③)、寫作規(guī)范(描述語(yǔ)⑤)，交際效果(描述語(yǔ)⑥)。PETS-5的評(píng)分標(biāo)準(zhǔn)則亦分為5個(gè)維度：寫作內(nèi)容(描述語(yǔ)①②)、語(yǔ)言措辭(描述語(yǔ)③⑤)、銜接連貫(描述語(yǔ)④)、寫作規(guī)范(描述語(yǔ)⑥)、交際效果(描述語(yǔ)⑦)。PETS-5與考研英語(yǔ)的評(píng)分維度整體上完全一致，但在內(nèi)容維度上對(duì)寫作的開頭和結(jié)尾提出了具體要求。

表1 考研英語(yǔ)及PETS-5獨(dú)立型寫作測(cè)試評(píng)分標(biāo)準(zhǔn)

國(guó)外方面，雅思、托福、劍橋英語(yǔ)考試(Cambridge English，以下簡(jiǎn)稱CE)等均包含獨(dú)立型寫作測(cè)試。下面以雅思和CE-Proficiency為例，簡(jiǎn)要分析其獨(dú)立型寫作測(cè)試的評(píng)分標(biāo)準(zhǔn)。

表2 雅思、CE-Proficiency考試獨(dú)立型寫作測(cè)試評(píng)分標(biāo)準(zhǔn)

由表2可知，雅思獨(dú)立型寫作評(píng)分標(biāo)準(zhǔn)包括四個(gè)維度，其中維度C、D是對(duì)詞和語(yǔ)法層面的要求，均屬“語(yǔ)言”維度。維度A、B分別側(cè)重寫作內(nèi)容的完整和豐富、句際段際的銜接和連貫。CE-Proficiency的評(píng)分標(biāo)準(zhǔn)也分為四個(gè)維度，除了與雅思相仿的寫作內(nèi)容、文章結(jié)構(gòu)及語(yǔ)言措辭等維度外，該標(biāo)準(zhǔn)還單獨(dú)設(shè)置了“交際效果“維度，強(qiáng)調(diào)寫作內(nèi)容對(duì)讀者的影響力和說(shuō)服力。

綜上所述，寫作內(nèi)容、篇章結(jié)構(gòu)及語(yǔ)言措辭已成為各類獨(dú)立型寫作測(cè)試評(píng)分標(biāo)準(zhǔn)的“常規(guī)”維度。PETS-5及考研英語(yǔ)評(píng)分標(biāo)準(zhǔn)均含有對(duì)寫作交際效果維度的考查，但其描述語(yǔ)似乎過(guò)于抽象和籠統(tǒng)，僅強(qiáng)調(diào)“對(duì)目標(biāo)讀者產(chǎn)生預(yù)期效果”，評(píng)分員在評(píng)分過(guò)程中對(duì)此恐難準(zhǔn)確解讀。CE-Proficiency的評(píng)分標(biāo)準(zhǔn)中亦包含該維度，但其描述語(yǔ)相對(duì)更為詳細(xì)具體，強(qiáng)調(diào)考生應(yīng)能有效闡釋寫作內(nèi)容中復(fù)雜的觀點(diǎn)，增強(qiáng)寫作內(nèi)容的說(shuō)服力，使評(píng)分員在評(píng)分時(shí)在該維度上“有法可依”。此外，PETS-5及考研英語(yǔ)評(píng)分標(biāo)準(zhǔn)還在寫作格式和語(yǔ)域的恰當(dāng)使用方面提出了明確要求，而上述兩項(xiàng)國(guó)外考試的評(píng)分標(biāo)準(zhǔn)均無(wú)此要求。

1.2 綜合型寫作評(píng)分標(biāo)準(zhǔn)概覽

多語(yǔ)言技能融合的綜合型測(cè)試任務(wù)已成為21世紀(jì)語(yǔ)言測(cè)試的顯著特征之一(金艷等，2013)。目前綜合型寫作測(cè)試主要包括如下兩種類別：(1)寫概要,包括“只寫概要”(如上海英語(yǔ)高考)和“寫概要+議論”(如TEM-8、CE-Proficiency)；(2)讀后續(xù)寫(如浙江英語(yǔ)高考)。我們對(duì)上述綜合型寫作測(cè)試各舉一例簡(jiǎn)要介紹和分析其評(píng)分標(biāo)準(zhǔn)。

2016年新版TEM-8寫作測(cè)試評(píng)分標(biāo)準(zhǔn)由三個(gè)維度組成，詳見表3。

表3 2016版TEM-8寫作測(cè)試評(píng)分標(biāo)準(zhǔn)

由表3可知，TEM-8寫作評(píng)分標(biāo)準(zhǔn)既包含直接針對(duì)“概要”和“議論”的不同寫作要求，又包括同時(shí)適用于上述兩個(gè)板塊的“共同要求”。對(duì)于寫概要環(huán)節(jié)，評(píng)分標(biāo)準(zhǔn)聚焦“內(nèi)容闡述”維度，強(qiáng)調(diào)考生文本在主題、中心內(nèi)容及要點(diǎn)覆蓋方面與源材料的吻合度；而“篇章組織”和“語(yǔ)言運(yùn)用”兩個(gè)維度的要求同時(shí)針對(duì)“概要”和“議論”兩個(gè)寫作任務(wù)。

讀后續(xù)寫是將材料的結(jié)尾抹去，讓學(xué)生閱讀截留部分，再續(xù)寫和補(bǔ)全內(nèi)容。該題型將語(yǔ)言的模仿與內(nèi)容的創(chuàng)新有機(jī)結(jié)合起來(lái)，是促學(xué)外語(yǔ)最有效的方法之一(王初明, 2015)，2016年首次被納入浙江英語(yǔ)高考。該題型評(píng)分原則包含如下幾點(diǎn)：(1) 與所給短文及段落開頭語(yǔ)的銜接程度；(2) 內(nèi)容的豐富性和對(duì)所標(biāo)出關(guān)詞語(yǔ)的應(yīng)用情況；(3) 應(yīng)用語(yǔ)法結(jié)構(gòu)和詞匯的豐富性和準(zhǔn)確性；(4) 上下文的連貫性；(5) 拼寫與標(biāo)點(diǎn)符號(hào)的準(zhǔn)確性；(6) 書寫是否整潔。讀后續(xù)寫的評(píng)分首要關(guān)注學(xué)生文本與所讀文本在情節(jié)發(fā)展或內(nèi)部邏輯等層面的銜接程度(教育部考試中心，2015)。此外，評(píng)分標(biāo)準(zhǔn)也在傳統(tǒng)的寫作內(nèi)容(第2點(diǎn))、語(yǔ)言措辭(第3點(diǎn))、銜接連貫(第4點(diǎn))、寫作規(guī)范(第5、6點(diǎn))等方面提出了明確的要求。

由此可見，綜合型寫作測(cè)試通過(guò)將閱讀與寫作有機(jī)結(jié)合的方式測(cè)試考生的英語(yǔ)寫作能力，這一特征決定了綜合型寫作測(cè)試的評(píng)分標(biāo)準(zhǔn)既要突出與自身題型匹配的獨(dú)特評(píng)分維度，又要包含與獨(dú)立型寫作測(cè)試相似的“通用型”評(píng)分維度，從而構(gòu)成對(duì)考生文本進(jìn)行科學(xué)、客觀衡量的全方位、立體化的評(píng)分依據(jù)。

2 英語(yǔ)寫作測(cè)試評(píng)分模型的構(gòu)建

目前，國(guó)內(nèi)外英語(yǔ)考試種類繁多，評(píng)分標(biāo)準(zhǔn)的制定方法也不盡相同，有的考試借鑒甚至照搬其他考試的寫作評(píng)分標(biāo)準(zhǔn)(Perlman, 2013)。鑒于此，本文在梳理和分析各類英語(yǔ)寫作評(píng)分標(biāo)準(zhǔn)的基礎(chǔ)上，將“獨(dú)立型寫作”與“綜合型寫作”有機(jī)結(jié)合，嘗試構(gòu)建了英語(yǔ)寫作測(cè)試評(píng)分模型(以下簡(jiǎn)稱“模型”，如圖1所示，見下頁(yè))，以期對(duì)今后寫作評(píng)分標(biāo)準(zhǔn)的制定提供可參考的操作性框架。

由圖1可知，模型由兩個(gè)版塊組成，分別對(duì)應(yīng)獨(dú)立型和綜合型寫作測(cè)試。綜合型寫作測(cè)試評(píng)分標(biāo)準(zhǔn)囊括了獨(dú)立型寫作評(píng)分標(biāo)準(zhǔn)，并提出針對(duì)綜合型寫作測(cè)試的“特殊”要求。獨(dú)立型寫作測(cè)試評(píng)分標(biāo)準(zhǔn)可分為五個(gè)維度，其中寫作內(nèi)容、篇章結(jié)構(gòu)、語(yǔ)言表達(dá)為構(gòu)建評(píng)分標(biāo)準(zhǔn)時(shí)的必選維度，是各類寫作測(cè)試評(píng)分標(biāo)準(zhǔn)均應(yīng)包含的一般性維度；就“寫作內(nèi)容”維度而言，其具體的能力要求因?qū)懽黧w裁的變化而變化，如議論文強(qiáng)調(diào)論點(diǎn)鮮明，論據(jù)充分，論述有說(shuō)服力；記敘文則要求考生敘述生動(dòng)，情節(jié)完整等。“篇章結(jié)構(gòu)”維度考查文章是否脈絡(luò)清晰，段落劃分是否合理，是否前后連貫，銜接自然。“語(yǔ)言表達(dá)”維度則在準(zhǔn)確度和復(fù)雜度兩個(gè)方面要求考生準(zhǔn)確運(yùn)用多樣化的詞匯、句型及語(yǔ)法組構(gòu)知識(shí)?！敖浑H效果”和“寫作規(guī)范”為備選維度，可根據(jù)不同寫作形式靈活選用。前者側(cè)重寫作文本對(duì)讀者的感染力和說(shuō)服力，可選用在演說(shuō)稿、公開信等類型的寫作評(píng)分標(biāo)準(zhǔn)中；后者聚焦格式、語(yǔ)域等方面，亦可供編制各類寫作測(cè)試評(píng)分標(biāo)準(zhǔn)時(shí)靈活抽取使用。備選維度納入該模型可使評(píng)分標(biāo)準(zhǔn)的制定過(guò)程更具動(dòng)態(tài)性、靈活性，考試開發(fā)者可根據(jù)不同寫作任務(wù)在必選和備選維度中靈活搭配使用。

圖1 英語(yǔ)寫作測(cè)試評(píng)分模型

對(duì)綜合型寫作測(cè)試進(jìn)行評(píng)分時(shí)，除了考慮獨(dú)立型寫作測(cè)試的五個(gè)維度(3個(gè)必選+2個(gè)備選)之外，還應(yīng)重點(diǎn)突出以下兩個(gè)方面：一是對(duì)源材料理解的準(zhǔn)確度，判斷考生是否正確解讀給定的閱讀材料，可在“寫作內(nèi)容”維度提出具體要求；二是考查寫作文本與源材料之間的關(guān)系，關(guān)注如下三個(gè)方面：要點(diǎn)覆蓋完整度、直接引用源文程度(即是否照抄源文語(yǔ)言)、與源材料的銜接程度(如讀后續(xù)寫)。上述三個(gè)方面可分別呈現(xiàn)在“寫作內(nèi)容”“語(yǔ)言表達(dá)”及“篇章結(jié)構(gòu)”三個(gè)維度。

3 英語(yǔ)寫作評(píng)分標(biāo)準(zhǔn)模型的應(yīng)用

依據(jù)上述模型我們?cè)O(shè)計(jì)了概要寫作評(píng)分標(biāo)準(zhǔn)(以下簡(jiǎn)稱“標(biāo)準(zhǔn)”)，將其試用于實(shí)際評(píng)分中，為驗(yàn)證其效度，我們利用FACETS軟件(3.58.0版)進(jìn)行多層面Rasch模型(Many-facet Rasch Model，簡(jiǎn)稱MFRM)分析。上海某高校英語(yǔ)專業(yè)本科二年級(jí)在校生(n=25) 在30分鐘內(nèi)針對(duì)一篇約450詞的短文撰寫概要，寫作篇幅要求為100詞左右。評(píng)分員共計(jì)六人(R1-R6)，均為該校英語(yǔ)語(yǔ)言文學(xué)專業(yè)在讀博士生，男性、女性評(píng)分員均為三人，平均年齡30.6歲，副教授四人，講師兩人。

3.1 概要寫作評(píng)分標(biāo)準(zhǔn)的設(shè)計(jì)

概要寫作是在閱讀基礎(chǔ)上考核寫作能力的特殊寫作任務(wù)(吳雪峰，2018)，屬于典型的綜合型寫作測(cè)試。根據(jù)圖1中的模型，其評(píng)分標(biāo)準(zhǔn)首先應(yīng)關(guān)注獨(dú)立型寫作測(cè)試的評(píng)分維度，寫作內(nèi)容、篇章結(jié)構(gòu)和語(yǔ)言表達(dá)是“必選”維度。對(duì)于備選維度，鑒于概要寫作僅考查考生對(duì)源文的提煉和概括能力，并不具有典型的交際功能，因此交際效果維度可不予采用，也不必關(guān)注“寫作規(guī)范”維度的格式、語(yǔ)域等方面。受試考生采用計(jì)算機(jī)打印稿提交概要寫作，亦無(wú)須考量卷面書寫整潔度。但概要寫作要求考生用規(guī)定的篇幅簡(jiǎn)明扼要地闡述源文的主要信息(Sun et al., 2016)。基于這一構(gòu)念，“寫作規(guī)范”維度中的“寫作篇幅”應(yīng)當(dāng)納入標(biāo)準(zhǔn)。但考慮到“寫作規(guī)范”中的其他三個(gè)方面無(wú)需體現(xiàn)在標(biāo)準(zhǔn)中，因此該維度顯得過(guò)于單薄，無(wú)法與其他維度構(gòu)成平行關(guān)系，故本標(biāo)準(zhǔn)擬規(guī)定在各維度評(píng)分結(jié)束后，對(duì)未滿足篇幅要求的概要寫作文本酌情扣分。

考慮到概要寫作屬綜合型寫作測(cè)試，我們根據(jù)模型在寫作內(nèi)容維度增加了突出概要寫作測(cè)試構(gòu)念的描述語(yǔ)，將要點(diǎn)覆蓋完整度及是否直接抄襲源文分別有機(jī)融入“寫作內(nèi)容”和“語(yǔ)言表達(dá)”兩個(gè)維度，起草了概要寫作評(píng)分標(biāo)準(zhǔn)初稿。大多數(shù)研究表明分項(xiàng)式評(píng)分更適合外語(yǔ)寫作測(cè)試(Knoch, 2011; 孫海洋等, 2013; Weigle, 2002),因此本研究亦開發(fā)分項(xiàng)式評(píng)分標(biāo)準(zhǔn)，初定滿分為10分，由三個(gè)維度組成，各維度均包含三個(gè)檔次。概要寫作中的關(guān)鍵技能是從源文中識(shí)別和提取重要信息(Kim,2001)，因此“寫作內(nèi)容”維度應(yīng)占據(jù)較大的分值。本研究受試均為EFL學(xué)習(xí)者，語(yǔ)言表達(dá)應(yīng)是與寫作內(nèi)容并駕齊驅(qū)的重要維度；相對(duì)而言，篇章結(jié)構(gòu)只能視作次要維度。鑒于此，各維度分值分配方案如下：寫作內(nèi)容與語(yǔ)言表達(dá)各4分，篇章結(jié)構(gòu)2分，最終定稿的評(píng)分標(biāo)準(zhǔn)見表4。上海英語(yǔ)高考從2017年起增設(shè)概要寫作題型，其評(píng)分標(biāo)準(zhǔn)也是迄今高風(fēng)險(xiǎn)英語(yǔ)考試中比較正式的概要寫作評(píng)分標(biāo)準(zhǔn)(上海市教育考試院，2017)。與之相比，本研究根據(jù)模型所編制的評(píng)分標(biāo)準(zhǔn)同為分項(xiàng)式，但在維度劃分及描述語(yǔ)措辭等方面更加全面和完整，體現(xiàn)了針對(duì)大學(xué)生受眾群體的更高的寫作要求。

表4 概要寫作評(píng)分標(biāo)準(zhǔn)

3.2 效度驗(yàn)證

MFRM是寫作評(píng)分標(biāo)準(zhǔn)效度驗(yàn)證的重要方法(陳建林, 2016)，可將各層面(即考生、評(píng)分者、評(píng)分標(biāo)準(zhǔn)等)在共同的logit標(biāo)尺上進(jìn)行度量，并計(jì)算每個(gè)度量值的估算誤差、對(duì)模型的擬合程度以及各層面之間可能的交互作用(何蓮珍等，2008)。本文據(jù)此檢驗(yàn)依據(jù)模型設(shè)計(jì)的概要寫作評(píng)分標(biāo)準(zhǔn)的效度，聚焦如下兩個(gè)方面：(1)評(píng)分標(biāo)準(zhǔn)的難度和分值使用；(2)評(píng)分員與評(píng)分標(biāo)準(zhǔn)之間的偏性交互作用。

3.2.1 總體分析

圖2是各層面的總體分布情況。最左邊一列(Measr)是logit量尺。第2列(raters)表示評(píng)分員評(píng)分的松嚴(yán)度，越往上評(píng)分員對(duì)應(yīng)的logit值越大，表明其評(píng)分越嚴(yán)格；反之則評(píng)分越寬松。第3列(examinees)表示考生概要寫作的能力，越往上考生的logit值越大，表明其寫作能力越強(qiáng)；反之則越弱。第4列(criteria)表示評(píng)分標(biāo)準(zhǔn)三個(gè)維度的難度，越往上表明該維度難度越大，考生越不易得高分；反之則難度越低。最后三列(S1、S2、S3)顯示三個(gè)維度分值的使用情況。我們可以得到如下幾點(diǎn)結(jié)論：

(1)評(píng)分員松嚴(yán)度基本呈正態(tài)分布，1號(hào)評(píng)分員最為嚴(yán)格(0.49 logit)，6號(hào)評(píng)分員給分最松(-0.6 logit)，兩者相差1.09 logits。所有評(píng)分員的洛基值分布在±1.0 logit之間，評(píng)分員之間一致性較高。

(2)受試層面，考生概要寫作能力基本呈正態(tài)分布，全體考生能力分布全距為5.22 logits(-1.35-3.87)，說(shuō)明評(píng)分標(biāo)準(zhǔn)能較好區(qū)分受試的概要寫作能力。此外，評(píng)分員嚴(yán)厲度分值全距(1.09 logits)不到考生能力值全距的1/4，表明評(píng)分員之間的嚴(yán)厲度差異總體不會(huì)對(duì)考生的成績(jī)產(chǎn)生決定性的影響(Myford et al., 2000)

(3)評(píng)分維度層面，語(yǔ)言措辭和文章結(jié)構(gòu)兩個(gè)維度最難，在這兩個(gè)維度上考生較難獲得高分；相對(duì)而言，考生在寫作內(nèi)容維度最易獲得高分。

圖2 總層面圖

評(píng)分員具有較好的內(nèi)部一致性，原因可能在于所有評(píng)分員都是在讀博士研究生，其就讀高校、所在年級(jí)和專業(yè)全部一致，對(duì)評(píng)分標(biāo)準(zhǔn)的理解和把握大致相似，且都在評(píng)分前接受了統(tǒng)一培訓(xùn)。但評(píng)分員的評(píng)分嚴(yán)厲度仍有一定差異，這與大部分研究成果(Eckes, 2005; 劉建達(dá), 2010)相似。作為純主觀測(cè)試的評(píng)分，寫作測(cè)試的評(píng)分員嚴(yán)厲度差異似乎不可避免。語(yǔ)言表達(dá)和篇章結(jié)構(gòu)兩個(gè)維度難度較大，說(shuō)明受傳統(tǒng)英語(yǔ)學(xué)習(xí)和測(cè)評(píng)習(xí)慣的影響，評(píng)分員對(duì)語(yǔ)言層面的錯(cuò)誤及文章的內(nèi)部結(jié)構(gòu)非常敏感。概要寫作題型要求考生將大量信息濃縮歸納成數(shù)個(gè)最重要的信息點(diǎn)，考生在寫作內(nèi)容方面很大程度上受限于源文的內(nèi)容，一般不會(huì)輕易跑題或偏題。此外，本研究中考生為重點(diǎn)高校英語(yǔ)專業(yè)本科生，均能在準(zhǔn)確解讀源文的基礎(chǔ)上用自己的話來(lái)表達(dá)源文的主要內(nèi)容，因此考生在“寫作內(nèi)容”維度上的得分相較其他兩個(gè)維度更高。

3.2.2 評(píng)分標(biāo)準(zhǔn)層面分析

為進(jìn)一步驗(yàn)證評(píng)分標(biāo)準(zhǔn)的效度，我們對(duì)評(píng)分標(biāo)準(zhǔn)及其各維度的數(shù)據(jù)進(jìn)行了分析。

表5顯示，三個(gè)維度分割系數(shù)為5.26，分割信度0.97，卡方值121.5(df=2)，p值為0，說(shuō)明三個(gè)維度的難度存在顯著差異。三個(gè)維度的加權(quán)均方擬合統(tǒng)計(jì)量(Infit MnSq)均在0.5～1.5的可接受范圍之內(nèi)(Lumley, 2005)，| Z |均小于2，因此不存在過(guò)度擬合或非擬合的評(píng)分維度，模型擬合較為理想，評(píng)分員在這三個(gè)維度沒(méi)有過(guò)多使用某一或某些分?jǐn)?shù)段(張文星等, 2015)。

表5 評(píng)分標(biāo)準(zhǔn)各維度Rasch分析結(jié)果

Separation: 5.26; Reliability: 0.97; Fixed chi-square: 121.5;d.f.: 2; significance: 0.00

FACETS還提供了評(píng)分標(biāo)準(zhǔn)三個(gè)維度的統(tǒng)計(jì)結(jié)果。表6是寫作內(nèi)容維度的統(tǒng)計(jì)結(jié)果。

表6 寫作內(nèi)容維度Rasch分析結(jié)果

由表6可知，寫作內(nèi)容維度的2～3分使用頻率最低(9%)，4～7分的使用相對(duì)比較均勻，各分值及其所占百分比依次為：4分(23%)、5分(22%)、6分(32%)、7分(17%)，評(píng)分不存在顯著的趨中現(xiàn)象。此外，未加權(quán)均方擬合度(Outfit MnSq)可用來(lái)判斷評(píng)分員是否隨意使用某分值，如Outfit MnSq值大于1.5，則表明評(píng)分員非正常地使用了某分?jǐn)?shù)段(李清華，2010)。表6顯示在2～7各分?jǐn)?shù)段上均無(wú)非擬合項(xiàng)目，評(píng)分員未隨意使用任何分?jǐn)?shù)段。一般來(lái)說(shuō)，分值的Outfit Mnsq>2.0，說(shuō)明得到該分值的考生其預(yù)測(cè)分?jǐn)?shù)和實(shí)際分?jǐn)?shù)有較大的差距，即該分?jǐn)?shù)不能準(zhǔn)確反映考生水平(Linacre, 1999)。表6中各分?jǐn)?shù)段Outfit MnSq值均在2以下，這表明評(píng)分標(biāo)準(zhǔn)中寫作內(nèi)容維度的各分值均能很好地反映考生在該維度上的實(shí)際水平。

其次，在篇章結(jié)構(gòu)維度上，表7顯示：1分、4分的使用頻率最低(5%)，2-3分的使用相對(duì)比較均勻，分別為2分(52%)、3分(44%)，不存在顯著的趨中現(xiàn)象。此外，從Outfit MnSq值來(lái)看，各分值均無(wú)非擬合項(xiàng)目，評(píng)分員未隨意使用任何分?jǐn)?shù)段；各分值能較好地體現(xiàn)考生在該維度上的實(shí)際寫作水平。

表7 篇章結(jié)構(gòu)維度Rasch分析結(jié)果

最后，在語(yǔ)言表達(dá)維度上，表8顯示：2～3分及八分的使用頻率最低(8%)，4～7分的使用相對(duì)均衡，各分值及其所占百分比依次為：4分(17%)、5分(21%)、6分(45%)7分(10%)，不存在顯著的趨中現(xiàn)象。但從Outfit MnSq值看，3分段(即原標(biāo)準(zhǔn)中的1.5分)存在非擬合現(xiàn)象(Outfit MnSq>1.5)可能存在評(píng)分員對(duì)該分?jǐn)?shù)段隨意使用的現(xiàn)象，需對(duì)分?jǐn)?shù)段的設(shè)置做進(jìn)一步的調(diào)整。

表8 語(yǔ)言措辭維度Rasch分析結(jié)果

綜上，標(biāo)準(zhǔn)的三個(gè)維度在難度上存在顯著性差異，數(shù)據(jù)與模型擬合較好。在寫作內(nèi)容與篇章結(jié)構(gòu)兩個(gè)維度上各分?jǐn)?shù)段數(shù)據(jù)擬合較好，但語(yǔ)言表達(dá)維度的1.5分存在非擬合現(xiàn)象，與模型預(yù)測(cè)差異太大，說(shuō)明評(píng)分員對(duì)該分?jǐn)?shù)段的使用比較隨意?？赡苁且?yàn)樵跇?biāo)準(zhǔn)中，一、二檔的分值分別為0～1與2～3，1.5分在標(biāo)準(zhǔn)中未能明確予以標(biāo)出。因此，評(píng)分員在評(píng)分時(shí)對(duì)1.5分這一分值可能無(wú)法準(zhǔn)確把握和使用，需重新劃分檔次并對(duì)該分?jǐn)?shù)段做適當(dāng)調(diào)整。

3.2.3 評(píng)分員與評(píng)分標(biāo)準(zhǔn)的偏性交互作用分析

在FACETS中，偏差分析可以幫助我們判斷各個(gè)層面之間的交互作用，考察一個(gè)層面對(duì)另一個(gè)層面的影響是否具有統(tǒng)計(jì)意義，亦可作為評(píng)分標(biāo)準(zhǔn)效度驗(yàn)證的重要方法(Linacre, 2005)。在Rasch模型中，如果某個(gè)交互作用的Z值大于2，則評(píng)分員對(duì)該維度的評(píng)分比對(duì)其他維度更為嚴(yán)厲；如果Z值小于-2，則說(shuō)明此評(píng)分員在該維度評(píng)分更為寬松(劉建達(dá)，2010)。評(píng)分員與評(píng)分標(biāo)準(zhǔn)各維度的偏差項(xiàng)目(empirically biased terms)共18個(gè)，表9顯示具有顯著意義的偏性交互作用共三次，約占16%(其中過(guò)于嚴(yán)厲一次、過(guò)于寬松兩次)。2號(hào)評(píng)分員在語(yǔ)言表達(dá)維度上評(píng)分過(guò)嚴(yán)(Z=2.55>2)，而在寫作內(nèi)容維度上評(píng)分過(guò)松(Z=-2.40<-2)；1號(hào)評(píng)分員則在篇章結(jié)構(gòu)維度上評(píng)分過(guò)于寬松(Z=-2.44<-2)?？赡艿脑蛟谟谏鲜鰝€(gè)別評(píng)分員對(duì)評(píng)分標(biāo)準(zhǔn)的理解和把握還有所欠缺，需要接受進(jìn)一步培訓(xùn)，或是評(píng)分標(biāo)準(zhǔn)自身在文字表述和內(nèi)部邏輯上存在一些問(wèn)題，這一點(diǎn)有待通過(guò)對(duì)評(píng)分員采取有聲思維(Think-aloud protocol)或深度訪談的方式進(jìn)一步加以探究。

表9 具有顯著意義的評(píng)分員×評(píng)分維度偏性交互作用

Fixed chi-square:40.7;d.f.:18; significance: 0.00

3.3 數(shù)據(jù)分析

MFRM的數(shù)據(jù)分析表明：概要寫作評(píng)分標(biāo)準(zhǔn)中，各評(píng)分維度的難度存在顯著性差異。FACETS提供的總層面圖及各維度分值使用情況表明：評(píng)分標(biāo)準(zhǔn)能夠區(qū)分受試不同的概要寫作水平，具有較好的區(qū)分度。盡管各維度分?jǐn)?shù)段的使用整體分布不夠平衡，但也未顯示出明顯的評(píng)分集中趨勢(shì)。此外，評(píng)分維度總體分析(表5)及寫作內(nèi)容、篇章結(jié)構(gòu)(表6～7)兩個(gè)維度不存在非擬合或過(guò)度擬合的情況，但在“語(yǔ)言表達(dá)”維度上，3分(原1.5分)的使用存在非擬合現(xiàn)象。在Rasch模型分析中，效度的意義是如果非擬合的情況較少，則有證據(jù)說(shuō)明該評(píng)分標(biāo)準(zhǔn)的效度較高(Wright et al., 1982)，因此總體而言該評(píng)分標(biāo)準(zhǔn)具有較好的效度，和一定的推廣價(jià)值。但在三個(gè)評(píng)分維度上評(píng)分員與評(píng)分標(biāo)準(zhǔn)間均產(chǎn)生了顯著的偏性交互作用，部分評(píng)分員對(duì)評(píng)分標(biāo)準(zhǔn)的理解和把握還有待提高。評(píng)分過(guò)程是評(píng)分員將自己對(duì)文本的感知與外在的、概括的評(píng)分標(biāo)準(zhǔn)之間達(dá)成一致的過(guò)程(Lumley, 2005)。為使評(píng)分員的主觀理解與統(tǒng)一、客觀的評(píng)分標(biāo)準(zhǔn)盡可能地形成吻合，有必要在現(xiàn)有基礎(chǔ)上加強(qiáng)評(píng)分員培訓(xùn)，在正式評(píng)分前幫助評(píng)分員全面理解和消化評(píng)分標(biāo)準(zhǔn)。另外，鑒于“語(yǔ)言表達(dá)”維度的個(gè)別分值使用存在非擬合現(xiàn)象，且“語(yǔ)言措辭”與“寫作內(nèi)容”所占分值完全相同，可在現(xiàn)有基礎(chǔ)上給這兩個(gè)維度增加兩個(gè)評(píng)分檔次，使新標(biāo)準(zhǔn)共由五個(gè)檔次組成?！捌陆Y(jié)構(gòu)”維度分值僅為兩分，且Rasch模型分析數(shù)據(jù)顯示該維度各分值使用擬合度很好，因此該維度的檔次和分值分配維持原樣。

原標(biāo)準(zhǔn)中的三個(gè)檔次成為新標(biāo)準(zhǔn)中的一、三、五檔，增加的檔次為二檔和四檔，從而將原標(biāo)準(zhǔn)中的分?jǐn)?shù)段化整為零，對(duì)0.5、1.5等非整數(shù)的分?jǐn)?shù)段的定位和使用予以明確化(圖3)，并對(duì)新增加的檔次設(shè)計(jì)體現(xiàn)明顯層級(jí)差異的描述語(yǔ)，進(jìn)一步打磨和潤(rùn)色描述語(yǔ)，以期幫助評(píng)分員更加科學(xué)合理地使用各分?jǐn)?shù)段，盡量減少評(píng)分中隨意使用某分?jǐn)?shù)段的非擬合現(xiàn)象，從而進(jìn)一步提高評(píng)分標(biāo)準(zhǔn)的效度。

圖3寫作內(nèi)容、語(yǔ)言措辭維度原標(biāo)準(zhǔn)與新標(biāo)準(zhǔn)分檔情況對(duì)照

4 結(jié)語(yǔ)

在語(yǔ)言測(cè)試中，制定或者選擇什么樣的評(píng)分標(biāo)準(zhǔn)對(duì)于由評(píng)分員判定結(jié)果的行為測(cè)試十分重要(陳建林，2016)，直接關(guān)系到評(píng)分質(zhì)量的高低與考試的公平性。在回顧和總結(jié)國(guó)內(nèi)外獨(dú)立型、綜合型寫作測(cè)試的評(píng)分標(biāo)準(zhǔn)的基礎(chǔ)上，我們構(gòu)建了寫作能力測(cè)試評(píng)分模型，并依據(jù)該模型設(shè)計(jì)了概要寫作題型的評(píng)分標(biāo)準(zhǔn)。基于MFRM的證據(jù)表明評(píng)分標(biāo)準(zhǔn)總體而言具有較好的效度，一定程度上可以說(shuō)明寫作能力測(cè)試評(píng)分模型是合理、可行的。盡管如此，在設(shè)計(jì)和研制英語(yǔ)寫作測(cè)試評(píng)分標(biāo)準(zhǔn)的過(guò)程中，該模型也絕非是唯一的參考，還應(yīng)與其他各種權(quán)威的評(píng)分標(biāo)準(zhǔn)研制框架結(jié)合起來(lái)(Dawson, 2017)，從而使寫作測(cè)試評(píng)分標(biāo)準(zhǔn)研制工作有章可循、有法可依。此外，效度驗(yàn)證是一個(gè)持續(xù)性過(guò)程，本研究受試規(guī)模較小，僅局限在評(píng)分標(biāo)準(zhǔn)及評(píng)分員與評(píng)分標(biāo)準(zhǔn)的偏性交互作用兩個(gè)層面，且只研究了“概要寫作”這一種題型的評(píng)分標(biāo)準(zhǔn)。今后還需將評(píng)分模型運(yùn)用到其他寫作題型，在分析中增加受試層面、評(píng)分員層面、評(píng)分員與受試的偏性交互作用等數(shù)據(jù)，并通過(guò)有聲思維、訪談等質(zhì)性手段深入探究評(píng)分員的心理活動(dòng)，以期收集更為全面的數(shù)據(jù)來(lái)驗(yàn)證評(píng)分模型的效度。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放