大學(xué)英語四級考試質(zhì)量評估：基于經(jīng)典測量理論和Rasch模型的數(shù)據(jù)分析

2015-03-11 03:59:09陳琳麗

當(dāng)代外語研究 2015年10期

關(guān)鍵詞：能力模型

張琳陳琳麗

（上海交通大學(xué)，上海，200040）

大學(xué)英語四級考試質(zhì)量評估：基于經(jīng)典測量理論和Rasch模型的數(shù)據(jù)分析

張琳陳琳麗

（上海交通大學(xué)，上海，200040）

大學(xué)英語四、六級考試近期在試卷結(jié)構(gòu)和測試題型上再次進行了調(diào)整。本文運用經(jīng)典測量理論和現(xiàn)代測量理論相結(jié)合的方法，基于考試數(shù)據(jù)對調(diào)整后的大學(xué)英語四級考試的試題質(zhì)量進行了初步的評估。數(shù)據(jù)表明，試題總體符合考試質(zhì)量要求，能夠較準(zhǔn)確地反映考生的水平，新題型設(shè)計得比較合理，考生對新題型總體比較適應(yīng)。本文的數(shù)據(jù)分析結(jié)果初步論證了題型調(diào)整后四級考試的效度。

大學(xué)英語四級考試，考試質(zhì)量評估，經(jīng)典測量理論，Rasch模型

1．引言

外語測試是外語教學(xué)的重要組成部分，是檢查教學(xué)大綱執(zhí)行情況、評定外語教學(xué)水平以及考核學(xué)生外語能力的一個重要手段。同時，外語測試還能對外語教學(xué)的內(nèi)容和方法產(chǎn)生反撥作用（Bailey 1996；Hughes 1989）。大學(xué)英語四、六級考試作為評價在校大學(xué)生英語能力的主要手段之一，其科學(xué)性和公正性得到了社會的普遍認(rèn)可。就考試的后效來看，四、六級考試對我國大學(xué)英語教學(xué)起了積極作用（王守仁2011），為我國大學(xué)英語教學(xué)質(zhì)量的提高做出了巨大的貢獻（吳啟迪2005）。為了滿足社會發(fā)展的需求，更好地服務(wù)于大學(xué)英語教學(xué)，四、六級考試自1987年開始實施以來，在考試內(nèi)容和形式上作過多次調(diào)整（Jin 2008，2011；Jin ＆Yang 2006）。自2013年12月起，四、六級考試在試卷結(jié)構(gòu)和測試題型上再次進行了調(diào)整，旨在進一步提高考試的效度以及考試對教學(xué)的后效，更好地促進大學(xué)生英語綜合應(yīng)用能力的培養(yǎng)和提高。

對于一項涉及上千萬考生的大規(guī)模高風(fēng)險考試而言，確?？荚嚨馁|(zhì)量至為關(guān)鍵，因此有必要對題型調(diào)整后的考試質(zhì)量進行評估，以檢驗新題型是否符合考試質(zhì)量的要求，調(diào)整后的考試是否達到了設(shè)計者預(yù)期的效果。本文將采用經(jīng)典測量理論和現(xiàn)代測量理論相結(jié)合的方法，基于考后數(shù)據(jù)對調(diào)整后四級考試的試題質(zhì)量進行初步評估，從而對四級考試的效度作初步驗證。

2．調(diào)整后的大學(xué)英語四級考試題型

Messick（1996）指出，應(yīng)當(dāng)通過改進考試設(shè)計來提高考試效度，為考試產(chǎn)生良好的后效打下基礎(chǔ)。因此，四、六級考試委員會經(jīng)過嚴(yán)格的科學(xué)論證，自2013年12月考次起對考試的內(nèi)容和題型作了進一步調(diào)整，以期考試對大學(xué)英語的教學(xué)和學(xué)習(xí)產(chǎn)生更好的促進作用。

調(diào)整后的四級試卷由聽力理解、閱讀理解、翻譯和寫作三大部分組成，所占比例分別為：聽力35%，閱讀35%，翻譯和寫作30%。調(diào)整后的四級試卷結(jié)構(gòu)、測試內(nèi)容、測試題型、分值比例和考試時間如表1所示：

表1 現(xiàn)行的CET－4各部分測試內(nèi)容、題型、所占比例和考試時間

調(diào)整后的四級考試取消了多項選擇題型的完形填空，另有三個題型作了局部調(diào)整：

（1）單詞及詞組聽寫

原復(fù)合式聽寫調(diào)整為單詞及詞組聽寫，短文的長度、難度以及播放次數(shù)不變，所占分值比例不變。原復(fù)合式聽寫要求考生根據(jù)聽到的短文內(nèi)容填寫空缺的單詞和句子，單詞要求用聽到的原文填寫，句子可以在理解原文內(nèi)容的基礎(chǔ)上用自己的語言表述。此部分調(diào)整后，要求考生在聽懂短文的基礎(chǔ)上填寫空缺的單詞或詞組，所有單詞和詞組均要求用聽到的原文準(zhǔn)確填寫。

（2）長篇閱讀

原快速閱讀理解調(diào)整為長篇閱讀理解，篇章長度和難度不變，所占分值比例不變。原快速閱讀理解要求考生閱讀一篇較長篇幅的文章后作答7道多項選擇題及3道句子填空題。現(xiàn)調(diào)整為篇章后附有10個句子，每句一題，每句所含的信息出自篇章的某一段落，要考生找出與每句所含信息相匹配的段落。

（3）段落翻譯

原單句漢譯英調(diào)整為段落漢譯英。原單句翻譯共5句，每句一題，要求考生根據(jù)中文提示將每句的部分內(nèi)容翻譯成英語，使句子意思完整。調(diào)整后，要求考生將所給的中文段落全部譯為英語。整個部分所占比重由原來的5%上升到15%，答題時間也由原來的5分鐘增加至30分鐘。翻譯內(nèi)容融入了中國元素，涉及中國的歷史、文化、經(jīng)濟、社會發(fā)展等各個方面。為了保證翻譯評分的信度，考試委員會制定了統(tǒng)一的翻譯評分標(biāo)準(zhǔn)。評分采取整體印象法（holistic marking），主要考慮意思表達的準(zhǔn)確程度和語言的質(zhì)量兩個方面。滿分15分，分六個檔次，每個檔次應(yīng)達到的水平都有詳細的文字描述。

另外，此次題型調(diào)整后，構(gòu)建型作答試題（constructed response items）所占比重進一步增加，達到了整卷的40%，從而更好地測試學(xué)生的語言綜合應(yīng)用能力。

3．2013年12月四級考試數(shù)據(jù)分析

調(diào)整后的四級考試于2013年12月首次實施，筆者從此次四級考試所采用的試卷中隨機抽取一份試卷，并在作答所選四級試卷的考生總體中抽取了部分考生的數(shù)據(jù)進行分析。根據(jù)分層隨機抽樣原則抽取了3427名四級考生，所選的樣本覆蓋了全國不同地區(qū)不同層次的本科院校，因而是一個容量較大、代表性也比較好的樣本數(shù)據(jù)。在樣本數(shù)據(jù)的基礎(chǔ)上，筆者既采用了經(jīng)典試題分析方法對評價試題質(zhì)量的主要指標(biāo)（試題的難易度和區(qū)分度、試卷的內(nèi)部相關(guān)等）進行考察，另外還運用了項目反應(yīng)理論中的Rasch模型對試題的質(zhì)量作進一步分析。

3．1 試卷總體難度與各部分難度

四、六級考試報道成績時對原始分要進行等值處理，所以理論上試卷平均難度的高低對考生能力的測量不會產(chǎn)生影響，但難度過高或過低對教學(xué)的后效都較差，因而需要將試卷的難度控制在合理的范圍內(nèi)。就大規(guī)模標(biāo)準(zhǔn)化考試而言，整卷的平均難度在0．6左右是合適的（楊惠中、Weir 1998）。表2是對3427名四級考生所得原始分?jǐn)?shù)的描述統(tǒng)計。其中，翻譯和寫作作為一個大的部分計算平均難度。

表2 CET－4各部分原始分?jǐn)?shù)統(tǒng)計

從表2各個題型的數(shù)據(jù)可以看出，四級試卷中傳統(tǒng)題型的難度大多在0．6左右，難度比較適中，僅選詞填空題略難（0．51），仔細閱讀題略易（0．72）。從三個新題型的難度來看，段落翻譯題的平均難度為0．59，難度適中；單詞和詞組聽寫題偏難（0．44），同時也是整個試卷最難的部分，但從歷年考試數(shù)據(jù)來看，學(xué)生作答聽寫題的表現(xiàn)一直相對較弱，平均得分率不到50%，因此調(diào)整后的聽寫題就其整體難度而言與以往大致相當(dāng)，屬正常水平；長篇閱讀題難度較低（0．80），但由于其他兩個閱讀題的難度相對較高，因而整個閱讀理解部分的平均難度在合理范圍內(nèi)。

從試卷各個大的部分來看，聽力理解部分的總體難度（0．58）與翻譯和寫作部分的總體難度（0．59）基本相當(dāng)，難度適中。而閱讀理解部分的整體難度為0．71，相對略易。因此，整份試卷的平均難度為0．63，表明四級試卷的難度是適中的。另外，數(shù)據(jù)還顯示總分標(biāo)準(zhǔn)差較大，說明考生能力分布的離散程度較大，試卷能夠很好地將考生能力區(qū)分開來。

3．2 試題項目分析

除了試卷的總體難度以外，試題項目分析也是考試質(zhì)量評估的一個重要方面，即根據(jù)樣本計算每道試題的難易度和區(qū)分度。試題的難易度和區(qū)分度是衡量試題質(zhì)量的兩個重要指標(biāo)。對于大規(guī)模語言考試而言，一般要求試題的難易度在0．3～0．7之間，區(qū)分度在0．2以上（楊惠中、Weir 1998）。表3為四級試卷中全部客觀題的難易度和區(qū)分度的雙向匯總表：

表3 CET－4難易度和區(qū)分度雙向匯總表

所有55道客觀題中，1～25題為聽力題，36～65題為閱讀題。從各題數(shù)據(jù)可以看出，難易度在0．3～0．7之間的題目共29題，高于0．7的有24題，低于0．3的有2題，因而整卷全部客觀題的平均難度為0．68。另外，就試題的區(qū)分度來看，在所有客觀題中，僅有1題的區(qū)分度在0．2以下，說明四級題目有著很好的區(qū)分度，能將不同水平的考生區(qū)分開來。

3．3 試卷的內(nèi)部相關(guān)性

根據(jù)Alderson等人（1995）的觀點，對考試的各個組成部分進行相關(guān)分析可以提供考試構(gòu)念效度方面的證據(jù)。一般來說，如果某兩部分之間的相關(guān)系數(shù)太高，說明兩者考核的是相同的能力，在考試設(shè)計上存在不必要的重復(fù)；如果兩部分之間的相關(guān)系數(shù)太低，則說明兩者考的是完全不同的能力。就語言測試而言，如果各個部分考核的是語言能力的不同側(cè)面，那么它們之間的相關(guān)系數(shù)應(yīng)在適中的水平，一般認(rèn)為在0．3～0．7之間是合適的（楊惠中、Weir 1998）。但Alderson等人同時指出，由于總分是整體語言能力的體現(xiàn)，因此各組成部分與總分的相關(guān)應(yīng)相對較高，以0．7左右或更高水平為佳。以下是對四級試卷所作的內(nèi)部相關(guān)分析的結(jié)果。

3．3．1 各題型之間的相關(guān)

筆者首先分析了四級試卷各題型之間的相關(guān)以及各題型與總分的相關(guān)。表4是四級試卷各題型的相關(guān)系數(shù)矩陣。

表4 CET－4各題型的相關(guān)系數(shù)

就各題型之間的相關(guān)來看，表4中的數(shù)據(jù)顯示聽力篇章（LC3）與短文聽寫（LC4）、長篇閱讀（RD2）與仔細閱讀（RD3）的相關(guān)最高，相關(guān)系數(shù)達到了0．63。聽力篇章與短文聽寫同屬聽力理解部分，考核的均為聽力方面的技能，仔細閱讀與長篇閱讀同屬閱讀理解部分，考核與閱讀相關(guān)的能力，所以相關(guān)程度較高是合理的。另外，短文聽寫（LC4）與選詞填空（RD1）的相關(guān)達到了0．63，雖然兩者分別屬于聽力題型和閱讀題型，但實際上兩者都在很大程度上考核了詞匯的理解和運用能力，因此兩者之間有較高的相關(guān)也是可以理解的。聽力長對話（LC2）與寫作（WT）的相關(guān)最低，但也達到了0．42。其他相關(guān)系數(shù)大多在0．4～0．6之間，呈中等程度相關(guān)，說明各題型既具有一定的獨立性，又存在相互聯(lián)系，試卷設(shè)計得比較合理。

從表4還可以看出，各題型與總分的相關(guān)系數(shù)大多都在0．7以上，值得一提的是，僅占整卷5%的選詞填空題（RD1）與總分的相關(guān)也達到了0．78。在各個題型中，仔細閱讀（RD3）與總分的相關(guān)最高，相關(guān)系數(shù)達到了0．83。由于仔細閱讀部分所占分值比例最高，占到整卷的20%，所以此部分與總分的相關(guān)最高是可以理解的。另外，短文聽寫（LC4）與總分的相關(guān)也達到了0．8。短文聽寫要求學(xué)生既能聽懂內(nèi)容，還能正確書寫，是對領(lǐng)會能力和表達能力的綜合考核，能較好地反映出學(xué)生的整體語言水平，因此與總分相關(guān)較高也是可以理解的。與總分相關(guān)最低的是聽力長對話（LC2），但相關(guān)系數(shù)也達到了0．69，且此部分僅占整卷的7%，因此，與總分達到這樣的相關(guān)程度也是比較理想的。

以上是對各題型相關(guān)數(shù)據(jù)的總體描述，下面將著重分析三個新題型的相關(guān)數(shù)據(jù)：單詞及詞組聽寫（LC4）與其他各題型之間的相關(guān)在0．52～0．63之間，長篇閱讀（RD2）與其他題型的相關(guān)在0．47～0．63之間，段落翻譯（TR）與其他題型的相關(guān)在0．44～0．57之間，說明這三個新題型與其他各題型之間呈中度相關(guān)；另外，三個新題型與總分的相關(guān)都很高，長篇閱讀和翻譯與總分的相關(guān)均達到了0．75，聽寫與總分的相關(guān)則更高，達到了0．8。各項數(shù)據(jù)表明，三個新題型的設(shè)計均比較合理，符合測試意圖。

3．3．2 各部分之間的相關(guān)

筆者進一步分析了四級試卷各個部分之間的相關(guān)以及各部分與總分的相關(guān)。表5是四級試卷各部分的相關(guān)系數(shù)矩陣，其中翻譯和寫作仍作為一個整體進行分析。

從表5的數(shù)據(jù)來看，在試卷各個部分中，聽力（LC）和閱讀（RD）的相關(guān)最高，相關(guān)系數(shù)為0．72，其他各部分之間的相關(guān)系數(shù)均為0．67。雖然各部分的相關(guān)系數(shù)在0．7左右，處于較高水平，但仍在合理范圍之內(nèi)，表明試卷各部分既考核了語言能力的不同方面，同時又是相互關(guān)聯(lián)的，各個部分的綜合能夠準(zhǔn)確而有效地反映學(xué)生的總體語言水平。另外，各部分與總分之間的相關(guān)都很高，其中聽力部分和閱讀部分與總分的相關(guān)均高達0．91，而翻譯和寫作部分與總分的相關(guān)也達到了0．8以上。

表5 CET－4各部分的相關(guān)系數(shù)

3．4 Rasch模型分析

Rasch模型是一種單參數(shù)項目反應(yīng)理論模型，因其克服了傳統(tǒng)測量理論的局限之處，實現(xiàn)了測量的客觀等距目標(biāo)，為社會科學(xué)領(lǐng)域內(nèi)的測量建立了一套客觀標(biāo)準(zhǔn)，現(xiàn)已廣泛應(yīng)用于教育、心理學(xué)、醫(yī)學(xué)等諸多領(lǐng)域。近年來，Rasch模型也越來越多地應(yīng)用于語言測試領(lǐng)域，國內(nèi)外有不少學(xué)者運用Rasch模型對測試的信效度進行了研究（如Eckes 2005；Bonk ＆Ockey 2003；劉建達2005；江進林、文秋芳2010）。本文嘗試使用Rasch模型從另一個視角對試題的質(zhì)量進行了分析。筆者采用Rasch分析軟件FACETS 3．58對3427名四級考生除翻譯和作文之外的全部客觀題（即聽力部分和閱讀部分）的作答結(jié)果進行了分析。聽寫題盡管采用的是主觀評分，但采用的計分方式與客觀題相同，即只有正確和錯誤兩種作答結(jié)果，滿足Rasch模型分析的基本要求，因此對聽寫題的數(shù)據(jù)也進行了Rasch分析。以下是對考試整體情況的分析結(jié)果。

3．4．1 試題難度與考生能力的對應(yīng)關(guān)系

Rasch模型將試題難度和考生能力都轉(zhuǎn)化為以logit為單位的統(tǒng)一度量值，并將兩者在共同的標(biāo)尺上進行度量，因而可以直接比較考生與考生、考生與試題、試題與試題的差異。圖1直觀地展現(xiàn)了試題難度與考生能力之間的對應(yīng)關(guān)系。

圖1左邊一列是logit量尺，是后面兩列參照的共同標(biāo)準(zhǔn)。中間一列呈現(xiàn)的是考生能力的分布情況，每個＊代表35名考生，每個圓點表示不足35名考生，考生能力從下往上依次遞增。右邊一列呈現(xiàn)的是65道試題難度水平的分布，題目難度自下而上依次增加。聽力題的編號為1～35，閱讀題的編號為36～65，其中26～35題為采用0／1計分的聽寫題，其余全部為客觀題?？忌g的距離代表考生能力水平的差異，試題間的距離代表試題難度水平的差異。考生水平分布越分散，說明考生水平差距越大，題目對考生的區(qū)分能力強；反之，分布較集中，說明考生水平差距不明顯，題目的區(qū)分能力弱。另外，理想的試題分布狀況是題目能夠覆蓋所有水平的考生，而且在考生水平分布相對密集處，題目數(shù)量相應(yīng)較多；試題難度水平與考生能力水平越接近，對考生能力水平的估計越精確。

圖1 試題難度與考生能力對應(yīng)圖

從圖1可以看出，考生能力基本呈正態(tài)分布，且分布較分散。試題的難度覆蓋了絕大多數(shù)考生的語言能力水平，分布比較均勻，考生的水平與試題分布基本匹配，說明試卷可以對考生的能力水平做出比較精確的估計。同時，圖1也清晰地呈現(xiàn)了試題難度的順序，其中52題最簡單，34題最難。從圖1可以看出，僅有1題與其他試題相距較遠，此題為34題，是一道單詞／詞組聽寫題，在65道試題中難度最高，與其他題目的難度水平差異較大。絕大多數(shù)試題集中分布在±2個logit范圍內(nèi)，總體上試題的難度分布是合理的。3．4．2 試題分析結(jié)果

Rasch模型對試題的難度和考生的能力進行估計后，對每個考生在每道試題上答對的理論概率進行估算，并與實際的觀測分?jǐn)?shù)進行比較，用兩者之間的差異來評估數(shù)據(jù)與模型的擬合情況。圖2是65道試題的擬合分析結(jié)果，按照試題難度的度量值由高到低排列。

Rasch模型通常報告Infit MnSq和Outfit MnSq兩個擬合統(tǒng)計量，前者是加權(quán)均方擬合統(tǒng)計量，后者是未加權(quán)均方擬合統(tǒng)計量。由于后者更容易受到個體差異大的數(shù)據(jù)的影響，因此一般以前者作為判斷個體是否擬合模型的依據(jù)。擬合統(tǒng)計量的值為1，表示數(shù)據(jù)與模型預(yù)測完全符合。對于Infit MnSq的取值范圍沒有嚴(yán)格規(guī)定，鑒于此處分析的大多為選擇題，因而采用較嚴(yán)格的擬合控制，Infit MnSq值在0．7～1．3之間認(rèn)為數(shù)據(jù)與模型擬合較好（Wright ＆Linacre 1994）。若試題的Infit MnSq值大于1．3，視為非擬合題目，表明考生的作答方式與模型設(shè)定的不一致；小于0．7，則視為過度擬合題目，表明考生的作答結(jié)果差異較小或題目不能區(qū)分考生之間水平的差異。Rasch標(biāo)準(zhǔn)誤（Model S．E．）表示試題測量考生能力的誤差大小，誤差越小表示對考生能力的估計越精確，題目的信度越高，一般認(rèn)為0．03～0．05是可接受的范圍（Green 2013）。相關(guān)系數(shù)（Corr．PtBis）表示試題與其測量目標(biāo)的擬合程度，相關(guān)系數(shù)越高，說明題目與其測量目標(biāo)越接近。

圖2的數(shù)據(jù)顯示，Infit MnSq值基本都在可接受范圍內(nèi)，而且大多數(shù)非常接近于期望值1，僅1題（即聽力部分的14題）的Infit MnSq值為1．31，略大于1．3，處于非擬合的邊緣。因此，試題數(shù)據(jù)總體而言與Rasch模型擬合較好。絕大多數(shù)試題的Rasch標(biāo)準(zhǔn)誤都在可接受的水平，僅最難的34題和最簡單的52題兩道試題相應(yīng)的Rasch標(biāo)準(zhǔn)誤略大于其他題目，因而整體來看誤差較小，說明試題對考生能力的估計比較準(zhǔn)確，試題的信度較高。相關(guān)系數(shù)都處于可接受水平，表明所有題目與測量目標(biāo)之間有較好的一致性。

除此之外，圖2最下方的分隔系數(shù)（Separation）和分隔信度（Reliability）用以衡量個體之間存在差異的程度，數(shù)值越大說明越有把握認(rèn)為個體之間存在明顯差異。信度的取值范圍為0～1，越接近于1表明差異越大。卡方檢驗（Fixed chi－square）旨在檢驗個體之間是否具有統(tǒng)計學(xué)意義上的顯著差異。圖2的數(shù)據(jù)顯示，分隔系數(shù)為24．33，信度達到了1．00，卡方值為33023．2（d．f．＝64），顯著性為0．00，這些都表明各題目之間的難度有顯著意義的區(qū)別，符合試卷設(shè)計的要求。

3．4．3 考生能力分析結(jié)果

圖2 試題分析結(jié)果

鑒于考生人數(shù)較多，這里僅報告整體的考生能力情況，不再一一羅列個體的數(shù)據(jù)。表6顯示了考生整體情況的分析結(jié)果。

表6 考生能力整體情況

從表6中總結(jié)的考生擬合數(shù)據(jù)的取值范圍及其所占考生的百分比來看，僅1．2%的考生的Infit MnSq值略超出可接受范圍，一般來說非擬合考生的比例應(yīng)控制在2%左右（Pollitt ＆Hutchinson 1987），因而考生的答題行為整體上符合Rasch模型的預(yù)期。這里的分隔系數(shù)為3．42，分隔信度為0．92，表明考生能力具有很大差異。這種差異是否顯著可以通過卡方檢驗進行驗證?？ǚ街禐?7149．0（d．f．＝3426），顯著性為0．00，結(jié)果顯示考生能力的差異具有統(tǒng)計上的顯著意義，表明試題具有較好的區(qū)分度，能夠區(qū)分出不同考生的能力。

除了了解考試的整體情況以外，筆者也對聽力部分和閱讀部分分別作了Rasch分析，受篇幅所限不再細述，總體而言每個部分的試題質(zhì)量都比較理想，試題難度與考生能力匹配得較好，試題能夠準(zhǔn)確地反映考生的水平，符合考試的質(zhì)量要求。

4．結(jié)語

為了驗證調(diào)整后四級考試的效度，本文以3427名抽樣考生的答題數(shù)據(jù)為基礎(chǔ)，對四級試題的質(zhì)量進行了初步分析。本文首先采用傳統(tǒng)試題分析方法考察了試題難易度、區(qū)分度以及試卷內(nèi)部相關(guān)等衡量試題質(zhì)量的主要指標(biāo)。從初步的數(shù)據(jù)分析結(jié)果來看，題型調(diào)整后的四級試卷總體難度適中，除了各個傳統(tǒng)題型的難度總體保持穩(wěn)定以外，單詞及詞組聽寫、長篇閱讀和段落翻譯這三個新題型的難度也處在比較合理的水平。尤其值得一提的是，段落翻譯題屬主觀性試題，且占到了整卷的15%，而數(shù)據(jù)顯示其平均得分率達到了60%左右，表明考試設(shè)計者在命題過程中對此部分難度進行了較好的控制。從四級學(xué)生的答題情況來看，學(xué)生對各個新題型總體比較適應(yīng)，在新題型上的表現(xiàn)整體比較理想。但是，在測試一定程度表達能力的聽寫題上，學(xué)生的表現(xiàn)仍差強人意，平均得分率仍然不到50%。另外，根據(jù)對試卷中全部客觀題所做的試題項目分析結(jié)果，四級試題的難易度和區(qū)分度分布總體符合考試質(zhì)量要求。對試卷所作的內(nèi)部相關(guān)分析的結(jié)果顯示，各題型之間呈中等程度相關(guān)，說明各題型既互相獨立又存在關(guān)聯(lián)，整份試卷設(shè)計得比較合理。同時，各題型與總分之間大多呈現(xiàn)高相關(guān)，達到了比較理想的相關(guān)水平。從新題型的相關(guān)數(shù)據(jù)來看，三個新題型與其他題型之間的相關(guān)總體上比較適中，三個新題型與總分的相關(guān)也比較理想，表明新題型設(shè)計合理，基本符合考試設(shè)計者的意圖。

此外，本文還對試卷中的全部客觀題及采用0／1計分的聽寫題進行了Rasch分析。結(jié)果顯示，試題的難度水平總體上與考生的能力水平相匹配，試題覆蓋了絕大多數(shù)考生的能力水平，能夠?qū)忌哪芰ψ龀霰容^準(zhǔn)確的估計。同時，絕大多數(shù)試題集中分布在±2個logit范圍內(nèi)，試題難度的分布是比較合理的。就試題數(shù)據(jù)和考生能力數(shù)據(jù)與Rasch模型的擬合分析結(jié)果來看，加權(quán)均方擬合統(tǒng)計量的取值絕大多數(shù)都在可接受的范圍內(nèi)，表明數(shù)據(jù)與模型的擬合比較理想。各個題目的Rasch標(biāo)準(zhǔn)誤和相關(guān)系數(shù)也都在可接受的水平，表明試題對考生的能力水平進行估計時誤差較小，試題能夠較好地測量出所要測量的目標(biāo)。此外，數(shù)據(jù)還顯示試題具有良好的區(qū)分度，能夠?qū)⒉煌忌哪芰^(qū)分開來。Rasch分析結(jié)果進一步表明四級試題的難易度和區(qū)分度分布比較理想，試題質(zhì)量符合考試的要求。

此外，教師、學(xué)生及媒體對此次考試題型調(diào)整也普遍反映良好。從考試委員會對部分教師進行的考后訪談結(jié)果來看，教師對題型調(diào)整給予了充分的肯定，認(rèn)為調(diào)整后的考試更綜合地測試學(xué)生的英語應(yīng)用能力。教師們還一致認(rèn)為翻譯題的調(diào)整是此次題型調(diào)整的最大亮點：首先，調(diào)整后采用的段落翻譯題型可以更有效地測試學(xué)生的翻譯技能，能夠?qū)Ψg教學(xué)產(chǎn)生良好的后效；其次，翻譯題融入的中國元素有助于增加學(xué)生對中國的歷史、文化、經(jīng)濟和社會發(fā)展等各方面的了解，從而提高學(xué)生的跨文化交際能力。對部分考生進行的考后訪談結(jié)果顯示，考生總體上也持肯定態(tài)度。不少考生指出調(diào)整后的翻譯題更具真實性，對學(xué)生的能力提出了更高的要求，但同時也能更好地反映出學(xué)生的語言綜合運用能力。國內(nèi)有不少主流媒體也關(guān)注了此次的題型調(diào)整，并給予了正面報道。如有報道指出，多項選擇題的減少和主觀性試題的進一步增加使考試能夠更好地測試大學(xué)生的英語實際應(yīng)用能力，從而引導(dǎo)師生更加重視語言實際運用能力的培養(yǎng)。

對考試數(shù)據(jù)進行科學(xué)地分析和評價是考試質(zhì)量評估的重要組成部分，數(shù)據(jù)分析和評價的結(jié)果可以為設(shè)計者提供考試質(zhì)量方面的重要信息，為進一步改進考試提供重要依據(jù)。本文通過對考試數(shù)據(jù)的分析對此次題型調(diào)整后的四級考試作了初步的質(zhì)量評估，從而初步論證了調(diào)整后四級考試的效度。然而，考試分?jǐn)?shù)只是開展效度研究過程中所需收集證據(jù)的其中一個方面，今后還需要不斷收集其他各方面證據(jù)，以更全面地論證考試的效度，從而及時地發(fā)現(xiàn)考試可能在某方面存在的局限，不斷地改進和完善考試，更好地為教學(xué)服務(wù)。

Alderson，J．C．，C．Clapham ＆D．Wall．1995．Language Test Construction and Evaluation［M］．Cambridge：Cambridge University Press．

Bailey，K．M．1996．Working for washback：A review of the washback concept in language testing［J］．Language Testing13（3）：257－79．

Bonk，W．J．＆G．J．Ockey．2003．A many－facet Rasch analysis of the second language group oral discussion task［J］．Language Testing20（1）：89－110．

Eckes，T．2005．Examining rater effects in TestDaF writing and speaking performance assessments：A many－facet Rasch analysis［J］．Language Assessment Quarterly 2（3）：197－221．

Green，R．2013．Statistical Analyses for Language Testers［M］．London：Palgrave Macmillan．

Hughes，A．1989．Testing for Language Teachers［M］．Cambridge：Cambridge University Press． York：J．B．Lippincott．

Niven，L．＆J．Pournelle．1977．Lucifer’s Hammer［M］．Chicago：Playboy Press．

Rawles，J．W．2009．Patriots：A Novel of Survival in the Coming Collapse［M］．Berkeley：Ulysses．

Shute，N．1957．On the Beach［M］．New York：William Morrow．

Stewart，G．R．2006．Earth Abides［M］．New York：Ballantine Books．

Swartz，Z．C．2009．Ever Is No Time at All：Theological Issues in Post－apocalyptic Fiction and Cormac McCarthy’s The Road［D］．Georgetown University．

Wagar，W．W．1982．Terminal Visions：The Literature of Last Things［M］．Bloomington：Indiana University Press．Wolfe，G．1983．The remaking of zero：Beginning at the end［A］．In E．S．Rabkin，M．H．Greenberg ＆J．D．Olander（eds．）．The End of the World［C］．Carbondale＆Edwardsville：Southern Illinois University Press．1－19．

葛紅兵、肖青峰．2008．小說類型理論與批評實踐——小說類型學(xué)研究論綱［J］．上海大學(xué)學(xué)報（社會科學(xué)版）（5）：63－74．

威廉·福岑．2012．一秒之后（符瑤譯）［M］．北京：新星出版社．

（責(zé)任編輯玄琰）

Jin，Y．2008．Powerful tests，powerless test designers？—Challenges facing the College English Test［J］．English Language Teaching in China 31（5）：3－11．

Jin，Y．2011．Fundamental concerns in high－stakes language testing：The case of the College English Test［J］．Journal of Pan－Pacific Association of Applied Linguistics 15（2）：71－83．

Jin，Y．＆H．Yang．2006．The English proficiency of college and university students in China：As reflected in the CET［J］．Language，Culture and Curriculum19（1）：21－36．

Messick，S．1996．Validity and washback in language testing［J］．Language Testing13（3）：241－56．

Pollitt，A．＆C．Hutchinson．1987．Calibrated graded assessments：Rasch partial credit analysis of performance in writing［J］．Language Testing4（1）：72－92．

Wright，B．D．＆J．M．Linacre．1994．Reasonable meansquare fit values［J］．Rasch Measurement Transactions 8（3）：370．

江進林、文秋芳．2010．基于Rasch模型的翻譯測試效度研究［J］．外語電化教學(xué)（1）：14－18．

劉建達．2005．話語填充測試方法的多層面Rasch模型分析［J］．現(xiàn)代外語（2）：157－69．

王守仁．2011．關(guān)于高校大學(xué)英語教學(xué)的幾點思考［J］．外語教學(xué)理論與實踐（1）：1－5．

吳啟迪．2005．教育部2005年第2次新聞發(fā)布會：介紹大學(xué)英語四、六級考試改革有關(guān)情況［EB／OL］．［2005－2－25］．http：∥www．moe．edu．cn／edoas／website18／info8745．htm．

楊惠中、C．Weir．1998．大學(xué)英語四、六級考試效度研究［M］．上海：上海外語教育出版社．

（責(zé)任編輯楊麗）

H319

1674－8921－（2015）10－0041－08

10．3969／j．issn．1674－8921．2015．10．008

張琳，上海交通大學(xué)外國語學(xué)院講師。主要研究方向為語言測試。電子郵箱：zhang＿lin＠sjtu．edu．cn

陳琳麗，上海交通大學(xué)外國語學(xué)院講師。主要研究方向為語言測試。電子郵箱：lynnchen＠sjtu．edu．cn

＊衷心感謝金艷教授對本文的悉心指導(dǎo)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大學(xué)英語四級考試質(zhì)量評估：基于經(jīng)典測量理論和Rasch模型的數(shù)據(jù)分析

1．引言

2．調(diào)整后的大學(xué)英語四級考試題型

3．2013年12月四級考試數(shù)據(jù)分析

4．結(jié)語