揭薇
(上海交通大學 外國語學院, 上海 200240 /上海對外經貿大學 國際商務外語學院, 上海 201600)
商務英語是專門用途英語的一個重要分支,商務英語有其自身的顯著特點,體現在語言能力、專業(yè)知識、文體風格、外部語境等各個方面(對外經濟貿易大學商務英語理論研究小組,2006)。針對專門用途英語的測試的內容和方法來源于分析特定的目標語言使用情況,測試任務和測試內容的設計強調真實性(authenticity),包括情景真實性(situational authenticity)和交互真實性(interactional authenticity)(Douglas,2000;Douglas,2001)。商務英語測試比其他任何類型的英語測試更強調展示情景的真實性以及測評考生的實際的運用和操作能力(O’Sullivan,2006)。因此,商務英語測試研究應該結合傳統(tǒng)語言測試理論和方法,同時要兼顧商務英語自身特點,設計出符合學習者完成目標環(huán)境下的真實任務的測試內容和方法,并且根據完成任務的程度和效果來進行評分。
強調運用的語言測試主要測量語言使用者的實際應用能力而被廣泛的使用于語言測試實踐中。但是這種形式的測試過程因為引入了評分者、評分標準以及任務形式等因素從而使得到的分數往往更多的受到學生能力以外的因素的影響,從而對于確保測試的信度和效度有了更多的難度和要求??谡Z考試作為一種輸出性的考試,對學生的語言能力進行直接的測量,如果設計合理,評分客觀準確,能夠達到高效度。隨著經濟全球化的步伐加快,商務英語口語能力是社會實踐中非常重要而且很受歡迎的能力,在人才招聘和商務交流中是一項重要的能力指標,但是其口語考試的評分過程往往因為評分員專業(yè)知識的影響而帶有主觀性,要保證評分的準確性和一致性是一大難題。
多面Rasch模型是單參數Rasch模型的拓展(Linacre,1989;1994),通過對測試過程中的每個層面參數化,同時假定這些層面會共同作用從而影響考生得到某個分值的概率。基于隨機概率模型,多面Rasch模型將不同層面中的每個個體(學生、評分者、試題等)在共同的logit標尺上進行度量,并計算每個度量值的估算誤差、對模型的擬合程度以及每個層面之間可能的交互作用。由此可見,利用多層面Rasch模型分析測試結果,特別是對口語、寫作、翻譯等考試中,考生成績容易受到多個方面影響的試題類型,具有非常大的優(yōu)勢。多層面Rasch模型可以將這些影響因素的程度參數化,并用數值的形式體現,這樣有助于我們最大程度的減少考試其他方面對于學生能力的影響,更真實的表現學生的能力水平。
口語考試是國內外大規(guī)模考試的重要組成部分,口語考試的評分是考試構念的體現,是考試信度和效度的重要保證(Fulcher,2003)。對口語考試的評分研究一直是各種口語考試的研究重點。多面Rasch模型在表現性評價(performance assessment)研究中具有諸多優(yōu)勢,國外已有廣泛的應用,如:分析同伴討論口語測試任務的評卷人效應(Bonk & Ockey,2003);寫作評分的評卷人效應(Eckes,2008);母語評分員在評閱二語學習者英文短文寫作的評分員偏差分析(Schaefer,2008);診斷性寫作測試評分量表的開發(fā)與驗證(Knoch,2009);對現有特殊用途英語口語測試評分標準的擴展研究(Hagan et.al.,2015);寫作評分員評分行為的比較研究(Goodwin,2016)等。近年來,國內應用多面Rasch模型的口語考試研究也在逐年增加,研究側重點主要集中在兩個方面,一是應用多面Rasch模型對口語考試的效度進行驗證以及對考試評分標準的質量檢驗(劉建達,2005;張潔,2008,2016;何蓮珍、張潔,2008;趙南、董燕萍,2013;范勁松、季佩英,2015;高淼,2016)。另一方面是應用多面Rasch模型對口語考試的評分進行具體分析。劉建達(2010)分析了口語評卷人效應,戴朝暉、尤其達(2010)分析了大學生計算機口語考試評分者的評分偏差;李英、關丹丹(2016)對PETS口試教師評分的培訓效果進行了分析,發(fā)現多面Rasch模型有助于發(fā)現評分異常情況,開展有針對性的評分培訓。周燕、曾用強(2016)對比分析了聽說考試中計算機自動評分和評分員評分的差異性。
這些研究都展現了多面Rasch模型在表現性評價中的各種應用,但是目前鮮有研究應用多面Rasch模型對商務英語口語考試進行評分研究。因此,本研究基于某高校的一次VECTOR商務英語會話考試的學生實際成績,在多層面Rasch模型框架下對評分者、學生、試題等進行了探討,旨在使用這種統(tǒng)計方法有效地研究商務英語測試中各個層面因素對于學生成績的影響,從而使考試公平公正的反應學生的真實能力水平。
本研究運用多面Rasch模型對某大學的一次商務英語口語測試的評分進行分析,具體回答以下問題:1)評分者的嚴厲程度是否一致,評分者的評分是否存在內在一致性?2)題項是否能夠很好地區(qū)分考生能力?3)評分質量如何,是否存在顯著偏差?
Rasch模型作為IRT理論的主要模型之一,其基本想法是某個考生答對某道題的概率大小不僅取決于考生自身的能力, 也取決于這道題目的難度。Rasch模型的基本形式除了可以用來分析二分計分數據,其拓展形式(Andrich,1978;Wright & Masters,1982)還可以用來計算評分量表(Rating Scale)中的分步難度以及分析具有分部計分(Partial credit)的評分系統(tǒng)。如果將任務(或題項)由難度大小順序從低往高排列,那么被試的能力大小應該與其通過的任務(或答對的題項)成正相關(朱正才等,2003;趙守盈、薛雯,2011),其模型的假設與語言測試理論評估試題質量的依據是一致的(劉建達,2010)。Rasch模型估計方法有以下優(yōu)勢:估計得分能夠有效反映潛在特征。受試個體得分可以通過計算其各個測試項目的總體反映得到。所有擁有相同項目得分的受試者具有相同的隱含特征。考生在各題上的總分是個充分統(tǒng)計量,即考生能力參數的估計只與總分(即答對題目數)有關,而與具體的應答模式無關。考生與題目在模型中的地位的對稱性,在Rasch模型下,可以同時求得考生能力與題目難度的估計。
Rasch模型可以采用以下一般化的描述:
本次研究的數據來自某校商務英語學習平臺的一次人機練習,一共有120名非英語專業(yè)的大二學生參加,這些學生來自某校金融專業(yè)、經貿專業(yè)。評分員共有5名,其中三名高校教師,教授商務英語課程,并且有過數次的評分經驗,另外二名教師也教授商務英語課程,但是第一次參與這個考試的評分,5名評分員分別對120名被試評分。所有被試參加的口語練習測試題每道大題包括兩個部分,第一部分是模仿跟讀,第二部分是情景模擬,給出設定商務場景,然后要求學生根據場景給出回應,采用的是人機對話的形式錄制學生的回應。本次測試一共有三道大題,每道大題10分,被試要求在18分鐘內做完這三道大題。由于教學班級規(guī)模較大,實施直接面試型口語考試難度大,因此采用計算機化的口語考試,之后教師通過回聽學生考試錄音的方式進行評分,每位教師是獨立評分。評分方式為總體評分,具體的評分依據有:1)發(fā)音(包括聲音大小、重音、語調、語氣);2)準確性(包括語法、專業(yè)用詞及說話方式);3)流利程度(包括語速、長短句搭配)。
本研究的基本分析模型如下:
此次研究使用的軟件是FACETS(Linacre, 2008a),我們對評分結果數據進行了多面Rasch模型分析。本研究將學生、評分者、測試題設為三個“面”(見圖1)。
圖1 分層圖
圖1是所有層面的分布情況。最左列是logit尺度,是用來衡量各層面的真實測量值的尺度。第二列為測試題分布,這里體現的是試題的難度分布,有圖可知,評分項的難度分布較為均勻,第二大題最難,第三大題最容易。第三列是學生能力,該圖按照學生能力的高低自上而下排列,每個星號代表3個學生,每個圓點則代表少于3個學生。圖1的結果顯示,所有學生的能力介于-2到+4之間。第四列為評分員嚴厲度,嚴厲度高的評分員排在上面,嚴厲度低的評分員排在下面。由圖可見5名評分員(編號為1-5)的嚴厲度介于-1和+1之間,分布比較集中,同時最嚴厲的評分員和最寬松的評分員之間的差異大約在2個logits,不到考生能力度量跨度(大約8 logits)的四分之一。這表示評分員之間嚴厲度的差異在總體上不會對考生的成績產生決定性的影響(Myford & Wolfe,2004)。最后一列是模型給出的各能力段學生應該獲得的分數(expected score)。如:logit值為0的學生應該得到的分數大約為7分,括號內表示的是最高分和最低分。
多層面Rasch分析有個重要的優(yōu)點就是它可以給出模型中各個層面的估量和度量并且提供每個層面甚至與每一個個體的單位統(tǒng)計量。
評分員層面
Rasch模型分析顯示,5位評卷人的嚴厲度有差異(圖1),其中4號評分員最為嚴厲(1.12 logits),而5號評分員最寬松(-0.83 logits),他們之間相差1.95 logits。5位評分員的平均嚴厲程度為.00 logits,標準差為.63,其中4位評分員的嚴厲程度小于.00 logits,這顯示出評分總體偏寬松。評分員的Infit Mnsq反應了評分員評分的內部一致性(internal self-consistency),對于這個取值,有不同的取值范圍,比較嚴格的擬合取值是在0.7-1.3的范圍內(Bonk & Ockey,2003),如果這個值在這個范圍則認為評分員有較好的內部一致性。表1是評分員層面的統(tǒng)計數據,其中,分隔指數(Separation)為5.15,分隔指數信度(reliability)為0.96,一般認為分隔指數大于2即表示該層面的每個個體之間存在顯著差異(Myford & Wolfe,2004)。這里的分隔指數信度是指該層面的個體之間有顯著差異的程度。數據表明,評分員嚴厲度差異達到顯著水平,不容忽視。同時從表1中可以看出這五位評分員中,有經驗的評分員(1、2、3號)雖然總體偏寬松,但是他們比首次評分的評分員(4、5號)的評分嚴厲度差異更小。
表1 評分員層面
Separation: 5.15 Reliability: .96
Chi-square: 146.8 Significance: .00
學生層面
表2為學生層面分析結果的一部分,因學生人數比較多,這里我們只看其中的一部分。這個層面是按照學生能力的高低排序的,能力高的學生排在上面。這里Observed Average是考生的實際平均得分,而Fair Average是結合題目難度而得到的期望分值,這個值更能體現學生的實際能力。Measure 值是表示學生能力的度量值,值越大表示學生的能力越高。本次考試學生的能力范圍從-1.97到3.63 logits,跨越5個logits,說明學生的能力分布差異不是很大。Model S.E.是指該模型估算的精確度。Infit Mnsq是指學生的擬合統(tǒng)計值,我們可以根據這個值來判斷哪些學生擬合模型以及哪些學生非擬合,并且可以計算出非擬合學生所占的比例。Linacre(2008b) 提出0.5-1.5可以作為擬合取值范圍,那么本研究中大于等于1.5擬合值的屬于非擬合,共有10名學生非擬合,大約占總學生的8%,這表示有8%的學生內部答題行為不太一致,可以進一步進行偏差分析,檢查學生和試題項之間的交互作用。如這學生在哪些試題項上的成績與其他試題項不同,是否是學生的答題方式的問題。(Linacre,2008b)。
表2 學生層面(部分)
分隔系數(separation index)為1.63(表3),分隔指數信度的值在0到1之間,其值表明區(qū)分學生的能力的信度。這里的分隔指數信度是0.73,同時也通過卡方檢驗驗證這種差異具有顯著意義。說明此次考試較好地區(qū)分了學生的能力水平。
表3 學生整體能力情況
試題層面
從表4的結果來看,分隔系數為29.35,信度1.0,卡方值2780.5,顯著性=.00,這些都說明了本次口語試題的難度在統(tǒng)計上存在顯著差異,考試結果體現出來的試題難易差異較大(measure最高和最低之間的差異為3.75個logits)??谡Z考試中,由于試題的特點和話題的因素會造成難度上的差異,這也是研究者們關注的焦點和難點。不僅因為影響試題難度的因素很難確定,而且這些因素和學生之間的交互作用也是非常重要的(Bachman,2002)。商務英語口語考試的話題任務設計涉及范圍廣,專業(yè)跨度大,話題可以涵蓋經濟、貿易、財政、金融等各個方面。本次考試三道大題的區(qū)別主要在模擬商務場景的主題上,三道大題的主題分別是:“解決營銷問題”、“洽談貿易折扣”、“國際清算業(yè)務會話”。根據measure(表4)一欄可以看出每個題目的難度,這次考試難度最高的是第二大題(2.02 logits)①,但是題目的擬合分析沒有發(fā)現有非擬合或過度擬合,說明題目的難度差異還是符合考試的要求。
表4 試題層面
Separation:29.35 Reliability:1.0
Chi-square:2780.5 Significance: .00
從表4我們可以推測,造成難度差異的主要原因是學生對于商務口語話題的熟悉程度、興趣、以及對于話題所涉及信息的商務專業(yè)詞匯的掌握差異比較大,專業(yè)知識的掌握影響到了學生口語能力的發(fā)揮。如果要進一步了解話題的難度,我們需要再分析成績之間的統(tǒng)計差異,以及結合學生的個人特點,專業(yè)知識結構和學生考試時的話語進行具體分析。本次研究結果表明雖然試題在難度上體現出較大差異,這個難度差異總體上還對學生的考試成績有一定影響,但是這幾個任務的Infit MnSq都在0.7-1.3的范圍內,說明評分員對各個試題的評分還是較為一致的,符合模型的期望。
表5是評分量表各個分數段的使用統(tǒng)計,可以評估評分量表是否能夠達到預期的使用目的。其中頻數統(tǒng)計(Counts,Cum%),擬合均分指數(Outfit MnSq)和Rasch-Andrich閾值(Rasch-Andrich Thresholds)是分析量表使用情況的主要指標。通常擬合值小于2.0且閾值隨分值遞增且沒有出現逆序,不同分數值之間的閾值差距相對均勻,說明評分量表的使用情況良好,評分員能夠比較準確地區(qū)分各個分數段(Park,2004;劉建達,2005;張潔,2016)。分析表5可以看出評分員總體上能夠較好地使用評分量表,但是表5第二欄的頻數統(tǒng)計了分數的中間段(7分)使用頻次(54%)遠高于其他分數段,且0-4分數段評分員沒有使用,這說明評分員在評分時有可能存在趨中性,為了明確這一點,我們還可以再看一下表2學生層面的能力分析,如果處于中間能力的學生確實要多于能力兩端的學生,或是學生的能力差異比較小,那么評分員的趨中表現恰恰是非常合適的(Myford & Wolfe,2004)。本研究中學生的能力跨度5個logits,處于中間段的學生比較多,學生能力分布比較均勻。
表5 分數類別使用統(tǒng)計
圖2展示了5個分數段的概率曲線圖,可以更直觀地看各個分數段的使用質量,通過這5個分數段的峰值曲線,可以看出各分數段的峰值較為獨立,間隔度相當,這說明評分員對于各個分數段可以較好地區(qū)分,也就是說能力處于某個分數段的學生能夠得到這個分數段的分數。由圖2可知本次考試所使用的各個分數段表現尚可,基本達到預期。
圖2 分類別概率曲線圖
即使在閱卷前仔細地挑選評分員,進行閱卷前培訓,評分員效應仍然可能存在(Bonk & Ockey,2003)。FACETS 的多面Rasch分析可以對評分數據進行偏差交互(Bias interaction)分析,所謂的偏差是指評分員在給分時出現了異常高分和異常低分的情況,通過偏差分析可以調查評分的哪個方面引起了評分員偏差,對哪些學生產生了評分偏差,尤其是在評分培訓時分析偏差并反饋給評分員可以幫助他們修正評分偏差。
表6 評分員-學生顯著偏差交互統(tǒng)計
本研究分析了評分員和學生的偏差交互,t(偏差統(tǒng)計量)的絕對值大于2即視為顯著偏差。表6列出了出現顯著偏差評分的評分情況,可見出現評分偏差數量較多的是4號評分員(首次評分),他對第77號等5位學生的評分過于寬松,這5位學生的能力均為中等偏下,這在首次評分的“新評分員”中普遍存在,對于差距較小的中等能力水平學生,他們往往難以區(qū)分,對評分標準把握不夠準確,從而導致評分偏差。1號評分員對48號學生評分過于寬松而對113號學生評分過于嚴厲,3號評分員對48號學生的評分則過于嚴厲,這一行為和1號評分員存在較大的差異,1號和3號評分員都是有經驗的評分員,因此在評分培訓中,我們可以進一步詢問這三位評分員,從而推斷為什么出現這樣的偏差。
通過以上討論,我們可以回答本研究提出的問題:1)評分者的嚴厲程度是否一致,評分者的評分是否存在內在一致性?2)題項是否能夠很好地區(qū)分考生能力?3)評分質量如何,是否存在顯著偏差?根據前文評分者層面的分析,我們可以看到評分者的分隔指數和信度指數都很高,表明評分者之間總體嚴厲度差異顯著,但是能保持評分員內部評分的一致性。本研究中的試題項難易區(qū)分度較大,這個結果表明了學生對商務話題的熟悉程度、興趣以及話題中涉及的商務專業(yè)知識可能會影響學生口語能力的發(fā)揮。本研究中的評分質量較好,評分員可以有效地使用提供給他們的評分量表,但是評分員也存在評分偏差,應有針對性的給予評分培訓。
多面Rasch模型分析結果使我們看到商務英語口語測試評分作為一種主觀性評價可能會產生各種問題和偏差,影響對學生真實商務口語能力的評價。此外,對商務英語口語能力的評分除了要考慮影響通用英語口語考試的因素,也需要考慮到專業(yè)知識和能力對口語能力的影響??梢宰鋈缦聨追矫娴母倪M:1)設計明確詳細,具有可操作性的評分標準。商務英語口語考試的評分標準不能參照或是照搬通用英語口語考試的評分標準。描述清晰的、標準明確的、有針對性的評分標準是對商務英語口語能力準確評估的必要前提,對于評分者把握評分標準,保證一致性和評分信度至關重要。2)加強對評分員的訓練,特別是評分前培訓,使其對評分標準充分理解以便更好地使用,最大限度地達到評分者總體寬嚴度的一致以及評分者內部的一致,避免評分偏差。
本研究是將多層面Rasch模型應用于商務英語口語測試評分研究中的一次嘗試,尚存在一些局限需要在進一步的研究中改進,主要有以下三個方面:
1)本研究通過MFRM定量分析商務英語口語測試的評分效應,并未收集和分析評分員以及學生的定性數據,因此在對定量統(tǒng)計結果的解釋上缺少定性數據的佐證和補充。
2)由于本次商務英語口語測試采用的是總體評分標準,因此研究者在微觀層面上無法探索商務英語口語各分項評分維度的評分效應,在進一步的研究中,可以應用多層面Rasch模型對比分析總體評分和分項評分模式下評分員的評分依據,有助于改進和拓展評分標準。
3)本次口語考試采用的是間接性的測評方法(人機對話,對學生的答題進行錄音),進一步的研究可以收集學生對于這種考試形式的評價以及他們所希望的考試形式(錄音或是面對面),從而探索適合校本商務英語口語測試的最佳形式。
注釋:
① 具體題目請聯系本文作者索取。
[1] Andrich, D. A general form of Rasch’s extended logistic model for partial credit scoring[J].AppliedMeasurementinEducation, 1978,4:363-378.
[2] Bachman, L. F. Some reflections on task-based language performance assessment[J].LanguageTesting, 2002,19:453-476.
[3] Bonk, W. J. & G. J. Ockey. A many-facet Rasch analysis of the second language group oral discussion task[J].LanguageTesting, 2003,20(1):89-110.
[4] Douglas, D.AssessingLanguagesforSpecificPurposes[M]. Cambridge: Cambridge University Press, 2000.
[5] Douglas, D. Language for specific purposes assessment criteria: Where do they come from[J].LanguageTesting, 2001,18(2):171-185.
[6] Eckes, T. Rater types in writing performance assessments: A classification approach to rater variability[J].LanguageTesting, 2008,25:155-185.
[7] Fulcher, G.TestingSecondLanguageSpeaking[M]. London: Pearson ESL, 2003.
[8] Goodwin, S. A Many-Facet Rasch analysis comparing essay rater behavior on an academic English reading/writing test used for two purposes[J].AssessingWriting, 2016,30:21-31.
[9] Hagan, S., J. Pill & Y. Zhang. Extending the scope of speaking assessment criteria in a specific-purpose language test: Operationalizing a health professional perspective[J].LanguageTesting, 2015,33:195-216.
[10] Knoch, U. The development and validation of a rating scale for diagnostic writing assessment[J].LanguageTesting, 2009,26(2):275-304.
[11] Linacre, J. M.Many-facetRaschMeasurement[M]. Chicago: MESA Press, 1989.
[12] Linacre, J. M. Constructing measurement with a many-facet Rasch model[A]. In M. Wilson (ed.).ObjectiveMeasurement:TheoryinPracticeVol.II[C]. Newark: Ablex, 1994.
[13] Linacre, J. M. FACETS: version 3.63.0[CP/DK]. Chicago: Winsteps.com, 2008a.
[14] Linacre, J. M.AUser’sGuidetoFACETS:Rasch-modelComputerProgram[M]. Chicago: MESA Press, 2008b.
[15] Myford, C. M. & E.W. Wolfe. Detecting and measuring rater effects using many-facet Rasch measurement-Part II[J].JournalofAppliedMeasurement, 2004,5(2):189-227.
[16] O’Sullivan, B. (ed.).IssuesinTestingBusinessEnglish:StudiesinLanguageTesting,Volume17[M]. Cambridge: Cambridge University Press, 2006.
[17] Park, T. An investigation of an ESL placement test of writing using Many-Facet Rasch Measurement[J].TeachersCollege,ColumbiaUniversity,WorkingPaperinTESOL&AppliedLinguistics, 2004,4(1):1-21.
[18] Schaefer, E. Rater bias patterns in an EFL writing assessment[J].LanguageTesting, 2008,25(4):465-493.
[19] Wright, B. D. & G. N. Masters.RatingScaleAnalysis[M]. Chicago: MESA Press, 1982.
[20] 戴朝暉,尤其達. 大學英語計算機口語考試評分者偏差分析[J]. 外語界,2010,(5):87-95.
[21] 對外經濟貿易大學商務英語理論研究小組. 論商務英語的學科定位、研究對象和發(fā)展方向[J]. 中國外語,2006,(9):4-8.
[22] 范勁松,季佩英. 口語測試中分析性評分量表的構念效度研究[J]. 中國外語教育,2015,(3):85-94.
[23] 高淼. 基于多面Rasch模型的初中英語口語測試EBB評分標準研究與效度驗證[J]. 中國考試,2016,(12):29-47.
[24] 何蓮珍,張潔. 多層面Rasch模型下大學英語四六級考試口語考試(CET-SET)信度研究[J]. 現代外語,2008,(4):388-398.
[25] 李英,關丹丹. PETS口試評分培訓效果的多面Rasch分析[J]. 外語教學理論與實踐,2016,(3):43-47.
[26] 劉建達. 話語填充測試方法的多層面Rasch模型分析[J]. 現代外語,2005,(2):157-169.
[27] 劉建達. 評卷人效應的多層面Rasch模型研究[J]. 現代外語,2010,(2):185-193.
[28] 張潔. PETS三級口語考試評分質量控制研究——基于多側面Rasch模型(MFRM)的方法[J]. 考試研究,2008,(4):65-78.
[29] 張潔. 基于多層面Rasch模型的評分員評分質量診斷[J]. 外語測試與教學,2016,(2):47-54.
[30] 趙南,董燕萍. 基于多面Rasch 模型的交替?zhèn)髯g測試效度驗證[J]. 解放軍外國語學院學報,2013,(1):86-90.
[31] 趙守盈,薛雯. Rasch模型和IRT在學生成就測驗統(tǒng)計分析中的對比研究[J]. 中國考試,2011,(6):8-12.
[32] 周燕,曾用強. 機助英語聽說考試計算機自動評分的多層面Rasch 模型分析[J]. 外語測試與教學,2016,(1):22-31.
[33] 朱正才,楊惠中,楊浩然. Rasch模型在CET考試分數等值中的應用[J]. 現代外語,2003,(1):70-75.