陳艷君
Rasch模型是一種單參數(shù)項目反應理論模型,最早由丹麥統(tǒng)計學家GeorgeRasch于1960年提出,最初主要用于統(tǒng)計學、心理學領(lǐng)域,經(jīng)過半個多世紀的發(fā)展,現(xiàn)已廣泛應用于教育、醫(yī)學、體育等領(lǐng)域的科學研究中。近二十年來,隨著項目反應理論的飛速發(fā)展,Rasch模型在語言測試與評估中的應用研究也逐漸豐富起來,計算機自適應測驗(CAT)就是基于Rasch模型而發(fā)展起來的。CAT突破了傳統(tǒng)考試中所有考生完成同一套試題的局限,可以根據(jù)考生的答題情況,提供不同的題目,從而測定出考生的不同能力水平。
Rasch模型的基本理念是考生答對某一道題的概率不僅取決于考生的能力,也取決于該題的難度。Rasch模型一般用來分析多項選擇等客觀題型的試題難度和考生能力。但是,在主觀題型的評估中,除了考生能力和試題難度,題目的評分標準、評分員的主觀判斷等因素也是影響考生能力評估的重要因素,由此,多層面Rasch模型(Multi-facetRaschModel,MFRM)[1]得以延伸出來。MFRM實現(xiàn)了在同一個量尺下分析考生能力、主觀題難度、評分標準、評分員嚴厲度等因素以及它們之間的交互作用,為評估主觀題型提供了豐富而有力的信效度方面的理據(jù)。而在交際語言測試觀飛速發(fā)展的今天,僅僅局限于客觀選擇的測試已經(jīng)遠遠不能滿足需要。如今,能夠真實準確地評估考生語言交際的能力的測試大部分都是通過主觀題來實現(xiàn)的,由此,MFRM成為了一個重要的理論模型和強大的分析工具。
MFRM的數(shù)學模型可以將考生能力、任務整體難度、項目難度、評分員嚴厲度等因素參數(shù)化,統(tǒng)一到同一個測量尺度(logitscale)上,并作為影響因子,決定考生取得某一分值的概率大小。其基本的數(shù)學表達式如下:
其中,Bn表示考生n的能力,Am表示任務m的整體難度,Di表示項目i的難度,Cj表示評分員j的嚴厲程度,F(xiàn)k則表示在項目i上取得k分數(shù)段的難度,Pnmijk表示評分員j在任務m的項目i上給考生n打k分數(shù)段的概率,Pnmij(k-1)則表示評分員j在任務m的項目i上給考生n打(k-1)分數(shù)段的概率。
目前,基于MFRM的數(shù)學運算,主要是通過FACETS統(tǒng)計分析軟件進行的。FACETS采用非條件極大似然法(UnconditionalMaximumLikelihood)對MFRM中的各個參數(shù)進行估計。通過FACETS分析,研究者可以將項目難度、考生能力、評分員的嚴厲程度以及評分量表各等級難度的度量值,轉(zhuǎn)化為以洛基量表(logitscale)為單位的統(tǒng)一度量值,從而檢測出在同一個單位量尺上各個因素之間是否存在顯著差異(如項目難度之間的差異、評分員的嚴厲度差異等)。與此同時,F(xiàn)ACETS還為每個因素提供擬合值,并對每個因素與Rasch model的擬合程度進行分析。此外,通過FACETS中的偏差分析(bias analysis),研究者可以進一步找到各個因素之間的交互作用。
由于MFRM在分析主觀題型測試方面的強大功能,從20世紀90年代起,以McNamara[2]為代表的學者們開始將它運用到口語和寫作測試評估中,對整體性評分標準的效度、二語口語測試的開發(fā)、寫作測試中的評分員偏見等問題進行了廣泛研究,[3][4][5]并在主觀題型測試的開發(fā)、實施和評估方面提出了切實的方案和寶貴的經(jīng)驗。而在國內(nèi),將MFRM應用于語言測試與評估中的相關(guān)研究才剛剛起步,雖然如此,但也產(chǎn)生了一系列有價值的研究成果。筆者在中國知網(wǎng)上以“Rasch”為主題詞,以SCI,CSSCI,EI以及核心期刊為來源刊,檢索了2003~2013年10年間有關(guān)Rasch模型在教育測試與評估中的應用研究,共檢索出45篇文獻。45篇文獻中,基于MFRM對于語言測試進行研究的共27篇,發(fā)表時間集中在2005~2013年(參見表1),研究類型主要集中在試題信效度驗證、評分員效應研究和評分方法研究三個方面,其中試題信效度驗證與評分員效應研究是MFRM應用研究的主流,共有22篇文章發(fā)表,占總量的82%,另外5篇(18%)則側(cè)重于運用MFRM檢驗各種評分方法對測試結(jié)果的影響。
表1 MFRM在語言測試中的應用研究成果統(tǒng)計(2005~2013)
1.試題信效度驗證
在過去十年間,國內(nèi)運用MFRM對于試題信效度進行驗證的研究主要集中在寫作測試和口語測試上,這些研究大多從考生能力、任務難度、評分標準和量表、評分員嚴厲度等方面,對測試題型的信度與效度進行了綜合的評估。[6][7][8][9]同時,通過MFRM的擬合分析與偏差分析,研究者們也發(fā)現(xiàn)一些高風險考試中存在題型任務設(shè)計上偏難、個別評分員評分誤差較大等問題,這對于推動考試設(shè)計的科學性與公平性起到了建設(shè)性的推進作用,也充分體現(xiàn)了MFRM在分析語言運用測試上的強大功能。近幾年來,研究者們除了將MFRM應用到口語與寫作這兩種主觀題型測試,還嘗試對其他題型進行了信效度驗證。
篇章翻譯各個層面的測量值①
以江進林、文秋芳[10]的研究為例,該研究運用MFRM對英語篇章翻譯的測試效度進行驗證,主要分析了考生與評分員的心理反應過程。兩位研究者將考生、評分員和句子的評分項設(shè)置為三個“面”,并將評分員基于考生翻譯文本的評分數(shù)據(jù)輸入FACETS軟件,進行了多層面Rasch模型分析,得到如上圖所示的測量分布情況。上圖中,第一縱列為洛基量尺,是后面所有縱列參照的共同標準。洛基單位是MFRM模型的測量尺度,通過它,研究者能夠?qū)⒖忌哪芰Α⒃u分員的嚴厲度、評分項目的難度等因素統(tǒng)一到同一個單位量尺上進行比較。以第二列為例,第二列反映的是考生能力的度量值,星號代表一定的考生人數(shù),短線則代表考生數(shù)未達到該數(shù)值;符號出現(xiàn)的越多,代表達到該能力值的考生越多。上圖中,考生能力值在-0.2至+0.4之間,-0.2能力值上的考生人數(shù)最多。同樣的,基于同一個洛基單位,上圖也自上而下地排列出了3位評分員的評分嚴厲程度、30個評分項的難度以及模型期望各個能力段的考生應得分數(shù)。
上圖所呈現(xiàn)的是該研究中三個層面在模型測量中的總體分布情況。利用MFRM,研究者還可以對每個層面甚至是每一個個體做單獨的統(tǒng)計分析,便于研究者檢驗各個層面以至于個體的表現(xiàn)是否符合模型的預期,從而為試題設(shè)計和評分過程提供科學、有效的反饋。以考生能力層面為例,F(xiàn)ACETS會統(tǒng)計出每一位考生的答題情況數(shù)據(jù),具體包括評分員給出的平均分(Observed Average)、Rasch模型擬合出的期望分數(shù)(Fair-MeanAverage)、考生能力值(Measure)、加權(quán)均方擬合統(tǒng)計量(InfitMnSq)、正態(tài)分布的標準擬合數(shù)據(jù)(ZStd,其絕對值若大于2,則為顯著非擬合)等關(guān)鍵統(tǒng)計量,通過這些數(shù)據(jù)的擬合程度檢驗,研究者可以發(fā)現(xiàn)考生的答題行為是否真實反映了其在該題目上應該體現(xiàn)的實際能力。通過對考生層面的分析,江進林、文秋芳發(fā)現(xiàn):有1/3的考生并未發(fā)揮出實際的翻譯水平,考生的翻譯能力與答題行為存在一定程度上的不一致。不過,文章并沒有進一步解釋不一致的原因何在,只是指出了這種不一致性需要對考生的答題行為進行如觀察、訪談等的定性分析。這也說明了考生在翻譯測試中的表現(xiàn)是值得研究者進一步探究的課題,特別是在一些高風險型考試中,翻譯測試的信效度驗證有待研究者深入探討。
2.評分員效應研究
MFRM應用研究的另一類型就是對于評分員效應或評分質(zhì)量的研究。這類研究可以視為試題信效度驗證研究的一個部分,我們將其另歸一類是因為這類研究的焦點在于評分員對測試結(jié)果的影響。這類研究主要從寫作與口語兩種題型入手,研究評分員的嚴厲度、評分一致性、評卷偏差等問題。[11][12][13]劉建達通過多層面Rasch模型中的偏差交互分析(biasinteractionanalysis),分析了口語考試中評分員與考生、評分標準等層面的偏差交互作用。表2顯示了有顯著偏差交互作用的情況。依據(jù)模型偏差分析的原則,如果某個交互作用的Z-score絕對值大于2,則為顯著偏差。從表2中我們不難看出,兩個有顯著意義的偏差交互作用都出現(xiàn)在4號評分員上。該評分員在語言使用方面的評分較寬松,在語音方面的評分較嚴格。而在后續(xù)對評分標準各個層面的分析中,研究者進一步證實了4號評分員在語言使用方面評分時只給某一個分數(shù)的集中趨勢明顯,評分時沒能很好地區(qū)分考生的語言能力。這一類評分員可能需要重新接受評分培訓。
表2 評卷人與考生、評分標準的偏差交互作用②
將MFRM應用到評分質(zhì)量的研究結(jié)果說明了,該模型可以很好地幫助研究人員分析并發(fā)現(xiàn)評分員在閱卷過程中出現(xiàn)的問題和產(chǎn)生的偏差,從而對評分員的遴選以及培訓提供建議與參照。同時,基于MFRM的分析結(jié)果,考試主管部門在后期的數(shù)據(jù)分析和匯報時可采取一定的補償策略,將主觀評分的誤差盡可能降低,從而最大程度地保證主觀題型的評閱質(zhì)量和考試的公平性。
3.評分方法研究
這里所指的評分方法,包括評分方式(網(wǎng)絡或者紙質(zhì))、評分量表以及評分標準。相對于前兩種研究而言,應用MFRM對于不同評分方法的對比研究相對較少。王躍武、朱正才等[14]對網(wǎng)上評分與傳統(tǒng)評分這兩種評分方式進行了對比研究,通過MFRM分析發(fā)現(xiàn)網(wǎng)上評分信度高于傳統(tǒng)評分。關(guān)丹丹、陳睿等[15]對比了小分制評分量表與大分制量表下評分員的評分效應,并根據(jù)MFRM的分析結(jié)果對寫作量表的設(shè)置、寫作成績的報告等提出了建議。不過,在實驗設(shè)計上,關(guān)丹丹等的對比評分選取的作文樣本沒有干擾卷,兩種量表的評分時間間隔為一個星期,這對于評分員而言是否會產(chǎn)生一定的評分效應還有待商榷。另外,我們發(fā)現(xiàn),在評分標準方面的研究,只有李清華、孔文[16]運用MFRM對于TEM-4寫作新的分項式評分標準進行了研究,驗證了使用新標準的評分結(jié)果的可靠性,但他們的研究并沒有將新舊評分標準進行對比,這使得研究結(jié)果失去了對比的參照,一定程度上影響了研究結(jié)果的說服力。
本文回顧了MFRM在語言評估中的應用研究,不難看出:MFRM作為單參數(shù)Rasch模型的一種延伸,可以很好地檢驗主觀題型的信效度,比較評分標準的差異,并對考試的評分質(zhì)量進行一定的監(jiān)控并做出適當?shù)难a償,從而保證主觀測試的公平與公正。基于MFRM在測量評估中的優(yōu)勢,結(jié)合語言評估的實踐,筆者以為,MFRM的應用研究在以下幾個方面依然具有廣闊的發(fā)展空間和研究價值。
首先,運用MFRM可以對國內(nèi)現(xiàn)有的考試進行進一步的實證分析研究。MFRM在主觀題型的信效度檢驗上具有強大的功能,然而,通過過去十年的研究回顧我們不難發(fā)現(xiàn),目前對于主觀題測試的MFRM應用研究大部分集中在口語與寫作測試上,對其他題型的研究相對較少。比如翻譯測試,過去十年間的核心研究成果只有寥寥幾篇,將MFRM應用于大規(guī)模、高風險的翻譯測試的相關(guān)研究則幾乎沒有。這也說明了MFRM在主觀題型的應用研究上仍然有很多的命題值得研究者們深入挖掘。
其次,進一步發(fā)揮MFRM在試題開發(fā)方面的作用。目前,國內(nèi)運用MFRM的研究主要還是針對現(xiàn)有題型的信效度驗證,涉及新的主觀題型的設(shè)計與開發(fā)方面的研究較少。劉建達[17]運用MFRM對于話語填充測試的研究是對于題型開發(fā)研究的一次新的嘗試,其測試目的是考察學生的中介語語用能力。此后,王初明、亓魯霞[18]對于“讀后續(xù)寫”題型進行了開發(fā)研究。以上兩項研究都是旨在考察學生的語言應用能力而在題型設(shè)計上做出的新嘗試。目前,在更加注重學生語言應用能力培養(yǎng)的教學改革大背景下,需要更多這樣的應用研究,這樣才能讓考試更加適應教學改革的需求。
再次,運用MFRM對于評分方法進行進一步的對比研究。主觀題型設(shè)計的可靠性,除了試題內(nèi)容本身,很大程度上取決于評分的操作和評分工具的質(zhì)量。而評分工具的質(zhì)量則取決于評分量表與評分標準的科學性。從目前國內(nèi)的研究成果來看,運用MFRM對于不同評分標準的比較研究很少。因而,對于評分標準、評分方法的比較研究也是MFRM應用研究可以嘗試的一個方向。
另外,除了上述的應用研究,研究者們還可以運用MFRM,對受試各種特征的分類數(shù)據(jù)進行分析處理,進而展開考試的公平性等研究??傊?,MFRM在語言評估中的應用研究是十分廣泛的。但我們在運用過程中必須注意的是:MFRM作為項目反應理論的一種模型,有著嚴格的前提假設(shè),如個體作答行為真實性假設(shè)、局部獨立性假設(shè),等等。研究者在運用MFRM進行數(shù)據(jù)分析和推斷之前,必須要對模型基于的假設(shè)是否成立進行檢驗,否則所有的命題和推論都是無法成立的。
注釋:
①該圖表基于江進林、文秋芳的研究數(shù)據(jù),做了部分節(jié)選。
②筆者根據(jù)劉建達的研究,節(jié)選了部分數(shù)據(jù)并在呈現(xiàn)方式上做了適當調(diào)整。
[1]Linacre,J.M..Many-facet Rasch Measurement[M].MESAPress:Chicago,1994.
[2]McNamara,T.F..Measuring second language performance[M].London:Longman,1996.
[3]Tyndall,B.&Kenyon,D.M..Validation of a new holistic rating scale using Rasch multi-facted analysis.In Cumming,A.&Berwick,R.(eds.),Validation in language testing Clevedon,UK:Multilingual Matters,1996.
[4]Lynch B.&McNamara T.F..Using g-theory and many-facet Rasch measurement in the development of performance assessments of the ESL speaking skills of immigrants[J].LanguageTesting,1998(15):158~180.
[5]Kondo-Brown,K..AFACETSanalysisofraterbiasin measuring Japanese second language performance[J].LanguageTesting,2002,19(1):3~31.
[6][18]王初明,亓魯霞.讀后續(xù)寫題型研究[J].外語教學與研究,2013(5):707~718,800.
[7]張新玲,曾用強,張潔.對大規(guī)模讀寫結(jié)合寫作任務的效度驗證[J].解放軍外國語學院學報,2010(2):50~54,128.
[8]何蓮珍,張潔.多層面Rasch模型下大學英語四、六級考試口語考試(CET-SET)信度研究[J].現(xiàn)代外語,2008(4):388~398,437.
[9]孫海洋.概化理論和多層面Rasch模型在建立“職前中學英語教師口語考試模型”中的應用[J].外語與外語教學,2011(5):57~62.
[10]江進林,文秋芳.基于Rasch模型的翻譯測試效度研究[J].外語電化教學,2010(1):14~18.
[11]張艷莉,彭康洲.TEM8寫作考試評分員差異性研究[J].外語電化教學,2012(1):42~46.
[12]劉建達.評卷人效應的多層面Rasch模型研究[J].現(xiàn)代外語,2010(2):185~193,220.
[13]戴朝暉,尤其達.大學英語計算機口語考試評分者偏差分析[J].外語界,2010(5):87~95.
[14]王躍武,朱正才,楊惠中.作文網(wǎng)上評分信度的多面Rasch測量分析[J].外語界,2006(1):69~76.
[15]關(guān)丹丹,陳睿,張開等.兩種評分量表的評分效應比較研究[J].教育研究與實驗,2011(4):92~96.
[16]李清華,孔文.TEM-4寫作新分項式評分標準的多層面Rasch模型分析[J].外語電化教學,2010(1):19~25.
[17]劉建達.話語填充測試方法的多層面Rasch模型分析[J].現(xiàn)代外語,2005(2):157~169,220.