亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

Rasch模型在中國應(yīng)用研究回顧

2016-03-09 06:07:52李久亮

廣東外語外貿(mào)大學(xué)學(xué)報 2016年2期

關(guān)鍵詞：研究方法

李久亮

(北京服裝學(xué)院　外語系，北京　100029)

Rasch模型在中國應(yīng)用研究回顧

李久亮

(北京服裝學(xué)院外語系，北京100029)

摘要:自提出至今，Rasch模型已經(jīng)歷了半個多世紀(jì)的發(fā)展，在教育與心理測量學(xué)領(lǐng)域發(fā)揮著重要作用。通過對中國應(yīng)用語言學(xué)界利用Rasch模型開展的相關(guān)研究進行回顧總結(jié)，發(fā)現(xiàn)該模型主要用于語言測試研究與應(yīng)用，研究方向包括測驗等值和測試信效度等。與國際同行相比，中國在Rasch模型的應(yīng)用研究方面還存在一定差距。通過分析與總結(jié)該模型的應(yīng)用研究現(xiàn)狀，希望對中國應(yīng)用語言學(xué)界有所啟示，并為有興趣利用Rasch模型開展研究的讀者提供參考與借鑒。

關(guān)鍵詞:Rasch模型；應(yīng)用語言學(xué)；語言測試；研究方法

引言

Rasch模型是項目反應(yīng)理論的模型之一，是二參數(shù)、三參數(shù)模型的一個特例(劉建達、呂劍濤，2012)。在中國，羅冠中于1992年在《教育研究與實驗》發(fā)表了一篇文章，對Rasch模型做了較為全面的介紹。此后，基于該模型的論著與研究報告逐漸開始在學(xué)界出現(xiàn)，并在多個研究領(lǐng)域內(nèi)發(fā)揮著重要作用。該模型對中國應(yīng)用語言學(xué)界也產(chǎn)生了深遠的影響，尤其在新千年之后，與之相關(guān)的學(xué)術(shù)論文發(fā)表數(shù)量上升較快，而且總體來看呈逐年遞增的趨勢。鑒于該模型對學(xué)界的重要意義，有必要對中國應(yīng)用語言學(xué)界的研究與應(yīng)用進行回顧總結(jié)，以期對有興趣采用Rasch模型開展相關(guān)研究的人員提供參考與借鑒。

一、Rasch模型基本理論及發(fā)展歷程

起源于20世紀(jì)初的經(jīng)典測試?yán)碚撘哉娣謹(jǐn)?shù)理論為基礎(chǔ)建立數(shù)學(xué)模型，到目前已發(fā)展成為體系成熟的測試?yán)碚摚诟餍懈鳂I(yè)的應(yīng)用取得了很大成功。但在實際測評過程中，研究人員發(fā)現(xiàn)其在理論假設(shè)和實際應(yīng)用方面存在很多缺點，例如項目統(tǒng)計量嚴(yán)重依賴被試樣本等，其理論最大的缺點在于對測量誤差分析太過籠統(tǒng)。與經(jīng)典真分?jǐn)?shù)理論相比，項目反應(yīng)理論(IRT)在模擬被試能力與測試題目之間的相互作用上有明顯的優(yōu)勢，如樣本獨立性、多重信度評估等，因而能夠在很大程度上彌補經(jīng)典測試?yán)碚撛跍y驗信度和效度處理上的不足。

丹麥數(shù)學(xué)家George Rasch在1960年提出了單參數(shù)IRT模型，即Rasch模型。作為一種潛在特質(zhì)模型, Rasch模型通過個體在題目上的表現(xiàn)(通常表示為原始分?jǐn)?shù))來測量不可直接觀察的、潛在的變量。根據(jù)Rasch模型原理, 特定的個體對特定的題目作出特定反應(yīng)的概率可以用個體能力與該題目難度的一個簡單函數(shù)來表示。個體回答某一題目正確與否完全取決于個體能力和題目難度之間的比較。Rasch模型是一個理想化的數(shù)學(xué)模型。它要求所收集的實證數(shù)據(jù)必須滿足事先規(guī)定的標(biāo)準(zhǔn)和結(jié)構(gòu), 才能實現(xiàn)客觀測量。Rasch模型對于客觀測量有兩個要求,即： (1)對任何題目, 能力高的個體應(yīng)該比能力低的個體有更大可能作出正確回答; (2)任何個體在容易題目上的表現(xiàn)應(yīng)該始終好過在困難題目上的表現(xiàn)。Rasch分析提供的擬合度指標(biāo)可以檢驗實證數(shù)據(jù)與Rasch模型的擬合程度。題目的擬合度指標(biāo)不好, 說明可能存在目標(biāo)特質(zhì)之外的其他變量, 或者對所測量特質(zhì)的定義不恰當(dāng)。

在Rasch模型分析中，被試能力與試題參數(shù)完全獨立，這是它區(qū)別并優(yōu)于經(jīng)典測量理論的突出特性。此外，它允許對類型選擇進行評估，測量絕大部分類別是否得到了妥善利用。并且，Rasch模型不同于經(jīng)典真分?jǐn)?shù)理論和概化理論，具有可推翻性(何蓮珍，等，2008)。自提出后，Rasch模型經(jīng)歷了快速發(fā)展，在教育與心理測量學(xué)領(lǐng)域有著深入、廣泛的研究與應(yīng)用。不過，也有學(xué)者指出Rasch模型存在不足(Hambleton, 1979)。例如，它只將項目難度這個因素考慮在內(nèi)，不能解釋多種誤差的來源。而在含有主觀評判的測試活動中，最終的分?jǐn)?shù)會受到多方面因素的影響，如考官嚴(yán)厲度、任務(wù)難度、評分標(biāo)準(zhǔn)等。為了提高測試結(jié)果的公平與準(zhǔn)確，就必須對影響測試結(jié)果的各種差異來源進行妥善處理。為了彌補項目反應(yīng)理論及其模型的不足，Linacre(1989)在Rasch模型的基礎(chǔ)上，提出了一個新的評估框架，將多個層面納入分析中，即多層面Rasch模型(MFRM)。MFRM將考生能力、題目難度、評分員嚴(yán)厲度、評分量表中相鄰等級的階梯難度等多個層面納入同一個數(shù)學(xué)模型，共同決定考生取得某一分值的概率大小。

這樣做的優(yōu)勢是：1)分離其它層面(facet)的影響，用同一個洛基(logit)尺度來估算各層面(如考生能力、評分員嚴(yán)厲度、試題難度)的真實測量值；2)判斷評分量表的準(zhǔn)確性；3)判斷層面內(nèi)部成分之間是否有顯著差異，例如，判斷考生能力差異是否顯著；4)檢驗各層面間是否有偏性交互作用，例如，檢驗評分員嚴(yán)厲度是否偏向于某一群體的考生；5)進行配對比較(paired comparison)。例如，比較兩組考生對同一考試任務(wù)的表現(xiàn)?；谏鲜鎏攸c，MFRM非常適合用于研究寫作評分、檔案袋評估等其它類型的主觀評判測試活動(Linacre，2011)。

二、Rasch模型在中國應(yīng)用研究現(xiàn)狀

本文主要基于中國已公開發(fā)表的Rasch模型應(yīng)用研究報告，通過在中國知網(wǎng)進行文獻搜索獲得相關(guān)資料與數(shù)據(jù)。結(jié)果發(fā)現(xiàn)，國內(nèi)對Rasch模型的應(yīng)用研究主要集中在教育心理測量領(lǐng)域(曹亦薇，等，2008；常蕤，2008；徐思，等，2009)。在應(yīng)用語言學(xué)界目前已發(fā)表了40余篇利用該模型開展研究的論文。經(jīng)過總結(jié)歸類，Rasch模型在學(xué)界的應(yīng)用研究主要集中在測試等值研究、測試信效度研究、層面功能差異、題庫建設(shè)、計算機自適應(yīng)測試等。下面簡要介紹這些領(lǐng)域的研究情況，對應(yīng)用Rasch模型開展研究的思路、方法及實際操作進行梳理。

(一)測試等值研究

Rasch模型對中國應(yīng)用語言學(xué)界做出的一項重要貢獻是在大規(guī)模外語測試中(如高考英語、全國大學(xué)英語四、六級(CET4/6))的等值研究與應(yīng)用。以CET4/6為例，自1987年第一次實施起，Rasch模型就已應(yīng)用在該考試的分?jǐn)?shù)等值研究中(朱正才，等，2003；朱正才、楊惠中，2004)，并且取得了令人滿意的效果。分?jǐn)?shù)等值研究對大規(guī)?？荚嚲哂兄匾饬x，這是因為大規(guī)?？荚嚱?jīng)常同時使用多套試卷。為保證考試的公平性與信效度，試卷之間的等值非常重要。而Rasch模型是開展分?jǐn)?shù)等值研究的有效工具，這主要是因為該模型具有適合以上用途的特性。Rasch模型能夠反映考生能力與題目難度之間的關(guān)系，這為分?jǐn)?shù)等值研究提供了重要的數(shù)據(jù)。此外，該模型數(shù)學(xué)形式簡潔，屬標(biāo)準(zhǔn)指數(shù)族函數(shù)，因而數(shù)學(xué)基礎(chǔ)更堅實；在參數(shù)估計過程中，由于有充分統(tǒng)計量的存在，計算結(jié)果穩(wěn)定可靠。例如，劉建達、呂劍濤(2012)使用Rasch模型等值 10 套設(shè)有錨題的英語試卷。他們先將這10 套試卷通過NEAT(nonequivalent groups with an anchor test)設(shè)計銜接起來，再通過卡方檢驗和 mean/sigma 轉(zhuǎn)換法算出的常數(shù)值剔除質(zhì)量差的錨題，最后用保留的錨題確定等值函數(shù)。對Rasch模型的適用性檢驗表明，10 套試卷的數(shù)據(jù)符合Rasch模型的假設(shè)。等值結(jié)果分析顯示，銜接各試卷的錨題在統(tǒng)計意義上均有效，基于Rasch模型的等值結(jié)果能校正試卷間的難度差異。除在大規(guī)模語言測試中的分?jǐn)?shù)等值研究外，Rasch模型還用于香港中學(xué)會考中、英文科的水平參照等級評定(羅冠中，2008)。

(二)測試信效度研究

已公開發(fā)表的基于Rasch模型的學(xué)術(shù)論文大多探討語言測試信效度問題(江進林，等，2010；王初明，等，2013)。彭康洲(2010)利用Rasch模型對2007年TEM4聽力理解項目進行研究分析。作者首先確定題目的難度和考生的能力水平分布，建立TEM4聽力行為錨定量表，從標(biāo)準(zhǔn)參照測試角度做項目分析和信度估算，以考察項目的標(biāo)準(zhǔn)參照屬性。根據(jù)Rasch模型分析結(jié)果，作者得出結(jié)論，2007年TEM4聽力理解項目難度分布較為均勻，題目總體難度處于中等水平，區(qū)分度也較為合理。

需要指出的是，Rasch模型應(yīng)用研究中所指的效度并非廣義上的，通常情況下它具有如下層面的意義：如果Rasch分析顯示沒有非擬合情況，那就證明某測試方法具有一定的構(gòu)念效度(construct validity)(劉建達，2005)。例如，趙南、董燕萍(2013)對一次交替?zhèn)髯g測試結(jié)果進行多面Rasch模型檢驗以驗證測試的效度。擬合檢驗顯示，模型中各個層面變量的擬合值都接近期望值1.00，而被試的平均擬合值更是達到了1.00的期望值，說明結(jié)果完全符合模型預(yù)測。作者因此得出結(jié)論，交替?zhèn)髯g測試的效度得到了證實。

很多Rasch模型研究論文利用MFRM(多層面Rasch模型)開展主觀測試題型的研究，主要涉及寫作(李清華、孔文，2010；劉建達，2010)、口語(何蓮珍，等，2008；白英，2009)、翻譯(江進林，等，2010；江進林，等，2011)、話語填充語用測試(劉建達，2005，2007)等。這些MFRM研究大多采用四個層面的設(shè)計，即考生、評分員、任務(wù)、評分標(biāo)準(zhǔn)。通過相關(guān)數(shù)據(jù)觀察各個層面因素與模型間的擬合情況，對考試的總體效度進行評價。例如張新玲等(2010)運用MFRM對廣東省高考英語試卷中讀寫結(jié)合寫作題型進行構(gòu)念效度驗證，目的是通過考察考試成績中的異常數(shù)據(jù)，觀察該任務(wù)能否有效測量考生的讀寫綜合能力。在考生層面上，分隔指數(shù)信度和卡方檢驗結(jié)果表明，受試作文成績存在顯著差異，且該差異主要源自所測考生能力上的差別。因此，此類考試任務(wù)總體上能夠有效區(qū)分考生這方面的能力水平。在任務(wù)層面上，概要和短文兩項任務(wù)的難度有顯著差異，且兩者的InfitMnSq值都在可接受范圍內(nèi)。在評分員層面上，分隔信度和卡方檢驗說明評分員之間在嚴(yán)厲度上有顯著差異，但他們的前后一致性較好。評分標(biāo)準(zhǔn)層面，內(nèi)容、語言和連貫性的InfitMnsq值說明后兩個子項與模型擬合較好。據(jù)此，研究者得出結(jié)論，該任務(wù)能夠有效考察考生的讀寫綜合技能，評分員總體寬嚴(yán)適度，評分量表使用合理。

對相關(guān)文獻進行分析可以看出，MFRM在做事測試(performance test)領(lǐng)域的研究主要集中在以下兩個方面：第一，評分標(biāo)準(zhǔn)和評分過程研究；第二，考試應(yīng)答數(shù)據(jù)與模型擬合度的綜合分析，以此進行效度驗證。我國學(xué)者因此也利用Rasch模型開展考試評分質(zhì)量控制(王躍武，等，2006)。MFRM對研究評分員效應(yīng)十分有效(Xi, 2008)，國內(nèi)學(xué)者利用此法開展了多項研究(劉建達，2007，2010；戴朝暉，等，2010)。結(jié)果發(fā)現(xiàn)，評卷嚴(yán)厲度不一的問題普遍存在(譚智，2008；戴朝暉，2010)，評分員和評分標(biāo)準(zhǔn)的各個方面相互影響顯著(何蓮珍，等，2008)，等等。在評分員效應(yīng)的討論上，劉建達(2010)進一步拓展了研究思路，綜合采用多種評價指標(biāo)，從評卷人的總體嚴(yán)厲程度、集中趨勢、隨機效應(yīng)、暈輪效應(yīng)、區(qū)分性嚴(yán)厲度等多角度入手，探討如何利用多層面Rasch模型來分析評分員效應(yīng)。這些研究發(fā)現(xiàn)對評分質(zhì)量控制、評分標(biāo)準(zhǔn)設(shè)計和評分員培訓(xùn)都很有意義。

須指出的是，MFRM并非是評分信度研究可使用的唯一方法，學(xué)界中的另外一個研究范式是采用概化理論，兩者各有所長。MFRM比較適合研究個體評分員和任務(wù)，以及評分員、任務(wù)和考生不同組合方式對總體評分信度的影響，而對于整體層面以及層面間交互作用的研究則可采用概化理論(Xi，2008)。兩種方法形成優(yōu)勢互補，因此研究者提議對二者進行綜合應(yīng)用(Bachman，1995；Lynch，1998)。國內(nèi)也有學(xué)者同時采用這兩種方法開展評分信度研究(李航，2011；孫海洋，2011)。李航采用概化理論和多層面Rasch模型對CET6作文評分信度進行了研究。概化理論的分析發(fā)現(xiàn)，評分員層面以及包含評分員與考生間交互作用的殘差的方差在總方差中占有一定比重。而MFRM分析則發(fā)現(xiàn)評分員在嚴(yán)厲度上存在較大差異；評分員與考生間偏性交互分析表明，評分員對能力較高的考生標(biāo)準(zhǔn)偏嚴(yán)，而對能力較差的考生偏松。由此可見，概化理論和多層面Rasch模型具有良好的互補性，能對測試信度做出點面結(jié)合的豐富說明。

(三)層面功能差異(DFF)研究

利用MFRM還可以研究層面內(nèi)個體特質(zhì)對評分產(chǎn)生的影響，稱為層面功能差異(differential facet functioning或DFF)研究(Engelhard,1992)。例如考生特質(zhì)可以包括性別、年齡、民族、種族、社會階層以及學(xué)習(xí)能力等。這些特質(zhì)造成的偏差效應(yīng)可待層面校標(biāo)之后加以考察。DFF研究在概念上類似于當(dāng)前研究項目功能差異(Differential Item Functioning或DIF)所使用的方法。例如，寫作測試中考生這一層面可以分別為男性和女性校標(biāo)，這些估算值之間的對應(yīng)性就可以用來發(fā)現(xiàn)DFF。在做事測試中，層面之間的交互作用也可作為潛在的偏差來源加以檢測。該測量模型還可拓展以分析為何評分員嚴(yán)厲度不一，以及為何題目難度不同等問題。DFF研究在我國應(yīng)用語言學(xué)界開展的不多(劉洋，2008；白英，2009)，且多是利用FACETS計算出的層面內(nèi)個體能力或難度估值進行不同特質(zhì)間的對比，很少從層面間的交互作用來觀察偏差的來源。

白英(2009)研究了考生間熟識性對口語群測模式下考生成績產(chǎn)生的影響。31位同學(xué)三人為一組，分成十組，分別參加兩次口語群測考試。第一次口語考試中，同組有兩人熟識，一人陌生；第二次口語考試中，同組三人彼此均不認(rèn)識。結(jié)果發(fā)現(xiàn)，考生間熟識性對考生的成績有正面影響，即熟人討論組考生的成績高于生人討論組的，但兩種情況下測試的難度差異并不顯著。

除上述外，Rasch模型在學(xué)界其它領(lǐng)域的應(yīng)用相對較少。在題庫建設(shè)、計算機自適應(yīng)測試方面，王蕾、黃曉婷(2006)提出利用該模型構(gòu)建我國少兒英語遠程計算機自適應(yīng)測驗題庫的設(shè)想。此外，她們還嘗試將該模型應(yīng)用到量表編制過程中(王蕾、黃曉婷，2012)。

三、存在問題

Rasch模型為中國應(yīng)用語言學(xué)界提供了有效的研究方法與手段，使我們對相關(guān)問題有了進一步的理解與認(rèn)識。然而從本文所收集的論文資料來看，目前有關(guān)該模型的應(yīng)用研究尚存在一些局限。首先在應(yīng)用范圍上，主要是從事語言測試專業(yè)的研究人員在利用它開展測試的信效度研究，在語言學(xué)的其它領(lǐng)域尚不多見?，F(xiàn)有研究主要利用MFRM來分析主觀測試題，其中絕大多數(shù)使用FACETS軟件。其次，觀察問題的角度也比較有限，涉及最多的是評分嚴(yán)厲度。模型中各層面間的偏性交互作用也多是局限于評分員和考生之間的，思路有待進一步拓展，比如觀察考生和任務(wù)類型間的交互，以分析不同特征的任務(wù)是否、以及如何對考生構(gòu)成不同的挑戰(zhàn)(李久亮，2014)。從另一側(cè)面來看，這也反映出我們對與Rasch模型有關(guān)應(yīng)用還不夠成熟。由于參數(shù)估計方法較為復(fù)雜，導(dǎo)致模型在使用中不甚方便，對于語言學(xué)研究人員有些數(shù)據(jù)甚至難以理解。欲善其事，先利其器，重視Rasch模型應(yīng)用方面的學(xué)習(xí)與探索可以幫助我們?nèi)娑钊氲亓私庋芯繂栴}中各個變量之間的關(guān)系，進而將我們的研究水平提升到更高的層次。另外，現(xiàn)有研究在方法上過于依賴定量方法，只有少數(shù)研究結(jié)合采用定性方法(張潔，2012)。今后的研究可考慮綜合應(yīng)用這兩種研究范式，從多個角度研究測試信效度問題，比如利用有聲思維剖析評分員的評判過程。在語言研究日趨多元化、綜合化、科學(xué)化的今天，深入了解與應(yīng)用各種研究方法對于中國應(yīng)用語言學(xué)的發(fā)展有著深刻的意義。

四、前景展望

過去幾十年里，教育與心理測量領(lǐng)域在理論與實踐層面都經(jīng)歷了快速的發(fā)展，其中，Rasch模型的出現(xiàn)大大提高了研究人員對相關(guān)問題認(rèn)識的廣度與深度。其堅實的理論基礎(chǔ)及簡單的數(shù)學(xué)表述確保了它廣泛的應(yīng)用前景。在當(dāng)今國際心理和教育測量學(xué)的舞臺上，Rasch模型仍然扮演著十分重要的角色，幫助研究人員在各個領(lǐng)域開展廣泛而深入的科學(xué)研究。同時，Rasch模型自身也有了新的發(fā)展。對于其在實現(xiàn)客觀測量中的作用，除了持續(xù)不斷的理論探討之外, 也越來越多地得到了實際應(yīng)用的佐證。此外，學(xué)界還創(chuàng)立了有關(guān)Rasch模型研究的專業(yè)性學(xué)術(shù)期刊TheJournalofAppliedMeasurement，并且每年在全球范圍內(nèi)舉辦以該模型為核心內(nèi)容的論壇、研討會。Rasch模型開辟了一片新的研究領(lǐng)域，也向我們提出了許多具有挑戰(zhàn)性的課題，與之相關(guān)的研究在世界范圍內(nèi)蓬勃發(fā)展，并且加快了成果向?qū)嶋H轉(zhuǎn)化的步伐。自引介以來，Rasch模型在中國應(yīng)用語言學(xué)界產(chǎn)生了持續(xù)而深遠的影響，使得學(xué)界在相關(guān)領(lǐng)域的研究取得了一定的成果。然而毋庸諱言，與世界同行相比，我們在應(yīng)用該模型開展研究的理論和方法層面仍然存在一定差距和局限。但只要潛心鉆研，刻苦學(xué)習(xí)，積極倡導(dǎo)國際、國內(nèi)學(xué)術(shù)合作與交流，我們也一定能在這塊充滿機遇的領(lǐng)域里收獲豐富的成果。

參考文獻:

白英. 2009. 熟識性對口語群測模式的影響[J].Teaching English in China(2)：114-125, 127.

曹亦薇，毛成美. 2008. 縱向Rasch模型在大學(xué)新生適應(yīng)性追蹤研究中的應(yīng)用[J].心理學(xué)報，40(4): 427-435.

常蕤.2008.一種基于Rasch模型的Angoff方法及其應(yīng)用[J].心理學(xué)探新(4)：76-79.

戴朝暉，尤其達. 2010.大學(xué)英語計算機口語考試評分者偏差分析[J].外語界(5)：87-95.

何蓮珍，閔尚超.2008.寫作測試的主要實證研究方法及其發(fā)展趨勢[J].中國外語，5(6):42-46.

何蓮珍，張潔. 2008.多層面Rasch模型下大學(xué)英語四、六級考試口語考試(CET-SET)信度研究[J].現(xiàn)代外語(4)：388-398, 437.

江進林，文秋芳. 2010.基于Rasch模型的翻譯測試效度研究[J].外語電化教學(xué)(1)：14-18.

江進林，王立非，馬曉雷. 2011.英譯漢任務(wù)中的評分員效應(yīng)研究[J].解放軍外國語學(xué)院學(xué)報(6)：97-101, 128.

李航. 2011.基于概化理論和多層面Rasch模型的CET-6作文評分信度研究[J].外語與外語教學(xué)(5)：51-56.

李久亮. 2014. 不同文章體裁概要寫作任務(wù)的Rasch模型分析[J].外語與外語教學(xué)(5)：30-35.

李清華，孔文. 2010.TEM-4寫作新分項式評分標(biāo)準(zhǔn)的多層面Rasch模型分析[J].外語電化教學(xué)(1)：19-25.

劉建達. 2005.話語填充測試方法的多層面Rasch模型分析[J].現(xiàn)代外語(2)：157-169, 220.

劉建達. 2007.語用能力測試的評卷對比研究[J].現(xiàn)代外語(4)：395-404, 438.

劉建達. 2010.評卷人效應(yīng)的多層面Rasch模型研究[J].現(xiàn)代外語(2)：185-193, 220.

劉建達，呂劍濤. 2012.Rasch模型等值多套英語試卷的可行性研究[J].現(xiàn)代外語(4): 401-408.

劉洋.2008.測試方法對于寫作的影響[J].Teaching English in China(4)：50-65, 128.

羅冠中. 1992.Rasch模型及其發(fā)展[J].教育研究與實驗(2)：18-32.

羅冠中. 2008.Rasch模型及其在香港中學(xué)會考水平參照等級評定中的應(yīng)用[J].考試研究(2)：18-32.

彭康洲. 2010.TEM4聽力理解項目的行為錨定分析及標(biāo)準(zhǔn)參照屬性[J].外語電化教學(xué)(1)：42-47.

彭康洲. 2011.競教比賽的多層面Rasch模型分析[J].重慶郵電大學(xué)學(xué)報(社會科學(xué)版)(6)：111-116.

孫海洋. 2011.概化理論和多層面Rasch模型在建立“職前中學(xué)英語教師口語考試模型”中的應(yīng)用[J].外語與外語教學(xué)(5)：57-62.

譚智. 2008.應(yīng)用Rasch模型分析英語寫作評分行為[J].外語教學(xué)理論與實踐(1)：26-31.

王初明，亓魯霞. 2013. 讀后續(xù)寫題型研究[J].外語教學(xué)與研究(5)：707-718.

王蕾，黃曉婷. 2006.構(gòu)建我國少兒英語遠程計算機自適應(yīng)測驗題庫的設(shè)想[J].考試研究(3)：72-86.

王蕾，黃曉婷. 2012.高中英語學(xué)習(xí)策略量表編制與Rasch多維度分析[J].心理學(xué)探新(1)：72-76.

王躍武，朱正才，楊惠中. 2006.作文網(wǎng)上評分信度的多面Rasch測量分析[J].外語界(1)：69-76.

張艷莉，彭康洲. 2012.TEM8寫作考試評分員差異性研究[J].外語電化教學(xué)(1)：42-46.

徐思，張敏強，黎光明. 2009.基于GT和多面Rasch模型的結(jié)構(gòu)化面試分析[J].心理學(xué)探新(5)：77-82.

張潔. 2012.PETS三級口語考試評分誤差研究——結(jié)合定量統(tǒng)計和定性描述的方法[J].外語測試與教學(xué)(2)：33-42.

張新玲，曾用強，張潔. 2010.對大規(guī)模讀寫結(jié)合寫作任務(wù)的效度驗證[J].解放軍外國語學(xué)院學(xué)報(2)：50-54, 128.

趙南，董燕萍. 2013.基于多面Rasch模型的交替?zhèn)髯g測試效度驗證[J].解放軍外國語學(xué)院學(xué)報(1)：86-90.

朱正才，楊惠中. 2004.大學(xué)英語四、六級考試分?jǐn)?shù)的機助百分位等值研究[J].現(xiàn)代外語 (1)：70-75.

朱正才，楊惠中，楊浩然. 2003.Rasch模型在CET考試分?jǐn)?shù)等值中的應(yīng)用[J]. 現(xiàn)代外語(1)：69-75.

BACHMAN L F, LYNCH B K， MASON M. 1995. Investigating Variability in Tasks and Rater Judgments in a Performance Test of Foreign Language Speaking[J]. Language Testing, 12(2): 238-257.

ENGELHARD G. 1992. The Measurement of Writing Ability With a Many-Faceted Rasch Model[J].Applied Measurement in Education 5， (3): 171-191.

HAMBLETON R K. 1979.Latent Trait Models and Their Applications[C]∥TRAUB R (eds.). Computer-assisted Instruction, Testing, and Guidance. New York: Harper & Row.

LINACRE J M.1989. Many-facted Rasch Measurement[M].Chicago:MESA Press.

LINACRE J M. 2011. A User’s Guide to FACETS[Z].Computer Software Manual. Chicago: Winsteps. com.

LYNCH B K， MCNAMARA T F. 1998.Using G-theory and Many-facet Rasch Measurement in The Development of Performance Assessments of the ESL Speaking Skills of Immigrants[J]. Language Testing, 15(2): 158-180.

MCNAMARA T.1996.Measuring Second Language Performance[M]. New York: Addison Wesley Longman Limited.

XI X.2008.Methods of Test Validation[M].Encyclopedia of Language and Education: Vol. 7. Language Testing and Assessment(2nd ed.). New York: Springer Science+Business Media LLC:177-196.

[責(zé)任編輯：許蓮華]

A Review of Rasch-based Applied Linguistics Research in China

LI Jiuliang

(DepartmentofForeignLanguages,BeijingInstituteofFashionTechnology,Beijing100029,China)

Abstract：It has been more than a half century since Rasch model had been developed. From then on, the model has exerted great impact on educational and psychometric research. This paper reviews Rasch-related studies completed by scholars in domestic applied linguistic circle. It is found that the said model has been mainly used for purposes of language testing practice and research in test equating, test validity and reliability, etc. Compared with the rest of the world, the domestic linguistic studies have some limitations in using this model. It is intended that this review would inform scholars who are interested in doing research with Rasch.

Key words：Rasch model; applied linguistics; language testing; research method

收稿日期：2015-09-24

基金項目:北京高等學(xué)校教育教學(xué)改革重點聯(lián)合委托項目“三位一體市屬高校大學(xué)英語教育改革模式研究”(2014-Ih03)。

作者簡介：李久亮(1975-)，男，北京人，博士，北京服裝學(xué)院外語系副教授，研究方向為語言測試與評估、外語教學(xué)。

中圖分類號:H08

文獻標(biāo)識碼:A

文章編號:1672-0962(2016)02-0073-06