亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        計算機化自適應測驗模擬方法的研究范式與特點

        2016-02-13 18:01:36簡小珠戴步云
        中國考試 2016年1期
        關鍵詞:策略方法能力

        簡小珠 戴步云 陳 平

        計算機化自適應測驗模擬方法的研究范式與特點

        簡小珠 戴步云 陳 平

        計算機化自適應測驗(CAT)在理論與實踐中得到廣泛應用。目前許多CAT研究可以歸納為兩種研究范式:實測作答的CAT研究范式和測驗作答數(shù)據(jù)模擬的CAT研究范式。CAT模擬研究方法的步驟有模型選擇、題庫模擬、測試起點、選題策略、測驗終止策略等。CAT模擬研究的主要趨勢有:選題策略、終止策略仍然是CAT研究的重點;CAT模擬研究的設計內容更適合實際測驗情況;CAT研究設計采取多因素設計;模擬結果多方面綜合評價等。

        項目反應理論;計算機化自適應測驗;CAT模擬

        1 CAT模擬研究范式的分類

        從1985年美國軍隊職業(yè)能力傾向成套測驗(ASVAB-CAT)采用計算機化自適應測驗(Comput?erized Adaptive Testing,CAT)正式施測以來,CAT作為一種新的測驗形式在實際測試中得到較為廣泛的應用,包括學校教育考試、職業(yè)資格考試、人格測量、多維能力測量、認知診斷等多方面。美國明尼蘇達大學CAT研究中心分別于2007年和2009年組織了CAT專題研討會議,2010年CAT國際協(xié)會(In?ternational Association for Computerized Adaptive Testing,IACAT)成立,并創(chuàng)立了CAT研究專業(yè)期刊(Journal of Computerized Adaptive Testing)。從2007年起,每一年或兩年CAT國際協(xié)會都會舉行一次CAT專題研討會議。CAT研討會極大地促進了CAT研究的發(fā)展。經過30多年的研究發(fā)展與應用,CAT研究已經分化發(fā)展出多種研究范式。本文依據(jù)以下三個問題:被試是真實還是模擬、題庫是真實還是模擬、被試作答是真實還是模擬,將CAT研究歸納為以下兩種研究范式。

        1.1 實測作答的CAT研究范式

        第一類范式是實測作答的CAT研究范式(live CAT administration)。實測作答的研究范式是基于真實的題庫、真實的被試以及真實的作答反應進行研究?;谡鎸嶎}庫的試題參數(shù)已進行預測和參數(shù)估計,例如使用了真實的題庫、真實的被試以及真實的作答反應進行研究。[1][2]實測形式的CAT研究范式的特點是,可以為CAT模擬提供基本依據(jù),進一步證實在CAT模擬研究中得出的結論。但實測作答的CAT研究范式也存在著局限性:①需要真實的考生、試題庫和現(xiàn)場測試管理,需要大量的人力物力,而且費時。②被試只能作答數(shù)量有限的試題,可能難以覆蓋整個題庫,有些試題可能從未使用。③從實測考生得到的作答數(shù)據(jù)可能會包括一些不確定的“噪音”,也可能不會適合預設的IRT模型。

        1.2 測驗作答數(shù)據(jù)模擬的CAT研究范式

        第二類范式是測驗作答數(shù)據(jù)模擬的CAT研究范式,此模擬研究范式又細分為以下三種形式。

        第一種形式,基于真實紙筆測驗參數(shù)的數(shù)據(jù)模擬形式(real-data simulations)。在該種模擬形式下,題庫的試題參數(shù)是真實的,但被試能力參數(shù)是模擬的,被試作答也是模擬的。使用真實題庫參數(shù)的模擬主要是為了使得CAT模擬研究更加接近真實情況,而且可以分析在達到與傳統(tǒng)紙筆測驗相同的測驗精度時,CAT測驗形式需要多少試題,可以節(jié)省多少題量。

        第二種形式,混合模擬設計形式(hybrid simula?tions)。該模擬方式是將CAT測試和事后模擬(post-hoc simulations)結合,在被試進行CAT正式測試時安排插入新試題進行施測,獲得這些新試題的被試作答數(shù)據(jù)的稀疏矩陣。在混合模擬設計形式下,題庫參數(shù)是真實題庫的參數(shù),而且被試在CAT測驗上的作答情況也是真實的,但混合模擬設計需要依據(jù)被試作答這些已知的參數(shù)信息,來模擬更多的被試和被試作答數(shù)據(jù)矩陣,進一步估計待測試題的參數(shù),最后根據(jù)這些模擬數(shù)據(jù)的稀疏矩陣估計項目參數(shù),從而實現(xiàn)題庫所有試題都等值到同一量尺上。這種混合模擬方式在一些研究文獻中也稱之為試題參數(shù)在線標定策略。[3]

        第三種形式,蒙特卡洛模擬形式(Monte Carlo simulations),即CAT模擬。在CAT模擬形式下,被試能力參數(shù)是模擬的,被試作答數(shù)據(jù)是模擬的,大多數(shù)的題庫試題參數(shù)是模擬的。CAT模擬方法可用于CAT理論性研究,也可用于在實際CAT測試前進行評估校準試題庫的試題曝光率參數(shù)、測驗交疊率控制參數(shù),確定實測CAT的測試起點、選題策略、能力估計方法、測驗終止條件等。CAT模擬方法,是計算機化自適應測驗的理論與技術研究中最常用、最主要的方法,絕大部分的CAT研究文獻都是采用CAT模擬方法。CAT模擬方法對計算機化自適應測驗的早期研究起到了很重要的推動作用。[4]使用CAT模擬方法具有以下優(yōu)點:①當研究的測驗情境與問題較為復雜,研究的變量不容易控制時,可以通過CAT模擬方法來模擬問題情境。②可以避免反復測試同一批被試,使用CAT模擬方法則可以反復多次模擬,而能避免在實際中一次測試結果所帶來的測量誤差。③可以避免實際測量中的“噪音”。因為真實被試在進行CAT測試時,往往會受到各種額外因素的影響。

        2 CAT模擬方法的步驟與特點

        CAT模擬研究方法的過程與實際CAT的測試過程一樣,只不過CAT模擬方法中被試能力參數(shù)是模擬的,作答數(shù)據(jù)也是模擬的。CAT模擬方法的使用方式多種多樣,但CAT模擬研究有共同的組成部分與步驟。本文歸納概括以往研究文獻,得出CAT模擬方法包括模型選擇、題庫模擬、被試模擬、測試起點、作答模擬、選題策略、能力估計、測驗終止、重復模擬、結果分析10個基本步驟。

        2.1 模型選擇

        CAT模擬研究第一步是選擇IRT數(shù)學模型作為基礎模型,CAT研究中常用的IRT模型有單參數(shù)、兩參數(shù)和三參數(shù)Logistic模型,Samejima等級反應模型或其他多級記分模型。

        2.2 題庫模擬

        在大部分CAT模擬研究中使用模擬題庫,則需要模擬試題參數(shù)。題庫模擬的試題量往往為500~3 000題,也有些研究模擬題量為10 000題。試題區(qū)分度a參數(shù)取對數(shù)并服從正態(tài)分布,即log(a)~N(0,1),也有一些研究a參數(shù)服從正態(tài)分布,例如a~N(0.7,0.2)。試題難度b參數(shù)在很多模擬研究中服從標準正態(tài)分布N(0,1),也有一部分研究讓b參數(shù)服從U[-3,+3]或U[-4,+4]。一些CAT模擬研究將題庫b參數(shù)模擬生成均勻分布,其原因在于:在CAT測試中題庫是面向各個層次水平被試進行測試,因此在能力高端或低端區(qū)間,也需要有較多的試題來滿足測試。如果高難度試題(或者低難度試題)太少,則在高能力被試(或低能力被試)測試時選題較困難,容易導致測量偏差,而且容易導致這些試題過度曝光。如果使用均勻分布的題庫就可以避免這些問題。除了題庫試題參數(shù)分布對CAT有影響之外,研究者對CAT題庫的容量大小與CAT測驗長度、測量精度關系進行模擬研究,結果發(fā)現(xiàn)當題庫容量較?。}庫容量為75題,分15個能力水平區(qū)間,每個區(qū)間分別有5題)時,仍然可以用相對較少的試題(測驗長度相對較?。┇@得與紙筆測驗相同的測量精度。[5]

        2.3 被試模擬

        被試能力參數(shù)模擬時的被試數(shù)量,在許多研究中的取值范圍一般為300~2 000人,也有研究模擬1萬或5萬人。被試能力參數(shù)的模擬可以分為三種情況:①大多數(shù)模擬研究將被試能力參數(shù)分布服從正態(tài)分布N(0,1),或者均勻分布U[-3,+3]。將被試模擬服從均勻分布,可以使得能力兩端的被試數(shù)量與能力量尺中間的被試數(shù)量一樣多,減少在能力量尺兩端由于被試數(shù)量較少而帶來的樣本偏差。此外,有些研究為了充分比較,也將模擬能力參數(shù)為偏態(tài)的被試分布。②被試分布模擬實際測驗被試的分布。例如Sympson&Hetter(1985)獲取實測題庫的試題曝光率參數(shù),此時進行CAT模擬的被試能力分布需要符合實際參加測試的被試分布。[6]③在能力區(qū)間[-4,+4]選擇有代表性能力水平的被試進行分析,例如Chang和Ansley(2003)在分析被試能力條件標準誤情況時,選取了固定在-3.2至3.2之間的17個能力點進行分析。[7]此外,在有些研究中對被試能力區(qū)間分段,按被試的能力區(qū)間分別計算模擬結果的評價指標。例如Rulison和Loken(2009)在分析各個能力水平被試的偏差時,將-3.25至3.25能力區(qū)間分為26段,并分別計算被試偏差情況。[8]

        2.4 測試起點

        在大多數(shù)CAT模擬研究中,能力起點從能力中點θ=0.0開始。有些測驗為了研究的需要,選擇其他方式作為測試起點,在Barrada等(2009)的研究中,被試能力的測試起點從難度區(qū)間(-0.5,0.5)隨機選擇一個作為起點,這樣可以避免在能力中點θ=0.0的試題過度曝光。[9]陳平、丁樹良等(2006)以隨機試探性3道試題作為CAT測試起點。[10]Ruli?son和Loken(2009)的研究中指定前2道試題答對或答錯作為CAT測試起點。[11]

        2.5 作答模擬

        被試作答數(shù)據(jù)的模擬是CAT模擬的核心環(huán)節(jié),此步驟也就是使用蒙特卡洛模擬方法產生CAT測驗模擬數(shù)據(jù)的環(huán)節(jié)。被試作答模擬,是指虛擬的被試按被試能力真值水平(或初始能力值)進行模擬試題作答過程,根據(jù)被試能力初始值θa(θa已知)與選擇出來的試題(a,b參數(shù)已知,使用三參數(shù)模型時c參數(shù)也需要已知),計算作答概率P,再由隨機函數(shù)命令生成一個隨機數(shù)φ(φ為0至1之間),比較P與φ的大小來確定被試得分。如果P大于φ,則被試作答正確;如果P小于φ,則被試作答錯誤。

        如果是多級記分模型,以Samejima等級反應模型為例,根據(jù)試題j難度參數(shù)bj,1,bj,2…,bj,Fj與被試能力真值,計算出中等能力被試在各個等級上的作答概率Paj,1,Paj,2…,Paj,Fj,并且有Paj,1>Paj,2>…>Paj,Fj;由隨機函數(shù)產生一個隨機數(shù)φ,比較φ與Paj,1,Paj,2…,Paj,Fj的大小,如果Paj,Fj>φ,則被試得分為Fj;如果Paj,1<φ,則被試得分為0;如果Paj,1<φ<Paj,F(其中0<x<Fj),則被試得分為uaj=x。

        2.6 選題策略

        選題策略(包括試題曝光率控制和測驗交疊率控制)是計算機化自適應測驗安全的核心步驟和關鍵環(huán)節(jié),許多CAT研究都是圍繞選題策略和測驗安全控制進行CAT模擬。國內外研究者已對眾多的CAT策略及其變式進行了概括梳理。毛秀珍、辛濤(2011)將CAT選題策略劃分為提高測量準確性的選題策略(進一步分為經典項目選擇策略和現(xiàn)代項目選擇策略)和具有非統(tǒng)計約束的選題策略。[12]簡小珠、戴海崎、張敏強、彭春妹(2014)根據(jù)選題策略的基本原理與發(fā)展脈絡,將眾多的選題策略歸為五種:Fisher信息函數(shù)系列、K-LI信息函數(shù)系列、α分層系列、貝葉斯系列、b匹配系列,并給出了根據(jù)CAT測驗情境來選擇相應的選題策略的建議。[13]Chang(2014)著重論述了CAT選題策略的基本原理與發(fā)展,包括Robbins–Monro選題策略、最大Fisher信息函數(shù)、α分層方法、Kullback–Leibler信息函數(shù)這四種基本選題策略的特點、優(yōu)勢,以及各種衍生選題策略。[14]

        近年來在選題策略中的測驗交疊率控制是目前研究者進一步深入研究分析的熱點。針對被試間可能通過網絡或其他途徑分享試題而致試題被泄露,Yi,Zhang和Chang(2008)進行了模擬分析,發(fā)現(xiàn)在不同情境下α分層方法在消除試題分享、控制測驗交疊率方面都要優(yōu)于最大項目信息量方法。[15]Chen(2010)進一步將測驗交疊率細分為成對交疊率和一般交疊率,提出新測驗交疊率控制方法。由CAT模擬結果發(fā)現(xiàn),此控制方法通過控制一般測驗交疊率,可以同時控制試題曝光率水平,以及控制成對測驗交疊率和適度提高題庫利用率。[16]Chen和Lei(2010)進一步將試題在被試之間的交疊分為三種類型:試題分享(item sharing)、無序試題交疊(unordered item pooling)、有序試題交疊(ordered item pooling),并提出以上三種情況下測驗交疊率與試題曝光率之間關系的算法。CAT模擬研究結果表明,在Sympson&Hetter的試題曝光率控制方法并結合測驗交疊率控制方法下,由試題分享而導致的測驗交疊率都低于無序試題交疊、有序試題交疊情況下的測驗交疊率。[17]Zhang,Chang和Yi(2012)的CAT模擬研究結果表明,當題庫存在試題分享的情況時,與單一題庫設計相比,多層題庫設計下的試題曝光率相對較均勻,測量精度相對較高,被試分享試題在被試之間重疊的平均試題量,即測驗交疊率也相對較低。[18]Zhang(2014)提出了對被泄露的分享試題進行識別偵探的統(tǒng)計算法,由CAT模擬結果顯示,在CAT題庫測試過程中,此統(tǒng)計算法可以偵查出哪些試題可能是屬于被分享而泄露的試題。[19]

        2.7 能力估計

        CAT模擬中最主要的、常用的能力估計方法有極大似然估計方法(Maximum Likelihood Estimation,MLE)、期望能力估計方法(Expected a Posteriori Es?timation,EAPE)和極大后驗能力估計方法(Maxi?mum a Posteriori Estimation,MAPE)三種。這三種基本方法發(fā)展出不同的變式。

        Warm(1989)概括了MLE方法的多種變式,包括Biweight能力估計方法、Huber方法、邊際極大似然估計方法(Marginal Maximum Likelihood,MML)。[20]Schuster和Yuan(2011)提出MLE方法的變式Huber方法,當被試作答出現(xiàn)擾動現(xiàn)象(包括猜測現(xiàn)象和睡眠現(xiàn)象)時,Huber方法可以實現(xiàn)被試能力的穩(wěn)健性估計。[21]

        EAPE能力估計方法,除了EAPE的標準分布之外還有多種變式,包括EAPE-N(0,2)方法(先驗分布均值為0,方差為2)、EAPE-N(0,1)方法、EAPEN(0,0.5)方法、EAPE-U(-4,4)(先驗分布為均勻分布)、EAPE負偏態(tài)分布。例如Rulison和Loken(2009)使用EAPE-N(0,2)方法、EAPE-N(0,1)方法、EAPE-N(0,0.5)方法,得出在CAT測試的后期階段EAPE-N(0,2)方法的能力估計準確性要優(yōu)于EAPE-N(0,1)方法、EAPE-N(0,0.5)方法。[22]一些研究者還使用了EAPE方法的其他變式,Chen(1996)在研究中使用能力估計方法EAPE-U(-4, 4)、EAPE負偏態(tài)分布的方法。[23]

        MAPE的變式有WMAPE方法(Weighted Maxi?mum a Posteriori Estimation,WMAPE)。Sun,Tao, Chang和Shi(2012)提出了WMAPE估計方法,他們通過CAT模擬研究發(fā)現(xiàn),WMAPE估計方法比MLE方法、MAPE方法和Jeffreys方法的偏差都要小。[24]此外,還有一些不常用的能力估計方法,包括Jack?knife方法、H-estimators方法,這些方法是被試能力估計方法中的穩(wěn)健性估計方法。[25]

        2.8 測驗終止

        CAT測驗終止的標準主要有固定測驗長度和不固定測驗長度兩類。以固定測驗長度為終止標準時,當模擬作答試題數(shù)量達到規(guī)定的測驗長度便終止測驗。CAT模擬的固定測驗長度范圍一般為15~70題,多數(shù)研究在25~45題之間。當CAT終止標準為不固定測驗長度時,需要準則作為終止標準,常用的準則包括標準誤準則、最小信息量準則、貝葉斯最小方差變異準則。Choi,Grady和Dodd(2011)提出了新的測驗終止方法,即預測誤差減小方法(Predicted Standard Error Reduction,PSER),該方法以能力估計值的預測后驗方差為基礎,結合標準誤終止準則并定義誤差減小的上限參數(shù)、下限參數(shù)。[26]

        在CAT測試過程中,由標準誤判斷準則給出測試可以“終止”信號。如果此時題庫中可以選擇一道測試試題使標準誤差減小,而且減小量大于上限參數(shù),試題給予被試測試,如果答對則測驗繼續(xù);由標準誤判斷準則給出測試需要“繼續(xù)”信號,如果此時題庫中選擇用來測試的試題能使標準誤差減小,而且減小量大于下限參數(shù),試題給予被試測試,如果被試答錯則測驗終止。Choi,Grady和Dodd(2011)在研究中比較分析標準誤、最小信息量這兩個終止準則的優(yōu)缺點,并進一步提出PSER終止標準。根據(jù)CAT模擬結果,PSER有較高的題庫利用率,當測驗信息較小時,PSER終止時的測試題量比其他方法要少;當測驗信息量較大時,PSER終止時的測量精度比其他方法要高。[27]

        2.9 重復模擬

        重復“2.4測試起點”至“2.8測驗終止”這五個步驟,對每個被試進行重復模擬測試。多數(shù)研究中重復次數(shù)為30次至5 000次,也有一些研究模擬的重復次數(shù)為10 000次及以上。相對來說,模擬次數(shù)越多,由模擬結果計算出來的評價指標值則相對越穩(wěn)定,偏離性越小。因此,建議在CAT模擬研究中的重復次數(shù)應該在5 000次以上。

        2.1 0結果分析

        在CAT測驗重復模擬后,需要對模擬數(shù)據(jù)進行統(tǒng)計分析。根據(jù)CAT研究的實際需要,研究者提出了多方面的評價指標,概括起來大致有以下五個方面:①反映參數(shù)估計模擬返真性能的指標,包括偏差(Bias)、均方根誤差RMSE(或均方誤差MSE)、平均絕對值誤差(MAE)、估計值與能力真值的相關系數(shù)、覆蓋百分率(Percentage Coverage of 95%Confi?dence Intervals,PCT)等。②反映測驗的測量準確性、測驗精度方面的評價指標,包括標準誤、測驗信息量等。③反映題庫安全性方面的評價指標,包括試題最大曝光率觀測值、測驗交疊率、試題使用頻數(shù)的卡方統(tǒng)計量χ2、過度曝光試題的數(shù)量等。④反映題庫利用率方面的評價指標,包括題庫中被調用試題所占的比例、題庫中所有試題調用次數(shù)的標準差、從未調用試題的數(shù)量、曝光率低于0.02的試題量等。⑤反映測驗效率方面的評價指標,包括平均測驗長度、人均用題量等評價指標,測驗效率方面的指標主要用于變長CAT中。

        3 CAT模擬研究的發(fā)展趨勢

        CAT模擬研究呈現(xiàn)以下幾方面的發(fā)展趨勢:

        第一,CAT選題策略(包括試題曝光率控制、測驗交疊率控制)、終止方法過去十多年是CAT研究的熱點領域,今后也將依然是研究的重點領域。Barrada,Olea,Ponsoda等(2010)提出選題策略的比較方法,即在CAT模擬中以控制最大試題曝光率為自變量,分析其對測驗的精度(以RMSE為指標)和測驗安全性(以Overlap為指標)的影響,并用類似反函數(shù)曲線圖形表示測驗精度與測驗安全性之間的關系,[28]此分析方法可作為選擇CAT選題策略的一個參考依據(jù)。

        第二,CAT模擬的測驗內容更貼合測驗實際情境。在CAT測驗內容的各個方面都盡量讓CAT模擬設計貼近實際情況,例如:①在IRT模型方面:近年來的CAT模擬研究中,一些研究者使用含有反映猜測現(xiàn)象、失誤現(xiàn)象的四參數(shù)模型,[29]也有一些研究者提出基于被試能力水平、含有猜測參數(shù)的單參數(shù)模型;[30]②在題庫參數(shù)方面:模擬成適合實際被試群體分布需求的題庫或者直接使用實際題庫參數(shù);③在被試能力參數(shù)模擬方面:或者是模擬實際被試能力群體分布,或者是以代表性被試能力點來代表被試群體;④在選題策略方面:一些研究者提出結合多方面因素的模式,包括結合被試作答反應時間來進行選題,通過收集每一道試題的被試作答反應時間,從而提出結合被試作答反應時間形成半?yún)?shù)化的選題策略模式。[31]

        第三,CAT研究設計采取多因素設計,將IRT模型、題庫類型、被試能力分布、選題策略、能力估計方法、終止策略等進行多因素設計,這種多因素設計方法已成為目前CAT模擬研究的一種主要設計方式。例如:Murphy,Dodd和Vaughn(2010)使用3個選題策略×2個IRT模型×3個題組效應水平,共計18種情境;[32]在Lin(2011)的研究中,分析了4個選題策略×3個試題內容平衡和試題曝光率×3個置信區(qū)間長度×2個能力水平區(qū)域,共計72種情境;[33]在Yen,Ho,Laio等的研究中,設計了2個數(shù)學模型× 2種測驗初始階段作答情境,對于CAT模擬研究結果的平均值、標準誤,采用方差分析方法進行比較檢驗,比較不同測驗條件下是否存在主效應、交互效應。[34]

        第四,CAT模擬結果分析呈現(xiàn)一種多方面評價、多指標綜合考慮的趨勢。目前CAT研究中往往需要綜合考慮測量精度、測驗與題庫安全、題庫利用率、測驗效率等多個測驗目標,因此研究者進一步提出了反映多測驗目標約束控制方面的評價指標,計算CAT模擬測驗達到約束控制目標的所占比例,或者被試在CAT測驗中未達到約束控制目標的平均次數(shù),這些評價指標包括達到約束條件要求的測驗百分比、[35]約束條件違背的平均測驗數(shù)量,[36]被試平均違規(guī)次數(shù)[37]等。對多測驗目標約束控制和綜合評價是CAT模擬研究結果評價的一種趨勢。

        [1][29][34]Yen,Y.,Ho,R.,Laio,W.,et al.An empirical evaluation of the slip correction in the four parameter logistic models with com?puterized adaptive testing[J].Applied Psychological Measurement, 2012,36(2):75-87.

        [2][4]Sands,W.A.,Waters,B.K.,&Mcbride,J.R.Computerized adaptive testing.From inquiry to operation[M].Washington,DC: American Psychological Association,1997:50-51.

        [3]陳平,張佳慧,辛濤.在線標定技術在計算機化自適應測驗中的應用[J].心理科學進展,2013,21(10):1883-1892.

        [5]Wagner-Menghin,M.M.,&Masters,G.N.Adaptive testing for psy?chological assessment:how many items are enough to run an adap?tive testing algorithm[J].Journal of Applied Measurement,2013,14(2):106-117.

        [6]Sympson,J.B.,&Hetter,R.D.Controlling item-exposure rates in computerized adaptive testing[C]//Proceedings of the 27th annual meeting of the Military Testing Association.San Diego,CA:Navy Personnel Research and Development Center,1985:973-977.

        [7]Chang,S.W.,&Ansley,T.N.A comparative study of item exposure control methods in computerized adaptive testing[J].Journal of Edu?cational Measurement,2003,40(1):71-103.

        [8][11][22]Rulison,K.L.,&Loken,E.I’ve Fallen and I Can’t Get Up: Can High Ability Students Recover from Early Mistakes in CAT? [J].Applied Psychological Measurement,2009,33(2):83-101.

        [9]Barrada,J.R.,Julio Olea,Ponsoda,V.,et al.Test Overlap Rate and Item Exposure Rate as Indicators of Test Security in CATs[C/OL]. [2015-10-15]//Proceedings of the 2009 GMAC Conference on Com?puterized Adaptive Testing.http:www.psych.umn.edu/psylabs/CAT?Central/:2009.

        [10]陳平,丁樹良,林海菁,等.等級反應模型下計算機化自適應測驗選題策略[J].心理學報,2006,38(3):461-467.

        [12]毛秀珍,辛濤.計算機化自適應測驗選題策略述評[J].心理科學進展,2011,19(10):1552-1562.

        [13]簡小珠,戴海崎,張敏強,等.CAT選題策略分類概述[J].心理學探新,2014,34(5):446-451.

        [14]Chang H.Psychometrics behind computerized adaptive testing[J]. Psychometrika,2015,80(1):1-20.

        [15]Yi,Q.,Zhang,J.M.,&Chang,H.H.Severity of organized item theft in computerized adaptive testing:A simulation study[J].Ap?plied Psychological Measurement,2008(32):543-558.

        [16]Chen,S.A procedure for controlling general test overlap in comput?erized adaptive testing[J].Applied Psychological Measurement, 2010,34(6):393-409.

        [17]Chen,S.Y.,&Lei,P.Investigating the relationship between item exposure and test overlap:Item sharing and item pooling[J].British Journal of Mathematical and Statistical Psychology,2010(63): 205-226.

        [18]Zhang,J.,Chang,H.,&Yi,Q.Comparing single-pool and multi?ple-pool designs regarding test security in computerized testing[J]. Behavior Research Methods,2012(44):742-752.

        [19]Zhang,J.A Sequential Procedure for Detecting Compromised Items in the Item Pool of a CAT System[J].Applied Psychological Measurement,2014,38(2):105-121.

        [20][25]Warm,T.A.Weighted likelihood estimation of ability in item response theory[J].Psychometrika,1989(54):427-450.

        [21]Schuster,C.,&Yuan,K.Robust estimation of latent ability in item response models[J].Journal of Educational and Behavioral Statis?tics,2011,36(6):720-735.

        [23]Chen,S.The comparison of maximum likelihood estimation and ex?pected a posteriori in CAT using the graded response model[J].國教學報,1996(19):339-371.

        [24]Sun,S.,Tao,J.,Chang,H.,et al.Weighted Maximum-a-Posteriori Estimation in Tests Composed of Dichotomous and Polytomous Items [J].Applied Psychological Measurement,2012,36(5):399-419.

        [26][27]Choi,S.W.,Grady,M.W.,&Dodd,B.G.A New Stopping Rule for Computerized Adaptive Testing[J].Educational and Psy? chological Measurement,2011,71(1):37-53.

        [28]Barrada,J.R.,Olea,J.,Ponsoda,V.,et al.A Method for the Com?parison of Item Selection Rules in Computerized Adaptive Testing [J].Applied Psychological Measurement,2010,34(6):438-452.

        [30]Martín,E.S.,Del Pino,G.,&De Boeck,P.IRT Models for Abili?ty-Based Guessing[J].Applied Psychological Measurement,2006, 30(3):183-203.

        [31]Fan,Z.,Wang,C.,Chang H.,et al.Utilizing Response Time Distri?butions for Item Selection in CAT[J].Journal of Educational and Behavioral Statistics.2013,38(4):381-417.

        [32]Murphy,D.L.,Dodd,B.G.,&Vaughn,B.K.A Comparison of Item Selection Techniques for Testlets[J].Applied Psychological Measurement,2010,34(6):424-437.

        [33]Lin,C.Item Selection Criteria with Practical Constraints for Com?puterized Classification Testing[J].Educational and Psychological Measurement,2011,71(1):20-36.

        [35]Shin,C.D.,Chien,Y.,Way,W.D.,et al.Weighted Penalty Model for Content Balancing in CATS 2009[R/OL].[2015-10-15].http:// www.pearsonedmeasurement.com/downloads/research/Weighted% 20Penalty%20Model.pdf.

        [36]Cheng,Y.,&Chang,H.The maximum priority index method for se?verely constrained item selection in computerized adaptive testing [J].British Journal of Mathematical and Statistical Psychology, 2009(62):369-383.

        [37]潘奕嬈,丁樹良,尚志勇.改進的最大優(yōu)先級指標方法[J].江西師范大學學報(自然科學版),2011,35(2):213-215.

        The Research Paradigm and New Developments Direction of Computerized Adaptive Testing Simulation

        JIAN Xiaozhu,DAI Buyun&CHEN Ping

        Computerized Adaptive Testing(CAT)is widely used in the theory and practice of the educational tests. In this paper,the CAT research paradigm was summarized as two categories,including the actual CAT research paradigm and the CAT simulation research paradigm.The CAT simulation research in the literatures could be divided into three kinds of CAT simulation forms.To sum up all the CAT simulation research literature,the CAT simulation method comprises of ten components,including the choice of the IRT model,the simulating the item pool,the starting point of CAT,item selection strategies,test termination rules,etc.This paper also summarizes some new developments and future research direction of CAT simulation.Firstly,the item selection strategies and the test termination rules are still the research hotspot.Secondly,the test design of CAT simulation is dealt with and is close to the actual situation.The multi-factor experimental design was adopted in CAT simulation.The research results of the simulation tests are evaluated on multiple attributes in CAT simulation.

        Item Response Theory;Computerized Adaptive Testing;CAT Simulation

        G405

        A

        1005-8427(2016)01-0016-7

        本文系江西省社會科學規(guī)劃青年項目(批準號:13JY47)的研究成果之一。

        簡小珠,男,井岡山大學教師教育研究中心,副教授;江西師范大學心理學院,江西省心理與認知科學重點實驗室,博士后(江西吉安 343009)

        戴步云,男,華南師范大學心理學院,在讀博士(廣州 560631)

        陳 平,男,北京師范大學認知神經科學與學習國家重點實驗室,副教授(北京 100875)

        猜你喜歡
        策略方法能力
        消防安全四個能力
        例談未知角三角函數(shù)值的求解策略
        我說你做講策略
        大興學習之風 提升履職能力
        人大建設(2018年6期)2018-08-16 07:23:10
        高中數(shù)學復習的具體策略
        你的換位思考能力如何
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        抄能力
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        无码精品一区二区三区超碰| 疯狂做受xxxx高潮视频免费| 在线 | 一区二区三区四区| 成人片黄网站色大片免费观看app| 九九99久久精品在免费线97| 亚洲中文字幕在线第六区| 国产精品 无码专区| 国产高潮国产高潮久久久| 国产片三级视频播放| 日本二区三区在线免费| 国产精品久免费的黄网站| 久久久久亚洲av无码专区体验| 无码人妻中文中字幕一区二区 | 精品理论一区二区三区| 国产精品亚洲一区二区麻豆| 内射人妻视频国内| 国产综合激情在线亚洲第一页| 亚洲精品国产主播一区二区| 邻居美少妇张开腿让我爽了一夜| 天天爽天天爽夜夜爽毛片| 99福利在线| 久久综合老鸭窝色综合久久| 中文字幕亚洲精品一区二区三区| 情侣黄网站免费看| 思思久久96热在精品不卡| 日本av一级视频在线观看| 日韩人妻ol丝袜av一二区| 亚洲肥老太bbw中国熟女| 视频网站在线观看不卡| 国产三级视频不卡在线观看| 国产免费av片在线播放| 9久久精品视香蕉蕉| 日本av一级视频在线观看| 人人人妻人人澡人人爽欧美一区| 美女裸体自慰在线观看| 日本在线中文字幕一区| av高清在线不卡直播| 性欧美暴力猛交69hd| 蜜芽尤物原创AV在线播放| 亚洲一区精品在线中文字幕| 四虎影视永久在线观看|