簡小珠 戴步云 陳 平
CAT模擬結果的分析模式與評價指標
簡小珠 戴步云 陳 平
計算機化自適應測驗(CAT)模擬是CAT研究的主要方法之一。CAT模擬結果的評價分析內容主要包括三個方面:被試能力估計與被試能力分類分析、題庫試題使用情況分析和CAT測驗作答過程分析。CAT模擬結果的分析模式主要分為整體分析和細化分析兩種模式。本研究從測驗模擬返真性能、測驗準確性、題庫安全性、題庫使用率、測驗分類效率與準確性、多測驗目標約束控制的實現(xiàn)程度等角度概述CAT模擬結果的各類評價指標。CAT模擬結果的評價角度和評價指標需要根據(jù)CAT研究目標和測驗情境要求加以確定。
CAT;CAT模擬;分析模式;評價指標
計算機化自適應測驗(Computerized Adaptive Testing,CAT)模擬是CAT測驗技術研究的主要手段。從分析內容角度來看,CAT測驗技術研究主要從三個方面對CAT模擬結果進行分析:一是被試能力估計和被試能力分類情況;二是題庫中試題使用情況,包括試題曝光率情況、題庫使用率和試題內容平衡等;三是CAT作答過程,包括在CAT作答過程中被試能力估計值變化情況、試題曝光率情況等。從分析模式角度來看,CAT模擬結果的分析大致可以分為兩種模式:一種為整體分析模式,對所有被試在測驗上的模擬結果進行整體評價分析;另一種為細化分析模式,即依據(jù)CAT分析內容的三個角度,或者從被試能力量尺的各個水平上對被試能力水平進行細化分析,或者從試題難度量尺水平上對題庫試題利用情況、曝光情況進行細化分析,或者對CAT的每一步作答過程進行細化分析。
1.1 從被試能力水平方面分析CAT模擬結果
對被試能力進行準確估計和正確分類是CAT測驗過程中的最主要目標,因而幾乎所有CAT研究都包含對被試能力估計結果的分析。被試能力估計結果的分析模式可以分為三種:整體分析模式、細化分析模式和介于二者之間的分段分析模式。
(1)整體分析模式。使用整體分析模式時,被試群體能力往往設計為服從正態(tài)分布或均勻分布。在每一種測驗情境下,在每一評價指標上,所有被試的CAT模擬結果只使用一個數(shù)據(jù)來評價。大部分CAT研究都是使用這種整體分析模式。但是,這種分析模式只能反映被試整體的模擬返真情況,而不能反映處于不同能力水平的被試在模擬測驗結果上的差異情況。例如,Chang和Ying在比較α分層與其他選題策略時,使用整體分析模式對每種測驗情境下被試能力估計的MSE和Bias指標進行計算分析[1]。再如,Revuelta和Ponsoda在比較試題曝光率控制方法時,使用整體分析模式分析被試能力模擬返真性能[2]。
(2)細化分析模式。此種分析模式是在能力量尺上抽取各個對應不同能力被試群體的代表性能力點進行模擬結果分析。很多研究采用代表性能力真值進行CAT模擬分析。例如,Bock和Mislevy選取了從-2.8至+2.8之間各個能力水平的被試,分析期望后驗能力估計方法(EAP)在CAT能力估計中的應用特性[3]。Sympson和Hetter模擬了能力被平均分配在7個水平點(-3、-2、-1、0、1、2和3)上的7 000名被試,以分析被試能力估計情況和試題曝光率情況[4]。Chang和Ansley選取了固定在-3.2至+3.2之間的17個能力點,以估算各水平段被試的能力的條件標準誤[5]。陳平和丁樹良在-3.2至+3.2之間選取17個代表性能力點,每個點模擬100名被試[6]。Magis以0.5為間隔距離在-3至+3之間選取了13個代表性能力點[7]。
(3)分段分析模式。此模式介于前兩種模式之間,對CAT模擬結果按能力水平進行分段計算分析,要求被試群體的能力服從正態(tài)分布或均勻分布。例如Rulison和Loken計算了全體被試、前10%的高能力被試和最末10%低能力被試的Bias、RMES等[8]。Lin在分析被試群體的整體被試分類準確性時,還單獨對能力初始值大于-1的被試群體進行分析[9]。
1.2 從題庫的試題使用情況方面分析CAT模擬結果
題庫試題使用情況主要指試題曝光率和題庫使用率。題庫試題使用情況的分析模式主要有兩種。一種是整體分析模式,即對題庫中所有試題的曝光率等指標進行評價分析,例如Chang和Ying提出α分層選題策略,在各種測驗情境下對題庫中所有試題的使用情況(包括分析測驗重疊率、卡方統(tǒng)計量、曝光率低于0.2的試題數(shù)量等評價指標)進行分析評價[1]。由于整體模式使用評價指標值來評價題庫整體使用情況,往往較為籠統(tǒng),難以細化整個題庫的試題使用情況。一些研究者便采取另外一種題庫分析模式——細化分析模式。細化分析模式又分為兩種情況。
第一種情況是以題庫容量為橫坐標分析題庫使用情況。Chang和Ying以題庫試題序號為橫坐標(試題按區(qū)分度由小到大進行排序)、以試題曝光率為縱坐標描繪整個題庫的試題曝光率情況,較為全面詳盡地比較了α分層選題策略和其他幾種選題策略對試題曝光率的影響[1]。Leung,Chang和Hau在分析采用α分層與最大題目信息量相結合的選題策略對試題曝光率的影響時,也采用類似的方法[10]。van der Linden和Veldkamp在對幾種傳統(tǒng)的試題曝光率控制方法與項目合格法進行比較時,以題庫容量作為橫坐標的最大坐標,按照每一道試題曝光率由大到小依次排序形成線圖,較好地展示了試題曝光率的整體情況以及各個試題曝光率控制方法的對比情況[11]。
第二種情況是一些研究者對試題使用情況進行分段統(tǒng)計,并運用表格或圖形來更清晰地反映試題使用的細節(jié)。例如,Revuelta和Ponsoda使用表格統(tǒng)計曝光率水平分別為0、1%~10%、11%~20%直至91%~99%和100%的試題的數(shù)量,從而反映題庫在不同曝光率水平上試題使用的整體情況[12]。Thompson以題庫中的試題使用頻數(shù)作為分段標準,使用表格分段的方式來統(tǒng)計分析在各個分段內的試題數(shù)量[13]。Han在研究中也使用類似表格形式來分析題庫整體曝光率情況[14]。同時,Han以試題序號為橫坐標,以試題曝光率為縱坐標,使用圖形描繪整個題庫中試題曝光率的散點圖[14]。
1.3 從CAT測驗過程的角度來分析CAT模擬結果
大多數(shù)CAT研究往往只分析評價CAT模擬測驗結束時的被試能力估計、題庫試題選擇使用情況以及被試作答信息,而沒有關注CAT測驗過程中每一步作答的測驗信息及其變化情況。一部分研究者為了進一步探討CAT測驗過程中對試題曝光率和測驗交疊率的控制情況,分析被試能力和試題選擇的參數(shù)變化等情況,對CAT測驗過程中的每一步選題、能力估計等測驗信息均進行記錄,從而實現(xiàn)對CAT測驗過程中的各項測量指標的分析評估以及對試題曝光率和區(qū)分度的控制。對CAT測驗過程進行分析評價的代表性研究有:(1)Cheng和Liou依據(jù)測驗開始至第30題被試估計值的Bias變化情況,分析比較了幾種選題策略對被試能力估計準確性的影響[15]。(2)Barrada,Veldkamp和Olea在CAT測驗過程中的每一步都設置當前位置的最大曝光率水平和累計最大曝光率水平,提出多重曝光率的控制方法。他們以最大曝光率為縱坐標,以CAT測驗過程(從第1題到第25題)為橫坐標,繪制了CAT測驗過程中題庫試題曝光率的變化趨勢[16]。(3)Gnambs和Batinic計算了CAT測驗過程每一步驟的被試能力分類情況信息,包括被試分類準確性的數(shù)量和百分比,并由模擬結果的比較分析得出,刪節(jié)的序列概率比檢驗終止策略(SCSPRT)要優(yōu)于序列概率比檢驗(SPRT)終止策略[17]。(4)簡小珠計算被試在CAT測驗過程中每一步的能力估計值,據(jù)此計算多次模擬測驗的能力估計值的平均值,并以能力估計值為縱坐標,以測驗長度為橫坐標,較好地描繪了CAT測驗過程中被試能力估計值的變化趨勢[18]。(5)Olea等分析第5題至第40題的CAT測驗過程中,根據(jù)選題策略所選擇試題的參數(shù)變化情況,發(fā)現(xiàn)所選擇的試題a參數(shù)估計值和初始值的平均值都是隨著CAT測驗進程逐漸變小,所選擇的b參數(shù)估計值和初始值之間的差異均值隨著CAT測驗進程也逐漸變小[19]。
此外,CAT過程分析也有一種分階段分析的模式,即在CAT測驗過程中分兩個階段進行分析。Cheng、Chang和Yi在比較4種內容模塊的選題策略時,提出在第一階段采用指定內容選擇的選題方法,在第二階段則從指定內容選擇和非指定內容選擇(又稱內容彈性選擇)兩種選題方法中任選其一。結果表明,兩階段均采用內容彈性選擇的選題策略能夠實現(xiàn)較好的題庫曝光率控制和題庫使用率[20]。Cheng、Chang和Douglas等在探討分析約束加權控制的α分層策略時,使用的也是分段分析模式[21]。目前這種分階段研究相對很少,但對于那些需要實現(xiàn)多測驗目標約束控制的測驗來說,在CAT測驗過程中進行分階段的控制分析是較為理想的一種模式。
根據(jù)CAT測驗情境要求,研究者已經(jīng)從多個角度提出對CAT模擬結果進行評價的指標?;诓煌难芯磕康?,往往需要使用不同的評價角度和評價指標。本文歸納主要有6個評價角度:側重評價測驗模擬返真性能,側重分析測驗的測量準確性,側重評價分析題庫安全性,反映分析題庫的利用率,評價分析測驗分類效率、分類準確性,綜合評價測驗多目標約束控制的實現(xiàn)程度。在這6個評價角度下又分別有多個評價指標,以下分別論述。
2.1 評價模擬返真性能方面的指標
反映測驗題目參數(shù)或被試能力參數(shù)的模擬返真性能指標有:均方根誤差RMSE(或均方誤差MSE)、偏差Bias、平均絕對值誤差ABS、能力真值與能力估計值的皮爾遜積差相關系數(shù)以及標準誤等。
(1)均方根誤差(RMSE),是各個測量值離均差的平方和均值的平方根。它是對一組測量數(shù)據(jù)可靠性的估計。均方根誤差小,測量的可靠性大一些,反之,測量就不大可靠。計算公式為其中,N為被試(或測驗試題)總數(shù),M為模擬次數(shù),xjk是第j個參數(shù)(此參數(shù)可以是題目參數(shù),也可以是被試能力參數(shù))在第k次模擬時的估計值,x0j是第j個參數(shù)的模擬初始值或模擬真值,以下公式中的符號含義與此相同。RMSE是CAT模擬研究中最常用的指標,也是其他教育與心理測量模擬研究中最常用的指標。
當然在有些研究中使用均方誤差(MSE),MSE是均方根誤差的平方。Chang和van der Linden進一步提出條件Bias和條件MSE或RMSE,條件Bias和條件MSE是指針對某一被試或某一單獨被試群體而計算的Bias和RMSE,條件Bias和條件MSE與Bias和MSE對CAT模擬返真性能評價意義是一樣的[22]。簡小珠對在-3至+3區(qū)間19個代表性被試分別計算每個被試的Bias和RMSE[18]。Rulison和Loken計算成績前10%的群體和成績最后10%群體的Bias和RMSE[8]。
(2)絕對值平均偏差(ABS)是數(shù)據(jù)估計值與模擬真值的絕對平均偏差,反映估計值與真值的絕 對 距 離 的大 小 ,計 算 公式 為 ABSE=
(3)偏差(Bias)是參數(shù)估計值與模擬真值平均偏差程度的反映,表示測量估計值距離模擬真值的偏離的程度,可反映估計值是否存在整體偏差。計算公式為如果需要反映參數(shù)估計值的偏離方向是正向還是負向,就可以選擇Bias。例如,依據(jù)Rulison和Loken的研究,在三參數(shù)模型下,高能力被試答錯前兩題后,使用Bias指標分析模擬初始值和被試估計值,可以反映被試能力被低估的程度[8]。
(4)皮爾遜積差相關系數(shù),即求取題目參數(shù)或能力參數(shù)真值與估計值的皮爾遜積差相關系數(shù)ρ。由以往的研究結果發(fā)現(xiàn),皮爾遜積差相關系數(shù)ρ往往對真值與估計值相關性不靈敏,數(shù)值往往都在0.90以上,有些甚至為0.99或接近1,而且在不同的測驗情境下皮爾遜積差相關系數(shù)ρ的變化都很小[22-23]。
RMSE、ABSE與SE這些指標值越小,或Bias的絕對值越接近于零,或皮爾遜積差相關系數(shù) ρ越大,說明測驗模擬結果越準確。此5項指標中,RMSE和Bias最為常用。
2.2 評價測驗測量精度方面的指標
反映CAT模擬測驗的測量精度的指標有覆蓋百分率、測驗信息量(測量誤差)和平均試題信息量。指標值越大,說明模擬測驗的測量結果越準確。
(1)覆蓋百分率(percentage coverage of 95% confidence intervals,PCC)是指根據(jù)模擬測驗的參數(shù)估計值和測驗標準誤,計算第j個參數(shù)在第k次測驗模擬時的參數(shù)估計值xjk的95%置信區(qū)間,觀測第j個參數(shù)的模擬真值在第k次模擬時是否落入這個置信區(qū)間。如果落入此區(qū)間則αjk=1,否者αjk=0,則由N個被試(試題)M次模擬得到的能力估計值落入置信區(qū)間的次數(shù),再除以N×M,即可得到覆蓋百分率。計算公式為也就是說,覆蓋百分率可以反映能力參數(shù)初始值能否落入試題參數(shù)、能力參數(shù)估計值的置信區(qū)間的次數(shù)百分比,也是測驗參數(shù)估計穩(wěn)定性的指標。如Rulison和Loken使用覆蓋百分率衡量被試能力估計的測量精度[8]。
(2)測驗信息量(test information)。測驗信息量反映的是CAT測驗對估計被試能力所提供的信息多少,也是測量誤差大小的反映。Kingsbury和Zara在增加內容模塊設計的CAT研究中,計算了被試在CAT過程中每一步的測驗信息量[28]。
(3)測驗試題的平均信息量,即計算CAT測驗中所有被試在測驗過程中的所有試題的測驗信息量的平均值,反映了測驗效率(與測驗長度有關),也側面反映了測驗測量誤差,其計算公式為以及程小揚等在分析CAT結果時都使用了試題平均信息量指標來反映被試能力的測量精度[29-31]。Revuelta和Ponsoda在比較幾種試題曝光率的研究中,使用圖形方式呈現(xiàn)了CAT測驗過程中試題平均信息量的變化趨勢[2]。
2.3 評價測驗安全控制方面的指標
評價測驗安全和試題曝光率控制方面的指標包括觀察到的試題最大曝光率、測驗重疊率、試題使用頻數(shù)的卡方統(tǒng)計量χ2以及過度曝光試題的數(shù)量。其中,最大曝光率觀測值、測驗重疊率以及卡方統(tǒng)計量這三項指標使用較多。
最大曝光率觀測值(observed maximum exposure rates)。題目曝光率是指某一試題被調用的次數(shù)與參加測驗總人數(shù)之比。觀察題庫中試題的最大曝光率以及所有題目的曝光率是否都控制在某一預設值rmax之下,是評價測驗安全性的一個標準要求,是所有CAT曝光率控制研究中都需要考慮的指標。
測驗重疊率(test overlap rate)。測驗重疊率是指任意兩個被試間作答相同題目的比例,也是衡量測驗安全性的一個重要指標,Chen、Ankenmann和Spray推導了測驗重疊率與題目曝光率(item exposure rate)之間的關系[32]:
卡方統(tǒng)計量(χ2statistic)。Chang和Ying提出χ2統(tǒng)計量用于反映曝光率分布的觀測值與理想值之間的差距,認為題庫中題目曝光率的一致分布也是比較測驗安全控制方法的一個指標[1]。若題庫容量為N,測驗長度為L,則題庫中題目曝光率的最一致的分布為,所以 χ2統(tǒng)計量的公式表示為其中erj是題目j的曝光率。χ2統(tǒng)計量越小,說明題庫的使用越均勻,題庫中所有試題的曝光率就相對較小。如果某種選題方法得到的χ2值較低,則說明題庫中絕大多數(shù)的題目都得到充分利用。在比較不同的選題策略的曝光率結果時,可以比較它們的χ2。對兩種不同選題方法得到的χ2求F值,表示為:F方法1,方法2=χ2方法1/χ2方法2。如果F方法1,方法2<1,那么可以認為方法1在題目曝光率的平衡方面要好于方法2。
試題曝光率在CAT測驗過程中的分布均勻性。Barrada、Olea、Ponsoda和Abad以及Barrada、Veldkamp和Olea都提出在CAT測驗過程的各個位置上設置最大試題曝光率閾限值,并分析題庫試題在CAT測驗從開始到結束時各個測試位置上的試題曝光率分布[16,33]。Barrada、Veldkamp和Veldkamp以及Olea提出的多重曝光率控制方法有助于使得整個題庫試題曝光率均勻化。
過度曝光的試題數(shù)量(number of overexposed items)。當某一試題實際曝光率超過曝光率限制值0.25(0.2或0.3),那么該試題就被認為是過度曝光了。題庫中過度曝光的試題量越多,則題庫安全性就越差[34]。
2.4 評價題庫使用方面的指標
反映題庫使用情況的指標包括題庫使用率、題目使用均勻性、從未調用試題的數(shù)量或者曝光率低于0.02的試題量、高使用率試題的比例與低使用率試題的比例。
題庫使用率(utilization rate of item bank)是使用最多的評價指標。題庫使用率是指在題庫中被調用試題所占全庫容量的比例(試題使用的數(shù)量與題庫容量之比)。Chang、Qian和Ying認為在不降低測驗效率的前提下,題庫中的中、低區(qū)分度試題的使用情況是題庫使用率的衡量標準[35]。
題目使用均勻性,即計算題庫中所有題目調用次數(shù)的標準差,該指標也間接反映了題庫使用率。題目調用次數(shù)的標準差越小,則說明試題使用越均勻,也間接說明題庫使用率較高。程小揚和丁樹良使用該指標分析題庫試題利用率的均勻性[36]。
從未調用試題的數(shù)量或者曝光率低于0.02的試題數(shù)量,反映題庫中試題未被使用的情況。Lin在比較計算機化分類測驗中的選題策略時,使用從未調用試題的數(shù)量這一指標[9]。Chang和Ying使用曝光率低于0.02的試題數(shù)量這一指標比較多種選題策略,發(fā)現(xiàn)使用α分層選題策略時曝光率低于0.02的試題數(shù)量最少[1]。
高使用率試題的比例與低使用率試題的比例。高使用率試題的比例是指被超過20%的被試用于測試的試題數(shù)量占整個題庫試題量的比例。低使用率試題的比例是指被少于2%的被試用于測試的試題數(shù)量占整個題庫試題量的比例。Huebner和Li在研究中使用了高使用率試題的比例與低使用率試題的比例這兩個指標[37]。曝光率低于0.02的試題數(shù)量這一指標僅僅是反映題庫使用的絕對數(shù)量;而低使用率試題的比例這一指標反映了題庫使用的相對程度,因而要優(yōu)于曝光率低于0.02的試題數(shù)量這一指標。
此外,題庫中的中等和低等區(qū)分度的題目使用情況也用來作為評價選題策略的重要標準之一。Hau和Chang發(fā)現(xiàn)在不降低測驗效率的前提下,如果中等和低等區(qū)分度的題目被充分利用,則說明這種選題策略的效果較好,較容易避免高區(qū)分度題目過分曝光導致的測驗安全問題和測驗題目的維護與補充帶來的高成本問題[34]。
2.5 評價被試分類效率和分類準確性方面的指標
在計算機化分類測驗(或掌握性自適應測驗)中需要評價測驗對被試的分類情況,可以從兩個方面進行評價:一是被試分類效率的評價指標,包括平均測驗長度和人均用題量。Lin在計算機化分類測驗中使用了平均測驗長度指標[9]。陳平等在選題策略分析比較時使用了人均用題量指標[38]。 二是被試分類準確性的評價指標,包括被試正確分類的百分比(percentage of correct decision)和被試強制分類的百分率(forced classi fi cation rates)。Lin在計算機化分類測驗中提出并使用被試正確分類的百分比這一評價指標,用于比較各種選題策略方法的優(yōu)劣[9]。Wang和Huang在基于能力的猜測模型下,在計算機化分類測驗研究中提出并使用被試強制分類的百分率這一指標[39]。
2.6 評價多測驗目標約束控制有效性方面的指標
在多測驗目標約束控制的CAT模擬研究中,要求CAT模擬設計要同時達到多個測驗目標,此時需要三種評價指標:一是He,Diao和Hauser使用的達到約束條件要求的測驗百分比這一指標[40];二是Cheng和Chang在比較分析最大優(yōu)先指標與其他選題策略時提出并使用的約束條件違背的平均測驗數(shù)量這一指標[41];三是潘奕嬈、丁樹良和尚志勇、湯楠和丁樹良以及湯楠、丁樹良和余丹等在CAT選題策略研究中提出的被試平均違規(guī)次數(shù)這一指標[42-44]。其中,達到約束條件要求的測驗百分比是相對指標,更能在整個測驗情境中比較各種選題策略的優(yōu)劣;而約束條件違背的平均測驗數(shù)量、被試平均違規(guī)次數(shù)是絕對指標,只能局部地橫向比較各個選題策略。
2.7 其他評價指標
評價CAT的模擬結果還有一些其他指標,包括正確作答的題量、選題的耗時時長等。例如Chang和Ying使用正確作答的平均題量來分析CAT初始值位置對被試能力估計的影響[45]。在一些選題策略方法的研究中,需要考慮選題過程的耗時問題,因為CAT往往需要即時為被試選擇和呈現(xiàn)下一道試題,以進行下一步作答。例如,van der Linden報告了CAT選題時每選擇一道試題的平均耗時[46]。Passos、Berger和Tan的研究也報告了選題策略的選題時間情況[47]。
研究者還提出統(tǒng)一量綱方法,將各個評價指標綜合計算成一個指標,以作為選題策略的綜合評價指標[30,48]。但統(tǒng)一量綱方法容易受到權重系數(shù)、評價指標的實際數(shù)值的影響,需要研究者慎重確定權重系數(shù)的大小。
2.8 各個評價角度之間關系的分析
以上概括了CAT模擬結果的6個評價角度與評價指標。在不同研究中,一些評價指標會有不同的變式,或者不同研究者對某個評價指標會使用不同的名稱,但本質上是同一個指標。
6個評價角度的基本關系可以概況如下:(1)測量準確性(包括模擬返真性能指標、測驗精度指標、被試分類準確性)與測驗安全性、題庫使用、多測驗目標約束控制等其他評價角度的指標存在著此消彼長的反向關系。如果CAT測驗過程中選擇測量準確性較高的選題策略和試題曝光率控制方法,那么題庫使用率將下降,測驗安全性下降,多測驗目標約束控制的實現(xiàn)程度將下降;反之,如果要提高測驗安全性、題庫使用率和多測驗目標約束控制的實現(xiàn)程度,則需要選擇測量準確性較低的選題策略和試題曝光率控制方法;(2)題庫使用情況與測驗安全這兩個角度的指標評價性能是基本一致的:如果題庫使用情況較為全面且均勻,那么測驗安全性就相對較高;如果題庫使用情況較為不均勻,那么部分試題曝光率就相對過高,測驗安全性就相對較低。
如何選擇合適的評價角度與評價指標呢?余嘉元和汪存友提出,需要根據(jù)CAT具體測驗情境以及評價指標的敏感性來選擇適當?shù)腃AT評價指標[49]。 筆者根據(jù)以往研究概括為以下幾點:(1)如果CAT測驗是選拔性、高利害關系的入學考試、職業(yè)資格考試等,就需要提高測驗安全控制方面的要求,需要選擇測驗安全性能評價指標值較好的試題曝光率控制方法;(2)如果是低利害關系的練習性、診斷性的CAT測驗,則不需要考慮測驗安全性這方面的性能要求,主要側重于被試能力估計的準確性;(3)被試分類效率與分類準確性方面的評價指標主要用于計算機化分類測驗中評價被試分類情況;(4)多測驗目標約束控制指標(如達到約束條件要求的測驗百分比、被試平均違規(guī)次數(shù)等)主要是在需要多個測驗條件約束控制的CAT測驗中使用。
2.9 測驗準確性與測驗安全性兩個評價角度的綜合評價
具有較高的測驗準確性以及題庫試題被充分有效使用是所有CAT研究的測驗目標或評價要求。然而,許多研究表明,CAT研究結果在測驗準確性與測驗安全性上往往出現(xiàn)此消彼長的現(xiàn)象。有些選題策略(或終止策略)測量準確性較高,但試題曝光率也高(即測驗安全性低),如最大Fisher信息量方法;有些選題策略試題曝光率較低(即測驗安全性較高),而測量精度也較低,如α分層法。在測量準確性與測驗安全性之間,如何比較與選擇較好的選題策略?Barrada、Olea、Ponsoda和Abad提出一種綜合比較的新方式,以控制最大試題曝光率為自變量,分析其對測驗的精度(以RMSE為指標)和安全性(以測驗交疊率Overlap為指標)的影響,并以圖形方式呈現(xiàn)測驗準確性與測驗安全性之間的相對變化關系[50-51]。Barrada等比較了最大Fisher信息量(PFI)、似然函數(shù)加權Fisher信息量(FI-L)、似然函數(shù)KL信息函數(shù)法(KL-L)、最大項目信息量分層法(MIS-B)、過程法(progressive method,PG)和概率法(proportional method,PP)6種選題策略。結果顯示,在測驗安全性方面,6種選題策略的重疊率依次升高的順序(測驗安全性下降)是MIS-B、PP、PG、PFI、FI-L和KL-L;在測驗精度方面,依次增大的順序恰好相反。RMSE與Overlap的反函數(shù)關系圖可以為CAT選題策略的選擇提供較好的參考依據(jù),例如:當需要最大化的測驗精度,而可以容忍相對較低的測驗安全性時,可以選擇使用KL-L、FI-L、PFI及其選題策略方法;如果需要盡可能高的測驗安全性,同時又只能允許測驗精度下降一點時,可以選擇使用PP選題策略方法;如果要追求測驗安全性的最大化時,可以根據(jù)測驗的長度和題庫的大小,使用MIS-B方法。
CAT測量技術研究是近年來心理與教育測量的熱點領域之一,在教育入學考試、職業(yè)資格認證、認知診斷等領域有較廣泛的應用。本研究概述了CAT研究評價可以分為被試能力估計、題庫試題使用情況、CAT測驗過程三方面內容,并且都有整體分析、細化分析兩種分析模式。CAT模擬結果的評價分析角度包括被試能力模擬返真性能、測驗測量準確性、測驗安全性、題庫使用率、被試分類有效性與分類準確性、多測驗目標約束控制的有效性6個角度,每個角度又包含多個評價指標。對CAT模擬結果分析模式與評價指標的概括與總結可為今后CAT模擬研究的設計與評價提供參考依據(jù)。
[1]CHANG H,YING Z.α-Stratified multistage computerized adaptive testing[J].Applied Psychological Measurement,1999,23(3):211-222.
[2]REVUELTA J,PONSODA V.A comparison of item exposure control methods in computerized adaptive testing[J].Journal of Educational Measurement,1998,35(4):311-327.
[3]BOCK R J,MISLEVY R D.Adaptive EAP estimation of ability in a microcomputer environment[J].Applied Psychological Measurement,1982,6(4):431-444.
[4]SYMPSON J B,HETTER R D.Controlling item exposure rates in computerized adaptive testing[C]//Proceedings of the 27th annual meeting of the Military Testing Association.San Diego,CA:Navy Personnel Research and Development,1985.
[5]CHANG S W,ANSLEY T N.A comparative study of item exposure control methods in computerized adaptive testing[J].Journal of Educational Measurement,2003,40(1):71-103.
[6]陳平,丁樹良.允許檢查并修改答案的計算機化自適應測驗[J].心理學報,2008,40(6):737-747.
[7]MAGIS D.Efficient standard error formulas of ability estimators with dichotomous item response models[J].Psychometrika,2015,81(1): 184-200.
[8]RULISON K,LOKEN E.I’ve fallen and I can’t get up:can highability students recover from early mistakes in CAT?[J].Applied Psychological Measurement,2009,33(2):83-101.
[9]LIN C.Item selection criteria with practical constraints for computerized classification testing[J].Educational and Psychological Measurement,2011,71(1):20-36.
[10]LEUNG C,CHANG H,HAU K.Computerized adaptive testing:A mixture item selection approach for constrained situations[J].British Journal of Mathematical and Statistical Psychology,2005,58(2):239-257.
[11]VAN DER LINDEN W J,VELDKAMP B P.Conditional item-exposure control in adaptive testing using item-ineligibility probabilities [J].Journal of Educational and Behavioral Statistics,2007,32(4): 398-418.
[12]REVUELTA J,PONSODA V.A comparison of item exposure control methods in computerized adaptive testing[J].Journal of Educational Measurement,1998,35(4):311-327.
[13]THOMPSON N A.Item selection in computerized classification testing[J].Educational and Psychological Measurement,2011,71(1):114-128.
[14]HAN K T.A gradual maximum information ratio approach to item selection in computerized adaptive testing//Weiss D J.Proceedings of the 2009 GMAC Conference on Computerized Adaptive Testing, 2009.[2016-08-01].www.psych.umn.edu/psylabs/CATCentral/.
[15]CHENG P E,LIOU M.Estimation of Trait Level in Computerized Adaptive Testing[J].Applied Psychological Measurement,2000,24(3):257-265.
[16]BARRADA J R,VELDKAMP B P,OLEA J.Multiple maximum exposure rates in Computerized Adaptive Testing[J].Applied Psychological Measurement,2009,33(1):58-73.
[17]GNAMBS T,BATINIC B.Polytomous adaptive classification testing:effects of item pool size,test termination criterion,and number of cutscores[J].Educational and Psychological Measurement,2011, 71(6):1006-1022.
[18]簡小珠.IRT模型中c、γ參數(shù)對被試能力高估和低估現(xiàn)象的糾正[D].廣州:華南師范大學,2011.
[19]OLEA J,BARRADA J R,ABAD F J,et al.Computerized adaptive testing:the capitalization on chance problem[J].Spanish Jouranl of Psychology,2012,15(1):424-441.
[20]CHENG Y,CHANG H,YI Q.Two-Phase Item Selection Procedure for Flexible Content Balancing in CAT[J].Applied Psychological Measurement,2007,31(6):467-482.
[21]CHENG Y,CHANG H H,DOUGLAS J,et al.Constraint-weighted α-stratification for computerized adaptive testing with nonstatistical constraints:Balancing measurement efficiency and exposure control[J].Educational and Psychological Measurement,2009,69(1):35-49.
[22]CHANG H,VAN DER LINDEN W J.Optimal Stratification of Item Pools in α-Stratified Computerized Adaptive Testing[J].Applied Psychological Measurement,2003,27(4):262-274.
[23]HE W,RECKASE M D.Item pool design for an operational variable-length computerized adaptive test[J].Educational and Psychological Measurement,2014,74(3):473-494.
[24]WANG T,VISPOEL W P.Properties of ability estimation methods in computerized adaptive testing[J].Journal of Educational Measurement,1998,35(2):109-135.
[25]SCHUSTER C,YUAN K.Robust estimation of latent ability in item response models[J].Journal of Educational and Behavioral Statistics,2011,36(6):720-735.
[26]RA?CHE G,BLAIS J G,MAGIS D,et al.Adaptive estimators of trait level in adaptive testing:Some proposals[Z].Graduate Management Admission Council Conference on Computerized Adaptive Testing(GMAC),2007.
[27]CHEN S,ANKENMANN R D,CHANG H.A Comparison of Item Selection Rules at the Early Stages of Computerized Adaptive Testing[J].Applied Psychological Measurement,2000,24(3):241-255.
[28]KINGSBURY C G,ZARA A R.A Comparison of Procedures for Content-Sensitive Item Selection in Computerized Adaptive Tests [J].Applied Measurement in Education,1991,4(3):241-261.
[29]ZHANG J.The Impact of Variability of Item Parameter Estimators on Test Information Function[J].Journal of Educational and Behavioral Statistics,2012,37(6):737-757.
[30]程小揚,丁樹良,嚴深海,等.引入曝光因子的計算機化自適應測驗選題策略[J].心理學報,2011(43):203-212.
[31]程小揚,丁樹良,巫華芳,等.多級評分模型下的題庫結構對CAT的影響分析[J].心理學探新,2014(34):452-456.
[32]CHEN S,ANKENMANN R D,SPRAY J A.The Relationship between Item Exposure and Test Overlap in Computerized Adaptive Testing[J].Journal of Educational Measurement,2003,40(2):129-145.
[33]BARRADA J R,OLEA J,PONSODA V,et al.Test Overlap Rate and Item Exposure Rate as Indicators of Test Security in CATs[C]// Weiss D J.Proceedings of the 2009 GMAC Conference on Computerized Adaptive Testing,2009.[2016-08-01].www.psych.umn. edu/psylabs/CATCentral/.
[34]HAU K,CHANG H.Item selection in computerized adaptive testing:should more discriminating items be used first?[J].Journal of Educational Measurement,2001,38(3):249-266.
[35]CHANG H,QIAN J,YING Z.α-Stratified multistage computerized adaptive testing with b blocking[J].Applied Psychological Measurement,2001,25(4):333-341.
[36]程小揚,丁樹良.子題庫題量不平衡的按α分層選題策略[J].江西師范大學學報(自然科學版),2011,35(1):5-9.
[37]HUEBNER A,LI Z.A stochastic method for balancing item exposure rates in computerized classification tests[J].Applied Psychological Measurement,2012,36(3):181-188.
[38]陳平,丁樹良,林海菁,等.等級反應模型下計算機化自適應測驗選題策略[J].心理學報,2006,38(3):461-467.
[39]WANG W,HUANG S.Response model with ability-based guessing computerized classification testing under the one-parameter logistic[J].Educational and Psychological Measurement,2011,71(6):925-941.
[40]HE W,DIAO Q,HAUSER C.A Comparison of Four Item-Selection Methods for Severely Constrained CATs[J].Online Submission,2014,74(4):27.
[41]CHENG Y,CHANG H.The maximum priority index method for severely constrained item selection in computerized adaptive testing[J]. British Journal of Mathematical and Statistical Psychology,2009,62(2):369-383.
[42]潘奕嬈,丁樹良,尚志勇.改進的最大優(yōu)先級指標方法[J].江西師范大學學報(自然科學版),2011,35(2):213-215.
[43]湯楠,丁樹良.一階段選題的最大優(yōu)先級指標的修正[J].江西師范大學學報(自然科學版),2012,36(5):452-455.
[44]湯楠,丁樹良,余丹.結合優(yōu)先級指標和曝光因子的多級評分選題策略[J].江西師范大學學報(自然科學版),2011,35(6):646-650.
[45]CHANG H H,YING Z.To weight or not to weight?Balancing influence of initial items in adaptive testing[J].Psychometrika,2008,73(3):441-450.
[46]VAN DER LINDEN W J.Bayesian item selection criteria for adaptive testing[J].Psychometrika,1998,63(2):201-216.
[47]PASSOS V L,BERGER M P F,TAN F E S.The D-optimality item selection criterion in the early stage of cat:a study with the Graded Response Model[J].Journal of Educational and Behavioral Statistics,2008,33(1):88-110.
[48]戴海琦,陳德枝,丁樹良,等.多級評分題計算機自適應測驗選題策略比較[J].心理學報,2006,38(5):778-783.
[49]余嘉元,汪存友.項目反應理論參數(shù)估計研究中的蒙特卡羅方法[J].南京師大學報(社會科學版),2007(1):87-91.
[50]BARRADA J R,OLEA J,PONSODA V,et al.Incorporating randomness in the Fisher information for improving item-exposure control in CATs[J].British Journal of Mathematical and Statistical Psychology,2008,61(2):493-513.
[51]BARRADA J R,OLEA J,PONSODA V,et al.A Method for the Comparison of Item Selection Rules in Computerized Adaptive Testing[J].Applied Psychological Measurement,2010,34(6):438-452.
Analysis Models and Evaluation Indexes of Computerized Adaptive Testing Simulation Results
JIAN Xiaozhu,DAI Buyun&CHEN Ping
Computerized Adaptive Testing(CAT)simulation is one of the main methods of CAT research. Evaluation and analysis of CAT simulation results mainly includes three aspects:estimation and classification analysis of examinee ability,analysis of the utilization of the test items from the item bank and analysis of the CAT response process.Analysis of CAT simulation results mainly involves a holistic approach and a fine-grained approach.This study provides an overview of the various evaluation indexes involved in evaluating CAT simulation results from the perspectives of simulation recovery,measurement accuracy,item security,item utilization rates, examinee classification efficiency and accuracy,and control of multiple test objectives.The perspectives and evaluation indexes required for a CAT simulation study have yet to depend on the purpose and context of that study.
Computerized Adaptive Testing;CAT Simulation;Analysis Model;Evaluation Index
G405
A
1005-8427(2016)12-0019-10
(責任編輯:陳寧)
本文系江西省高校人文社會科學研究青年項目“計算機化自適應測驗(CAT)測量技術與評價分析”(項目編號:XL1515)的研究成果之一。
簡小珠,男,井岡山大學教師教育中心,副教授,江西師范大學心理學院,江西省心理與認知科學重點實驗室,博士后(江西吉安 343009)
戴步云,男,江西師范大學心理學院,江西省心理與認知科學重點實驗室,博士后(南昌 330022)
陳平(通訊作者),男,北京師范大學中國基礎教育質量監(jiān)測協(xié)同創(chuàng)新中心,副教授(北京 100875)