CAT模擬結(jié)果的分析模式與評(píng)價(jià)指標(biāo)

2016-06-05 14:14:54簡(jiǎn)小珠戴步云

中國(guó)考試 2016年12期

簡(jiǎn)小珠戴步云陳平

簡(jiǎn)小珠戴步云陳平

計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)（CAT）模擬是CAT研究的主要方法之一。CAT模擬結(jié)果的評(píng)價(jià)分析內(nèi)容主要包括三個(gè)方面：被試能力估計(jì)與被試能力分類(lèi)分析、題庫(kù)試題使用情況分析和CAT測(cè)驗(yàn)作答過(guò)程分析。CAT模擬結(jié)果的分析模式主要分為整體分析和細(xì)化分析兩種模式。本研究從測(cè)驗(yàn)?zāi)M返真性能、測(cè)驗(yàn)準(zhǔn)確性、題庫(kù)安全性、題庫(kù)使用率、測(cè)驗(yàn)分類(lèi)效率與準(zhǔn)確性、多測(cè)驗(yàn)?zāi)繕?biāo)約束控制的實(shí)現(xiàn)程度等角度概述CAT模擬結(jié)果的各類(lèi)評(píng)價(jià)指標(biāo)。CAT模擬結(jié)果的評(píng)價(jià)角度和評(píng)價(jià)指標(biāo)需要根據(jù)CAT研究目標(biāo)和測(cè)驗(yàn)情境要求加以確定。

CAT；CAT模擬；分析模式；評(píng)價(jià)指標(biāo)

1 CAT模擬結(jié)果的分析模式

計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)（Computerized Adaptive Testing,CAT）模擬是CAT測(cè)驗(yàn)技術(shù)研究的主要手段。從分析內(nèi)容角度來(lái)看，CAT測(cè)驗(yàn)技術(shù)研究主要從三個(gè)方面對(duì)CAT模擬結(jié)果進(jìn)行分析：一是被試能力估計(jì)和被試能力分類(lèi)情況；二是題庫(kù)中試題使用情況，包括試題曝光率情況、題庫(kù)使用率和試題內(nèi)容平衡等；三是CAT作答過(guò)程，包括在CAT作答過(guò)程中被試能力估計(jì)值變化情況、試題曝光率情況等。從分析模式角度來(lái)看，CAT模擬結(jié)果的分析大致可以分為兩種模式：一種為整體分析模式，對(duì)所有被試在測(cè)驗(yàn)上的模擬結(jié)果進(jìn)行整體評(píng)價(jià)分析；另一種為細(xì)化分析模式，即依據(jù)CAT分析內(nèi)容的三個(gè)角度，或者從被試能力量尺的各個(gè)水平上對(duì)被試能力水平進(jìn)行細(xì)化分析，或者從試題難度量尺水平上對(duì)題庫(kù)試題利用情況、曝光情況進(jìn)行細(xì)化分析，或者對(duì)CAT的每一步作答過(guò)程進(jìn)行細(xì)化分析。

1.1 從被試能力水平方面分析CAT模擬結(jié)果

對(duì)被試能力進(jìn)行準(zhǔn)確估計(jì)和正確分類(lèi)是CAT測(cè)驗(yàn)過(guò)程中的最主要目標(biāo)，因而幾乎所有CAT研究都包含對(duì)被試能力估計(jì)結(jié)果的分析。被試能力估計(jì)結(jié)果的分析模式可以分為三種：整體分析模式、細(xì)化分析模式和介于二者之間的分段分析模式。

（1）整體分析模式。使用整體分析模式時(shí)，被試群體能力往往設(shè)計(jì)為服從正態(tài)分布或均勻分布。在每一種測(cè)驗(yàn)情境下，在每一評(píng)價(jià)指標(biāo)上，所有被試的CAT模擬結(jié)果只使用一個(gè)數(shù)據(jù)來(lái)評(píng)價(jià)。大部分CAT研究都是使用這種整體分析模式。但是，這種分析模式只能反映被試整體的模擬返真情況，而不能反映處于不同能力水平的被試在模擬測(cè)驗(yàn)結(jié)果上的差異情況。例如，Chang和Ying在比較α分層與其他選題策略時(shí)，使用整體分析模式對(duì)每種測(cè)驗(yàn)情境下被試能力估計(jì)的MSE和Bias指標(biāo)進(jìn)行計(jì)算分析[1]。再如，Revuelta和Ponsoda在比較試題曝光率控制方法時(shí)，使用整體分析模式分析被試能力模擬返真性能[2]。

（2）細(xì)化分析模式。此種分析模式是在能力量尺上抽取各個(gè)對(duì)應(yīng)不同能力被試群體的代表性能力點(diǎn)進(jìn)行模擬結(jié)果分析。很多研究采用代表性能力真值進(jìn)行CAT模擬分析。例如，Bock和Mislevy選取了從-2.8至+2.8之間各個(gè)能力水平的被試，分析期望后驗(yàn)?zāi)芰烙?jì)方法（EAP）在CAT能力估計(jì)中的應(yīng)用特性[3]。Sympson和Hetter模擬了能力被平均分配在7個(gè)水平點(diǎn)（-3、-2、-1、0、1、2和3）上的7 000名被試，以分析被試能力估計(jì)情況和試題曝光率情況[4]。Chang和Ansley選取了固定在-3.2至＋3.2之間的17個(gè)能力點(diǎn)，以估算各水平段被試的能力的條件標(biāo)準(zhǔn)誤[5]。陳平和丁樹(shù)良在-3.2至＋3.2之間選取17個(gè)代表性能力點(diǎn)，每個(gè)點(diǎn)模擬100名被試[6]。Magis以0.5為間隔距離在-3至+3之間選取了13個(gè)代表性能力點(diǎn)[7]。

（3）分段分析模式。此模式介于前兩種模式之間，對(duì)CAT模擬結(jié)果按能力水平進(jìn)行分段計(jì)算分析，要求被試群體的能力服從正態(tài)分布或均勻分布。例如Rulison和Loken計(jì)算了全體被試、前10%的高能力被試和最末10%低能力被試的Bias、RMES等[8]。Lin在分析被試群體的整體被試分類(lèi)準(zhǔn)確性時(shí)，還單獨(dú)對(duì)能力初始值大于-1的被試群體進(jìn)行分析[9]。

1.2 從題庫(kù)的試題使用情況方面分析CAT模擬結(jié)果

題庫(kù)試題使用情況主要指試題曝光率和題庫(kù)使用率。題庫(kù)試題使用情況的分析模式主要有兩種。一種是整體分析模式，即對(duì)題庫(kù)中所有試題的曝光率等指標(biāo)進(jìn)行評(píng)價(jià)分析，例如Chang和Ying提出α分層選題策略，在各種測(cè)驗(yàn)情境下對(duì)題庫(kù)中所有試題的使用情況（包括分析測(cè)驗(yàn)重疊率、卡方統(tǒng)計(jì)量、曝光率低于0.2的試題數(shù)量等評(píng)價(jià)指標(biāo)）進(jìn)行分析評(píng)價(jià)[1]。由于整體模式使用評(píng)價(jià)指標(biāo)值來(lái)評(píng)價(jià)題庫(kù)整體使用情況，往往較為籠統(tǒng)，難以細(xì)化整個(gè)題庫(kù)的試題使用情況。一些研究者便采取另外一種題庫(kù)分析模式——細(xì)化分析模式。細(xì)化分析模式又分為兩種情況。

第一種情況是以題庫(kù)容量為橫坐標(biāo)分析題庫(kù)使用情況。Chang和Ying以題庫(kù)試題序號(hào)為橫坐標(biāo)（試題按區(qū)分度由小到大進(jìn)行排序）、以試題曝光率為縱坐標(biāo)描繪整個(gè)題庫(kù)的試題曝光率情況，較為全面詳盡地比較了α分層選題策略和其他幾種選題策略對(duì)試題曝光率的影響[1]。Leung，Chang和Hau在分析采用α分層與最大題目信息量相結(jié)合的選題策略對(duì)試題曝光率的影響時(shí)，也采用類(lèi)似的方法[10]。van der Linden和Veldkamp在對(duì)幾種傳統(tǒng)的試題曝光率控制方法與項(xiàng)目合格法進(jìn)行比較時(shí)，以題庫(kù)容量作為橫坐標(biāo)的最大坐標(biāo)，按照每一道試題曝光率由大到小依次排序形成線圖，較好地展示了試題曝光率的整體情況以及各個(gè)試題曝光率控制方法的對(duì)比情況[11]。

第二種情況是一些研究者對(duì)試題使用情況進(jìn)行分段統(tǒng)計(jì)，并運(yùn)用表格或圖形來(lái)更清晰地反映試題使用的細(xì)節(jié)。例如，Revuelta和Ponsoda使用表格統(tǒng)計(jì)曝光率水平分別為0、1%～10%、11%～20%直至91%～99%和100%的試題的數(shù)量，從而反映題庫(kù)在不同曝光率水平上試題使用的整體情況[12]。Thompson以題庫(kù)中的試題使用頻數(shù)作為分段標(biāo)準(zhǔn)，使用表格分段的方式來(lái)統(tǒng)計(jì)分析在各個(gè)分段內(nèi)的試題數(shù)量[13]。Han在研究中也使用類(lèi)似表格形式來(lái)分析題庫(kù)整體曝光率情況[14]。同時(shí)，Han以試題序號(hào)為橫坐標(biāo)，以試題曝光率為縱坐標(biāo)，使用圖形描繪整個(gè)題庫(kù)中試題曝光率的散點(diǎn)圖[14]。

1.3 從CAT測(cè)驗(yàn)過(guò)程的角度來(lái)分析CAT模擬結(jié)果

大多數(shù)CAT研究往往只分析評(píng)價(jià)CAT模擬測(cè)驗(yàn)結(jié)束時(shí)的被試能力估計(jì)、題庫(kù)試題選擇使用情況以及被試作答信息，而沒(méi)有關(guān)注CAT測(cè)驗(yàn)過(guò)程中每一步作答的測(cè)驗(yàn)信息及其變化情況。一部分研究者為了進(jìn)一步探討CAT測(cè)驗(yàn)過(guò)程中對(duì)試題曝光率和測(cè)驗(yàn)交疊率的控制情況，分析被試能力和試題選擇的參數(shù)變化等情況，對(duì)CAT測(cè)驗(yàn)過(guò)程中的每一步選題、能力估計(jì)等測(cè)驗(yàn)信息均進(jìn)行記錄，從而實(shí)現(xiàn)對(duì)CAT測(cè)驗(yàn)過(guò)程中的各項(xiàng)測(cè)量指標(biāo)的分析評(píng)估以及對(duì)試題曝光率和區(qū)分度的控制。對(duì)CAT測(cè)驗(yàn)過(guò)程進(jìn)行分析評(píng)價(jià)的代表性研究有：（1）Cheng和Liou依據(jù)測(cè)驗(yàn)開(kāi)始至第30題被試估計(jì)值的Bias變化情況，分析比較了幾種選題策略對(duì)被試能力估計(jì)準(zhǔn)確性的影響[15]。（2）Barrada,Veldkamp和Olea在CAT測(cè)驗(yàn)過(guò)程中的每一步都設(shè)置當(dāng)前位置的最大曝光率水平和累計(jì)最大曝光率水平，提出多重曝光率的控制方法。他們以最大曝光率為縱坐標(biāo)，以CAT測(cè)驗(yàn)過(guò)程（從第1題到第25題）為橫坐標(biāo)，繪制了CAT測(cè)驗(yàn)過(guò)程中題庫(kù)試題曝光率的變化趨勢(shì)[16]。（3）Gnambs和Batinic計(jì)算了CAT測(cè)驗(yàn)過(guò)程每一步驟的被試能力分類(lèi)情況信息，包括被試分類(lèi)準(zhǔn)確性的數(shù)量和百分比，并由模擬結(jié)果的比較分析得出，刪節(jié)的序列概率比檢驗(yàn)終止策略（SCSPRT）要優(yōu)于序列概率比檢驗(yàn)（SPRT）終止策略[17]。（4）簡(jiǎn)小珠計(jì)算被試在CAT測(cè)驗(yàn)過(guò)程中每一步的能力估計(jì)值，據(jù)此計(jì)算多次模擬測(cè)驗(yàn)的能力估計(jì)值的平均值，并以能力估計(jì)值為縱坐標(biāo)，以測(cè)驗(yàn)長(zhǎng)度為橫坐標(biāo)，較好地描繪了CAT測(cè)驗(yàn)過(guò)程中被試能力估計(jì)值的變化趨勢(shì)[18]。（5）Olea等分析第5題至第40題的CAT測(cè)驗(yàn)過(guò)程中，根據(jù)選題策略所選擇試題的參數(shù)變化情況，發(fā)現(xiàn)所選擇的試題a參數(shù)估計(jì)值和初始值的平均值都是隨著CAT測(cè)驗(yàn)進(jìn)程逐漸變小，所選擇的b參數(shù)估計(jì)值和初始值之間的差異均值隨著CAT測(cè)驗(yàn)進(jìn)程也逐漸變小[19]。

此外，CAT過(guò)程分析也有一種分階段分析的模式，即在CAT測(cè)驗(yàn)過(guò)程中分兩個(gè)階段進(jìn)行分析。Cheng、Chang和Yi在比較4種內(nèi)容模塊的選題策略時(shí)，提出在第一階段采用指定內(nèi)容選擇的選題方法，在第二階段則從指定內(nèi)容選擇和非指定內(nèi)容選擇（又稱(chēng)內(nèi)容彈性選擇）兩種選題方法中任選其一。結(jié)果表明，兩階段均采用內(nèi)容彈性選擇的選題策略能夠?qū)崿F(xiàn)較好的題庫(kù)曝光率控制和題庫(kù)使用率[20]。Cheng、Chang和Douglas等在探討分析約束加權(quán)控制的α分層策略時(shí)，使用的也是分段分析模式[21]。目前這種分階段研究相對(duì)很少，但對(duì)于那些需要實(shí)現(xiàn)多測(cè)驗(yàn)?zāi)繕?biāo)約束控制的測(cè)驗(yàn)來(lái)說(shuō)，在CAT測(cè)驗(yàn)過(guò)程中進(jìn)行分階段的控制分析是較為理想的一種模式。

2 CAT模擬結(jié)果的評(píng)價(jià)指標(biāo)

根據(jù)CAT測(cè)驗(yàn)情境要求，研究者已經(jīng)從多個(gè)角度提出對(duì)CAT模擬結(jié)果進(jìn)行評(píng)價(jià)的指標(biāo)?；诓煌难芯磕康模枰褂貌煌脑u(píng)價(jià)角度和評(píng)價(jià)指標(biāo)。本文歸納主要有6個(gè)評(píng)價(jià)角度：側(cè)重評(píng)價(jià)測(cè)驗(yàn)?zāi)M返真性能，側(cè)重分析測(cè)驗(yàn)的測(cè)量準(zhǔn)確性，側(cè)重評(píng)價(jià)分析題庫(kù)安全性，反映分析題庫(kù)的利用率，評(píng)價(jià)分析測(cè)驗(yàn)分類(lèi)效率、分類(lèi)準(zhǔn)確性，綜合評(píng)價(jià)測(cè)驗(yàn)多目標(biāo)約束控制的實(shí)現(xiàn)程度。在這6個(gè)評(píng)價(jià)角度下又分別有多個(gè)評(píng)價(jià)指標(biāo)，以下分別論述。

2.1 評(píng)價(jià)模擬返真性能方面的指標(biāo)

反映測(cè)驗(yàn)題目參數(shù)或被試能力參數(shù)的模擬返真性能指標(biāo)有：均方根誤差RMSE（或均方誤差MSE）、偏差Bias、平均絕對(duì)值誤差A(yù)BS、能力真值與能力估計(jì)值的皮爾遜積差相關(guān)系數(shù)以及標(biāo)準(zhǔn)誤等。

（1）均方根誤差（RMSE），是各個(gè)測(cè)量值離均差的平方和均值的平方根。它是對(duì)一組測(cè)量數(shù)據(jù)可靠性的估計(jì)。均方根誤差小，測(cè)量的可靠性大一些，反之，測(cè)量就不大可靠。計(jì)算公式為其中，N為被試（或測(cè)驗(yàn)試題）總數(shù)，M為模擬次數(shù)，xjk是第j個(gè)參數(shù)（此參數(shù)可以是題目參數(shù)，也可以是被試能力參數(shù)）在第k次模擬時(shí)的估計(jì)值，x0j是第j個(gè)參數(shù)的模擬初始值或模擬真值，以下公式中的符號(hào)含義與此相同。RMSE是CAT模擬研究中最常用的指標(biāo)，也是其他教育與心理測(cè)量模擬研究中最常用的指標(biāo)。

當(dāng)然在有些研究中使用均方誤差（MSE），MSE是均方根誤差的平方。Chang和van der Linden進(jìn)一步提出條件Bias和條件MSE或RMSE，條件Bias和條件MSE是指針對(duì)某一被試或某一單獨(dú)被試群體而計(jì)算的Bias和RMSE，條件Bias和條件MSE與Bias和MSE對(duì)CAT模擬返真性能評(píng)價(jià)意義是一樣的[22]。簡(jiǎn)小珠對(duì)在-3至+3區(qū)間19個(gè)代表性被試分別計(jì)算每個(gè)被試的Bias和RMSE[18]。Rulison和Loken計(jì)算成績(jī)前10%的群體和成績(jī)最后10%群體的Bias和RMSE[8]。

（2）絕對(duì)值平均偏差（ABS）是數(shù)據(jù)估計(jì)值與模擬真值的絕對(duì)平均偏差，反映估計(jì)值與真值的絕對(duì) 距離的大小，計(jì) 算公式為 ABSE=

（3）偏差（Bias）是參數(shù)估計(jì)值與模擬真值平均偏差程度的反映，表示測(cè)量估計(jì)值距離模擬真值的偏離的程度，可反映估計(jì)值是否存在整體偏差。計(jì)算公式為如果需要反映參數(shù)估計(jì)值的偏離方向是正向還是負(fù)向，就可以選擇Bias。例如，依據(jù)Rulison和Loken的研究，在三參數(shù)模型下，高能力被試答錯(cuò)前兩題后，使用Bias指標(biāo)分析模擬初始值和被試估計(jì)值，可以反映被試能力被低估的程度[8]。

（4）皮爾遜積差相關(guān)系數(shù)，即求取題目參數(shù)或能力參數(shù)真值與估計(jì)值的皮爾遜積差相關(guān)系數(shù)ρ。由以往的研究結(jié)果發(fā)現(xiàn)，皮爾遜積差相關(guān)系數(shù)ρ往往對(duì)真值與估計(jì)值相關(guān)性不靈敏，數(shù)值往往都在0.90以上，有些甚至為0.99或接近1，而且在不同的測(cè)驗(yàn)情境下皮爾遜積差相關(guān)系數(shù)ρ的變化都很小[22-23]。

RMSE、ABSE與SE這些指標(biāo)值越小，或Bias的絕對(duì)值越接近于零，或皮爾遜積差相關(guān)系數(shù) ρ越大，說(shuō)明測(cè)驗(yàn)?zāi)M結(jié)果越準(zhǔn)確。此5項(xiàng)指標(biāo)中，RMSE和Bias最為常用。

2.2 評(píng)價(jià)測(cè)驗(yàn)測(cè)量精度方面的指標(biāo)

反映CAT模擬測(cè)驗(yàn)的測(cè)量精度的指標(biāo)有覆蓋百分率、測(cè)驗(yàn)信息量（測(cè)量誤差）和平均試題信息量。指標(biāo)值越大，說(shuō)明模擬測(cè)驗(yàn)的測(cè)量結(jié)果越準(zhǔn)確。

（1）覆蓋百分率（percentage coverage of 95% confidence intervals，PCC）是指根據(jù)模擬測(cè)驗(yàn)的參數(shù)估計(jì)值和測(cè)驗(yàn)標(biāo)準(zhǔn)誤，計(jì)算第j個(gè)參數(shù)在第k次測(cè)驗(yàn)?zāi)M時(shí)的參數(shù)估計(jì)值xjk的95%置信區(qū)間，觀測(cè)第j個(gè)參數(shù)的模擬真值在第k次模擬時(shí)是否落入這個(gè)置信區(qū)間。如果落入此區(qū)間則αjk=1，否者αjk=0，則由N個(gè)被試（試題）M次模擬得到的能力估計(jì)值落入置信區(qū)間的次數(shù)，再除以N×M，即可得到覆蓋百分率。計(jì)算公式為也就是說(shuō)，覆蓋百分率可以反映能力參數(shù)初始值能否落入試題參數(shù)、能力參數(shù)估計(jì)值的置信區(qū)間的次數(shù)百分比，也是測(cè)驗(yàn)參數(shù)估計(jì)穩(wěn)定性的指標(biāo)。如Rulison和Loken使用覆蓋百分率衡量被試能力估計(jì)的測(cè)量精度[8]。

（2）測(cè)驗(yàn)信息量（test information）。測(cè)驗(yàn)信息量反映的是CAT測(cè)驗(yàn)對(duì)估計(jì)被試能力所提供的信息多少，也是測(cè)量誤差大小的反映。Kingsbury和Zara在增加內(nèi)容模塊設(shè)計(jì)的CAT研究中，計(jì)算了被試在CAT過(guò)程中每一步的測(cè)驗(yàn)信息量[28]。

（3）測(cè)驗(yàn)試題的平均信息量，即計(jì)算CAT測(cè)驗(yàn)中所有被試在測(cè)驗(yàn)過(guò)程中的所有試題的測(cè)驗(yàn)信息量的平均值，反映了測(cè)驗(yàn)效率（與測(cè)驗(yàn)長(zhǎng)度有關(guān)），也側(cè)面反映了測(cè)驗(yàn)測(cè)量誤差，其計(jì)算公式為以及程小揚(yáng)等在分析CAT結(jié)果時(shí)都使用了試題平均信息量指標(biāo)來(lái)反映被試能力的測(cè)量精度[29-31]。Revuelta和Ponsoda在比較幾種試題曝光率的研究中，使用圖形方式呈現(xiàn)了CAT測(cè)驗(yàn)過(guò)程中試題平均信息量的變化趨勢(shì)[2]。

2.3 評(píng)價(jià)測(cè)驗(yàn)安全控制方面的指標(biāo)

評(píng)價(jià)測(cè)驗(yàn)安全和試題曝光率控制方面的指標(biāo)包括觀察到的試題最大曝光率、測(cè)驗(yàn)重疊率、試題使用頻數(shù)的卡方統(tǒng)計(jì)量χ2以及過(guò)度曝光試題的數(shù)量。其中，最大曝光率觀測(cè)值、測(cè)驗(yàn)重疊率以及卡方統(tǒng)計(jì)量這三項(xiàng)指標(biāo)使用較多。

最大曝光率觀測(cè)值（observed maximum exposure rates）。題目曝光率是指某一試題被調(diào)用的次數(shù)與參加測(cè)驗(yàn)總?cè)藬?shù)之比。觀察題庫(kù)中試題的最大曝光率以及所有題目的曝光率是否都控制在某一預(yù)設(shè)值rmax之下，是評(píng)價(jià)測(cè)驗(yàn)安全性的一個(gè)標(biāo)準(zhǔn)要求，是所有CAT曝光率控制研究中都需要考慮的指標(biāo)。

測(cè)驗(yàn)重疊率（test overlap rate）。測(cè)驗(yàn)重疊率是指任意兩個(gè)被試間作答相同題目的比例，也是衡量測(cè)驗(yàn)安全性的一個(gè)重要指標(biāo)，Chen、Ankenmann和Spray推導(dǎo)了測(cè)驗(yàn)重疊率與題目曝光率（item exposure rate）之間的關(guān)系[32]：

卡方統(tǒng)計(jì)量（χ2statistic）。Chang和Ying提出χ2統(tǒng)計(jì)量用于反映曝光率分布的觀測(cè)值與理想值之間的差距，認(rèn)為題庫(kù)中題目曝光率的一致分布也是比較測(cè)驗(yàn)安全控制方法的一個(gè)指標(biāo)[1]。若題庫(kù)容量為N，測(cè)驗(yàn)長(zhǎng)度為L(zhǎng)，則題庫(kù)中題目曝光率的最一致的分布為，所以 χ2統(tǒng)計(jì)量的公式表示為其中erj是題目j的曝光率。χ2統(tǒng)計(jì)量越小，說(shuō)明題庫(kù)的使用越均勻，題庫(kù)中所有試題的曝光率就相對(duì)較小。如果某種選題方法得到的χ2值較低，則說(shuō)明題庫(kù)中絕大多數(shù)的題目都得到充分利用。在比較不同的選題策略的曝光率結(jié)果時(shí)，可以比較它們的χ2。對(duì)兩種不同選題方法得到的χ2求F值，表示為：F方法1，方法2=χ2方法1/χ2方法2。如果F方法1，方法2＜1，那么可以認(rèn)為方法1在題目曝光率的平衡方面要好于方法2。

試題曝光率在CAT測(cè)驗(yàn)過(guò)程中的分布均勻性。Barrada、Olea、Ponsoda和Abad以及Barrada、Veldkamp和Olea都提出在CAT測(cè)驗(yàn)過(guò)程的各個(gè)位置上設(shè)置最大試題曝光率閾限值，并分析題庫(kù)試題在CAT測(cè)驗(yàn)從開(kāi)始到結(jié)束時(shí)各個(gè)測(cè)試位置上的試題曝光率分布[16,33]。Barrada、Veldkamp和Veldkamp以及Olea提出的多重曝光率控制方法有助于使得整個(gè)題庫(kù)試題曝光率均勻化。

過(guò)度曝光的試題數(shù)量（number of overexposed items）。當(dāng)某一試題實(shí)際曝光率超過(guò)曝光率限制值0.25（0.2或0.3），那么該試題就被認(rèn)為是過(guò)度曝光了。題庫(kù)中過(guò)度曝光的試題量越多，則題庫(kù)安全性就越差[34]。

2.4 評(píng)價(jià)題庫(kù)使用方面的指標(biāo)

反映題庫(kù)使用情況的指標(biāo)包括題庫(kù)使用率、題目使用均勻性、從未調(diào)用試題的數(shù)量或者曝光率低于0.02的試題量、高使用率試題的比例與低使用率試題的比例。

題庫(kù)使用率（utilization rate of item bank）是使用最多的評(píng)價(jià)指標(biāo)。題庫(kù)使用率是指在題庫(kù)中被調(diào)用試題所占全庫(kù)容量的比例（試題使用的數(shù)量與題庫(kù)容量之比）。Chang、Qian和Ying認(rèn)為在不降低測(cè)驗(yàn)效率的前提下，題庫(kù)中的中、低區(qū)分度試題的使用情況是題庫(kù)使用率的衡量標(biāo)準(zhǔn)[35]。

題目使用均勻性，即計(jì)算題庫(kù)中所有題目調(diào)用次數(shù)的標(biāo)準(zhǔn)差，該指標(biāo)也間接反映了題庫(kù)使用率。題目調(diào)用次數(shù)的標(biāo)準(zhǔn)差越小，則說(shuō)明試題使用越均勻，也間接說(shuō)明題庫(kù)使用率較高。程小揚(yáng)和丁樹(shù)良使用該指標(biāo)分析題庫(kù)試題利用率的均勻性[36]。

從未調(diào)用試題的數(shù)量或者曝光率低于0.02的試題數(shù)量，反映題庫(kù)中試題未被使用的情況。Lin在比較計(jì)算機(jī)化分類(lèi)測(cè)驗(yàn)中的選題策略時(shí)，使用從未調(diào)用試題的數(shù)量這一指標(biāo)[9]。Chang和Ying使用曝光率低于0.02的試題數(shù)量這一指標(biāo)比較多種選題策略，發(fā)現(xiàn)使用α分層選題策略時(shí)曝光率低于0.02的試題數(shù)量最少[1]。

高使用率試題的比例與低使用率試題的比例。高使用率試題的比例是指被超過(guò)20%的被試用于測(cè)試的試題數(shù)量占整個(gè)題庫(kù)試題量的比例。低使用率試題的比例是指被少于2%的被試用于測(cè)試的試題數(shù)量占整個(gè)題庫(kù)試題量的比例。Huebner和Li在研究中使用了高使用率試題的比例與低使用率試題的比例這兩個(gè)指標(biāo)[37]。曝光率低于0.02的試題數(shù)量這一指標(biāo)僅僅是反映題庫(kù)使用的絕對(duì)數(shù)量；而低使用率試題的比例這一指標(biāo)反映了題庫(kù)使用的相對(duì)程度，因而要優(yōu)于曝光率低于0.02的試題數(shù)量這一指標(biāo)。

此外，題庫(kù)中的中等和低等區(qū)分度的題目使用情況也用來(lái)作為評(píng)價(jià)選題策略的重要標(biāo)準(zhǔn)之一。Hau和Chang發(fā)現(xiàn)在不降低測(cè)驗(yàn)效率的前提下，如果中等和低等區(qū)分度的題目被充分利用，則說(shuō)明這種選題策略的效果較好，較容易避免高區(qū)分度題目過(guò)分曝光導(dǎo)致的測(cè)驗(yàn)安全問(wèn)題和測(cè)驗(yàn)題目的維護(hù)與補(bǔ)充帶來(lái)的高成本問(wèn)題[34]。

2.5 評(píng)價(jià)被試分類(lèi)效率和分類(lèi)準(zhǔn)確性方面的指標(biāo)

在計(jì)算機(jī)化分類(lèi)測(cè)驗(yàn)（或掌握性自適應(yīng)測(cè)驗(yàn)）中需要評(píng)價(jià)測(cè)驗(yàn)對(duì)被試的分類(lèi)情況，可以從兩個(gè)方面進(jìn)行評(píng)價(jià)：一是被試分類(lèi)效率的評(píng)價(jià)指標(biāo)，包括平均測(cè)驗(yàn)長(zhǎng)度和人均用題量。Lin在計(jì)算機(jī)化分類(lèi)測(cè)驗(yàn)中使用了平均測(cè)驗(yàn)長(zhǎng)度指標(biāo)[9]。陳平等在選題策略分析比較時(shí)使用了人均用題量指標(biāo)[38]。二是被試分類(lèi)準(zhǔn)確性的評(píng)價(jià)指標(biāo)，包括被試正確分類(lèi)的百分比（percentage of correct decision）和被試強(qiáng)制分類(lèi)的百分率（forced classi fi cation rates）。Lin在計(jì)算機(jī)化分類(lèi)測(cè)驗(yàn)中提出并使用被試正確分類(lèi)的百分比這一評(píng)價(jià)指標(biāo)，用于比較各種選題策略方法的優(yōu)劣[9]。Wang和Huang在基于能力的猜測(cè)模型下，在計(jì)算機(jī)化分類(lèi)測(cè)驗(yàn)研究中提出并使用被試強(qiáng)制分類(lèi)的百分率這一指標(biāo)[39]。

2.6 評(píng)價(jià)多測(cè)驗(yàn)?zāi)繕?biāo)約束控制有效性方面的指標(biāo)

在多測(cè)驗(yàn)?zāi)繕?biāo)約束控制的CAT模擬研究中，要求CAT模擬設(shè)計(jì)要同時(shí)達(dá)到多個(gè)測(cè)驗(yàn)?zāi)繕?biāo)，此時(shí)需要三種評(píng)價(jià)指標(biāo)：一是He，Diao和Hauser使用的達(dá)到約束條件要求的測(cè)驗(yàn)百分比這一指標(biāo)[40]；二是Cheng和Chang在比較分析最大優(yōu)先指標(biāo)與其他選題策略時(shí)提出并使用的約束條件違背的平均測(cè)驗(yàn)數(shù)量這一指標(biāo)[41]；三是潘奕嬈、丁樹(shù)良和尚志勇、湯楠和丁樹(shù)良以及湯楠、丁樹(shù)良和余丹等在CAT選題策略研究中提出的被試平均違規(guī)次數(shù)這一指標(biāo)[42-44]。其中，達(dá)到約束條件要求的測(cè)驗(yàn)百分比是相對(duì)指標(biāo)，更能在整個(gè)測(cè)驗(yàn)情境中比較各種選題策略的優(yōu)劣；而約束條件違背的平均測(cè)驗(yàn)數(shù)量、被試平均違規(guī)次數(shù)是絕對(duì)指標(biāo)，只能局部地橫向比較各個(gè)選題策略。

2.7 其他評(píng)價(jià)指標(biāo)

評(píng)價(jià)CAT的模擬結(jié)果還有一些其他指標(biāo)，包括正確作答的題量、選題的耗時(shí)時(shí)長(zhǎng)等。例如Chang和Ying使用正確作答的平均題量來(lái)分析CAT初始值位置對(duì)被試能力估計(jì)的影響[45]。在一些選題策略方法的研究中，需要考慮選題過(guò)程的耗時(shí)問(wèn)題，因?yàn)镃AT往往需要即時(shí)為被試選擇和呈現(xiàn)下一道試題，以進(jìn)行下一步作答。例如，van der Linden報(bào)告了CAT選題時(shí)每選擇一道試題的平均耗時(shí)[46]。Passos、Berger和Tan的研究也報(bào)告了選題策略的選題時(shí)間情況[47]。

研究者還提出統(tǒng)一量綱方法，將各個(gè)評(píng)價(jià)指標(biāo)綜合計(jì)算成一個(gè)指標(biāo)，以作為選題策略的綜合評(píng)價(jià)指標(biāo)[30,48]。但統(tǒng)一量綱方法容易受到權(quán)重系數(shù)、評(píng)價(jià)指標(biāo)的實(shí)際數(shù)值的影響，需要研究者慎重確定權(quán)重系數(shù)的大小。

2.8 各個(gè)評(píng)價(jià)角度之間關(guān)系的分析

以上概括了CAT模擬結(jié)果的6個(gè)評(píng)價(jià)角度與評(píng)價(jià)指標(biāo)。在不同研究中，一些評(píng)價(jià)指標(biāo)會(huì)有不同的變式，或者不同研究者對(duì)某個(gè)評(píng)價(jià)指標(biāo)會(huì)使用不同的名稱(chēng)，但本質(zhì)上是同一個(gè)指標(biāo)。

6個(gè)評(píng)價(jià)角度的基本關(guān)系可以概況如下：（1）測(cè)量準(zhǔn)確性（包括模擬返真性能指標(biāo)、測(cè)驗(yàn)精度指標(biāo)、被試分類(lèi)準(zhǔn)確性）與測(cè)驗(yàn)安全性、題庫(kù)使用、多測(cè)驗(yàn)?zāi)繕?biāo)約束控制等其他評(píng)價(jià)角度的指標(biāo)存在著此消彼長(zhǎng)的反向關(guān)系。如果CAT測(cè)驗(yàn)過(guò)程中選擇測(cè)量準(zhǔn)確性較高的選題策略和試題曝光率控制方法，那么題庫(kù)使用率將下降，測(cè)驗(yàn)安全性下降，多測(cè)驗(yàn)?zāi)繕?biāo)約束控制的實(shí)現(xiàn)程度將下降；反之，如果要提高測(cè)驗(yàn)安全性、題庫(kù)使用率和多測(cè)驗(yàn)?zāi)繕?biāo)約束控制的實(shí)現(xiàn)程度，則需要選擇測(cè)量準(zhǔn)確性較低的選題策略和試題曝光率控制方法；（2）題庫(kù)使用情況與測(cè)驗(yàn)安全這兩個(gè)角度的指標(biāo)評(píng)價(jià)性能是基本一致的：如果題庫(kù)使用情況較為全面且均勻，那么測(cè)驗(yàn)安全性就相對(duì)較高；如果題庫(kù)使用情況較為不均勻，那么部分試題曝光率就相對(duì)過(guò)高，測(cè)驗(yàn)安全性就相對(duì)較低。

如何選擇合適的評(píng)價(jià)角度與評(píng)價(jià)指標(biāo)呢？余嘉元和汪存友提出，需要根據(jù)CAT具體測(cè)驗(yàn)情境以及評(píng)價(jià)指標(biāo)的敏感性來(lái)選擇適當(dāng)?shù)腃AT評(píng)價(jià)指標(biāo)[49]。筆者根據(jù)以往研究概括為以下幾點(diǎn)：（1）如果CAT測(cè)驗(yàn)是選拔性、高利害關(guān)系的入學(xué)考試、職業(yè)資格考試等，就需要提高測(cè)驗(yàn)安全控制方面的要求，需要選擇測(cè)驗(yàn)安全性能評(píng)價(jià)指標(biāo)值較好的試題曝光率控制方法；（2）如果是低利害關(guān)系的練習(xí)性、診斷性的CAT測(cè)驗(yàn)，則不需要考慮測(cè)驗(yàn)安全性這方面的性能要求，主要側(cè)重于被試能力估計(jì)的準(zhǔn)確性；（3）被試分類(lèi)效率與分類(lèi)準(zhǔn)確性方面的評(píng)價(jià)指標(biāo)主要用于計(jì)算機(jī)化分類(lèi)測(cè)驗(yàn)中評(píng)價(jià)被試分類(lèi)情況；（4）多測(cè)驗(yàn)?zāi)繕?biāo)約束控制指標(biāo)（如達(dá)到約束條件要求的測(cè)驗(yàn)百分比、被試平均違規(guī)次數(shù)等）主要是在需要多個(gè)測(cè)驗(yàn)條件約束控制的CAT測(cè)驗(yàn)中使用。

2.9 測(cè)驗(yàn)準(zhǔn)確性與測(cè)驗(yàn)安全性兩個(gè)評(píng)價(jià)角度的綜合評(píng)價(jià)

具有較高的測(cè)驗(yàn)準(zhǔn)確性以及題庫(kù)試題被充分有效使用是所有CAT研究的測(cè)驗(yàn)?zāi)繕?biāo)或評(píng)價(jià)要求。然而，許多研究表明，CAT研究結(jié)果在測(cè)驗(yàn)準(zhǔn)確性與測(cè)驗(yàn)安全性上往往出現(xiàn)此消彼長(zhǎng)的現(xiàn)象。有些選題策略（或終止策略）測(cè)量準(zhǔn)確性較高，但試題曝光率也高（即測(cè)驗(yàn)安全性低），如最大Fisher信息量方法；有些選題策略試題曝光率較低（即測(cè)驗(yàn)安全性較高），而測(cè)量精度也較低，如α分層法。在測(cè)量準(zhǔn)確性與測(cè)驗(yàn)安全性之間，如何比較與選擇較好的選題策略？Barrada、Olea、Ponsoda和Abad提出一種綜合比較的新方式，以控制最大試題曝光率為自變量，分析其對(duì)測(cè)驗(yàn)的精度（以RMSE為指標(biāo)）和安全性（以測(cè)驗(yàn)交疊率Overlap為指標(biāo)）的影響，并以圖形方式呈現(xiàn)測(cè)驗(yàn)準(zhǔn)確性與測(cè)驗(yàn)安全性之間的相對(duì)變化關(guān)系[50-51]。Barrada等比較了最大Fisher信息量（PFI）、似然函數(shù)加權(quán)Fisher信息量（FI-L）、似然函數(shù)KL信息函數(shù)法（KL-L）、最大項(xiàng)目信息量分層法（MIS-B）、過(guò)程法（progressive method,PG）和概率法（proportional method,PP）6種選題策略。結(jié)果顯示，在測(cè)驗(yàn)安全性方面，6種選題策略的重疊率依次升高的順序（測(cè)驗(yàn)安全性下降）是MIS-B、PP、PG、PFI、FI-L和KL-L；在測(cè)驗(yàn)精度方面，依次增大的順序恰好相反。RMSE與Overlap的反函數(shù)關(guān)系圖可以為CAT選題策略的選擇提供較好的參考依據(jù)，例如：當(dāng)需要最大化的測(cè)驗(yàn)精度，而可以容忍相對(duì)較低的測(cè)驗(yàn)安全性時(shí)，可以選擇使用KL-L、FI-L、PFI及其選題策略方法；如果需要盡可能高的測(cè)驗(yàn)安全性，同時(shí)又只能允許測(cè)驗(yàn)精度下降一點(diǎn)時(shí)，可以選擇使用PP選題策略方法；如果要追求測(cè)驗(yàn)安全性的最大化時(shí)，可以根據(jù)測(cè)驗(yàn)的長(zhǎng)度和題庫(kù)的大小，使用MIS-B方法。

3 小結(jié)

CAT測(cè)量技術(shù)研究是近年來(lái)心理與教育測(cè)量的熱點(diǎn)領(lǐng)域之一，在教育入學(xué)考試、職業(yè)資格認(rèn)證、認(rèn)知診斷等領(lǐng)域有較廣泛的應(yīng)用。本研究概述了CAT研究評(píng)價(jià)可以分為被試能力估計(jì)、題庫(kù)試題使用情況、CAT測(cè)驗(yàn)過(guò)程三方面內(nèi)容，并且都有整體分析、細(xì)化分析兩種分析模式。CAT模擬結(jié)果的評(píng)價(jià)分析角度包括被試能力模擬返真性能、測(cè)驗(yàn)測(cè)量準(zhǔn)確性、測(cè)驗(yàn)安全性、題庫(kù)使用率、被試分類(lèi)有效性與分類(lèi)準(zhǔn)確性、多測(cè)驗(yàn)?zāi)繕?biāo)約束控制的有效性6個(gè)角度，每個(gè)角度又包含多個(gè)評(píng)價(jià)指標(biāo)。對(duì)CAT模擬結(jié)果分析模式與評(píng)價(jià)指標(biāo)的概括與總結(jié)可為今后CAT模擬研究的設(shè)計(jì)與評(píng)價(jià)提供參考依據(jù)。

[1]CHANG H,YING Z.α-Stratified multistage computerized adaptive testing[J].Applied Psychological Measurement,1999,23（3）:211-222.

[2]REVUELTA J,PONSODA V.A comparison of item exposure control methods in computerized adaptive testing[J].Journal of Educational Measurement,1998,35（4）:311-327.

[3]BOCK R J,MISLEVY R D.Adaptive EAP estimation of ability in a microcomputer environment[J].Applied Psychological Measurement,1982,6（4）:431-444.

[4]SYMPSON J B,HETTER R D.Controlling item exposure rates in computerized adaptive testing[C]//Proceedings of the 27th annual meeting of the Military Testing Association.San Diego,CA:Navy Personnel Research and Development,1985.

[5]CHANG S W,ANSLEY T N.A comparative study of item exposure control methods in computerized adaptive testing[J].Journal of Educational Measurement,2003,40（1）:71-103.

[6]陳平,丁樹(shù)良.允許檢查并修改答案的計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)[J].心理學(xué)報(bào),2008,40（6）:737-747.

[7]MAGIS D.Efficient standard error formulas of ability estimators with dichotomous item response models[J].Psychometrika,2015,81（1）: 184-200.

[8]RULISON K,LOKEN E.I’ve fallen and I can’t get up:can highability students recover from early mistakes in CAT?[J].Applied Psychological Measurement,2009,33（2）:83-101.

[9]LIN C.Item selection criteria with practical constraints for computerized classification testing[J].Educational and Psychological Measurement,2011,71（1）:20-36.

[10]LEUNG C,CHANG H,HAU K.Computerized adaptive testing:A mixture item selection approach for constrained situations[J].British Journal of Mathematical and Statistical Psychology,2005,58（2）:239-257.

[11]VAN DER LINDEN W J,VELDKAMP B P.Conditional item-exposure control in adaptive testing using item-ineligibility probabilities [J].Journal of Educational and Behavioral Statistics,2007,32（4）: 398-418.

[12]REVUELTA J,PONSODA V.A comparison of item exposure control methods in computerized adaptive testing[J].Journal of Educational Measurement,1998,35（4）:311-327.

[13]THOMPSON N A.Item selection in computerized classification testing[J].Educational and Psychological Measurement,2011,71（1）:114-128.

[14]HAN K T.A gradual maximum information ratio approach to item selection in computerized adaptive testing//Weiss D J.Proceedings of the 2009 GMAC Conference on Computerized Adaptive Testing, 2009.[2016-08-01].www.psych.umn.edu/psylabs/CATCentral/.

[15]CHENG P E,LIOU M.Estimation of Trait Level in Computerized Adaptive Testing[J].Applied Psychological Measurement,2000,24（3）:257-265.

[16]BARRADA J R,VELDKAMP B P,OLEA J.Multiple maximum exposure rates in Computerized Adaptive Testing[J].Applied Psychological Measurement,2009,33（1）:58-73.

[17]GNAMBS T,BATINIC B.Polytomous adaptive classification testing:effects of item pool size,test termination criterion,and number of cutscores[J].Educational and Psychological Measurement,2011, 71（6）:1006-1022.

[18]簡(jiǎn)小珠.IRT模型中c、γ參數(shù)對(duì)被試能力高估和低估現(xiàn)象的糾正[D].廣州:華南師范大學(xué),2011.

[19]OLEA J,BARRADA J R,ABAD F J,et al.Computerized adaptive testing:the capitalization on chance problem[J].Spanish Jouranl of Psychology,2012,15（1）:424-441.

[20]CHENG Y,CHANG H,YI Q.Two-Phase Item Selection Procedure for Flexible Content Balancing in CAT[J].Applied Psychological Measurement,2007,31（6）:467-482.

[21]CHENG Y,CHANG H H,DOUGLAS J,et al.Constraint-weighted α-stratification for computerized adaptive testing with nonstatistical constraints:Balancing measurement efficiency and exposure control[J].Educational and Psychological Measurement,2009,69（1）:35-49.

[22]CHANG H,VAN DER LINDEN W J.Optimal Stratification of Item Pools in α-Stratified Computerized Adaptive Testing[J].Applied Psychological Measurement,2003,27（4）:262-274.

[23]HE W,RECKASE M D.Item pool design for an operational variable-length computerized adaptive test[J].Educational and Psychological Measurement,2014,74（3）:473-494.

[24]WANG T,VISPOEL W P.Properties of ability estimation methods in computerized adaptive testing[J].Journal of Educational Measurement,1998,35（2）:109-135.

[25]SCHUSTER C,YUAN K.Robust estimation of latent ability in item response models[J].Journal of Educational and Behavioral Statistics,2011,36（6）:720-735.

[26]RA?CHE G,BLAIS J G,MAGIS D,et al.Adaptive estimators of trait level in adaptive testing:Some proposals[Z].Graduate Management Admission Council Conference on Computerized Adaptive Testing（GMAC）,2007.

[27]CHEN S,ANKENMANN R D,CHANG H.A Comparison of Item Selection Rules at the Early Stages of Computerized Adaptive Testing[J].Applied Psychological Measurement,2000,24（3）:241-255.

[28]KINGSBURY C G,ZARA A R.A Comparison of Procedures for Content-Sensitive Item Selection in Computerized Adaptive Tests [J].Applied Measurement in Education,1991,4（3）:241-261.

[29]ZHANG J.The Impact of Variability of Item Parameter Estimators on Test Information Function[J].Journal of Educational and Behavioral Statistics,2012,37（6）:737-757.

[30]程小揚(yáng),丁樹(shù)良,嚴(yán)深海,等.引入曝光因子的計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)選題策略[J].心理學(xué)報(bào),2011（43）:203-212.

[31]程小揚(yáng),丁樹(shù)良,巫華芳,等.多級(jí)評(píng)分模型下的題庫(kù)結(jié)構(gòu)對(duì)CAT的影響分析[J].心理學(xué)探新,2014（34）:452-456.

[32]CHEN S,ANKENMANN R D,SPRAY J A.The Relationship between Item Exposure and Test Overlap in Computerized Adaptive Testing[J].Journal of Educational Measurement,2003,40（2）:129-145.

[33]BARRADA J R,OLEA J,PONSODA V,et al.Test Overlap Rate and Item Exposure Rate as Indicators of Test Security in CATs[C]// Weiss D J.Proceedings of the 2009 GMAC Conference on Computerized Adaptive Testing,2009.[2016-08-01].www.psych.umn. edu/psylabs/CATCentral/.

[34]HAU K,CHANG H.Item selection in computerized adaptive testing:should more discriminating items be used first?[J].Journal of Educational Measurement,2001,38（3）:249-266.

[35]CHANG H,QIAN J,YING Z.α-Stratified multistage computerized adaptive testing with b blocking[J].Applied Psychological Measurement,2001,25（4）:333-341.

[36]程小揚(yáng),丁樹(shù)良.子題庫(kù)題量不平衡的按α分層選題策略[J].江西師范大學(xué)學(xué)報(bào)（自然科學(xué)版）,2011,35（1）:5-9.

[37]HUEBNER A,LI Z.A stochastic method for balancing item exposure rates in computerized classification tests[J].Applied Psychological Measurement,2012,36（3）:181-188.

[38]陳平,丁樹(shù)良,林海菁,等.等級(jí)反應(yīng)模型下計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)選題策略[J].心理學(xué)報(bào),2006,38（3）:461-467.

[39]WANG W,HUANG S.Response model with ability-based guessing computerized classification testing under the one-parameter logistic[J].Educational and Psychological Measurement,2011,71（6）:925-941.

[40]HE W,DIAO Q,HAUSER C.A Comparison of Four Item-Selection Methods for Severely Constrained CATs[J].Online Submission,2014,74（4）:27.

[41]CHENG Y,CHANG H.The maximum priority index method for severely constrained item selection in computerized adaptive testing[J]. British Journal of Mathematical and Statistical Psychology,2009,62（2）:369-383.

[42]潘奕嬈,丁樹(shù)良,尚志勇.改進(jìn)的最大優(yōu)先級(jí)指標(biāo)方法[J].江西師范大學(xué)學(xué)報(bào)（自然科學(xué)版）,2011,35（2）:213-215.

[43]湯楠,丁樹(shù)良.一階段選題的最大優(yōu)先級(jí)指標(biāo)的修正[J].江西師范大學(xué)學(xué)報(bào)（自然科學(xué)版）,2012,36（5）:452-455.

[44]湯楠,丁樹(shù)良,余丹.結(jié)合優(yōu)先級(jí)指標(biāo)和曝光因子的多級(jí)評(píng)分選題策略[J].江西師范大學(xué)學(xué)報(bào)（自然科學(xué)版）,2011,35（6）:646-650.

[45]CHANG H H,YING Z.To weight or not to weight?Balancing influence of initial items in adaptive testing[J].Psychometrika,2008,73（3）:441-450.

[46]VAN DER LINDEN W J.Bayesian item selection criteria for adaptive testing[J].Psychometrika,1998,63（2）:201-216.

[47]PASSOS V L,BERGER M P F,TAN F E S.The D-optimality item selection criterion in the early stage of cat:a study with the Graded Response Model[J].Journal of Educational and Behavioral Statistics,2008,33（1）:88-110.

[48]戴海琦,陳德枝,丁樹(shù)良,等.多級(jí)評(píng)分題計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)選題策略比較[J].心理學(xué)報(bào),2006,38（5）:778-783.

[49]余嘉元,汪存友.項(xiàng)目反應(yīng)理論參數(shù)估計(jì)研究中的蒙特卡羅方法[J].南京師大學(xué)報(bào)（社會(huì)科學(xué)版）,2007（1）:87-91.

[50]BARRADA J R,OLEA J,PONSODA V,et al.Incorporating randomness in the Fisher information for improving item-exposure control in CATs[J].British Journal of Mathematical and Statistical Psychology,2008,61（2）:493-513.

[51]BARRADA J R,OLEA J,PONSODA V,et al.A Method for the Comparison of Item Selection Rules in Computerized Adaptive Testing[J].Applied Psychological Measurement,2010,34（6）:438-452.

Analysis Models and Evaluation Indexes of Computerized Adaptive Testing Simulation Results

JIAN Xiaozhu,DAI Buyun&CHEN Ping

Computerized Adaptive Testing（CAT）simulation is one of the main methods of CAT research. Evaluation and analysis of CAT simulation results mainly includes three aspects:estimation and classification analysis of examinee ability,analysis of the utilization of the test items from the item bank and analysis of the CAT response process.Analysis of CAT simulation results mainly involves a holistic approach and a fine-grained approach.This study provides an overview of the various evaluation indexes involved in evaluating CAT simulation results from the perspectives of simulation recovery,measurement accuracy,item security,item utilization rates, examinee classification efficiency and accuracy,and control of multiple test objectives.The perspectives and evaluation indexes required for a CAT simulation study have yet to depend on the purpose and context of that study.

Computerized Adaptive Testing;CAT Simulation;Analysis Model;Evaluation Index

G405

1005-8427（2016）12-0019-10

（責(zé)任編輯：陳寧）

本文系江西省高校人文社會(huì)科學(xué)研究青年項(xiàng)目“計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)（CAT）測(cè)量技術(shù)與評(píng)價(jià)分析”（項(xiàng)目編號(hào)：XL1515）的研究成果之一。

簡(jiǎn)小珠，男，井岡山大學(xué)教師教育中心，副教授，江西師范大學(xué)心理學(xué)院，江西省心理與認(rèn)知科學(xué)重點(diǎn)實(shí)驗(yàn)室，博士后（江西吉安 343009）

戴步云，男，江西師范大學(xué)心理學(xué)院，江西省心理與認(rèn)知科學(xué)重點(diǎn)實(shí)驗(yàn)室，博士后（南昌 330022）

陳平（通訊作者），男，北京師范大學(xué)中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心，副教授（北京 100875）

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

CAT模擬結(jié)果的分析模式與評(píng)價(jià)指標(biāo)

1 CAT模擬結(jié)果的分析模式

2 CAT模擬結(jié)果的評(píng)價(jià)指標(biāo)

3 小結(jié)