實(shí)時(shí)監(jiān)控計(jì)算機(jī)自適應(yīng)考題的兩種方法及其穩(wěn)健性比較

2017-06-05 14:14:54張金明曹燦兮揭勇菁

中國(guó)考試 2017年2期

關(guān)鍵詞：水平方法

張金明曹燦兮揭勇菁

（美國(guó)伊利諾伊大學(xué)香檳分校，美國(guó)伊利諾伊州 61822）

實(shí)時(shí)監(jiān)控計(jì)算機(jī)自適應(yīng)考題的兩種方法及其穩(wěn)健性比較

張金明曹燦兮揭勇菁

（美國(guó)伊利諾伊大學(xué)香檳分校，美國(guó)伊利諾伊州 61822）

基于項(xiàng)目反應(yīng)理論和基于經(jīng)典測(cè)量理論的兩種序貫監(jiān)控方法，用來(lái)實(shí)時(shí)監(jiān)控計(jì)算機(jī)自適應(yīng)考試，及時(shí)偵測(cè)出已泄露試題，并替換或剔除泄露試題，以提高考試的公正性和分?jǐn)?shù)的有效性。本文著重對(duì)這兩種序貫監(jiān)控方法在考生整體能力水平隨時(shí)間有季節(jié)性變化或具有連續(xù)提高趨勢(shì)的情況下進(jìn)行統(tǒng)計(jì)穩(wěn)健性比較，主要考察這兩種監(jiān)控方法犯第一類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率是否變大，是否超出預(yù)設(shè)的顯著性水平。模擬結(jié)果表明，基于項(xiàng)目反應(yīng)理論的序貫監(jiān)控方法在本文所考慮的情況下比基于經(jīng)典測(cè)量理論的方法具有更好的穩(wěn)健性。

計(jì)算機(jī)自適應(yīng)考試；經(jīng)典測(cè)量理論；項(xiàng)目反應(yīng)理論；試題曝光率；變點(diǎn)問(wèn)題；序貫監(jiān)控方法

1 引言

計(jì)算機(jī)自適應(yīng)考試（Computerized Adaptive Test,CAT）是一種現(xiàn)代考試形式，它依靠大型題庫(kù)，采用現(xiàn)代測(cè)量理論，根據(jù)每個(gè)考生不同的能力水平，用計(jì)算機(jī)自動(dòng)選擇難度恰當(dāng)且統(tǒng)計(jì)性能優(yōu)良的題目，生成為其量身定做的試題組合，從而實(shí)現(xiàn)對(duì)考生的高效測(cè)量[1]。依靠現(xiàn)代測(cè)量理論，計(jì)算機(jī)自適應(yīng)考試與傳統(tǒng)紙筆測(cè)驗(yàn)相比，可使用更少的試題并得到更精確的考生能力估計(jì)值。

由于在一次考試中，計(jì)算機(jī)組卷所使用的試題均來(lái)自同一題庫(kù)，在該題庫(kù)被使用一段時(shí)間后，其中的一部分題目就有可能被泄露，所以一直以來(lái)，計(jì)算機(jī)自適應(yīng)考試都面臨著試題安全問(wèn)題，先行參加考試的考生可能會(huì)泄露試題信息，使得后續(xù)考生成為“受益者”[2-9]。一旦試題被泄露，相應(yīng)試題的統(tǒng)計(jì)特性將被改變，對(duì)于后續(xù)的“受益”考生，這些試題難度變低，故“受益”考生的能力值會(huì)被高估，這將威脅考試的公正性和分?jǐn)?shù)的有效性。Zhang等在一個(gè)模擬研究中指出，當(dāng)一個(gè)720道題的題庫(kù)中有150道試題被泄露時(shí)，考生能力估計(jì)值的偏差和誤差均方根分別高達(dá)1.010和1.226[9]。

試題曝光率是衡量考試安全性的一個(gè)重要指標(biāo)。通常，一道試題被使用得越頻繁（即其曝光率越高），被泄露的可能性就越大。因此，在計(jì)算機(jī)組卷選題過(guò)程中，研究人員就會(huì)運(yùn)用一些試題曝光控制的方法，平衡試題曝光率以加強(qiáng)考試安全性[4,7,10-15]?；趯?duì)考試安全性的考慮，題庫(kù)中一些曝光率較高的試題會(huì)被暫時(shí)或永久剔除[16]。但是，高曝光率的試題不一定就是被泄露的試題，同時(shí)低曝光率的試題也有被泄露的可能。例如，雖然一道試題被很多個(gè)考生使用，即曝光率較高，但如果這些考生都沒(méi)有在考后分享試題，那么這道試題并沒(méi)有被泄露；反之，另一道試題雖然沒(méi)有被經(jīng)常使用，曝光率較低，但恰被用在一個(gè)習(xí)慣于在考后分享試題的考生的考試中，那么這道題就很可能被泄露。因此曝光率的高低并不能準(zhǔn)確判斷一道試題是否被泄露。

另一個(gè)考試安全性的指標(biāo)是測(cè)驗(yàn)重疊率，常被用以偵測(cè)大規(guī)模試題泄露問(wèn)題[2-3,7,17]。盡管有這兩種指標(biāo)已初步保障考試安全性，但在計(jì)算機(jī)自適應(yīng)考試進(jìn)行過(guò)程中，仍需要統(tǒng)計(jì)技術(shù)對(duì)試題統(tǒng)計(jì)特性進(jìn)行實(shí)時(shí)連續(xù)監(jiān)控，并在試題泄露發(fā)生時(shí)及時(shí)偵測(cè)到這些已泄露試題。

為加強(qiáng)計(jì)算機(jī)自適應(yīng)考試的安全性及分?jǐn)?shù)的有效性，并在計(jì)算機(jī)自適應(yīng)考試過(guò)程中實(shí)現(xiàn)對(duì)試題的實(shí)時(shí)連續(xù)監(jiān)控，以盡早偵測(cè)出已泄露試題，Zhang[18]和Zhang&Li[19]開(kāi)發(fā)出兩種實(shí)時(shí)連續(xù)監(jiān)控試題的統(tǒng)計(jì)序貫監(jiān)控方法，一種是基于經(jīng)典測(cè)量理論（Classical Testing Theory,CTT），另一種是基于項(xiàng)目反應(yīng)理論（Item Response Theory,IRT）。兩種方法都是在考試過(guò)程中通過(guò)一系列統(tǒng)計(jì)假設(shè)檢驗(yàn)來(lái)判斷試題的統(tǒng)計(jì)特性是否發(fā)生顯著變化。本文將從理論框架、模擬研究及研究結(jié)果對(duì)這兩種方法進(jìn)行詳細(xì)介紹，并在考生整體能力水平隨時(shí)間有季節(jié)性變化或連續(xù)提高趨勢(shì)的情況下，對(duì)這兩種方法進(jìn)行統(tǒng)計(jì)穩(wěn)健性的比較。

2 序貫監(jiān)控方法

通常一個(gè)題庫(kù)會(huì)使用較長(zhǎng)一段時(shí)間，考試管理者需要監(jiān)測(cè)每一道被使用多次的試題。假定{U1,U2,…,Un…}是某一被監(jiān)控試題的得分序列。這里及本文后面的n是指作答某試題的第n個(gè)考生，而不是指參加考試的第n個(gè)考生。若第n個(gè)考生答對(duì)該題，則Un=1；反之，則Un=0。注意，n是與試題相關(guān)的，對(duì)于不同試題，相同的n并不一定是同一個(gè)考生。為方便起見(jiàn)，本文對(duì)所有與試題相關(guān)的變量和函數(shù)都沒(méi)有用試題下標(biāo)。因?yàn)楸O(jiān)控程序是對(duì)每一道被使用多次的試題分別監(jiān)測(cè)的，所以不用試題下標(biāo)不會(huì)產(chǎn)生歧義。

2.1 變點(diǎn)問(wèn)題

如果一個(gè)隨機(jī)變量在某一時(shí)間點(diǎn)之前服從一個(gè)分布，而在這一時(shí)間點(diǎn)之后服從另一個(gè)分布，這在統(tǒng)計(jì)序列分析中稱(chēng)作變點(diǎn)問(wèn)題[20-26]。變點(diǎn)問(wèn)題出現(xiàn)在眾多領(lǐng)域，尤其是在工業(yè)產(chǎn)品質(zhì)量監(jiān)控中。在連續(xù)的生產(chǎn)過(guò)程中，機(jī)器在任一時(shí)間點(diǎn)都可能發(fā)生故障，從而導(dǎo)致產(chǎn)品質(zhì)量下降（產(chǎn)品特征變量在該時(shí)間點(diǎn)發(fā)生變化），因此需要一個(gè)監(jiān)控方法來(lái)甄別產(chǎn)品質(zhì)量。理想的監(jiān)控方法是在產(chǎn)品質(zhì)量發(fā)生變化時(shí)，及時(shí)發(fā)出信號(hào)，同時(shí)把犯第Ⅰ類(lèi)偵測(cè)錯(cuò)誤率控制在一定水平之下。這里，第Ⅰ類(lèi)偵測(cè)錯(cuò)誤是指在產(chǎn)品質(zhì)量未發(fā)生改變時(shí)，該監(jiān)控方法錯(cuò)誤地判斷產(chǎn)品質(zhì)量已發(fā)生變化。

若該試題的信息在第nc個(gè)考生后被泄露，即部分將要參加考試的考生得到了該試題的信息，那么該試題對(duì)于這些考生來(lái)說(shuō)將會(huì)變得簡(jiǎn)單。對(duì)于這些考生，新的正確作答該題的概率為而更極端的情況是這些考生將會(huì)一直答對(duì)這道題，即而那些沒(méi)有得到該題信息的考生仍將以的概率正確作答該題。當(dāng)該試題被選中給一個(gè)考生，依賴(lài)于該考生是否在考試前已獲得該試題的信息，這個(gè)考生正確作答該題的概率可能是，也可能是假定這個(gè)考生恰好得到了該題信息的可能性概率是r，那么根據(jù)全概率公式，任何一個(gè)考生在試題泄露之后答對(duì)該題的概率為

顯然，r與得到該題信息的考生在所有將要參加考試的考生中的比例密切相關(guān)。因此，r可以看作該題泄露影響廣度的指標(biāo)，而更確切地說(shuō)可以看作該題泄露影響深度的指標(biāo)。當(dāng)然r是未知的，但在本文所介紹的方法中我們并不需要估計(jì)它的數(shù)值。如果r=0，即該題的泄露影響可忽略，不造成任何損失，或者說(shuō)該題并沒(méi)有被泄露，所以考試管理者并不需要考慮該題的泄露問(wèn)題。因此，本文只考慮r>0的情況，這樣

即在統(tǒng)計(jì)上看該試題在泄露之后對(duì)所有的考生來(lái)說(shuō)都顯得簡(jiǎn)單了?？傊?，在試題泄露之前，該試題服從一個(gè)項(xiàng)目反應(yīng)函數(shù)而在試題泄露之后，它服從另一個(gè)較大的項(xiàng)目反應(yīng)函數(shù)因此，試題泄露問(wèn)題是一個(gè)變點(diǎn)問(wèn)題。

一道試題是否被泄露是未知的。如果泄露，其變點(diǎn)nc的位置更是難以確定。而且，不同的試題，它們的被泄露變點(diǎn)位置不一定是一樣的。因此，需要統(tǒng)計(jì)方法對(duì)每一道試題進(jìn)行實(shí)時(shí)連續(xù)監(jiān)控，一旦發(fā)生試題泄露，盡早地甄別出已泄露試題，以保障計(jì)算機(jī)自適應(yīng)考試的安全性和有效性。

假設(shè)某被監(jiān)控試題的變點(diǎn)是nc，而監(jiān)控結(jié)果表明該試題在被n個(gè)考生使用過(guò)后被泄露（如圖1所示）。若nnc，監(jiān)控程序在考生n作答后發(fā)現(xiàn)了試題泄露，即給出了正確甄別；此時(shí)雖然監(jiān)控程序找到了該泄露試題，但是該試題仍被使用在nc與n之間的考生的考試中，從nc到n之間的考生數(shù)量為試題泄露之后到被監(jiān)控程序正確甄別之間的延遲間隔（如圖1（b）所示）。這個(gè)延遲間隔是從變點(diǎn)到該泄露試題被正確甄別之間使用該題考生的數(shù)量。如果監(jiān)控程序未正確甄別已泄露試題，這就犯了第Ⅱ類(lèi)統(tǒng)計(jì)錯(cuò)誤。在第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤概率得到控制的前提下，越小的延遲間隔與越低的第Ⅱ類(lèi)統(tǒng)計(jì)錯(cuò)誤犯錯(cuò)概率，表明這個(gè)監(jiān)控程序越理想?？傊硐氲谋O(jiān)控程序需要精準(zhǔn)且高效地甄別已泄露試題。

圖1 錯(cuò)誤與正確的變點(diǎn)甄別

2.2 基于經(jīng)典測(cè)量理論的序貫監(jiān)控方法

在計(jì)算機(jī)自適應(yīng)考試中，每道試題都有潛在的目標(biāo)考生子群體，這個(gè)子群體與總考生群體是不一樣的。例如，在計(jì)算機(jī)自適應(yīng)考試中，較難的題目是被設(shè)計(jì)用以考查較高能力考生時(shí)使用的。因此，總體上來(lái)說(shuō)，一道難題的目標(biāo)考生子群體比一道較容易題目的目標(biāo)考生子群體的能力高。在計(jì)算機(jī)自適應(yīng)考試系統(tǒng)中，考生群體、試題的難度參數(shù)和選題策略及算法共同決定了這個(gè)目標(biāo)子群體。定義p是來(lái)自目標(biāo)子群體中的某一考生在某一被監(jiān)控試題上的得分期望值：

Zhang[18]認(rèn)為試題信息泄露作為變點(diǎn)問(wèn)題可通過(guò)p值反映出來(lái)，并據(jù)此針對(duì)計(jì)算機(jī)自適應(yīng)考試系統(tǒng)開(kāi)發(fā)了基于經(jīng)典測(cè)量理論的實(shí)時(shí)連續(xù)監(jiān)控試題統(tǒng)計(jì)特性的序貫監(jiān)控方法。在施測(cè)過(guò)程中，被監(jiān)控中的每一道試題，若其信息沒(méi)有被泄露，那么相應(yīng)的考生作答U1,U2,…,Un…，均具有相同的p值。若某題在第nc個(gè)考生后被立即泄露，那么前nc個(gè)考生的得分的期望值為p，其后考生得分的期望值為p*，這里

假設(shè)當(dāng)前考生是作答該被監(jiān)控試題的第n名考生。針對(duì)該題的監(jiān)控過(guò)程由一系列統(tǒng)計(jì)假設(shè)檢驗(yàn)構(gòu)成：至n的原假設(shè)為在第n個(gè)考生使用該試題時(shí)，該試題還未被泄露；相應(yīng)的備擇假設(shè)為該試題在第n個(gè)考生或其之前就已經(jīng)被泄露。至n的假設(shè)檢驗(yàn)將到當(dāng)前為止的n個(gè)考生對(duì)該試題的作答分為兩個(gè)部分：前個(gè)考生作答{U1,U2,…,Un-m}被稱(chēng)為至n的參考移動(dòng)樣本，而從考生n-m+1到考生n的m個(gè)作答{Un-m+1,Un-m+2,…,Un}被稱(chēng)為至n的目標(biāo)移動(dòng)樣本。這里“移動(dòng)”是指在實(shí)時(shí)連續(xù)監(jiān)控試題的過(guò)程中，n是不斷向前移動(dòng)的，而m(m

令

若該試題在第n個(gè)考生作答時(shí)還沒(méi)有被泄露，那么和均為p的無(wú)偏估計(jì)。因此的數(shù)值應(yīng)較小。然而，若該試題在第n個(gè)考生作答前就已經(jīng)被泄露，尤其當(dāng)nc=n-m時(shí)是在該試題被泄露后對(duì)正確作答概率的估計(jì)，而仍是在該試題被泄露前對(duì)正確作答概率()p的估計(jì)。由于試題泄露會(huì)導(dǎo)致該題變得簡(jiǎn)單，即p*>p，所以的值也會(huì)相應(yīng)地增大。因此，可以用來(lái)構(gòu)造假設(shè)檢驗(yàn)的統(tǒng)計(jì)量，其被標(biāo)準(zhǔn)化后被記為

至n的假設(shè)檢驗(yàn)為：如果大于預(yù)設(shè)的臨界值cα，就拒絕至n的原假設(shè)，即認(rèn)為至n時(shí)該試題已被泄露。

基于經(jīng)典測(cè)量理論的監(jiān)控方法的操作過(guò)程為：對(duì)于題庫(kù)中的每一道試題，在施測(cè)過(guò)程中一旦使用該試題的人數(shù)達(dá)到一定數(shù)量（例如，n0=150）時(shí)，就開(kāi)始依據(jù)公式（4）計(jì)算的數(shù)值。如果就可認(rèn)為該試題已泄露，這里n=n0,n0+1,n0+2,...。即該監(jiān)控程序由一系列統(tǒng)計(jì)假設(shè)檢驗(yàn)構(gòu)成，在考試過(guò)程中，每當(dāng)一道受監(jiān)控試題被選用于當(dāng)前考生，就重新計(jì)算該題的并與預(yù)先設(shè)定的臨界值cα進(jìn)行比較，做顯著性檢驗(yàn)。

2.3 基于項(xiàng)目反應(yīng)理論的序貫監(jiān)控方法

由于計(jì)算機(jī)自適應(yīng)考試一般均建立在項(xiàng)目反應(yīng)理論的基礎(chǔ)之上，然而前述所介紹的基于經(jīng)典測(cè)量理論的序貫監(jiān)控方法并沒(méi)有直接運(yùn)用項(xiàng)目反應(yīng)理論中的任何主要成分，例如能力估計(jì)和項(xiàng)目反應(yīng)函數(shù)。如果項(xiàng)目反應(yīng)理論中的主要成分和統(tǒng)計(jì)量能被加以利用，就有可能開(kāi)發(fā)出更為理想的監(jiān)控程序。在這一點(diǎn)的啟發(fā)下，Zhang&Li[19]開(kāi)發(fā)了基于項(xiàng)目反應(yīng)理論的實(shí)時(shí)連續(xù)監(jiān)控方法。

若該試題在n-m處或之前已被泄露，則Xnm是試題泄露后的正確作答觀測(cè)值，其期望值為

基于項(xiàng)目反應(yīng)理論的序貫監(jiān)控方法的操作過(guò)程為：對(duì)于題庫(kù)中的每一道試題，在施測(cè)過(guò)程中一旦使用該試題的人數(shù)達(dá)到一定數(shù)量（例如，n0=150）時(shí)，就開(kāi)始依據(jù)公式（5）計(jì)算的數(shù)值。如果就可認(rèn)為該試題已泄露，這里n=n0,n0+1,n0+2,...。即該監(jiān)控程序由一系列統(tǒng)計(jì)假設(shè)檢驗(yàn)構(gòu)成，在考試過(guò)程中，每當(dāng)一道受監(jiān)控試題被選用于當(dāng)前考生，就重新計(jì)算該題的并與預(yù)先設(shè)定的臨界值cα比較，做顯著性檢驗(yàn)。

基于經(jīng)典測(cè)量理論的序貫監(jiān)控方法是通過(guò)比較基于目標(biāo)移動(dòng)樣本與參照移動(dòng)樣本p值的估計(jì)來(lái)實(shí)現(xiàn)對(duì)試題統(tǒng)計(jì)特性的實(shí)時(shí)連續(xù)監(jiān)控，而基于項(xiàng)目反應(yīng)理論的監(jiān)控方法則只需要使用目標(biāo)移動(dòng)樣本。上述兩種序貫監(jiān)控方法都含有參數(shù)cα和m，其均需要在相應(yīng)的序貫監(jiān)控方法被應(yīng)用于具體的計(jì)算機(jī)自適應(yīng)考試系統(tǒng)之前被確定下來(lái)。這兩個(gè)參數(shù)，特別是臨界值cα，在上述兩種序貫監(jiān)控程序中往往是不一樣的。通常我們希望將犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率控制在一定的顯著性水平之下。顯著性水平α通常被選定為0.01或0.05。當(dāng)給定顯著性水平α后，對(duì)各個(gè)監(jiān)控程序，臨界值cα就可以通過(guò)模擬研究被確定下來(lái)。在下文中我們將示范如何用模擬實(shí)驗(yàn)來(lái)確定臨界值cα。在選取目標(biāo)移動(dòng)樣本大小m時(shí)，應(yīng)注意平衡相應(yīng)序貫監(jiān)控方法犯第Ⅱ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率與相應(yīng)偵測(cè)被泄露試題監(jiān)控過(guò)程中的延遲間隔[18]。在其他參數(shù)不變的情況下，越大的目標(biāo)移動(dòng)樣本，即m值越大，相應(yīng)的序貫監(jiān)控程序犯第Ⅱ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率越小，但延遲間隔也可能會(huì)越大。因此，為獲得較小的延遲間隔，不可選取過(guò)大的m值。在為序貫監(jiān)控方法選取最優(yōu)參數(shù)時(shí)，應(yīng)該綜合考量眾多因素以平衡犯第Ⅰ類(lèi)錯(cuò)誤、第Ⅱ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率以及延遲間隔。那些應(yīng)該考量的因素包括（但不限于）：犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤所可能耗費(fèi)的成本，以及使用已被泄露試題可能會(huì)對(duì)本次計(jì)算機(jī)自適應(yīng)考試評(píng)估所產(chǎn)生的破壞。整個(gè)過(guò)程要依據(jù)考試的具體情況來(lái)確定。

3 模擬研究

本研究用模擬計(jì)算機(jī)自適應(yīng)考試數(shù)據(jù)對(duì)上述這兩種序貫監(jiān)控方法進(jìn)行統(tǒng)計(jì)穩(wěn)健性比較。具體地說(shuō)，首先在考生整體水平隨時(shí)間沒(méi)有任何變化的情況下，用模擬實(shí)驗(yàn)來(lái)確定顯著性水平α為0.01和0.05的臨界值cα。然后再模擬考生整體水平有季節(jié)性變化或連續(xù)提高趨勢(shì)的情況下，檢查這兩種監(jiān)控方法犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率是否變大，是否超出預(yù)設(shè)的顯著性水平。本研究既要比較這兩種方法在不同情形下的表現(xiàn)，也要比較各個(gè)方法從考生整體水平隨時(shí)間沒(méi)有任何變化到有變化時(shí)的表現(xiàn)。除了犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率，即某一題沒(méi)有被泄露，卻被誤判為已被泄露的概率，這一概率越小越好外，另一個(gè)比較的標(biāo)準(zhǔn)是第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的發(fā)生位置，用犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤前的考生數(shù)量這一指標(biāo)來(lái)衡量，即犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤發(fā)生得越晚，在該錯(cuò)誤發(fā)生前，使用該題的考生數(shù)量將會(huì)越大，試題越不會(huì)被浪費(fèi)，故而這一指標(biāo)越大越好。對(duì)于這兩個(gè)標(biāo)準(zhǔn)，一般先考察犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率是否超出預(yù)設(shè)的顯著性水平，這是本研究評(píng)估穩(wěn)健性的主要標(biāo)準(zhǔn)；在犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤概率得到控制的前題下，再來(lái)比較第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤發(fā)生的位置，這將作為比較的輔助標(biāo)準(zhǔn)。

3.1 CAT模擬實(shí)驗(yàn)設(shè)計(jì)

此次模擬研究的題庫(kù)選自一次真實(shí)大規(guī)模測(cè)評(píng)的400道試題，這些題目被標(biāo)定使用三參數(shù)Logistic模型：

其中θ表示相應(yīng)被試者的能力值表示當(dāng)能力值為θ時(shí)正確作答某題目的概率，a表示題目的區(qū)分度參數(shù)，b表示題目的難度參數(shù)，c表示題目的猜測(cè)參數(shù)[28]。

表1 全題庫(kù)及各內(nèi)容板塊試題三參數(shù)的描述性統(tǒng)計(jì)量

測(cè)試包含三個(gè)內(nèi)容板塊，每個(gè)板塊分別占總試題的40%、30%、30%，即每個(gè)板塊分別包含試題160道、120道、120道。表1羅列了全卷及各內(nèi)容板塊相應(yīng)試題三參數(shù)的描述性統(tǒng)計(jì)量。

此次模擬研究中，計(jì)算機(jī)自適應(yīng)考試試題長(zhǎng)度固定為40題，同時(shí)對(duì)整個(gè)選題過(guò)程實(shí)現(xiàn)內(nèi)容控制，這樣三個(gè)內(nèi)容板塊分別包含的題量為16道、12道、12道。對(duì)于每個(gè)考生或每次考試，每個(gè)內(nèi)容板塊試題的出現(xiàn)順序是通過(guò)隨機(jī)的方式預(yù)先設(shè)定的：分別使用數(shù)字1、2、3來(lái)代表三個(gè)內(nèi)容板塊，在實(shí)驗(yàn)中使用16個(gè)1、12個(gè)2、12個(gè)3，分別通過(guò)隨機(jī)重新排列這些數(shù)字以獲得考試中試題內(nèi)容板塊的出現(xiàn)順序，例如，第k個(gè)數(shù)字是1，那么被選取的第k題則來(lái)自第一個(gè)內(nèi)容板塊。

給定一個(gè)考生真實(shí)能力值和一道試題，通過(guò)標(biāo)準(zhǔn)IRT方法，使用其相應(yīng)的真實(shí)能力值以及試題參數(shù)來(lái)產(chǎn)生模擬分?jǐn)?shù)（1或0）：從（0，1）均勻分布中產(chǎn)生的一個(gè)隨機(jī)數(shù)，如果該數(shù)小于基于三參數(shù)Logistic模型計(jì)算所得的正確作答的概率，那么相應(yīng)模擬分?jǐn)?shù)被賦值為1，否則為0。

模擬考生的人數(shù)為10 000人。對(duì)于每一個(gè)考生，前三道試題從預(yù)先設(shè)定的內(nèi)容板塊中曝光率較低的試題中選出，曝光率越低越會(huì)被選中。此后的選題方法是結(jié)合了內(nèi)容控制和曝光控制的最大信息量選題法[27]。在此次模擬研究中，試題曝光率會(huì)受到嚴(yán)格控制，當(dāng)前考生的考題只會(huì)在那些曝光率低于最大曝光率并滿(mǎn)足限制條件的試題中挑選信息量最大的。試題最大曝光率被限定為0.20。注意當(dāng)所有試題被等概率使用時(shí)，平均試題曝光率為0.10（即40/400）。

在選題過(guò)程中，此次模擬研究使用后驗(yàn)期望（EAP）方法[29]來(lái)估計(jì)考生當(dāng)前的能力水平，該方法使用標(biāo)準(zhǔn)正態(tài)分布作為能力值的先驗(yàn)分布。而考生的最終能力估計(jì)是用最大似然估計(jì)法（MLE）來(lái)得到的。

在此次模擬計(jì)算機(jī)自適應(yīng)考試的過(guò)程中，一旦一道試題的曝光次數(shù)達(dá)到150次（即 n0=150）就啟動(dòng)序貫監(jiān)控程序來(lái)監(jiān)測(cè)這一試題。這樣，實(shí)際被監(jiān)測(cè)的試題數(shù)量即為題庫(kù)中曝光次數(shù)大于或等于150次的試題數(shù)量。此次模擬研究考慮4個(gè)不同的移動(dòng)樣本量，m=25,50,75,100。

在每種模擬條件下，模擬實(shí)驗(yàn)將重復(fù)1 000次。對(duì)于每一次重復(fù)模擬，首先將記錄下列結(jié)果：被監(jiān)測(cè)試題數(shù)量，被錯(cuò)誤標(biāo)識(shí)為泄露的試題數(shù)量（即犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤），以及發(fā)生錯(cuò)誤標(biāo)識(shí)前該題被使用的次數(shù)（即犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤前的考生數(shù)量）。然后計(jì)算觀測(cè)到的犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率（即被錯(cuò)誤標(biāo)識(shí)試題數(shù)量與被監(jiān)測(cè)試題數(shù)量的比率）和其相對(duì)應(yīng)的第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤發(fā)生前的考生數(shù)量均值。犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率當(dāng)然是越小越好，不過(guò)人們通常選擇合適的臨界點(diǎn)來(lái)控制犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率，而犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤前的考生數(shù)量當(dāng)然是越大越好。一道試題被用了200次就被錯(cuò)誤標(biāo)識(shí)為泄露與一道試題被用了800次才被錯(cuò)誤標(biāo)識(shí)為泄露相比，前者的錯(cuò)誤更為嚴(yán)重。

3.2 臨界點(diǎn)確定

對(duì)于給定的顯著性水平α（0.01或0.05），需要在所有原假設(shè)都成立（即沒(méi)有試題泄露）的條件下，通過(guò)模擬實(shí)驗(yàn)來(lái)確定本研究介紹的這兩種序貫監(jiān)控程序相應(yīng)的臨界值cα。這一模擬實(shí)驗(yàn)通常在一個(gè)標(biāo)準(zhǔn)狀況下完成。這里所謂的“標(biāo)準(zhǔn)狀況”，具體地說(shuō)，是在模擬實(shí)驗(yàn)中考生真實(shí)能力值是從均值為0、標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布中相互獨(dú)立產(chǎn)生，θn～N（0,1），n=1,2,...,N。這里N是模擬考生的人數(shù)，在本研究中N=10 000。在這種標(biāo)準(zhǔn)狀況下，考生整體水平?jīng)]有隨時(shí)間有任何變化。

具體的做法是：首先在標(biāo)準(zhǔn)狀況下，用重復(fù)模擬實(shí)驗(yàn)來(lái)確定本文介紹的這兩種序貫監(jiān)控程序在可能的臨界值下犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率，從而建立臨界值與犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤概率對(duì)應(yīng)的表格，最后監(jiān)控程序使用者根據(jù)選定的顯著性水平α（例如0.01或0.05）來(lái)查取相應(yīng)的臨界值。

基于1 000次的重復(fù)模擬，平均被監(jiān)測(cè)試題數(shù)量為272道題。像前面指出的那樣，這個(gè)平均被監(jiān)測(cè)的試題數(shù)量即為在這1 000次的重復(fù)模擬中，題庫(kù)里曝光次數(shù)大于或等于150次的試題的平均數(shù)。

模擬結(jié)果表明21個(gè)可能的臨界數(shù)值，3.00, 3.05,…,4.00，相對(duì)應(yīng)的犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率的范圍已涵蓋了通常選用的顯著性水平的取值，即0.01和0.05。因此，表2至表5只給出了從3.00到4.00（步長(zhǎng)為0.05）的21個(gè)可能的臨界數(shù)值所對(duì)應(yīng)的犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率。表2至表5是對(duì)應(yīng)于4個(gè)不同移動(dòng)樣本量的模擬實(shí)驗(yàn)結(jié)果，即在這21個(gè)可能的臨界點(diǎn)下，這兩種序貫監(jiān)控程序在這1 000次的重復(fù)模擬中犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的平均比率和犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤前的平均考生數(shù)量。從這些表中可以看出，隨著臨界點(diǎn)取值的升高，犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率會(huì)持續(xù)降低。

下面來(lái)說(shuō)明如何使用表2至表5來(lái)選取合適的臨界值。假如預(yù)設(shè)的顯著性水平為α=0.01，移動(dòng)樣本量預(yù)設(shè)為m=25時(shí)，據(jù)表2查得，當(dāng)臨界點(diǎn)為3.85時(shí)，基于CTT方法犯第Ⅰ類(lèi)錯(cuò)誤的概率是0.0101，而當(dāng)臨界點(diǎn)為3.90時(shí)，基于CTT方法犯第Ⅰ類(lèi)錯(cuò)誤的概率是0.0081。為了把犯第Ⅰ類(lèi)錯(cuò)誤的概率控制在α=0.01以下，當(dāng)移動(dòng)樣本量預(yù)設(shè)為m=25時(shí)，為CTT方法選取的臨界值應(yīng)為c0.01（CTT）=3.90。當(dāng)然，為了得到更精確的臨界值，可以建立更為精細(xì)的表

格以供查用。監(jiān)控程序使用者也可以使用插值的方法來(lái)選取臨界值為c0.01（CTT）=3.86。本文為方便起見(jiàn)只用表中數(shù)值。同樣，當(dāng)移動(dòng)樣本量預(yù)設(shè)為m=25時(shí)，選取基于IRT方法的臨界值為c0.01（CTT）= 3.85。

表2 在理想狀況下，不同臨界點(diǎn)相應(yīng)的犯第Ⅰ類(lèi)錯(cuò)誤的概率均值與犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤前的考生數(shù)量均值（移動(dòng)樣本量為25）

表3 在理想狀況下，不同臨界點(diǎn)相應(yīng)的犯第Ⅰ類(lèi)錯(cuò)誤的概率均值與犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤前的考生數(shù)量均值（移動(dòng)樣本量為50）

表4 在理想狀況下，不同臨界點(diǎn)相應(yīng)的犯第Ⅰ類(lèi)錯(cuò)誤的概率均值與犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤前的考生數(shù)量均值（移動(dòng)樣本量為75）

表5 在理想狀況下，不同臨界點(diǎn)相應(yīng)的犯第Ⅰ類(lèi)錯(cuò)誤的概率均值與犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤前的考生數(shù)量均值（移動(dòng)樣本量為100）

表6羅列了在不同移動(dòng)樣本量下，當(dāng)顯著性水平預(yù)設(shè)為α=0.01或0.05時(shí)，從表2至表5查找出來(lái)的臨界值cα以及第Ⅰ類(lèi)錯(cuò)誤發(fā)生前使用該題的考生數(shù)量均值。換句話(huà)說(shuō)，表6綜合了表2至表5中的相關(guān)信息，概括了在4個(gè)不同移動(dòng)樣本量下，對(duì)應(yīng)于常用的顯著性水平的臨界點(diǎn)和相應(yīng)犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤前的平均考生數(shù)量。

本研究只報(bào)告了犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率，如希望進(jìn)一步了解有關(guān)犯第Ⅱ類(lèi)統(tǒng)計(jì)錯(cuò)誤概率的信息，可以參閱Zhang[18]及Zhang&Li[19]發(fā)表的文章。在實(shí)際應(yīng)用中，監(jiān)控程序使用者需要為不同的監(jiān)控程序選取最佳的移動(dòng)樣本量。如果僅考慮犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤前的考生數(shù)量的大小，從表6可以看出，CTT序貫監(jiān)控方法的最佳移動(dòng)樣本量為m（CTT）= 50,而IRT序貫監(jiān)控方法的最佳移動(dòng)樣本量為m（IRT）=25。當(dāng)然，監(jiān)控程序使用者在選取最佳的移動(dòng)樣本量時(shí)還需考慮犯第Ⅱ類(lèi)統(tǒng)計(jì)錯(cuò)誤概率，使之最小化。從表6也可以看出，IRT序貫監(jiān)控方法犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤前的考生數(shù)量普遍比相應(yīng)CTT序貫監(jiān)控方法的大，而這個(gè)指標(biāo)是越大越好。

3.3 兩種序貫監(jiān)控程序的穩(wěn)健性比較

計(jì)算機(jī)自適應(yīng)考試的題庫(kù)通常會(huì)使用較長(zhǎng)一段時(shí)間，幾個(gè)月甚至幾年?？忌恼w水平有可能隨時(shí)間而變化。例如，3月份考生的整體水平比1月份的高。本研究考慮以下兩種考生整體水平隨時(shí)間而變化的情況。

（1）模擬考生整體水平隨時(shí)間有季節(jié)（周期）性變化：考生真實(shí)能力值n=1,2,...,10 000。即考生真實(shí)能力均值隨n有季節(jié)（周期）性變化。例如θ1～N（0.0003,1），θ2500～N（0.5,1），θ5000～N（0,1），θ7500～N（-0.5,1），θ10000～N（0,1）。

（2）模擬考生整體水平隨時(shí)間有持續(xù)提高趨勢(shì)：考生真實(shí)能力值θn～N（0.5n/10000,1），n=1,2,..., 10 000。即考生真實(shí)能力均值隨n有持續(xù)提高的趨勢(shì)。例如θ1～N（0.0,1），θ2000～N（0.1,1），θ4000～N（0.2,1），θ10000～N（0.5,1）。

給定顯著性水平0.01或0.05，序貫監(jiān)控方法中的臨界點(diǎn)是在標(biāo)準(zhǔn)狀態(tài)（考生整體水平隨時(shí)間沒(méi)有變化）下得到的。現(xiàn)在考生整體水平隨時(shí)間有變化，就需要考察這兩種序貫監(jiān)控方法犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率是否變大，是否超出預(yù)設(shè)的顯著性水平。在犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤概率得到控制的前提下，再來(lái)考察第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤發(fā)生的位置是否有變化。換句話(huà)說(shuō)，這一節(jié)中的模擬試驗(yàn)是用來(lái)研究這兩種序貫監(jiān)控方法的穩(wěn)健性。

表6 在不同顯著性水平下，臨界點(diǎn)與相應(yīng)犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤前的考生數(shù)量均值（標(biāo)準(zhǔn)差）

表7概括了在考生整體水平有季節(jié)性變化的情況下，這兩種序貫監(jiān)控方法使用在標(biāo)準(zhǔn)條件下得到的臨界點(diǎn)（參見(jiàn)表6）及在不同移動(dòng)樣本量下，犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率均值和犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤前的考生數(shù)量均值。

在考生整體水平有本研究所模擬的季節(jié)性變化時(shí)，這兩種序貫監(jiān)控方法犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率與相應(yīng)的預(yù)設(shè)顯著性水平（0.01或0.05）可以通過(guò)t-檢驗(yàn)進(jìn)行比較。本研究中t-檢驗(yàn)的顯著性水平均設(shè)為0.05。結(jié)果表明,在本研究所考慮的4個(gè)不同移動(dòng)樣本量的情況中，這兩種序貫監(jiān)控方法犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率都沒(méi)有顯著超出相應(yīng)的預(yù)設(shè)顯著性水平。但是，通過(guò)t-檢驗(yàn)比較，在所有考慮的情況中，IRT方法犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤前的考生平均數(shù)都比CTT方法相應(yīng)的平均數(shù)大。這些結(jié)果表明在考生整體水平有季節(jié)性變化時(shí)，這兩種序貫監(jiān)控方法都能很好地控制犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率，而在犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤前的考生平均數(shù)方面，IRT方法略好于CTT方法。

我們還可以通過(guò)t-檢驗(yàn)比較各個(gè)方法犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤前的考生數(shù)由考生整體水平?jīng)]有變化到有季節(jié)性變化的前后變化（參見(jiàn)表6和表7）。結(jié)果表明CTT方法的該指標(biāo)數(shù)，在所考慮的4個(gè)不同移動(dòng)樣本量中，全面顯著變差（變小）；然而IRT方法的該指標(biāo)數(shù)只有在移動(dòng)樣本量為75或100時(shí)顯著性變差，而在移動(dòng)樣本量為25時(shí)變好。

表8概括出在考生整體水平有連續(xù)提高趨勢(shì)的情況下，這兩種序貫監(jiān)控方法使用在標(biāo)準(zhǔn)條件下得到的臨界點(diǎn)及在不同移動(dòng)樣本量下，犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率均值和犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤前的考生平均數(shù)。通過(guò)t-檢驗(yàn)進(jìn)行比較，發(fā)現(xiàn)在本研究所考慮的4個(gè)不同移動(dòng)樣本量的情況中，IRT方法犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率都沒(méi)有顯著超出相應(yīng)的預(yù)設(shè)顯著性水平。但是，除了當(dāng)移動(dòng)樣本量為25時(shí)，CTT方法犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率都顯著超出相應(yīng)的預(yù)設(shè)顯著性水平。這些結(jié)果表明IRT序貫監(jiān)控方法能很好地控制犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率，而CTT方法卻不能在所有4個(gè)不同移動(dòng)樣本量的情形中控制好犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率。另外，通過(guò)t-檢驗(yàn)表明，在所有4個(gè)不同移動(dòng)樣本量的情形中，IRT方法犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤前的考生平均數(shù)都比CTT方法相應(yīng)的平均數(shù)大。

我們也可以通過(guò)t-檢驗(yàn)比較各個(gè)方法犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤前的考生數(shù)由考生整體水平?jīng)]有變化到有連續(xù)提高趨勢(shì)的前后變化（參見(jiàn)表6和表8）。結(jié)果表明CTT方法的該指標(biāo)數(shù)，在所考慮的4個(gè)不同移動(dòng)樣本量中，全面顯著變好（變大）；然而IRT方法的該指標(biāo)數(shù)值有增有減，例如，當(dāng)移動(dòng)樣本量為25時(shí)，該指標(biāo)數(shù)值顯著變差（變小），而當(dāng)移動(dòng)樣本量為100時(shí)顯著變大。

表7 在有季節(jié)性變化情況下，不同顯著性水平相應(yīng)的犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率的均值，犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤前的考生數(shù)量均值及其標(biāo)準(zhǔn)差

4 討論

本研究對(duì)基于CTT和IRT的兩種實(shí)時(shí)序貫監(jiān)控方法在考生水平變化的情況下進(jìn)行了統(tǒng)計(jì)穩(wěn)健性的比較。首先，在標(biāo)準(zhǔn)狀況下，根據(jù)預(yù)設(shè)的顯著性水平，確定這兩種監(jiān)控方法各自統(tǒng)計(jì)檢驗(yàn)的臨界點(diǎn)；然后再模擬考生整體水平有季節(jié)性變化或連續(xù)提高趨勢(shì)的情況下，檢查這兩種監(jiān)控方法犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率是否變大，是否超出預(yù)設(shè)的顯著性水平。

在模擬考生整體水平有季節(jié)性變化的情況下，基于經(jīng)典測(cè)量理論的序貫監(jiān)控方法犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率能夠被有效地控制在預(yù)設(shè)的顯著性水平之下，然而，犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤發(fā)生前使用該題的考生數(shù)量，較考生整體水平?jīng)]有任何變化的情況而言，顯著下降。因此，在這種情況下，該方法的穩(wěn)健性表現(xiàn)不夠理想。在模擬考生整體水平隨時(shí)間有持續(xù)提高趨勢(shì)的情況下，該方法犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率有所上升，特別當(dāng)移動(dòng)樣本量大于25時(shí)，該方法犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率顯著地超出了預(yù)設(shè)的顯著性水平。然而，結(jié)果也顯示，第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤發(fā)生前使用該題的考生數(shù)量，較考生整體水平?jīng)]有任何變化的情況而言，有顯著上升。

基于項(xiàng)目反應(yīng)理論的序貫監(jiān)控方法，在模擬考生整體水平隨時(shí)間有季節(jié)性變化和有持續(xù)提高趨勢(shì)這兩種情況下，都表現(xiàn)出了較好的穩(wěn)健性，即犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率被很好地控制在預(yù)設(shè)的顯著性水平之下。評(píng)價(jià)一個(gè)統(tǒng)計(jì)檢驗(yàn)方法穩(wěn)健性的最重要的指標(biāo)是在狀況或條件發(fā)生變化時(shí)，該方法犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率能否被很好地控制在預(yù)設(shè)的顯著性水平之下。在這一標(biāo)準(zhǔn)下，基于項(xiàng)目反應(yīng)理論的序貫監(jiān)控方法比基于經(jīng)典測(cè)量理論的方法表現(xiàn)得更為穩(wěn)健。

至于另一個(gè)指標(biāo)，第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤發(fā)生前使用該題的考生數(shù)量，在模擬考生整體水平有季節(jié)性變化的情況下，基于經(jīng)典測(cè)量理論的序貫監(jiān)控方法顯著低于基于項(xiàng)目反應(yīng)理論的方法；而在模擬考生整體水平隨時(shí)間有持續(xù)提高趨勢(shì)的情況下，基于經(jīng)典測(cè)量理論的方法顯著高于基于項(xiàng)目反應(yīng)理論的方法。

總之，基于項(xiàng)目反應(yīng)理論的序貫監(jiān)控方法對(duì)本研究所模擬的非標(biāo)準(zhǔn)狀況均表現(xiàn)出了較強(qiáng)的適應(yīng)性及優(yōu)良的穩(wěn)健性，而基于經(jīng)典測(cè)量理論的序貫監(jiān)控方法會(huì)在不同程度上受到影響，監(jiān)測(cè)效果相較于考生整體水平?jīng)]有任何變化的情況而言，有所下降。因此，在本研究所模擬的非標(biāo)準(zhǔn)狀況下，基于項(xiàng)目反應(yīng)理論的序貫監(jiān)控方法的穩(wěn)健性表現(xiàn)優(yōu)于基于經(jīng)典測(cè)量理論的序貫監(jiān)控方法。

表8 在考生整體水平有連續(xù)提高趨勢(shì)的情況下，不同顯著性水平相應(yīng)的犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤的概率的均值，犯第Ⅰ類(lèi)統(tǒng)計(jì)錯(cuò)誤前的考生數(shù)量均值及其標(biāo)準(zhǔn)差

項(xiàng)目參數(shù)標(biāo)定的準(zhǔn)確性是確保計(jì)算機(jī)自適應(yīng)考試系統(tǒng)成功的必要條件。在本項(xiàng)研究中，假定這一條件已滿(mǎn)足，但在實(shí)際的自適應(yīng)考試過(guò)程中，項(xiàng)目參數(shù)可能會(huì)出現(xiàn)漂移，這時(shí)基于項(xiàng)目反應(yīng)理論的序貫監(jiān)控方法就需要作出相應(yīng)的調(diào)整。

[1]漆書(shū)青,戴海崎,丁樹(shù)良.現(xiàn)代教育與心理測(cè)量學(xué)原理[M].北京:高等教育出版社,2002.

[2]CHANG H,ZHANG J.Hypergeometric family and test overlap rates in computerized adaptive testing[J].Psychometrika,2002（67）:387-398.

[3]CHANG H,ZHANG J.Assessing CAT security breaches by the item pooling index[C]//Paper presented at the Annual Meeting of Nation?al Council on Measurement in Education.Chicago,IL,2003.

[4]DAVEY T,NERING N.Controlling item exposure and maintaining item security[M]//MILLS C N,POTENZA M T,FREMER J J, WARD W C.Computer-based testing:Building the foundation for future assessments.Mahwah,NJ:Lawrence Erlbaum,2002:165-191.

[5]GUO J,TAY L,DRASGOW F.Conspiracies and test compromise: An evaluation of the resistance of test systems to small-scale cheat?ing[J].International Journal of Testing,2009（9）:283-309.

[6]MCLEOD L,LEWIS C,THISSEN D.A Bayesian method for the de?tection of item preknowledge in computerized adaptive testing[J]. Applied Psychological Measurement,2003（27）:121-137.

[7]WAY W D.Protecting the integrity of computerized testing item pools[J].Educational Measurement:Issues and Practice,1998（Win?ter）:17-27.

[8]YI Q,ZHANG J,CHANG H.Severity of organized item theft in com?puterized adaptive testing:A simulation study[J].Applied Psycholog?ical Measurement,2008（32）:543-558.

[9]ZHANG J,CHANG H,YI Q.Comparing single-pool and multiplepool designs regarding test security in computerized testing[J].Be?havior Research Methods,2012（44）:742-752.

[10]HETTER R,SYMPSON B.Item exposure control in CAT-ASVAB [M]//SANDS W,WATERS B,McBRIDE J.Computerized adaptive testing:From inquiry to operation.Washington,DC:American Psy?chological Association,1997:141-144.

[11]MILLS C N,STEFFEN M.The GRE computer adaptive test:Opera?tional issues[M]//VAN DER LINDEN W J,GLAS C A W.Compu?erized Adaptive Testing:Theory and Practice.The Netherlands: Kluwer Academic Publishers,2000:75-99.

[12]STOCKING M L.Three practical issues for modern adaptive testing item pools（ETS RR-94-5）[R].Princeton,NJ:ETS,1994.

[13]STOCKING M L,LEWIS C.A new method of controlling item expo?sure in computerized adaptive testing（ETS RR-95-25）[R].Prince?ton,NJ:ETS,1995.

[14]STOCKING M L,LEWIS C.Controlling item exposure conditional on ability in computerized adaptive testing[J].Journal of Education?al and Behavioral Statistics,1998（23）:57-75.

[15]SYMPSON J B,HETTER R D.Controlling item-exposure rates in computerized adaptive testing[C]//Proceedings of the 27th annual meeting of the Military Testing Association.San Diego,CA:Navy Personnel Research and Development Center,1985:973-977.

[16]MILLS C N,STOCKING M L.Practical issues in large-scale com?puterized adaptive testing[J].Applied Measurement in Education, 1996（9）:287-304.

[17]CHEN S,ANKENMANN R D,SPRAY J A.The relationship be?tween item exposure and test overlap in computerized adaptive test?ing[J].Journal of Educational Measurement,2003（40）:129-145.

[18]ZHANG J.A sequential procedure for detecting compromised items in the item pool of a CAT system[J].Applied Psychological Mea?surement,2014（38）:87-104.DOI:10.1177/0146621613510062.

[19]ZHANG J,LI J.Monitoring Items in Real Time to Enhance CAT Se?curity[J].Journal of Educational Measurement,2016,53（2）:131-151.DOI:10.1111/jedm.12104.

[20]ANSCOMBE F J,GODWIN H J,PLACKETT R L.Methods of de?ferred sentencing in testing the fraction defective of a continuous output[J].Supplement to the Journal of the Royal Statistical Soci?ety,1947（9）:198-217.

[21]CARLSTEIN E.Nonparametric change-point estimation[J].Annals of Statistics,1988,16（1）:188-197.

[22]LORDEN G.Procedures for reacting to a change in distribution[J]. Annals of Mathematical Statistics,1971,42（6）:1897-1908.

[23]PAGE E S.Continuous inspection schemes[J].Biometrika,1954（41）:100-115.

[24]POLLAK M.Optimal detection of a change in distribution[J].An?nals of Statistics,1985（13）:206-227.

[25]SIEGMUND D.Sequential Analysis[M].New York,NY:Springer, 1985.

[26]SIEGMUND D.Boundary crossing probabilities and statistical ap?plications[J].Annals of Statistics,1985,14（2）:361-404.

[27]LORD F M.Applications of item response theory to practical test?ing problems[M].Hillsdale,NJ:Lawrence Erlbaum Associates, 1980.

[28]羅照盛.項(xiàng)目反應(yīng)理論基礎(chǔ)[M].北京:北京師范大學(xué)出版社, 2012.

[29]BOCK R D,MISLEVY R J.Adaptive EAP estimation of ability in a microcomputer environment[J].Applied Psychological Measure?ment,1982（6）:431-444.

Robustness of CTT-and IRT-based Sequential Procedures for Detecting Compromised Items in CAT

ZHANG Jinming,CAO Canxi,JIE Yongjing
（University of Illinois at Urbana-Champaign,Illinois 61822,US）

CTT-and IRT-based sequential procedures are introduced for monitoring items in a CAT item pool in order to identify compromised items in real time,remove or replace them with appropriate new items,and ultimately enhance test security and validity.This article focuses on the robustness of these two procedures when the overall ability of test takers increases with time or changes seasonally.Specifically,it investigates whether the rates of type I errors of the two procedures become larger than the corresponding significance level in these two scenarios.Results from simulation studies demonstrate that the IRT-based sequential procedure is more robust than the CTT-based one in the settings specified in the article.

Computerized Adaptive Testing;Item Response Theory;Classical Testing Theory;Item Exposure; Change-point Problem;Sequential Method

G405

1005-8427（2017）02-0020-14

10.19360/j.cnki.11-3303/g4.2017.02.004

（責(zé)任編輯：陳睿）

本研究得到中國(guó)國(guó)家漢語(yǔ)國(guó)際推廣領(lǐng)導(dǎo)小組辦公室提供的部分資助。

張金明（1962—），男，博士，美國(guó)伊利諾伊大學(xué)香檳分校，副教授；曹燦兮（1990—），女，美國(guó)伊利諾伊大學(xué)香檳分校，在讀研究生；揭勇菁（1991—），男，美國(guó)伊利諾伊大學(xué)香檳分校，在讀研究生。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

實(shí)時(shí)監(jiān)控計(jì)算機(jī)自適應(yīng)考題的兩種方法及其穩(wěn)健性比較

1 引言

2 序貫監(jiān)控方法

3 模擬研究

4 討論