黎 佳
(福建師范大學(xué)閩南科技學(xué)院, 福建 泉州 362332)
隨著計(jì)算機(jī)的快速發(fā)展,目前正逐漸興起一種新型的智能測(cè)驗(yàn)形式:基于項(xiàng)目反應(yīng)理論的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)(CAT)。在CAT中,選題策略是其核心部分,它直接影響測(cè)驗(yàn)的準(zhǔn)確性、安全性以及測(cè)驗(yàn)信度和效度。
目前這方面的研究較多[1-3],最早提出的是最大信息量選題策略,對(duì)于中間群體的被試者來說,這類方法的精度很高,但最不穩(wěn)定。因?yàn)榭偞嬖谝恍〔糠秩巳?,他們的誤差特別大。針對(duì)這個(gè)缺陷研究者們提出了一些改進(jìn)方法,比如帶b分塊的按a分層選題策略[2,4],即在測(cè)驗(yàn)開始時(shí)用區(qū)分度小的項(xiàng)目,隨后逐層增加項(xiàng)目的區(qū)分度,使被試者的能力估計(jì)值變化的不會(huì)太快或讓預(yù)測(cè)驗(yàn)達(dá)到一定的信息量。這種策略是一種技巧性或經(jīng)驗(yàn)性的方法,其缺乏強(qiáng)有力的理論證明。當(dāng)測(cè)驗(yàn)變化后,必須對(duì)該方法進(jìn)行相應(yīng)的調(diào)試或修正,雖然這類方法有效地降低了誤差發(fā)生的概率,但未能有效降低最大誤差。隨后,為了增加測(cè)驗(yàn)的穩(wěn)定性,出現(xiàn)了貝葉斯網(wǎng)選題策略[1],即根據(jù)被試者的分布概率來選題。這樣可提高測(cè)驗(yàn)的穩(wěn)定性,但卻出現(xiàn)了貝葉斯誤差。這些選題策略的缺點(diǎn)是在每一次選題時(shí)需要對(duì)題庫中每一個(gè)項(xiàng)目的信息量進(jìn)行繁瑣地計(jì)算,有的甚至不能直接求解。
針對(duì)傳統(tǒng)選題策略的這些特點(diǎn)以及IRT自身的缺陷,本文提出了一種能解決這些問題的方法。首先將被試能力值離散化,接著在測(cè)驗(yàn)過程中預(yù)測(cè)下一步,即若選了該題,測(cè)驗(yàn)正確估計(jì)被試者能力的概率。且在計(jì)算被試者的估計(jì)能力時(shí)使用最大期望判準(zhǔn)率[5]的方法,以減少計(jì)算量。
為了驗(yàn)證該方法的有效性,進(jìn)行了2組模擬實(shí)驗(yàn)。一組是模擬題庫測(cè)驗(yàn),將該方法與最大信息量選題策略進(jìn)行比較,分析二者對(duì)誤差的控制;另一組是用某省試題的真實(shí)項(xiàng)目參數(shù)做模擬(試題參數(shù)來自該考試院公報(bào)),與傳統(tǒng)選題策略進(jìn)行比較,分析其對(duì)穩(wěn)定性的影響。
最大信息量法[1-2]是計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)中最常用的一種選題策略。它的基本思想是首先估計(jì)被試的能力初始值,然后用當(dāng)前的能力估計(jì)值逐一計(jì)算題庫中未使用的項(xiàng)目的信息量,接著再從題庫中選出能夠提供Fisher Information最大的項(xiàng)目作為下一個(gè)項(xiàng)目提供給被試者,最后對(duì)被試的能力值重新估計(jì),直到完成規(guī)定的測(cè)驗(yàn)項(xiàng)目數(shù)為止。這種選題策略的目的在于提高測(cè)量的精度且實(shí)施方法比較簡(jiǎn)單,然而這種策略極易導(dǎo)致題庫中項(xiàng)目曝光不均勻,降低了測(cè)驗(yàn)的安全性及題庫的利用率。該策略是一種區(qū)分度遞減的算法,增加了初始能力估計(jì)的不穩(wěn)定性,如果考生一開始連續(xù)做錯(cuò)幾道題,最終得分將偏低,反之得分會(huì)偏高。
期望判準(zhǔn)率是指通過被試對(duì)某個(gè)項(xiàng)目的反應(yīng)來將真實(shí)模式為A模式的被試與B模式的被試進(jìn)行正確區(qū)分的概率,記作PA|B。
一般情況下,當(dāng)A模式=B模式時(shí),PA|B記為1。當(dāng)A模式≠B模式且A、B模式的被試對(duì)該項(xiàng)目的理想反應(yīng)為 1、0時(shí),PA|B記為1-s。當(dāng)A模式≠B模式且A、B模式的被試對(duì)該項(xiàng)目的理想反應(yīng)為 0、1 時(shí),PA|B記為1-g。當(dāng)A模式≠B模式且A、B模式的被試對(duì)該項(xiàng)目的理想反應(yīng)為 0、0(或 1、1)時(shí),PA|B記為0.5。
當(dāng)B模式不只一種且真實(shí)模式A無法預(yù)知時(shí),假設(shè)B∈β,A∈α,集合α、β中的元素個(gè)數(shù)大于 1,則該項(xiàng)目的期望判準(zhǔn)率為
Pt=EA(EBPA|B)
=∑A∈α∑B∈βft(A)ft(B)*pA|B
其中ft(B)表示該被試在已經(jīng)測(cè)驗(yàn)了t個(gè)項(xiàng)目時(shí)(t=0,1,2,…),該被試為B模式的被試的條件概率。
首先將被試能力值離散化,利用高斯近似[6]選擇劃分點(diǎn)。由于能力值[-3,3]服從正態(tài)分布,選取被考慮的劃分點(diǎn)數(shù)目為30,它們產(chǎn)生Xj的值域的k+1個(gè)等密度區(qū)域(Xj為連續(xù)預(yù)測(cè)值,k為被考慮的劃分點(diǎn)數(shù)目)。
設(shè){c1,c2,…,c30}為30個(gè)劃分點(diǎn)的集合,選擇ci:
式中:Φ-1— 標(biāo)準(zhǔn)高斯累積分布函數(shù)的逆;μL、δL—分別是與L相關(guān)的Xj的均值和標(biāo)準(zhǔn)差。
在測(cè)驗(yàn)過程中計(jì)算當(dāng)前被試已經(jīng)做了t(t=0,1,2,…)個(gè)項(xiàng)目時(shí)的剩余題庫中每一類項(xiàng)目的期望判準(zhǔn)率,使用期望判準(zhǔn)率最大的一類項(xiàng)目中隨機(jī)的抽取一題作為被試的下一題,根據(jù)被試對(duì)該項(xiàng)目的反應(yīng)重新對(duì)被試進(jìn)行估計(jì),如此反復(fù)直到測(cè)驗(yàn)達(dá)到預(yù)定長(zhǎng)度為止,將最終的估計(jì)結(jié)果作為該被試的最終測(cè)驗(yàn)結(jié)果。
在以下2組實(shí)驗(yàn)中,將被試能力值區(qū)間[-3,3]等分30份,使用最大期望判準(zhǔn)率來計(jì)算每次被試者的估計(jì)能力。參數(shù)估計(jì)使用MLE極大似然估計(jì)[7],實(shí)驗(yàn)指標(biāo)用絕對(duì)誤差ds的均值ds_m,標(biāo)準(zhǔn)差ds_std,最大值ds_max來表示。
2.2.1 模擬題庫
為了消除題庫容量和測(cè)驗(yàn)長(zhǎng)度對(duì)測(cè)驗(yàn)的影響,這里將題庫設(shè)計(jì)的足夠大和測(cè)驗(yàn)足夠長(zhǎng)。測(cè)驗(yàn)?zāi)P褪褂玫氖?PLM,記分方式:0-1,lna~N(0,1)b~N(0,1),c=0;被試theta~N(0,1) 。題庫容量M=1 000,測(cè)驗(yàn)長(zhǎng)度L=35 、被試人數(shù)N=1 000,實(shí)驗(yàn)次數(shù)30次。
實(shí)驗(yàn)結(jié)果見表1和表2。
表1 最大信息量選題策略測(cè)試結(jié)果
表2 新方法測(cè)試結(jié)果
兩種方法的測(cè)驗(yàn)結(jié)果相近,但新方法誤差更小。且選擇最大信息量策略會(huì)存在少部分誤差比較大的點(diǎn)。新方法的帶寬比較窄,且誤差最大的點(diǎn)分布在兩頭,且最大誤差遠(yuǎn)遠(yuǎn)小于最大信息量選題方法。
2.2.2 用某省試題的真實(shí)項(xiàng)目參數(shù)做模擬
用某省試題的真實(shí)項(xiàng)目參數(shù)做模擬,題庫容量M=27×5=135。測(cè)驗(yàn)長(zhǎng)度L=27,測(cè)驗(yàn)?zāi)P褪褂?PLM+GRM混合模型,被試theta~N(0,1),被試人數(shù)N=1 000,實(shí)驗(yàn)次數(shù)30次。實(shí)驗(yàn)結(jié)果見表3和表4。顯然使用新方法選題會(huì)更穩(wěn)定。
表3 最大信息量選題策略測(cè)試結(jié)果
表4 新方法測(cè)試結(jié)果
在穩(wěn)定性和誤差最大值控制方面,本文提出的方法都較傳統(tǒng)選題策略的性能要好,解決了傳統(tǒng)選題策略中對(duì)被試的估計(jì)不可以直接求解的問題,明確了選題策略的方向,使選題測(cè)驗(yàn)結(jié)果最佳。
目前計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)的研究正在起步階段,本文僅對(duì)傳統(tǒng)選題策略的一些缺陷作了初步的研究,還有待今后更深入的研究。
[1] RobR Meijer,MichaelL Nering.Computerized Adaptive Testing:Overview and Introduction[J].Applied Psychological Measurement,1999,23(3):187-194.
[2] 林海菁.具有認(rèn)知診斷功能的CAT的研究與實(shí)現(xiàn)[D].南昌:江西師范大學(xué),2005.
[3] Tatsuoka K K.Computerized Cognitive Diagnostic Adaptive Testing:Effect on Remedial Instruction as Empirical Validation[J].Journal of Educational Measurement,1997,34(1):3-20.
[4] Hua-hua Chang,Zhiliang Ying.A-stratified Multistage Computerized Adaptive Testing[J].Applied Psychological Measurement,1999,23(3):211-222.
[5] 尚志勇,丁樹良.認(rèn)知診斷自適應(yīng)測(cè)驗(yàn)選題策略探析[J].江西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2011(4):418-421.
[6] 西蒙.數(shù)據(jù)挖掘基礎(chǔ)教程[M].范明,牛常勇譯.北京:機(jī)械工業(yè)出版社,2009.
[7] 漆書青,戴海崎,丁樹良.現(xiàn)代教育與心理測(cè)量學(xué)原理[M].北京:高等教育出版社,2002.