張濱
摘要:針對(duì)最大信息量選題策略中因項(xiàng)目曝光不均勻所導(dǎo)致的題庫安全性問題,在沿用曝光因子和自動(dòng)控制區(qū)分度函數(shù)的基礎(chǔ)上,在0-1評(píng)分的不定長(zhǎng)計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)下提出了一種新的選題策略。蒙特卡洛實(shí)驗(yàn)結(jié)果表明新的選題策略通過在測(cè)驗(yàn)過程中動(dòng)態(tài)控制曝光因子和區(qū)分度的大小,使信息量大的項(xiàng)目被選中的概率提高,既保證了測(cè)驗(yàn)的效率和精度,同時(shí)也較大程度地降低了項(xiàng)目的曝光率,提高了題庫的安全性。
關(guān)鍵詞:計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn);項(xiàng)目反應(yīng)理論;選題策略;項(xiàng)目信息量;蒙特卡洛模擬
中圖分類號(hào):TP391.76? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2023)31-0071-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)
0 引言
計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(Computerized Adaptive Test,CAT) 是以現(xiàn)代測(cè)量理論為基礎(chǔ),結(jié)合了計(jì)算機(jī)技術(shù)的一種新型測(cè)驗(yàn)形式。相比傳統(tǒng)的測(cè)驗(yàn)形式,計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)實(shí)現(xiàn)了個(gè)性化測(cè)驗(yàn),有著更精確的測(cè)量精度并且保證了測(cè)驗(yàn)過程更加公平,具有高效、準(zhǔn)確、公平、靈活等優(yōu)勢(shì)。目前,CAT廣泛應(yīng)用于各類考試中,如國外的美國研究生入學(xué)考試(GRE)、美國(工商)管理類研究生入學(xué)考試(GMAT) 以及國內(nèi)的漢語水平測(cè)試(HSK)、第四軍醫(yī)大學(xué)對(duì)應(yīng)征者進(jìn)行的文化水平測(cè)驗(yàn)都是采用CAT的測(cè)驗(yàn)形式。
在計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)中,選題策略是較為關(guān)鍵的一環(huán),不僅直接影響著測(cè)驗(yàn)的效率和精度,和題庫的安全性也密切相關(guān)。目前CAT中用得較多的選題策略是Lord[1]在1970年提出的最大Fisher信息量選題策略(Maximum Fisher Information, MFI) ,該選題策略的測(cè)驗(yàn)效率非常高,使用少量的項(xiàng)目就能夠快速準(zhǔn)確地估計(jì)被試的能力水平。然而,MFI對(duì)高區(qū)分度項(xiàng)目的過度使用使得這些項(xiàng)目的曝光次數(shù)較多,低區(qū)分度的項(xiàng)目被調(diào)用的次數(shù)較少,嚴(yán)重影響了題庫中項(xiàng)目曝光的均勻性,進(jìn)而對(duì)題庫的安全性產(chǎn)生威脅。后來學(xué)者們針對(duì)MFI在曝光度和安全性上的缺陷提出了不同的選題策略。Chang和Ying提出了按a分層法[2](a-STR) ,這是一種通過區(qū)分度的大小對(duì)題庫進(jìn)行分層實(shí)現(xiàn)逐層升a的選題策略。針對(duì)MFI選題策略的缺陷,結(jié)合按a分層法選題策略分層的思想,程小揚(yáng)和丁樹良等引入了三個(gè)新的變量提出了引入曝光因子的最大信息量選題策略,下面簡(jiǎn)稱程方法。這三個(gè)變量分別是項(xiàng)目j控制曝光因子ecf(j)、ecf(j)的調(diào)節(jié)因子[λi]以及區(qū)分度aj的冪函數(shù)a(j,T,k)。其中ecf(j)=mj / m,mj 是項(xiàng)目j被前m-1個(gè)被試使用的次數(shù),m是前m-1個(gè)被試使用題庫中所有項(xiàng)目的平均次數(shù)。[a(j,T,k)=a2(T-k)T-1j],T表示將測(cè)驗(yàn)過程中的選題分為T個(gè)階段,k(取值為1,2 ... T) 表示CAT進(jìn)行選題時(shí)項(xiàng)目j所處的階段[3]。在MFI選題策略基礎(chǔ)上引入曝光因子以及區(qū)分度函數(shù)后,項(xiàng)目的調(diào)用次數(shù)變得更加均勻,較大程度地改善了項(xiàng)目的曝光率。李萍和甘登文等考慮到引入曝光因子的CAT選題策略仍需對(duì)題庫進(jìn)行分層才能夠進(jìn)行選題,提出了不需要進(jìn)行分層就能自動(dòng)控制區(qū)分度作用的新選題策略[4],下面簡(jiǎn)稱李方法。通過引入新的區(qū)分度冪函數(shù)a(j,i)實(shí)現(xiàn)在測(cè)驗(yàn)過程中動(dòng)態(tài)調(diào)節(jié)區(qū)分度對(duì)信息量函數(shù)的影響。在定長(zhǎng)CAT測(cè)驗(yàn)中,a(j,i)=[a2·(test_length-L(i))/test_lengthj],在不定長(zhǎng)CAT測(cè)驗(yàn)中,a(j,i)=[a2·(Infor-infor(i))/Inforj]。其中的test_length代表定長(zhǎng)測(cè)驗(yàn)中預(yù)設(shè)的測(cè)驗(yàn)長(zhǎng)度,L(i)是第i個(gè)被試當(dāng)前已經(jīng)作答完的項(xiàng)目數(shù)量,Infor代表不定長(zhǎng)測(cè)驗(yàn)中被試需完成的項(xiàng)目信息總量,Infor(i)則是第i個(gè)被試當(dāng)前已經(jīng)完成的項(xiàng)目信息總量。新的區(qū)分度冪函數(shù)實(shí)現(xiàn)了隨著測(cè)驗(yàn)進(jìn)程的深入,逐步減少區(qū)分度對(duì)信息量的影響,在引入曝光因子的基礎(chǔ)上,進(jìn)一步降低了被試的測(cè)驗(yàn)長(zhǎng)度。朱隆尹、丁樹良和程小揚(yáng)等引入曝光因子后,通過調(diào)整信息平均的方法提出了引入曝光因子的平均調(diào)整信息選題法[5]。賀翔、羅芬等在動(dòng)態(tài)a分層方法基礎(chǔ)上引入均值不等式,構(gòu)造了新的動(dòng)態(tài)a分層法,進(jìn)一步提高了測(cè)驗(yàn)的安全性[6]。楊文清在引入曝光因子的基礎(chǔ)上定義了曝光因子控制指數(shù)函數(shù),通過這一函數(shù)逐步弱化曝光因子在選題策略中的影響[7],下面簡(jiǎn)稱楊方法。王璞玨和劉紅云基于推薦系統(tǒng)中協(xié)同過濾推薦的思想,提出兩種可以利用已有答題者數(shù)據(jù)的CAT選題策略:直接基于答題者推薦(DEBR)和間接基于答題者推薦(IEBR)[8]。李佳和丁樹良等提出了區(qū)分度與測(cè)驗(yàn)進(jìn)程相匹配的CAT選題策略,這是一種相對(duì)嚴(yán)格的升“a”方法[9]。
以上選題策略在對(duì)題庫安全性控制方面,部分項(xiàng)目仍存在著曝光次數(shù)過多的現(xiàn)象。本文在引入曝光因子的基礎(chǔ)上,參照李方法的自動(dòng)控制區(qū)分度函數(shù),在選題中同時(shí)對(duì)區(qū)分度和曝光因子進(jìn)行動(dòng)態(tài)控制,提出了一種新的選題策略,以獲得更好的題庫安全性。
1 新的選題策略
程方法在MFI選題策略基礎(chǔ)上引入曝光因子后,較好地解決了某些項(xiàng)目曝光次數(shù)過多的問題,使得項(xiàng)目調(diào)用次數(shù)更加均勻,但被試的測(cè)驗(yàn)長(zhǎng)度有所增加。李方法實(shí)現(xiàn)了不需要分層即可隨著測(cè)驗(yàn)過程的深入減小區(qū)分度對(duì)信息量選題的影響。本文綜合了程方法引入曝光因子的后有效降低項(xiàng)目曝光率的優(yōu)勢(shì)以及李方法動(dòng)態(tài)控制區(qū)分度影響信息量選題方法的特點(diǎn),參照楊方法在引入曝光因子的同時(shí)對(duì)曝光因子ecf(j)指數(shù)化,楊方法中并未對(duì)區(qū)分度進(jìn)行動(dòng)態(tài)調(diào)節(jié),而是使用項(xiàng)目本身的區(qū)分度去削弱其對(duì)信息量的影響。新的選題策略中,通過同時(shí)對(duì)區(qū)分度及曝光因子進(jìn)行動(dòng)態(tài)調(diào)節(jié),削弱曝光因子和區(qū)分度在測(cè)驗(yàn)后期對(duì)信息量的影響,以達(dá)到保證測(cè)驗(yàn)效率的同時(shí)提升題庫安全性的目的。
使用新的選題策略項(xiàng)目j要滿足的條件為:
[j=argmaxj∈RaIj(θ)ecf(j)t(i)·at(i)j] (1)
式子中的控制曝光因子和區(qū)分度的控制函數(shù)使用李方法中不定長(zhǎng)測(cè)驗(yàn)的自動(dòng)控制區(qū)分度函數(shù)t(i)=[2(Infor-infor(i))/Infor],Ra表示當(dāng)前被試在題庫中尚未作答的項(xiàng)目,[Ij(θ)]是估計(jì)能力為[θ]的被試在項(xiàng)目j上所含的項(xiàng)目信息量,ecf(j)是程方法中的曝光因子,Infor代表不定長(zhǎng)測(cè)驗(yàn)中被試需完成的項(xiàng)目信息總量,Infor(i)則是第i個(gè)被試當(dāng)前已經(jīng)完成的項(xiàng)目信息總量。
2 實(shí)驗(yàn)設(shè)計(jì)
本文實(shí)驗(yàn)中的測(cè)驗(yàn)采用0-1評(píng)分的三參數(shù)Logistic模型,其項(xiàng)目反應(yīng)函數(shù)為:
[Pj(θi)=P(uij=1 | θi)=cj+(1-cj)exp{aj(θi-bj)}1+exp{aj(θi-bj)}]? (2)
在3PL模型中,[uij]是取值為0或1的伯努利隨機(jī)變量,代表著被試i在項(xiàng)目j上的二級(jí)計(jì)分反應(yīng),[uij]值為1表示被試正確作答項(xiàng)目j,[uij]值為0則表示被試錯(cuò)誤作答項(xiàng)目j;[Pj(θi)]表示能力為[θ]的被試i在二級(jí)評(píng)分項(xiàng)目j上正確作答的概率,[aj],[bj],[cj]分別為項(xiàng)目j區(qū)分度參數(shù),難度系數(shù)以及猜測(cè)參數(shù)。
2.1 模擬生成題庫和被試
計(jì)算機(jī)模擬生成含有項(xiàng)目數(shù)量為1 000題的4個(gè)題庫,題庫中項(xiàng)目的區(qū)分度參數(shù)、難度參數(shù)和猜測(cè)參數(shù)均按照分布模擬生成[9]。得到以下4個(gè)項(xiàng)目參數(shù)服從不同分布的題庫:
題庫1生成區(qū)分度a服從對(duì)數(shù)正態(tài)分布,難度b服從標(biāo)準(zhǔn)正態(tài)分布,猜測(cè)參數(shù)c服從α為5,β為17的貝塔分布,記為[Ina~N(0,1)∧a∈(0.2,2.5),b~N(0,1)∧b∈(-3,3),c~Beta(5,17)]。
題庫2生成區(qū)分度a服從均勻分布,難度b服從均勻分布,猜測(cè)參數(shù)c服從α為5,β為17的貝塔分布,記為[a~U(0.2,2.5),b~U(-3,3),c~Beta(5,17)]。
題庫3生成區(qū)分度a服從對(duì)數(shù)正態(tài)分布,難度b服從均勻分布,猜測(cè)參數(shù)服從α為5,β為17的貝塔分布,記為[Ina~N(0,1)∧a∈(0.2,2.5),b~U(-3,3),c~Beta(5,17)]。
題庫4生成區(qū)分度a服從均勻分布,難度b服從標(biāo)準(zhǔn)正態(tài)分布,猜測(cè)參數(shù)服從α為5,β為17的貝塔分布,記為[a~U(0.2,2.5),b~N(0,1)∧b∈(-3,3),c~Beta(5,17)]。
計(jì)算機(jī)模擬生成1 000個(gè)被試,被試的能力參數(shù)均服從標(biāo)準(zhǔn)正態(tài)分布,即能力參數(shù)[θ~N(0,1)],且[-3<θ<3]。
2.2 模擬被試作答
根據(jù)所選項(xiàng)目j的項(xiàng)目參數(shù)a、b、c以及被試i的能力估計(jì)值θ,代入式(2)計(jì)算其答對(duì)項(xiàng)目的概率[Pj(θi)],同時(shí)通過計(jì)算機(jī)模擬生成一個(gè)服從0到1之間均勻分布的隨機(jī)數(shù)r,記為[r~U(0,1)]。如果[r<Pj(θi)],認(rèn)為被試i正確作答了項(xiàng)目j,記被試i在項(xiàng)目j上作答反應(yīng)[uij=1];倘若[r?Pj(θi)],則認(rèn)為被試i錯(cuò)誤作答了項(xiàng)目j,則被試i在項(xiàng)目j上作答反應(yīng)[uij=0]。
2.3 模擬CAT施測(cè)過程
CAT施測(cè)過程有兩個(gè)階段,第一階段是模擬測(cè)試的初始階段,從題庫中隨機(jī)選擇3個(gè)項(xiàng)目供被試作答,答對(duì)計(jì)1分,答錯(cuò)計(jì)0分,計(jì)算被試的得分與失分的比值的自然對(duì)數(shù)值,將其作為被試的初始能力估計(jì)值;隨后進(jìn)入第二階段,即被試能力的精確估計(jì)階段,使用貝葉斯期望后驗(yàn)估計(jì)方法精準(zhǔn)估計(jì)被試的能力值。
2.4 評(píng)價(jià)指標(biāo)
本文用測(cè)驗(yàn)效率Eff、測(cè)驗(yàn)偏差Bias、測(cè)驗(yàn)標(biāo)準(zhǔn)誤差MSE、試題曝光均勻度Chi及測(cè)驗(yàn)重疊率R、最小測(cè)驗(yàn)試題長(zhǎng)度MinL、平均測(cè)驗(yàn)試題長(zhǎng)度AvgL等評(píng)價(jià)指標(biāo)來評(píng)價(jià)選題策略的優(yōu)劣,除測(cè)驗(yàn)效率值為越大越好以外,其余評(píng)價(jià)指標(biāo)均為越小越好。
3 實(shí)驗(yàn)結(jié)果及其分析
表1至表4的數(shù)據(jù)是在不定長(zhǎng)CAT測(cè)驗(yàn)中選用三參數(shù)Logistic模型的實(shí)驗(yàn)結(jié)果,通過四張表數(shù)據(jù)可以看出,新的選題策略在保證測(cè)驗(yàn)效率和測(cè)量精度的情況下,有效降低了測(cè)驗(yàn)的曝光均勻度,保證了題庫的安全性。在測(cè)驗(yàn)效率上,新方法除略低于李方法外,比其他方法都表現(xiàn)得更好;新方法在損失少許測(cè)量精度的同時(shí),極大地降低了測(cè)驗(yàn)項(xiàng)目的曝光率和測(cè)驗(yàn)的重疊率;新方法在測(cè)驗(yàn)長(zhǎng)度上總體與李方法相當(dāng),優(yōu)于其他的選題策略??傮w而言,新的選題策略提高了題庫的安全性的同時(shí),測(cè)量的精度依然能夠保持在一個(gè)較好的水平。
4 小結(jié)與展望
本文對(duì)CAT的重要組成部分選題策略進(jìn)行了研究。在選題策略的研究中,沿用程小揚(yáng)提出的曝光因子和李萍的自動(dòng)控制區(qū)分度函數(shù)的基礎(chǔ)上,在使用0-1評(píng)分三參數(shù)logistic模型的不定長(zhǎng)CAT中,提出了新的選題策略。Monte Carlo模擬實(shí)驗(yàn)表明新的選題策略在保證測(cè)量精度的同時(shí),大幅度地降低了項(xiàng)目的曝光均勻度,有效提升了題庫的安全性。在自適應(yīng)測(cè)驗(yàn)選題算法改進(jìn)上,新的選題策略較以往的選題方法在曝光均勻度上表現(xiàn)更好,但在測(cè)驗(yàn)效率和測(cè)量精度等指標(biāo)的表現(xiàn)上沒有與李方法拉開差距。因此,在今后的研究中可以進(jìn)一步提高該選題策略的測(cè)驗(yàn)精度,降低其測(cè)驗(yàn)的長(zhǎng)度;其次,新的選題策略僅在不定長(zhǎng)CAT上進(jìn)行了應(yīng)用,其在定長(zhǎng)CAT上的表現(xiàn)還需進(jìn)一步的研究。
參考文獻(xiàn):
[1] LORD F M. Some test theory for tailored testing[R]// HOLZMAN W H.Computer assisted instruction, testing, and guidance.New York: Harper & Row, 1970:139-183.
[2] CHANG H H,YING Z L. A-stratified multistage computerized adaptive testing, Applied Psychological Measurement, 1999, 23(3): 211-222.
[3] 程小揚(yáng),丁樹良,嚴(yán)深海,等.引入曝光因子的計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)選題策略[J].心理學(xué)報(bào),2011,43(2):203-212.
[4] 李萍,甘登文,丁樹良.自動(dòng)控制區(qū)分度作用的選題策略研究[J].江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,37(1):101-105.
[5] 朱隆尹,丁樹良,程小揚(yáng),等.不定長(zhǎng)CAT引入曝光因子的平均調(diào)整信息選題策略研究[J].心理學(xué)探新,2015,35(1):68-71.
[6] 賀翔,羅芬,甘登文,等.一種提升題庫安全性的選題策略[J].江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,40(4):363-368.
[7] 楊文清.CAT中提升題庫安全性的選題策略和a分層終止規(guī)則的研究[D].南昌:江西師范大學(xué),2017.
[8] 王璞玨,劉紅云.讓自適應(yīng)測(cè)驗(yàn)更知人善選——基于推薦系統(tǒng)的選題策略[J].心理學(xué)報(bào),2019,51(9):1057-1067.
[9] 李佳,丁樹良,況天昊.區(qū)分度與測(cè)驗(yàn)進(jìn)程相匹配的CAT選題策略[J].江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,45(4):384-389.
【通聯(lián)編輯:王 力】