楊文清 江西工業(yè)職業(yè)技術(shù)學(xué)院
計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(Computerized Adaptive Testing,CAT)是利用計(jì)算機(jī)自的能力模型的計(jì)算結(jié)果的挑選適合測(cè)試者的能力水平的來進(jìn)行的。而基于GRM 模型的CAT一直以來都受到眾多研究者青睞。如何在固定考試題目的考試中用盡可能少的時(shí)間而又精準(zhǔn)的來測(cè)量出受測(cè)者的能力一直是研究者不懈努力的核心。
最大Fisher 信息量選題策略(MFI)是指選題時(shí)根據(jù)被試的能力估計(jì)值,計(jì)算題庫中剩余試題的Fisher 信息量,然后從中選取Fisher信息量最大的試題作為被試的下一道測(cè)試題的一種選題策略。其數(shù)學(xué)表達(dá)式為:
其中:R 為題庫中尚未選中作答的試題的集合;
Ij(θ)為Fisher 信息函數(shù);
Pj(θ)表示項(xiàng)目j 的被試反應(yīng)函數(shù);
P'j(θ)表示被試反應(yīng)函數(shù)對(duì)能力θ的一階導(dǎo)數(shù)。
在基于Fisher 信息量的選題策略中,削弱區(qū)分度在信息量中的影響或是通過指數(shù)函數(shù)都可以達(dá)到提高項(xiàng)目使用的均勻性、提升題庫的安全性的目的。所以,我們對(duì)于信息量函數(shù)進(jìn)行指數(shù)運(yùn)算,其指數(shù)值選擇黃金分割比值,同時(shí),加強(qiáng)對(duì)于曝光因子的影響。由此得到一個(gè)新的選題策略:
其中:L(i)為到第i 個(gè)被試為止當(dāng)前被試已作答試題個(gè)數(shù);
本實(shí)驗(yàn)?zāi)M出一個(gè)擁有1000 個(gè)測(cè)試項(xiàng)目的題庫,模擬1000 個(gè)不同能力的被試參加考試。每個(gè)測(cè)試項(xiàng)目有設(shè)為5 個(gè)難度等級(jí),其難度程度遞增。采用兩種不同的題庫類型對(duì)新策略進(jìn)行優(yōu)劣進(jìn)行分析。
本次實(shí)驗(yàn)采用定長(zhǎng)測(cè)試,測(cè)驗(yàn)的項(xiàng)目數(shù)目定為24。對(duì)比中分層類的選題策略,每層選擇6 個(gè)測(cè)試項(xiàng)目對(duì)被試進(jìn)行測(cè)試,共4 層,每層的項(xiàng)目數(shù)之比為4:3:2:1,,對(duì)題庫按區(qū)分度a 升序排序。
模擬實(shí)驗(yàn)中,通過能力估計(jì)準(zhǔn)確值(ABS)、能力估計(jì)準(zhǔn)確差(Se)、項(xiàng)目調(diào)用均勻性(De)、χ2檢驗(yàn)統(tǒng)計(jì)、測(cè)驗(yàn)效率(Eff)、測(cè)試重疊率評(píng)價(jià)指標(biāo)(Rt)來揭示選題策略的優(yōu)劣性。
基于GRM 模型的不定長(zhǎng)實(shí)驗(yàn)結(jié)果如下表:
表1 題庫2:a~U[0.2,2.5],b~U[-3,3]
表2 題庫3:lna~N(0.1),b~N(0,1),且a ∈[0.2,2.5],b ∈[3,3]
由上表可知,新策略在項(xiàng)目的調(diào)用的均勻性和χ2檢驗(yàn)統(tǒng)計(jì)量上的有顯著的改善,特別是χ2檢驗(yàn)統(tǒng)計(jì)值相比其他的選題策略降低了一半,但是新策略在提高了題庫的安全性的同時(shí),測(cè)量的精度下降了。
新策略在項(xiàng)目調(diào)用的均勻性和χ2檢驗(yàn)統(tǒng)計(jì)量上相較于傳統(tǒng)的多級(jí)評(píng)分選題策略還是有較大的改善,并且在測(cè)量精度上雖然沒有提高,但是整體的指標(biāo)比較均衡等,造成這種情況主要是由于測(cè)試的長(zhǎng)度固定,而新的選題策略對(duì)曝光因子的加強(qiáng),使得信息量小的常常被選中,而項(xiàng)目提供的信息量越小,該測(cè)驗(yàn)在評(píng)價(jià)該被試能力水平時(shí)越不精確。