亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

CAT選題策略研究

2014-08-14 06:33:16黎佳

重慶科技學(xué)院學(xué)報(bào)(自然科學(xué)版) 2014年3期

黎佳

(福建師范大學(xué)閩南科技學(xué)院，福建泉州 362332)

隨著計(jì)算機(jī)的快速發(fā)展，目前正逐漸興起一種新型的智能測(cè)驗(yàn)形式：基于項(xiàng)目反應(yīng)理論的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)(CAT)。在CAT中，選題策略是其核心部分，它直接影響測(cè)驗(yàn)的準(zhǔn)確性、安全性以及測(cè)驗(yàn)信度和效度。

目前這方面的研究較多[1-3]，最早提出的是最大信息量選題策略，對(duì)于中間群體的被試者來說，這類方法的精度很高，但最不穩(wěn)定。因?yàn)榭偞嬖谝恍〔糠秩巳?，他們的誤差特別大。針對(duì)這個(gè)缺陷研究者們提出了一些改進(jìn)方法，比如帶b分塊的按a分層選題策略[2，4]，即在測(cè)驗(yàn)開始時(shí)用區(qū)分度小的項(xiàng)目，隨后逐層增加項(xiàng)目的區(qū)分度，使被試者的能力估計(jì)值變化的不會(huì)太快或讓預(yù)測(cè)驗(yàn)達(dá)到一定的信息量。這種策略是一種技巧性或經(jīng)驗(yàn)性的方法，其缺乏強(qiáng)有力的理論證明。當(dāng)測(cè)驗(yàn)變化后，必須對(duì)該方法進(jìn)行相應(yīng)的調(diào)試或修正,雖然這類方法有效地降低了誤差發(fā)生的概率，但未能有效降低最大誤差。隨后，為了增加測(cè)驗(yàn)的穩(wěn)定性，出現(xiàn)了貝葉斯網(wǎng)選題策略[1]，即根據(jù)被試者的分布概率來選題。這樣可提高測(cè)驗(yàn)的穩(wěn)定性，但卻出現(xiàn)了貝葉斯誤差。這些選題策略的缺點(diǎn)是在每一次選題時(shí)需要對(duì)題庫中每一個(gè)項(xiàng)目的信息量進(jìn)行繁瑣地計(jì)算，有的甚至不能直接求解。

針對(duì)傳統(tǒng)選題策略的這些特點(diǎn)以及IRT自身的缺陷，本文提出了一種能解決這些問題的方法。首先將被試能力值離散化，接著在測(cè)驗(yàn)過程中預(yù)測(cè)下一步，即若選了該題，測(cè)驗(yàn)正確估計(jì)被試者能力的概率。且在計(jì)算被試者的估計(jì)能力時(shí)使用最大期望判準(zhǔn)率[5]的方法，以減少計(jì)算量。

為了驗(yàn)證該方法的有效性，進(jìn)行了2組模擬實(shí)驗(yàn)。一組是模擬題庫測(cè)驗(yàn)，將該方法與最大信息量選題策略進(jìn)行比較，分析二者對(duì)誤差的控制；另一組是用某省試題的真實(shí)項(xiàng)目參數(shù)做模擬(試題參數(shù)來自該考試院公報(bào))，與傳統(tǒng)選題策略進(jìn)行比較，分析其對(duì)穩(wěn)定性的影響。

1 研究方法

1.1 最大信息量選題策略(MI)

最大信息量法[1-2]是計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)中最常用的一種選題策略。它的基本思想是首先估計(jì)被試的能力初始值，然后用當(dāng)前的能力估計(jì)值逐一計(jì)算題庫中未使用的項(xiàng)目的信息量，接著再從題庫中選出能夠提供Fisher Information最大的項(xiàng)目作為下一個(gè)項(xiàng)目提供給被試者，最后對(duì)被試的能力值重新估計(jì)，直到完成規(guī)定的測(cè)驗(yàn)項(xiàng)目數(shù)為止。這種選題策略的目的在于提高測(cè)量的精度且實(shí)施方法比較簡(jiǎn)單，然而這種策略極易導(dǎo)致題庫中項(xiàng)目曝光不均勻，降低了測(cè)驗(yàn)的安全性及題庫的利用率。該策略是一種區(qū)分度遞減的算法，增加了初始能力估計(jì)的不穩(wěn)定性，如果考生一開始連續(xù)做錯(cuò)幾道題，最終得分將偏低，反之得分會(huì)偏高。

1.2 最大期望判準(zhǔn)率

期望判準(zhǔn)率是指通過被試對(duì)某個(gè)項(xiàng)目的反應(yīng)來將真實(shí)模式為A模式的被試與B模式的被試進(jìn)行正確區(qū)分的概率，記作PA|B。

一般情況下，當(dāng)A模式=B模式時(shí),PA|B記為1。當(dāng)A模式≠B模式且A、B模式的被試對(duì)該項(xiàng)目的理想反應(yīng)為 1、0時(shí),PA|B記為1-s。當(dāng)A模式≠B模式且A、B模式的被試對(duì)該項(xiàng)目的理想反應(yīng)為 0、1 時(shí),PA|B記為1-g。當(dāng)A模式≠B模式且A、B模式的被試對(duì)該項(xiàng)目的理想反應(yīng)為 0、0(或 1、1)時(shí),PA|B記為0.5。

當(dāng)B模式不只一種且真實(shí)模式A無法預(yù)知時(shí)，假設(shè)B∈β，A∈α，集合α、β中的元素個(gè)數(shù)大于 1，則該項(xiàng)目的期望判準(zhǔn)率為

Pt=EA(EBPA|B)

=∑A∈α∑B∈βft(A)ft(B)*pA|B

其中ft(B)表示該被試在已經(jīng)測(cè)驗(yàn)了t個(gè)項(xiàng)目時(shí)(t=0,1,2,…)，該被試為B模式的被試的條件概率。

1.3 研究方法

首先將被試能力值離散化，利用高斯近似[6]選擇劃分點(diǎn)。由于能力值[-3,3]服從正態(tài)分布，選取被考慮的劃分點(diǎn)數(shù)目為30，它們產(chǎn)生Xj的值域的k+1個(gè)等密度區(qū)域(Xj為連續(xù)預(yù)測(cè)值，k為被考慮的劃分點(diǎn)數(shù)目)。

設(shè){c1,c2,…，c30}為30個(gè)劃分點(diǎn)的集合，選擇ci:

式中：Φ-1— 標(biāo)準(zhǔn)高斯累積分布函數(shù)的逆；μL、δL—分別是與L相關(guān)的Xj的均值和標(biāo)準(zhǔn)差。

在測(cè)驗(yàn)過程中計(jì)算當(dāng)前被試已經(jīng)做了t(t=0,1,2,…)個(gè)項(xiàng)目時(shí)的剩余題庫中每一類項(xiàng)目的期望判準(zhǔn)率，使用期望判準(zhǔn)率最大的一類項(xiàng)目中隨機(jī)的抽取一題作為被試的下一題，根據(jù)被試對(duì)該項(xiàng)目的反應(yīng)重新對(duì)被試進(jìn)行估計(jì)，如此反復(fù)直到測(cè)驗(yàn)達(dá)到預(yù)定長(zhǎng)度為止，將最終的估計(jì)結(jié)果作為該被試的最終測(cè)驗(yàn)結(jié)果。

2 模擬實(shí)驗(yàn)

2.1 實(shí)驗(yàn)準(zhǔn)備

在以下2組實(shí)驗(yàn)中，將被試能力值區(qū)間[-3,3]等分30份，使用最大期望判準(zhǔn)率來計(jì)算每次被試者的估計(jì)能力。參數(shù)估計(jì)使用MLE極大似然估計(jì)[7],實(shí)驗(yàn)指標(biāo)用絕對(duì)誤差ds的均值ds_m，標(biāo)準(zhǔn)差ds_std，最大值ds_max來表示。

2.2 實(shí)驗(yàn)結(jié)果和分析

2.2.1 模擬題庫

為了消除題庫容量和測(cè)驗(yàn)長(zhǎng)度對(duì)測(cè)驗(yàn)的影響，這里將題庫設(shè)計(jì)的足夠大和測(cè)驗(yàn)足夠長(zhǎng)。測(cè)驗(yàn)?zāi)Ｐ褪褂玫氖?PLM，記分方式：0-1，lna～N(0,1)b～N(0,1),c=0；被試theta～N(0,1) 。題庫容量M=1 000，測(cè)驗(yàn)長(zhǎng)度L=35 、被試人數(shù)N=1 000，實(shí)驗(yàn)次數(shù)30次。

實(shí)驗(yàn)結(jié)果見表1和表2。

表1 最大信息量選題策略測(cè)試結(jié)果

表2 新方法測(cè)試結(jié)果

兩種方法的測(cè)驗(yàn)結(jié)果相近，但新方法誤差更小。且選擇最大信息量策略會(huì)存在少部分誤差比較大的點(diǎn)。新方法的帶寬比較窄，且誤差最大的點(diǎn)分布在兩頭，且最大誤差遠(yuǎn)遠(yuǎn)小于最大信息量選題方法。

2.2.2 用某省試題的真實(shí)項(xiàng)目參數(shù)做模擬

用某省試題的真實(shí)項(xiàng)目參數(shù)做模擬，題庫容量M=27×5=135。測(cè)驗(yàn)長(zhǎng)度L=27,測(cè)驗(yàn)?zāi)Ｐ褪褂?PLM+GRM混合模型，被試theta～N(0,1)，被試人數(shù)N=1 000，實(shí)驗(yàn)次數(shù)30次。實(shí)驗(yàn)結(jié)果見表3和表4。顯然使用新方法選題會(huì)更穩(wěn)定。

表3 最大信息量選題策略測(cè)試結(jié)果

表4 新方法測(cè)試結(jié)果

3 結(jié) 語

在穩(wěn)定性和誤差最大值控制方面，本文提出的方法都較傳統(tǒng)選題策略的性能要好，解決了傳統(tǒng)選題策略中對(duì)被試的估計(jì)不可以直接求解的問題，明確了選題策略的方向，使選題測(cè)驗(yàn)結(jié)果最佳。

目前計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)的研究正在起步階段，本文僅對(duì)傳統(tǒng)選題策略的一些缺陷作了初步的研究，還有待今后更深入的研究。

[1] RobR Meijer,MichaelL Nering.Computerized Adaptive Testing:Overview and Introduction[J]．Applied Psychological Measurement,1999,23(3)：187-194.

[2] 林海菁.具有認(rèn)知診斷功能的CAT的研究與實(shí)現(xiàn)[D].南昌：江西師范大學(xué),2005.

[3] Tatsuoka K K．Computerized Cognitive Diagnostic Adaptive Testing:Effect on Remedial Instruction as Empirical Validation[J].Journal of Educational Measurement,1997,34(1):3-20.

[4] Hua-hua Chang,Zhiliang Ying．A-stratified Multistage Computerized Adaptive Testing[J]．Applied Psychological Measurement,1999,23(3):211-222.

[5] 尚志勇,丁樹良.認(rèn)知診斷自適應(yīng)測(cè)驗(yàn)選題策略探析[J].江西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2011(4):418-421.

[6] 西蒙.數(shù)據(jù)挖掘基礎(chǔ)教程[M].范明,牛常勇譯.北京：機(jī)械工業(yè)出版社，2009.

[7] 漆書青,戴海崎,丁樹良.現(xiàn)代教育與心理測(cè)量學(xué)原理[M].北京:高等教育出版社，2002.