亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        CAT中能力參數(shù)估計(jì)方法的改進(jìn):R-MLE估計(jì)法*

        2016-04-07 05:28:02
        心理學(xué)探新 2016年1期

        蔡 艷

        (江西師范大學(xué)心理學(xué)院,江西省心理與認(rèn)知科學(xué)重點(diǎn)實(shí)驗(yàn)室,南昌 330022)

        ?

        CAT中能力參數(shù)估計(jì)方法的改進(jìn):R-MLE估計(jì)法*

        蔡艷

        (江西師范大學(xué)心理學(xué)院,江西省心理與認(rèn)知科學(xué)重點(diǎn)實(shí)驗(yàn)室,南昌 330022)

        摘要:本文對CAT中能力估計(jì)的常用方法——最大似然估計(jì)法(MLE)進(jìn)行改進(jìn),研究中結(jié)合EAP方法提出了改進(jìn)的MLE法(R-MLE)。Monte Carlo模擬研究發(fā)現(xiàn):不論是在定長CAT還是非定長CAT中,不論是在1PL模型下還是在2PL或3PL模型中,不論是在何種CAT題庫結(jié)構(gòu)下,R-MLE法較傳統(tǒng)的MLE法具有更佳的估計(jì)精度及更有效的測驗(yàn)效率;R-MLE法不僅可以提高CAT的能力估計(jì)精度還可以進(jìn)一步改善CAT測試的效率,具有一定的應(yīng)用前景。

        關(guān)鍵詞:計(jì)算機(jī)化自適應(yīng)測驗(yàn);能力估計(jì)方法;EAP;MLE

        1引言

        計(jì)算機(jī)化自適應(yīng)測驗(yàn)(CAT)是項(xiàng)目反應(yīng)理論最為成功的應(yīng)用之一(Van der linden & Glas,2010)。CAT因“量體裁衣、因人施測”的現(xiàn)代測量思想而深受研究者和應(yīng)用者的推崇,目前國際上大型CAT的具體實(shí)例包括美國研究入學(xué)測驗(yàn)(GRE)、美國商學(xué)院研究生招生測驗(yàn)(GMAT)等。

        當(dāng)前,對于CAT的研究已引起了國內(nèi)外學(xué)者的廣泛關(guān)注(如陳平,丁樹良,2008;戴海琦,陳德枝,丁樹良,鄧太萍,2006;簡小珠,張敏強(qiáng),2010;羅芬,丁樹良,王曉慶,2012;Barrada,Olea,Ponsoda,& Abad,2010;Chang & Ying,1999,2008;Doebler,2012;Kieftenbeld & Natesan,2012;等)。但從目前研究來看,國內(nèi)外關(guān)于CAT的研究主要集中在CAT的選題策略研究,對這一領(lǐng)域的研究成果也最為豐富。但關(guān)于CAT中能力估計(jì)方法的研究國內(nèi)外的文獻(xiàn)卻不多,尤其是關(guān)于CAT能力估計(jì)新方法的研究則更少。我們知道,CAT中能力估計(jì)的精度不足會導(dǎo)致CAT的優(yōu)勢難于發(fā)揮,其自適應(yīng)(adaptive)的選題策略宗旨也是建立在對被試能力準(zhǔn)確估計(jì)的基礎(chǔ)之上,因此選擇合適的CAT能力估計(jì)方法或者開發(fā)估計(jì)精度更高的新方法值得進(jìn)一步探討。

        目前國際上,CAT中能力參數(shù)估計(jì)的方法主要有最大似然估計(jì)(MLE)、貝葉斯期望后驗(yàn)估計(jì)(EAP)、貝葉斯眾數(shù)估計(jì)(MAP)和馬爾科夫鏈蒙特卡羅(MCMC)方法等,每種方法各有特點(diǎn)。Wang和Vispoel(1998)認(rèn)為,CAT中MLE方法的主要缺點(diǎn)是參數(shù)估計(jì)中需要不斷迭代估計(jì)以及被試全對或全錯(cuò)的情況下無法估計(jì)等,但優(yōu)點(diǎn)是MLE估計(jì)是能力參數(shù)的充分估計(jì)量;EAP和MAP等貝葉斯法的主要缺點(diǎn)是先驗(yàn)分布的選擇非常重要,但EAP法不需要迭代估計(jì)。當(dāng)然,MCMC算法最大的缺點(diǎn)在于耗時(shí)很長,不利于CAT的即時(shí)估計(jì)及選題,但其估計(jì)的精度較高。因此,CAT中,各種能力參數(shù)估計(jì)方法各有千秋,研究者可以根據(jù)實(shí)際情況選擇恰當(dāng)?shù)墓烙?jì)方法。

        查閱國內(nèi)外相關(guān)文獻(xiàn),我們發(fā)現(xiàn)傳統(tǒng)CAT能力估計(jì)方法中,研究者一般是自始至終采用某種估計(jì)方法(如MLE或EAP或其它),對于同一個(gè)CAT中,在CAT不同階段采用不同估計(jì)方法對同一被試能力進(jìn)行估計(jì)的研究未見相關(guān)文獻(xiàn)。我們認(rèn)為,參數(shù)估計(jì)的不同算法各有優(yōu)劣,在CAT中由于能力估計(jì)是一種動態(tài)即時(shí)估計(jì)(每做完一題都需重新估計(jì)被試能力),因此在CAT不同階段/不同情況下可以采用不同的估計(jì)方法,以充分發(fā)揮各種估計(jì)方法的優(yōu)勢,從而提高CAT能力估計(jì)的精度及提高CAT的測試效率,這種全新的思路將會在更多領(lǐng)域進(jìn)行嘗試。

        為此,本研究擬探討CAT中不同能力估計(jì)方法的結(jié)合,以充分發(fā)揮各種估計(jì)方法的優(yōu)勢。本研究擬重點(diǎn)探討MLE法與EAP法的結(jié)合,過程分析如下:對于采用MLE法進(jìn)行能力參數(shù)估計(jì)的CAT,其初始階段一般不是正式自適應(yīng)選題階段,通常是先從題庫中隨機(jī)抽取幾題(如3~5題)供被試作答,然后根據(jù)被試在這幾題的做答情況初估被試能力,但只有當(dāng)被試得分不全為0分也不全為滿分時(shí),方能采用MLE法進(jìn)行估計(jì),否則仍需從題庫中繼續(xù)選題直至被試得分不全為0分也不全為滿分后進(jìn)行能力初估;接著在能力初估的基礎(chǔ)上進(jìn)入正式的CAT自適應(yīng)選題策略。由于CAT的初始題較少且一般為難度中等試題,能力較高的被試或能力較低的被試在初始階段獲得滿分或0分的可能性較大,這勢必導(dǎo)致如下問題:在CAT初始階段得滿分或0分的被試進(jìn)入正式的自適應(yīng)選題策略階段較晚,對于定長CAT則會大大降低MLE法對被試能力估計(jì)的精度,而對于不定長CAT則會大大降低CAT自適應(yīng)的測試效率(即需要更多試題方能結(jié)束測試)。那么在實(shí)踐中有沒有方法可以克服MLE法的以上不足呢?一方面對于所有被試,可以較快進(jìn)入CAT自適應(yīng)選題階段;另一方面,對于得分為滿分或0分時(shí),仍可估計(jì)被試的能力。為了彌補(bǔ)MLE法的以上不足,本研究擬采用EAP法與MLE相結(jié)合,具體結(jié)合的思路為:一旦被試全得滿分或0分則采用EAP進(jìn)行估計(jì),否則采用MLE估計(jì),這樣就可以從CAT的第2題始就實(shí)現(xiàn)對被試的自適應(yīng)選題,大大提高了CAT自適應(yīng)的宗旨及測試的效率。由于這種新方法更多的是彌補(bǔ)MLE法不能估計(jì)“全得滿分或0分的被試”不足的基礎(chǔ)上提出來的,因此本文稱此方法為改進(jìn)的MLE法(簡記為R-MLE)。

        為了進(jìn)一步驗(yàn)證本研究提出的R-MLE的效果,本文采用Monte Carlo實(shí)驗(yàn)的方法進(jìn)行,分別考察定長CAT和不定長CAT,不同IRT模型下(1PLM、2PLM和3PLM)及不同CAT題庫下R-MLE方法的可行性及合理性,并與傳統(tǒng)的MLE方法進(jìn)行比較。

        2研究一:CAT中改進(jìn)的MLE法(R-MLE)與傳統(tǒng)MLE法的比較

        2.1實(shí)驗(yàn)1:定長CAT下R-MLE估計(jì)精度

        采用3×3兩因素實(shí)驗(yàn)設(shè)計(jì),考察定長CAT中測驗(yàn)長度和所采用的IRT模型兩種因素下,比較改進(jìn)的MLE法(即R-MLE法)與傳統(tǒng)的MLE法的參數(shù)估計(jì)精度,其中測驗(yàn)長度分別為10題、20題和30題,IRT模型分別為1PLM、2PLM和3PLM。

        本實(shí)驗(yàn)為定長CAT,當(dāng)被試的測驗(yàn)長度達(dá)到預(yù)先指定的要求(如10題、20題或30題)則結(jié)束CAT。

        2.2實(shí)驗(yàn)2:不定長CAT下R-MLE估計(jì)精度

        采用2×3兩因素實(shí)驗(yàn)設(shè)計(jì),考察不定長CAT中測量信度和采用的IRT模型兩種因素下,比較改進(jìn)的MLE法與傳統(tǒng)的MLE法的參數(shù)估計(jì)精度,其中測量信度分別為0.8和0.9,IRT模型分別為1PLM、2PLM和3PLM。

        本實(shí)驗(yàn)不定長CAT中,當(dāng)被試的測量信度達(dá)到預(yù)先指定的要求(如r=0.8和r=0.9)則結(jié)束CAT。

        根據(jù)Wang和Vispoel(1998)的研究,信度與信息量間存在如下轉(zhuǎn)換公式:

        在能力θ的標(biāo)準(zhǔn)正態(tài)分布中,Sx=1。當(dāng)信度為0.8時(shí),則信息量為5;當(dāng)信度為0.9時(shí),則信息量為10。因此,在不定長CAT中,只有當(dāng)被試的測量信度(或測驗(yàn)信息量)達(dá)到預(yù)先設(shè)定的要求則終止CAT。

        2.3模擬過程

        (1)題庫項(xiàng)目參數(shù):共模擬300道試題。對于3PLM,a的取值范圍限定在[0.25,2.5],b限定在[-4,4],c小于0.3。當(dāng)令參數(shù)c=0時(shí),則模型變?yōu)?PLM;令參數(shù)c=0和a=1時(shí)則模型變?yōu)?PLM。

        (2)被試參數(shù):θ~N(0,1)。每種實(shí)驗(yàn)處理模擬被試1000人,并重復(fù)實(shí)驗(yàn)30次,即每種實(shí)驗(yàn)處理模擬30000被試。其中實(shí)驗(yàn)1有3×3=9種實(shí)驗(yàn)處理,模擬270000名被試;實(shí)驗(yàn)2有2×3=6種實(shí)驗(yàn)處理,模擬180000名被試,共計(jì)模擬被試450000名被試。

        2.4評價(jià)指標(biāo)

        分別比較傳統(tǒng)MLE和改進(jìn)后的MLE(即R-MLE)兩種參數(shù)估計(jì)方法對被試參數(shù)估計(jì)的精度即返真性(Recovery)以及測試的效率(即不定長CAT中被試平均使用的測驗(yàn)項(xiàng)目數(shù))。返真性采用平均絕對離差(ABS)指標(biāo),即能力參數(shù)估計(jì)值與真值的平均絕對離差。

        2.5結(jié)果

        表1和圖1為在二級評分CAT下,MLE與R-MLE兩種方法的參數(shù)估計(jì)精度。

        表1 R-MLE法對能力參數(shù)估計(jì)精度的改善(ABS)

        圖1 R-MLE與MLE平均ABS比較

        表1和圖1表明:

        在定長CAT的實(shí)驗(yàn)1中,不論CAT測驗(yàn)長度是10題、20題還是30題,R-MLE法的平均絕對離差(ABS)都小于MLE法;同樣,不論是在1PLM、2PLM還是3PLM,R-MLE法的平均絕對離差(ABS)也都小于MLE法。這表明改進(jìn)的MLE法即R-MLE法的參數(shù)估計(jì)的精度優(yōu)于傳統(tǒng)的MLE法,新方法具有更小的估計(jì)誤差。

        在不定長CAT的實(shí)驗(yàn)2中,實(shí)驗(yàn)結(jié)果與實(shí)驗(yàn)1基本相同,不論測量的信度是0.8還是0.9,R-MLE法的平均絕對離差(ABS)都小于MLE法;同樣,不論是在1PLM、2PLM還是3PLM,R-MLE法的平均絕對離差(ABS)也都小于MLE法。數(shù)據(jù)顯示改進(jìn)的MLE法即R-MLE法的參數(shù)估計(jì)的精度優(yōu)于傳統(tǒng)的MLE法,新方法具有更小的估計(jì)誤差。對于測驗(yàn)效率指標(biāo)(見表2),除了在1PLM實(shí)驗(yàn)情景下,R-MLE法的被試平均使用項(xiàng)目數(shù)少于MLE,說明R-MLE法較MLE法具有更高的測試效率。

        表2 R-MLE與MLE的測驗(yàn)效率比較

        通過本研究中的實(shí)驗(yàn)1和實(shí)驗(yàn)2,我們可以看出,在二級評分的CAT中,本文提出的綜合法即R-MLE法較傳統(tǒng)的MLE法具有更高的估計(jì)精度和更高的測驗(yàn)效率,新方法具有一定的應(yīng)用前景。

        3研究二:不同題庫結(jié)構(gòu)下R-MLE法對能力參數(shù)估計(jì)精度的改善

        為便于說明問題及簡化實(shí)驗(yàn),本研究采用的IRT模型均為2PLM。

        3.1實(shí)驗(yàn)3:定長CAT下R-MLE估計(jì)精度

        本實(shí)驗(yàn)CAT定長為20題,采用單因素實(shí)驗(yàn)設(shè)計(jì),考察不同題庫下R-MLE法與傳MLE法參數(shù)估計(jì)精度。

        3.2實(shí)驗(yàn)4:不定長CAT下R-MLE估計(jì)精度

        本實(shí)驗(yàn)CAT的信度固定為0.9,采用單因素實(shí)驗(yàn)設(shè)計(jì),考察不同題庫下R-MLE法與傳MLE法參數(shù)估計(jì)精度。

        3.3模擬過程

        本模擬與研究一基本一致,但題庫結(jié)構(gòu)不同,具體模擬四種不同類型的題庫,分別為:

        (1)題庫1:難度參數(shù)正態(tài)分布(b~∈N(0,1)),區(qū)分度對數(shù)正態(tài)分布(a~logN(0,1))

        (2)題庫2:難度參數(shù)正態(tài)分布(b~N(0,1)),區(qū)分度均勻分布(a~U(0.25,2.5))

        (3)題庫3:難度參數(shù)均勻分布(b~U(-4,4),區(qū)分度對數(shù)正態(tài)分布(a~logN(0,1))

        (4)題庫4:難度參數(shù)均勻分布(b~U(-4,4),區(qū)分度均勻分布(a~U(0.25,2.5))

        3.4評價(jià)指標(biāo)

        采用平均絕對離差(ABS)以及測試的效率(即不定長CAT中被試平均使用的測驗(yàn)項(xiàng)目數(shù))。

        3.5結(jié)果

        從實(shí)驗(yàn)結(jié)果可以看出(見表3及表4),不論是在何種題庫結(jié)構(gòu)下,R-MLE法的估計(jì)精度優(yōu)于MLE法,且測試的效率也優(yōu)于MLE法。當(dāng)然,表3與表4說明不同題庫結(jié)構(gòu)下,兩種方法的估計(jì)精度不完全一致,這說明題庫的結(jié)構(gòu)在一定程度上會影響CAT的能力估計(jì)精度,這也一點(diǎn)與以前研究基本一致。

        表3 不同題庫結(jié)構(gòu)下R-MLE法與MLE的比較(2PLM)

        表4 不同題庫結(jié)構(gòu)下R-MLE與MLE的

        4研究結(jié)論及討論

        本研究對傳統(tǒng)CAT能力估計(jì)方法進(jìn)行改善,具體改善的方法是將不同方法進(jìn)行結(jié)合,在CAT的不同階段采用合適的估計(jì)方法,本研究重點(diǎn)關(guān)注了采用EAP方法來彌補(bǔ)MLE方法的不足,由此提出了R-MLE估計(jì)法。Monte Carlo實(shí)驗(yàn)表明:不論是在定長CAT還是非定長CAT中,不論是在1PL模型下還是在2PL或3PL中,不論是在何種CAT題庫結(jié)構(gòu)下,R-MLE法較傳統(tǒng)的MLE法具有更佳的估計(jì)精度及更有效的測驗(yàn)效率。R-MLE法不僅可以提高CAT的能力估計(jì)精度還可以進(jìn)一步改善CAT測試的效率,因而具有較好的應(yīng)用前景。

        當(dāng)然,本研究還有許多不足,如只考慮EAP和MLE兩種方法的結(jié)合,未來研究還可以進(jìn)一步考察其它方法的結(jié)合;研究中只考察二級評分模型下R-MLE的效果,它在多級評分CAT的適用性還有待進(jìn)一步探討。我們撰寫此文,希望能起著拋磚引玉的作用,讓更多研究者參與到CAT能力估計(jì)方法改進(jìn)的研究中,以進(jìn)一步推動我國在這領(lǐng)域的發(fā)展。

        參考文獻(xiàn)

        陳平,丁樹良.(2010).允許檢查并修改答案的計(jì)算機(jī)化自適應(yīng)測驗(yàn).心理學(xué)報(bào),40(6),737-747.

        戴海崎,陳德枝,丁樹良,鄧太萍.(2006).多級評分題計(jì)算機(jī)自適應(yīng)測驗(yàn)選題策略比較.心理學(xué)報(bào),38(5),778-783.

        簡小珠,張敏強(qiáng).(2010).CAT初始階段被試能力估計(jì)方法改進(jìn)探究.心理科學(xué),(6),1470-1472.

        羅芬,丁樹良,王曉慶.(2012).多級評分計(jì)算機(jī)化自適應(yīng)測驗(yàn)動態(tài)綜合選題策略.心理學(xué)報(bào),44(3),400-412.

        Barrada,J.R.,Olea,J.,Ponsoda,V.,& Abad,F(xiàn).J.(2010).A method for the comparison of item selection rules in computerized adaptive testing.AppliedPsychologicalMeasurement,34(6),438-452.

        Chang,H.H.,& Ying,Z.L.(2008).To weight or not to weight?Balancing influence of initial items in adaptive testing.Psychometrik,73(3),441-450.

        Chang,H.H.,& Ying,Z.L.(1999).A-stratified multistage computerized adaptive testing.AppliedPsychologicalMeasurement,23,211-222.

        Doebler,A.(2012).The Problem of Bias in Person Parameter Estimation in Adaptive Testing.AppliedPsychologicalMeasurement,36(54),255-270.

        Kieftenbeld,V.,& Natesan,P.(2012).Recovery of Graded Response Model Parameters A Comparison of Marginal Maximum Likelihood and Markov Chain Monte Carlo Estimation.AppliedPsychologicalMeasurement,36(5),399-419.

        Van der linden,W.J.,& Glas,C.A.(2010).ElementsofAdaptiveTesting.Springer,New York Dordrecht Heidelberg London.

        Wang,T.,& Vispoel,W.P.(1998).Properties of ability estimation methods in computerized adaptive testing.JournalofEducationalMeasurement,35(2),109-135.

        The Revised MLE Algorithm of Ability Estimated Method in CAT:R-MLE Algorithm

        Cai Yan

        (School of Psychology,Jiangxi Key Laboratory of Psychology and Cognitive Science,Jiangxi Normal University,Nanchang 330022)

        Abstract:In this paper,referring to the most popular ability estimation algorithm(maximum likelihood estimation method,MLE),some modification were done integrated into expected a posterior method(EAP),the new algorithm was called R-MLE method.The basic idea of this method was the following:once the score of the examinee was zero or full,his ability was estimated by EAP method;otherwise it was estimated by MLE method.Thus the adaptive choose of items was started from the second item in CAT,which was expected to be more effective and more adaptive than ever.The Monte Carlo simulation method was used here.The ABS index was used to test theprecision of ability parameter estimate and the average use ration index of items was used to test the efficiency of testing.Two studies were employed here.The first one was designed to compare the precision of ability parameter estimation between R-MLE algorithm and MLE algorithm under the fixed and unfixed test length rule of CAT and under 1PLM,2PLM and 3PLM.The second one was employed to compare the precision of ability parameter estimation between R-MLE algorithm and MLE algorithm under different structure of item bank,but only the 2PLM being considered.The findings suggested:Under any kind of CAT item bank,whether the fixed test length rule or unfixed test length rule was used,whether the one,two or three parameter logistic model were used,it was found that the estimation accuracy and efficiency of the R-MLE method was greater than that of the MLE method.It was also found that it would be more effective during CAT test when R-MLE method was used,which would be more applicable in practice.

        Key words:computerized adaptive testing;ability estimation method;EAP;MLE

        中圖分類號:B841.2

        文獻(xiàn)標(biāo)識碼:A

        文章編號:1003-5184(2016)01-0092-05

        通訊作者:蔡艷,E-mail:cy1979123@aliyun.com。

        *基金項(xiàng)目:教育部人文社科基金(11YJC190002),國家自然科學(xué)基金(31300876,31100756,31160203),高等院校博士點(diǎn)基金項(xiàng)目(20103604120001,20123604120001),江西省教育科學(xué)規(guī)劃項(xiàng)目(13YB029,12YB088),江西師范大學(xué)青年英才培育資助計(jì)劃項(xiàng)目資助。

        少妇高潮惨叫久久久久久电影| 久久半精品国产99精品国产| 亚洲无码中文字幕日韩无码| 国产日本精品一区二区免费| 亚洲欧洲免费无码| 中文字幕在线观看亚洲日韩| 国产日b视频| 亚洲国产av中文字幕| 新视觉亚洲三区二区一区理伦| 午夜熟女插插xx免费视频| 日韩人妻无码免费视频一区二区三区| 国产精品偷伦免费观看的| 亚洲国产综合久久精品| 欧美拍拍视频免费大全| 99国内精品久久久久久久| 中文字幕不卡高清免费| 亚洲精品综合久久国产二区| 少妇真人直播免费视频| 国产欧美一区二区精品仙草咪| 一区二区三区福利在线视频| 青青久久精品一本一区人人| 五月综合激情婷婷六月| 美女视频黄的全免费的| 亚洲最大在线精品| 日本一区二区高清视频在线| 中文字幕亚洲精品一区二区三区| 人妻丰满熟妇av无码片| 欧美日韩免费一区中文字幕| 激情视频在线观看国产中文| 亚洲国产精品久久又爽av| 无遮挡h肉动漫在线观看| 亚洲AV伊人久久综合密臀性色| 青青草好吊色在线视频| 欧美性生交活xxxxxdddd| 日产精品久久久久久久蜜臀| 谁有在线观看av中文| 一区二区三区中文字幕脱狱者| 亚洲av日韩av无码污污网站| 91精品一区国产高清在线gif| 狠狠亚洲婷婷综合色香五月| 国产精品伦理久久一区|