亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)中幾種常用能力估計(jì)方法的特性與評(píng)價(jià)

        2014-11-28 14:40:47張心涂冬波
        中國考試 2014年5期
        關(guān)鍵詞:后驗(yàn)先驗(yàn)測(cè)驗(yàn)

        張心 涂冬波

        計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)中幾種常用能力估計(jì)方法的特性與評(píng)價(jià)

        張心 涂冬波

        該文介紹并比較了計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(computerized adaptive testing,CAT)環(huán)境中的MLE、WLE、MAP、EAP等幾種常用能力估計(jì)方法的發(fā)展演變以及各自的原理與特性,并對(duì)這些能力估計(jì)方法的發(fā)展脈絡(luò)及其特性做了簡要總結(jié)與評(píng)價(jià),最后展望了未來CAT中能力估計(jì)的發(fā)展趨勢(shì)。

        計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn);項(xiàng)目反應(yīng)理論;能力估計(jì);參數(shù)估計(jì)

        1 引言

        長期以來在教育測(cè)量領(lǐng)域,傳統(tǒng)紙筆測(cè)驗(yàn)(paper and pencil,P&P)形式簡單,出題方便,易大規(guī)模實(shí)施,一直是測(cè)驗(yàn)的主要形式(van der Linden,2010)。20世紀(jì)80年代末以來,隨著測(cè)量理論和計(jì)算機(jī)技術(shù)的發(fā)展,為使測(cè)驗(yàn)更加高效、公平和個(gè)性化,計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(Computerized Adaptive Testing,CAT)逐漸發(fā)展了起來(毛秀珍,辛濤,2011;辛濤,樂美玲,張佳慧,2012)。CAT不再給定每個(gè)被試固定的測(cè)驗(yàn),而是被試每做一題,計(jì)算機(jī)都會(huì)重新估計(jì)被試能力,并根據(jù)所估的新能力選擇最適合被試的題目(van der Linden,2000)。CAT的施測(cè)項(xiàng)目少,效率高;項(xiàng)目的選擇和評(píng)分更加靈活;測(cè)試結(jié)果能夠更精確地反映被試的實(shí)際水平(羅芬,丁樹良,胡小松,萬宇文,甘登文,2003)。CAT的這些優(yōu)點(diǎn)使得CAT成為很多大規(guī)模教育評(píng)估的首選(陳平,辛濤,2011)。

        若要編制一套完整的以IRT為基礎(chǔ)的CAT,需要進(jìn)行以下六個(gè)方面的工作:確定采用的模型、建立題庫、確定初始項(xiàng)目、確定選題策略、確定估計(jì)被試能力的方法以及確定測(cè)驗(yàn)終止的規(guī)則(Weiss&Kingsbury,1984)。能力估計(jì)在CAT中至關(guān)重要,能力估計(jì)的準(zhǔn)確與否不僅影響選題策略的自適應(yīng)選題,還會(huì)由此持續(xù)的影響CAT最關(guān)注的能力估計(jì)的準(zhǔn)確性。CAT中的能力估計(jì)方法一般是基于IRT的。到目前為止CAT中常用的能力估計(jì)方法有極大似然估計(jì)(MLE)(Birnbaum,1968),極大后驗(yàn)估計(jì)(MAP)(Samejima,1969),期望后驗(yàn)估計(jì)(EAP)(Bock&Aitken,1981;Bock&Mislevy,1982),加權(quán)似然估計(jì)(WLE)(Warm,1989)等。然而,這些方法之間有何不同特性?在一個(gè)CAT中什么情況下應(yīng)該選用何種方法最好?要回答這些問題,必須全面了解各種方法的原理、特性并深刻把握不同方法之間的相似和不同之處。對(duì)當(dāng)前常用能力估計(jì)方法發(fā)展演變的探究與特性的評(píng)價(jià)不僅能夠從理論上理清各種方法的來龍脈絡(luò),而且還能為CAT開發(fā)人員選擇合適的能力估計(jì)方法起到向?qū)У淖饔?,具有重要的理論意義和實(shí)際意義。

        2 CAT中能力估計(jì)方法的原理與特性

        2.1 極大似然估計(jì)(Maximum Likelihood Estimation,MLE)

        MLE廣泛用于許多統(tǒng)計(jì)應(yīng)用中的參數(shù)估計(jì)問題。Birnbaum(1968)采用了極大似然估計(jì)(MLE)方法來估計(jì)考生能力。不僅提出了2參數(shù)和3參數(shù)logistic模型下的似然函數(shù)作為潛在能力和已知項(xiàng)目參數(shù)的函數(shù),而且還介紹了項(xiàng)目和測(cè)驗(yàn)信息函數(shù)的概念。

        理論上,模型參數(shù)的似然函數(shù)包含了觀察數(shù)據(jù)值所含所能反應(yīng)的所有信息(Mislevy&Stocking,1989),因此,MLE在充分統(tǒng)計(jì)量存在時(shí)是一個(gè)充分統(tǒng)計(jì)量,而且其還擁有一些其他優(yōu)良特性,例如漸進(jìn)一致性和漸進(jìn)正態(tài)性(Hambleton,&Swaminathan,1985)。因此,理想條件CAT下,當(dāng)測(cè)驗(yàn)較長時(shí),MLE是一種漸進(jìn)無偏的能力估計(jì)方法(Warm,1989;Wang&Vispoel,1998)。但是,在實(shí)際中且測(cè)驗(yàn)較短時(shí),MLE的偏差和誤差相對(duì)較大,而且還可能出現(xiàn)無解的情況(Mislevy,1986)。根據(jù)Lord(1983;1986)的MLE偏差(Bias)公式:

        由于以IRT為指導(dǎo)的CAT測(cè)驗(yàn)大大提高了測(cè)驗(yàn)效率,因此其測(cè)驗(yàn)大多較短,MLE法在較短測(cè)驗(yàn)中表現(xiàn)不佳迫使人們對(duì)其進(jìn)行改進(jìn)。對(duì)MLE的改進(jìn)思路主要考慮了兩個(gè)方向,其一是利用更多的先驗(yàn)信息減少誤差,二是去除偏差項(xiàng)以減少偏差,根據(jù)這兩個(gè)改進(jìn)的思路,學(xué)者們后來分別開發(fā)出貝葉斯方法和加權(quán)似然方法。

        2.2 極大后驗(yàn)估計(jì)(Maximum a Posteriori,MAP)

        從利用信息的角度來看,MLE僅考慮了被試的作答數(shù)據(jù)中的信息。而隨著大量測(cè)驗(yàn)的實(shí)施,人們從大量數(shù)據(jù)中發(fā)現(xiàn)被試的能力參數(shù)總是大致服從某種分布f(θ)。Samejima(1969)利用貝葉斯概率論,將這種先驗(yàn)的分布f(θ)引入了估計(jì)公式,提出了貝葉斯眾數(shù)估計(jì)法(Bayes Modal estimator,BME)。由于其方法是直接將先驗(yàn)概率密度(一般取標(biāo)準(zhǔn)正態(tài)概率密度函數(shù))乘以似然函數(shù)構(gòu)建后驗(yàn)分布并求極大值,為了與期望后驗(yàn)估計(jì)區(qū)別,又稱為極大后驗(yàn)估計(jì)(Maximum a Posteriori,MAP)(下文都以MAP代表BME方法)。作為一種替代MLE的方法,它與MLE的區(qū)別在于人們可以指定θ的先驗(yàn)分布f(θ)。

        Lord(1986)表明MAP(以正態(tài)概率密度為先驗(yàn))的偏差函數(shù)與MLE的偏差函數(shù)有如下關(guān)系:

        這里I(θ)是測(cè)驗(yàn)信息量。我們之前提到,MLE在項(xiàng)目較多時(shí)是一個(gè)漸進(jìn)無偏的估計(jì)量,但在項(xiàng)目較少時(shí)MLE是有偏的(Hambleton&Swaminathan,1985)。Wang(1997)發(fā)現(xiàn),當(dāng)題庫缺乏極端難度水平的題目時(shí)(這在真實(shí)題庫中很常見),MLE也是有偏的,但偏差方向與貝葉斯方法相反。而這個(gè)式子表明MAP將一個(gè)與能力負(fù)相關(guān)的項(xiàng)加到了MLE的偏差中,這樣會(huì)導(dǎo)致MAP在能力量表左端有正偏,右端有負(fù)偏,整體估計(jì)向先驗(yàn)均值的方向回歸(Meijer&Nering,1999)。在題量較少的時(shí)候,MLE產(chǎn)生的向外擴(kuò)張的偏差因此有可能會(huì)被MLE的向內(nèi)收縮的偏差抵消一部分,但整體來看,MLE是一個(gè)漸進(jìn)無偏估計(jì),而MAP確屬于有偏估計(jì),在對(duì)整體無偏性要求較高的場(chǎng)合MAP并不適用(Eignor&Schaeffer,1995)。但是,實(shí)際中由于大量被試都集中于能力量表的中段,兩端的人群較少,MAP利用了先驗(yàn)信息將估計(jì)的能力往量表中部“聚集”的效應(yīng),整體減小了對(duì)每個(gè)被試的估計(jì)誤差。在一些更加注重控制隨機(jī)誤差的場(chǎng)合,如一些選拔性測(cè)驗(yàn),MAP比MLE顯示出了明顯的優(yōu)點(diǎn)。

        由于標(biāo)準(zhǔn)正態(tài)分布較為集中,MAP會(huì)出現(xiàn)估計(jì)向先驗(yàn)均值回歸的現(xiàn)象。然而MAP的先驗(yàn)分布并不一定必須是標(biāo)準(zhǔn)正態(tài)分布,還可以是均勻分布(在預(yù)先指定的θ值范圍內(nèi))或者非信息先驗(yàn)密度(non-informative prior density),例如 Jeffreys先驗(yàn)(Jeffreys,1946)。Jeffreys先驗(yàn)是一個(gè)基于測(cè)驗(yàn)信息函數(shù)的先驗(yàn)概率,與信息函數(shù)的平方根成正比。即這樣的估計(jì)稱為JM估計(jì)量(Magis&Ra?che,2012)。

        從信息利用的角度看,在測(cè)驗(yàn)初期,似然函數(shù)并不能提供足夠的信息,此時(shí)僅僅利用似然函數(shù)作為信息源的MLE方法無法有效的降低測(cè)驗(yàn)誤差,而MAP法則將被試能力分布的先驗(yàn)信息引入估計(jì),并將所有這些信息整合到后驗(yàn)分布中去。然后取后驗(yàn)分布概率最大的值作為能力估計(jì)值,緩解了測(cè)驗(yàn)初期信息不足的尷尬,從而實(shí)現(xiàn)了相對(duì)有效的控制測(cè)驗(yàn)的誤差。

        MAP作為早期的一種貝葉斯方法,它的最初目的是充分利用被試總體的能力的先驗(yàn)分布信息。對(duì)于利用貝葉斯理論構(gòu)建的后驗(yàn)分布,最初采用后驗(yàn)分布的極大值而非均值,是因?yàn)楹篁?yàn)分布一般是一個(gè)不規(guī)律的分布,當(dāng)時(shí)還不了解該分布的均值該如何計(jì)算。而這個(gè)問題直到1982年Bock和Mislevy才以高斯—厄爾米特積分公式解決,由此他們也開發(fā)了一種新的方法——EAP(Bock&Mislevy,1982)。

        2.3 期望后驗(yàn)估計(jì)(Expected A Posteriori,EAP)

        在提出EAP法之前,Owen(1969,1975)曾提出過一種CAT的能力估計(jì)方法——Owen法。Owen法也是利用了貝葉斯的思想,該方法假設(shè),每一次估計(jì)能力時(shí),都通過將上一題的后驗(yàn)分布的均值和方差構(gòu)建一個(gè)正態(tài)分布作為下一題的先驗(yàn)概率密度,由此連續(xù)估計(jì),直到最后一題做完,獲得一個(gè)最終的后驗(yàn)分布,其均值即為Owen連續(xù)貝葉斯估計(jì)量。由于以正態(tài)密度函數(shù)構(gòu)建后驗(yàn)分布,后驗(yàn)分布的均值和方差變得容易計(jì)算(Owen,1975)。Owen法在當(dāng)時(shí)由于其直接計(jì)算無須迭代在CAT能力估計(jì)領(lǐng)域曾一度非常流行(Wang&Vispoel,1998)。然而,節(jié)省計(jì)算資源的代價(jià)就是引入誤差。Weiss和McBride(1984),利用理想題庫和恒定的a參數(shù)模擬,發(fā)現(xiàn)OWEN能力估計(jì)通常會(huì)產(chǎn)生嚴(yán)重的偏差。而且Owen貝葉斯以不同順序估計(jì)相同的題目會(huì)得出不同的結(jié)果?,F(xiàn)在,人們?cè)贑AT中較少使用Owen法。然而,Owen法的出現(xiàn)說明在MAP出現(xiàn)后不久,人們已經(jīng)想到要用后驗(yàn)分布的均值作為估計(jì),只是當(dāng)時(shí)還不知道如何計(jì)算一個(gè)無規(guī)律分布的均值,此外還說明,在多年以前,人們非常注重一個(gè)算法是否能夠節(jié)省計(jì)算資源。

        Owen法出現(xiàn)后不久,Bock和Aitken(1981)將視線轉(zhuǎn)移到了能夠?qū)篁?yàn)分布的均值和方差進(jìn)行有效數(shù)值計(jì)算的積分公式,提出了期望后驗(yàn)估計(jì)(Expected A Posteriori,EAP)方 法(Bock&Mislevy,1982)。EAP方法是找到后驗(yàn)分布的均值和方差,直接以其均值作為能力估計(jì)值,標(biāo)準(zhǔn)差為誤差。通過高斯積分公式,EAP估計(jì)變成了求和而不用迭代過程。這將簡化繁瑣的迭代計(jì)算,使得算法效率得到有效提高。

        從理論上看,EAP不僅節(jié)省了計(jì)算資源,而且采用后驗(yàn)分布的均值,充分利用了整個(gè)后驗(yàn)分布的信息。這在測(cè)驗(yàn)初期非常具有實(shí)際意義。一般來說,測(cè)驗(yàn)初期由于信息不足,采用似然函數(shù)(或后驗(yàn)分布)極大值點(diǎn)處的值作為估計(jì)值會(huì)有不穩(wěn)定的缺點(diǎn)。而采用整個(gè)后驗(yàn)分布的均值,可以有效地利用整個(gè)后驗(yàn)分布的形態(tài)提供的信息,穩(wěn)定性相比MLE或MAP要高。而且從邏輯上看,EAP法直接考察實(shí)際的后驗(yàn)分布,這一點(diǎn)也優(yōu)于Owen法。

        EAP也屬于貝葉斯方法,與MAP一樣構(gòu)建后驗(yàn)分布,因此對(duì)于能力的估計(jì)也會(huì)受先驗(yàn)分布的影響而產(chǎn)生與MAP類似的偏差,但與MAP不同的是,EAP考慮的是后驗(yàn)分布的均值,而MAP則考慮的是分布中的極大值點(diǎn)(眾數(shù))。EAP對(duì)后驗(yàn)分布采用數(shù)值積分,利用計(jì)算機(jī)可以直接計(jì)算,而MAP對(duì)整合了先驗(yàn)信息的似然函數(shù)為了求極大值點(diǎn)需要數(shù)值迭代。這是兩種貝葉斯方法之間的主要區(qū)別。

        EAP作為一種貝葉斯方法,加入了先驗(yàn)信息,其估計(jì)誤差在多數(shù)情況下比MAP還要小,但對(duì)于能力值距離先驗(yàn)均值較遠(yuǎn)的被試,EAP做出的估計(jì)仍然是有偏的,其偏差方向與MAP一致,但相對(duì)略小于MAP的偏差。EAP除了不是一個(gè)無偏估計(jì),擁有了大多數(shù)能力估計(jì)方法的優(yōu)點(diǎn),如估計(jì)值穩(wěn)定,算法效率高,是目前經(jīng)常采用的一種方法。例如我國的大型CAT,中國軍人醫(yī)學(xué)與心理選拔系統(tǒng)就采用了EAP作為能力估計(jì)方法。

        針對(duì)EAP偏差較高的缺點(diǎn),Wang(1997)利用四參數(shù)的貝塔分布作為先驗(yàn)提出了一種基本上無偏(Essentially Unbiased)的EU—EAP方法,并與MLE、WLE、MAP等方法進(jìn)行了比較,結(jié)果表明該方法在有效降低了EAP偏差的同時(shí),RMSE略有增加,基本上保留了EAP的低誤差特性(Wang,et al.,1999)。

        目前MAP和EAP是貝葉斯方法中最常見的兩種。影響貝葉斯方法表現(xiàn)優(yōu)劣的重要一點(diǎn)在于先驗(yàn)分布的選擇。一般的經(jīng)驗(yàn)是,被試的能力應(yīng)該服從正態(tài)分布,故一般以正態(tài)分布作為先驗(yàn)。但是實(shí)際中正態(tài)分布往往并非最佳選擇,而相對(duì)更分散的分布往往表現(xiàn)更好(Lord,1984;Warm,1989)。例如,有人認(rèn)為貝葉斯方法的先驗(yàn)分布如果取標(biāo)準(zhǔn)正態(tài)分布,會(huì)對(duì)能力位于極端值附近被試的能力估計(jì)產(chǎn)生較大偏差,因此提出應(yīng)該用其他分布作為先驗(yàn)分布,如二項(xiàng)分布,更有人甚至提出了這種經(jīng)驗(yàn)分布的估計(jì)方法,其他的分布統(tǒng)稱經(jīng)驗(yàn)先驗(yàn)分布(Mislevy,1984;Wang.et al.,1999;殷華,宋繼華,2005)。但也有人認(rèn)為CAT能力估計(jì)之初應(yīng)該使用比標(biāo)準(zhǔn)正態(tài)分布更加集中的分布,以確保最初的幾道題的能力估計(jì)相對(duì)集中,降低整體估計(jì)誤差,之后再逐漸使分布分散(簡小珠,張敏強(qiáng),2010)。

        2.4 加權(quán)似然估計(jì)(Weighted Likelihood Estimation,WLE)

        貝葉斯方法的考慮角度是引入被試的能力分布的先驗(yàn)信息,會(huì)幫助降低估計(jì)誤差和均方差,但是其代價(jià)是提高估計(jì)偏差(Warm,1989;Wang.et al.,1999)。Warm(1989)從減少M(fèi)LE偏差這個(gè)角度出發(fā),從理論上探討了MLE方法對(duì)于估計(jì)能力與題目難度有差異時(shí)的估計(jì)偏差,并提出修正這種偏差的加權(quán)似然估計(jì)方法。

        Warm(1989)經(jīng)過數(shù)學(xué)推導(dǎo)后認(rèn)為,為了在似然方程中移除MLE的一階偏差項(xiàng),應(yīng)該對(duì)似然函數(shù)乘以一個(gè)恰當(dāng)?shù)臋?quán)函數(shù)w(θ)。在1PLM或2PLM中這個(gè)權(quán)函數(shù)就是測(cè)驗(yàn)信息函數(shù)的開方即而3PLM中,這個(gè)w(θ)多乘了一個(gè)與測(cè)驗(yàn)信息函數(shù)相關(guān)的指數(shù),即Warm(1989)在文中提到,對(duì)于一個(gè)估計(jì)量來說,做到在局部區(qū)間偏差很小并不難,但是估計(jì)量更加應(yīng)該注重在整個(gè)全局量表上的無偏性。WLE相比其他估計(jì)量在更加寬廣的能力量表范圍內(nèi)接近無偏。

        測(cè)驗(yàn)信息函數(shù)由所測(cè)題目的題目參數(shù)決定,從影響估計(jì)的因素看,影響估計(jì)準(zhǔn)確性的因素不僅包括被試的能力分布,也包括測(cè)驗(yàn)題目對(duì)某一特定能力的被試所能提供的信息量。對(duì)被試信息量大的題目,相對(duì)來說應(yīng)該是被試能力與題目難度相對(duì)匹配的題目。這種題目按照MLE的偏差公式誤差相對(duì)較小,對(duì)其賦予較多權(quán)重顯然有助于減少M(fèi)LE整體的偏差。

        相對(duì)于紙筆測(cè)驗(yàn)來講,WLE偏差很低的優(yōu)良特性在CAT中,尤其是題庫完備的CAT中與MLE相比優(yōu)勢(shì)并不明顯,因?yàn)殡S著CAT的進(jìn)行,被試的能力很快就會(huì)與項(xiàng)目難度匹配,但是對(duì)于CAT的能力探查階段,由于能力的估計(jì)還不是很準(zhǔn)確,WLE還是有比較廣闊的應(yīng)用前景的。孫珊珊(2008)將WLE方法應(yīng)用于早期階段的CAT,并與傳統(tǒng)的MLE做了比較,得出結(jié)論認(rèn)為在早期階段WLE各項(xiàng)指標(biāo)都優(yōu)于MLE,因而比MLE更適合用于CAT的早期階段。

        加權(quán)的思想可以推廣到很多其他的應(yīng)用上去,例如Tao,Shi,&Chang(2012)利用對(duì)不同項(xiàng)目進(jìn)行不同加權(quán)的思想研究了混合測(cè)驗(yàn)的項(xiàng)目加權(quán)估計(jì)方法(Item-Weighted Likelihood Method)并在拓廣的分部評(píng)分模型(GPCM)下與MLE和WLE做了比較,發(fā)現(xiàn)這種加權(quán)法相比MLE和WLE能夠同時(shí)減少偏差和誤差。

        WLE從降低偏差的角度對(duì)MLE乘了一個(gè)加權(quán)函數(shù),這種形式讓人很容易就聯(lián)想到之前介紹過的JM。這兩種方法雖然概念上完全不同,JM是一個(gè)基于測(cè)驗(yàn)信息函數(shù)的有先驗(yàn)分布的貝葉斯估計(jì),而WL是為了消除ML估計(jì)的偏差加了一個(gè)適當(dāng)加權(quán)似然函數(shù),但二者在形式上非常相似,尤其在單參數(shù)和兩參數(shù)logistic模型下WLE的權(quán)函數(shù)就是JM的非信息先驗(yàn)。而三參數(shù)logistic模型下,先驗(yàn)分布稍有不同,WLE的信息函數(shù)多乘了一項(xiàng)與信息函數(shù)有關(guān)的指數(shù),使得JM的能力估計(jì)值一般總是會(huì)大于WLE(Warm,1989 ;Magis,&Ra?che,2012)。

        3 CAT中常用能力估計(jì)方法的總結(jié)與評(píng)價(jià)

        理論工作和實(shí)際研究都已揭示了MLE、EAP、MAP、WLE等估計(jì)方法的重要特性,從一般的研究結(jié)論來看,在這四種主要能力估計(jì)方法中,MLE誤差(SE)最大,貝葉斯方法誤差較小但卻均向著先驗(yàn)均值有偏,WLE偏差最小。在貝葉斯方法中,EAP相比MAP偏差和誤差均比較小。EAP的另一個(gè)優(yōu)點(diǎn)就是無須迭代,計(jì)算效率高于MLE、WLE和MAP。MAP的主要優(yōu)勢(shì)在于變長測(cè)驗(yàn)中所需題目相比EAP更少,即測(cè)驗(yàn)效率更高。隨著測(cè)驗(yàn)長度的增加,這些方法之間的誤差區(qū)別越來越不明顯。

        對(duì)于以上介紹的幾種方法,我們可以理出一條主線,即似然函數(shù)。上述幾種方法都是圍繞著似然函數(shù)進(jìn)行。例如有的直接求似然函數(shù)的極大值(MLE),有的通過給似然函數(shù)加上先驗(yàn)信息(MAP、EAP),有的通過修正極大似然值的偏差(WLE)。雖然MLE,WLE與MAP看似屬于不同方法,建立方法的初衷也各不一樣,但就數(shù)學(xué)形式上,他們都能歸結(jié)為綜合權(quán)重乘以似然函數(shù)并求后驗(yàn)分布極大值的某種特殊形式。符合該形式的非貝葉斯估計(jì)量被統(tǒng)稱為偽貝葉斯估計(jì)量(pseudo Bayes estimators)。由此可以看出,貝葉斯及偽貝葉斯眾數(shù)估計(jì)量在更高的層面上被統(tǒng)一了起來(Ogasawara,2013)。

        Warm(1989)指出,在CAT的能力估計(jì)領(lǐng)域,除了以上提到的幾種基本的CAT能力估計(jì)方法,還有一些早期提出但已不太常見的其他方法本文未予 介紹,如 robustified jackknife(Waine&Wright,1980),h估計(jì)量(Jones,1982),以及雙權(quán)估計(jì)(Bock&Mislevy,1981)。但總體而言,CAT的能力估計(jì)方法不如選題策略那么多。而且方法大多還是基于IRT的能力估計(jì),簡單的移植到CAT中來,并未考慮到CAT的特點(diǎn)。因此,基于CAT的特點(diǎn),對(duì)能力估計(jì)方法進(jìn)行革新,或許將成為CAT能力估計(jì)領(lǐng)域的新要求。為了實(shí)現(xiàn)上述目的,對(duì)當(dāng)前CAT中主要能力估計(jì)方法的原理的深入理解,特性的總結(jié)歸納,以及對(duì)能力估計(jì)方法發(fā)展脈絡(luò)的梳理有助于我們深刻把握不同時(shí)代CAT能力估計(jì)中所關(guān)注的問題,為將來方法上的創(chuàng)新掃清障礙。

        4 問題與展望

        4.1 問題

        CAT的能力估計(jì)似乎總是無法同時(shí)滿足偏差和誤差的要求。一種方法,如果要想無偏,必然不能加入過多人為信息,但是如果想要誤差較低,又不得不加入更多信息。在信息源一定的情況下,這兩個(gè)要求從理論上形成了一個(gè)悖論。因此也導(dǎo)致了目前的方法大多只能求某一個(gè)指標(biāo)表現(xiàn)較好。

        4.2 展望之一MCMC方法

        近年來計(jì)算資源越來越豐富而模型越來越復(fù)雜,利用吉布斯抽樣理論對(duì)后驗(yàn)分布反復(fù)抽樣的簡便而耗時(shí)的MCMC也就進(jìn)入了人們的視野。統(tǒng)計(jì)學(xué)家Albert(1992)首先將馬爾科夫鏈蒙特卡洛(Markov Chain Monte Carlo,MCMC)方法應(yīng)用到IRT參數(shù)估計(jì)研究中,大大簡化了IRT中參數(shù)估計(jì)的復(fù)雜度,并且估計(jì)精度較好。但是MCMC作為一種反復(fù)抽樣的算法,其算法效率比較低下(王權(quán),2006)。未來的CAT模型越來越復(fù)雜,而計(jì)算資源越來越豐富,類似于MCMC這種比較耗費(fèi)計(jì)算資源,但簡單通用而且精度較高的估計(jì)方法可能會(huì)是一個(gè)流行趨勢(shì)。

        4.3 展望之二基于軟計(jì)算的方法

        基于軟計(jì)算理論的人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANNs)和遺傳算法(Genetic Algorithm,GA)最近也被用于能力估計(jì)領(lǐng)域(余嘉元,2002;王祖儉,黃國兵,丁樹良,2005)。此外,有人提出了遺傳算法和神經(jīng)網(wǎng)絡(luò)結(jié)合起來估計(jì)的方法(王華,陳景,馬翠琴,周麗娟,2012)。以上算法代表了近年來的能力估計(jì)的進(jìn)展,由于大樣本統(tǒng)計(jì)理論已經(jīng)較為完善,因此上述方法在樣本量比較小的時(shí)候優(yōu)勢(shì)較為明顯。

        4.4 展望之三針對(duì)CAT特點(diǎn)的優(yōu)化

        在能力估計(jì)方面,CAT與P&P最大的不同就是需要按照題目數(shù)量從少到多,對(duì)被試能力進(jìn)行若干次估計(jì)。目前學(xué)界對(duì)CAT的能力估計(jì)的討論大多沿用基于紙筆測(cè)驗(yàn)的IRT方法,即簡單的將IRT中的能力估計(jì)方法移植到CAT中。并未考慮到CAT需要多次估計(jì)被試能力,且在CAT初期的題目樣本量比較小而中后期樣本量比較大的特點(diǎn)。

        如果考慮到CAT的這種特點(diǎn),或者可以嘗試在不同的CAT階段采用不同的方法。目前對(duì)各種能力估計(jì)方法的研究已經(jīng)表明在不同的樣本量具備不同特性(如MLE的大樣本較好而小樣本不好),那么研究針對(duì)CAT而進(jìn)行專門優(yōu)化的方法似乎也是一種可能的趨勢(shì)。目前已經(jīng)有一些研究涉及了這方面的問題(簡小珠,張敏強(qiáng),2010),但尚未出現(xiàn)專門論述這種不同階段采用不同方法文獻(xiàn)。

        僅靠合理組合運(yùn)用現(xiàn)有恰當(dāng)方法并不能給CAT的能力估計(jì)的精度以質(zhì)的突破,MCMC除了耗費(fèi)大量的計(jì)算資源之外,所能獲取的精度提升也非常有限,若要在CAT能力估計(jì)方法方面同時(shí)提高測(cè)驗(yàn)的誤差與偏差,也許只有獲取更多的信息源才能從根本上解決上述問題。

        4.5 本研究的不足

        本篇僅僅涉及了以IRT為指導(dǎo)的CAT的能力估計(jì),以認(rèn)知診斷為指導(dǎo)的CAT因篇幅有限而未涉及,此外本篇假設(shè)項(xiàng)目參數(shù)已知的能力的條件估計(jì),對(duì)于項(xiàng)目參數(shù)是估計(jì)值的情況也未作討論。本篇的結(jié)論是以單維CAT中的logistic模型下的結(jié)論為主,其他模型的結(jié)論因?yàn)槠蛞参丛诖擞懻摗?/p>

        [1]陳平,丁樹良,林海菁,周婕.等級(jí)反應(yīng)模型下計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)選題策略[J].心理學(xué)報(bào),2006,38(3):461-467.

        [2]陳平,辛濤.認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)中在線校準(zhǔn)方法的開發(fā)[J].心理學(xué)報(bào),2011,43(6):710-724.

        [3]簡小珠,張敏強(qiáng).CAT初始階段被試能力估計(jì)方法改進(jìn)探究[J].心理科學(xué),2010(6):1470-1472.

        [4]羅芬,丁樹良,胡小松,萬宇文,甘登文.基于IRT若干參數(shù)估計(jì)方式的比較[J].江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2003,27(1):56-60.

        [5]毛秀珍,辛濤.計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)選題策略述評(píng)[J].心理科學(xué)進(jìn)展,2011,19(10):1552-1562.

        [6]孫珊珊.將WLE應(yīng)用于早期階段的計(jì)算機(jī)自適應(yīng)測(cè)試[D].東北師范大學(xué),2008.

        [7]王華,陳景,馬翠琴,周麗娟.基于GA-BP算法的IRT模型參數(shù)估計(jì)方法研究[J].華北電力大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,39(5):109-112.

        [8]王權(quán).“馬爾可夫鏈蒙特卡洛”(MCMC)方法在估計(jì)IRT模型參數(shù)中的應(yīng)用[J].考試研究,2006,2(4):45-63.

        [10]王祖儉,黃國兵,丁樹良.基于遺傳算法的項(xiàng)目反應(yīng)理論3PLM參數(shù)估計(jì)[J].江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,29(6):475-477.

        [11]辛濤,樂美玲,張佳慧.教育測(cè)量理論新進(jìn)展及發(fā)展趨勢(shì)[J].中國考試,2012(5):3-11.

        [12]殷華,宋繼華.CAT能力求解算法研究與優(yōu)化[J].中國人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,44(2):59-61.

        [13]余嘉元.基于聯(lián)結(jié)主義的連續(xù)記分IRT模型的項(xiàng)目參數(shù)和被試能力估計(jì)[J].心理學(xué)報(bào),2002,34(5):522-528.

        [14]Albert,J.H.Bayesian estimation of normal ogive item response curves using Gibbs sampling[J].Journal of Educational Statistics,1992,17(3):251-269.

        [15]Birnbaum,A.Some latent ability models and their use in inferring an examinee's ability[M].In F.M.Lord&M.R.Novick,Statistical theories of mental test scores.Reading,MA:Addison-Wesley.1968:392-479.

        [16]Bock,R.,&Aitkin,M.Marginal maximum likelihood estimation of item parameters:Application of an EM algorithm[J].Psychometrika,1981,46(4):443-459.

        [17]Bock,R.,&Mislevy,R.J.Adaptive EAP estimation of ability in a microcomputer environment[J].Applied Psychological Measurement,1982,6(4):431-444.

        [18]Chen,S.,Hou,L.,&Dodd,B.G.A comparison of maximum likelihood estimation and expected a posteriori estimation in CAT using the partial credit model[J].Educational And Psychological Measurement,1998,58(4):569-595.

        [19]Eignor,D.R.&Schaeffer,G.A.Comparability studies for the GRE General CAT and the NCLEX using CAT[M].Paper presented at the meeting of the National Council on Measurement in Education,San Francisco,April 1995.

        [20]Jeffreys,H.An invariant form for the prior probability in estimation problems[M].Proceedings of the Royal Society of London.Series A,Mathematical and Physical Sciences,1946:186,453-461.

        [21]Jones,D.H.,&Educational Testing Service,P.J.Redescending M-Type Estimators of Latent Ability[J].Program Statistics Research,Technical Report No.1982:82-30.

        [22]Lord,F.M.Applications of item response theory to practical testing problems[M].Hillsdale,NJ:Lawrence Erlbaum.1980.

        [23]Lord,F.M.Unbiased estimators of ability parameters,of their variance,and of their parallel-forms reliability[J].Psychometrika,1983,48(2):233-245.

        [24]Lord,F.M.Maximum likelihood and Bayesian parameter estimation in item response theory(Research Rep.No.RR-84-30-ONR)[M].Princeton,NJ:Educational Testing Service.1984.

        [25]Lord,F.M.Maximum likelihood and Bayesian parameter estimation in item response theory[J].Journal of Educational Measurement,1986,23(2):157-162.

        [26]Magis,D.,&Ra?che,G.An iterative maximum a posteriori estimation of proficiency level to detect multiple local likelihood maxima[J].Applied Psychological Measurement,2010,34(2):75-89.

        [27]Magis,D.,&Ra?che,G.On the relationships between Jeffreys modal and weighted likelihood estimation of ability under logistic IRT models[J].Psychometrika,2012,77(1):163-169.

        [28]Meijer,R.R.,&Nering,M.L.Computerized adaptive testing:Overview and introduction[J].Applied Psychological Measurement,1999,23(3):187-194.

        [29]Mislevy,R.J.,&Brock,R.Biweight estimates of latent ability[J].Educational And Psychological Measurement,1982,42(3):725-737.

        [30]Mislevy,R.J.Estimating latent distributions[J].Psychometrika,1984,49(3):359-381.

        [31]Mislevy,R.J.Bayes Modal Estimation in Item Response Models[J].Psychometrika,1986,51(2):177-95.

        [32]Mislevy,R.J.,&Stocking,M.L.A consumer's guide to LOGIST and BILOG[J].Applied Psychological Measurement,1989,13(1):57-75.

        [33]Mislevy,R.J.Some formulas for use with Bayesian ability estimates[J].Educational and Psychological Measurement,1993:53,315-328.

        [34]Ogasawara,H.Asymptotic properties of the Bayes and pseudo Bayes estimators of ability in item response theory[J].Journal of Multivariate Analysis,2013:114,359-377.

        [35]Owen,R.J.Tailored Testing[M].Research Bulletin,Princeton,N.J.:Educational Testing Service,1969:69-92.

        [36]Owen,R.J.A Bayesian sequential procedure for quantal response in the context of adaptive mental testing[J].Journal of the American Statistical Association,1975(70):351-356.

        [37]Samejima,F.Estimation of latent ability using a response pattern of graded scores[J].Psychometrika Monograph Supplement,1969:34(4,Pt.2).

        [38]Samejima,F.A comment on Birnbaum's three-parameter logistic model in the latent trait theory[J].Psychometrika,1973,38(2):221-233.

        [39]Tao J.,Shi N.-Z.,Chang H.-H.Item-Weighted Likelihood Method for Ability Estimation in Tests Composed of Both Dichotomous and Polytomous Items[J].Journal of Educational and Behavioral Statistics,2012,37(2):298-315.

        [40]van der Linden,W.J.&Glas,C.A.W.(Eds.).Computerized adaptive testing:Theory and practice[M].Boston:Kluwer.2000.

        [41]van der Linden,W.J.&Glas,C.A.W.(2Eds.).Elements of Adaptive Testing[M].New York,NY:Springer.2010.

        [42]Wang,T.Essentially unbiased EAP estimates in computerized adaptive testing[M].Paper presented at the annual meeting of the American Educational Research Association,Chicago IL.1997.

        [43]Wang,T.,&Vispoel,W.P.Properties of ability estimation methods in computerized adaptive testing[J].Journal of Educational Measurement,1998,35(2):109-135.

        [44]Wang,T.,Hanson,B.A.,&Lau,C.A.Reducing bias in CAT trait estimation:A comparison of approaches[J].Applied Psychological Measurement,1999,23(3):263-278.

        [45]Warm,T.A.Weighted likelihood estimation of ability in item response theory[J].Psychometrika,1989,54(3):427-450.

        [46]Weiss,D.J.,&Kingsbury,G.Application of computerized adaptive testing to educational problems[J].Journal of Educational Measurement,1984,21(4):361-375.

        [47]Weiss,D.J.,&McBride,J.R.Bias and information of Bayesian adaptive testing[J].Applied Psychological Measurement,1984,8(3):273-285.

        Properties and Evaluations of Several Ability Estimations Widely Used in Computerized Adaptive Testing

        ZHANG Xin and TU Dongbo

        This article introduced the principle and properties of several ability estimator widely used in computerized adaptive testing environment,such as MLE,WLE,MAP&EAP etc.And then,we summed up and appraised the developmental features and properties of these methods.Finally,we try to make several outlooks with regard to the tendency of ability estimation used in Computerized adaptive testing.

        Computerized Adaptive Testing;Item Response Theory;Ability Estimation;Parameter Estimation

        G405

        A

        1005-8427(2014)05-0018-8

        張 心,男,江西師范大學(xué),碩士研究生(南昌 330022)涂冬波,男,江西師范大學(xué),副教授(南昌 330022)

        猜你喜歡
        后驗(yàn)先驗(yàn)測(cè)驗(yàn)
        基于對(duì)偶理論的橢圓變分不等式的后驗(yàn)誤差分析(英)
        基于無噪圖像塊先驗(yàn)的MRI低秩分解去噪算法研究
        貝葉斯統(tǒng)計(jì)中單參數(shù)后驗(yàn)分布的精確計(jì)算方法
        《新年大測(cè)驗(yàn)》大揭榜
        趣味(語文)(2018年7期)2018-06-26 08:13:48
        基于自適應(yīng)塊組割先驗(yàn)的噪聲圖像超分辨率重建
        一種基于最大后驗(yàn)框架的聚類分析多基線干涉SAR高度重建算法
        兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
        考試周刊(2016年88期)2016-11-24 13:30:50
        基于平滑先驗(yàn)法的被動(dòng)聲信號(hào)趨勢(shì)項(xiàng)消除
        先驗(yàn)的廢話與功能的進(jìn)路
        你知道嗎?
        精品亚洲成av人在线观看| 亚洲欧洲美洲无码精品va| 日韩十八禁在线观看视频| 国产亚洲精品品视频在线 | 美女丝袜诱惑在线播放蜜桃| 久久成人成狠狠爱综合网| 日本japanese少妇高清| 欧美日本道免费二区三区| 国产成人无码一二三区视频| 波多野结衣在线播放一区| 国产在线精品亚洲视频在线| 亚洲精品一区二区三区52p| 免费国产黄网站在线观看可以下载 | JIZZJIZZ国产| 国产精品自产拍av在线| 精品久久久久久综合日本| 亚洲精品成人区在线观看| 在线天堂中文一区二区三区| 日本av一区二区在线| 亚洲午夜成人精品无码色欲| 97人妻熟女成人免费视频| 加勒比精品一区二区三区| 亚洲乱码中文字幕第一页| 亚洲自偷自拍另类第1页| 野花社区www高清视频| 亚洲高清中文字幕精品不卡| 国产高清人肉av在线一区二区| 日韩精品久久久久久免费| 国产精品久久久久久久成人午夜| 久草久热这里只有精品| 国产不卡精品一区二区三区| 欧美大肥婆大肥bbbbb| 亚洲免费一区二区三区视频| 三级国产自拍在线观看| 麻豆tv入口在线看| 日本久久久| 日本人妻三级在线观看| 欧美激情肉欲高潮视频| 亚洲色欲色欲综合网站| 精品一区二区三区四区少妇| 男女啪啪在线视频网站|