亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)分階段應(yīng)用能力估計(jì)方法的模擬分析

        2023-12-07 10:03:55簡(jiǎn)小珠
        考試研究 2023年2期

        [摘要]概述計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的極大似然估計(jì)方法、極大后驗(yàn)估計(jì)方法、期望后驗(yàn)估計(jì)方法及其變式以及優(yōu)缺點(diǎn)。在CAT測(cè)試初始、中間、最終階段分別設(shè)計(jì)不同的能力估計(jì)方法并進(jìn)行模擬研究。結(jié)果顯示,CAT的初始、中間、最終階段同時(shí)使用MLE或Biweight、EAPE-U(-4,4)方法,各個(gè)能力水平的被試均能被準(zhǔn)確測(cè)量;CAT的初始、中間、最終階段中使用EAPE-N(0,1)方法或EAPE-N(0,2)方法,則高能力被試出現(xiàn)一定程度低估現(xiàn)象,低能力被試出現(xiàn)一定程度高估現(xiàn)象,而且所有被試的能力估計(jì)值呈現(xiàn)向能力量尺的中間靠攏的趨勢(shì)。

        [關(guān)鍵詞]CAT;極大似然估計(jì);極大后驗(yàn)估計(jì):期望后驗(yàn)估計(jì)

        [中圖分類號(hào)]G424.74[文獻(xiàn)標(biāo)識(shí)碼]A

        [文章編號(hào)]1673—1654(2023)02—056—012

        項(xiàng)目基金本文為國(guó)家社會(huì)科學(xué)基金后期資助項(xiàng)目(編號(hào):21FJKB021),江西省社會(huì)科學(xué)研究規(guī)劃項(xiàng)目(計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)技術(shù)發(fā)展分析與實(shí)測(cè)應(yīng)用,編號(hào)19JY02)的研究成果。

        在計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)(computerized adaptive testing,CAT)的測(cè)試過程中,每一道試題在被試作答后,需要進(jìn)行即時(shí)能力估計(jì);在CAT測(cè)驗(yàn)終止時(shí),需要進(jìn)行最終能力估計(jì)。能力估計(jì)是CAT測(cè)驗(yàn)流程與測(cè)量技術(shù)的主要環(huán)節(jié)之一,以往研究者已提出了多種能力估計(jì)方法。張心和涂冬波概述了CAT常見的幾種能力估計(jì)方法,包括極大似然估計(jì)方法(maximum likelihood estimation,MLE)、極大后驗(yàn)估計(jì)方法(expected a-posteriori estimation,EAPE)和期望后驗(yàn)估計(jì)方法(maximum-a-posteriori estimation,MAPE)的基本原理及特點(diǎn)[1]。Wang概述了多位研究者對(duì)MLE、Owen方法、MAPE這幾種能力估計(jì)方法在紙筆測(cè)驗(yàn)、CAT測(cè)驗(yàn)情境下的比較研究[2];通過CAT模擬研究比較分析了MLE、Owen方法、EAPE、MAPE這四種能力估計(jì)方法,對(duì)其優(yōu)缺點(diǎn)進(jìn)行了評(píng)論[3]。本文將在張心、Wang等的研究基礎(chǔ)上補(bǔ)充論述,重點(diǎn)論述MLE、EAPE、MAPE這三種能力估計(jì)方法的變式,概述以往研究者在CAT中分階段應(yīng)用能力估計(jì)方法的思路。同時(shí),設(shè)計(jì)模擬研究,分階段應(yīng)用于CAT能力估計(jì),對(duì)以上方法及其變式在CAT測(cè)試中的測(cè)量性能進(jìn)行比較分析。

        一、CAT常用能力估計(jì)方法及其變式

        (一)MLE方法及其變式

        Birnbaum最早在兩參數(shù)、三參數(shù)Logistic模型下采用極大似然估計(jì)方法來估計(jì)被試能力,這是IRT研究中被試能力估計(jì)的主要方法之一[4]。以往研究發(fā)現(xiàn),MLE方法是能力估計(jì)方法中偏差最小的[2]。但是MLE方法也存在不足:當(dāng)被試作答全對(duì)或者全錯(cuò)時(shí),被試能力估計(jì)的似然方程會(huì)無(wú)法估計(jì),這將使得CAT初始階段只能選題讓被試作答。李佳等提出了增加極端難度試題的改進(jìn)MLE方法,即NMLE方法,增加一道區(qū)分度大、難度低的試題,且假設(shè)被試答對(duì);增加一道試題區(qū)分度大、難度大的試題,且假設(shè)被試答錯(cuò)[5]。李佳等的研究結(jié)果顯示,通過增加兩道試題,能夠改進(jìn)MLE方法無(wú)法處理被試作答全對(duì)或全錯(cuò)的情況,以及能力估計(jì)不收斂的問題。

        (二)MAPE方法及其變式

        MAPE方法及其變式實(shí)際上是在MLE方法的基礎(chǔ)上增加被試能力分布密度函數(shù)信息。Samejima將后驗(yàn)分布f (θ)引入了MLE被試能力估計(jì)公式[11],將先驗(yàn)概率密度乘以似然函數(shù)構(gòu)建后驗(yàn)分布并求極大值,因而被稱為極大后驗(yàn)估計(jì)。MAPE本質(zhì)上是MLE的進(jìn)一步發(fā)展,是在MLE估計(jì)公式的基礎(chǔ)上結(jié)合貝葉斯后驗(yàn)分布而形成的能力估計(jì)方法。Wang初步論述了MAPE方法的優(yōu)缺點(diǎn)[3]。MAPE方法的優(yōu)點(diǎn)是,在許多測(cè)驗(yàn)情境下,被試群體能力量表的中段人數(shù)較多,而處于能力量表兩端的人數(shù)較少,MAPE可以利用后驗(yàn)信息將被試能力估計(jì)值向能力量表的中部“聚集”,從而整體上減小了對(duì)每個(gè)被試的估計(jì)誤差。MAPE方法的缺點(diǎn)是,由于MAPE方法本質(zhì)上是MLE方法的改進(jìn),MLE方法存在的缺點(diǎn),MAPE方法可能都存在;而且,MAPE方法出現(xiàn)估計(jì)向先驗(yàn)均值回歸的現(xiàn)象,可能會(huì)造成處于能力量尺兩端的被試在能力估計(jì)時(shí)出現(xiàn)偏差。

        以往研究者在MAPE方法的基礎(chǔ)上,提出了多個(gè)變式,包括:Wang,et al.在MAPE方法中加入了Beta先驗(yàn)分布參數(shù)α、β,以及設(shè)置u、l參數(shù),從而提出了無(wú)偏MAPE方法(EU-MAPE方法)[12];Sun等提出了MAPE的加權(quán)變式,即WMAPE方法[13];Magis等提出BME方法使用Jeffreys先驗(yàn)分布,形成MAPE的變式方法即Jeffreys模型方法[14]。以上幾個(gè)MAPE方法的變式在理論與實(shí)踐研究中應(yīng)用較少。

        (三)EAPE方法及其變式

        Bock和Mislevy闡述了EAPE方法具有多方面的優(yōu)點(diǎn)[10]:(1)EAPE方法在能力估計(jì)時(shí)不需進(jìn)行迭代計(jì)算,計(jì)算過程簡(jiǎn)潔;(2)EAPE方法不依賴于被試的先驗(yàn)信息分布假設(shè),使得EAPE方法能夠依據(jù)測(cè)驗(yàn)經(jīng)驗(yàn),或?qū)嵺`需要來進(jìn)行估計(jì);(3)對(duì)被試全對(duì)或全錯(cuò)的作答得分情況也能進(jìn)行能力估計(jì),在CAT初始階段被試作答試題量很少時(shí),可以使用EAPE方法得到相對(duì)準(zhǔn)確的估計(jì)等。不過,在Bock和Mislevy的CAT模擬研究結(jié)果顯示,EAPE方法對(duì)高能力被試會(huì)出現(xiàn)一定程度的低估,而低能力被試出現(xiàn)一定程度的高估[16]。

        EAPE方法的后驗(yàn)分布不使用正態(tài)分布,使用某一指定后驗(yàn)分布,就成為EAPE方法的變式方法。Rulison等、簡(jiǎn)小珠的CAT研究中使用EAPE-N(0,2)方法(后驗(yàn)分布均值為0,方差為2的EAPE方法)、EAPE-N(0,1)方法、EAPE-N(0,0.5)方法[17-18],由模擬結(jié)果可得,在CAT測(cè)試的后期階段,EAPE- N(0,2)方法的能力估計(jì)準(zhǔn)確性要優(yōu)于EAPE-N(0,1)方法、EAPE- N(0,0.5)方法。一些研究者還使用了EAPE方法的其他變式,如Barrada等在分析多重曝光率控制的CAT模擬研究中,使用了EAPE-U(-4,4)能力估計(jì)方法,即后驗(yàn)分布為均勻分布U(-4,4)[19];Chen在研究中使用能力估計(jì)方法EAPE-U(-4,4)、EAPE負(fù)偏態(tài)分布的方法[20]。

        二、CAT分階段應(yīng)用能力估計(jì)方法概述

        近年來,一些研究者提出了能力估計(jì)方法的分階段應(yīng)用思路,即在CAT的不同階段、或在不同測(cè)驗(yàn)情境時(shí)使用不同能力估計(jì)方法,以改進(jìn)或克服使用單一能力估計(jì)方法時(shí)的缺點(diǎn)與不足。CAT初始階段試題信息和被試作答信息都很少,此時(shí)試題的選擇往往采取試探性選擇方式,第一個(gè)試題往往是難度適中的試題,或者使用試題包方法,前三道試題均選擇難度適中的試題,待被試完成3道試題后再進(jìn)行被試能力估計(jì)。目前,已有不少研究者進(jìn)行了這方面的嘗試研究。例如,朱隆尹等提出將CAT測(cè)試分為前后兩個(gè)階段,即初步能力探查階段(試題數(shù)量為5題左右)和精確估計(jì)階段[21],并由模擬研究顯示,能力估計(jì)方法在這兩個(gè)不同的測(cè)試階段,其能力估計(jì)精度不同;張心的CAT模擬研究中,在前期和中期采用EAPE方法,后期采用WLE方法[22],并由模擬結(jié)果發(fā)現(xiàn),使用綜合能力估計(jì)方法的偏差Bias小于EAPE方法的偏差,而且綜合能力估計(jì)方法的RMSE與單純使用EAPE方法時(shí)差不多;蔡艷在研究中提出了改進(jìn)的MLE法(簡(jiǎn)記為R-MLE)[23],將EAPE方法與MLE方法相結(jié)合,即在CAT測(cè)試過程中,如果被試得滿分或0分則采用EAPE進(jìn)行估計(jì),否則采用MLE估計(jì),這樣,從CAT的第2題開始就實(shí)現(xiàn)了對(duì)被試進(jìn)行能力估計(jì),并進(jìn)行自適應(yīng)選題,提高了CAT測(cè)試的效率,這種新方法是在彌補(bǔ)MLE方法不能估計(jì)“全得滿分或0分的被試”這一不足的基礎(chǔ)上提出來的。

        在CAT測(cè)試的中間階段,van der Linden等認(rèn)為,試題選擇策略與能力估計(jì)方法應(yīng)該可以自由組合,而不是局限于早期CAT研究者的“自然”搭配。早期的自然搭配就是:MLE估計(jì)方法與最大項(xiàng)目信息量選題策略;Owen貝葉斯能力估計(jì)方法與基于后驗(yàn)分布的項(xiàng)目選擇。

        在CAT測(cè)試的最終能力階段,van der Linden等認(rèn)為,最終的能力估計(jì)應(yīng)該具有最優(yōu)的統(tǒng)計(jì)特性,此時(shí),最終能力估計(jì)方法的主要功能不再是根據(jù)被試能力估計(jì)值來選擇下一道項(xiàng)目,而是以可能的最佳形式為考生提供一個(gè)有意義的能力估計(jì)與評(píng)價(jià)。

        總之,以往研究者認(rèn)為,為了更好地適應(yīng)CAT測(cè)試過程,在不同的階段應(yīng)該使用不同的能力估計(jì)方法。如前所述,朱隆尹等、張心、蔡艷等研究者分階段使用了不同的能力估計(jì)方法[21-23],但是,這些研究對(duì)CAT階段的劃分,以及對(duì)能力估計(jì)方法比較均不夠細(xì)化。本文根據(jù)CAT測(cè)試過程的特點(diǎn),在CAT分三個(gè)階段采用不同能力的估計(jì)方法,并對(duì)這些方法及其變式進(jìn)行比較,實(shí)現(xiàn)對(duì)各個(gè)能力層次被試的估計(jì)。

        三、CAT分階段應(yīng)用能力估計(jì)方法的模擬研究

        (一)研究設(shè)計(jì)

        題庫(kù)模擬與被試選擇。模擬生成一個(gè)理想的題庫(kù),題庫(kù)題量為3000題,試題的區(qū)分度參數(shù)log(a)服從正態(tài)分布N(0,1),試題難度b參數(shù)服從U[-3,+3]。被試群體的模擬設(shè)計(jì):在能力區(qū)間[-3,+3]之間,選取-2.7,-2.4,-2.1…. 2.1,2.4,2.7共19個(gè)被試能力水平作為CAT模擬的被試能力真值,以代表不同能力水平的被試。

        測(cè)驗(yàn)起點(diǎn)與測(cè)驗(yàn)長(zhǎng)度:在兩級(jí)記分兩參數(shù)Logistic模型下,CAT測(cè)試起點(diǎn)從能力量尺的中間0.0開始。CAT模擬測(cè)驗(yàn)的長(zhǎng)度為30題,即被試完成30題則終止測(cè)驗(yàn)。

        選題策略:主要依據(jù)最大信息量選題策略,以往對(duì)試題曝光率控制的CAT模擬研究表明,如果加入了復(fù)雜的選題策略算法,試題曝光率往往使得所有被試的被試能力估計(jì)值的測(cè)量精度下降。所以以往的有些CAT模擬研究中,為了排除試題曝光率控制所帶來的干擾,往往都沒有加入試題曝光率控制。同樣地,本文為了排除試題曝光率對(duì)測(cè)驗(yàn)精度的影響與干擾,在CAT測(cè)驗(yàn)?zāi)M過程中沒有加入試題曝光率控制算法。

        能力估計(jì)方法:在CAT三個(gè)階段采用不同能力估計(jì)方法。這里對(duì)van der Linder CAT三個(gè)階段進(jìn)行了具體的描述與定義,具體如下:初始能力估計(jì)階段(初始階段)是指CAT測(cè)試過程中第1題至第3題,中間即時(shí)估計(jì)階段(中間階段)是指CAT測(cè)試過程中從第4題開始至測(cè)驗(yàn)最后一道試題,最終能力估計(jì)階段(最終階段)是指CAT測(cè)試結(jié)束時(shí),此時(shí)進(jìn)行最后的能力估計(jì)與評(píng)價(jià)。

        本研究所定義的CAT測(cè)試全過程包括CAT初始階段、中間階段,從第一題至最后一題,但不包括最終能力估計(jì)階段。

        CAT測(cè)試的全過程,共設(shè)計(jì)8種CAT模擬情境:

        1.測(cè)試全過程使用MLE方法,而且在初始階段前幾題時(shí),如果被試全部答對(duì)則賦予最大值+3,全部答錯(cuò)則賦予最小值-3。如果被試能力估計(jì)值收斂值大于3,則賦予+3;如果收斂于小于-3,則賦予-3;

        2.測(cè)試全過程使用Biweight方法,在初始階段被試能力估計(jì)時(shí)的設(shè)定同第1種情境;

        3.測(cè)試全過程使用EAPE-N(0,1)方法;

        4.測(cè)試全過程使用EAPE-U(-4,+4)方法;

        5.測(cè)試全過程中分段使用EAME方法的多個(gè)變式,即:前15題使用EAPE-N(0,1)方法,最后15題使用EAPE-U(-4,+4)方法;

        6.測(cè)試全過程中分段使用能力估計(jì)方法,初始階段第1至3題使用EAPE-N(0,1)方法,中間階段第4至30題使用EAPE-U(-4,+4)方法;

        7.測(cè)試全過程中分段使用能力估計(jì)方法,初始階段第1至3題使用EAPE-N(0,1)方法,中間階段第4至30題使用MLE方法;

        8.測(cè)試全過程中分段使用能力估計(jì)方法,初始階段第1至3題使用EAPE-U(-4,+4)方法,中間階段第4至30題使用MLE方法。

        第6、7、8CAT測(cè)試情境的過程設(shè)計(jì),本質(zhì)上是增加CAT初始階段(第1至3題)的設(shè)計(jì),而且第1-3題使用EAPE-N(0,1)方法、EAPE-U(-4,+4)方法,是一些研究者認(rèn)為,在CAT測(cè)試初始階段,由于作答試題數(shù)量少,被試作答信息少,使用MLE方法會(huì)出現(xiàn)能力估計(jì)不收斂或者無(wú)解的情況,包括van der Linden等也提出在CAT初始階段使用EAPE方法。

        最終能力估計(jì)階段設(shè)計(jì):在以上8種CAT測(cè)試過程的模擬情境下,當(dāng)每一個(gè)被試在每一次模擬測(cè)驗(yàn)結(jié)束時(shí),根據(jù)被試在每一次模擬測(cè)驗(yàn)作答得分情況分別使用5種能力估計(jì)方法進(jìn)行估計(jì)。這5種能力估計(jì)方法為:MLE方法、MLE-Biweight方法和EAPE-N(0,1)方法、EAPE-N(0,2)方法、EAPE-U(-4,+4)方法。由于MAPE方法的測(cè)量精確性不如MLE方法,這里的模擬研究設(shè)計(jì)不使用MAPE方法及其變式。

        評(píng)價(jià)指標(biāo):在每一個(gè)測(cè)驗(yàn)情境下,19名被試中的每一名被試都進(jìn)行5000次CAT測(cè)驗(yàn)?zāi)M作答過程。在每個(gè)測(cè)驗(yàn)情境完成模擬后,分析每個(gè)被試的模擬返真性能Bias、RMSE、測(cè)驗(yàn)SE。

        (二)結(jié)果與分析

        1.測(cè)試全過程使用MLE方法的模擬結(jié)果與分析

        測(cè)驗(yàn)全過程使用MLE方法,完成測(cè)驗(yàn)?zāi)M后,使用五種能力估計(jì)方法進(jìn)行估計(jì),對(duì)19名被試的模擬測(cè)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo)進(jìn)行整理分析,詳見表1和圖1、圖2。

        首先,由表1和圖1中各個(gè)被試的Bias可知,最終能力估計(jì)方法使用MLE、Biweight、EAPE-U(-4,4)方法時(shí),19名被試的偏差在這三種方法上的偏差值的大小幾乎相同,而且都很小,偏差Bias都在0.02以內(nèi),說明這三種能力估計(jì)方法的測(cè)量屬性較好,能夠?qū)Ω鱾€(gè)能力層次水平的被試做出準(zhǔn)確的測(cè)量。

        其次,分析圖1中當(dāng)最終能力估計(jì)方法為EAPE-N(0,1)、EAPE-N(0,2)方法時(shí),這19名被試之間的偏差出現(xiàn)有規(guī)律的變化趨勢(shì)。在被試能力真值接近0時(shí),其Bias值很??;而被試能力真值為+3或-3時(shí),其Bias值相對(duì)較大。在圖1的左端,從中間能力真值為0的被試至左端能力真值為-2.7的被試,Bias絕對(duì)值隨著被試能力真值減小而逐漸增大,即測(cè)量準(zhǔn)確性隨之越差;在圖1的右端,從中間能力真值為0的被試至右端的能力真值為2.7的被試,Bias隨著被試能力真值增大而逐漸增大,即測(cè)量準(zhǔn)確性隨之越差。這表明,EAPE-N(0,1)、EAPE-N(0,2)方法在能力量尺兩端的測(cè)量準(zhǔn)確性較差。為什么使用EAPE-N(0,1)方法、EAPE-N(0,2)方法時(shí),中等能力被試的模擬返真性能要優(yōu)于高、低能力被試?這主要是EAPE-N(0,1)方法、EAPE-N(0,2)方法都是假設(shè)被試的能力分布為正態(tài)分布,在中等能力區(qū)間的密度大,因此,被試能力估計(jì)值存在“向中間靠攏”的傾向,即高、低能力被試的能力估計(jì)值容易向能力分布的平均值靠攏,因而使得被試能力估計(jì)值與被試能力真值產(chǎn)生較大偏差,即Bias和RMSE相對(duì)較大;而且這些高能力或低能力被試能力真值距離平均值0.0越遠(yuǎn),Bias和RMSE則越大。Mislevy等在CAT模擬研究中也得到了類似的結(jié)論,即在EAPE方法下,被試能力估計(jì)值容易向平均值靠攏[6]。

        再次,橫向?qū)Ρ缺?中的EAPE-N(0,1)、EAPEN(0,2)、EAPE-U(-4,4)三種方法下的Bias、RMSE值,發(fā)現(xiàn)這三種方法在低能力被試(以-2.1至-2.7為代表)和高能力被試(以2.1至2.7為代表)的Bias、RMSE值的絕對(duì)值依次減小,特別是EAPE-U(-4,4)方法下高能力、低能力被試Bias、RMSE的大小與其他能力水平被試的Bias、RMSE一樣,沒有EAPE-N(0,1)方法時(shí)被試能力估計(jì)值向能力量尺中間靠攏的現(xiàn)象。因此,在使用EPAE方法時(shí),應(yīng)該使用后驗(yàn)分布為均勻分布的EAPE方法。

        第三,由表1可知,從能力真值-2.7至2.7的19名被試,這五種能力估計(jì)方法的RMSE值都在0.170左右,而五種方法的總體RMSE為0.173-0.176之間??傮wRMSE這一數(shù)值,與前人Wang等(1998)研究的表2中的MLE方法,測(cè)驗(yàn)長(zhǎng)度30時(shí)RMSE值為0.17,基本一致。

        最后,表1中RMSE指標(biāo)與測(cè)驗(yàn)SE指標(biāo)值的大小基本上相同,RMSE、測(cè)驗(yàn)SE均反映測(cè)驗(yàn)的隨機(jī)誤差的大小。從前人研究Wang等(1998)以及本文的模擬研究結(jié)果中都可以發(fā)現(xiàn),RMSE指標(biāo)與測(cè)驗(yàn)SE指標(biāo)值的大小很接近或相等,說明在各個(gè)能力水平被試的測(cè)量精度都比較一致。

        2.第2~8測(cè)驗(yàn)情境下的模擬研究結(jié)果與分析

        在第2~8種測(cè)驗(yàn)情境下進(jìn)行CAT測(cè)驗(yàn)?zāi)M,并對(duì)測(cè)驗(yàn)?zāi)M結(jié)果進(jìn)行整理分析,得到Bias、RMSE、測(cè)驗(yàn)SE評(píng)價(jià)指標(biāo)。第2~8種測(cè)驗(yàn)情境的Bias情況如圖3至圖9所示。在各個(gè)測(cè)驗(yàn)情境下的RMSE指標(biāo)與Bias指標(biāo)的變化趨勢(shì)近似一致:Bias偏大,則RMSE偏大;Bias偏小,則RMSE偏??;因而以下RMSE指標(biāo)不用圖形表示。而且,由于測(cè)驗(yàn)SE指標(biāo)在各個(gè)能力層次水平的變化很小,如同表1的SE一樣,因而這里就不再用圖形展示。

        首先,將圖3、圖5與圖1的情況放在一起進(jìn)行分析,測(cè)驗(yàn)的過程中使用Biweight方法、EAPE-U(-4,+4)方法時(shí)的Bias,與全過程使用MLE時(shí)的Bias的數(shù)值情況在各個(gè)層次被試能力水平上的數(shù)值大小基本一致,可以認(rèn)為在CAT測(cè)試中,過程中能力估計(jì)使用MLE方法、Biweight方法、EAPE-U(-4,+ 4)方法,且最終能力估計(jì)方法也是這三種方法時(shí),對(duì)被試能力估計(jì)的測(cè)量誤差是基本一致的,偏差接近于0。從表1的數(shù)值看,最終能力估計(jì)方法為MLE時(shí),各個(gè)被試的Bias偏差小于0.015,這一數(shù)值與前人Wang等研究的表2中能力估計(jì)方法為MLE方法且測(cè)驗(yàn)長(zhǎng)度30時(shí)的Bias值0.016基本一致[3]。這說明在MLE、Biweight、EAPE-U(-4,4)方法下,CAT能對(duì)各個(gè)能力水平的被試實(shí)現(xiàn)準(zhǔn)確的測(cè)量,即MLE、Biweight、EAPE-U(-4,4)對(duì)各個(gè)層次水平的被試都能實(shí)現(xiàn)無(wú)偏估計(jì),換句話說,MLE、Biweight、EAPE-U(-4,4)方法是被試能力估計(jì)的無(wú)偏估計(jì)方法,這可視為以上能力估計(jì)方法應(yīng)用于被試能力測(cè)量的一個(gè)優(yōu)點(diǎn)。

        其次,在圖4中當(dāng)CAT測(cè)試過程、最終階段的能力估計(jì)方法都使用EAPE-N(0,1)方法時(shí),此時(shí)高能力被試和低能力被試的Bias(或Bias絕對(duì)值),與其他能力水平的被試相比,相對(duì)較大,而且比圖1中的最終能力估計(jì)方法使用EAPE-N(0,1)方法時(shí),對(duì)應(yīng)的高能力被試和低能力被試的Bias(或Bias絕對(duì)值)、RMSE還要大一些。也就是說,在CAT測(cè)試過程和最終能力估計(jì)階段時(shí)都使用EAPE-N(0,1)方法,高能力被試和低能力被試段的Bias(或Bias絕對(duì)值)、RMSE比較大,而中間能力被試的Bias(或Bias絕對(duì)值)、RMSE比較小。這意味著,中間階段和最終能力估計(jì)方法使用EAPE-N(0,1)方法有利于中等能力被試的測(cè)量,而不利于高能力被試或低能力被試的準(zhǔn)確測(cè)量。這里圖4的研究結(jié)果,與Wang等研究文獻(xiàn)的圖3中EAPE的Bias值的曲線變化趨勢(shì)幾乎是一致的。然而,本文圖4的EAPE-N(0,1)方法中高能力、低能力被試的Bias值或絕對(duì)值,要小于Wang等的Bias值,這是由于Wang等模擬研究中題庫(kù)試題難度參數(shù)使用正態(tài)分布,而本文的題庫(kù)試題難度參數(shù)采取均勻分布,使得高能力、低能力被試在模擬測(cè)驗(yàn)時(shí)有足夠難度合適的試題來進(jìn)行測(cè)試,因而測(cè)量的準(zhǔn)確性要高一些。

        再次,將圖6、圖7、圖8與圖1對(duì)比分析,發(fā)現(xiàn)圖 6、圖7、圖8中在CAT初始階段、中間階段使用了EAPE-N(0,1)方法的變式,而最終能力估計(jì)方法使用EAPE-N(0,1)方法、EAPE-N(0,2)方法時(shí)的偏差Bias,與圖1中相對(duì)應(yīng)的EAPE-N(0,1)方法、EAPEN(0,2)方法時(shí)的偏差Bias要相對(duì)大一些,也就是說,在CAT測(cè)試過程的初始階段使用了EAPE-N(0,1)方法,會(huì)對(duì)高能力被試、低能力被試的準(zhǔn)確測(cè)量產(chǎn)生較大的影響,使得高能力被試、低能力被試的估計(jì)值向能力量尺中間聚攏。同時(shí),分析圖7、圖8中在CAT初始階段前3題使用了EAPE-N(0,1)方法,而最終能力估計(jì)方法MLE方法、Biweight方法、EAPEU(-4,4)方法時(shí)的偏差Bias幾乎接近于0,這與圖1基本一致,說明最終能力估計(jì)使用MLE方法、Biweight方法、EAPE-U(-4,4)方法有助于糾正在CAT初始階段使用EAPE-N(0,1)方法造成的偏差影響。

        最后,分析圖9并與圖1對(duì)比,發(fā)現(xiàn)圖9與圖1在各個(gè)能力估計(jì)方法上的偏差Bias大小幾乎一致,幾乎都是接近于0;而且,各個(gè)層次、能力水平的Bias的大小非常一致。在模擬過程中,具體跟蹤記錄分析所有被試在使用MLE方法時(shí)的每一步作答情況,均沒有發(fā)現(xiàn)MLE在能力估計(jì)時(shí)無(wú)解或不收斂的情況,也沒有發(fā)現(xiàn)MLE估計(jì)時(shí)出現(xiàn)多個(gè)極大值的情況。

        總之,在CAT測(cè)試初始階段、中間階段和最終估計(jì)階段,MLE方法是能力估計(jì)方法中Bias、RMSE最小的,Bias幾乎接近0,即對(duì)各個(gè)層次被試能力水平的測(cè)量都是相對(duì)準(zhǔn)確的;同時(shí)Biweight、EAPE-U(-4,4)方法的測(cè)量準(zhǔn)確性與MLE方法幾乎一致。以往研究中也曾得出同樣的結(jié)論,Samejima(1993)通過假設(shè)推理[26],推論了MLE的偏差函數(shù)的性質(zhì),假定測(cè)驗(yàn)所有試題的試題難度與能力估計(jì)值相當(dāng)時(shí),偏差為0;當(dāng)被試能力水平比測(cè)驗(yàn)的平均項(xiàng)目難度水平高,則偏差是正的;當(dāng)能力水平低于平均項(xiàng)目難度水平,則偏差是負(fù)值。其他研究者通過紙筆測(cè)驗(yàn)?zāi)M,或者在CAT模擬測(cè)驗(yàn)的研究結(jié)果也可得到同樣的結(jié)論。Wang等(1998)認(rèn)為在適應(yīng)性測(cè)驗(yàn)形式下,被選擇的試題難度總是與被試能力水平相匹配,測(cè)驗(yàn)平均難度與被試能力水平的差距會(huì)逐漸接近0,因此MLE是一種漸進(jìn)無(wú)偏的能力估計(jì)方法[3]。

        四、結(jié)論

        在CAT測(cè)試全過程中,被試能力估計(jì)方法使用MLE、Biweight、EAPE-U(-4,4)方法,而且最終階段的能力估計(jì)方法為MLE、Biweight、EAPE-U(-4,4)方法時(shí),此時(shí)這三種能力估計(jì)方法的Bias很小,幾乎接近0,這說明在MLE、Biweight、EAPE-U(-4,4)方法下,CAT能對(duì)各個(gè)能力水平的被試均實(shí)現(xiàn)準(zhǔn)確的測(cè)量,這可以認(rèn)為是計(jì)算機(jī)化適應(yīng)性測(cè)驗(yàn)應(yīng)用于被試能力測(cè)量的一個(gè)重要理論依據(jù)之一。也就是說,MLE、Biweight、EAPE-U(-4,4)這三種方法是對(duì)被試能力估計(jì)的無(wú)偏估計(jì)。此研究結(jié)論與前人研究認(rèn)為MLE方法是對(duì)被試能力無(wú)偏估計(jì)的這一觀點(diǎn)一致。

        CAT測(cè)試全過程中,被試能力估計(jì)方法使用EAPE-N(0,1)方法或者EAPE-N(0,2)方法,而且最終能力估計(jì)方法為EAPE-N(0,1)方法或者EAPE-N(0,2)方法時(shí),高能力被試會(huì)出現(xiàn)一定程度低估現(xiàn)象,低能力被試會(huì)出現(xiàn)一定程度高估現(xiàn)象,即高能力、低能力被試的能力估計(jì)值向中間靠攏的現(xiàn)象。此研究結(jié)論與前人研究觀點(diǎn)是一致的。而且,只要CAT初始階段中使用了EAPE-N(0,1)方法,就會(huì)使得高能力、低能力被試的Bias、RMSE相對(duì)變大。因此,CAT測(cè)試的初始階段、中間階段、最終階段都不建議使用EAPE-N(0,1)方法或者EAPE-N(0,2)方法。總之,根據(jù)CAT模擬研究結(jié)果,建議在CAT測(cè)試過程的初始階段、中間階段、最終階段時(shí),使用MLE、Biweight、EAPE-U(-4,4)這三種方法中的一種,或者將這三種方法組合應(yīng)用。

        參考文獻(xiàn):

        [1]張心,涂冬波.計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)中幾種常用能力估計(jì)方法的特性與評(píng)價(jià)[J].中國(guó)考試,2014,21(5):18-25.

        [2] Wang T. The Precision of Ability Estimation Methods in Computerized Adaptive Testing [D]. University of Iowa,1995.

        [3] Wang T,Vispoel W P. Properties of Ability Estimation Methods in Computerized Adaptive Testing [J]. Jorunal of Educational Measurement, 1998,35:109-135.

        [4] Birnbaum A. Some Latent Ability Models and their Use in Inferring an Examinees Ability [M] // F. M. Lord,M R. Novick. Statistical Theories of Mental Test Scores. Reading,MA:AddisonWesley. 1968:392-479.

        [5]李佳,丁樹良.計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)中能力估計(jì)新方法[J].江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,43(2):142-146.

        [6] Mislevy R J,Bock R D. Biweight Estimates of Latent Ability[J]. Educational & Psychological Measurement,1982,42(3):725-737.

        [7] Warm T A. Weighted Likelihood Estimation of Ability in Item Response Theory [J]. Psychometrika,1989,54(3):427-450.

        [8] Schuster C,Yuan K. Robust Estimation of Latent Ability in Item Response Models [J]. Journal Of Educational And Behavioral Statistics,2011,36(6):720-735.

        [9] Jones D H. Redescending M-Type Estimators of Latent Ability[R]. Program Statistics Research,Technical Report No. 82-30,1982.

        [10]簡(jiǎn)小珠,戴海琦.“CAT初始作答影響最終成績(jī)”的模擬分析與糾正[J].心理學(xué)探新,2016,36(03):276-280.

        [11] Samejima F. Estimation of Latent Ability Using a Response Pattern of Graded Scores [J]. Psychometrik,1969,34:1-97.

        [12] Wang,T.,Hanson,Bradley,A.,Lau,C. Reducing Bias in CAT TraitEstimation:AComparisonofApproaches[J].Applied Psychological Measurement,1999,23:263-278.

        [13] Sun,S.,Tao,J.,Chang,H. H.,et al. Weighted Maximum-aPosterioriEstimationinTestsComposedofDichotomousand Polytomous Items [J]. Applied Psychological Measurement,2012,36(5):399-419.

        [14] Magis,D.,& Ra?che,G. On the Relationships Between Jeffreys Model and Weighted Likelihood Estimation of Ability Under Logistic IRT Models [J]. Psychometrika,2012,77(1):163-169.

        [15] Bock RD,Aitkin M. Marginal MaximumLikelihood Estimation of Item Parameters:Application of an EM Algorithm [J]. Psychometrika,1981,46(4):443-459.

        [16] Bock R D,Mislevy R J. Adaptive EAP Estimation of Ability inaMicrocomputerEnvironment[J].AppliedPsychological Measurement,1982,6(4):431-444.

        [17] Rulison K L,Loken E. Ive Fallen and I Cant Get Up:Can High Ability Students Recover From Early Mistakes in CAT? [J]. Applied Psychological Measurement,2009,33(2):83-101.

        [18]簡(jiǎn)小珠. IRT模型中c、γ參數(shù)對(duì)被試能力高估和低估現(xiàn)象的糾正[D].廣東廣州:華南師范大學(xué),2011.

        [19] Barrada J R,Abad F J,Veldkamp B P. Comparison of Methods for Controlling Maximum Exposure Rates in Computerized Adaptive Testing [J]. Methodology,2009,21:313-320.

        [20] Chen S. The Comparison of Maximum Likelihood Estimation and Expected a Posteriori in CAT Using the Graded Response Model[J].國(guó)教學(xué)報(bào)(中國(guó)臺(tái)灣),1996,19:339-371.

        [21]朱隆尹,丁樹良.CAT能力估計(jì)方法的比較研究[J].江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,31(3):302-305.

        [22]張心.CAT常用能力估計(jì)方法比較及其優(yōu)化:能力綜合估計(jì)方法開發(fā)[D].江西南昌:江西師范大學(xué),2014.

        [23]蔡艷.CAT中能力參數(shù)估計(jì)方法的改進(jìn):R-MLE估計(jì)法[J].心理學(xué)探新,2016,36(1):92-96.

        [24] van der Linden W J,Pashley P J. Item Selection and Ability Estimation in Adaptive Testing [M] // van der Linden W J,Glas C A W. Elements of Adaptive Testing. Springer New York,2010.

        [25] Dodd,B.,G. The Effect of Item Selection Procedure and Step Size on Computerized Adaptive Attitude Measurement Using the Rating Scale Model [J]. Applied Psychological Measurement,1990,14(4):355-366.

        [26] Samejima F. The Bias Function of the Maximum Likelihood EstimateofAbilityfortheDichotomousResponseLevel[J]. Psychometrika,1993,58(2):195-209.

        Comparison between Ability Estimation Methods under Computerized Adaptive Testing

        Jian Xiaozhu

        Department of Education,Guangxi Normal University,School of Education,Jinggangshan University,Jian,Jiangxi,343000

        Abstract:This paper summarizes three main types of computerized adaptive testing(CAT)ability estimation methods,namely,maximum likelihood estimation method(MLE),maximum posterior estimation method(EAPE),expectation posterior estimation method(MAPE)and their variants,and discusses their advantages,disadvantages and applicable situations. In this paper,through CAT simulation design,different ability estimation methods are used in the CAT testing process and the final stage of CAT respectively,and the measurement attributes of the ability estimation methods in the CAT testing process are analyzed. It is found that under the methods of MLE,Biweight and EAPE-U(-4,4),CAT could achieve accurate measurement for all ability levels of the subjects. In the process of CAT test,when the ability estimation method of subjects is EAPE-N(0,1)or EAPE-N(0,2),and the final ability estimation method is EAPE-N(0,1)or EAPE-N(0,2),high-ability subjects will underestimate to a certain extent,the low-ability subjects overestimated to a certain extent,and the ability estimation was close to the middle. In addition,as long as EAPE-N(0,1)or EAPE-N(0,2)method is used in part of CAT stage,and other ability estimation methods such as MLE are used in other stages,the RMSE of intermediate ability subjects will be relatively small,while the RMSE of high-ability and low-ability subjects will be relatively large.

        Key words:CAT,Maximum Likelihood Estimation,Expected A-Posteriori Estimation,Maximum-APosteriori Estimation

        (責(zé)任編輯:吳茳)

        中文亚洲成a人片在线观看| 中文亚洲AV片在线观看无码| 加勒比熟女精品一区二区av| 精品亚洲一区中文字幕精品| 日韩人妻少妇一区二区三区| 日本阿v网站在线观看中文| 国产亚洲精品日韩综合网| 在线亚洲精品一区二区三区| 国产精品久久久三级18| 亚洲国产成人片在线观看无码| 国产女在线| 一区二区高清视频在线观看| 国产精品福利高清在线| 日韩乱码人妻无码中文字幕久久| 亚洲国产中文在线二区三区免| 一区二区三区在线视频免费观看| av网站免费在线浏览| 高潮潮喷奶水飞溅视频无码| 粉嫩少妇内射浓精videos| 亚洲一区二区三在线播放| 日本免费一区二区三区影院| 欧洲美女黑人粗性暴交| 最新国产拍偷乱偷精品| 加勒比久草免费在线观看| 亚洲av无码乱码国产麻豆| 日韩人妻无码免费视频一区二区三区| 在线观看亚洲精品国产| 蜜桃成熟时日本一区二区| 欧美乱大交xxxxx潮喷| 丝袜足控一区二区三区 | 亚洲国产中文字幕在线视频综合| 亚洲另类欧美综合久久图片区| 国产剧情福利AV一区二区| 国产精品天堂在线观看| 每日更新在线观看av| 国产香蕉97碰碰视频va碰碰看| 日本丰满少妇高潮呻吟| 国产一区二区三区在线观看第八页| www插插插无码视频网站| 麻豆国产乱人伦精品一区二区| 日本久久大片中文字幕|