鄒麗華
(大連教育學(xué)院 學(xué)習(xí)質(zhì)量監(jiān)測(cè)中心, 遼寧 大連 116021)
?
基于不同參數(shù)模型的項(xiàng)目參數(shù)估計(jì)結(jié)果的比較
鄒麗華①
(大連教育學(xué)院 學(xué)習(xí)質(zhì)量監(jiān)測(cè)中心, 遼寧 大連 116021)
參數(shù)估計(jì)是項(xiàng)目反應(yīng)理論應(yīng)用和發(fā)展的前提。本研究采用項(xiàng)目反應(yīng)理論,使用PARSCALE4.1 軟件,選擇兩參數(shù)和三參數(shù)羅杰斯蒂(Logistic)混合模型對(duì)某年區(qū)域初中畢業(yè)生中考物理測(cè)驗(yàn)成績(jī)進(jìn)行項(xiàng)目參數(shù)估計(jì),發(fā)現(xiàn)不同參數(shù)的項(xiàng)目參數(shù)估計(jì)結(jié)果在不同程度上存在差異。
項(xiàng)目參數(shù)估計(jì);能力參數(shù)估計(jì);羅杰斯蒂模型
教育測(cè)量是評(píng)價(jià)教育結(jié)果的重要方法,教育測(cè)量不僅包括對(duì)考試結(jié)果的評(píng)價(jià)分析,也包括對(duì)試題試卷質(zhì)量的評(píng)價(jià)分析。近年來(lái),國(guó)內(nèi)開始采用經(jīng)典測(cè)量理論和項(xiàng)目反應(yīng)理論聯(lián)合使用,對(duì)測(cè)量數(shù)據(jù)進(jìn)行精細(xì)分析。與經(jīng)典測(cè)量理論相比,項(xiàng)目反應(yīng)理論的優(yōu)勢(shì)在于,它可以計(jì)算出項(xiàng)目參數(shù)(試題難度、區(qū)分度),還可以預(yù)估出考生能力參數(shù);并且項(xiàng)目參數(shù)和能力參數(shù)彼此相互獨(dú)立,即考生能力參數(shù)的估計(jì)不受所選用試題的影響,試題難度和區(qū)分度的估計(jì)也不受考生樣本的影響,但項(xiàng)目參數(shù)的估值往往受到不同參數(shù)選擇個(gè)數(shù)的影響。研究人員以某年初中畢業(yè)生中考物理學(xué)科成績(jī)?yōu)槔?,分別用二參數(shù)羅杰斯蒂(Logistic)混合模型和三參數(shù)羅杰斯蒂(Logistic)混合模型對(duì)項(xiàng)目參數(shù)和考生能力參數(shù)進(jìn)行參數(shù)估計(jì),進(jìn)而比較兩種參數(shù)估計(jì)對(duì)項(xiàng)目難度和區(qū)分度結(jié)果的影響。
大連市初中畢業(yè)生學(xué)業(yè)考試物理試卷承擔(dān)著畢業(yè)與選拔兩種功能。本研究選擇某一年大連市市內(nèi)五區(qū)考生中考物理考試成績(jī),該試卷包括選擇題、填空題、計(jì)算題、簡(jiǎn)答題和綜合題五種題型,共31道題目,試卷滿分值為90分。根據(jù)經(jīng)典測(cè)驗(yàn)理論分析,測(cè)驗(yàn)Alpha信度系數(shù)0.920,物理試卷信度達(dá)到非常理想的程度。
建立在潛在特質(zhì)理論基礎(chǔ)上的項(xiàng)目反應(yīng)理論,通過(guò)建立考生作答反應(yīng)與題目特征量及能力水平間關(guān)系的非線性模型,估計(jì)被試的能力水平和題目參數(shù),同時(shí)也定義了信息函數(shù)。從數(shù)學(xué)角度看,項(xiàng)目反應(yīng)理論用含有未知參數(shù)的數(shù)學(xué)模型表示被試答對(duì)項(xiàng)目的可能性,是建立在概率的基礎(chǔ)之上。通常把試題難度、區(qū)分度、猜測(cè)系數(shù)稱為項(xiàng)目參數(shù),把被試的潛在特質(zhì)稱為能力參數(shù)。常見(jiàn)的模型有多級(jí)計(jì)分模型、等級(jí)模型、稱名模型,通常采用的是二值計(jì)分的單參數(shù)、二參數(shù)和三參數(shù)Logistic模型?,F(xiàn)以二值計(jì)分的三參數(shù)Logistic模型來(lái)說(shuō)明項(xiàng)目反應(yīng)理論。
項(xiàng)目反應(yīng)理論三參數(shù)的模型(3PLM)為:
題目參數(shù)估計(jì)結(jié)果,項(xiàng)目難度估值一般在-3至+3之間;項(xiàng)目區(qū)分度一般大于零,原則上估值越大越好;項(xiàng)目猜測(cè)度越小,項(xiàng)目質(zhì)量越好。根據(jù)項(xiàng)目參數(shù)估計(jì)的結(jié)果,就可以在此基礎(chǔ)上分析項(xiàng)目質(zhì)量及對(duì)題目進(jìn)行篩選。項(xiàng)目難度是項(xiàng)目篩選的參考指標(biāo),但是難度值的高低并不是單個(gè)項(xiàng)目取舍的依據(jù)。分析者應(yīng)考慮作為所選測(cè)驗(yàn)項(xiàng)目整體構(gòu)成的難度分布與測(cè)驗(yàn)所要求的難度分布是否擬合,并以此作為取舍的原則。項(xiàng)目區(qū)分度和猜測(cè)度是單個(gè)項(xiàng)目取舍的依據(jù),項(xiàng)目區(qū)分度一般不小于0.50,否則就應(yīng)考慮刪除,項(xiàng)目猜測(cè)度最大一般不應(yīng)超過(guò)0.25。[1]
研究中采用項(xiàng)目分析軟件PARSCALE4.1對(duì)不同考生的能力值和項(xiàng)目參數(shù)值進(jìn)行估計(jì),選用的是二參數(shù)混合模型(二參數(shù)Logistic模型和分步評(píng)分模型)和三參數(shù)混合模型(三參數(shù)Logistic模型和分步評(píng)分模型)。用邊際極大似然法估計(jì)項(xiàng)目的難度、區(qū)分度和猜測(cè)度;對(duì)能力估計(jì)時(shí)采用牛頓極大似然估計(jì)法(MLE)估計(jì)和后驗(yàn)期望估計(jì)(EAP)。
用PARSCALE4.1軟件和選取Logistic混合模型對(duì)項(xiàng)目參數(shù)進(jìn)行估計(jì)時(shí),-2loglikelihood值是擬合統(tǒng)計(jì)量,表示模型和數(shù)據(jù)的擬合程度。這是一個(gè)相對(duì)統(tǒng)計(jì)量,用于模型比較,值越小擬合越好。最終二參數(shù)擬合統(tǒng)計(jì)量為698930.776,三參數(shù)為720646.935,顯然是二參數(shù)模型與數(shù)據(jù)擬合的結(jié)果要比三參數(shù)的好。
1.單選題
中考物理選擇題分為單項(xiàng)選擇題和多項(xiàng)選擇題,猜測(cè)度的估計(jì)是針對(duì)單選題而言的。物理單選題的特點(diǎn)是在題目中給出四個(gè)選項(xiàng),其中只有一個(gè)正確選項(xiàng)。分別用二參數(shù)和三參數(shù)模型對(duì)單選題進(jìn)行項(xiàng)目參數(shù)估值,結(jié)果見(jiàn)表1所示。
表1 單選題二參數(shù)混合模型與三參數(shù)混合模型項(xiàng)目參數(shù)估值的結(jié)果
由表1可知,同一道題不同參數(shù)模型估計(jì)的難度、區(qū)分度均有差異。同一道試題二參數(shù)的難度估值小于三參數(shù)的難度估值,項(xiàng)目難度估值相差較大。例如,第3題二參數(shù)的難度估值是-2.236,三參數(shù)的難度估值為-0.916。除了第1題和第6題,其他試題區(qū)分度估值,二參數(shù)的均小于三參數(shù)的。再例如,第8題二參數(shù)區(qū)分度估值為0.877,三參數(shù)區(qū)分度估值為1.233。說(shuō)明猜測(cè)度的估計(jì)對(duì)題目難度和區(qū)分度參數(shù)估計(jì)有較大影響。從猜測(cè)度估值角度看,c值小于0.25有兩個(gè)題目(第5、9題),c值為0的有兩道題(第1、6題),c值大于0.25的有五道試題(第2、3、4、7、8題)。試題猜測(cè)度小,說(shuō)明考生在該試題上不容易猜對(duì)。
2.多項(xiàng)選擇題及主觀題
多項(xiàng)選擇題的特點(diǎn)是在題目給定的四個(gè)選項(xiàng)中選擇正確的選項(xiàng),正確選項(xiàng)可能不止一個(gè)。如果考生選擇了錯(cuò)誤選項(xiàng),不給分;如果只選擇了部分正確選項(xiàng),就給試題滿分的一半分;如果全選對(duì)了,就給滿分。對(duì)多項(xiàng)選擇題、主觀題分別用二參數(shù)混合模型與三參數(shù)混合模型進(jìn)行項(xiàng)目參數(shù)估計(jì),結(jié)果見(jiàn)表2所示。
表2 多選題、主觀題在二參數(shù)混合模型與三參數(shù)混合模型項(xiàng)目參數(shù)估值的結(jié)果
由表2可知,同一道題不同參數(shù)混合模型計(jì)算的難度估值有差異,二參數(shù)的難度估值小于三參數(shù)的難度估值,項(xiàng)目難度估值相差約為0.70,而試題區(qū)分度估值幾乎沒(méi)有差異,二參數(shù)與三參數(shù)相差不大于0.126。例如,第23題二參數(shù)的難度估值是-0.968,三參數(shù)的難度估值為-0.307;二參數(shù)區(qū)分度估值為0.502,三參數(shù)區(qū)分度估值為0.491。這說(shuō)明對(duì)試題猜測(cè)度參數(shù)的估計(jì),對(duì)試題難度估值有均衡影響,而對(duì)試題區(qū)分度幾乎沒(méi)有影響。由表2還可知,第10、11、12、31題的區(qū)分度在二參數(shù)和三參數(shù)混合模型的估值中均小于0.50,表明該試題對(duì)考生能力的區(qū)分功能不強(qiáng)。
1.中考物理項(xiàng)目參數(shù)擬合應(yīng)選擇二參數(shù)混合模型。從二參數(shù)模型與三參數(shù)模型的相關(guān)統(tǒng)計(jì)結(jié)果看,二參數(shù)與三參數(shù)難度值(b)的點(diǎn)二列相關(guān)系數(shù)為0.8662,區(qū)分度的點(diǎn)二列相關(guān)系數(shù)為0.7396。相對(duì)統(tǒng)計(jì)量的相關(guān)程度不高。建議在試題全部是客觀題時(shí),選擇三參數(shù)的羅杰斯特混合模型為佳,否則要選擇二參數(shù)混合模型為好,以保證估計(jì)結(jié)果的準(zhǔn)確性。
2.中考物理命題應(yīng)以考查能力立意為主,更好地體現(xiàn)中考的選拔功能。從考生能力預(yù)估與原始得分的結(jié)果看,將原始得分與2PL模型能力參數(shù)估值進(jìn)行相關(guān)分析,相關(guān)系數(shù)為0.9693,相關(guān)程度比較高,表明考生物理得分能很好地代表學(xué)生的物理學(xué)業(yè)能力。中考學(xué)科測(cè)試雖然是兼顧水平和選拔兩種測(cè)試功能,但中考物理考試基本上屬于能力測(cè)試,死記硬背不得分。
[1] 戴海琦.基于項(xiàng)目反應(yīng)理論的測(cè)驗(yàn)編制方法研究[J].考試研究,2006(4):31-44.
[責(zé)任編輯:知然]
On Comparison of Estimates of Project Parameters from Different Parameter Models
ZOU Li-hua
(StudyQualityMonitoringCenter,DalianEducationUniversity,Dalian, 116021,China)
Parameter estimate is the premise of the application and development of project reaction theory. The study adopts project reaction theory, uses the software of PARSCALE 4.1, chooses two-parameter and three-parameter Logistic mixed model to estimate project parameters in terms of junior middle school graduates’ physics test results of one region, finding that differences of various degrees exist as far as parameter estimate results of different parameter projects are concerned.
project parameter estimate; ability parameter estimate; Logistic model
2016-06-22
遼寧省“十三五”教育科學(xué)規(guī)劃課題“區(qū)域初中畢業(yè)生物理成就差異的實(shí)證研究”(JG16CB324)
鄒麗華(1963- ),女,吉林吉林人,教授。
G632.479
A
1008-388X(2016)03-0075-03
大連教育學(xué)院學(xué)報(bào)2016年3期