張泉慧 黃慧英
IRT理論不同模型下同時(shí)校準(zhǔn)等值方法的跨樣本研究
張泉慧 黃慧英
本研究基于IRT理論中最常用的LOGISTIC三種模型來探討等值的跨樣本一致性,研究對(duì)象為某一漢語類別的測(cè)驗(yàn),等值方法采用同時(shí)校準(zhǔn)法。研究結(jié)果表明,雙參數(shù)模型下同時(shí)校準(zhǔn)法等值跨樣本一致性最好,最為穩(wěn)定。
IRT;LOGISTIC模型;同時(shí)校準(zhǔn)法;跨樣本一致性
等值是心理與教育測(cè)量的重要概念,其是指將同一測(cè)驗(yàn)不同版本的分?jǐn)?shù)統(tǒng)一在一個(gè)量表上的過程,從而實(shí)現(xiàn)了不同時(shí)間、地點(diǎn)、考生的分?jǐn)?shù)可比性,保證了測(cè)驗(yàn)公平有效。
跨樣本一致性是等值的一個(gè)性質(zhì)??鐦颖疽恢滦允侵富诳傮w得到的等值系數(shù)與基于不同樣本得到的等值系數(shù)是不變的(Dorans&Holland,2000),即測(cè)驗(yàn)等值應(yīng)獨(dú)立于等值程序所使用的樣本及數(shù)據(jù),根據(jù)不同樣本建立起來的兩測(cè)驗(yàn)間的等值關(guān)系應(yīng)基本一致。
但在實(shí)際操作中,等值或多或少都存在樣本的依賴性(Holland&Rubin,1982)。國內(nèi)外目前進(jìn)行的等值都是基于跨樣本一致的假設(shè)之上,國外對(duì)于這一研究已有近60年的歷史,做了大量實(shí)證性的檢驗(yàn)工作;相比之下,國內(nèi)考試業(yè)雖然日益重視等值,但對(duì)跨樣本一致性的研究還很少,對(duì)項(xiàng)目反映理論(IRT)下的跨樣本一致性研究更少。因此,本研究即針對(duì)IRT理論中三種LOGISTIC模型進(jìn)行跨樣本一致性的研究,采用最為廣泛的同時(shí)校準(zhǔn)法,使用難度方向性和RMSD等指標(biāo)進(jìn)行評(píng)價(jià)。
本研究的研究對(duì)象是2008年、2009年的兩份漢語類別的試卷,其中一份作為基準(zhǔn)卷(設(shè)為Y卷),另一份作為等值卷(設(shè)為X卷),兩卷之間包含20%的共同題。
本研究利用BILOG軟件進(jìn)行等值。研究中涉及的其他程序均使用Visual Foxpro 8.0程序編寫。
等值方法采用同時(shí)校準(zhǔn)法。
跨樣本一致性選擇難易方向性和跨樣本一致性指標(biāo)進(jìn)行檢驗(yàn)。
具體做法是:把總體劃分為有限的排他的幾個(gè)樣本,然后用總體和樣本分別進(jìn)行等值,進(jìn)而比較樣本等值結(jié)果與總體等值結(jié)果的差異。差異最小的方法即在不同樣本中表現(xiàn)最為一致的方法就是較好的方法。計(jì)算選擇RMSD和REMSD指標(biāo)。該方法由Dorans&Holland(2000)首先提出并應(yīng)用在等組設(shè)計(jì)中,之后,Von Davier,Holland&Thayer(2003)將RMSD方法延伸到非等組錨題設(shè)計(jì)中(即共同題設(shè)計(jì),NEAT)。
NEAT設(shè)計(jì)涉及兩個(gè)被試群體。T是由被試組P和被試組Q按照一定比例組成的綜合組。將被試群體P和Q各劃分為不同的樣本:{Pj}和{Qj}。WPj是指樣本Pj的相應(yīng)權(quán)重,WQj表示Qj在Q中的相應(yīng)權(quán)重。WPj和WQj可被設(shè)定為某個(gè)值,只要總和為1。由此可知:
對(duì)于P和Q的樣本{Pj}和{Qj},也有相應(yīng)的樣本綜合組Tj,可以定義為:
由于Y卷分?jǐn)?shù)在綜合組T中并不能直接觀測(cè)到,因此綜合組T中Y卷分?jǐn)?shù)的標(biāo)準(zhǔn)差σYT的計(jì)算依賴于所選的等值方法。由公式可知,X卷上的每一個(gè)分?jǐn)?shù)點(diǎn)對(duì)應(yīng)到Y(jié)卷上都能計(jì)算出一個(gè)RMSD值,有的RMSD值比較小,有的則比較大,這樣我們就無法直接客觀地得出跨樣本是否一致的結(jié)論。為了得到單一值,可計(jì)算REMSD指標(biāo),即期望的差異平方根。
式(5)中,ET{}是指T組在X卷上分布的平均數(shù)。
在計(jì)算統(tǒng)計(jì)量時(shí),需要考慮的問題是統(tǒng)計(jì)量達(dá)到多大就可認(rèn)為是顯著的,即RMSD值和REMSD值都需要一個(gè)標(biāo)準(zhǔn)來衡量。Dorans,Holland,Thayer &Tateneni(2003)建議用DTM(Difference That Mat-ters)這個(gè)指標(biāo)。ETS多年來也是采用了這個(gè)標(biāo)準(zhǔn)。DTM是指報(bào)告分?jǐn)?shù)的半個(gè)單位,即采用四舍五入時(shí)可以忽略分?jǐn)?shù)的一半。例如在該測(cè)驗(yàn)分?jǐn)?shù)中,以1為分?jǐn)?shù)單位,此時(shí)DTM=0.5。由于RMSD和REMSD這兩個(gè)統(tǒng)計(jì)量通過σYT實(shí)現(xiàn)標(biāo)準(zhǔn)化,DTM也常常用它來實(shí)現(xiàn)標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化后的DTM常常用SDTM表示。
4.1 試卷單維性
利用SPSS軟件進(jìn)行因素分析,如果數(shù)據(jù)滿足單維性要求,則說明試卷符合IRT的理論假設(shè),可以進(jìn)行IRT等值(見表1)。
表1 試卷因素分析結(jié)果
表1中,兩卷KMO檢驗(yàn)值均接近1,說明樣本采集充足度高,因素分析的結(jié)果可以接受;兩份試卷的第一特征值均超過第二特征值的3倍。根據(jù)Hambleton&Swaminathan(1985)的單維性檢驗(yàn)標(biāo)準(zhǔn),第一特征值大于第二特征值的3倍,就可以認(rèn)為測(cè)驗(yàn)是單維的。由此判斷,測(cè)驗(yàn)考查的潛在特質(zhì)是單一的,考生的作答主要受到了所要考查的特質(zhì)的影響,符合了IRT理論的基本假設(shè)。
4.2 分析試卷質(zhì)量
對(duì)共同題得分和測(cè)驗(yàn)總分進(jìn)行相關(guān)分析,得到相關(guān)系數(shù)為0.77,相關(guān)較高;由于共同題均由專家挑選,并按照內(nèi)容模塊、難度等指標(biāo)選擇具有良好代表性的題目,因此共同題是的試卷的代表性樣本。
X卷、Y卷被試人數(shù)均超過2 000人,樣本量充足,滿足IRT理論的樣本量要求。由表2可見,三個(gè)模型下的參數(shù)估計(jì)結(jié)果并不相同,這和函數(shù)解析式不同有關(guān),因?yàn)椴煌哪P椭袇?shù)數(shù)量不同,對(duì)項(xiàng)目特征曲線的描述也會(huì)不同。
具體來看,1PLM下,平均b值都在(-3,3)的區(qū)間內(nèi),說明難度適中;2PLM下,平均難度中等,平均a值都在0.5以上,說明題目的區(qū)分度良好;3PLM下,難度中等、區(qū)分度較高、c值都在0.25以下,說明考生答題的猜測(cè)概率較低。
總體分析,試卷難度適中,區(qū)分度良好,猜測(cè)度低,試卷整體質(zhì)量良好。
4.3 跨樣本一致性檢驗(yàn)
評(píng)價(jià)方法包括難易方向的一致性和跨樣本RMSD和REMSD值。若RMSD和REMSD值都小于SDTM值,并且值越小,則說明跨樣本一致性越高。
4.3.1 樣本拆分
跨樣本分析的前提是拆分的子樣本應(yīng)是總體的代表性樣本,所以要對(duì)樣本進(jìn)行代表性檢驗(yàn)。步驟如下:
參加X卷的考生群體為P,共有7 298人;參加Y卷的考生群體為Q,共有2 258人。把考生群體P和考生群體Q隨機(jī)分為兩個(gè)獨(dú)立的人數(shù)相等的樣本,并通過獨(dú)立樣本T檢驗(yàn)來檢驗(yàn)四個(gè)樣本的代表性(見表3)。
(1)樣本P1、P2對(duì)總體P的代表性檢驗(yàn)
由表4、表5可知,雙尾檢驗(yàn)下、方差齊時(shí)顯著性水平P1為0.915,P2為0.915,均遠(yuǎn)遠(yuǎn)大于臨界值的顯著性水平0.01。因此,樣本P1、樣本P2和總體P在α=0.01水平下,沒有顯著差異。同樣,我們進(jìn)行了樣本Q1和樣本Q2代表性檢驗(yàn),差異不顯著,因此樣本P1和樣本P2都是總體P的代表性樣本,樣本Q1和樣本Q2也是總體Q的代表性樣本。
表2 試卷平均參數(shù)信息
表3 隨機(jī)拆分樣本數(shù)量表
表4 P1的樣本代表性檢驗(yàn)
表5 P2的樣本代表性檢驗(yàn)
4.3.2 難易方向性分析
針對(duì)總體數(shù)據(jù)和四個(gè)代表性樣本,分別用三種模型下的同時(shí)校準(zhǔn)法等值。比較基于總體和基于樣本的等值結(jié)果,以此來分析試卷難易的方向性。如果難易方向性一致,那么我們可以粗略地認(rèn)為等值的跨樣本是一致的,等值框架如圖1所示。
等值的難易方向性是指排除考生能力水平差異的影響,待等值卷(X)相比基準(zhǔn)卷(Y)是偏難還是偏易,這主要根據(jù)平均數(shù)附近的等值結(jié)果來比較。限于篇幅,本研究只列出2PLM下的同時(shí)校準(zhǔn)法(下稱同時(shí)校準(zhǔn)雙參數(shù)法)平均數(shù)附近的數(shù)據(jù)加以說明。
從表6可知,用同時(shí)校準(zhǔn)雙參數(shù)方法把X卷等值到Y(jié)卷上,基于總體P、Q得到的等值結(jié)果與基于樣本P1、P2、Q1、Q2得到的等值結(jié)果在試卷的難易方向性上一致,即基于總體P、Q得到的等值結(jié)果表明X卷比Y卷難,因此等值后的分?jǐn)?shù)高于原始分?jǐn)?shù);同樣地基于樣本得到的等值結(jié)果也認(rèn)為X卷比Y卷難。同時(shí)校準(zhǔn)單參數(shù)方法的難易方向性也大體一致,但跨樣本的數(shù)值出現(xiàn)了一些波動(dòng),而同時(shí)校準(zhǔn)三參數(shù)法由于等值中出現(xiàn)了參數(shù)漂移,因此難易方向性并不一致,說明跨樣本不穩(wěn)定,因此下文的跨樣本一致性比較僅在同時(shí)校準(zhǔn)單參數(shù)法和同時(shí)校準(zhǔn)雙參數(shù)法之間比較。
4.3.3 跨樣本一致性指標(biāo)計(jì)算
圖1 等值框架
表6 同時(shí)校準(zhǔn)雙參數(shù)法等值后基于總體和基于樣本的等值分?jǐn)?shù)表
在難易方向基本一致的基礎(chǔ)上,計(jì)算同時(shí)校準(zhǔn)單參數(shù)法和同時(shí)校準(zhǔn)雙參數(shù)法的RMSD和REMSD值,從而更精確地檢驗(yàn)等值的跨樣本情況。結(jié)果如圖2、圖3、表7所示。
(1)RMSD值——同時(shí)校準(zhǔn)單參數(shù)法
圖2 同時(shí)校準(zhǔn)單參數(shù)等值的RMSD值
(2)RMSD值——同時(shí)校準(zhǔn)雙參數(shù)法
圖3 同時(shí)校準(zhǔn)雙參數(shù)等值的RMSD值
(3)REMSD值
表7 測(cè)驗(yàn)REMSD值及相應(yīng)SDTM指標(biāo)
圖2、圖3的RMSD值表明,每個(gè)分?jǐn)?shù)點(diǎn)的RMSD值都低于SDTM指標(biāo)。說明兩種方法中基于樣本得到的等值結(jié)果與基于總體得到的等值結(jié)果十分相近。同樣地,表7中的REMSD值顯示,每個(gè)測(cè)驗(yàn)的REMSD值都遠(yuǎn)遠(yuǎn)低于SDTM指標(biāo)。說明測(cè)驗(yàn)等值都實(shí)現(xiàn)了跨樣本一致,基于樣本得到的等值結(jié)果與基于總體得到的等值結(jié)果一致。
具體來看:在同時(shí)校準(zhǔn)雙參數(shù)方法的難易方向性比單參數(shù)法更一致,而且從等值后的轉(zhuǎn)換分?jǐn)?shù)來看,基于總體和基于樣本的等值分非常接近,幾乎沒有太多變化,而單參數(shù)出現(xiàn)一些波動(dòng)。從RMSD、REMSD指標(biāo)來看,兩種方法實(shí)現(xiàn)了跨樣本一致,對(duì)比數(shù)據(jù)發(fā)現(xiàn)雙參數(shù)法的RMSD、REMSD值更小,而且各分測(cè)驗(yàn)中每個(gè)原始分對(duì)應(yīng)的RMSD都保持穩(wěn)定,沒有起伏,而單參數(shù)法中原始分對(duì)應(yīng)的RMSD值在分?jǐn)?shù)兩端或者中間部分都出現(xiàn)了一定程度的起伏。綜上所述,同時(shí)校準(zhǔn)雙參數(shù)法的的跨樣本更穩(wěn)定。
本研究主要選擇了IRT等值方法中最常用的同時(shí)校準(zhǔn)法進(jìn)行跨樣本一致性的比較,鑒于時(shí)間和精力有限,所以未對(duì)其他等值方法進(jìn)行探索,因此對(duì)其他方法在不同模型中的跨樣本表現(xiàn)進(jìn)行分析將成為進(jìn)一步研究的方向。
[1]Dorans,N.J.,&Holland,P.W.Population invariance and the equat-ability of tests:Basic theory and the linear case[J].Journal of Educa-tional Measurement,2000,37(4):281-306.
[2]Dorans,N.J.,Holland,P.W.,Thayer,D.T.,&Tateneni,K.Invariance of scoring across gender groups for three Advanced Placement Pro-gram examinations[C].In N.J.Dorans,(Ed.),Population invariance of score linking:Theory and applications to advanced placement pro-gram examinations.(ETS RR-03-27,pp.79-118).Princeton,NJ: Educational Testing Service,2003.
[3]Hambleton,R.K.,&Swaminathan,H.Item response theory:Princi-ples and applications[M].Boston,MA:Kluwer-Nijhoff,1985.
[4]Holland,P.W.,&Rubin,D.B.ed.Test equating[M].New York:Ac-ademic Press,1982.
[5]Von Davier,A.A.,Holland,P.W.,&Thayer,D.T.Population invari-ance and chain versus post-stratification methods for equating and test linking[C].In N.Dorans(Ed.),Population invariance of score linking:Theory and applications to advanced placement program ex-aminations(ETS RR-03-27,pp.19–36).Princeton,NJ:ETS,2003.
Study on Cross-sample Consistency under Concurrent Calibration Equating Method of Three IRT Models
ZHANG Quanhui&HUANG Huiying
This study attempts to analyse the Cross-sample Consistency in three types of Logistic model.The object of study is some kind of Chinese character test,with the Concurrent calibration equating method.The result is that the method of Concurrent calibration is more stable in Cross-sample Consistency.
IRT;LOGISTIC Model;Concurrent Calibration;Cross-sample Consistency
G405
A
1005-8427(2016)02-0003-6
更正啟示
《中國考試》雜志社
張泉慧,女,國家醫(yī)學(xué)考試中心,副主任科員(北京 100097)
黃慧英,女,教育部民族教育發(fā)展中心,博士研究生(北京 100082)
《中國考試》第12期李峰、王蕾、焦麗亞所著“預(yù)測(cè)高考考生能力水平調(diào)控高考試題難度研究探新”一文,其課題名稱為“教育部考試中心‘高考考生能力水平預(yù)測(cè)’課題研究相關(guān)成果?!碧卮烁?。