楊 濤,辛 濤,高 燕
(1.北京師范大學(xué)教育統(tǒng)計(jì)與測(cè)量研究所,北京100875;2.北京師范大學(xué)發(fā)展心理研究所,北京100875;3.北京師范大學(xué)認(rèn)知神經(jīng)科學(xué)與學(xué)習(xí)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京100875)
隨著世界向知識(shí)經(jīng)濟(jì)化發(fā)展,國(guó)家間的競(jìng)爭(zhēng)歸根結(jié)底是人力資源的競(jìng)爭(zhēng)。人力資源的競(jìng)爭(zhēng)離不開(kāi)教育,尤其是教育的核心問(wèn)題——教育質(zhì)量。進(jìn)入新世紀(jì)以來(lái),教育質(zhì)量成為全球關(guān)注的重點(diǎn),越來(lái)越多國(guó)家和國(guó)際組織都把大尺度教育測(cè)評(píng)作為關(guān)注教育質(zhì)量的有效方式。在我國(guó),大尺度教育測(cè)評(píng)也已經(jīng)開(kāi)始被采用,并引起了各級(jí)政府、教育管理部門(mén)的高度關(guān)注。有效發(fā)揮大尺度教育測(cè)評(píng)的作用離不開(kāi)對(duì)其測(cè)評(píng)技術(shù)和方法的深入研究。
如何更好地保證測(cè)驗(yàn)的公平性是大尺度教育測(cè)評(píng)中一直備受關(guān)注的重要問(wèn)題之一。等值(equating)正是這樣一種統(tǒng)計(jì)調(diào)整方法,它可以將不同測(cè)驗(yàn)版本的分?jǐn)?shù)置于同一量尺上,以使參加同一測(cè)試完成不同題本的考生所得分?jǐn)?shù)具有可比性,更好地保證測(cè)驗(yàn)的公平性。等值也是目前正在廣泛興起的題庫(kù)建設(shè)、計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)開(kāi)發(fā)等必不可少的前提。迄今為止,國(guó)外有關(guān)等值研究已經(jīng)比較深入,我國(guó)關(guān)于等值的研究相對(duì)薄弱,關(guān)于IRT等值方法比較的研究更是有限。
等值研究主要涉及三個(gè)方面:等值設(shè)計(jì)、等值理論模型及其相應(yīng)等值估計(jì)方法、等值比較標(biāo)準(zhǔn)。其中,不同等值估計(jì)方法的比較一直是該領(lǐng)域研究的主要問(wèn)題之一[1]。
等值理論模型分為經(jīng)典測(cè)量理論和項(xiàng)目反應(yīng)理論,分別對(duì)應(yīng)傳統(tǒng)等值估計(jì)方法和IRT等值估計(jì)方法。一些研究認(rèn)為IRT方法優(yōu)于傳統(tǒng)方法,一些研究卻并不提供支持,還有一些研究發(fā)現(xiàn),不同的測(cè)驗(yàn)情境和不同的分?jǐn)?shù)分布特點(diǎn)適用于不同的等值估計(jì)方法。隨著IRT理論的發(fā)展和越來(lái)越廣泛應(yīng)用,IRT等值估計(jì)方法也得到更多關(guān)注。
Han、Kolen 和 Pohlmann[2]研究了兩種 IRT 等值和傳統(tǒng)等百分位等值3種方法,結(jié)果顯示IRT真分?jǐn)?shù)等值比其他兩種等值方法的等值結(jié)果更穩(wěn)定,IRT觀察分?jǐn)?shù)等值比傳統(tǒng)等百分位等值的結(jié)果更穩(wěn)定。Baker、Al-Karni[3]和 Ogasawara[4]的研究均發(fā)現(xiàn)MM方法比MS方法更好,因?yàn)橥ǔ>狄葮?biāo)準(zhǔn)差更穩(wěn)定,而MM方法在估計(jì)的時(shí)候只使用了均值。Beguin和 Hanson[5]用模擬研究比較了SL方法和同時(shí)性校準(zhǔn)方法,當(dāng)被試組是非等組的并且考生能力高度相關(guān)時(shí),SL等值方法產(chǎn)生了比同時(shí)性估計(jì)更高的估計(jì)精度。而Hanson和Beguin[6]同樣用模擬研究比較四種分別校準(zhǔn)方法(MM、MS、SL、Haebara)和同時(shí)性估計(jì)方法,卻得出了不同的結(jié)論。謝小慶[7]通過(guò)測(cè)試數(shù)據(jù)對(duì)11種基于項(xiàng)目反應(yīng)理論的等值方法進(jìn)行比較研究,結(jié)果表明在題庫(kù)建設(shè)中,某些IRT方法是可行的;至少對(duì)于HSK數(shù)據(jù),不論是單、雙、三參數(shù),不論是MM方法還是MS方法,參數(shù)轉(zhuǎn)換等值方法的誤差都較大,均不足取。焦麗亞[8]采用共同題非等組設(shè)計(jì),對(duì)五種基于項(xiàng)目反應(yīng)理論的項(xiàng)目參數(shù)等值方法進(jìn)行比較結(jié)果顯示,MS方法穩(wěn)健性最差,對(duì)于項(xiàng)目難度參數(shù)的等值,同時(shí)校準(zhǔn)方法最好,其次是SL特征曲線法,對(duì)于項(xiàng)目區(qū)分度參數(shù)的等值,MM方法精確性最好。總之,關(guān)于IRT等值估計(jì)方法的比較,正如有研究者認(rèn)為“并不存在普遍適用的等值模型。測(cè)試的特點(diǎn)不同,所適用的等值模型也將不同”[9]。
在大尺度教育測(cè)驗(yàn)中,為了解決測(cè)驗(yàn)內(nèi)容的豐富性和學(xué)生作答時(shí)間的有限性之間的矛盾,測(cè)驗(yàn)項(xiàng)目多采用多題本共同題設(shè)計(jì)(又稱(chēng)矩陣抽樣設(shè)計(jì))。多題本等值過(guò)程中,除了考慮通常的等值估計(jì)方法外,還要面臨一個(gè)實(shí)際問(wèn)題:不同題本之間按什么順序鏈接。典型的等值鏈接方案有集中式鏈接和鏈?zhǔn)芥溄?。集中式鏈接是以一個(gè)題本為基準(zhǔn)題本,其它題本分別通過(guò)共同題將量尺建立在基準(zhǔn)題本的量尺上;鏈?zhǔn)芥溄邮且砸粋€(gè)題本為基準(zhǔn)題本,各題本依次與前一個(gè)題本校準(zhǔn),后面題本通過(guò)不斷與前面題本鏈接,最后所有題本的參數(shù)都放在基準(zhǔn)題本上[1]。根據(jù) Kolen 和 Brennan[1]提出的標(biāo)準(zhǔn),這兩種方案各有優(yōu)劣。但是,相關(guān)的實(shí)證研究卻十分有限。
在多題本共同題測(cè)驗(yàn)的情形下,我們不得不面臨這樣的問(wèn)題:怎樣安排題本間的鏈接方案最好?不同鏈接方案下的分別校準(zhǔn)方法會(huì)不會(huì)出現(xiàn)不同的表現(xiàn)?同時(shí)性校準(zhǔn)與不同鏈接方案下的各種分別校準(zhǔn)方法的等值精度孰優(yōu)孰劣?
為此,本研究擬使用我國(guó)某大尺度教育測(cè)評(píng)項(xiàng)目的實(shí)際數(shù)據(jù),以RMSD為等值精度比較指標(biāo),對(duì)多題本共同題設(shè)計(jì)下不同等值方法以及不同題本鏈接方案進(jìn)行對(duì)比研究,其中,不同等值方法雖然在不同研究中分別被采用過(guò),但同時(shí)考慮不同題本鏈接方案在國(guó)內(nèi)外均沒(méi)有實(shí)證研究。這樣,研究既彌補(bǔ)了國(guó)內(nèi)外有關(guān)多題本共同題設(shè)計(jì)下不同等值方法以及不同題本鏈接方案的實(shí)證研究的不足,也為我國(guó)相關(guān)大尺度教育測(cè)評(píng)的等值設(shè)計(jì)提供參考和實(shí)證依據(jù),進(jìn)而更好地實(shí)現(xiàn)測(cè)驗(yàn)的公平。
本研究采用共同題非等組設(shè)計(jì),共5個(gè)題本,各題本的測(cè)驗(yàn)內(nèi)容相近、難度相仿,題本間有共同題。每個(gè)題本25道選擇題,其中6道共同題,共同題占題本總題量的24%。
數(shù)據(jù)來(lái)自國(guó)內(nèi)某大尺度教育測(cè)評(píng)項(xiàng)目(該項(xiàng)目的樣本采用PPS抽樣方法獲得,此方法為大尺度測(cè)評(píng)常用的抽樣方法,可確保樣本的代表性)中4年級(jí)數(shù)學(xué)測(cè)驗(yàn)結(jié)果,隨機(jī)抽取其部分?jǐn)?shù)據(jù)作為研究數(shù)據(jù)。5個(gè)題本的作答考生數(shù)分別為2553人、2516人、2517人、2489人和 2437人,總樣本量12512人。
1.數(shù)據(jù)模型
本研究中每個(gè)題目都是0、1計(jì)分的選擇題。根據(jù)選擇題可能存在被試隨機(jī)猜測(cè)的特點(diǎn),本研究對(duì)于二值計(jì)分的選擇題采用三參數(shù)logistic模型估計(jì)題目參數(shù)。
2.鏈接方案
本研究比較集中式鏈接方案和鏈?zhǔn)芥溄臃桨竷煞N方案的等值效果。由于本研究中所有題本間有相同的共同題作為鉚題,所以可使用集中式鏈接方案和鏈?zhǔn)芥溄臃桨竷煞N鏈接方案。集中式鏈接方案中,隨機(jī)選擇一個(gè)試卷基本統(tǒng)計(jì)量適中的題本作為基準(zhǔn)題本,其他題本的參數(shù)都鏈接到基準(zhǔn)題本上。鏈?zhǔn)芥溄臃桨钢校鶞?zhǔn)題本的選擇與集中式方案相同,其他題本隨機(jī)安排鏈接順序依次鏈接到基準(zhǔn)題本上。
3.題目參數(shù)等值處理方法
本研究涉及3種等值方法:同時(shí)性校準(zhǔn)、分別校準(zhǔn)中的平均數(shù)與平均數(shù)方法(MM法)和SL特征曲線方法(SL法)。
同時(shí)性校準(zhǔn)是在一次參數(shù)估計(jì)過(guò)程中同時(shí)估計(jì)所有題本的題目參數(shù)和能力參數(shù)。具體做法為:將兩個(gè)或更多個(gè)題本的數(shù)據(jù)合并,對(duì)其中由于題本設(shè)計(jì)造成的缺失在估計(jì)軟件中設(shè)置為未施測(cè)題目。經(jīng)過(guò)這樣的過(guò)程,所有的題目參數(shù)都在同一個(gè)尺度上。
分別校準(zhǔn)時(shí),首先按照一定的參數(shù)估計(jì)方法(如:1PLM、2PLM、3PLM)估計(jì)各個(gè)題本的參數(shù),然后按照設(shè)定的不同分別校準(zhǔn)方案(集中式鏈接方案、鏈?zhǔn)芥溄臃桨?和等值數(shù)據(jù)處理方法將各題本參數(shù)鏈接起來(lái),最后使所有題本的題目參數(shù)都在同一個(gè)量尺上。
4.所用軟件
采用Zimowski等人開(kāi)發(fā)的BILOG-MG程序進(jìn)行題目參數(shù)估計(jì),使用POLYST軟件進(jìn)行分別校準(zhǔn)的等值系數(shù)計(jì)算,使用SPSS 17.0軟件進(jìn)行結(jié)果統(tǒng)計(jì)分析。
在本研究中,因?yàn)檠芯繉?duì)象中有類(lèi)似于循環(huán)等值的鏈?zhǔn)芥溄臃桨福羰褂醚h(huán)等值標(biāo)準(zhǔn)可能會(huì)使比較結(jié)果偏向鏈?zhǔn)芥溄臃桨?,所以不適合采用循環(huán)等值方式作為等值標(biāo)準(zhǔn)。
根據(jù)研究的特點(diǎn)以及綜合分析各種等值標(biāo)準(zhǔn)的特點(diǎn),本研究選擇大樣本標(biāo)準(zhǔn)作為等值比較標(biāo)準(zhǔn),以每種等值方法本身的大樣本等值效果為標(biāo)準(zhǔn),從大樣本中隨機(jī)抽取40%樣本量(小樣本每個(gè)題本大約1000名考生)作為小樣本,小樣本計(jì)算出來(lái)的題目參數(shù)和大樣本計(jì)算出來(lái)的題目參數(shù)相比較作為等值精度。誤差指標(biāo)為RMSD,其表達(dá)式如下:
其中,m表示題目的數(shù)量,xi表示大樣本題本的題目參數(shù),x'i表示小樣本題本的題目參數(shù)。RMSD指標(biāo)值越小,表示該方法等值結(jié)果越精確。
運(yùn)用SPSS統(tǒng)計(jì)軟件對(duì)5個(gè)題本的題目進(jìn)行統(tǒng)計(jì)分析,其基本信息統(tǒng)計(jì)見(jiàn)表1。
表1 5個(gè)題本數(shù)據(jù)的描述性統(tǒng)計(jì)
從表1中可以看到,5個(gè)題本共同題的平均分相近,初步說(shuō)明做不同題本的考生能力相近。5個(gè)題本整卷的平均分也相近,初步說(shuō)明大部分題本的難度相近。五個(gè)題本的科隆巴赫α系數(shù)較高,都達(dá)到了0.83以上,且信度值接近,滿足測(cè)驗(yàn)等值等信度的要求。
分析每個(gè)題本的共同題得分與整個(gè)卷子得分的相關(guān),共同題得分和整卷得分的相關(guān)都達(dá)到了0.8以上,共同題和非共同題的相關(guān)都在0.64以上,都達(dá)到0.05水平上的顯著,說(shuō)明共同題和整卷的難度非常接近,與非共同題的難度也很相近。這說(shuō)明共同題對(duì)整卷測(cè)驗(yàn)特征具有較好的代表性,試卷題目適宜進(jìn)行等值。
分題本計(jì)算不同鏈接方案下每個(gè)分別校準(zhǔn)方法得出的題目參數(shù)a、b的RMSD值,其結(jié)果匯總?cè)绫?所示。
表2 a、b參數(shù)等值精度RMSD
將不同鏈接方案下使用不同等值方法時(shí)各個(gè)題本的a、b參數(shù)等值精度值繪制成曲線圖(圖1、圖2),顯示了等值精度在題本間的變化模式、不同等值方法的等值精度差異、兩種等值方案的精度差異。
圖1 兩種鏈接方案下兩種等值方法的各題本a參數(shù)等值精度
圖2 兩種鏈接方案下兩種等值方法的各題本b參數(shù)等值精度
從圖中可以看出,難度和區(qū)分度參數(shù)估計(jì)精度有相似的精度模式,無(wú)論是使用集中式鏈接方案或鏈?zhǔn)芥溄臃桨?,SL法的等值精度高于MM法的等值精度。盡管個(gè)別題本上存在MM法精度高于SL法的情況,但優(yōu)勢(shì)并不明顯。鏈?zhǔn)芥溄臃桨赶耡參數(shù)、b參數(shù)的等值精度隨著鏈接題本數(shù)量的增加在不斷下降。而集中式鏈接方案下的等值精度趨勢(shì)則沒(méi)有鏈?zhǔn)椒桨傅内厔?shì)明顯。
在使用同一種等值方法的時(shí)候,不同鏈接方案的a、b參數(shù)等值精度基本一致。只有題本5上兩種鏈接方案的精度出現(xiàn)了明顯的差異。
綜合圖1、圖2的信息,可以看出等值方法對(duì)等值精度的影響高于鏈接方案對(duì)等值精度的影響,由于等值方法造成的精度差異要高于由于鏈接方案的不同造成的等值精度差異。匯總各個(gè)題本的等值精度可以看出,對(duì)于區(qū)分度和難度參數(shù)的估計(jì),SL法精確性要高于MM法。在使用每一種分別校準(zhǔn)等值方法時(shí),集中式鏈接方案的等值精度要略好于鏈?zhǔn)芥溄臃桨浮?/p>
為了將同時(shí)性校準(zhǔn)和分別校準(zhǔn)方法相比較,在大樣本下根據(jù)共同題的題目參數(shù)不變性,通過(guò)線性轉(zhuǎn)換將同時(shí)性校準(zhǔn)量尺轉(zhuǎn)換到題本1分別校準(zhǔn)量尺上。以大樣本下的同時(shí)性校準(zhǔn)結(jié)果作為標(biāo)準(zhǔn),比較小樣本下的同時(shí)性校準(zhǔn)結(jié)果,計(jì)算參數(shù)精度指標(biāo)RMSD。再將同時(shí)性校準(zhǔn)和分別校準(zhǔn)的精度結(jié)果進(jìn)行比較,結(jié)果如表3所示。從中可以看出,不論是對(duì)區(qū)分度、還是對(duì)難度參數(shù)進(jìn)行估計(jì),同時(shí)性校準(zhǔn)的估計(jì)精度都是最低的,其精度遠(yuǎn)不如分別校準(zhǔn)的SL法和MM法。
表3 同時(shí)性校準(zhǔn)與各種分別校準(zhǔn)方法的a、b參數(shù)精度排名
1.MM方法和SL方法的比較
關(guān)于MM方法和SL方法等值效果的比較,盡管已有研究結(jié)果不完全一致,但相對(duì)較多研究顯示 SL 等值方法的精度要高于 MM 方法[3-4],[10-12]。
本研究也支持了以上結(jié)果,SL特征曲線方法的等值精度要好于MM方法。并且不論是估計(jì)題目難度參數(shù),還是估計(jì)題目區(qū)分度參數(shù),都有相同的表現(xiàn)。SL法是根據(jù)項(xiàng)目特征曲線的差異來(lái)推算等值系數(shù),它能夠更全面地考慮到各個(gè)參數(shù)的特征,而不是僅僅考慮某一個(gè)題目參數(shù),如難度或區(qū)分度,從而對(duì)測(cè)驗(yàn)精度把握更好。當(dāng)然,如果題目參數(shù)估計(jì)值誤差數(shù)量較大時(shí),有可能會(huì)影響以上結(jié)果。
2.分別校準(zhǔn)和同時(shí)性校準(zhǔn)方法的比較
大多數(shù)研究已表明,同時(shí)性校準(zhǔn)相對(duì)于分別校準(zhǔn)而言結(jié)果更精確[6,11,13-14]。在實(shí)際應(yīng)用中,同時(shí)性校準(zhǔn)的操作也相對(duì)方便,它可以通過(guò)一次軟件運(yùn)行同時(shí)估計(jì)出整個(gè)測(cè)驗(yàn)多個(gè)題本的所有題目參數(shù),而分別校準(zhǔn)則需要先估計(jì)出每個(gè)題本的題目參數(shù)值,然后計(jì)算等值轉(zhuǎn)換系數(shù),再進(jìn)行題目參數(shù)線性轉(zhuǎn)換,使不同題本的題目參數(shù)在同一個(gè)量尺上。所以,目前很多大型教育測(cè)評(píng),如TIMSS,PISA等都是采用同時(shí)性校準(zhǔn)方法估計(jì)參數(shù)。
但是,本研究大樣本比較的結(jié)果顯示,在由多題本共同題組成的測(cè)驗(yàn)中,同時(shí)性校準(zhǔn)在區(qū)分度和難度參數(shù)的估計(jì)中表現(xiàn)都不是最佳,其估計(jì)精度較其它方法低。MM等值方法和SL等值方法,無(wú)論在集中式鏈接方案還是鏈?zhǔn)芥溄臃桨钢械墓烙?jì)精度都要比同時(shí)性校準(zhǔn)的精度高。分析原因,可能正是由于本研究中多題本間共同題的比例偏少,使得同時(shí)性估計(jì)時(shí)大量缺失值存在,從而導(dǎo)致同時(shí)性估計(jì)的精度偏低。如在本研究估計(jì)題目參數(shù)的時(shí)候,對(duì)于做題本1的被試來(lái)說(shuō),題本2-題本5的非共同題都是缺失值,以此類(lèi)推,在估計(jì)題目參數(shù)時(shí)對(duì)于每個(gè)考生的數(shù)據(jù)都存在大量的缺失值。這種情況,即共同題數(shù)量較少時(shí)同時(shí)性校準(zhǔn)結(jié)果精度低于分別校準(zhǔn),在Kim和Cohen[11]的研究中也曾出現(xiàn)。另外,進(jìn)一步仔細(xì)分析TIMSS,PISA等大型測(cè)試可以發(fā)現(xiàn),這兩個(gè)項(xiàng)目并不是采用共同錨題的多題本設(shè)計(jì),而是BIB多題本設(shè)計(jì),即所有的題目都曾作為共同題分別出現(xiàn)在不同題本中,題目信息的利用率高,同時(shí)性校準(zhǔn)時(shí)共同題比例較大,等值精度才比較有保證。
可見(jiàn),雖然同時(shí)性校準(zhǔn)在研究和實(shí)踐方面都明顯優(yōu)于分別校準(zhǔn),但是影響等值的因素較多,當(dāng)面臨共同題量較少等具體因素時(shí),本研究結(jié)果可以為選擇分別校準(zhǔn)方法提供理論支持和參考依據(jù)。
鏈?zhǔn)芥溄臃桨负图惺芥溄臃桨甘莾煞N不同的分別校準(zhǔn)鏈接方案,本研究結(jié)果表明,在鏈?zhǔn)芥溄臃桨钢须S著題本數(shù)的增加,等值的精度在下降;但集中式鏈接方案下,這種題本間的精度變化模式則沒(méi)有那么明顯,題本間的精度是比較一致的。就其原因,鏈?zhǔn)芥溄臃桨咐塾?jì)了多次鏈接的誤差,會(huì)導(dǎo)致越是后鏈接的題本,其題目參數(shù)的估計(jì)誤差越大。而對(duì)于集中式鏈接方案,由于每個(gè)題本都是向同一個(gè)題本進(jìn)行等值,所以每個(gè)題本的鏈接誤差是彼此獨(dú)立的,不存在題本間誤差的累積效應(yīng),也就不會(huì)導(dǎo)致題本間的精度變化模式。
另外,從本研究的曲線圖結(jié)果和最后匯總的結(jié)果都可以看發(fā)現(xiàn),集中式鏈接方案的等值精度要大于鏈?zhǔn)芥溄臃桨傅木?。但是在使用某一種等值方法的時(shí)候,鏈?zhǔn)芥溄臃桨负图惺芥溄臃桨傅牡戎稻炔町愝^小,并不明顯。但是,當(dāng)再增加題本數(shù)量時(shí),這兩種鏈接方案的精度差異也許會(huì)更明顯。
總之,從本研究的結(jié)果中可以得出,在題本數(shù)量較少的多題本測(cè)驗(yàn)中,這兩種測(cè)驗(yàn)鏈接方案都可以作為一種選擇。但是,若一個(gè)測(cè)驗(yàn)項(xiàng)目題本數(shù)量很多,可以預(yù)見(jiàn)隨著題本數(shù)的增加,鏈?zhǔn)芥溄臃桨傅木葧?huì)不斷降低。這時(shí)可以考慮采用集中式鏈接方案,或者將這兩種方案進(jìn)行綜合。
本研究結(jié)果還表明,盡管鏈接方案間在等值精度上存在一定差異,但是等值方法對(duì)等值精度的影響要高于鏈接方案的影響。也就是說(shuō),在使用分別校準(zhǔn)方法的時(shí)候,等值鏈接方案并不是影響等值精度的最重要因素,分別校準(zhǔn)方法的選擇要比等值鏈接方案的選擇更重要。在確定了一種分別校準(zhǔn)方法之后,鏈接方案的選擇即可參考本研究所得出的結(jié)論,根據(jù)實(shí)際情況進(jìn)行。
(1)在兩種鏈接方案中,基準(zhǔn)題本的特征以及其他各個(gè)題本的試題、被試組能力特征都可能會(huì)對(duì)最后等值的精度造成影響。這些特征如何對(duì)等值精度造成影響、如何選擇合適的基準(zhǔn)題本,還需進(jìn)一步探討。
(2)如果測(cè)驗(yàn)中的共同題數(shù)量增加,共同題占題本總題量比重加大,是否能得到與本研究相同的結(jié)論?這也是值得進(jìn)一步探討的問(wèn)題。
(3)本研究結(jié)果是基于某一樣本,雖然是通過(guò)PPS抽樣方法得到,但其結(jié)論任然值得更多的樣本數(shù)據(jù)加以驗(yàn)證。
(1)Stocking&Lord方法的估計(jì)精度要高于Mean-Mean方法;Mean-Mean和Stocking&Lord兩種分別校準(zhǔn)等值方法在集中式鏈接方案和鏈?zhǔn)芥溄臃桨钢械膮?shù)估計(jì)精度都比同時(shí)性校準(zhǔn)的精度高。
(2)在鏈?zhǔn)芥溄臃桨钢?,隨著鏈接題本數(shù)量的增加,參數(shù)等值精度在下降,在集中式鏈接方案中等值精度則沒(méi)有這樣明顯的規(guī)律。
(3)等值方法對(duì)精度的影響要大于鏈接方案對(duì)等值精度的影響。
可見(jiàn),在大尺度教育測(cè)評(píng)中對(duì)多題本進(jìn)行等值時(shí),需要綜合考慮多種因素,選擇適當(dāng)?shù)牡戎捣椒?、鏈接方案,如果是多題本共同題設(shè)計(jì),建議采用分別估計(jì),SL法,集中式鏈接方法,這樣有助于提高精度,更好實(shí)現(xiàn)教育測(cè)驗(yàn)的公平。
[1]Kolen M J,Brennan R L.Test Equating,Scaling,and Linking[M].New York:Springer,2004.
[2]Han T,Kolen M J,Pohlmann J A Comparison among IRT True-and Observed-score Equatings and Traditional Equipercentile Equating[J].Applied Measurement in Education,1997,10:105-121.
[3]Baker F B,Al-Karni.A Comparison of Two Procedures for Computing IRT Equating Coefficients[J].Journal of Educational Measurement,1991,28:147-162.
[4]Ogasawara H.Asymptotic Standard Errors of IRT Equating Coefficients Using Moments[J].Economic Review,2000,51(1):1-23.
[5]Beguin A A,Hanson B A.Effect of Noncompensatory Multidimensionality on Separate and Concurrent Estimation in IRT Equating Observed Score Equating[Z].Paper Presented at the Annual Meeting of the National Council on Measurement in Education,Seattle,WA,2001.
[6]Hanson B A,Beguin A A.Obtaining a Common Scale for Item Response Theory Item Parameters Using Separate Versus Concurrent Estimation in the Common-item Equating Design[J].Applied Psychological Measurement,2002,26(1):32-24.
[7]謝小慶.對(duì)15中測(cè)驗(yàn)等值方法的比較研究[J].心理學(xué)報(bào),2000,32(2):217-223.
[8]焦麗亞.基于IRT的共同題非等組設(shè)計(jì)中五種項(xiàng)目參數(shù)等值方法的比較研究[J].考試研究,2009,5(2):85-99.
[9]謝小慶.等值實(shí)驗(yàn)研究與HSK鏈接方案[D].北京:北京師范大學(xué),1998.
[10]Hung,et al.IRT Item Parameter Linking:Relevant Issues for the Purpose of Item Banking[Z].International Academic Symposium on Psychological Measurement,Tainan,Taiwan,1991.
[11]Kim S,Cohen A S.A Comparison of Linking and Concurrent Calibration under Item Response Theory[J].Applied Psychological Measurement,1998,22:131-143.
[12]Ogasawara H.Stable Response Functions with Unstable Item Parameter Estimates[J].Applied Psychological Measurement,2002,26(3):239-254.
[13]Petersen N S,Cook L L,Stocking M L.IRT Versus Conventional Equating Methods:A Comparative Study of Scale Stability[J].Journal of Educational Statistics,1983,8(2):137-156.
[14]Wingersky M S,Cook L L,Eignor D R.Specifying the Characteristics of Linking Items Used for Item Response Theory Item Calibration[M].Princeton NJ:Educational Testing Service,1987.