張健 任杰
(北京語(yǔ)言大學(xué),北京 100083)
等值是將同一測(cè)驗(yàn)不同版本的分?jǐn)?shù)統(tǒng)一到一個(gè)量尺上的過(guò)程[1]。經(jīng)過(guò)等值的分?jǐn)?shù)才可以直接比較,因此,等值是測(cè)驗(yàn)公平性和科學(xué)性的重要保障。為了實(shí)現(xiàn)同一測(cè)驗(yàn)不同版本分?jǐn)?shù)的可比性,目前國(guó)內(nèi)外許多大型標(biāo)準(zhǔn)參照測(cè)驗(yàn)均對(duì)測(cè)驗(yàn)分?jǐn)?shù)進(jìn)行了等值處理。標(biāo)準(zhǔn)參照測(cè)驗(yàn)是以具體體現(xiàn)教學(xué)目標(biāo)的標(biāo)準(zhǔn)作為依據(jù),確定學(xué)生是否達(dá)到標(biāo)準(zhǔn)以及達(dá)標(biāo)的程度如何的一種評(píng)價(jià)方法,即“人與標(biāo)準(zhǔn)比較”的方法,它是衡量學(xué)生能做什么的絕對(duì)評(píng)價(jià)。
在我國(guó),大學(xué)英語(yǔ)四、六級(jí)考試(CET-4,CET-6),少數(shù)民族漢語(yǔ)水平等級(jí)考試(MHK)等均屬于標(biāo)準(zhǔn)參照測(cè)驗(yàn)。對(duì)于這類測(cè)驗(yàn)而言,其標(biāo)準(zhǔn)是長(zhǎng)期穩(wěn)定的,但是其不同年份的試卷難度和考生能力很難保證完全相同。就難度而言,盡管命題專家在命題過(guò)程中盡力保持考試難度的穩(wěn)定性,但是不同試卷之間在難度、分?jǐn)?shù)分布方面的差別還是在所難免的。這種差別不僅會(huì)影響到考試的質(zhì)量,也會(huì)影響評(píng)價(jià)標(biāo)準(zhǔn)的客觀性。為了將不同年份的試卷置于同一個(gè)量尺上并用同一標(biāo)準(zhǔn)比較,需要對(duì)不同試卷進(jìn)行等值處理。此外,隨著我國(guó)高考外語(yǔ)“一年兩考”模式的開(kāi)啟,作為常模參照測(cè)驗(yàn)的高考英語(yǔ)也面臨著同樣的問(wèn)題。常模參照測(cè)驗(yàn)是將考生測(cè)驗(yàn)分?jǐn)?shù)與其所在考生群體進(jìn)行比較,即“人與人比較”,但同一年份的兩份高考英語(yǔ)試卷很難保證難度完全一致,這使得作答較難試卷的考生處于劣勢(shì),直接影響高考英語(yǔ)的公平性。因此,無(wú)論是標(biāo)準(zhǔn)參照測(cè)驗(yàn)還是像高考英語(yǔ)這樣的常模參照測(cè)驗(yàn),都需要經(jīng)過(guò)等值技術(shù)將不同試卷置于同一量尺上,最終實(shí)現(xiàn)不同試卷分?jǐn)?shù)的可比性。近年來(lái),雖然等值技術(shù)在我國(guó)已得到廣泛應(yīng)用,如CET-4、CET-6、MHK等,但不同研究者對(duì)等值結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)卻不盡相同。謝小慶使用總平均加權(quán)差異平方和(MSD)對(duì)HSK的等值結(jié)果進(jìn)行評(píng)價(jià)[2],焦麗亞使用變異均方根(RMSD)對(duì)湖南某地區(qū)中考數(shù)學(xué)成績(jī)的等值結(jié)果進(jìn)行評(píng)價(jià)[3]。此外,還有學(xué)者采用模擬檢驗(yàn)、跨樣本一致、標(biāo)準(zhǔn)誤、重要差異等方式評(píng)價(jià)等值結(jié)果[4-7]。這些等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)的區(qū)別是什么?它們的使用條件是否相同?對(duì)于具體的測(cè)驗(yàn)而言應(yīng)該選用哪種標(biāo)準(zhǔn)?目前學(xué)界對(duì)這些問(wèn)題的探討還遠(yuǎn)遠(yuǎn)不夠,這可能導(dǎo)致由于評(píng)價(jià)標(biāo)準(zhǔn)的不同,使得不同研究者對(duì)同一等值結(jié)果的解釋大相庭徑,直接影響研究結(jié)論的可信度。因此,只有深入地認(rèn)識(shí)等值結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn),才能根據(jù)實(shí)際需要選擇合適的標(biāo)準(zhǔn)并對(duì)等值結(jié)果進(jìn)行合理評(píng)價(jià),使等值技術(shù)真正落到實(shí)處。
對(duì)等值結(jié)果的評(píng)價(jià)本質(zhì)上是對(duì)等值誤差的評(píng)價(jià)。等值過(guò)程中存在著兩類誤差,一類是隨機(jī)誤差,一類是系統(tǒng)誤差。隨機(jī)誤差來(lái)源于樣本,可以通過(guò)增加樣本量來(lái)減少;系統(tǒng)誤差遠(yuǎn)比隨機(jī)誤差復(fù)雜,原因主要有:研究違背了等值方法的統(tǒng)計(jì)假設(shè)或數(shù)據(jù)收集原則,一些等值技術(shù)的使用無(wú)形中引入了系統(tǒng)誤差等。針對(duì)等值過(guò)程中存在的誤差,研究者們提出了一系列評(píng)價(jià)標(biāo)準(zhǔn),然而,沒(méi)有一個(gè)等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)可以應(yīng)用到所有的等值情境中[8]。對(duì)于經(jīng)典測(cè)量理論(CTT)等值而言,經(jīng)過(guò)等值可以得到分?jǐn)?shù)的等值結(jié)果;對(duì)于項(xiàng)目反應(yīng)理論(IRT)等值而言,經(jīng)過(guò)等值不僅可以得到分?jǐn)?shù)等值的結(jié)果,還可以得到參數(shù)等值的結(jié)果(包括項(xiàng)目參數(shù)等值結(jié)果和被試能力參數(shù)等值結(jié)果)。因此,我們根據(jù)評(píng)價(jià)對(duì)象的不同,將等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)劃分為以下兩種類型:一類是用于評(píng)價(jià)等值分?jǐn)?shù)的標(biāo)準(zhǔn),另一類是用于評(píng)價(jià)等值參數(shù)的標(biāo)準(zhǔn)。下文將以共同題非等組設(shè)計(jì)為例,對(duì)該等值設(shè)計(jì)下的等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行梳理,以期通過(guò)對(duì)比不同等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)的原理、適用范圍及其優(yōu)缺點(diǎn)等,深化對(duì)等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)的認(rèn)識(shí),并為研究者今后根據(jù)實(shí)際需要選擇合理的評(píng)價(jià)標(biāo)準(zhǔn)提供借鑒。
在共同題非等組設(shè)計(jì)中,可以采用共同組作為標(biāo)準(zhǔn)對(duì)等值結(jié)果進(jìn)行評(píng)價(jià),共同題等值分?jǐn)?shù)結(jié)果和共同組等值分?jǐn)?shù)結(jié)果差異越小,則代表等值方法越優(yōu)。計(jì)算指標(biāo)上可以選用總平均加權(quán)差異平方和(MSD):
其中j是原始分?jǐn)?shù),是作為標(biāo)準(zhǔn)的共同組等值分?jǐn)?shù),xj是經(jīng)過(guò)等值的分?jǐn)?shù),fj是獲得原始分j的人數(shù)[2],且
這種方法雖然簡(jiǎn)單客觀,但是也有其局限性。尤其是在大型標(biāo)準(zhǔn)化考試中很難找到滿足條件的共同組,因?yàn)橐淮螠y(cè)驗(yàn)不可能讓被試在短時(shí)間內(nèi)同時(shí)考兩次,即使能找到合適的被試,被試前后參加同一個(gè)測(cè)驗(yàn)的動(dòng)機(jī)等因素也會(huì)直接影響等值效果。
等值分?jǐn)?shù)標(biāo)準(zhǔn)誤是描述等值隨機(jī)誤差的指標(biāo)。通過(guò)從總體中重復(fù)抽樣,以一個(gè)完全擬合數(shù)據(jù)條件的等值方法進(jìn)行等值,那么,等值結(jié)果分布的平均數(shù)即是真正的等值分?jǐn)?shù),而分布的標(biāo)準(zhǔn)差即是等值分?jǐn)?shù)標(biāo)準(zhǔn)誤[9]。戴海崎認(rèn)為,采用Bootstrap法估計(jì)等值分?jǐn)?shù)標(biāo)準(zhǔn)誤比較接近于等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)誤的定義[10],并提出Bootstrap法估計(jì)等值分?jǐn)?shù)標(biāo)準(zhǔn)誤主要包括以下幾個(gè)步驟:
1)從X測(cè)驗(yàn)一個(gè)容量為Nx的樣本中有返回地隨機(jī)抽取一個(gè)Bootstrap樣本,容量為nx;
2)從Y測(cè)驗(yàn)一個(gè)容量為Ny的樣本中有返回地隨機(jī)抽取一個(gè)Bootstrap樣本,容量為ny;
3)用相應(yīng)的等值方法,在所抽取的兩個(gè)Bootstrap樣本上估計(jì)X與Y的等值關(guān)系,記為
重復(fù)步驟1)~3)R次,則獲得R個(gè)等值關(guān)系式,即
4)在R足夠大情況下,用式(5)求出等值分?jǐn)?shù)標(biāo)準(zhǔn)誤的Bootsrap估計(jì)值
其中,
等值分?jǐn)?shù)標(biāo)準(zhǔn)誤是目前主流的對(duì)等值分?jǐn)?shù)的評(píng)價(jià)標(biāo)準(zhǔn),大量的研究均采用這種等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)[11-14]。通過(guò)對(duì)等值分?jǐn)?shù)標(biāo)準(zhǔn)誤的估計(jì)原理分析,我們發(fā)現(xiàn)等值分?jǐn)?shù)標(biāo)準(zhǔn)誤的本質(zhì)是考察等值分?jǐn)?shù)受樣本影響的大小,其假設(shè)是在樣本不同的情況下,等值分?jǐn)?shù)結(jié)果越穩(wěn)定的方法越好。然而,在計(jì)算過(guò)程中,等值分?jǐn)?shù)標(biāo)準(zhǔn)誤也受到了樣本量的影響,當(dāng)樣本量越大時(shí),等值分?jǐn)?shù)標(biāo)準(zhǔn)誤越穩(wěn)定,當(dāng)樣本量較少時(shí),等值分?jǐn)?shù)標(biāo)準(zhǔn)誤的估計(jì)結(jié)果不穩(wěn)定。因此,當(dāng)樣本量較小時(shí),不建議采用等值分?jǐn)?shù)標(biāo)準(zhǔn)誤作為等值分?jǐn)?shù)的評(píng)價(jià)標(biāo)準(zhǔn)。
Dorans提出了一種重要差異(Differences That Matter)作為等值的評(píng)價(jià)標(biāo)準(zhǔn)。他認(rèn)為,在特定分?jǐn)?shù)點(diǎn)上,等值結(jié)果之間的差異大于0.5倍原始分?jǐn)?shù),則為兩種方法有重要的差異[15]。這種重要差異的標(biāo)準(zhǔn)在SAT測(cè)驗(yàn)等值上已得到廣泛應(yīng)用。Brossman等用等百分位等值結(jié)果作為標(biāo)準(zhǔn),采用重要差異的方法檢驗(yàn)MIRT真分?jǐn)?shù)法和觀察分?jǐn)?shù)法等值結(jié)果的穩(wěn)定性[16]。由此可見(jiàn),重要差異方法的本質(zhì)是將一個(gè)新方法的等值分?jǐn)?shù)結(jié)果與一個(gè)公認(rèn)較好的方法的等值分?jǐn)?shù)結(jié)果對(duì)比,以公認(rèn)較好的方法的分?jǐn)?shù)等值結(jié)果為標(biāo)準(zhǔn),比較二者差異,差異越小,則說(shuō)明新方法的等值效果越好,然而在現(xiàn)實(shí)中很難找到一個(gè)適用于不同等值情境的公認(rèn)的較好方法。
跨樣本一致性檢驗(yàn)的基本原理是:由于抽樣會(huì)帶來(lái)隨機(jī)誤差,因此受樣本的影響最小的等值方法就是最穩(wěn)定、最優(yōu)的等值方法??鐦颖疽恢滦詸z驗(yàn)的操作步驟如下:首先,將總體劃分為幾個(gè)樣本,這幾個(gè)樣本之間互不包含;其次,用總體數(shù)據(jù)和樣本數(shù)據(jù)分別進(jìn)行等值;最后,比較樣本等值結(jié)果與總體等值結(jié)果的差異,差異最小的方法即在不同樣本中表現(xiàn)最為一致的方法就是較好的方法。跨樣本一致性檢驗(yàn)的計(jì)算采用REMSD指標(biāo),公式如下:
共同題非等組設(shè)計(jì)包含兩個(gè)被試群體。T是由被試組P和被試組Q按照一定比例組成的綜合組。Tj表示從綜合組T中抽取出的小樣本,公式中eTj(x)表示在綜合組小樣本Tj中將X卷分?jǐn)?shù)等值到Y(jié)卷上的分?jǐn)?shù),eT(x)表示綜合組T上X卷分?jǐn)?shù)等值到Y(jié)卷上的分?jǐn)?shù)。eTj(x)和eT(x)的等值方法相同。ET{ }是指T組在X卷上分布的平均數(shù),Wj表示被試組P和被試組Q的權(quán)重[6]。另外,可以采用前述的重要差異標(biāo)準(zhǔn)判斷REMSD結(jié)果是否在合理范圍??鐦颖疽恢滦詸z驗(yàn)僅能描述等值方法受樣本影響的程度,一種等值方法的跨樣本一致性越高,表明用該方法等值時(shí)的隨機(jī)誤差越小,但是該方法對(duì)系統(tǒng)誤差無(wú)法估計(jì)。
等值分?jǐn)?shù)交叉檢驗(yàn)的方法和跨樣本一致性檢驗(yàn)類似,也是以大樣本所得的等值分?jǐn)?shù)結(jié)果為標(biāo)準(zhǔn),通過(guò)對(duì)比小樣本等值分?jǐn)?shù)結(jié)果與大樣本等值分?jǐn)?shù)結(jié)果的差異,差異最小的方法就是較好的方法。與跨樣本一致性檢驗(yàn)不同的是,交叉檢驗(yàn)只選取大樣本中的一部分小樣本,僅涉及一個(gè)小樣本群體。其計(jì)算公式是
其中,Yi表示在等值分?jǐn)?shù)交叉檢驗(yàn)的樣本中,將測(cè)驗(yàn)X上總分排在第i位的考生采用某種方法等值到測(cè)驗(yàn)Y上的實(shí)際分?jǐn)?shù),n是獲得該分?jǐn)?shù)的人數(shù),Yi
'表示在大樣本中將測(cè)驗(yàn)X上總分排在第i位的考生采用同種方法等值到測(cè)驗(yàn)Y上的實(shí)際分?jǐn)?shù),N是交叉驗(yàn)證樣本的總?cè)藬?shù)。T指標(biāo)的值越小,表明各等值方法所得結(jié)果的一致性越高[14]。和跨樣本一致性檢驗(yàn)一樣,交叉檢驗(yàn)方法也只能夠選取出隨機(jī)誤差最小的等值方法,但對(duì)不同等值方法的系統(tǒng)誤差的大小卻無(wú)法估計(jì)。
在共同題非等組設(shè)計(jì)下,共同題是用于連接兩個(gè)平行測(cè)驗(yàn)的橋梁。對(duì)于共同題參數(shù)而言,從理論上看,用分別校準(zhǔn)法將新測(cè)驗(yàn)的共同題參數(shù)等值到基準(zhǔn)測(cè)驗(yàn)上時(shí),等值后的共同題參數(shù)應(yīng)該是相同的,但實(shí)際由于等值誤差的存在,使得經(jīng)過(guò)等值后的共同題參數(shù)往往不一致。正因?yàn)槿绱耍艚?jīng)過(guò)某種等值方法等值后的共同題參數(shù)差別越小,則說(shuō)明等值誤差越小,等值方法越好。根據(jù)這一思路,研究者提出以RMSD作為分別校準(zhǔn)法下評(píng)判項(xiàng)目參數(shù)等值方法精確性的操作性檢驗(yàn)標(biāo)準(zhǔn),以此衡量各種等值方法的誤差大小[3]。RMSD計(jì)算公式如下:
其中,m代表共同題的數(shù)量,Xi為作為基準(zhǔn)測(cè)驗(yàn)的項(xiàng)目參數(shù),X'i為新測(cè)驗(yàn)等值到基準(zhǔn)測(cè)驗(yàn)上的項(xiàng)目參數(shù)。RMSD值越小,表明等值方法的等值誤差越小,經(jīng)過(guò)該等值方法等值后的共同題參數(shù)越穩(wěn)定。共同題參數(shù)穩(wěn)定性的估計(jì)中既包含了隨機(jī)誤差的大小,也包含了系統(tǒng)誤差的大小,因此,相較而言,共同題參數(shù)穩(wěn)定性的方法對(duì)等值誤差的估計(jì)更全面。但是共同題參數(shù)穩(wěn)定性方法的使用有一定的局限性,它僅適合對(duì)共同題非等組設(shè)計(jì)下采用分別校準(zhǔn)法所得的參數(shù)等值結(jié)果進(jìn)行評(píng)價(jià),對(duì)于其他等值方法如同時(shí)校準(zhǔn)法、固定校準(zhǔn)法,則共同題參數(shù)穩(wěn)定性指標(biāo)無(wú)法適用,這也使得共同題參數(shù)穩(wěn)定性指標(biāo)的使用范圍受到一定限制。
在等值參數(shù)評(píng)價(jià)標(biāo)準(zhǔn)中,通過(guò)模擬研究觀察參數(shù)的返真性是目前主流的評(píng)價(jià)標(biāo)準(zhǔn),大量的研究均采用這種參數(shù)等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)[4-5,17]。這種方法的操作步驟如下:首先,通過(guò)使用IRT模型估計(jì)基準(zhǔn)測(cè)驗(yàn)X的參數(shù)(包括項(xiàng)目參數(shù)和能力參數(shù))并給定等值系數(shù)A和B;其次,以測(cè)驗(yàn)X的參數(shù)結(jié)果和等值系數(shù)A和B為真值,采用Monte-Carlo法生成新的測(cè)驗(yàn)X′的數(shù)據(jù)來(lái)模擬測(cè)驗(yàn)X的作答情況;然后,估計(jì)新測(cè)驗(yàn)X′的項(xiàng)目參數(shù)和能力參數(shù)。再次,采用不同的等值方法將新生成的測(cè)驗(yàn)X′的參數(shù)重新等值到原始的基準(zhǔn)測(cè)驗(yàn)X上;最后,以測(cè)驗(yàn)X的真實(shí)參數(shù)結(jié)果作為等值的標(biāo)準(zhǔn),對(duì)比新測(cè)驗(yàn)X′等值后的參數(shù)結(jié)果和測(cè)驗(yàn)X的真實(shí)參數(shù)結(jié)果的差異,偏差越小代表等值效果越優(yōu),等值方法的參數(shù)返真性越好。
在具體研究中,通常采用以下兩類指標(biāo)衡量偏差的大小,一類是衡量項(xiàng)目參數(shù)返真性指標(biāo),另一類是衡量等值系數(shù)返真性指標(biāo)。
均方根誤差指標(biāo)(RMSE)、偏差(BIAS)均采用X′等值后的難度、區(qū)分度參數(shù)和原來(lái)的X的難度、區(qū)分度參數(shù)對(duì)比。這里的參數(shù)僅指共同題等值前后的參數(shù)。計(jì)算公式如下:
其中表示等值后的各參數(shù),?r表示參數(shù)的真實(shí)值,R表示全卷的題目數(shù)量,N表示重復(fù)的次數(shù)[4]。RMSE和BIAS的結(jié)果越小,代表等值后的共同題參數(shù)越接近真值,等值效果越好。
平均絕對(duì)離差(ABSE)表示的是等值系數(shù)真值與估計(jì)值的差異。其公式如下:
在式(12)中,R代表模擬實(shí)驗(yàn)的總次數(shù),A和B表示等值系數(shù)真值,表示經(jīng)過(guò)第r次模擬后的等值系數(shù)估計(jì)值,ABSE的值越小,代表等值系數(shù)估計(jì)值對(duì)真值的修復(fù)程度越好,即等值系數(shù)估計(jì)值越接近于真值。
盡管采用模擬研究觀察參數(shù)返真性的方法是目前等值參數(shù)評(píng)價(jià)的主流方法,但也存在著一些問(wèn)題,其最突出的問(wèn)題是模擬數(shù)據(jù)與真實(shí)數(shù)據(jù)之間存在一定的差別,這對(duì)研究結(jié)果的使用產(chǎn)生很大制約。為了使模擬數(shù)據(jù)的結(jié)果更接近真實(shí)數(shù)據(jù),研究者往往會(huì)進(jìn)行多次模擬,一般而言,模擬次數(shù)不低于30次。
基于IRT的等值主要包括兩部分,第一部分是參數(shù)等值,包括項(xiàng)目參數(shù)等值和被試能力參數(shù)等值;第二部分是測(cè)驗(yàn)分?jǐn)?shù)的導(dǎo)出,又分為IRT真分?jǐn)?shù)法和IRT觀察分?jǐn)?shù)法兩類。當(dāng)有兩個(gè)群體分別參加了兩個(gè)測(cè)驗(yàn)X和Y,其中X是基準(zhǔn)測(cè)驗(yàn),Y是新測(cè)驗(yàn),X和Y均有j道項(xiàng)目,且包含m個(gè)共同題(anchor item)。根據(jù)IRT等值理論,首先應(yīng)進(jìn)行測(cè)驗(yàn)X和Y的項(xiàng)目參數(shù)和被試能力參數(shù)的等值,測(cè)驗(yàn)X和Y的項(xiàng)目參數(shù)和能力參數(shù)具有如下關(guān)系[18]:
其中,A和B就是等值系數(shù),IRT參數(shù)等值的核心就是求解等值系數(shù)A和B。正是由于求解等值系數(shù)A和B時(shí)所采用的估計(jì)參數(shù)的原理不同,才會(huì)產(chǎn)生不同的IRT等值方法。利用一種等值方法求解等值系數(shù)時(shí),不僅會(huì)產(chǎn)生等值系數(shù),還會(huì)產(chǎn)生等值系數(shù)估計(jì)的標(biāo)準(zhǔn)誤,它是衡量等值系數(shù)受隨機(jī)誤差影響的程度。等值系數(shù)標(biāo)準(zhǔn)誤越大,表明該等值方法的隨機(jī)誤差越大,等值結(jié)果越差。在應(yīng)用方面,吳銳以等值系數(shù)估計(jì)的標(biāo)準(zhǔn)誤為衡量標(biāo)準(zhǔn),對(duì)IRT項(xiàng)目特征曲線法的等值結(jié)果進(jìn)行分析[19]。但是,這種等值評(píng)價(jià)標(biāo)準(zhǔn)僅適用于IRT分別校準(zhǔn)法,對(duì)IRT同時(shí)校準(zhǔn)法和IRT固定校準(zhǔn)法卻不適用。
等值參數(shù)交叉檢驗(yàn)方法和等值分?jǐn)?shù)交叉檢驗(yàn)的原理基本相同,即以大樣本所得的參數(shù)等值結(jié)果為標(biāo)準(zhǔn),通過(guò)對(duì)比小樣本參數(shù)等值的結(jié)果與大樣本參數(shù)等值結(jié)果的差異,差異最小的方法就是較好的方法。其計(jì)算公式是:
其中,Yi表示在交叉檢驗(yàn)的樣本中,Y測(cè)驗(yàn)上第i題等值后的項(xiàng)目參數(shù),N表示測(cè)驗(yàn)的題目個(gè)數(shù),Y'i表示在大樣本中Y測(cè)驗(yàn)上第i題等值后的項(xiàng)目參數(shù)。RMSD指標(biāo)的值越小,表明各等值方法所得結(jié)果的一致性越高[3]。等值參數(shù)交叉檢驗(yàn)的方法僅適用于IRT等值,此外,等值參數(shù)交叉檢驗(yàn)法也只能夠選取出隨機(jī)誤差最小的等值方法,無(wú)法對(duì)等值方法的系統(tǒng)誤差進(jìn)行估計(jì)。
通過(guò)梳理國(guó)內(nèi)外關(guān)于等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)的文獻(xiàn),我們以共同題非等組設(shè)計(jì)為例,根據(jù)評(píng)價(jià)對(duì)象的不同,將等值結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)劃分為兩種類型:一類是用于評(píng)價(jià)等值分?jǐn)?shù)的標(biāo)準(zhǔn),一類是用于評(píng)價(jià)等值參數(shù)的標(biāo)準(zhǔn),如表1所示。這兩類標(biāo)準(zhǔn)既有聯(lián)系又有區(qū)別,如交叉檢驗(yàn)的標(biāo)準(zhǔn)既可以用于等值分?jǐn)?shù)的評(píng)價(jià)也可以用于等值參數(shù)的評(píng)價(jià),只是公式內(nèi)容略有不同。而共同題穩(wěn)定性的標(biāo)準(zhǔn)僅適用于等值參數(shù)的評(píng)價(jià),重要差異的標(biāo)準(zhǔn)僅適合對(duì)等值分?jǐn)?shù)結(jié)果進(jìn)行評(píng)價(jià)。此外,我們對(duì)每種等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)的適用范圍及其局限性進(jìn)行了簡(jiǎn)要說(shuō)明,這將有助于研究者從宏觀上把握等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)的分類,并結(jié)合研究實(shí)際選擇合理的等值結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)。
表1 等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)概覽
為此,我們提出以下建議:
第一,研究者可根據(jù)其等值研究所選用的等值方法的不同、等值結(jié)果的不同選擇與其相對(duì)應(yīng)的等值結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)。比如:若研究采用的是CTT等值方法,則只能選取用于評(píng)價(jià)等值分?jǐn)?shù)的評(píng)價(jià)標(biāo)準(zhǔn)。
第二,以往的等值研究往往是采用一種標(biāo)準(zhǔn)對(duì)多種等值方法的結(jié)果進(jìn)行評(píng)價(jià),由于每種等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)都有一定的局限性,僅僅采用一種標(biāo)準(zhǔn)對(duì)多種等值結(jié)果進(jìn)行評(píng)價(jià)的做法過(guò)于絕對(duì)。因此,我們建議研究者可以根據(jù)研究對(duì)象的不同,采用多種評(píng)價(jià)標(biāo)準(zhǔn)對(duì)等值結(jié)果進(jìn)行綜合評(píng)價(jià),從不同角度對(duì)等值結(jié)果進(jìn)行合理解釋,這不僅有助于深化研究者對(duì)各種等值方法的認(rèn)識(shí),也使得等值研究的結(jié)論更加合理、全面、可靠。
[1]謝小慶.對(duì)15種測(cè)驗(yàn)等值方法的比較研究[J].心理學(xué)報(bào),2000,32(2):217-223.
[2]謝小慶.謝小慶教育測(cè)量學(xué)論文集[M].北京:北京語(yǔ)言大學(xué)出版社,2012:160.
[3]焦麗亞.基于IRT的共同題非等組設(shè)計(jì)中五種項(xiàng)目參數(shù)等值方法的比較研究[J].考試研究,2009(2):85-99.
[4]劉玥,劉紅云.不同鉚測(cè)驗(yàn)設(shè)計(jì)下多維IRT等值方法的比較[J].心理學(xué)報(bào),2013,45(4):466-480.
[5]YAO L H.Multidimensional linking for domain scores and overall scores for nonequivalent groups[J].Applied Psychological Measurement,2011,35(1):48-66.
[6]張泉慧,黃慧英.IRT理論不同模型下同時(shí)校準(zhǔn)等值方法的跨樣本研究[J].中國(guó)考試,2016(2):3-8.
[7]BROSSMAN B G,LEE W C.Observed score and true score equating procedures for multidimensional item response theory[J].Applied Psychological Measurement,2013,37(6):460-481.
[8]HARRIS D J,CROUSE J D.A study of criteria used in equating[J].Applied Measurement in Education,1993(6):195-240.
[9]羅照盛.經(jīng)典測(cè)量理論等值的誤差研究[J].心理科學(xué),2000,23(4):494-501.
[10]戴海崎.等值誤差理論與我國(guó)高考等值的誤差控制[J].江西師范大學(xué)學(xué)報(bào),1999,32(1):30-36.
[11]PARSHALL C G,HOUGHTON P D B,KROMREY J D.Equating Error and Statistical Bias in Small Sample Linear Equating[J].Journal of Educational Measurement,1995,32(1):37-54.
[12]HAN YI KIM.A comparation of smoothing methods for the common item nonequivalent groups design[D].Iowa,US:The University of Iowa,2014.
[13]劉玥,劉紅云.多維數(shù)據(jù)IRT真分?jǐn)?shù)等值和IRT觀察分?jǐn)?shù)等值研究[J].心理學(xué)探新,2015,35(1):56-61.
[14]焦麗亞,辛濤.基于CTT的錨測(cè)驗(yàn)非等組設(shè)計(jì)中四種等值方法的比較研究[J].心理發(fā)展與教育,2006(1):97-102.
[15]DORANS N J,HOLLAND P W,THAYER D T,TATENENI K.Population invariance of score linking:Theory and applications to advanced placement program examinations[M].Princeton,US:Educational Testing Service,2003.
[16]BROSSMAN B G,LEE W C.Observed score and true score equating procedures for multidimensional item response theory[J].Applied Psychological Measurement,2013,37(6):460-481.
[17]張軍之.基于多維IRT的測(cè)驗(yàn)等值研究[D].南昌:江西師范大學(xué),2016.
[18]KOLEN M J,BRENNAN R L.Test Equating,Scaling and Linking:Methods and Practices(2nded)[M].New York,US:Springer,2004.
[19]吳銳.含題組測(cè)驗(yàn)的IRT等值問(wèn)題研究[D].南昌:江西師范大學(xué),2007.