亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于共同題非等組設(shè)計(jì)的等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)研究綜述

2018-05-30 08:18:32張健任杰

中國(guó)考試 2018年3期

張健任杰

（北京語(yǔ)言大學(xué)，北京 100083）

等值是將同一測(cè)驗(yàn)不同版本的分?jǐn)?shù)統(tǒng)一到一個(gè)量尺上的過(guò)程[1]。經(jīng)過(guò)等值的分?jǐn)?shù)才可以直接比較，因此，等值是測(cè)驗(yàn)公平性和科學(xué)性的重要保障。為了實(shí)現(xiàn)同一測(cè)驗(yàn)不同版本分?jǐn)?shù)的可比性，目前國(guó)內(nèi)外許多大型標(biāo)準(zhǔn)參照測(cè)驗(yàn)均對(duì)測(cè)驗(yàn)分?jǐn)?shù)進(jìn)行了等值處理。標(biāo)準(zhǔn)參照測(cè)驗(yàn)是以具體體現(xiàn)教學(xué)目標(biāo)的標(biāo)準(zhǔn)作為依據(jù)，確定學(xué)生是否達(dá)到標(biāo)準(zhǔn)以及達(dá)標(biāo)的程度如何的一種評(píng)價(jià)方法，即“人與標(biāo)準(zhǔn)比較”的方法，它是衡量學(xué)生能做什么的絕對(duì)評(píng)價(jià)。

在我國(guó)，大學(xué)英語(yǔ)四、六級(jí)考試（CET-4，CET-6），少數(shù)民族漢語(yǔ)水平等級(jí)考試（MHK）等均屬于標(biāo)準(zhǔn)參照測(cè)驗(yàn)。對(duì)于這類測(cè)驗(yàn)而言，其標(biāo)準(zhǔn)是長(zhǎng)期穩(wěn)定的，但是其不同年份的試卷難度和考生能力很難保證完全相同。就難度而言，盡管命題專家在命題過(guò)程中盡力保持考試難度的穩(wěn)定性，但是不同試卷之間在難度、分?jǐn)?shù)分布方面的差別還是在所難免的。這種差別不僅會(huì)影響到考試的質(zhì)量，也會(huì)影響評(píng)價(jià)標(biāo)準(zhǔn)的客觀性。為了將不同年份的試卷置于同一個(gè)量尺上并用同一標(biāo)準(zhǔn)比較，需要對(duì)不同試卷進(jìn)行等值處理。此外，隨著我國(guó)高考外語(yǔ)“一年兩考”模式的開(kāi)啟，作為常模參照測(cè)驗(yàn)的高考英語(yǔ)也面臨著同樣的問(wèn)題。常模參照測(cè)驗(yàn)是將考生測(cè)驗(yàn)分?jǐn)?shù)與其所在考生群體進(jìn)行比較，即“人與人比較”，但同一年份的兩份高考英語(yǔ)試卷很難保證難度完全一致，這使得作答較難試卷的考生處于劣勢(shì)，直接影響高考英語(yǔ)的公平性。因此，無(wú)論是標(biāo)準(zhǔn)參照測(cè)驗(yàn)還是像高考英語(yǔ)這樣的常模參照測(cè)驗(yàn)，都需要經(jīng)過(guò)等值技術(shù)將不同試卷置于同一量尺上，最終實(shí)現(xiàn)不同試卷分?jǐn)?shù)的可比性。近年來(lái)，雖然等值技術(shù)在我國(guó)已得到廣泛應(yīng)用，如CET-4、CET-6、MHK等，但不同研究者對(duì)等值結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)卻不盡相同。謝小慶使用總平均加權(quán)差異平方和（MSD）對(duì)HSK的等值結(jié)果進(jìn)行評(píng)價(jià)[2]，焦麗亞使用變異均方根（RMSD）對(duì)湖南某地區(qū)中考數(shù)學(xué)成績(jī)的等值結(jié)果進(jìn)行評(píng)價(jià)[3]。此外，還有學(xué)者采用模擬檢驗(yàn)、跨樣本一致、標(biāo)準(zhǔn)誤、重要差異等方式評(píng)價(jià)等值結(jié)果[4-7]。這些等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)的區(qū)別是什么？它們的使用條件是否相同？對(duì)于具體的測(cè)驗(yàn)而言應(yīng)該選用哪種標(biāo)準(zhǔn)？目前學(xué)界對(duì)這些問(wèn)題的探討還遠(yuǎn)遠(yuǎn)不夠，這可能導(dǎo)致由于評(píng)價(jià)標(biāo)準(zhǔn)的不同，使得不同研究者對(duì)同一等值結(jié)果的解釋大相庭徑，直接影響研究結(jié)論的可信度。因此，只有深入地認(rèn)識(shí)等值結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)，才能根據(jù)實(shí)際需要選擇合適的標(biāo)準(zhǔn)并對(duì)等值結(jié)果進(jìn)行合理評(píng)價(jià)，使等值技術(shù)真正落到實(shí)處。

1 等值誤差

對(duì)等值結(jié)果的評(píng)價(jià)本質(zhì)上是對(duì)等值誤差的評(píng)價(jià)。等值過(guò)程中存在著兩類誤差，一類是隨機(jī)誤差，一類是系統(tǒng)誤差。隨機(jī)誤差來(lái)源于樣本，可以通過(guò)增加樣本量來(lái)減少；系統(tǒng)誤差遠(yuǎn)比隨機(jī)誤差復(fù)雜，原因主要有：研究違背了等值方法的統(tǒng)計(jì)假設(shè)或數(shù)據(jù)收集原則，一些等值技術(shù)的使用無(wú)形中引入了系統(tǒng)誤差等。針對(duì)等值過(guò)程中存在的誤差，研究者們提出了一系列評(píng)價(jià)標(biāo)準(zhǔn)，然而，沒(méi)有一個(gè)等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)可以應(yīng)用到所有的等值情境中[8]。對(duì)于經(jīng)典測(cè)量理論（CTT）等值而言，經(jīng)過(guò)等值可以得到分?jǐn)?shù)的等值結(jié)果；對(duì)于項(xiàng)目反應(yīng)理論（IRT）等值而言，經(jīng)過(guò)等值不僅可以得到分?jǐn)?shù)等值的結(jié)果，還可以得到參數(shù)等值的結(jié)果（包括項(xiàng)目參數(shù)等值結(jié)果和被試能力參數(shù)等值結(jié)果）。因此，我們根據(jù)評(píng)價(jià)對(duì)象的不同，將等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)劃分為以下兩種類型：一類是用于評(píng)價(jià)等值分?jǐn)?shù)的標(biāo)準(zhǔn)，另一類是用于評(píng)價(jià)等值參數(shù)的標(biāo)準(zhǔn)。下文將以共同題非等組設(shè)計(jì)為例，對(duì)該等值設(shè)計(jì)下的等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行梳理，以期通過(guò)對(duì)比不同等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)的原理、適用范圍及其優(yōu)缺點(diǎn)等，深化對(duì)等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)的認(rèn)識(shí)，并為研究者今后根據(jù)實(shí)際需要選擇合理的評(píng)價(jià)標(biāo)準(zhǔn)提供借鑒。

2 等值分?jǐn)?shù)的評(píng)價(jià)標(biāo)準(zhǔn)

2.1 共同組標(biāo)準(zhǔn)

在共同題非等組設(shè)計(jì)中，可以采用共同組作為標(biāo)準(zhǔn)對(duì)等值結(jié)果進(jìn)行評(píng)價(jià)，共同題等值分?jǐn)?shù)結(jié)果和共同組等值分?jǐn)?shù)結(jié)果差異越小，則代表等值方法越優(yōu)。計(jì)算指標(biāo)上可以選用總平均加權(quán)差異平方和（MSD）：

其中j是原始分?jǐn)?shù)，是作為標(biāo)準(zhǔn)的共同組等值分?jǐn)?shù)，xj是經(jīng)過(guò)等值的分?jǐn)?shù)，fj是獲得原始分j的人數(shù)[2]，且

這種方法雖然簡(jiǎn)單客觀，但是也有其局限性。尤其是在大型標(biāo)準(zhǔn)化考試中很難找到滿足條件的共同組，因?yàn)橐淮螠y(cè)驗(yàn)不可能讓被試在短時(shí)間內(nèi)同時(shí)考兩次，即使能找到合適的被試，被試前后參加同一個(gè)測(cè)驗(yàn)的動(dòng)機(jī)等因素也會(huì)直接影響等值效果。

2.2 等值分?jǐn)?shù)的標(biāo)準(zhǔn)誤

等值分?jǐn)?shù)標(biāo)準(zhǔn)誤是描述等值隨機(jī)誤差的指標(biāo)。通過(guò)從總體中重復(fù)抽樣，以一個(gè)完全擬合數(shù)據(jù)條件的等值方法進(jìn)行等值，那么，等值結(jié)果分布的平均數(shù)即是真正的等值分?jǐn)?shù)，而分布的標(biāo)準(zhǔn)差即是等值分?jǐn)?shù)標(biāo)準(zhǔn)誤[9]。戴海崎認(rèn)為，采用Bootstrap法估計(jì)等值分?jǐn)?shù)標(biāo)準(zhǔn)誤比較接近于等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)誤的定義[10]，并提出Bootstrap法估計(jì)等值分?jǐn)?shù)標(biāo)準(zhǔn)誤主要包括以下幾個(gè)步驟：

1）從X測(cè)驗(yàn)一個(gè)容量為Nx的樣本中有返回地隨機(jī)抽取一個(gè)Bootstrap樣本，容量為nx；

2）從Y測(cè)驗(yàn)一個(gè)容量為Ny的樣本中有返回地隨機(jī)抽取一個(gè)Bootstrap樣本，容量為ny；

3）用相應(yīng)的等值方法，在所抽取的兩個(gè)Bootstrap樣本上估計(jì)X與Y的等值關(guān)系，記為

重復(fù)步驟1）～3）R次，則獲得R個(gè)等值關(guān)系式，即

4）在R足夠大情況下，用式（5）求出等值分?jǐn)?shù)標(biāo)準(zhǔn)誤的Bootsrap估計(jì)值

其中，

等值分?jǐn)?shù)標(biāo)準(zhǔn)誤是目前主流的對(duì)等值分?jǐn)?shù)的評(píng)價(jià)標(biāo)準(zhǔn)，大量的研究均采用這種等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)[11-14]。通過(guò)對(duì)等值分?jǐn)?shù)標(biāo)準(zhǔn)誤的估計(jì)原理分析，我們發(fā)現(xiàn)等值分?jǐn)?shù)標(biāo)準(zhǔn)誤的本質(zhì)是考察等值分?jǐn)?shù)受樣本影響的大小，其假設(shè)是在樣本不同的情況下，等值分?jǐn)?shù)結(jié)果越穩(wěn)定的方法越好。然而，在計(jì)算過(guò)程中，等值分?jǐn)?shù)標(biāo)準(zhǔn)誤也受到了樣本量的影響，當(dāng)樣本量越大時(shí)，等值分?jǐn)?shù)標(biāo)準(zhǔn)誤越穩(wěn)定，當(dāng)樣本量較少時(shí)，等值分?jǐn)?shù)標(biāo)準(zhǔn)誤的估計(jì)結(jié)果不穩(wěn)定。因此，當(dāng)樣本量較小時(shí)，不建議采用等值分?jǐn)?shù)標(biāo)準(zhǔn)誤作為等值分?jǐn)?shù)的評(píng)價(jià)標(biāo)準(zhǔn)。

2.3 重要差異

Dorans提出了一種重要差異（Differences That Matter）作為等值的評(píng)價(jià)標(biāo)準(zhǔn)。他認(rèn)為，在特定分?jǐn)?shù)點(diǎn)上，等值結(jié)果之間的差異大于0.5倍原始分?jǐn)?shù)，則為兩種方法有重要的差異[15]。這種重要差異的標(biāo)準(zhǔn)在SAT測(cè)驗(yàn)等值上已得到廣泛應(yīng)用。Brossman等用等百分位等值結(jié)果作為標(biāo)準(zhǔn)，采用重要差異的方法檢驗(yàn)MIRT真分?jǐn)?shù)法和觀察分?jǐn)?shù)法等值結(jié)果的穩(wěn)定性[16]。由此可見(jiàn)，重要差異方法的本質(zhì)是將一個(gè)新方法的等值分?jǐn)?shù)結(jié)果與一個(gè)公認(rèn)較好的方法的等值分?jǐn)?shù)結(jié)果對(duì)比，以公認(rèn)較好的方法的分?jǐn)?shù)等值結(jié)果為標(biāo)準(zhǔn)，比較二者差異，差異越小，則說(shuō)明新方法的等值效果越好，然而在現(xiàn)實(shí)中很難找到一個(gè)適用于不同等值情境的公認(rèn)的較好方法。

2.4 跨樣本一致性檢驗(yàn)

跨樣本一致性檢驗(yàn)的基本原理是：由于抽樣會(huì)帶來(lái)隨機(jī)誤差，因此受樣本的影響最小的等值方法就是最穩(wěn)定、最優(yōu)的等值方法?？鐦颖疽恢滦詸z驗(yàn)的操作步驟如下：首先，將總體劃分為幾個(gè)樣本，這幾個(gè)樣本之間互不包含；其次，用總體數(shù)據(jù)和樣本數(shù)據(jù)分別進(jìn)行等值；最后，比較樣本等值結(jié)果與總體等值結(jié)果的差異，差異最小的方法即在不同樣本中表現(xiàn)最為一致的方法就是較好的方法。跨樣本一致性檢驗(yàn)的計(jì)算采用REMSD指標(biāo)，公式如下：

共同題非等組設(shè)計(jì)包含兩個(gè)被試群體。T是由被試組P和被試組Q按照一定比例組成的綜合組。Tj表示從綜合組T中抽取出的小樣本，公式中eTj(x)表示在綜合組小樣本Tj中將X卷分?jǐn)?shù)等值到Y(jié)卷上的分?jǐn)?shù)，eT(x)表示綜合組T上X卷分?jǐn)?shù)等值到Y(jié)卷上的分?jǐn)?shù)。eTj(x)和eT(x)的等值方法相同。ET{ }是指T組在X卷上分布的平均數(shù)，Wj表示被試組P和被試組Q的權(quán)重[6]。另外，可以采用前述的重要差異標(biāo)準(zhǔn)判斷REMSD結(jié)果是否在合理范圍?？鐦颖疽恢滦詸z驗(yàn)僅能描述等值方法受樣本影響的程度，一種等值方法的跨樣本一致性越高，表明用該方法等值時(shí)的隨機(jī)誤差越小，但是該方法對(duì)系統(tǒng)誤差無(wú)法估計(jì)。

2.5 等值分?jǐn)?shù)交叉檢驗(yàn)

等值分?jǐn)?shù)交叉檢驗(yàn)的方法和跨樣本一致性檢驗(yàn)類似，也是以大樣本所得的等值分?jǐn)?shù)結(jié)果為標(biāo)準(zhǔn)，通過(guò)對(duì)比小樣本等值分?jǐn)?shù)結(jié)果與大樣本等值分?jǐn)?shù)結(jié)果的差異，差異最小的方法就是較好的方法。與跨樣本一致性檢驗(yàn)不同的是，交叉檢驗(yàn)只選取大樣本中的一部分小樣本，僅涉及一個(gè)小樣本群體。其計(jì)算公式是

其中，Yi表示在等值分?jǐn)?shù)交叉檢驗(yàn)的樣本中，將測(cè)驗(yàn)X上總分排在第i位的考生采用某種方法等值到測(cè)驗(yàn)Y上的實(shí)際分?jǐn)?shù)，n是獲得該分?jǐn)?shù)的人數(shù)，Yi

'表示在大樣本中將測(cè)驗(yàn)X上總分排在第i位的考生采用同種方法等值到測(cè)驗(yàn)Y上的實(shí)際分?jǐn)?shù)，N是交叉驗(yàn)證樣本的總?cè)藬?shù)。T指標(biāo)的值越小，表明各等值方法所得結(jié)果的一致性越高[14]。和跨樣本一致性檢驗(yàn)一樣，交叉檢驗(yàn)方法也只能夠選取出隨機(jī)誤差最小的等值方法，但對(duì)不同等值方法的系統(tǒng)誤差的大小卻無(wú)法估計(jì)。

3 等值參數(shù)的評(píng)價(jià)標(biāo)準(zhǔn)

3.1 共同題參數(shù)穩(wěn)定性

在共同題非等組設(shè)計(jì)下，共同題是用于連接兩個(gè)平行測(cè)驗(yàn)的橋梁。對(duì)于共同題參數(shù)而言，從理論上看，用分別校準(zhǔn)法將新測(cè)驗(yàn)的共同題參數(shù)等值到基準(zhǔn)測(cè)驗(yàn)上時(shí)，等值后的共同題參數(shù)應(yīng)該是相同的，但實(shí)際由于等值誤差的存在，使得經(jīng)過(guò)等值后的共同題參數(shù)往往不一致。正因?yàn)槿绱耍艚?jīng)過(guò)某種等值方法等值后的共同題參數(shù)差別越小，則說(shuō)明等值誤差越小，等值方法越好。根據(jù)這一思路，研究者提出以RMSD作為分別校準(zhǔn)法下評(píng)判項(xiàng)目參數(shù)等值方法精確性的操作性檢驗(yàn)標(biāo)準(zhǔn)，以此衡量各種等值方法的誤差大小[3]。RMSD計(jì)算公式如下：

其中，m代表共同題的數(shù)量，Xi為作為基準(zhǔn)測(cè)驗(yàn)的項(xiàng)目參數(shù)，X'i為新測(cè)驗(yàn)等值到基準(zhǔn)測(cè)驗(yàn)上的項(xiàng)目參數(shù)。RMSD值越小，表明等值方法的等值誤差越小，經(jīng)過(guò)該等值方法等值后的共同題參數(shù)越穩(wěn)定。共同題參數(shù)穩(wěn)定性的估計(jì)中既包含了隨機(jī)誤差的大小，也包含了系統(tǒng)誤差的大小，因此，相較而言，共同題參數(shù)穩(wěn)定性的方法對(duì)等值誤差的估計(jì)更全面。但是共同題參數(shù)穩(wěn)定性方法的使用有一定的局限性，它僅適合對(duì)共同題非等組設(shè)計(jì)下采用分別校準(zhǔn)法所得的參數(shù)等值結(jié)果進(jìn)行評(píng)價(jià)，對(duì)于其他等值方法如同時(shí)校準(zhǔn)法、固定校準(zhǔn)法，則共同題參數(shù)穩(wěn)定性指標(biāo)無(wú)法適用，這也使得共同題參數(shù)穩(wěn)定性指標(biāo)的使用范圍受到一定限制。

3.2 模擬研究參數(shù)返真性

在等值參數(shù)評(píng)價(jià)標(biāo)準(zhǔn)中，通過(guò)模擬研究觀察參數(shù)的返真性是目前主流的評(píng)價(jià)標(biāo)準(zhǔn)，大量的研究均采用這種參數(shù)等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)[4-5,17]。這種方法的操作步驟如下：首先，通過(guò)使用IRT模型估計(jì)基準(zhǔn)測(cè)驗(yàn)X的參數(shù)（包括項(xiàng)目參數(shù)和能力參數(shù)）并給定等值系數(shù)A和B；其次，以測(cè)驗(yàn)X的參數(shù)結(jié)果和等值系數(shù)A和B為真值，采用Monte-Carlo法生成新的測(cè)驗(yàn)X′的數(shù)據(jù)來(lái)模擬測(cè)驗(yàn)X的作答情況；然后，估計(jì)新測(cè)驗(yàn)X′的項(xiàng)目參數(shù)和能力參數(shù)。再次，采用不同的等值方法將新生成的測(cè)驗(yàn)X′的參數(shù)重新等值到原始的基準(zhǔn)測(cè)驗(yàn)X上；最后，以測(cè)驗(yàn)X的真實(shí)參數(shù)結(jié)果作為等值的標(biāo)準(zhǔn)，對(duì)比新測(cè)驗(yàn)X′等值后的參數(shù)結(jié)果和測(cè)驗(yàn)X的真實(shí)參數(shù)結(jié)果的差異，偏差越小代表等值效果越優(yōu)，等值方法的參數(shù)返真性越好。

在具體研究中，通常采用以下兩類指標(biāo)衡量偏差的大小，一類是衡量項(xiàng)目參數(shù)返真性指標(biāo)，另一類是衡量等值系數(shù)返真性指標(biāo)。

3.2.1 均方根誤差指標(biāo)和偏差

均方根誤差指標(biāo)（RMSE）、偏差（BIAS）均采用X′等值后的難度、區(qū)分度參數(shù)和原來(lái)的X的難度、區(qū)分度參數(shù)對(duì)比。這里的參數(shù)僅指共同題等值前后的參數(shù)。計(jì)算公式如下：

其中表示等值后的各參數(shù)，?r表示參數(shù)的真實(shí)值，R表示全卷的題目數(shù)量，N表示重復(fù)的次數(shù)[4]。RMSE和BIAS的結(jié)果越小，代表等值后的共同題參數(shù)越接近真值，等值效果越好。

3.2.2 平均絕對(duì)離差

平均絕對(duì)離差（ABSE）表示的是等值系數(shù)真值與估計(jì)值的差異。其公式如下：

在式（12）中，R代表模擬實(shí)驗(yàn)的總次數(shù)，A和B表示等值系數(shù)真值，表示經(jīng)過(guò)第r次模擬后的等值系數(shù)估計(jì)值，ABSE的值越小，代表等值系數(shù)估計(jì)值對(duì)真值的修復(fù)程度越好，即等值系數(shù)估計(jì)值越接近于真值。

盡管采用模擬研究觀察參數(shù)返真性的方法是目前等值參數(shù)評(píng)價(jià)的主流方法，但也存在著一些問(wèn)題，其最突出的問(wèn)題是模擬數(shù)據(jù)與真實(shí)數(shù)據(jù)之間存在一定的差別，這對(duì)研究結(jié)果的使用產(chǎn)生很大制約。為了使模擬數(shù)據(jù)的結(jié)果更接近真實(shí)數(shù)據(jù)，研究者往往會(huì)進(jìn)行多次模擬，一般而言，模擬次數(shù)不低于30次。

3.3 等值系數(shù)的標(biāo)準(zhǔn)誤

基于IRT的等值主要包括兩部分，第一部分是參數(shù)等值，包括項(xiàng)目參數(shù)等值和被試能力參數(shù)等值；第二部分是測(cè)驗(yàn)分?jǐn)?shù)的導(dǎo)出，又分為IRT真分?jǐn)?shù)法和IRT觀察分?jǐn)?shù)法兩類。當(dāng)有兩個(gè)群體分別參加了兩個(gè)測(cè)驗(yàn)X和Y，其中X是基準(zhǔn)測(cè)驗(yàn)，Y是新測(cè)驗(yàn)，X和Y均有j道項(xiàng)目，且包含m個(gè)共同題（anchor item）。根據(jù)IRT等值理論，首先應(yīng)進(jìn)行測(cè)驗(yàn)X和Y的項(xiàng)目參數(shù)和被試能力參數(shù)的等值，測(cè)驗(yàn)X和Y的項(xiàng)目參數(shù)和能力參數(shù)具有如下關(guān)系[18]：

其中，A和B就是等值系數(shù)，IRT參數(shù)等值的核心就是求解等值系數(shù)A和B。正是由于求解等值系數(shù)A和B時(shí)所采用的估計(jì)參數(shù)的原理不同，才會(huì)產(chǎn)生不同的IRT等值方法。利用一種等值方法求解等值系數(shù)時(shí)，不僅會(huì)產(chǎn)生等值系數(shù)，還會(huì)產(chǎn)生等值系數(shù)估計(jì)的標(biāo)準(zhǔn)誤，它是衡量等值系數(shù)受隨機(jī)誤差影響的程度。等值系數(shù)標(biāo)準(zhǔn)誤越大，表明該等值方法的隨機(jī)誤差越大，等值結(jié)果越差。在應(yīng)用方面，吳銳以等值系數(shù)估計(jì)的標(biāo)準(zhǔn)誤為衡量標(biāo)準(zhǔn)，對(duì)IRT項(xiàng)目特征曲線法的等值結(jié)果進(jìn)行分析[19]。但是，這種等值評(píng)價(jià)標(biāo)準(zhǔn)僅適用于IRT分別校準(zhǔn)法，對(duì)IRT同時(shí)校準(zhǔn)法和IRT固定校準(zhǔn)法卻不適用。

3.4 項(xiàng)目參數(shù)交叉檢驗(yàn)

等值參數(shù)交叉檢驗(yàn)方法和等值分?jǐn)?shù)交叉檢驗(yàn)的原理基本相同，即以大樣本所得的參數(shù)等值結(jié)果為標(biāo)準(zhǔn)，通過(guò)對(duì)比小樣本參數(shù)等值的結(jié)果與大樣本參數(shù)等值結(jié)果的差異，差異最小的方法就是較好的方法。其計(jì)算公式是:

其中，Yi表示在交叉檢驗(yàn)的樣本中，Y測(cè)驗(yàn)上第i題等值后的項(xiàng)目參數(shù)，N表示測(cè)驗(yàn)的題目個(gè)數(shù)，Y'i表示在大樣本中Y測(cè)驗(yàn)上第i題等值后的項(xiàng)目參數(shù)。RMSD指標(biāo)的值越小，表明各等值方法所得結(jié)果的一致性越高[3]。等值參數(shù)交叉檢驗(yàn)的方法僅適用于IRT等值，此外，等值參數(shù)交叉檢驗(yàn)法也只能夠選取出隨機(jī)誤差最小的等值方法，無(wú)法對(duì)等值方法的系統(tǒng)誤差進(jìn)行估計(jì)。

4 結(jié)語(yǔ)與建議

通過(guò)梳理國(guó)內(nèi)外關(guān)于等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)的文獻(xiàn)，我們以共同題非等組設(shè)計(jì)為例，根據(jù)評(píng)價(jià)對(duì)象的不同，將等值結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)劃分為兩種類型：一類是用于評(píng)價(jià)等值分?jǐn)?shù)的標(biāo)準(zhǔn)，一類是用于評(píng)價(jià)等值參數(shù)的標(biāo)準(zhǔn)，如表1所示。這兩類標(biāo)準(zhǔn)既有聯(lián)系又有區(qū)別，如交叉檢驗(yàn)的標(biāo)準(zhǔn)既可以用于等值分?jǐn)?shù)的評(píng)價(jià)也可以用于等值參數(shù)的評(píng)價(jià)，只是公式內(nèi)容略有不同。而共同題穩(wěn)定性的標(biāo)準(zhǔn)僅適用于等值參數(shù)的評(píng)價(jià)，重要差異的標(biāo)準(zhǔn)僅適合對(duì)等值分?jǐn)?shù)結(jié)果進(jìn)行評(píng)價(jià)。此外，我們對(duì)每種等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)的適用范圍及其局限性進(jìn)行了簡(jiǎn)要說(shuō)明，這將有助于研究者從宏觀上把握等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)的分類，并結(jié)合研究實(shí)際選擇合理的等值結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)。

表1 等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)概覽

為此，我們提出以下建議：

第一，研究者可根據(jù)其等值研究所選用的等值方法的不同、等值結(jié)果的不同選擇與其相對(duì)應(yīng)的等值結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)。比如：若研究采用的是CTT等值方法，則只能選取用于評(píng)價(jià)等值分?jǐn)?shù)的評(píng)價(jià)標(biāo)準(zhǔn)。

第二，以往的等值研究往往是采用一種標(biāo)準(zhǔn)對(duì)多種等值方法的結(jié)果進(jìn)行評(píng)價(jià)，由于每種等值結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)都有一定的局限性，僅僅采用一種標(biāo)準(zhǔn)對(duì)多種等值結(jié)果進(jìn)行評(píng)價(jià)的做法過(guò)于絕對(duì)。因此，我們建議研究者可以根據(jù)研究對(duì)象的不同，采用多種評(píng)價(jià)標(biāo)準(zhǔn)對(duì)等值結(jié)果進(jìn)行綜合評(píng)價(jià)，從不同角度對(duì)等值結(jié)果進(jìn)行合理解釋，這不僅有助于深化研究者對(duì)各種等值方法的認(rèn)識(shí)，也使得等值研究的結(jié)論更加合理、全面、可靠。

[1]謝小慶.對(duì)15種測(cè)驗(yàn)等值方法的比較研究[J].心理學(xué)報(bào),2000,32（2）:217-223.

[2]謝小慶.謝小慶教育測(cè)量學(xué)論文集[M].北京:北京語(yǔ)言大學(xué)出版社,2012:160.

[3]焦麗亞.基于IRT的共同題非等組設(shè)計(jì)中五種項(xiàng)目參數(shù)等值方法的比較研究[J].考試研究,2009（2）:85-99.

[4]劉玥,劉紅云.不同鉚測(cè)驗(yàn)設(shè)計(jì)下多維IRT等值方法的比較[J].心理學(xué)報(bào),2013,45（4）:466-480.

[5]YAO L H.Multidimensional linking for domain scores and overall scores for nonequivalent groups[J].Applied Psychological Measurement,2011,35（1）:48-66.

[6]張泉慧,黃慧英.IRT理論不同模型下同時(shí)校準(zhǔn)等值方法的跨樣本研究[J].中國(guó)考試,2016（2）:3-8.

[7]BROSSMAN B G,LEE W C.Observed score and true score equating procedures for multidimensional item response theory[J].Applied Psychological Measurement,2013,37（6）:460-481.

[8]HARRIS D J,CROUSE J D.A study of criteria used in equating[J].Applied Measurement in Education,1993（6）:195-240.

[9]羅照盛.經(jīng)典測(cè)量理論等值的誤差研究[J].心理科學(xué),2000,23（4）:494-501.

[10]戴海崎.等值誤差理論與我國(guó)高考等值的誤差控制[J].江西師范大學(xué)學(xué)報(bào),1999,32（1）:30-36.

[11]PARSHALL C G,HOUGHTON P D B,KROMREY J D.Equating Error and Statistical Bias in Small Sample Linear Equating[J].Journal of Educational Measurement,1995,32（1）:37-54.

[12]HAN YI KIM.A comparation of smoothing methods for the common item nonequivalent groups design[D].Iowa,US:The University of Iowa,2014.

[13]劉玥,劉紅云.多維數(shù)據(jù)IRT真分?jǐn)?shù)等值和IRT觀察分?jǐn)?shù)等值研究[J].心理學(xué)探新,2015,35（1）:56-61.

[14]焦麗亞,辛濤.基于CTT的錨測(cè)驗(yàn)非等組設(shè)計(jì)中四種等值方法的比較研究[J].心理發(fā)展與教育,2006（1）:97-102.

[15]DORANS N J,HOLLAND P W,THAYER D T,TATENENI K.Population invariance of score linking:Theory and applications to advanced placement program examinations[M].Princeton,US:Educational Testing Service,2003.

[16]BROSSMAN B G,LEE W C.Observed score and true score equating procedures for multidimensional item response theory[J].Applied Psychological Measurement,2013,37（6）:460-481.

[17]張軍之.基于多維IRT的測(cè)驗(yàn)等值研究[D].南昌:江西師范大學(xué),2016.

[18]KOLEN M J,BRENNAN R L.Test Equating,Scaling and Linking:Methods and Practices（2nded）[M].New York,US:Springer,2004.

[19]吳銳.含題組測(cè)驗(yàn)的IRT等值問(wèn)題研究[D].南昌:江西師范大學(xué),2007.