劉 玥,劉紅云
(1.四川省教育科學(xué)研究所,成都610225;2.北京師范大學(xué)心理學(xué)院,北京100875)
在教育測(cè)量中,常常會(huì)出現(xiàn)考核同一個(gè)內(nèi)容的多個(gè)測(cè)驗(yàn)形式,為了實(shí)現(xiàn)這些測(cè)驗(yàn)分?jǐn)?shù)之間的比較,會(huì)用到測(cè)驗(yàn)等值的方法。針對(duì)測(cè)驗(yàn)分?jǐn)?shù)的等值,一般可以分為經(jīng)典測(cè)驗(yàn)理論(CTT)下的等值方法和項(xiàng)目反應(yīng)理論(IRT)下的等值方法(Kolen & Brennan,2004)。其中,IRT 真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值就是兩種經(jīng)典的實(shí)現(xiàn)測(cè)驗(yàn)分?jǐn)?shù)等值的方法。它們既能與傳統(tǒng)觀察分?jǐn)?shù)等值方法的目的一致,實(shí)現(xiàn)測(cè)驗(yàn)分?jǐn)?shù)之間的轉(zhuǎn)換,又能結(jié)合IRT 等值的優(yōu)勢(shì),使等值后的項(xiàng)目參數(shù)在同一量尺上,為題庫建設(shè)中鉚定新加入題目的參數(shù)提供了便利。IRT 真分?jǐn)?shù)等值是當(dāng)項(xiàng)目參數(shù)都被置于同一量度上之后,將兩個(gè)測(cè)驗(yàn)的真分?jǐn)?shù)通過被試的能力值θ 進(jìn)行鏈接(Kolen & Brennan,2004)。IRT 觀察分?jǐn)?shù)等值是產(chǎn)生兩個(gè)測(cè)驗(yàn)的觀察分?jǐn)?shù)分布。然后,使用傳統(tǒng)的等百分位等值方法來進(jìn)行等值(Kolen & Brennan,2004)。但是,基于IRT 的等值方法往往需要測(cè)驗(yàn)結(jié)構(gòu)滿足單維性的前提假設(shè)。
然而,在現(xiàn)實(shí)情境里,測(cè)驗(yàn)通常包含多維的結(jié)構(gòu)。如英語測(cè)驗(yàn),就能根據(jù)內(nèi)容分為閱讀,聽力,寫作等維度。這時(shí),傳統(tǒng)IRT 理論的單維性假設(shè)很容易遭到違背。因此,基于單維IRT 假設(shè)的參數(shù)估計(jì)和IRT 等值結(jié)果會(huì)出現(xiàn)一定的偏差(Reckase,2009)。有很多研究者已經(jīng)致力于開發(fā)適用于多維IRT 的等值方法。這些方法主要有多維IRT 相等函數(shù)方法,測(cè)驗(yàn)特征函數(shù)方法,項(xiàng)目特征函數(shù)方法,直接方法(Oshima,Davey,& Lee,2000),LL 方法(Li &Lissitz,2000),Min 的方法(Min,2003),NOP 方法(Reckase & Martineau,2004)和同時(shí)等值的方法(Simon & Davison,2008)等。這些方法和單維IRT 等值方法的主要區(qū)別是,多維IRT 等值不僅需要調(diào)整不同測(cè)驗(yàn)量尺原點(diǎn)和單位大小的差異,還要進(jìn)行量尺旋轉(zhuǎn)和維度相關(guān)調(diào)整等一系列過程(Reckase,2009)。
在單維IRT 等值中,一些研究比較了IRT 真分?jǐn)?shù)等值與IRT 觀察分?jǐn)?shù)等值(Harris & Crouse,1993;Han,Kolen,& Pohlmann,1997;Lord & Wingersky,1984;劉玥,駱方,劉紅云,2010)。盡管關(guān)于兩種等值方法是否有區(qū)別存在不一致的結(jié)論,但是大多數(shù)研究證明,IRT 真分?jǐn)?shù)等值與IRT 觀察分?jǐn)?shù)等值的結(jié)果有極高的相似性。在多維IRT 等值中,大多研究關(guān)注于項(xiàng)目參數(shù)的等值,很少有研究應(yīng)用針對(duì)測(cè)驗(yàn)分?jǐn)?shù)等值。Brossman(2010)首次將單維IRT 真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值推廣到多維,并對(duì)這些方法進(jìn)行比較。結(jié)果證明,對(duì)于存在中等程度多維的數(shù)據(jù),幾種多維IRT 等值方法優(yōu)于單維IRT 等值。
在Brossman(2010)的研究中,參數(shù)估計(jì)使用的是邊緣極大似然估計(jì)方法。隨著統(tǒng)計(jì)方法和計(jì)算機(jī)技術(shù)的發(fā)展,貝葉斯估計(jì)的MCMC 算法以其估計(jì)結(jié)果的準(zhǔn)確性得到了越來越多的應(yīng)用(Yao,Lewis,&Zhang,2008)。因此,基于貝葉斯估計(jì)得到的項(xiàng)目參數(shù),進(jìn)行單維和多維IRT 分?jǐn)?shù)等值,其結(jié)果是否存在差異,是研究主要關(guān)心的問題。多維近似單維IRT真分?jǐn)?shù)等值(unidimensional approximation of MIRT true score equating)和多維近似單維IRT 觀察分?jǐn)?shù)等值(unidimensional approximation of MIRT observed score equating),因計(jì)算過程相對(duì)簡(jiǎn)單,等值效果較好,并且等值的項(xiàng)目參數(shù)與單維IRT 的結(jié)果具有可比性,而具有較大的優(yōu)勢(shì)(Brossman,2010)。因此,選用這兩種方法作為多維IRT 等值方法。等百分位等值不包含多維性假設(shè),并且在相等組設(shè)計(jì)中具有良好穩(wěn)定的結(jié)果,所以等百分位等值將作為其他幾種方法的比較標(biāo)準(zhǔn)(Brossman,2010)。綜上,研究以實(shí)際數(shù)據(jù)為背景,基于貝葉斯估計(jì)的MCMC 方法實(shí)現(xiàn)參數(shù)估計(jì),比較了四種等值方法:單維IRT 真分?jǐn)?shù)等值,單維IRT 觀察分?jǐn)?shù)等值,多維近似單維IRT 真分?jǐn)?shù)等值,多維近似單維IRT 觀察分?jǐn)?shù)等值。研究豐富了多維IRT 的等值方法,為實(shí)際中針對(duì)測(cè)驗(yàn)分?jǐn)?shù)的等值方法的選擇提供了參考。
研究采用2007 年國(guó)家教育質(zhì)量分析評(píng)估大型初中英語抽樣測(cè)試的數(shù)據(jù)。該英語測(cè)驗(yàn)分為A,B卷。測(cè)試采用相等組等值設(shè)計(jì),即同一所參加測(cè)試的學(xué)生隨機(jī)分為兩組,一組測(cè)試A 卷,一組測(cè)試B卷。因此估計(jì)出的兩套測(cè)驗(yàn)的項(xiàng)目參數(shù)在同一量尺上,項(xiàng)目參數(shù)不需要進(jìn)行量尺轉(zhuǎn)換。每套測(cè)驗(yàn)均由聽力和閱讀兩個(gè)部分組成,共40 題。根據(jù)測(cè)驗(yàn)內(nèi)容,可以假設(shè)題目分別屬于兩個(gè)維度。所有題目均為0/1 計(jì)分,測(cè)驗(yàn)總分為原始分。
完成測(cè)驗(yàn)A 的有3242 名考生,完成測(cè)驗(yàn)B 的有3308 名考生。研究要進(jìn)行測(cè)驗(yàn)B 到測(cè)驗(yàn)A 的分?jǐn)?shù)等值。
2.2.1 多維IRT 真分?jǐn)?shù)等值
多維IRT 真分?jǐn)?shù)等值主要是通過將多維IRT 的參數(shù)估計(jì)結(jié)果合成單維參數(shù),從而采用與單維IRT真分?jǐn)?shù)等值類似的過程完成,因此又稱為多維近似單維IRT 等值方法(Brossman,2010)。
首先,進(jìn)行多維兩參數(shù)Logistic 模型的參數(shù)估計(jì)。然后,計(jì)算每個(gè)維度的權(quán)重。
利用權(quán)重合成多維近似單維項(xiàng)目參數(shù)。
然后根據(jù)下面的公式將正態(tài)肩形模型系統(tǒng)中的上述參數(shù)轉(zhuǎn)換到Logistic 模型中(Lord,1980)。
這時(shí),多維近似單維能力也可以表示為各個(gè)維度能力參數(shù)的線性組合。
最后,利用多維近似單維IRT 題目參數(shù),就能實(shí)現(xiàn)多維近似單維IRT 真分?jǐn)?shù)等值。
2.2.2 多維IRT 觀察分?jǐn)?shù)等值
多維IRT 觀測(cè)分?jǐn)?shù)等值通過將多維測(cè)驗(yàn)中每個(gè)維度能力的結(jié)點(diǎn)值轉(zhuǎn)換到單維能力結(jié)點(diǎn)值,然后采用與單維IRT 觀測(cè)分?jǐn)?shù)等值類似的過程完成,又稱為多維近似單維IRT 觀察分?jǐn)?shù)等值,該方法需要得到被試能力的邊緣分布(Brossman,2010)??梢园凑障旅娴姆椒ㄇ蟪霰辉嚹芰Ψ植嫉慕Y(jié)點(diǎn)與權(quán)重** 結(jié)點(diǎn)與權(quán)重:將連續(xù)的能力分布看做基于有限數(shù)量的能力值的離散分布,其中能力值稱為結(jié)點(diǎn),與之相對(duì)應(yīng)的密度稱為權(quán)重。結(jié)點(diǎn)與權(quán)重可以表示能力的后驗(yàn)分布。這是進(jìn)行IRT 觀察分?jǐn)?shù)等值需要用到的條件。。
第一步,根據(jù)標(biāo)準(zhǔn)多元正態(tài)分布求出每個(gè)維度的結(jié)點(diǎn)和整體的權(quán)重。這個(gè)過程可以通過R 語句編程實(shí)現(xiàn)。例如,多維IRT 能力的結(jié)點(diǎn)與權(quán)重可以表示為:
第二步,將每個(gè)維度的結(jié)點(diǎn)值乘以線性轉(zhuǎn)換系數(shù)α 并求和,得到近似單維結(jié)點(diǎn)值。
第三步,將上一步得到的結(jié)果按照結(jié)點(diǎn)從小到大進(jìn)行排序,得到下面的矩陣:
然后,按順序合成結(jié)點(diǎn)與權(quán)重,結(jié)點(diǎn)數(shù)與單維IRT 觀察分?jǐn)?shù)中保持一致。其中,每個(gè)區(qū)間結(jié)點(diǎn)之和作為區(qū)間的結(jié)點(diǎn),每個(gè)區(qū)間的權(quán)重之平均數(shù)作為區(qū)間的權(quán)重。這一步驟是為了使得到的結(jié)點(diǎn)和權(quán)重更加穩(wěn)定。
最后,使用上面得到的參數(shù)、結(jié)點(diǎn)和權(quán)重進(jìn)行多維近似單維IRT 觀察分?jǐn)?shù)等值。
2.3.1 維度分析
使用DETECT 軟件(Stout,Habing,& Douglas,1996)對(duì)測(cè)驗(yàn)的維度進(jìn)行非參數(shù)方法的分析,檢驗(yàn)測(cè)驗(yàn)是否存在多維結(jié)構(gòu)。
2.3.2 參數(shù)估計(jì)
采用BMIRT 程序(Yao,Lewis,& Zhang,2008),分別完成單維兩參數(shù)Logistic 模型和多維兩參數(shù)Logistic 模型對(duì)數(shù)據(jù)的擬合。
2.3.3 分?jǐn)?shù)等值
研究采用的分?jǐn)?shù)等值方法主要有三類,分別是:單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值、多維近似單維IRT 真分?jǐn)?shù)等值IRT 觀察分?jǐn)?shù)等值,以及等百分位等值。
(1)單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值
根據(jù)標(biāo)準(zhǔn)正態(tài)分布,使用R 語句求出兩組被試能力的結(jié)點(diǎn)與權(quán)重。最后,使用PIE 程序(Hanson &Zeng,1995),完成IRT 真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值。
(2)多維近似單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值
先求出多維近似單維各題目參數(shù),以及能力分布的結(jié)點(diǎn)和權(quán)重。然后使用PIE 程序(Hanson &Zeng,1995),完成多維近似單維IRT 真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值。
(3)等百分位等值
使用RAGE - RGEQUATE(Zeng,Kolen,Hanson,Cui,& Chien,2004)完成等百分位等值和平滑。選擇S=0.01 后平滑的結(jié)果作為最終的等百分位等值結(jié)果。
2.3.4 評(píng)價(jià)標(biāo)準(zhǔn)
(1)DETECT 結(jié)果
根據(jù)DETECT 探索性分析結(jié)果,能夠大致估計(jì)多維IRT 等值是否能有較好的表現(xiàn)。如果DETECT的分類與測(cè)驗(yàn)本身的結(jié)構(gòu)較一致,說明每個(gè)維度內(nèi)的題目幾乎指向同一個(gè)方向,這就為多維IRT 等值提供了很好的基礎(chǔ)。
(2)等值標(biāo)準(zhǔn)誤
等值標(biāo)準(zhǔn)誤表示了等百分位等值中的隨機(jī)誤差。Equating Error 程序(Kolen & Brennan,2004)使用Bootstrap 方法計(jì)算等值標(biāo)準(zhǔn)誤。用等百分位等值的分?jǐn)?shù)加減等值標(biāo)準(zhǔn)誤,能得到等百分位等值68%的置信區(qū)間。如果某種等值方法的結(jié)果大部分落在了等百分位等值標(biāo)準(zhǔn)誤置信區(qū)間之外,說明這種方法的結(jié)果與等百分位等值顯著不同。
(3)重要的差異(Differences That Matter)
Dorans 等(2003)提出了一種重要的差異(Differences That Matter)評(píng)價(jià)標(biāo)準(zhǔn)。他們認(rèn)為,在特定分?jǐn)?shù)點(diǎn)上,等值結(jié)果之間的差異大于0.5 倍原始分?jǐn)?shù),則為重要的差異。在研究中,用這個(gè)標(biāo)準(zhǔn)衡量某等值方法與等百分位等值的差異。
表1 是測(cè)驗(yàn)A,B 的描述統(tǒng)計(jì)。
從表中可以看出,兩套試卷上的分?jǐn)?shù)分布略呈負(fù)偏態(tài),說明這兩套測(cè)驗(yàn)較為容易。參加測(cè)驗(yàn)的人數(shù)都達(dá)到了3000 以上,保證了單維和多維IRT 參數(shù)估計(jì)都能得到較準(zhǔn)確的結(jié)果。
DETECT 維度分析在探索性分析和驗(yàn)證性分析兩種模式下,分別提供三種指標(biāo)。DETECT 值說明測(cè)驗(yàn)在多大程度上符合多維結(jié)構(gòu)。小于0.2 表示單維結(jié)構(gòu),0.2 到0.4 表示弱至中等程度的多維,0.4到1.0 表示中至強(qiáng)程度的多維。IDN 指數(shù)表示測(cè)驗(yàn)在多大程度上符合簡(jiǎn)單結(jié)構(gòu)。接近1 表示數(shù)據(jù)較好地?cái)M合了簡(jiǎn)單結(jié)構(gòu)模型。r 比值顯示了分析結(jié)果穩(wěn)定性的程度。接近1 表示得到的結(jié)果較為穩(wěn)定(Zhang & Stout,1999)。表2 是對(duì)A,B 兩套測(cè)驗(yàn)進(jìn)行維度分析的結(jié)果。
表2 兩測(cè)驗(yàn)DETECT 結(jié)果
通過DETECT 指數(shù)可以看出,兩套測(cè)驗(yàn)存在著弱至中等強(qiáng)度的多維結(jié)構(gòu)。兩套測(cè)驗(yàn)的IDN 指數(shù)說明數(shù)據(jù)基本符合簡(jiǎn)單結(jié)構(gòu)。r 比值證明得到的結(jié)果較為穩(wěn)定。
在DETECT 的探索性分析模式下,將得到的題目維度分類信息與測(cè)驗(yàn)的先驗(yàn)維度分類設(shè)定進(jìn)行比較,總的來說兩種方法的分類是很一致的??梢酝茰y(cè),多維IRT 等值能夠得到較好的結(jié)果。
表3 是兩套測(cè)驗(yàn)項(xiàng)目參數(shù)估計(jì)結(jié)果的描述統(tǒng)計(jì)。
表3 兩測(cè)驗(yàn)題目參數(shù)估計(jì)結(jié)果的描述統(tǒng)計(jì)
可以看出,對(duì)于區(qū)分度參數(shù),多維方法得到的均值和標(biāo)準(zhǔn)差小于單維方法。而對(duì)于難度參數(shù),兩種方法得到的均值和標(biāo)準(zhǔn)差是相近的。同時(shí),兩種方法在各參數(shù)估計(jì)結(jié)果上的相關(guān)較高,在難度參數(shù)上兩種方法的估計(jì)結(jié)果更加接近。
研究中,等百分位等值標(biāo)準(zhǔn)誤均值為0.285,說明等百分位等值包含的隨機(jī)誤差較小。圖1 和圖2分別呈現(xiàn)了各等值方法與等百分位等值置信區(qū)間的關(guān)系。
圖1 兩種真分?jǐn)?shù)等值方法和等百分位等值比較
圖2 兩種觀察分?jǐn)?shù)等值方法和等百分位等值比較
從圖中可以看出,各等值方法與等百分位等值的趨勢(shì)較為一致(相關(guān)達(dá)到0.998 以上)。其中,多維IRT 等值方法與等百分位等值更加相似,而單維IRT 等值方法在很多分?jǐn)?shù)點(diǎn)上的結(jié)果遠(yuǎn)超過了等百分位等值的標(biāo)準(zhǔn)誤區(qū)間。
圖3 表示相同分?jǐn)?shù)點(diǎn)上單維IRT 真分?jǐn)?shù)等值、單維IRT 觀測(cè)分?jǐn)?shù)等值、多維近似單維IRT 真分?jǐn)?shù)等值、多維近似IRT 觀測(cè)分?jǐn)?shù)等值與等百分位等值結(jié)果的差異。
圖3 四種等值方法與等百分位等值結(jié)果的差異
根據(jù)定義,超過縱坐標(biāo)上[-0.5,0.5]這個(gè)區(qū)間的結(jié)果與等百分位等值存在重要的差異。從圖中可以看出,多維IRT 等值方法所包含的重要差異的分?jǐn)?shù)點(diǎn)較單維IRT 等值方法少。并且,兩種多維IRT 等值結(jié)果非常接近,僅在低分段和高分段出現(xiàn)了較大的差異。另外,多維近似單維IRT 觀察分?jǐn)?shù)等值與等百分位等值結(jié)果差異絕對(duì)值的均值和標(biāo)準(zhǔn)差最小,說明針對(duì)這批實(shí)際數(shù)據(jù),這種方法與等百分位等值的結(jié)果最為接近。
對(duì)單維和多維IRT 等值方法進(jìn)行比較,首先,這兩類方法得到的等值趨勢(shì)是一致的。這是因?yàn)閮深惙椒▽?duì)題目參數(shù)估計(jì)結(jié)果具有較高的相似性,而得到題目參數(shù)之后,單維和多維IRT 等值的過程也是類似的。
其次,對(duì)于真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值方法,單維和多維IRT 等值方法之間的差異較大。這主要是由于兩類方法的前提假設(shè)和模型定義不同,盡管在題目參數(shù)估計(jì)中,單維的方法和近似多維方法結(jié)果的相關(guān)很高,但參數(shù)估計(jì)的大小存在差異,這就可能導(dǎo)致兩類等值方法的差異。將兩類等值方法與等百分位等值的結(jié)果做比較,發(fā)現(xiàn)在隨機(jī)等組設(shè)計(jì)下,多維IRT 等值的結(jié)果與等百分位等值的結(jié)果更加接近。這是由于根據(jù)維度分析的結(jié)果,該英語測(cè)驗(yàn)存在著弱至中等強(qiáng)度的多維結(jié)構(gòu),違背了傳統(tǒng)IRT 的單維性假設(shè)。而多維IRT 等值是建立在多維性的假設(shè)下,所以這類等值方法所包含的系統(tǒng)誤差較小,其結(jié)果也與等百分位等值更為相似。另外,在所比較的四種等值方法中,多維IRT 觀察分?jǐn)?shù)等值與等百分位等值的結(jié)果最為接近。一方面歸因于這種方法是建立在多維IRT 的結(jié)構(gòu)下;另一方面是由于觀察分?jǐn)?shù)等值的方法與等百分位等值都利用了被試分布的信息,所以,以等百分位等值作為比較標(biāo)準(zhǔn),可以認(rèn)為在四種等值方法中,多維IRT 觀察分?jǐn)?shù)等值的方法所包含的誤差最小,得到的結(jié)果最準(zhǔn)確。
最后,在整個(gè)分?jǐn)?shù)的量尺上,單維IRT 等值與多維IRT 等值方法的差異并不一致,在一些分?jǐn)?shù)點(diǎn)上單維IRT 和多維IRT 等值方法的差異較小,而在一些分?jǐn)?shù)點(diǎn)上兩種方法的差異較大。產(chǎn)生這種現(xiàn)象的原因可能是,在不同的分?jǐn)?shù)點(diǎn)上,測(cè)驗(yàn)多維性結(jié)構(gòu)對(duì)分?jǐn)?shù)的影響是不同的,即,當(dāng)測(cè)驗(yàn)測(cè)量的結(jié)構(gòu)為多維時(shí),在不同分?jǐn)?shù)點(diǎn)上,考生在兩個(gè)測(cè)驗(yàn)上分?jǐn)?shù)的差異,所代表的意義可能不同。例如,在這兩套英語試卷上,可能對(duì)于低分段的考生,他們分?jǐn)?shù)的差異更大程度上來自于聽力,對(duì)于高分段的考生,他們分?jǐn)?shù)的差異更大程度上來自于閱讀,而中等分?jǐn)?shù)考生的差異同時(shí)來自于這兩個(gè)方面。也就是說,在整個(gè)分?jǐn)?shù)段上,可能一些分?jǐn)?shù)體現(xiàn)了更多的多維性結(jié)構(gòu),而一些分?jǐn)?shù)則顯得更接近單維性結(jié)構(gòu)。因此,在多維性結(jié)構(gòu)較強(qiáng)的分?jǐn)?shù)點(diǎn)上,單維IRT 和多維IRT 等值方法的差異就較大,而在單維性結(jié)構(gòu)較強(qiáng)的分?jǐn)?shù)點(diǎn)上,這兩種方法的結(jié)果就更接近。
IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的原理不同。真分?jǐn)?shù)等值是將兩個(gè)測(cè)驗(yàn)上的真分?jǐn)?shù)進(jìn)行鏈接,而觀察分?jǐn)?shù)等值旨在使用統(tǒng)計(jì)的方法對(duì)觀察分?jǐn)?shù)的分布進(jìn)行調(diào)整,從而使得兩個(gè)測(cè)驗(yàn)上觀察分?jǐn)?shù)的分布盡量相似。對(duì)四種等值方法比較可以看出,真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值的差異較小,而單維和多維等值方法的結(jié)果差異相對(duì)較大。這與Brossman(2010)的研究結(jié)果是相似的。Kolen 和Brennan(1995)曾經(jīng)指出,單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的結(jié)果非常接近,它們最大的區(qū)別可能會(huì)出現(xiàn)在滿分附近,或者是C 參數(shù)估計(jì)之和的分?jǐn)?shù)之下。在劉玥等人(2010)的研究中,也對(duì)單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值進(jìn)行了比較,發(fā)現(xiàn)兩種方法得到的等值結(jié)果基本相等,差別較大的部分出現(xiàn)在被等值測(cè)驗(yàn)的低分?jǐn)?shù)段。
在研究中,真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值表現(xiàn)出很高的一致性,尤其在中高分?jǐn)?shù)段,兩種方法得到的等值結(jié)果幾乎相同。而在低分段和滿分附近,兩種等值方法表現(xiàn)出了一定的差異。這說明單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的規(guī)律,也能延伸到多維IRT 的體系中。另外,相對(duì)于真分?jǐn)?shù)等值的方法,觀察分?jǐn)?shù)等值的方法與等百分位等值的結(jié)果更加接近,這是因?yàn)榈劝俜治坏戎档倪^程從原理上說就是觀察分?jǐn)?shù)等值。
在實(shí)際數(shù)據(jù)中,要進(jìn)行IRT 真分?jǐn)?shù)等值和IRT觀察分?jǐn)?shù)等值,首先最好使用多維分析的軟件,對(duì)測(cè)驗(yàn)的多維性及其具體結(jié)構(gòu)進(jìn)行檢驗(yàn)。如果測(cè)驗(yàn)符合單維性結(jié)構(gòu),則可以選用傳統(tǒng)的單維IRT 真分?jǐn)?shù)和觀察分?jǐn)?shù)等值的方法;如果測(cè)驗(yàn)符合多維性結(jié)構(gòu),但是測(cè)驗(yàn)對(duì)維度的先驗(yàn)分類和軟件探索性分析的結(jié)果不一致,則可以考慮通過一些探索性的方法重新劃分維度,再進(jìn)行維度檢驗(yàn);如果測(cè)驗(yàn)符合多維性結(jié)構(gòu),測(cè)驗(yàn)對(duì)維度的先驗(yàn)分類和軟件探索性分析的結(jié)果也一致,則選用多維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的方法能得到較好的結(jié)果。
由于研究采用了實(shí)際數(shù)據(jù),所得到的等值結(jié)果只適用于該等值情境。因此研究得到的結(jié)論具有一定的局限性。并且研究中各等值方法的比較標(biāo)準(zhǔn)為等百分位等值的結(jié)果,但是這種等值方法本身也包含了等值誤差,也不能準(zhǔn)確地反映兩套測(cè)驗(yàn)之間真實(shí)關(guān)系,因此使用它的結(jié)果作為比較標(biāo)準(zhǔn)是帶有偏差的。
另外,目前針對(duì)IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的研究大部分是針對(duì)實(shí)際數(shù)據(jù)的,模擬研究還較少,沒有得到廣泛認(rèn)可的等值評(píng)價(jià)標(biāo)準(zhǔn),因此在今后的研究中可以探索如何對(duì)這兩種等值方法的比較進(jìn)行模擬研究。從而使得研究結(jié)論更具有推廣性,為方法的比較和選擇提供參考。
最后,研究使用的多維IRT 分?jǐn)?shù)等值方法,只能實(shí)現(xiàn)總分的等值,不能進(jìn)行維度分?jǐn)?shù)的轉(zhuǎn)換。今后可以出于實(shí)際應(yīng)用的考慮,對(duì)多維數(shù)據(jù)維度分?jǐn)?shù)等值進(jìn)一步探索。
5.1 在研究設(shè)置的等值情境下,四種等值方法和等百分位等值具有相似的趨勢(shì)。
5.2 當(dāng)測(cè)驗(yàn)存在弱至中等程度的多維結(jié)構(gòu)時(shí),基于多維測(cè)驗(yàn)的IRT 真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值方法優(yōu)于單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值方法;多維IRT 觀察分?jǐn)?shù)等值略優(yōu)于多維IRT 真分?jǐn)?shù)等值,但是兩者之間的差異較小。
5.3 在實(shí)際情況下,最好先對(duì)測(cè)驗(yàn)的維度結(jié)構(gòu)進(jìn)行分析,再根據(jù)分析結(jié)果選擇合適的等值方法。如果測(cè)驗(yàn)確實(shí)存在多維結(jié)構(gòu),最好選用多維IRT 的等值方法以減小系統(tǒng)誤差。
劉玥,駱方,劉紅云.(2010).IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的對(duì)比研究.心理科學(xué),33(3),676 -680.
Brossman,B.G.(2010). Observed score and true score equating procedures for multidimensional item response theory.University of Iowa.
Dorans,N. J.,Holland,P. W.,Thayer,D. T.,& Tateneni,K.(2003).Invariance of score linking across gender groups for three Advanced Placement Program Examinations. In N. J.Dorans(Ed.),Population invariance of score linking:Theory and applications to Advanced Placement Program examinations(pp.79 -118).Princeton,NJ:Educational Testing Service.
Han,T.,Kolen,M.,& Pohlmann,J. (1997). A comparison among IRT true-and observed-score equatings and traditional equipercentile equating.Applied Measurement in Education,10(2),105 -121.
Hanson,B.,& Zeng,L. (1995). PIE:A computer program for IRT equating(Version 1.0).Iowa City,IA:ACT.
Harris,D.J.,& Crouse,J.D.(1993).A study of criteria used in equating. Applied Measurement in Education,6(3),195 -240.
Kolen,M.J.,& Brennan,R. L. (2004). Test equating,scaling,and linking:Methods and practices.Springer Verlag.
Li,Y.H.,& Lissitz,R.W.(2000).An evaluation of the accuracy of multidimensional IRT linking. Applied Psychological Measurement,24(2),115 -138.
Lord,F(xiàn).M.(1980).Applications of item response theory to practical testing problems. Lawrence Erlbaum Associates New Jersey.
Lord,F(xiàn). M.,& Wingersky,M. S. (1984). Comparison of IRT True - Score and Equipercentile Observed - Score“Equatings”.Applied Psychological Measurement,8(4),453.
Min,K.S.(2003).The impact of scale dilation on the quality of the linking of multidimensional item response theory calibrations. Michigan State University,Department of Counseling,Educational Psychology,and Special Education.
Oshima,T.,Davey,T.,& Lee,K. (2000). Multidimensional linking:Four practical approaches. Journal of Educational Measurement,357 -373.
Reckase,M.D. (2009). Multidimensional item response theory.Springer Verlag.
Reckase,M.,& Martineau,J.A.(2004).The vertica lscaling of science achievement tests. Unpublished Report. Michigan State University.
Simon,M. K. (2008). Comparison of concurrent and separate multidimensional IRT linking of item parameters.University of Minnesota.
Stout,W.,Habing,B.,& Douglas,J.(1996).Conditional covariance-based nonparametric multidimensionality assessment.Applied Psychological Measurement,20(4),331.
Yao,L.,Lewis,D.,& Zhang,L.(2008). An introduction to the application of BMIRT:Bayesian multivariate item response theory software. Training Secession Presented at the Annual Meeting of the National Council on Measurement in Educa -tion,Ny.
Zeng,L.,Kolen,M.,Hanson,B.,Cui,Z.,& Chien,Y.(2004).RAGE-RGEQUATE[Computer software].Iowa City:University of Iowa.
Zhang,J.,& Stout,W. (1999). The theoretical DETECT index of dimensionality and its application to approximate simple structure.Psychometrika,64(2),213 -249.