亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多維數(shù)據(jù)IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值研究

        2015-12-27 06:25:26劉紅云
        心理學(xué)探新 2015年1期
        關(guān)鍵詞:真分?jǐn)?shù)等值結(jié)點(diǎn)

        劉 玥,劉紅云

        (1.四川省教育科學(xué)研究所,成都610225;2.北京師范大學(xué)心理學(xué)院,北京100875)

        1 問題提出

        在教育測(cè)量中,常常會(huì)出現(xiàn)考核同一個(gè)內(nèi)容的多個(gè)測(cè)驗(yàn)形式,為了實(shí)現(xiàn)這些測(cè)驗(yàn)分?jǐn)?shù)之間的比較,會(huì)用到測(cè)驗(yàn)等值的方法。針對(duì)測(cè)驗(yàn)分?jǐn)?shù)的等值,一般可以分為經(jīng)典測(cè)驗(yàn)理論(CTT)下的等值方法和項(xiàng)目反應(yīng)理論(IRT)下的等值方法(Kolen & Brennan,2004)。其中,IRT 真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值就是兩種經(jīng)典的實(shí)現(xiàn)測(cè)驗(yàn)分?jǐn)?shù)等值的方法。它們既能與傳統(tǒng)觀察分?jǐn)?shù)等值方法的目的一致,實(shí)現(xiàn)測(cè)驗(yàn)分?jǐn)?shù)之間的轉(zhuǎn)換,又能結(jié)合IRT 等值的優(yōu)勢(shì),使等值后的項(xiàng)目參數(shù)在同一量尺上,為題庫建設(shè)中鉚定新加入題目的參數(shù)提供了便利。IRT 真分?jǐn)?shù)等值是當(dāng)項(xiàng)目參數(shù)都被置于同一量度上之后,將兩個(gè)測(cè)驗(yàn)的真分?jǐn)?shù)通過被試的能力值θ 進(jìn)行鏈接(Kolen & Brennan,2004)。IRT 觀察分?jǐn)?shù)等值是產(chǎn)生兩個(gè)測(cè)驗(yàn)的觀察分?jǐn)?shù)分布。然后,使用傳統(tǒng)的等百分位等值方法來進(jìn)行等值(Kolen & Brennan,2004)。但是,基于IRT 的等值方法往往需要測(cè)驗(yàn)結(jié)構(gòu)滿足單維性的前提假設(shè)。

        然而,在現(xiàn)實(shí)情境里,測(cè)驗(yàn)通常包含多維的結(jié)構(gòu)。如英語測(cè)驗(yàn),就能根據(jù)內(nèi)容分為閱讀,聽力,寫作等維度。這時(shí),傳統(tǒng)IRT 理論的單維性假設(shè)很容易遭到違背。因此,基于單維IRT 假設(shè)的參數(shù)估計(jì)和IRT 等值結(jié)果會(huì)出現(xiàn)一定的偏差(Reckase,2009)。有很多研究者已經(jīng)致力于開發(fā)適用于多維IRT 的等值方法。這些方法主要有多維IRT 相等函數(shù)方法,測(cè)驗(yàn)特征函數(shù)方法,項(xiàng)目特征函數(shù)方法,直接方法(Oshima,Davey,& Lee,2000),LL 方法(Li &Lissitz,2000),Min 的方法(Min,2003),NOP 方法(Reckase & Martineau,2004)和同時(shí)等值的方法(Simon & Davison,2008)等。這些方法和單維IRT 等值方法的主要區(qū)別是,多維IRT 等值不僅需要調(diào)整不同測(cè)驗(yàn)量尺原點(diǎn)和單位大小的差異,還要進(jìn)行量尺旋轉(zhuǎn)和維度相關(guān)調(diào)整等一系列過程(Reckase,2009)。

        在單維IRT 等值中,一些研究比較了IRT 真分?jǐn)?shù)等值與IRT 觀察分?jǐn)?shù)等值(Harris & Crouse,1993;Han,Kolen,& Pohlmann,1997;Lord & Wingersky,1984;劉玥,駱方,劉紅云,2010)。盡管關(guān)于兩種等值方法是否有區(qū)別存在不一致的結(jié)論,但是大多數(shù)研究證明,IRT 真分?jǐn)?shù)等值與IRT 觀察分?jǐn)?shù)等值的結(jié)果有極高的相似性。在多維IRT 等值中,大多研究關(guān)注于項(xiàng)目參數(shù)的等值,很少有研究應(yīng)用針對(duì)測(cè)驗(yàn)分?jǐn)?shù)等值。Brossman(2010)首次將單維IRT 真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值推廣到多維,并對(duì)這些方法進(jìn)行比較。結(jié)果證明,對(duì)于存在中等程度多維的數(shù)據(jù),幾種多維IRT 等值方法優(yōu)于單維IRT 等值。

        在Brossman(2010)的研究中,參數(shù)估計(jì)使用的是邊緣極大似然估計(jì)方法。隨著統(tǒng)計(jì)方法和計(jì)算機(jī)技術(shù)的發(fā)展,貝葉斯估計(jì)的MCMC 算法以其估計(jì)結(jié)果的準(zhǔn)確性得到了越來越多的應(yīng)用(Yao,Lewis,&Zhang,2008)。因此,基于貝葉斯估計(jì)得到的項(xiàng)目參數(shù),進(jìn)行單維和多維IRT 分?jǐn)?shù)等值,其結(jié)果是否存在差異,是研究主要關(guān)心的問題。多維近似單維IRT真分?jǐn)?shù)等值(unidimensional approximation of MIRT true score equating)和多維近似單維IRT 觀察分?jǐn)?shù)等值(unidimensional approximation of MIRT observed score equating),因計(jì)算過程相對(duì)簡(jiǎn)單,等值效果較好,并且等值的項(xiàng)目參數(shù)與單維IRT 的結(jié)果具有可比性,而具有較大的優(yōu)勢(shì)(Brossman,2010)。因此,選用這兩種方法作為多維IRT 等值方法。等百分位等值不包含多維性假設(shè),并且在相等組設(shè)計(jì)中具有良好穩(wěn)定的結(jié)果,所以等百分位等值將作為其他幾種方法的比較標(biāo)準(zhǔn)(Brossman,2010)。綜上,研究以實(shí)際數(shù)據(jù)為背景,基于貝葉斯估計(jì)的MCMC 方法實(shí)現(xiàn)參數(shù)估計(jì),比較了四種等值方法:單維IRT 真分?jǐn)?shù)等值,單維IRT 觀察分?jǐn)?shù)等值,多維近似單維IRT 真分?jǐn)?shù)等值,多維近似單維IRT 觀察分?jǐn)?shù)等值。研究豐富了多維IRT 的等值方法,為實(shí)際中針對(duì)測(cè)驗(yàn)分?jǐn)?shù)的等值方法的選擇提供了參考。

        2 研究方法

        2.1 實(shí)驗(yàn)數(shù)據(jù)

        研究采用2007 年國(guó)家教育質(zhì)量分析評(píng)估大型初中英語抽樣測(cè)試的數(shù)據(jù)。該英語測(cè)驗(yàn)分為A,B卷。測(cè)試采用相等組等值設(shè)計(jì),即同一所參加測(cè)試的學(xué)生隨機(jī)分為兩組,一組測(cè)試A 卷,一組測(cè)試B卷。因此估計(jì)出的兩套測(cè)驗(yàn)的項(xiàng)目參數(shù)在同一量尺上,項(xiàng)目參數(shù)不需要進(jìn)行量尺轉(zhuǎn)換。每套測(cè)驗(yàn)均由聽力和閱讀兩個(gè)部分組成,共40 題。根據(jù)測(cè)驗(yàn)內(nèi)容,可以假設(shè)題目分別屬于兩個(gè)維度。所有題目均為0/1 計(jì)分,測(cè)驗(yàn)總分為原始分。

        完成測(cè)驗(yàn)A 的有3242 名考生,完成測(cè)驗(yàn)B 的有3308 名考生。研究要進(jìn)行測(cè)驗(yàn)B 到測(cè)驗(yàn)A 的分?jǐn)?shù)等值。

        2.2 等值方法

        2.2.1 多維IRT 真分?jǐn)?shù)等值

        多維IRT 真分?jǐn)?shù)等值主要是通過將多維IRT 的參數(shù)估計(jì)結(jié)果合成單維參數(shù),從而采用與單維IRT真分?jǐn)?shù)等值類似的過程完成,因此又稱為多維近似單維IRT 等值方法(Brossman,2010)。

        首先,進(jìn)行多維兩參數(shù)Logistic 模型的參數(shù)估計(jì)。然后,計(jì)算每個(gè)維度的權(quán)重。

        利用權(quán)重合成多維近似單維項(xiàng)目參數(shù)。

        然后根據(jù)下面的公式將正態(tài)肩形模型系統(tǒng)中的上述參數(shù)轉(zhuǎn)換到Logistic 模型中(Lord,1980)。

        這時(shí),多維近似單維能力也可以表示為各個(gè)維度能力參數(shù)的線性組合。

        最后,利用多維近似單維IRT 題目參數(shù),就能實(shí)現(xiàn)多維近似單維IRT 真分?jǐn)?shù)等值。

        2.2.2 多維IRT 觀察分?jǐn)?shù)等值

        多維IRT 觀測(cè)分?jǐn)?shù)等值通過將多維測(cè)驗(yàn)中每個(gè)維度能力的結(jié)點(diǎn)值轉(zhuǎn)換到單維能力結(jié)點(diǎn)值,然后采用與單維IRT 觀測(cè)分?jǐn)?shù)等值類似的過程完成,又稱為多維近似單維IRT 觀察分?jǐn)?shù)等值,該方法需要得到被試能力的邊緣分布(Brossman,2010)??梢园凑障旅娴姆椒ㄇ蟪霰辉嚹芰Ψ植嫉慕Y(jié)點(diǎn)與權(quán)重** 結(jié)點(diǎn)與權(quán)重:將連續(xù)的能力分布看做基于有限數(shù)量的能力值的離散分布,其中能力值稱為結(jié)點(diǎn),與之相對(duì)應(yīng)的密度稱為權(quán)重。結(jié)點(diǎn)與權(quán)重可以表示能力的后驗(yàn)分布。這是進(jìn)行IRT 觀察分?jǐn)?shù)等值需要用到的條件。。

        第一步,根據(jù)標(biāo)準(zhǔn)多元正態(tài)分布求出每個(gè)維度的結(jié)點(diǎn)和整體的權(quán)重。這個(gè)過程可以通過R 語句編程實(shí)現(xiàn)。例如,多維IRT 能力的結(jié)點(diǎn)與權(quán)重可以表示為:

        第二步,將每個(gè)維度的結(jié)點(diǎn)值乘以線性轉(zhuǎn)換系數(shù)α 并求和,得到近似單維結(jié)點(diǎn)值。

        第三步,將上一步得到的結(jié)果按照結(jié)點(diǎn)從小到大進(jìn)行排序,得到下面的矩陣:

        然后,按順序合成結(jié)點(diǎn)與權(quán)重,結(jié)點(diǎn)數(shù)與單維IRT 觀察分?jǐn)?shù)中保持一致。其中,每個(gè)區(qū)間結(jié)點(diǎn)之和作為區(qū)間的結(jié)點(diǎn),每個(gè)區(qū)間的權(quán)重之平均數(shù)作為區(qū)間的權(quán)重。這一步驟是為了使得到的結(jié)點(diǎn)和權(quán)重更加穩(wěn)定。

        最后,使用上面得到的參數(shù)、結(jié)點(diǎn)和權(quán)重進(jìn)行多維近似單維IRT 觀察分?jǐn)?shù)等值。

        2.3 研究步驟

        2.3.1 維度分析

        使用DETECT 軟件(Stout,Habing,& Douglas,1996)對(duì)測(cè)驗(yàn)的維度進(jìn)行非參數(shù)方法的分析,檢驗(yàn)測(cè)驗(yàn)是否存在多維結(jié)構(gòu)。

        2.3.2 參數(shù)估計(jì)

        采用BMIRT 程序(Yao,Lewis,& Zhang,2008),分別完成單維兩參數(shù)Logistic 模型和多維兩參數(shù)Logistic 模型對(duì)數(shù)據(jù)的擬合。

        2.3.3 分?jǐn)?shù)等值

        研究采用的分?jǐn)?shù)等值方法主要有三類,分別是:單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值、多維近似單維IRT 真分?jǐn)?shù)等值IRT 觀察分?jǐn)?shù)等值,以及等百分位等值。

        (1)單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值

        根據(jù)標(biāo)準(zhǔn)正態(tài)分布,使用R 語句求出兩組被試能力的結(jié)點(diǎn)與權(quán)重。最后,使用PIE 程序(Hanson &Zeng,1995),完成IRT 真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值。

        (2)多維近似單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值

        先求出多維近似單維各題目參數(shù),以及能力分布的結(jié)點(diǎn)和權(quán)重。然后使用PIE 程序(Hanson &Zeng,1995),完成多維近似單維IRT 真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值。

        (3)等百分位等值

        使用RAGE - RGEQUATE(Zeng,Kolen,Hanson,Cui,& Chien,2004)完成等百分位等值和平滑。選擇S=0.01 后平滑的結(jié)果作為最終的等百分位等值結(jié)果。

        2.3.4 評(píng)價(jià)標(biāo)準(zhǔn)

        (1)DETECT 結(jié)果

        根據(jù)DETECT 探索性分析結(jié)果,能夠大致估計(jì)多維IRT 等值是否能有較好的表現(xiàn)。如果DETECT的分類與測(cè)驗(yàn)本身的結(jié)構(gòu)較一致,說明每個(gè)維度內(nèi)的題目幾乎指向同一個(gè)方向,這就為多維IRT 等值提供了很好的基礎(chǔ)。

        (2)等值標(biāo)準(zhǔn)誤

        等值標(biāo)準(zhǔn)誤表示了等百分位等值中的隨機(jī)誤差。Equating Error 程序(Kolen & Brennan,2004)使用Bootstrap 方法計(jì)算等值標(biāo)準(zhǔn)誤。用等百分位等值的分?jǐn)?shù)加減等值標(biāo)準(zhǔn)誤,能得到等百分位等值68%的置信區(qū)間。如果某種等值方法的結(jié)果大部分落在了等百分位等值標(biāo)準(zhǔn)誤置信區(qū)間之外,說明這種方法的結(jié)果與等百分位等值顯著不同。

        (3)重要的差異(Differences That Matter)

        Dorans 等(2003)提出了一種重要的差異(Differences That Matter)評(píng)價(jià)標(biāo)準(zhǔn)。他們認(rèn)為,在特定分?jǐn)?shù)點(diǎn)上,等值結(jié)果之間的差異大于0.5 倍原始分?jǐn)?shù),則為重要的差異。在研究中,用這個(gè)標(biāo)準(zhǔn)衡量某等值方法與等百分位等值的差異。

        3 結(jié)果

        3.1 兩測(cè)驗(yàn)描述性統(tǒng)計(jì)匯總

        表1 是測(cè)驗(yàn)A,B 的描述統(tǒng)計(jì)。

        從表中可以看出,兩套試卷上的分?jǐn)?shù)分布略呈負(fù)偏態(tài),說明這兩套測(cè)驗(yàn)較為容易。參加測(cè)驗(yàn)的人數(shù)都達(dá)到了3000 以上,保證了單維和多維IRT 參數(shù)估計(jì)都能得到較準(zhǔn)確的結(jié)果。

        3.2 維度分析結(jié)果

        DETECT 維度分析在探索性分析和驗(yàn)證性分析兩種模式下,分別提供三種指標(biāo)。DETECT 值說明測(cè)驗(yàn)在多大程度上符合多維結(jié)構(gòu)。小于0.2 表示單維結(jié)構(gòu),0.2 到0.4 表示弱至中等程度的多維,0.4到1.0 表示中至強(qiáng)程度的多維。IDN 指數(shù)表示測(cè)驗(yàn)在多大程度上符合簡(jiǎn)單結(jié)構(gòu)。接近1 表示數(shù)據(jù)較好地?cái)M合了簡(jiǎn)單結(jié)構(gòu)模型。r 比值顯示了分析結(jié)果穩(wěn)定性的程度。接近1 表示得到的結(jié)果較為穩(wěn)定(Zhang & Stout,1999)。表2 是對(duì)A,B 兩套測(cè)驗(yàn)進(jìn)行維度分析的結(jié)果。

        表2 兩測(cè)驗(yàn)DETECT 結(jié)果

        通過DETECT 指數(shù)可以看出,兩套測(cè)驗(yàn)存在著弱至中等強(qiáng)度的多維結(jié)構(gòu)。兩套測(cè)驗(yàn)的IDN 指數(shù)說明數(shù)據(jù)基本符合簡(jiǎn)單結(jié)構(gòu)。r 比值證明得到的結(jié)果較為穩(wěn)定。

        在DETECT 的探索性分析模式下,將得到的題目維度分類信息與測(cè)驗(yàn)的先驗(yàn)維度分類設(shè)定進(jìn)行比較,總的來說兩種方法的分類是很一致的??梢酝茰y(cè),多維IRT 等值能夠得到較好的結(jié)果。

        3.3 參數(shù)估計(jì)結(jié)果

        表3 是兩套測(cè)驗(yàn)項(xiàng)目參數(shù)估計(jì)結(jié)果的描述統(tǒng)計(jì)。

        表3 兩測(cè)驗(yàn)題目參數(shù)估計(jì)結(jié)果的描述統(tǒng)計(jì)

        可以看出,對(duì)于區(qū)分度參數(shù),多維方法得到的均值和標(biāo)準(zhǔn)差小于單維方法。而對(duì)于難度參數(shù),兩種方法得到的均值和標(biāo)準(zhǔn)差是相近的。同時(shí),兩種方法在各參數(shù)估計(jì)結(jié)果上的相關(guān)較高,在難度參數(shù)上兩種方法的估計(jì)結(jié)果更加接近。

        3.4 等值標(biāo)準(zhǔn)誤

        研究中,等百分位等值標(biāo)準(zhǔn)誤均值為0.285,說明等百分位等值包含的隨機(jī)誤差較小。圖1 和圖2分別呈現(xiàn)了各等值方法與等百分位等值置信區(qū)間的關(guān)系。

        圖1 兩種真分?jǐn)?shù)等值方法和等百分位等值比較

        圖2 兩種觀察分?jǐn)?shù)等值方法和等百分位等值比較

        從圖中可以看出,各等值方法與等百分位等值的趨勢(shì)較為一致(相關(guān)達(dá)到0.998 以上)。其中,多維IRT 等值方法與等百分位等值更加相似,而單維IRT 等值方法在很多分?jǐn)?shù)點(diǎn)上的結(jié)果遠(yuǎn)超過了等百分位等值的標(biāo)準(zhǔn)誤區(qū)間。

        3.5 重要的差異

        圖3 表示相同分?jǐn)?shù)點(diǎn)上單維IRT 真分?jǐn)?shù)等值、單維IRT 觀測(cè)分?jǐn)?shù)等值、多維近似單維IRT 真分?jǐn)?shù)等值、多維近似IRT 觀測(cè)分?jǐn)?shù)等值與等百分位等值結(jié)果的差異。

        圖3 四種等值方法與等百分位等值結(jié)果的差異

        根據(jù)定義,超過縱坐標(biāo)上[-0.5,0.5]這個(gè)區(qū)間的結(jié)果與等百分位等值存在重要的差異。從圖中可以看出,多維IRT 等值方法所包含的重要差異的分?jǐn)?shù)點(diǎn)較單維IRT 等值方法少。并且,兩種多維IRT 等值結(jié)果非常接近,僅在低分段和高分段出現(xiàn)了較大的差異。另外,多維近似單維IRT 觀察分?jǐn)?shù)等值與等百分位等值結(jié)果差異絕對(duì)值的均值和標(biāo)準(zhǔn)差最小,說明針對(duì)這批實(shí)際數(shù)據(jù),這種方法與等百分位等值的結(jié)果最為接近。

        4 討論

        4.1 關(guān)于單維IRT 和多維IRT 等值方法的比較

        對(duì)單維和多維IRT 等值方法進(jìn)行比較,首先,這兩類方法得到的等值趨勢(shì)是一致的。這是因?yàn)閮深惙椒▽?duì)題目參數(shù)估計(jì)結(jié)果具有較高的相似性,而得到題目參數(shù)之后,單維和多維IRT 等值的過程也是類似的。

        其次,對(duì)于真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值方法,單維和多維IRT 等值方法之間的差異較大。這主要是由于兩類方法的前提假設(shè)和模型定義不同,盡管在題目參數(shù)估計(jì)中,單維的方法和近似多維方法結(jié)果的相關(guān)很高,但參數(shù)估計(jì)的大小存在差異,這就可能導(dǎo)致兩類等值方法的差異。將兩類等值方法與等百分位等值的結(jié)果做比較,發(fā)現(xiàn)在隨機(jī)等組設(shè)計(jì)下,多維IRT 等值的結(jié)果與等百分位等值的結(jié)果更加接近。這是由于根據(jù)維度分析的結(jié)果,該英語測(cè)驗(yàn)存在著弱至中等強(qiáng)度的多維結(jié)構(gòu),違背了傳統(tǒng)IRT 的單維性假設(shè)。而多維IRT 等值是建立在多維性的假設(shè)下,所以這類等值方法所包含的系統(tǒng)誤差較小,其結(jié)果也與等百分位等值更為相似。另外,在所比較的四種等值方法中,多維IRT 觀察分?jǐn)?shù)等值與等百分位等值的結(jié)果最為接近。一方面歸因于這種方法是建立在多維IRT 的結(jié)構(gòu)下;另一方面是由于觀察分?jǐn)?shù)等值的方法與等百分位等值都利用了被試分布的信息,所以,以等百分位等值作為比較標(biāo)準(zhǔn),可以認(rèn)為在四種等值方法中,多維IRT 觀察分?jǐn)?shù)等值的方法所包含的誤差最小,得到的結(jié)果最準(zhǔn)確。

        最后,在整個(gè)分?jǐn)?shù)的量尺上,單維IRT 等值與多維IRT 等值方法的差異并不一致,在一些分?jǐn)?shù)點(diǎn)上單維IRT 和多維IRT 等值方法的差異較小,而在一些分?jǐn)?shù)點(diǎn)上兩種方法的差異較大。產(chǎn)生這種現(xiàn)象的原因可能是,在不同的分?jǐn)?shù)點(diǎn)上,測(cè)驗(yàn)多維性結(jié)構(gòu)對(duì)分?jǐn)?shù)的影響是不同的,即,當(dāng)測(cè)驗(yàn)測(cè)量的結(jié)構(gòu)為多維時(shí),在不同分?jǐn)?shù)點(diǎn)上,考生在兩個(gè)測(cè)驗(yàn)上分?jǐn)?shù)的差異,所代表的意義可能不同。例如,在這兩套英語試卷上,可能對(duì)于低分段的考生,他們分?jǐn)?shù)的差異更大程度上來自于聽力,對(duì)于高分段的考生,他們分?jǐn)?shù)的差異更大程度上來自于閱讀,而中等分?jǐn)?shù)考生的差異同時(shí)來自于這兩個(gè)方面。也就是說,在整個(gè)分?jǐn)?shù)段上,可能一些分?jǐn)?shù)體現(xiàn)了更多的多維性結(jié)構(gòu),而一些分?jǐn)?shù)則顯得更接近單維性結(jié)構(gòu)。因此,在多維性結(jié)構(gòu)較強(qiáng)的分?jǐn)?shù)點(diǎn)上,單維IRT 和多維IRT 等值方法的差異就較大,而在單維性結(jié)構(gòu)較強(qiáng)的分?jǐn)?shù)點(diǎn)上,這兩種方法的結(jié)果就更接近。

        4.2 關(guān)于IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值方法的比較

        IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的原理不同。真分?jǐn)?shù)等值是將兩個(gè)測(cè)驗(yàn)上的真分?jǐn)?shù)進(jìn)行鏈接,而觀察分?jǐn)?shù)等值旨在使用統(tǒng)計(jì)的方法對(duì)觀察分?jǐn)?shù)的分布進(jìn)行調(diào)整,從而使得兩個(gè)測(cè)驗(yàn)上觀察分?jǐn)?shù)的分布盡量相似。對(duì)四種等值方法比較可以看出,真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值的差異較小,而單維和多維等值方法的結(jié)果差異相對(duì)較大。這與Brossman(2010)的研究結(jié)果是相似的。Kolen 和Brennan(1995)曾經(jīng)指出,單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的結(jié)果非常接近,它們最大的區(qū)別可能會(huì)出現(xiàn)在滿分附近,或者是C 參數(shù)估計(jì)之和的分?jǐn)?shù)之下。在劉玥等人(2010)的研究中,也對(duì)單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值進(jìn)行了比較,發(fā)現(xiàn)兩種方法得到的等值結(jié)果基本相等,差別較大的部分出現(xiàn)在被等值測(cè)驗(yàn)的低分?jǐn)?shù)段。

        在研究中,真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值表現(xiàn)出很高的一致性,尤其在中高分?jǐn)?shù)段,兩種方法得到的等值結(jié)果幾乎相同。而在低分段和滿分附近,兩種等值方法表現(xiàn)出了一定的差異。這說明單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的規(guī)律,也能延伸到多維IRT 的體系中。另外,相對(duì)于真分?jǐn)?shù)等值的方法,觀察分?jǐn)?shù)等值的方法與等百分位等值的結(jié)果更加接近,這是因?yàn)榈劝俜治坏戎档倪^程從原理上說就是觀察分?jǐn)?shù)等值。

        4.3 實(shí)際數(shù)據(jù)中進(jìn)行真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值的建議

        在實(shí)際數(shù)據(jù)中,要進(jìn)行IRT 真分?jǐn)?shù)等值和IRT觀察分?jǐn)?shù)等值,首先最好使用多維分析的軟件,對(duì)測(cè)驗(yàn)的多維性及其具體結(jié)構(gòu)進(jìn)行檢驗(yàn)。如果測(cè)驗(yàn)符合單維性結(jié)構(gòu),則可以選用傳統(tǒng)的單維IRT 真分?jǐn)?shù)和觀察分?jǐn)?shù)等值的方法;如果測(cè)驗(yàn)符合多維性結(jié)構(gòu),但是測(cè)驗(yàn)對(duì)維度的先驗(yàn)分類和軟件探索性分析的結(jié)果不一致,則可以考慮通過一些探索性的方法重新劃分維度,再進(jìn)行維度檢驗(yàn);如果測(cè)驗(yàn)符合多維性結(jié)構(gòu),測(cè)驗(yàn)對(duì)維度的先驗(yàn)分類和軟件探索性分析的結(jié)果也一致,則選用多維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的方法能得到較好的結(jié)果。

        4.4 有待進(jìn)一步研究的問題

        由于研究采用了實(shí)際數(shù)據(jù),所得到的等值結(jié)果只適用于該等值情境。因此研究得到的結(jié)論具有一定的局限性。并且研究中各等值方法的比較標(biāo)準(zhǔn)為等百分位等值的結(jié)果,但是這種等值方法本身也包含了等值誤差,也不能準(zhǔn)確地反映兩套測(cè)驗(yàn)之間真實(shí)關(guān)系,因此使用它的結(jié)果作為比較標(biāo)準(zhǔn)是帶有偏差的。

        另外,目前針對(duì)IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的研究大部分是針對(duì)實(shí)際數(shù)據(jù)的,模擬研究還較少,沒有得到廣泛認(rèn)可的等值評(píng)價(jià)標(biāo)準(zhǔn),因此在今后的研究中可以探索如何對(duì)這兩種等值方法的比較進(jìn)行模擬研究。從而使得研究結(jié)論更具有推廣性,為方法的比較和選擇提供參考。

        最后,研究使用的多維IRT 分?jǐn)?shù)等值方法,只能實(shí)現(xiàn)總分的等值,不能進(jìn)行維度分?jǐn)?shù)的轉(zhuǎn)換。今后可以出于實(shí)際應(yīng)用的考慮,對(duì)多維數(shù)據(jù)維度分?jǐn)?shù)等值進(jìn)一步探索。

        5 結(jié)論

        5.1 在研究設(shè)置的等值情境下,四種等值方法和等百分位等值具有相似的趨勢(shì)。

        5.2 當(dāng)測(cè)驗(yàn)存在弱至中等程度的多維結(jié)構(gòu)時(shí),基于多維測(cè)驗(yàn)的IRT 真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值方法優(yōu)于單維IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值方法;多維IRT 觀察分?jǐn)?shù)等值略優(yōu)于多維IRT 真分?jǐn)?shù)等值,但是兩者之間的差異較小。

        5.3 在實(shí)際情況下,最好先對(duì)測(cè)驗(yàn)的維度結(jié)構(gòu)進(jìn)行分析,再根據(jù)分析結(jié)果選擇合適的等值方法。如果測(cè)驗(yàn)確實(shí)存在多維結(jié)構(gòu),最好選用多維IRT 的等值方法以減小系統(tǒng)誤差。

        劉玥,駱方,劉紅云.(2010).IRT 真分?jǐn)?shù)等值和IRT 觀察分?jǐn)?shù)等值的對(duì)比研究.心理科學(xué),33(3),676 -680.

        Brossman,B.G.(2010). Observed score and true score equating procedures for multidimensional item response theory.University of Iowa.

        Dorans,N. J.,Holland,P. W.,Thayer,D. T.,& Tateneni,K.(2003).Invariance of score linking across gender groups for three Advanced Placement Program Examinations. In N. J.Dorans(Ed.),Population invariance of score linking:Theory and applications to Advanced Placement Program examinations(pp.79 -118).Princeton,NJ:Educational Testing Service.

        Han,T.,Kolen,M.,& Pohlmann,J. (1997). A comparison among IRT true-and observed-score equatings and traditional equipercentile equating.Applied Measurement in Education,10(2),105 -121.

        Hanson,B.,& Zeng,L. (1995). PIE:A computer program for IRT equating(Version 1.0).Iowa City,IA:ACT.

        Harris,D.J.,& Crouse,J.D.(1993).A study of criteria used in equating. Applied Measurement in Education,6(3),195 -240.

        Kolen,M.J.,& Brennan,R. L. (2004). Test equating,scaling,and linking:Methods and practices.Springer Verlag.

        Li,Y.H.,& Lissitz,R.W.(2000).An evaluation of the accuracy of multidimensional IRT linking. Applied Psychological Measurement,24(2),115 -138.

        Lord,F(xiàn).M.(1980).Applications of item response theory to practical testing problems. Lawrence Erlbaum Associates New Jersey.

        Lord,F(xiàn). M.,& Wingersky,M. S. (1984). Comparison of IRT True - Score and Equipercentile Observed - Score“Equatings”.Applied Psychological Measurement,8(4),453.

        Min,K.S.(2003).The impact of scale dilation on the quality of the linking of multidimensional item response theory calibrations. Michigan State University,Department of Counseling,Educational Psychology,and Special Education.

        Oshima,T.,Davey,T.,& Lee,K. (2000). Multidimensional linking:Four practical approaches. Journal of Educational Measurement,357 -373.

        Reckase,M.D. (2009). Multidimensional item response theory.Springer Verlag.

        Reckase,M.,& Martineau,J.A.(2004).The vertica lscaling of science achievement tests. Unpublished Report. Michigan State University.

        Simon,M. K. (2008). Comparison of concurrent and separate multidimensional IRT linking of item parameters.University of Minnesota.

        Stout,W.,Habing,B.,& Douglas,J.(1996).Conditional covariance-based nonparametric multidimensionality assessment.Applied Psychological Measurement,20(4),331.

        Yao,L.,Lewis,D.,& Zhang,L.(2008). An introduction to the application of BMIRT:Bayesian multivariate item response theory software. Training Secession Presented at the Annual Meeting of the National Council on Measurement in Educa -tion,Ny.

        Zeng,L.,Kolen,M.,Hanson,B.,Cui,Z.,& Chien,Y.(2004).RAGE-RGEQUATE[Computer software].Iowa City:University of Iowa.

        Zhang,J.,& Stout,W. (1999). The theoretical DETECT index of dimensionality and its application to approximate simple structure.Psychometrika,64(2),213 -249.

        猜你喜歡
        真分?jǐn)?shù)等值結(jié)點(diǎn)
        異步電動(dòng)機(jī)等值負(fù)載研究
        最簡(jiǎn)真分?jǐn)?shù)的個(gè)數(shù)
        Ladyzhenskaya流體力學(xué)方程組的確定模與確定結(jié)點(diǎn)個(gè)數(shù)估計(jì)
        “真分?jǐn)?shù)”新解
        真分?jǐn)?shù)不等式“a+mb+m>ab”
        電網(wǎng)單點(diǎn)等值下等效諧波參數(shù)計(jì)算
        基于戴維南等值模型的靜穩(wěn)極限在線監(jiān)視
        漢語國(guó)俗語義在維吾爾語中的等值再現(xiàn)
        語言與翻譯(2014年1期)2014-07-10 13:06:11
        基于Raspberry PI為結(jié)點(diǎn)的天氣云測(cè)量網(wǎng)絡(luò)實(shí)現(xiàn)
        真分?jǐn)?shù)和假分?jǐn)?shù)
        讀寫算(下)(2013年4期)2013-08-15 00:53:41
        久久九九av久精品日产一区免费| 欧美最猛黑人xxxx黑人表情| 欧美成人免费高清视频| 中文人妻av大区中文不卡| 亚洲中文字幕乱码一二三| 国产人成无码视频在线观看 | 久久久亚洲精品免费视频| 91九色国产老熟女视频| 亚洲欧美色一区二区三区| 大地资源中文第三页| 日韩精品有码在线视频| 国产91色综合久久免费| 97精品超碰一区二区三区| 国产精品精品| 一区二区三区在线日本| 日本在线观看一区二区三| 色欲人妻综合网| 国产女奸网站在线观看| 亚洲精彩av大片在线观看| 欧美乱大交xxxxx潮喷| 久久综合给合久久狠狠狠97色69| 天堂岛国精品在线观看一区二区| 亚洲国产精品区在线观看| 精品国产一二三产品区别在哪| 国产小视频网址| 久久精品国产福利亚洲av| 99久久精品无码一区二区毛片| 99久久精品国产成人综合| 日日噜噜噜夜夜爽爽狠狠视频| 国产精品人伦一区二区三| 大肉大捧一进一出视频| 无码天堂亚洲国产av麻豆| 国产丝袜美腿嫩模视频诱惑| 国产对白国语对白| 久久亚洲国产精品成人av秋霞| 国产精品女同一区二区久| 国产激情视频免费在线观看 | 亚洲精品无码国模| 国产精品一级av一区二区| 亚洲桃色视频在线观看一区| 又爽又黄又无遮挡的激情视频|