亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多維題組反應模型:多維隨機系數(shù)多項Logistic模型的應用拓展*

        2017-02-01 08:59:05劉紅云張丹慧
        心理學報 2017年12期
        關鍵詞:題組計分參數(shù)估計

        魏 丹 劉紅云 張丹慧

        (1北京師范大學中國基礎教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心, 北京 100875) (2北京師范大學心理學院, 北京 100875)

        1 研究背景

        1.1 文獻綜述

        傳統(tǒng)測驗中, 如果項目之間存在關聯(lián), 被試對不同項目的反應會受到項目之間的相互影響, 這違背了標準IRT模型對項目局部獨立性的假設, 從而影響對被試能力的估計。然而, 在各類測驗中, 基于某一刺激材料研發(fā)多個項目的做法被廣泛使用。例如在英語水平測驗中, 一篇閱讀材料往往會包含多個項目, 被試對這些項目的反應會受到相同閱讀材料和背景的影響。這類受到共同刺激影響的項目集合稱為題組(Wang & Wilson, 2005)。

        眾多研究已經(jīng)表明, 隨著各種測驗中題組的出現(xiàn), 傳統(tǒng) IRT模型(滿足項目局部獨立性假設)已經(jīng)不能適應準確估計被試能力的要求。詹沛達、王文中和王立君(2013)指出, 在包含題組的測驗中, 如果忽略項目依賴性而直接運用標準IRT模型, 將會錯誤估計測驗信度和標準誤差(Bradlow, Wainer, &Wang, 1999; Marais & Andrich, 2008; Sireci, Thissen, &Wainer, 1991; Wainer & Wang, 2000; Yen, 1993)、導致等值誤差和收縮誤差(Lee, Kolen, Frisbie, & Ankenmann,2001; Li, Bolt, & Fu, 2006)、導致項目區(qū)分度參數(shù)的估計誤差(Bradlow et al., 1999; Wainer & Wang, 2000;劉玥, 劉紅云, 2012)以及模型對項目的不適用性(misfit) (Marais & Andrich, 2008)、也會導致信息量估計不準確(Ip, 2010; Wainer & Wang, 2000)。

        針對包含題組測驗的分析, 其中一種處理方法是分步計分模型, 即將同一題組內(nèi)的項目看成一個多級計分的“超級項目”, 這種處理方法因為將多個項目看作一個多級計分的項目, 沒有充分利用到每個項目的信息, 存在一定不足。此外, 眾多研究者提出各種題組模型, 如貝葉斯題組反應模型、Rasch題組模型、雙因子模型、多水平題組模型和Copula模型等。其中, 貝葉斯題組反應模型(Bradlow et al., 1999; Wainer & Wang, 2000; Wang, Bradlow,& Wainer, 2002)和Rasch題組模型(Wang & Wilson,2005)通過在標準 IRT模型中加入題組效應參數(shù),形成相應的題型反應模型, 通過題組的方差來反應題組效應的大小; 雙因子模型(Gibbons & Hedeker,1992; Gibbons et al., 2007)源于對連續(xù)項目反應的驗證性因子分析, 模型中分為包含所有項目的主要維度(即被試能力)和僅包含部分項目子集的次要維度(即題組效應), 雙因子多維 IRT模型(DeMars,2006; Li et al., 2006), 通過次要維度的載荷與主要維度的載荷之比來反映題組效應的大小。多水平題組模型(Jiao, Kamata, Wang, & Jin, 2012)和Copula模型(Braeken, Tuerlinckx, & De Boeck, 2007; Braeken,2011)這些新型模型都是基于IRT模型的拓展應用。

        圖1 單維能力題組模型示意圖

        上述關于題組模型的研究都有一個共同的前提假設——目標能力和題組效應單維, 即整個測驗測量的目標能力參數(shù)唯一, 一個項目最多只存在一個題組效應的干擾, 如圖 1(a)。而實際上, 測驗中可能包含多種不同類型的題組效應, 也可能存在多維需要測量的目標能力。詹沛達、王文中、王立君和李曉敏(2014)的多維題組效應Rasch模型考慮到項目內(nèi)題組效應的多維性, 如圖 1(b), 它將所有題組效應當作是估計能力參數(shù)過程中的干擾因素, 最終得到排除所有題組效應干擾之后的被試能力, 但不適用于目標能力多維的情況。Cai (2010)的Twotier模型考慮了多維目標能力的情況, 假設測驗中不同項目分別測量多個不同的能力, 但模型假設每個項目至多包含一個題組效應, 忽略了項目內(nèi)多維題組效應的存在。另外, 詹沛達、李曉敏、王文中、邊玉芳和王立君(2015)提出多維題組反應認知診斷模型, 在認知診斷框架下對題組測驗進行分析, 可以處理項目內(nèi)多維題組效應, 也可以同時判定被試對多個認知屬性(attribute)的掌握情況。但是認知診斷模型是對被試的認知屬性進行二分或者多分的評定, 不能對被試能力進行連續(xù)的估計。

        多維隨機系數(shù)多項邏輯斯特模型(multidimensional random coefficients multinomial logistic model,MRCMLM; Adams, Wilson, & Wang, 1997)將單維隨機系數(shù)多項邏輯斯特模型(unidimensional random coefficients multinomial logistic model, RCMLM;Adams & Wilson, 1996)進行拓展, 應用于多維IRT領域, 是ConQuest (Wu, Adams, Wilson, & Heldane,2007)進行 IRT模型估計的理論基礎。模型中得分矩陣(score matrix)和設計矩陣(design matrix)分別用來表示能力維度間的線性組合以及項目參數(shù)的分布。通過對得分矩陣和設計矩陣的限定,MRCMLM不僅可以應用于多維IRT領域, 還可以轉化為 Rasch模型、PCM (partial credit model)(Masters, 1982)等, 具有高度適用性。本研究基于MRCMLM做進一步探究。

        1.2 問題提出

        實際中, 既包含多個目標能力, 又包含項目內(nèi)多維題組的測驗真實存在。例如在一套測評學生數(shù)學能力的測驗中, 通常測量學生在圖形與幾何、數(shù)與代數(shù)等方面的能力, 同時測驗中情境式開放題中的多個項目可能受到共同情境的刺激, 情景下不同題型的項目又會受到共同題型的刺激。目前, 可以在two-tier模型的理論框架下分析這類測驗得到連續(xù)的多維被試能力估計。但two-tier模型從因子分析角度分析被試的項目反應, 而在 IRT框架下, 此類測驗的分析問題還有待解決。

        Cai (2010)的文章中明確限定了two-tier模型次要維度(specific dimension)之間不能交叉, 但其應用軟件(如 flexMIRT)進行拓展之后允許在 two-tier模型的框架下分析項目內(nèi)多維題組。Two-tier模型在項目參數(shù)估計中得到評分等級k上的截距參數(shù)和主要維度p (primary dimension)上的斜率參數(shù)

        a

        ,項目難度參數(shù)通過計算

        b

        =-

        c

        /

        a

        得到(Houts & Cai,2016)。如果測驗中存在項目內(nèi)多維能力, 那么相應項目對應多個斜率參數(shù)

        a

        ??梢? Two-tier模型與IRT模型基于不同的理論基礎, 估計結果不在同一量尺上, 對于結果的解釋也存在差異。因此, 有必要在 IRT的框架下探索上述測驗結構的分析方法,從而可以在IRT框架下解釋測驗分析結果。

        在IRT領域, 對于題組反應模型的研究局限于單一目標能力。多維題組效應Rasch模型是對Rasch模型的拓展, 也是 MRCMLM的一個特例, 可以滿足對項目內(nèi)多維題組效應的處理, 但仍然限定模型中只包含單一目標能力。本文對MRCMLM做進一步探究, 得到適用于多維目標能力和多維題組效應的多維題組反應模型, 簡記為MTRM (multidimensional testlets response model)。通過對模型中兩個判定矩陣的限定, 該模型適用于目標能力單維、能力項目間多維、能力項目內(nèi)多維、高階等各種測驗, 可以估計各種能力維度下多維題組效應大小, 具有高度的靈活性和適用性。在MTRM中, 仍然以題組方差來反應題組效應大小。

        本文主要圍繞 MTRM的參數(shù)估計精度和模型適用性展開討論。另外, 為了更全面的了解不同理論框架下的模型差異和適用性, 本文還對比分析MTRM與two-tier模型的估計結果。主要圍繞4個問題進行論述:

        (1) MRCMLM的應用拓展:適用于能力和題組多維同時存在的MTRM及其參數(shù)估計探究。

        (2) MTRM參數(shù)估計精度及其影響因素探究。

        (3) MTRM與two-tier模型的差異和適用性探究。

        (4) MTRM模型必要性和應用價值探究。

        2 多維題組反應模型

        2.1 能力多維性概念

        目標能力的多維性包括項目間多維和項目內(nèi)多維(Adams et al., 1997), 項目間多維指測驗中需要同時測量多個目標能力, 由整個測驗的維度構成,每個項目只屬于一個能力維度; 項目內(nèi)多維測驗同樣需要測量多個目標能力, 它們之間可以有交叉,一個項目可以屬于多個能力維度, 且至少有一個項目屬于兩個或以上的能力維度。處理目標能力多維的傳統(tǒng)IRT模型稱為多維Logit模型。測驗中, 通常包含目標能力和題組效應兩個維度, 將既包含目標能力多維性, 又包含題組效應多維性的模型稱為多維題組反應模型, 結構如圖2。

        圖2 多維題組反應模型示意圖

        圖2(a)是多維題組效應下的項目間多維目標能力, 圖 2(b)是多維題組效應下的項目內(nèi)多維目標能力。本文在MRCMLM的框架下探究解決圖2測驗結構的模型, 提出多維題組反應模型(MTRM)。本文圍繞圖2(a)結構對MTRM進行探究, 由于模型的靈活性和適用性, 本文探究結果同樣適用于結構2(b)。

        2.2 多維題組反應模型

        MRCMLM可描述為:

        模型(2)經(jīng)過上述自定義, 可以轉化為更為簡單的形式, 即本文研究的模型MTRM,

        當目標能力判定矩陣V僅包含一行非零向量時, 所有向量ν中只有一個非零元素 1, 表示測驗只包含單維目標能力, 此時

        t

        的值為 1, 模型(3)就退化為多維題組效應Rasch模型(詹沛達等, 2014)。當題組效應判定矩陣U為零矩陣時, 表示測驗中不包含題組, 模型(3)就成為

        模型(4)是MRCMLM的變形, 本文仍然稱模型(4)為MRCMLM。

        2.3 參數(shù)估計

        本文仍然用ConQuest進行參數(shù)估計。ConQuest參數(shù)估計的原理建立在 MRCMLM 的基礎上,MRCMLM模型可以經(jīng)過設計矩陣和得分矩陣的自定義轉化為與模型 MTRM 有相同的形式, 設計矩陣和得分矩陣定義如下:

        且有

        通過這一系列的參數(shù)設定, 可以使得 MRCMLM轉化為模型(3)的形式, 然后在 ConQuest中實現(xiàn)對MTRM的參數(shù)估計, 參數(shù)估計方法選用MCMC算法。

        3 模擬研究1:多維題組反應模型參數(shù)估計返真性及其影響因素探究

        3.1 模擬研究設計

        本研究模擬1000個被試對60個項目的反應數(shù)據(jù),

        N

        = 1000,

        I

        = 60, 模擬4種不同測驗情境, 其中包括3個2級計分測驗數(shù)據(jù)集和一個4級計分的測驗數(shù)據(jù)集??疾炷芰S度之間的相關對參數(shù)估計精度的影響, 以及2級計分項目和多級計分項目之間參數(shù)估計精度的差異, 并與忽略題組維度的MRCMLM參數(shù)估計結果進行比較。

        3.2 被試反應數(shù)據(jù)模擬

        本文限定題組效應潛變量與能力潛變量之間以及題組效應潛變量相互之間正交, 但能力潛變量之間存在相關。通過R自編程序生成蒙特卡洛模擬研究數(shù)據(jù), 模擬數(shù)據(jù)生成包括以下步驟:

        第一步, 基于潛變量的相關矩陣Corr()

        r

        , 例

        生成潛變量的標準化數(shù)據(jù)(包括能力潛變量和題組效應潛變量), 其中

        r

        表示能力潛變量之間的相關。此時生成的潛變量

        Z

        滿足標準均值為0, 標準差為1, 能力之間相關為

        r

        , 題組效應之間相互正交的多元正態(tài)分布。第二步, 根據(jù)相關矩陣Corr()

        r

        和方差協(xié)方差矩陣之間的關系進行轉化。根據(jù)標準化公式將第一步生成的標準化潛變量

        Z

        轉化為滿足特定方差協(xié)方差分布的潛變量模擬數(shù)據(jù)

        X

        其中,是對應的潛變量分布均值, σ是對應的潛變量分布標準差。本文所有潛變量均值為0, 方差σ見各模擬研究設計部分。第三步, 使用轉化得到的潛變量模擬數(shù)據(jù)

        X

        , 基于多維題組反應模型模擬生成被試的項目反應概率。

        第四步, 最后根據(jù)反應概率生成被試得分數(shù)據(jù),該步驟所用的方法公式在很多模擬研究中可見(如詹沛達等, 2014), 這里不再贅述。

        3.3 評價標準

        本文通過偏差(bias)、均方根誤差(RMSE)以及參數(shù)真值和估計值之間的相關(Corr)對參數(shù)估計的精度進行比較分析。

        其中

        R

        為重復測量次數(shù)。當計算被試個體能力參數(shù)估計精度時,

        N

        為被試人數(shù); 當計算項目參數(shù)和潛變量方差估計精度時

        N

        的值為1。

        3.4 研究結果

        (1)項目難度參數(shù)估計

        將4個模擬數(shù)據(jù)集中項目難度參數(shù)估計結果進行分離, 對題組項目和獨立項目分別進行分析。對二級評分項目計算難度真值和估計值的RMSE, 并對所有項目難度估計的RMSE求均值; 對多級計分項目計算步驟難度真值與估計值的RMSE, 并對所有步驟難度估計的RMSE求均值。

        結果顯示(如圖 3), 當測驗中包含題組, 模型MTRM和 MRCMLM對于測驗中滿足局部獨立性的項目的難度參數(shù)估計精度幾乎相同, MTRM對多級評分步驟難度估計略高于MRCMLM。而對于包含題組的項目, MTRM對項目難度估計RMSE明顯小于MRCMLM。在對題組項目參數(shù)估計中, MTRM不受能力潛變量之間相關系數(shù)的影響, 而MRCMLM會對題組項目參數(shù)估計精度隨著能力潛變量之間相關系數(shù)的減小有所降低??傮w來說, MTRM 和MRCMLM對2級計分項目參數(shù)的估計精度高于多級計分項目。

        (2)潛變量估計

        由于該模擬研究中被試能力3個維度分布相同,因此對被試能力估計結果呈現(xiàn)3個能力維度估計返真性各個指標的均值。被試個體能力值估計結果顯示(見表 1), 能力維度間相關越高, MTRM 和MRCMLM對被試能力參數(shù)估計結果越準確。當模型條件和測驗結構相同時, 多級計分項目下被試能力參數(shù)估計精度明顯高于2級計分項目。對于2級計分項目, 隨著能力維度間相關系數(shù)的增大, 參數(shù)估計的誤差在減小。對于相關系數(shù)為0.6的多級計分項目, 模型參數(shù)估計結果3個能力維度RMSE均值小于 0.4, 說明多級計分的被試反應能夠對被試能力做出更為精確的估計。

        圖3 模擬研究1項目難度估計RMSE均值

        表1 能力參數(shù)估計返真性

        能力方差估計結果顯示(見表 1), MTRM 模型對被試潛變量方差估計精度更高, 受能力維度間相關系數(shù)大小的影響較小, 對多級計分項目下被試能力方差估計結果更為準確。另外結果發(fā)現(xiàn), 大部分能力方差參數(shù)都容易被低估, 方差估計返真性指標Bias容易出現(xiàn)負值。忽略題組效應的存在, 負偏現(xiàn)象更加明顯, 說明忽略題組效應會增大被試能力方差的低估現(xiàn)象。

        圖4 模擬研究1題組效應估計RMSE

        4 模擬研究2:多維隨機效應模型對復雜測驗結構的適用性

        4.1 模擬研究設計

        圖5 模擬研究2測驗結構設計示意圖

        4.2 研究結果

        4.2.1 項目難度參數(shù)估計

        對結構一和結構二中項目步驟難度參數(shù)估計結果進行分析, 其中 two-tier模型通過 flexMIRT(Houts & Cai, 2016)軟件進行估計。由于MTRM和twotier模型理論框架不同, 項目參數(shù)估計值差異較大,因此本文關注兩個模型估計結果對項目難度排序的影響, 計算步驟參數(shù)估計值與真值之間的相關(Corr)。

        圖6 模擬研究2項目參數(shù)估計值與真值之間的相關(Corr)

        本文呈現(xiàn)前10次重復模擬結果(如圖6), 結果表明 MTRM對結構一和結構二中項目步驟難度估計結果穩(wěn)定, 與真值的相關始終在 0.99以上。而two-tier模型步驟參數(shù)估計結果與真值的相關始終小于MTRM, 結構一中的估計結果非常不穩(wěn)定。檢查結構一中第1、3、7次模擬數(shù)據(jù), 發(fā)現(xiàn)存在少量極端項目, 被試反應類別不完整。說明MTRM對項目參數(shù)估計不受測驗結構復雜性和被試反應數(shù)據(jù)的影響, 能夠得到穩(wěn)定而且準確的估計結果, 具有廣泛適用性, 而 two-tier模型對項目參數(shù)的估計受被試反應數(shù)據(jù)的影響較大。

        4.2.2 潛變量估計

        被試個體能力估計結果顯示(如表 2), 兩個模型對結構二的被試能力估計結果精度都略低于結構一, 但差異非常小。隨著能力方差的增大, MTRM和two-tier模型對被試個體能力值估計誤差都增大,兩個模型對被試個體能力估計精度的變化模式(pattern)相同, 估計精度相近。說明MTRM對被試個體能力估計受測驗結構影響較小, 能夠廣泛適用于不同測驗結構, 估計精度與two-tier模型相近。

        潛變量方差估計結果顯示(如表 3), MTRM 對所有潛變量方差估計精度較高, 能夠準確反應題組效應大小, 而 two-tier模型對題組效應方差估計精度明顯降低, 結構二中 two-tier對題組效應方差估計RMSE甚至達到0.55。結果顯示, 題組1~6中隨著項目數(shù)量的減小, 兩個模型對題組效應方差估計的精度有所降低。MTRM對結構二的潛變量方差估計RMSE大于結構一, 但是最大RMSE也只有0.3,大部分都小于0.2, 說明MTRM對潛變量方差估計精度高, 能夠適用于不同測驗結構。

        5 應用研究:多維題組反應模型

        5.1 數(shù)據(jù)來源與結構

        表2 模擬研究2被試能力估計結果

        表3 模擬研究2潛變量方差估計結果

        應用研究將本文MTRM模型應用到2012年數(shù)學大規(guī)模測評數(shù)據(jù)的分析中, 考察不同模型結構對測驗分析結果的影響, 論證 MTRM 在實際應用中的意義。測驗共包含114個項目, 所有項目測評學生數(shù)學能力的3個維度:數(shù)與代數(shù)、空間幾何、概率統(tǒng)計。3個維度下項目數(shù)量分別為58、42、14, 每個維度下既包含 2級計分項目, 又包含多級計分項目。測驗中包含存在共同情境的問答題, 這些項目的作答反應受到共同情境的刺激形成捆綁式題組, 共 6個捆綁式題組; 同時測驗中存在建立在生活語境下的實際問題, 這些項目的作答反應共同要求被試首先將實際語境轉化為數(shù)學問題, 形成1個語境嵌入式題組。捆綁式題組和語境嵌入式題組之間有交叉, 形成項目內(nèi)多維題組。測驗中題組維度分布情況見表4。

        表4 應用研究數(shù)據(jù)題組項目分布

        5.2 研究結果

        本研究分別在忽略題組效應(MRCMLM)、考慮捆綁式題組效應(MTRM 1)、考慮捆綁式題組效應和語境嵌入式題組效應(MTRM 2)三種模型結構下進行測驗分析。模型方差(Final Deviance)作為模型擬合指標, 用來進行模型比較和篩選(Wu et al.,2007), 結果表明(見表5), MTRM 2擬合度最好, 模型方差最小, 忽略題組效應或者忽略項目內(nèi)多維題組效應的存在都會增大模型擬合偏差。表5中的誤差是被試在各能力維度的后驗分布中的方差均值,可以用來反應能力估計的誤差方差, 即參數(shù)估計穩(wěn)定性。結果表明忽略題組效應或者忽略項目內(nèi)多維題組效應的存在都會高估各維度被試能力參數(shù)估計穩(wěn)定性和各能力維度的測驗信度。

        6 討論與總結

        題組已經(jīng)被越來越廣泛地應用到各種各樣的測驗中, 在這個“大數(shù)據(jù)”日益流行的時代, 數(shù)據(jù)分析的科學性和準確性也備受關注, 為保證題組測驗數(shù)據(jù)分析結果的可靠性, 對題組的研究具有重要的實踐意義。本文通過對MRCMLM進行應用拓展得到 MTRM, 并在 ConQuest中實現(xiàn)模型參數(shù)估計,簡單易操作, 實用性強。由于模型中能力維度和題組維度的增加, 模型復雜性增大, 容易造成參數(shù)估計效率降低。本文假設題組與能力之間、題組之間相互正交, 使得模型參數(shù)估計相對簡化。結果表明,MTRM 模型對于高維測驗結構的數(shù)據(jù)有較高的參數(shù)估計返真性, 即使測驗中能力維度和題組維度增多, 模型仍然可以得到可靠的被試能力和項目難度參數(shù)估計結果, 適用于各種不同結構的測驗。與two-tier模型比較發(fā)現(xiàn), MTRM與two-tier模型對能力估計結果相近, 但對項目參數(shù)和題組效應方差估計不在同一量尺上。MTRM能夠在 IRT參數(shù)量尺上得到較高精度參數(shù)的估計結果, 對項目參數(shù)估計結果準確性和穩(wěn)定性更高, 對測驗中題組效應大小估計也更準確, 對工具質(zhì)量分析工作意義重大。

        表5 實證研究能力與題組方差估計結果

        研究結果中, 項目評分等級和能力維度之間的相關都是影響模型參數(shù)估計的重要因素。MTRM模型對多級計分項目測驗的被試能力估計精度明顯高于2級計分項目測驗, 因為在測驗長度相等的條件下, 多級計分項目提供了更多的被試反應信息。同時, MTRM模型對多級計分項目測驗的項目難度估計誤差大于2級計分項目, 可能是因為在多級計分項目中, 項目參數(shù)數(shù)量增多, 項目參數(shù)估計復雜性增大, 導致參數(shù)估計精度有所下降。Wang等人(2002)在對廣義貝葉斯題組模型進行探討時, 也將評分等級當成研究中的一個影響因素, 結果表明在單維領域中, 項目評分等級越多, 項目難度與區(qū)分度參數(shù)估計值與真值之間的相關越高。但實際上這一差異很小, 隨著測驗中題組長度的不同, 這一規(guī)律也有所變化, 且該研究中模擬數(shù)據(jù)只包含 30個項目。本研究中, 60個項目參數(shù)估計值與真值之間的相關系數(shù)始終在0.99以上, 不同情況下差異非常小, RMSE結果顯示4級計分項目難度估計誤差明顯大于2級計分。

        當測驗中存在題組時, 忽略題組效應或忽略題組效應多維性的存在將導致被試能力參數(shù)和項目參數(shù)估計的誤差增大, 導致參數(shù)估計的誤差被低估,各個維度的測驗信度和參數(shù)估計穩(wěn)定性被高估, 這與單維能力模型研究結果一致(Bradlow et al., 1999;Marais & Andrich, 2008; Sireci et al., 1991; Wainer& Wang, 2000; Yen, 1993)。大量單維題組模型的研究結果顯示, 題組效應越大, 忽略題組效應對參數(shù)估計的影響越大, 參數(shù)估計精度越低(如, 劉玥, 劉紅云, 2012)。本研究結果表明, 能力維度間高相關使得MRCMLM能夠對題組測驗進行更精確的估計,與 MTRM模型估計差異變小。實證研究分析結果顯示, 大部分題組效應方差在0.5左右, 3個能力維度之間相關達 0.85以上, 說明被試反應數(shù)據(jù)對于MRCMLM是相對理想的。但結果表明 MTRM的模型擬合度更好, 其中考慮到項目內(nèi)多維題組結構的模型擬合度比只考慮項目內(nèi)單維題組更高。說明在多維測驗中, 不應該忽略測驗中可能存在的題組效應, MTRM為測驗分析提供了更廣泛的模型結構選擇, 具有重要的實際應用價值。

        本文結合模擬研究和實證研究, 得到了能力維度間相關系數(shù)、項目評分等級、測驗結構等因素對模型參數(shù)估計返真性的影響, 而當前國內(nèi)對多維領域下題組模型的研究還很有限, 關于這些影響因素對模型參數(shù)估計影響的研究更是寥寥無幾, 因此本文對促進題組反應模型在多維測驗中的應用具有很大的實際意義。同時, 本文仍然存在以下幾點不足:(1)研究雖然分別考慮到了能力維度間相關和項目評分等級對模擬參數(shù)估計的影響, 卻沒有進一步對其交互作用進行考察, 維度間相關系數(shù)與被試能力方差、題組效應大小之間的交互作用也有待進一步探討; (2)隨著題組模型的不斷的發(fā)展, 基于標準IRT模型的DIF檢驗方法和等值技術也不斷擴展到題組模型領域, 同樣, 多維題組模型的發(fā)展也要求拓展應用, 感興趣的研究者可繼續(xù)進行探討。

        Adams, R. J., & Wilson, M. R. (1996). Formulating the Rasch model as a mixed coefficients multinomial logit. In G.Engelhard & M. Wilson (Eds.),

        Objective measurement:Theory into practice

        (Vol. 3, pp, 143–166). Norwood, NJ:Ablex.Adams, R. J., Wilson, M., & Wang, W. C. (1997). The multidimensional random coefficients multinomial logit model.

        Applied Psychological Measurement, 21

        , 1–23.Bradlow, E. T., Wainer, H, & Wang, X. H. (1999). A Bayesian random effects model for testlets.

        Psychometrika, 64

        , 153–168.Braeken, J., Tuerlinckx, F., & De Boeck, P. (2007). Copula functions for residual dependency.

        Psychometrika, 72

        ,393–411.Braeken, J. (2011). A boundary mixture approach to violations of conditional independence.

        Psychometrika, 76

        , 57–76.Cai, L. (2010). A two-tier full-information item factor analysis model with applications.

        Psychometrika, 75

        , 581–612.DeMars, C. E. (2006). Application of the bi-factor multidimensional item response theory model to testlet-based tests.

        Journal of Educational Measurement, 43

        , 145–168.Gibbons, R. D., & Hedeker, D. R. (1992). Full-information item bi-factor analysis.

        Psychometrika, 57

        , 423–436.Gibbons, R. D., Bock, R. D., Hedeker, D., Weiss, D. J.,Segawa, E., Bhaumik, D. K., … Stover, A. (2007). Fullinformation item bifactor analysis of graded response data.

        Applied Psychological Measurement, 31

        , 4–19.

        Houts, C. R., & Cai, L. (2016). FexMIRTuser’s manual version 3.5: Flexible multilevel multidimensional item analysis and test scoring. Chapel Hill, NC: Vector Psychometric Group.

        Ip, E. H. (2010). Empirically indistinguishable multidimensional IRT and locally dependent unidimensional item response models.

        British Journal of Mathematical and Statistical Psychology, 63

        , 395–416.Jiao, H., Kamata, A., Wang, S. D., & Jin, Y. (2012). A multilevel testlet model for dual local dependence.

        Journal of Educational Measurement, 49

        , 82–100.Lee, G., Kolen, M. J., Frisbie, D. A., & Ankenmann, R. D.(2001). Comparison of dichotomous and polytomous item response models in equating scores from tests composed of testlets.

        Applied Psychological Measurement, 25

        , 357–372.Li, Y. M., Bolt, D. M., & Fu, J. B. (2006). A comparison of alternative models for testlets.

        Applied Psychological Measurement, 30

        , 3–21.Liu, Y., & Liu, H. Y. (2012). When should we use testlet model?A comparison study of Bayesian testlet random-effects model and standard 2-PL bayesian model.

        Acta Psychologica Sinica, 44

        , 263–275.[劉玥, 劉紅云. (2012). 貝葉斯題組隨機效應模型的必要性及影響因素.

        心理學報, 44

        , 263–275.]Marais, I., & Andrich, D. (2008). Formalizing dimension and response violations of local independence in the unidimensional Rasch model.

        Journal of Applied Measurement, 9

        , 200–215.Masters, G. N. (1982). A rasch model for partial credit scoring.

        Psychometrika, 47

        , 149–174.Sireci, S. G., Thissen, D., & Wainer, H. (1991). On the reliability of testlet-based tests.

        Journal of Educational Measurement,28

        , 237–247Wainer, H., & Wang, X. H. (2000). Using a new statistical model for testlets to score TOEFL.

        Journal of Educational Measurement, 37

        , 203–220.Wang, W. C., & Wilson, M. (2005). The rasch testlet model.

        Applied Psychological Measurement, 29

        , 126–149.Wang, X. H., Bradlow, E. T., & Wainer, H. (2002). A general Bayesian model for testlets: Theory and applications.

        Applied Psychological Measurement, 26

        , 109–128.

        Wu, M. L., Adams, R. J., Wilson, M., & Heldane, S. A. (2007).ACER ConQuest: Generalized item response modeling software (version 2.0) [computer software]. Melbourne:Australian Council for Educational Research.

        Yen, W. M. (1993). Scaling performance assessments: Strategies for managing local item dependence.

        Journal of Educational Measurement, 30

        , 187–213.Zhan, P. D., Li, X. M., Wang, W. C, Bian, Y. F., & Wang, L. J.(2015). The multidimensional testlet-effect cognitive diagnostic models.

        Acta Psychologica Sinica, 47

        , 689–701.[詹沛達, 李曉敏, 王文中, 邊玉芳, 王立君. (2015). 多維題組效應認知診斷模型.

        心理學報, 47

        , 689–701.]Zhan, P. D., Wang, W. C., & Wang, L. J. (2013). Testlet response theory: An introduction and new developments.

        Advances in Psychological Science, 21

        , 2265–2280.[詹沛達, 王文中, 王立君. (2013). 項目反應理論新進展之題組反應理論.

        心理科學進展, 21

        , 2265–2280.]Zhan, P. D., Wang, W. C., Wang, L. J., & Li, X. M. (2014). The multidimensional testlet-effect rasch model.

        Acta Psychologica Sinica, 46

        , 1208–1222.[詹沛達, 王文中, 王立君, 李曉敏. (2014). 多維題組效應Rasch模型.

        心理學報, 46

        , 1208–1222.]

        猜你喜歡
        題組計分參數(shù)估計
        善用變式題組突破二項展開式問題
        題組助力學習“光現(xiàn)象”
        題組助力學習“聲現(xiàn)象”
        基于新型DFrFT的LFM信號參數(shù)估計算法
        帶定性判斷的計分投票制及其公理刻畫
        邏輯學研究(2021年3期)2021-09-29 06:54:38
        引導素質(zhì)教育的新高考計分模式構想:線性轉化計分模式
        基于單片機的中國式摔跤比賽計分器開發(fā)設計
        電子制作(2019年9期)2019-05-30 09:42:06
        商榷這道商榷題的修改題組
        Logistic回歸模型的幾乎無偏兩參數(shù)估計
        基于向前方程的平穩(wěn)分布參數(shù)估計
        国产亚洲女人久久久久久| 亚洲 自拍 另类小说综合图区| 国产无遮挡a片又黄又爽| 日本特黄a级高清免费大片| 手机在线观看成年人视频| 精品日韩一级免费视频| 黑色丝袜秘书夹住巨龙摩擦| 久久精品片| 青青草一级视频在线观看| 久久人妻一区二区三区免费| 国精品午夜福利视频不卡| 亚洲Va欧美va国产综合| 久久精品国产亚洲av热九九热| 狠色人妻丝袜中文字幕| 国产成人av一区二区三区 | 中文字幕亚洲乱码熟女一区二区 | 少妇又色又爽又刺激的视频| 色欲一区二区三区精品a片| 香蕉久久福利院| 日韩AV无码一区二区三不卡| av男人天堂网在线观看| 亚洲人精品午夜射精日韩| 免费a级毛片无码a| 国产午夜亚洲精品午夜鲁丝片| 色狠狠一区二区三区香蕉蜜桃| 日韩人妻大奶子生活片| 少妇高潮av久久久久久| 后入内射欧美99二区视频| 亚洲蜜芽在线精品一区| 午夜国产精品视频在线观看| 国语对白嫖老妇胖老太| 夜夜爽无码一区二区三区| 我的极品小姨在线观看| 亚洲人成网站色7799| 国产免费一区二区三区在线观看| 一二三四中文字幕日韩乱码| 亚洲国产精品一区二区久久恐怖片| 双腿张开被9个男人调教| 免费高清日本中文| 亚洲av日韩综合一区尤物| 日日天干夜夜狠狠爱|