毛秀珍 辛 濤
(1四川師范大學(xué)教育科學(xué)學(xué)院, 成都 610066) (2北京師范大學(xué)發(fā)展心理研究所, 北京 100875)
多維項目反應(yīng)理論(multidimensional item response theory, MIRT)引入多維能力、多維項目區(qū)分度以及多個步驟難度參數(shù)模擬測驗項目和被試間的相互作用, 采用概率模型來表征具有特定多維能力水平的被試正確答對特定項目的概率(Reckase, 2009)。一方面, MIRT能同時估計被試在測驗每個維度上的能力水平, 實現(xiàn)測驗的認(rèn)知診斷功能(Zhang & Stone, 2008)。于是, MIRT的應(yīng)用順應(yīng)了從 2001年美國法案“No Child Left Behind” (NCLB)到 2011“Race to the top”早期學(xué)習(xí)挑戰(zhàn)經(jīng)費的設(shè)立, 再到我國《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010?2020)年》對教育認(rèn)知診斷功能的要求。另一方面, MIRT比項目反應(yīng)理論(item response theory, IRT)更適用于分析許多新形式的測驗如認(rèn)知診斷測驗、公務(wù)員考試、表現(xiàn)性評估以及寫作測驗的項目和被試特征(van der Linden & Hambleton, 1997)。例如, Yao和Schwarz(2006)運用 MIRT分析五年級學(xué)生寫作測驗的二維結(jié)構(gòu)和項目特征; 涂冬波、蔡艷、戴海琦和丁樹良(2011)運用 MIRT獲得瑞文高級推理測驗的項目參數(shù)和被試的能力水平; 張軍(2011)運用MIRT分析漢語水平考試(HSK)閱讀部分的潛在多維度結(jié)構(gòu); 許志勇、丁樹良和鐘君(2013)應(yīng)用MIRT分析2010年某省市高考數(shù)學(xué)理工試卷考查的五個能力維度, 并獲得各維度之間的相關(guān)系數(shù)和考生的多維能力水平。由此可見, MIRT具有廣闊的應(yīng)用前景,是現(xiàn)代心理測量學(xué)的重點研究方向。
計算機化自適應(yīng)測驗(computerized adaptive testing, CAT)的核心是基于被試在已作答項目上的反應(yīng)估計其能力水平, 然后根據(jù)選題策略從剩余題庫中選擇最適合被試作答的項目施測被試,重復(fù)上述步驟直到測驗結(jié)束。它包括采用的項目反應(yīng)模型、題庫、初始項目的選擇、選題策略、能力估計方法和測驗終止規(guī)則幾個部分。根據(jù)CAT采用的測量模型, 可將其劃分為基于IRT的單維CAT (unidimensional CAT, UCAT); 基于MIRT的多維 CAT (multidimensional CAT, MCAT)以及以認(rèn)知診斷理論為基礎(chǔ)的認(rèn)知診斷 CAT (cognitive diagnostic CAT, CD-CAT)。
MCAT與UCAT相比, 除了能同時分析被試在測驗每個維度上的表現(xiàn)獲得更多診斷信息外,它還具有如下優(yōu)點。第一, Segall (1996)和Luecht(1996)研究表明, 在達到相同甚至更高測量精度時, MCAT需要的項目比UCAT少1/3左右。第二,Frey和Seitz (2011)指出只有MCAT可用于多維測驗, UCAT不能用于這類測驗。第三, MCAT不需要內(nèi)容平衡策略就能自動滿足各個內(nèi)容領(lǐng)域的測量要求(Wang, Chang, & Boughton, 2011)。另外,雖然 MCAT提供的診斷信息不及 CD-CAT豐富,但它與CD-CAT相比具有以下特點。第一, MCAT有成熟的、可適用于二級和多級評分項目的反應(yīng)模型(Reckase, 2009), CD-CAT還將在一定時期內(nèi)受到多級評分項目認(rèn)知診斷模型研究的限制而局限于二級評分項目的研究。第二, MCAT根據(jù)數(shù)據(jù)與模型的擬合度分析測驗維度, 而不需要分析表征項目與屬性間關(guān)系的Q矩陣(這正是認(rèn)知診斷評估的難點之一)。第三, MCAT中每個維度涵蓋的內(nèi)容通常比CD-CAT中屬性包含的內(nèi)容更多。一般地, 測驗考查的屬性越多, CD-CAT的測量準(zhǔn)確性越低。因此, MCAT適用范圍比CD-CAT更廣。
MCAT兼具MIRT和CAT的優(yōu)點, 其在實踐中突顯了測驗的高效、快捷和診斷功能, 必將成為研究者關(guān)注的重點內(nèi)容之一。自Bloxom和Vale(1987)將UCAT推廣到多維以來, MCAT的相關(guān)研究在最近幾年才有了突破性進展。下面分別對MCAT的模型基礎(chǔ)、能力估計方法、選題策略和終止規(guī)則進行介紹和評價, 然后對今后的研究方向提出幾點思考和建議。
測量模型貫穿CAT的始終, 決定分?jǐn)?shù)報告的形式也是影響測評結(jié)果準(zhǔn)確性和有效性的重要因素之一。根據(jù)項目記分方式可將多維項目反應(yīng)模型(multidimensional item response model, MIRM)劃分為二級評分項目反應(yīng)模型和多級評分項目反應(yīng)模型; 按完成任務(wù)時某一能力維度上的不足是否可以被其它優(yōu)勢能力所補償可將MIRM分為補償和非補償模型。Bolt和Lall (2003)指出(1)非補償模型產(chǎn)生的數(shù)據(jù), 補償模型和非補償模型具有相似擬合度; (2)由補償模型產(chǎn)生的數(shù)據(jù), 非補償模型的擬合度不高。于是, 本文僅討論補償MIRM。
針對二級評分項目, 下面主要介紹 logistic MIRM 和正態(tài)肩形 MIRM。另外, 全文中同一字母的含義相同, 且僅在首次出現(xiàn)時給予說明。
假設(shè)測驗考查M個能力維度。向量標(biāo)量和ci分別表示項目i的區(qū)分度、斜率(截距)參數(shù)以及猜測參數(shù), 且T表示轉(zhuǎn)置。那么, 能力為的被試p正確作答項目i的概率用三參數(shù) logistic MIRM(multidimensional extension of three-parameter logistic model, M3PL)表示如下(Reckase, 1985):
此外, MIRT還定義原點到項目反應(yīng)曲面上點的連線中的最大斜率值為多維項目區(qū)分度(multidimensional discrimination, MDISC),用以評價項目的整體區(qū)分度; 原點到項目反應(yīng)曲面上點的連線中具有最大斜率的點之間的距離Bi表示多維項目難度(multidimensional difficulty,MDIFF), 且
正態(tài)肩形 MIRM 的一般形式是(Samejima,1974):
將Rasch模型推廣到多維能力空間沒有l(wèi)ogistic模型的推廣那么容易。因為, 如果 M2PL中的各個分量等于 1, 則于是,除能力參數(shù)等于各個維度能力值之和外, 它和Rasch模型沒有任何區(qū)別。Adams, Wilson和Wang(1997)推廣了Adams和Wilson (1996)提出的廣義Rasch模型, 得到適用于二分和多分項目的多維廣義Rasch模型, 又稱為多維隨機系數(shù)多項logit模型(multidimensional random coefficient multinomial logit model, MRCMLM) (Wang, 2014b)。Kelderman和 Rijkes (1994)還給出另一個非常相似的多分Rasch MIRM。假設(shè)項目i的個反應(yīng)類別分別對應(yīng)的得分為0,1,..,Ki, 被試p在項目i上得k(0,1,...,Ki)分的概率用MRCMLM表示為:
其中,M維列向量表示第i題第k+1個反應(yīng)類別上的計分向量, 它反映影響項目i得k分的能力維度; 列向量稱為第i題在第k+1個反應(yīng)類別的設(shè)計向量; 列向量表示試題參數(shù)向量。的行數(shù)與的行數(shù)相等, 等于所有項目的Ki之和。舉例來說, 若一份測驗包含2個項目考查2個維度。其中, 第一題是二級計分項目, 考查第一個能力維度。第二題有三種反應(yīng)類別, 得1分受到第二個能力維度的影響, 于是得2分受到兩個能力維度的影響, 則因此,對第二個項目第2個反應(yīng)類別而言, 有通過(4)式即可求被試p在第2題得1分的概率。更多參數(shù)設(shè)置的例子請參見許志勇等(2013)。特別地, 對二分項目中k=0時, (4)式分母對應(yīng)的指數(shù)部分等于1。于是,對二級評分項目的多維Rasch模型表示如下:
如果項目各個維度的區(qū)分度不相等, 被試p在項目i上得k(k=0,1,...,Ki)分的概率可用多維兩參數(shù)分部評分模型(multidimensional two parameter partial credit model, M-2PPC)計算(Yao & Schwarz,2006)。M-2PPC的模型表達式為:
上式中δiu(u=0,1,...,Ki)表示得u分的閾值參數(shù), 且。此外, 他們還推導(dǎo)了M-2PPC模型中項目難度、區(qū)分度以及信息量的計算方法, 為該模型的廣泛應(yīng)用奠定了基礎(chǔ)。
當(dāng)完成項目i需要多個步驟, 并且完成第k步需要完成前面k-1步時, 一般用MGRM模擬正確作答概率。令得分大于等于分的概率為于是且那么被試恰好得k分的概率表示為:
Muraki和 Carlson (1993)采用正態(tài)肩形模型得到其中標(biāo)量被定義為被試達到第k個等級的類別參數(shù), 它表示被試答對第k步的“難度參數(shù)”,等級越高, 其值越大, 且和只有從數(shù)據(jù)估計而得。為避免積分運算的復(fù)雜性, 杜文久和肖涵敏(2012)用logistic函數(shù)表示得到 logistic形式的MGRM。他們還以二維 MGRM 為例分析其數(shù)學(xué)函數(shù)圖象和性質(zhì)并推導(dǎo)項目信息函數(shù)的計算。
大部分 MIRM 直接從對應(yīng)項目反應(yīng)模型(item response model, IRM)推廣而得, 具有類似于IRM的特點。例如(5)式所示的二分MRCMLM模型中能力的充分統(tǒng)計量是對被試在每個項目i(i=1,2,...,L,L表示被試作答的所有項目數(shù))上的得分與向量之積求和, 即被試正確作答的項目i(i=1,2,...,L)的向量之和; 項目的參數(shù)的充分統(tǒng)計量是對所有被試在該項目上的得分與向量之積求和, 即正確作答該項目的被試人數(shù)乘以向量(Reckase, 2009)。又如 MGRM中步驟難度參數(shù)遞增, 而MPCM中步驟難度參數(shù)不一定遞增。再如, MGRM 中“難度參數(shù)”bi,k與GRM 中等級難度的意義一致。MIRM, 特別是多分MIRM描述實際數(shù)據(jù)潛在維度結(jié)構(gòu)的程度如何,MIRM 的項目統(tǒng)計特征、測驗特征等都還有待深入研究。此外, 康春花和辛濤(2010)還強調(diào)今后需要開發(fā)更多程序估計高維多級評分項目MIRM的模型參數(shù)。
Bloxom和 Vale (1987)將 Owen (1975)的序列更新程序推廣到 MCAT, 通過一系列正態(tài)逼近獲得能力的點估計。Tam (1992)針對二維正態(tài)肩形模型推導(dǎo)了迭代極大似然能力估計方法, Segall(1996)推導(dǎo)了 M3PL中能力的極大似然估計和貝葉斯估計算法, Yao (2014a)還給出M-2PPC的相應(yīng)算法。具體而言, 記包含已施測的k-1個項目, 項目反應(yīng)記為
一般采用 Newton-Raphson迭代算法求其近似解。令的第h次和h+1次逼近分別記為和為保證算法收斂, 實際采用如下 Newton-Raphson程序:
貝葉斯能力估計方法通常指最大后驗估計(maximum a posterior estimation, MAP)和期望后驗估計(expected a posterior estimation, EAP)。前者求后驗概率密度的最大值, 后者對其求期望。
基于貝葉斯定理, 令的先驗密度服從均值為0μ, 協(xié)方差矩陣為Σ0的多變量正態(tài)分布?;诘倪呺H概率可得的后驗密度為欲求等價于求下述非線性方程組的解。
類似于 MLE方法, 實際上 Newton-Raphson迭代程序用代替(9)式中W的r行s列元素等于
EAP方法通過高斯-埃爾米特求積公式或Monte Carlo積分求能力維度l(l=1,2,…,M)的后驗邊際期望估計值, 即進而獲得
上述方法具有以下特點。首先, MLE在測驗之初對全部正確(錯誤)回答項目的被試不能得到有限估計值, 但其估計偏差小于貝葉斯方法。其次, 貝葉斯方法中后驗分布的返真性極大地受到先驗分布的影響從而使其估計值往往趨于先驗分布的均值, 但它們的估計均方根誤差小于MLE方法。再次, 與MAP方法相比, EAP方法的估計方差更小更穩(wěn)健, 但其計算量更大、計算時間更長。一般地, 隨著測驗項目的增多, MLE、EAP和MAP的估計值越來越接近(Reckase, 2009)。因此, 大部分研究都采用MLE或者MAP方法。另外, van der Linden (1999)還推導(dǎo)估計線性組合能力的MLE方法, Wang (2014b)介紹了基于單維加權(quán)似然估計方法(Warm, 1989)推廣而得的多變量加權(quán)MLE方法。
MCAT的測驗條件通常比較復(fù)雜。它不僅需要考慮各個維度之間的相關(guān), 還需要考慮測驗是項目間多維還是項目內(nèi)多維。所謂項目間多維是指測驗考查多種能力, 但是每個項目只考查一種能力; 項目內(nèi)多維是指測驗至少包含一個同時考查多種能力的項目。除此之外, 測驗長度、每個量表的項目數(shù)、總體分布也都是影響估計準(zhǔn)確性的重要因素。于是, 在不同測驗條件下探討各種能力估計方法的特點、比較它們的表現(xiàn)對 MCAT實踐具有重要意義。
選題策略決定被試作答的測驗項目, 關(guān)系到測驗結(jié)果的準(zhǔn)確性、測驗安全和測驗信、效度, 是MCAT的重要環(huán)節(jié)之一。
MCAT與UCAT在選題方面存在兩點顯著差異。第一, UCAT要求在一個維度上達到最優(yōu)估計,而MCAT要求同時在多個維度上達到最優(yōu)估計。第二, UCAT中單一的測驗維度是測驗考查的目標(biāo), 而MCAT中項目敏感的維度不一定都是研究者關(guān)注的目標(biāo)。換句話說, 研究者可能不同程度地關(guān)注MCAT考查的各個維度。以下用R表示題庫, 其中的項目記為表示作答k-1個項目后的能力估計值,ik表示將施測的第k個項目, 它選自剩余題庫
研究者不僅將 Fisher信息、Kullback-Leibler(KL)信息、shannon熵和互信息推廣到多維能力空間, 而且深入探討了各種方法之間的關(guān)系。
4.1.1.1 基于Fisher信息矩陣的選題方法
MIRT中Fisher信息量不再是一個實數(shù), 而是一個矩陣。例如, 以M3PL為例, 項目i的Fisher信息矩陣等于施測k-1個項目后, 能力區(qū)間估計構(gòu)成一個橢圓(橢球體), 其面積(體積)的方差-協(xié)方差矩陣的行列式成正比, 且于是,為使施測第k個項目后Vk下降最快, Segall (1996,2010)提出選擇使測驗Fisher信息矩陣行列式值最大的方法, 又稱為D-優(yōu)化方法(Mulder & van der Linden, 2009)。具體而言, 該方法依據(jù)下式
選擇項目ik。其中, det表示求行列式的值,和分別表示項目集Sk?1和項目j在處的信息矩陣。當(dāng)考慮能力先驗分布時可得貝葉斯 D-優(yōu)化方法的項目選擇標(biāo)準(zhǔn)劉發(fā)明和丁樹良(2006)還推導(dǎo)了與貝葉斯 D-優(yōu)化規(guī)則等價的項目選擇方法。
另外, Mulder和van der Linden (2009)從能力估計橢圓(橢球體)的最大軸與能力估計誤差的關(guān)系出發(fā)提出最小化能力極大似然估計的漸近抽樣方差的和, 稱為A-優(yōu)化方法。
該方法與Wang, Chang和Boughton (2013)采用的T-規(guī)則選題方法本質(zhì)上是相同的。上述方法的表現(xiàn)均依賴中間能力估計與能力真值的接近程度, 而測驗初期二者往往相差很大。類似于UCAT, MCAT中一種弱化此條件的方法就是KL方法。
4.1.1.2 基于KL信息量的選題方法
KL與Fisher信息一樣具有可加性, 即測驗信息等于項目信息之和。項目i的KL信息表示為
由于真實能力未知, 通常計算全局 KL信息量指標(biāo)(記為KI), 即
其中r通常取值3, 進而KI方法選擇使KI值最大的項目。van der Linden等人還基于KL信息提出以下三種項目選擇方法。
(1)后驗期望KL信息方法(B K)
Veldkamp和van der Linden (2002)提出以能力后驗分布為權(quán)重對項目 KL距離求期望的B K方法, 其項目選擇指標(biāo)為:
研究證明, 該方法與貝葉斯 D-優(yōu)化方法具有相似的測量精度, 但B K方法更適用于具有內(nèi)容約束的測驗(Mulder & van der Linden, 2010)。
(2)能力后驗分布的KL距離方法(P K)
適應(yīng)性測驗中, 每施測一個項目后都會更新能力的后驗分布。然而, 如果施測一個不恰當(dāng)?shù)捻椖繉⑹沟暮篁灻芏茸兓淮?。于? Mulder和van der Linden (2010)建議選擇在兩個連續(xù)后驗分布之間具有最大 KL距離的項目, 記為KP方法。其項目選擇標(biāo)準(zhǔn)為:
(3)互信息(mutual information)方法(IM)
互信息表示隨機變量X,Y的聯(lián)合分布f(x,y)和邊際分布積的KL距離。若X和Y表示連續(xù)變量, 則特別地, 令則IM項目選擇指標(biāo)表示為
Mulder和van der Linden (2010)證明互信息等價于與之間KL信息量的均值, 而P K等價于之間KL信息量的均值。由于KL具有非對稱性, 因此P K和IM本質(zhì)上并不相同。
KB、均定義了兩個概率分布間的KL距離。對應(yīng)反應(yīng)分布間 KL距離以為權(quán)重的期望。KP和IM則從不同角度定義兩個連續(xù)后驗分布的 KL距離。另外, 根據(jù) Mulder和 van der Linden (2010)及Wang (2014a), 可知Wang和Chang (2011)與Wang(2014a)中提到的基于貝葉斯更新的KL信息(KLB)方法實質(zhì)上與IM方法等價。
4.1.1.3 連續(xù)熵方法(continuous entropy method, CEM)
香農(nóng)熵(Shannon entropy)測量隨機變量分布內(nèi)在不確定性程度。當(dāng)隨機變量X服從連續(xù)分布時, 香農(nóng)熵就是連續(xù)熵, 也稱為微分熵。Wang和Chang (2011)指出在作答k-1個項目之后后驗分布的連續(xù)熵為:若選擇第k個項目之前對項目j的反應(yīng)求期望, 便得到如下期望后驗連續(xù)熵:
CEM 方法將選擇Rk中使期望后驗連續(xù)熵最小的項目。
4.1.1.4 基于項目信息量選題方法簡評
總結(jié)相關(guān)研究, 不難發(fā)現(xiàn)上述方法具有如下關(guān)系。第一, KI方法等價于最大化Fisher信息矩陣的跡(即其特征值之和), 盡管它更傾向于選擇所有維度具有高區(qū)分度的項目, 它也選擇各維度區(qū)分度參數(shù)差異較大的項目??傊? KI方法嚴(yán)重依賴MDISC值選擇項目。D-優(yōu)化方法等價于最大化Fisher信息矩陣行列式的值, 傾向于選擇在某一維度具有高區(qū)分度的項目(Wang, Chang, & Boughton,2011)。第二, KL與Fisher信息都很容易從單維推廣到多維。無論能力維度多大,都是一個數(shù)量值, 而基于 Fisher信息矩陣選題需要將信息矩陣約減為一個單維指標(biāo)值。第三, CEM試圖極大地降低的后驗熵, 間接使從下面項目中獲得關(guān)于能力的信息最大化, 而IM則直接使獲得的信息最大化, 二者的不同在于熵的基線不同。第三, 當(dāng)題庫項目各維度的區(qū)分度參數(shù)分布一致時,IM和 D-優(yōu)化方法所選項目的重疊率最大, 其次是KI方法和D-優(yōu)化方法,IM與CEM或與KI方法所選項目的重疊率都更低。最后, 無論題庫項目各維度區(qū)分度參數(shù)分布是否一致,IM方法的測量精度最高, D-優(yōu)化和CEM方法的測量精度次之, KI方法的測量精度最低(Wang & Chang,2011)。
基于項目信息量選題方法的計算量通常很大,而項目選擇標(biāo)準(zhǔn)總離不開項目特征參數(shù)。于是,研究者還根據(jù)項目參數(shù)提出一些簡便的選題方法。例如, Bloxom和Vale (1987), Tam (1992)以難度和能力匹配來選擇項目; Wang等(2011)基于二維能力空間中 KI方法的選題特征提出兩種簡化的KL信息指標(biāo)這兩種方法與 KI方法相比極大地降低了計算復(fù)雜度、縮短了計算時間的同時沒有明顯降低測量精度。對高維測驗,可由代替, 其中i,j=1,2,…,M,且i≠j。但是它們在三維及更高維能力空間的表現(xiàn)還有待進一步研究證實。
當(dāng)測驗考查的各個維度的重要程度不同時,MCAT通常要求在能力線性組合處達到最優(yōu)。van der Linden (1999)以二維能力空間為例, 給出估計復(fù)合能力分?jǐn)?shù)方差的計算方法后提出第k個項目應(yīng)使復(fù)合分?jǐn)?shù)具有最小誤差方差, 即
研究表明, 復(fù)合分?jǐn)?shù)中權(quán)重λ的值對測量精度影響不大。復(fù)合能力值處于極端水平被試的估計誤差比中等水平被試的估計誤差更大, 但如果增加測驗長度可以提高測量精度。
另外, Mulder和van der Linden (2009, 2010)針對測驗考查無關(guān)能力維度和復(fù)合能力分?jǐn)?shù)的情況, 分別給出給出D-優(yōu)化和A-優(yōu)化,和的相應(yīng)變式。他們指出大部分條件下 D-優(yōu)化和A-優(yōu)化的表現(xiàn)類似, A-優(yōu)化指標(biāo)的表現(xiàn)有時候比 D-優(yōu)化更好, 但其計算也更復(fù)雜;K P與IM比方法更適合這類測驗。
上述研究中復(fù)合分?jǐn)?shù)的權(quán)重由研究者或考試機構(gòu)決定。Yao (2012)通過數(shù)理論證得到使復(fù)合能力的測量標(biāo)準(zhǔn)誤最小時權(quán)重的計算方法。在此基礎(chǔ)上, 她提出在最優(yōu)權(quán)重復(fù)合分?jǐn)?shù)處具有最小誤差的選題方法(記為 V2), 即
然后, 比較了 V2與等權(quán)重復(fù)合分?jǐn)?shù)處具有最小誤差方差的選題方法(記為 V1)、B K、D-優(yōu)化方法以及使在已施測項目處具有最小信息量的方向上具有最大信息量的項目選擇方法(記為 Ag)(Reckase, 2009)的選題表現(xiàn)。結(jié)果表明 D-優(yōu)化和Ag方法的表現(xiàn)類似, 均能平衡各個維度的測量精度; V1, V2和B K方法在復(fù)合能力和各個能力維度都達到了較高測量精度, 新方法 V2還提高了題庫利用率。Yao (2012)不僅關(guān)注復(fù)合能力, 而且關(guān)注各個能力維度的測量精度, 體現(xiàn)了MCAT不僅可用于預(yù)測將來表現(xiàn), 還可用于提供診斷信息的雙重目的。
CAT通常要求測驗所考查的各個內(nèi)容域具有恰當(dāng)比例, 項目呈現(xiàn)的順序合理, 正確答案選項的分布平衡、項目的長度適當(dāng), 等等。如果違反這些約束將影響被試作答, 從而降低測量準(zhǔn)確性和有效性。因而, 滿足內(nèi)容約束是MCAT實踐需要考慮的問題之一。
影子測驗方法的核心是選擇第k個項目之前組合一個在處具有最大測驗信息量、包括已施測項目且滿足內(nèi)容約束的完整測驗, 然后將影子測驗中具有最大信息量的項目施測給被試。Veldkamp和van der Linden (2002)在五種測驗條件下運用線性規(guī)劃方法組合影子測驗, 證明影子測驗方法可滿足MCAT多種內(nèi)容約束。
Yao (2013)借鑒最大優(yōu)先指標(biāo)方法(Cheng &Chang, 2009)定義MCAT中項目i的優(yōu)先指標(biāo)為
UCAT中, Belov, Armstrong和Weissman (2008)指出影子測驗方法可以滿足多種內(nèi)容約束, 但它降低了測量精度并導(dǎo)致項目曝光不均衡。最大優(yōu)先指標(biāo)方法則將約束條件轉(zhuǎn)化為目標(biāo)值并結(jié)合已施測項目的信息構(gòu)建選題指標(biāo), 避免了計算的復(fù)雜性和不可解問題。但是它采用序列選題的方式,不但不能保證滿足所有約束條件也不一定能選到最優(yōu)項目, 因而可能會降低測量準(zhǔn)確性(Cheng &Chang, 2009)。對于MCAT, 情況是否如此, 是否還有更好的選題方法都值得進一步研究。
項目曝光率即項目的使用頻率。曝光率越大,項目使用的次數(shù)越多, 則考生之間越可能分享試題信息, 從而影響測驗安全和測量準(zhǔn)確性。反之,當(dāng)大部分項目都曝光過低甚至沒有使用時, 意味著項目沒有得到充分利用, 這將嚴(yán)重影響題庫建設(shè)。因而, 項目曝光均勻性是評價選題方法優(yōu)劣的重要標(biāo)準(zhǔn)之一。
Lee, Ip和Fuh (2008)借鑒UCAT中a-分層方法的思想, 基于 M2PL提出按區(qū)分度向量的函數(shù)的值從小到大的順序?qū)㈩}庫分為F層, 并將測驗分成F個階段, 然后第k個項目選擇對應(yīng)題庫層中項目參數(shù)b與最接近的項目, 以達到控制項目曝光率的目的。結(jié)果表明, 該方法與 a-分層方法在控制項目曝光率方面具有相似特點。另外, 它與 D-優(yōu)化方法相比, 能顯著提高項目曝光均勻性, 但也適當(dāng)降低了測量精度。測驗越長,它們的測量精度相差越小。但該方法僅適用于二維測驗, 能否直接推廣到三維或更高維能力空間還有待研究證實。
另外, Finkelman, Nering和Roussos (2009)首先將Sympson-Hetter方法(SH) (Sympson & Hetter,1985)應(yīng)用到MCAT (記為GSH方法), 然后基于能力點控制項目曝光率的思想在 Stocking-Lewis方法(SL) (Stocking & Lewis, 1998)的基礎(chǔ)上簡化得到GSL方法, 最后比較了GSH、GSL和KB方法的表現(xiàn)。結(jié)果表明:GSL方法與KB的測量精度差不多, 且高于GSH方法; GSL的最大項目曝光率和項目曝光率的標(biāo)準(zhǔn)差都最小, 其項目曝光率比GSH和KB方法更均勻??傮w上, GSH和GSL方法能較好地控制最大項目曝光率, 但仍有大部分項目曝光過低, 而且它們都需要事先模擬決定曝光率控制參數(shù)。此外, GSL方法從基于能力分布網(wǎng)格中能力點的思想控制項目曝光率, 當(dāng)測驗增加到三維及以上時, GSL方法也將變得非常復(fù)雜甚至不可用。
另外, Yao (2014b)在滿足各個內(nèi)容域項目個數(shù)要求的條件下將 Yao (2012)的五種項目選擇方法分別與最大優(yōu)先指標(biāo)方法和S-H方法相結(jié)合選題以控制最大項目曝光率。結(jié)果表明, 結(jié)合 S-H方法選題比結(jié)合最大優(yōu)先指標(biāo)方法選題的測量精度更高, 但是題庫利用率更低, 運行時間更長。
針對二級評分項目, 以提高測量精度為主要目標(biāo)的選題方法具有幾個顯著特點。第一, 研究將UCAT和CD-CAT中各類信息量指標(biāo)推廣到多維能力空間, 并論證它們之間的關(guān)系。從中不難發(fā)現(xiàn) D-優(yōu)化和 A-優(yōu)化方法需要將信息矩陣簡化為一個單一維度指標(biāo), 其它方法均包含積分運算。于是, 隨著能力維度的增加, 基于項目信息量選題的計算量將隨之增大。第二, 基于項目參數(shù)選題在不明顯降低測量精度的同時極大地降低了計算復(fù)雜度, 具有廣泛的應(yīng)用前景。但它們僅適用于二維測驗, 因而有待將它們推廣到更高維能力空間。除此之外, 針對測驗考查無關(guān)維度和復(fù)合分?jǐn)?shù)的情形, 研究者還全面探討了各種項目信息量方法在這些情況下的變式及表現(xiàn)。
另外, 參加CAT的考生一般在不同時間、地點作答不完全相同的項目。因此, 如何使不同被試作答的測驗具有相同結(jié)構(gòu)以保證測驗的信、效度和測驗公平是CAT選題面臨的又一實際問題。而對具有內(nèi)容約束的選題方法, MCAT相關(guān)研究還涉足不深。今后一方面可借鑒UCAT和CD-CAT的相關(guān)方法, 另一方面從MCAT自身特點出發(fā)探索滿足內(nèi)容約束的選題方法。
最后, 針對MCAT中項目曝光控制的研究表明, 按區(qū)分度函數(shù)值分層的選題方法能提高曝光不足項目的使用率, 但不能明顯降低最大項目曝光率; GSH和GSL方法能有效控制最大項目曝光率, 但不能提高曝光不足項目的使用率; 最大優(yōu)先指標(biāo)方法能很好地控制最大項目曝光率, 并提高題庫利用率。值得注意的是, D-優(yōu)化方法和IM方法傾向于選擇某一個維度具有高區(qū)分度的項目,而 KI 傾向于選擇所有維度具有高區(qū)分度的項目,于是, 為保證測量精度并提高題庫利用率, 不妨結(jié)合多種方法選題。一般地, 項目曝光控制不僅要降低過度曝光項目的使用率而且應(yīng)提高曝光過低項目的使用率。因此, MCAT中如何進一步提高項目曝光均勻性仍有待深入研究。
同UCAT一樣, MCAT要么固定測驗長度, 要么固定測量精度作為測驗結(jié)束準(zhǔn)則。目前, 幾乎所有定長MCAT的測驗長度都不小于25, 針對變長 MCAT, Yao (2013)、Wang 等(2013)和 Wang(2014a)從不同角度度量測量精度, 提出以下幾種終止規(guī)則。
在α顯著性水平下能力估計置信橢圓(橢球體)S 的面積(體積)V 等于其中, Γ(?) 表 示Gamma函數(shù)。若限制V的最大值為c或S的最大軸長度為 2q以滿足某一測量精度, 便得到如下D-規(guī)則和 E-規(guī)則。具體而言, D-規(guī)則表示為即滿足j≥1和的最小整數(shù)j時停止測驗。E規(guī)則表示為表示廣義Fisher信息矩陣的最小特征值。
T-規(guī)則規(guī)定當(dāng)能力估計的總方差小于x時結(jié)束測驗, 即值得注意的是, 當(dāng)題庫項目在各個維度的區(qū)分度參數(shù)分布不均衡時, 盡管總方差低于閾值x, 仍可能在某些維度具有較大方差。于是, 為保證每個維度的最大方差小于預(yù)設(shè)值e, T-規(guī)則通常修改為:T-規(guī)則涉及信息矩陣的逆矩陣, 因此無論實踐還是模擬研究都應(yīng)考慮信息矩陣是否為奇異矩陣。
Yao (2013)在滿足內(nèi)容約束和控制最大項目曝光率的條件下比較了變長MCAT中基于測量標(biāo)準(zhǔn)誤(standard error, SE)方法和預(yù)測標(biāo)準(zhǔn)誤減少量(predicted standard error reduction, PSER)終止規(guī)則的表現(xiàn)。結(jié)果發(fā)現(xiàn), PSER方法的測量精度略低于SE方法, 但它的測驗長度更短。Yao (2013)不僅考察了變長 MCAT的終止規(guī)則, 而且在變長MCAT中實現(xiàn)了內(nèi)容約束, 這是研究的亮點, 也是今后深入研究的方向。
和CEM-規(guī)則:
上述方法都能在達到預(yù)定測量精度時結(jié)束測驗, 它們還具有如下關(guān)系。第一, D、T和E規(guī)則從不同角度度量能力估計標(biāo)準(zhǔn)誤, 類似于 UCAT中 SE規(guī)則, 而 K-規(guī)則通過控制候選項目有用信息量的大小來結(jié)束測驗。第二, 對D, E和T規(guī)則,具有極端能力值被試的測驗長度近似是那些中等能力水平被試測驗長度的2倍以上, 而K規(guī)則中測驗長度的差異不明顯。但K規(guī)則受先驗密度的影響, 先驗密度的信息量越大, 測驗越短。于是,將來可考察不同先驗分布對K規(guī)則的影響模式。第三, 當(dāng)能力后驗分布服從多變量正態(tài)分布時,CEM-規(guī)則與D-規(guī)則等價。第四, 終止規(guī)則往往包括統(tǒng)計表達式和臨界值。臨界值與測量精度息息相關(guān), 其值需要根據(jù)期望測量精度、能力維度、題庫特征進行調(diào)整。因此, 今后不僅需要探討臨界值的設(shè)置方法, 而且有待在不同測驗條件(如各維度之間的相關(guān)、項目質(zhì)量優(yōu)劣等等)下深入比較終止規(guī)則的表現(xiàn)。
MIRT、認(rèn)知診斷理論和 CAT是現(xiàn)代心理測量學(xué)發(fā)展的三大主要方向。MIRT是近期的研究熱點, CAT是一種新興的、有前途的測驗形式, 將兩者結(jié)合在一起的MCAT勢必成為CAT研究的一個新方向。本文對MCAT的相關(guān)研究做了比較系統(tǒng)的介紹和評價??v觀其發(fā)展趨勢, 我們認(rèn)為還有待從以下幾個方面研究MCAT。
迄今為止, 大部分MCAT都以M2PL或M3PL為模型基礎(chǔ), 也有極少研究基于其它 MIRM。例如, Wang和Chen (2004)以MRCMLM為基礎(chǔ)的研究表明MCAT在高維測驗、各個維度高相關(guān)、評分水平數(shù)較多的情況下同樣具有較高測驗效率。今后首先應(yīng)更加深入探討各類MIRM的模型特點和數(shù)學(xué)函數(shù)圖象等各種統(tǒng)計特征, 然后以多維Rasch模型和多級評分項目 MIRM 為基礎(chǔ)開展MCAT研究。
隨著能力維度的增加, 基于項目信息量選題的計算都愈加復(fù)雜。因此, 三維甚至更高維度的情況下, 如何在各種信息量指標(biāo)基礎(chǔ)上簡化選題策略將是今后的重點研究內(nèi)容。其次, MCAT中項目曝光控制方法要么能有效控制最大項目曝光率,要么能提高曝光不足項目的使用率。于是, 今后研究一方面可借鑒UCAT和CD-CAT中表現(xiàn)較好的隨機程序法及變式(Barrada Olea, Ponsoda, &Abad, 2008; Wang, Chang, & Huebner, 2011), 另一方面可結(jié)合運用多種項目曝光控制方法以進一步提高項目曝光均勻性。再次, 雖然MCAT可保證各個內(nèi)容域的測量精度, 但如何選題以滿足多種約束條件也是今后的研究問題之一。例如, 考察UCAT和CD-CAT中表現(xiàn)較好的Monte Carlo方法(Belov et al., 2008; Mao & Xin, 2013)在MCAT中的表現(xiàn),將測驗組卷中滿足約束的 0-1線性規(guī)劃(binary programming, BP)和遺傳算法(genetic algorithm,GA) (Finkelman, Kim, Roussos, & Verschoor, 2010)等用到具有多種約束的MCAT選題, 或者探索滿足約束的測驗組卷算法都是有價值的研究問題。最后, 盡管針對 MCAT提出了多種選題方法, 但沒有全面比較各種方法的表現(xiàn)。因此, 在不同測驗條件下比較它們的表現(xiàn)同樣具有重要實踐意義。
隨著多級評分項目復(fù)雜評分算法的出現(xiàn)使得問答題、題組和結(jié)構(gòu)反應(yīng)項目逐漸出現(xiàn)在CAT中(Clauser, Margolis, Clyman, & Ross, 1997), 多級評分項目的應(yīng)用將越來越受到重視。例如, 美國醫(yī)學(xué)院學(xué)會已設(shè)立專項經(jīng)費用于研究醫(yī)大入學(xué)考試的語文推理部分采用題組評分項目的 CAT; 美國國立衛(wèi)生研究院 2003年申請數(shù)百萬美元用于開發(fā)根據(jù)病人的臨床報告進行診斷的CAT系統(tǒng)。然而, 迄今為止未曾見到多級評分項目MCAT的相關(guān)研究。因此, 針對測量精度、項目曝光控制和內(nèi)容約束問題探索多級評分項目MCAT的選題策略無疑是今后研究的趨勢與重點內(nèi)容之一。
MCAT要付諸實踐關(guān)鍵要有由大量質(zhì)量合格、參數(shù)已標(biāo)定的項目構(gòu)成的題庫。隨著時間的推移, 題庫中的一些項目會因為存在缺陷、過時或過度曝光等原因需要用新題去替換或進行增補(陳平, 2011)。于是, 項目增補對MCAT題庫的維護和開發(fā)至關(guān)重要。UCAT和CD-CAT中在線校準(zhǔn)技術(shù)常用于估計新題的項目參數(shù)。因此, 借鑒已有研究探索MCAT中基于被試在項目上的作答反應(yīng)準(zhǔn)確地、聯(lián)合地估計項目參數(shù)將具有不言而喻的意義。
MCAT理論研究不僅需要實踐來檢驗其實踐效能, 其理論研究成果反過來又推動實踐進步。因此, 如何在 MIRT理論指導(dǎo)下編寫測驗項目、分析項目特征完成題庫建構(gòu); 探索多級評分項目在線自動評分算法; 開發(fā) MCAT考試系統(tǒng)都是MCAT實踐的必要前提。
陳平. (2011).認(rèn)知診斷計算機化自適應(yīng)測驗的項目增補——以DINA模型為例(博士學(xué)位論文), 北京師范大學(xué).
杜文久, 肖涵敏. (2012). 多維項目反應(yīng)理論等級反應(yīng)模型.心理學(xué)報, 44, 1402–1407.
劉發(fā)明, 丁樹良. (2006). 多維自適應(yīng)測驗初探.江西師范大學(xué)學(xué)報(自然科學(xué)版), 30, 428–430.
康春花, 辛濤. (2010). 測驗理論的新發(fā)展: 多維項目反應(yīng)理論.心理科學(xué)進展, 18, 530–536.
涂冬波, 蔡艷, 戴海琦, 丁樹良. (2011). 多維項目反應(yīng)理論: 參數(shù)估計及其在心理測驗中的應(yīng)用.心理學(xué)報, 43,1329–1340.
許志勇, 丁樹良, 鐘君. (2013). 高考數(shù)學(xué)試卷多維項目反應(yīng)理論的分析及應(yīng)用.心理學(xué)探新, 33, 438–443.
張軍. (2011). HSK潛在維度的探索性分析——多維項目反應(yīng)理論的應(yīng)用.考試研究, 29, 47–58.
Adams, R. J., & Wilson, M. (1996). A random coefficients multinomial logit: A generalized approach to fitting Rasch models. In G. Engelhard & M. Wilson (Eds.),Objective measurement III: Theory into practice(pp. 142–166).Norwood, NJ: Ablex.
Adams, R. J., Wilson, M., & Wang, W. (1997). The multidimensional random coefficients multinomial logit model.Applied Psychological Measurement, 21, 1–24.
Barrada, J. R., Olea, J., Ponsoda, V., & Abad, F. J. (2008).Incorporating randomness in the Fisher information for improving item-exposure control in CATs.British Journal of Mathematical and Statistical Psychology, 61, 493–513.
Belov, D. I., Armstrong, R. D., & Weissman, A. (2008). A Monte Carlo approach for adaptive testing with content constraints.Applied Psychological Measurement, 32, 431–446.
Bloxom, B. M., & Vale, C. D. (1987).Multididmensional adaptive testing: A procedure for sequential estimation of the posterior centriod and dispersion of theta. Paper presented at the meeting of the Psychometric society, Montreal, Canada.
Bolt, D. M., & Lall, V. F. (2003). Estimation of compensatory and noncompensatory multidimensional item response models using Markov chain Monte Carlo.Applied Psychological Measurement, 27, 395–414.
Cheng, Y., & Chang, H. H. (2009). The maximum priority index method for severely constrained item selection in computerized adaptive testing.British Journal of Mathematical and Statistical Psychology, 62, 369–383.
Clauser, B. E., Margolis, M. J., Clyman, S. G., & Ross, L. P.(1997). Development of automated scoring algorithms for complex performance assessments: A comparison of two approaches.Journal of Educational Measurement, 34,141–161.
Finkelman, M. D., Kim, W., Roussos, L., & Verschoor, A.(2010). A binary programming approach to automated test assembly for cognitive diagnosis models.Applied Psychological Measurement, 34, 310–326.
Finkelman, M., Nering, M. L., & Roussos, L. A. (2009). A conditional exposure control method for multidimensional adaptive testing.Journal of Educational Measurement, 46,84–103.
Frey, A., & Seitz, N. N. (2011). Hypothetical use of multidimensional adaptive testing for the assessment of student achievement on the programme for international student assessment.Educational and Psychological Measurement, 71, 503–522.
Kelderman, H., & Rijkes, C. E. M. (1994). Loglinear multidimensional IRT models for polytomously scored items.Psychometrika, 59, 149–176.
Lee, Y. H., Ip, E. H., & Fuh, C. D. (2008). A strategy for controlling item exposure in multidimensional computerized adaptive testing.Educational and Psychological Measurement,68, 215–232.
Luecht, R. M. (1996). Multidimensional computerized adaptive testing in a certification or licensure context.Applied Psychological Measurement, 20, 389–404.
Mao, X. Z., & Xin, T. (2013). The application of the monte carlo approach to cognitive diagnostic computerized adaptive testing with content constraints.Applied Psychological Measurement, 37, 482–496.
McKinley, R. L., & Reckase, M. D. (1982).The use of the general Rasch model with multidimensional item response data(Research Report ONR 82–1). American College Testing, Iowa City, IA.
Mulder, J., & van der Linden, W. J. (2009). Multidimensional adaptive testing with optimal design criteria for item selection.Psychometrika, 74, 273–296.
Mulder, J., & van der Linden, W. J. (2010). Multidimensional adaptive testing with Kullback-Leibler information item selection. In W. J. van der Linden & C. A. W. Glas (Eds.),Elements of adaptive testing, statistics for social and behaviroal sciences.New-York: Springer Science+Business Media.
Muraki, E., & Carlson, J. E. (1993).Full-information factor analysis for polytomous item responses.Paper presented at the annual meeting of the American Educational Research Association, Atlanta.
Owen, R. J. (1975). A bayesian sequential procedure for quantal response in the context of adaptive mental testing.Journal of the American Statistical Association, 70, 351–356.
Reckase, M. D. (1985). The difficulty of test items that measure more than one ability.Applied Psychological Measurement,9, 401–412.
Reckase, M. D. (2009).Multidimensional item response theory. New York: Springer.
Samejima, F. (1974). Normal ogive model on the continuous response level in the multidimensional latent space.Psychometrika, 39, 111–121.
Segall, D. O. (1996). Multidimensional adaptive testing.Psychometrika, 61, 331–354.
Segall, D. O. (2010). Principles of multidimensional adaptive testing. In W. J. van der Linden & C. A. W. Glas (Eds.),Elements of adaptive testing, statistics for social and behavioral sciences.New York: Springer Science+Business Media.
Stocking, M. L., & Lewis, C. (1998). Controlling item exposure conditional on ability in computerized adaptive testing.Journalof Educational and Behavioral Statistics, 23, 57–75.
Sympson, J. B., & Hetter, R. D. (1985).Controlling item-exposure rates in computerized adaptive testing.In Proceedings of the 27th annual meeting of the Military Testing Association (pp. 973–977). San Diego, CA: Navy Personnel Research and Development Center.
Tam, S. S. (1992).A comparison of methods for adaptive estimation of a multidimensional trait(Unpublished doctoral dissertation). Columbia University, New York.
van der Linden, W. J. (1999). Multidimensional adaptive testing with a minimum error-variance criterion.Journal of Educational and Behavioral Statistics, 24, 398–412.
van der Linden, W. J., & Hambleton, R. K. (1997).Handbook of modern item response theory. New York: Springer-Verlag.
Veldkamp, B. P., & van der Linden, W. J. (2002).Multidimensional adaptive testing with constraints on test content.Psychometrika, 67, 575–588.
Wang, C. (2014a). Multidimensional computerized adaptive testing: Early development and recent advancements. In Y.Cheng & H.-H. Chang (Eds.),Advances in modern international testing: Transition from summative to formative assessment. Charlotte, NC: Information Age.
Wang, C., & Chang, H. H. (2011). Item selection in multidimensional computerized adaptive testing-gaining information from different angles.Psychometrika, 76, 363–384.
Wang, C., Chang, H. H., & Boughton, K. A. (2011).Kullback-Leibler information and its applications in multidimensional adaptive testing.Psychometrika, 76, 13–39.
Wang, C., Chang, H. H., & Boughton, K. A. (2013). Deriving stopping rules for multidimensional computerized adaptive testing.Applied Psychological Measurement, 37, 99–122.
Wang, C., Chang, H. H., & Huebner, A. (2011). Restrictive stochastic item selection methods in cognitive diagnostic computerized adaptive testing.Journal of Educational Measurement, 48, 255–273.
Wang, W. C. (2014b). Multidimensional Rasch models:Theories and applications. In Y. Cheng & H.-H. Chang(Eds.),Advances in modern international testing: Transition from summative to formative assessment. Charlotte, NC:Information Age.
Wang, W. C., & Chen, P. H. (2004). Implementation and measurement efficiency of multidimensional computerized adaptive testing.Applied Psychological Measurement, 28,295–316.
Warm, T. A. (1989). Weighted likelihood estimation of ability in item response theory.Psychometrika, 54, 427–450.
Yao, L. H. (2012). Multidimensional CAT item selection methods for domain scores and composite scores: Theory and applications.Psychometrika, 77, 495–523.
Yao, L. H. (2013). Comparing the performance of five multidimensional CAT selection procedures with different stopping rules.Applied Psychological Measurement, 37, 3–23.
Yao, L. H. (2014a). Multidimensional item response theory for score reporting. In Y. Cheng & H.-H. Chang (Eds.),Advances in modern international testing: Transition from summative to formative assessment.Charlotte, NC:Information Age.
Yao, L. H. (2014b). Multidimensional CAT item selection methods for domain scores and composite scores with item exposure control and content constrains.Journal of Educational Measurement, 51, 18–38.
Yao, L. H., & Schwarz, R. D. (2006). A multidimensional partial credit model with associated item and test statistics:An application to mixed-format tests.Applied Psychological Measurement, 30, 469–492.
Zhang, B., & Stone, C. A. (2008). Evaluating item fit for multidimensional item response models.Educational and Psychological Measurement, 68(2), 181–196.