汪文義 宋麗紅 丁樹良
(1江西師范大學計算機信息工程學院; 2江西師范大學初等教育學院, 南昌 330022)
標準參照測驗(CRT)關(guān)注學生具體知識或技能的掌握情況及達到的水平。CRT有助于發(fā)揮考試的診斷功能和促進學生發(fā)展, 從而對教育評價產(chǎn)生了深刻影響(戴海琦, 2010)。CRT的廣泛應用或需求,很好地體現(xiàn)了其在教育評價中的重要性:教育部基礎(chǔ)教育質(zhì)量監(jiān)測(NAEQ)中心開發(fā)的監(jiān)測工具采用了CRT; 美國的“力爭上游”教改計劃中強調(diào)采用新型標準和評價, 促使學生在大學或工作崗位上取得成功, 在全球范圍內(nèi)具備更好的人才競爭力; 美國前教育部長阿恩·鄧肯(Arne Duncan)曾表示“一旦建立和采用新標準, 就需要創(chuàng)建新測試, 測量學生是否滿足這些標準” (Duncan, 2009)。CRT已經(jīng)廣泛應用于水平和資格考試等, 如國際學生評估項目(PISA)、國際閱讀素養(yǎng)進步研究項目(PIRLS)、國際數(shù)學和科學成就趨勢研究(TIMSS)、美國教育進步評價(NAEP)、美國研究生入學考試(GRE)、美國大學水平考試(CLEP)和NAEQ等(甘良梅, 余嘉元,2006; 辛濤, 李勉, 任曉瓊, 2015)。
CRT一般將被試分為“掌握、未掌握”或“初級、中級、高級”等表現(xiàn)水平, 測量結(jié)果直接決定學習進程、被試選拔和教學質(zhì)量評價等。而測量往往存在測量誤差, 如何根據(jù)標準和綜合各種測驗分數(shù)對被試表現(xiàn)水平給出可靠而有效地評價, 以及如何量化評價分類結(jié)果的一致性和準確性, 成為研究者關(guān)注的重點(Douglas & Mislevy, 2010; 陳平, 李珍, 辛濤,高慧健, 2011)。
分類一致性是指兩次平行測驗中被試觀察分類相同的概率, 主要反映測驗信度; 分類準確性是指被試觀察與真實分類相同的概率, 主要反映測驗效度(Lee, Brennan, & Wan, 2009; 陳平等, 2011)。分類一致性和準確性指標的發(fā)展趨勢為:從平行測驗過渡到單個測驗指標估計; 從經(jīng)典測驗理論(CTT)過渡到項目反應理論(IRT)下指標估計。本文關(guān)注IRT下單個測驗指標估計, 這是該領(lǐng)域的研究熱點之一(Guo, 2006; Lathrop & Cheng, 2013; Lee, 2010;Rudner, 2005; Wyse & Hao, 2012)。指標主要分為兩類:一類是以Lee方法為代表的基于觀察分數(shù)(測驗總分)的決策指標; 另一類是以Rudner方法為代表的基于能力分數(shù)的決策指標(Lathrop & Cheng,2013; Rudner, 2005)。Guo方法作為Rudner方法的改良, 不像Rudner方法需要借助正態(tài)性假設(Guo,2006; Wyse & Hao, 2012), 因此本研究中暫不考慮Rudner方法。
這些研究僅從模擬或?qū)嵶C角度比較Lee和Guo指標表現(xiàn), 本研究嘗試從理論上尋求兩類指標之間的內(nèi)在關(guān)系。相關(guān)研究主要集中于單維IRT (UIRT)下指標估計, 而隨著測量學研究的深入, 眾多研究表明, 許多教育或心理測驗, 如NAEP, PISA, TIMSS,NAEQ和西方五因素人格問卷(如NEO-PI-R), 都是多維測驗(Debeer, Buchholz, Hartig, & Janssen, 2014;Makransky, Mortensen, & Glas, 2013; Rijmen, Jeon,von Davier, & Rabe-Hesketh, 2014; Yao & Boughton,2007; Zhang, 2012)。用于多維測驗分析的多維IRT(MIRT)涌現(xiàn)了許多研究成果, 涉及模型、估計、等值、自適應測驗和應用等方面(Cai, 2010; Reckase,2009; Wang, 2015; 劉紅云, 駱方, 王玥, 張玉,2012; 杜文久, 肖涵敏, 2012; 康春花, 辛濤, 2010;毛秀珍, 辛濤, 2015; 涂冬波, 蔡艷, 戴海琦, 丁樹良,2011; 許志勇, 丁樹良, 鐘君, 2013; 詹沛達, 王文中,王立君, 李曉敏, 2014)。
伴隨著MIRT的發(fā)展, 近年來有研究將Lee方法推廣用于估計多維測驗的分類一致性和準確性,如Grima和Yao (2011)、Yao (2016)將Lee方法從UIRT推廣到MIRT, 并指出使用UIRT分析多維數(shù)據(jù)會導致指標估計有偏; LaFond (2014)將Lee方法應用于雙因子模型和題組模型。這兩項研究均是基于Lee方法計算觀察分數(shù)的分類一致性和準確性。而最近有研究表明, 在兩或三參數(shù)邏輯斯蒂克模型和等級反應模型下, 基于能力分數(shù)的決策指標要優(yōu)于基于觀察分數(shù)的決策指標(Lathrop & Cheng,2013)。因此, 如何計算各內(nèi)容、技能或能力分數(shù)上的分類一致性和準確性, 能否將基于能力分數(shù)的Guo方法推廣到MIRT, UIRT下得出的結(jié)論在MIRT下是否仍成立, Guo與Lee方法在什么條件下等價,Guo或Lee方法是否具有獨特的優(yōu)勢?這些是本文要探討的主要問題。
對學生有重要影響(如影響受教育機會)的決策,教育與心理測量標準要求不能僅基于單個測驗分數(shù)(Henderson-Montero, Julian, & Yen, 2003), 而要求使用多重測量結(jié)果做決策, 以提高測量信度、效度、公平性等(Chester, 2003; McBee, Peters, &Waterman, 2014)。在“中小學教育修正法”和“不讓一個孩子掉隊”法案推動下, 一般采用合成分數(shù)合成多重測量結(jié)果。合成方法常采用聯(lián)合、補償、聯(lián)合?補償混合和驗證規(guī)則, 并應用于英語水平考試、通識教育發(fā)展考試和學業(yè)水平評價等(Abedi, 2004;Carroll & Bailey, 2015; Chester, 2003; Henderson-Montero et al., 2003)。以上關(guān)于決策規(guī)則的研究基本是集中于CTT。雖然MIRT非常適合分析多重測量結(jié)果, 如能反饋學生各方面內(nèi)容、技能和能力的診斷信息(Chang, 2012; 康春花, 辛濤, 2010), 但是至今尚沒有研究在MIRT框架下比較各種決策規(guī)則下的分類一致性和準確性。
基于以上文獻回顧和分析, 提出如下實驗假設:基于能力分數(shù)的Guo指標比基于觀察分數(shù)的Lee指標更為靈活, 可方便計算各能力維度、聯(lián)合和補償?shù)葟碗s規(guī)則下指標; 在計算多重積分方面具有獨特優(yōu)勢的蒙特卡羅方法, 可較好地估計Guo和Lee指標。
其中示性函數(shù)定義如下:
x
的各個得分向量y的聯(lián)合概率之和。根據(jù)X
的條件分布和劃界分數(shù), 可計算能力為θ的被試位于或被分到第h
類的概率:先計算能力的期望總分或真分數(shù):
決策規(guī)則直接影響測驗分類結(jié)果的信度和效度, 決策規(guī)則可分為聯(lián)合、補償及混合型等(Douglas& Mislevy, 2010)。如研究生入學考試要求考生在單科分數(shù)和總分均達到分數(shù)線, 這屬于一種混合型規(guī)則。下面介紹三種多維潛在能力下的決策規(guī)則, 決策區(qū)域示意圖見圖1。
(1)基于各個能力分數(shù)的決策規(guī)則, 第k
維能力上決策區(qū)域為:(2)基于合成能力分數(shù)的決策規(guī)則, 決策區(qū)域為:
(3)基于各個能力和合成分數(shù)的決策規(guī)則, 決策區(qū)域為:
圖1 三種決策規(guī)則對應的決策區(qū)域示意圖(H=3, d=2)
i
分到第h
類的期望概率為:通過模擬研究探討基于Guo方法估計的分類一致性和準確性是否可以準確地評價測驗的模擬分類一致性和準確性。模擬分類一致性, 又稱為重測一致性, 是通過模擬同一批被試在同一份測驗上的獨立作答兩次, 然后計算兩次測驗上估計能力所在相同類的比率; 模擬分類準確性, 是指所有被試中模擬能力與估計能力屬于同一類的比率。
借鑒多維模型下模擬研究的實驗設計(Wang,2015; Yao & Boughton, 2007), 為了評價測驗長度、維度、相關(guān)和樣本量的影響。采用四因素完全隨機設計, 由于單維測驗不能考慮能力間相關(guān), 共28種實驗條件。表1給出了固定樣本量(1000和3000)水平下其他因素的條件組合。
表1 固定樣本量水平下三個因素的實驗條件
模擬研究中使用了R軟件和Matlab R2015a軟件, 其中MGRM的參數(shù)估計算法采用的是MH-RM算法(Cai, 2010)。因為有研究顯示個體方法與分布方法結(jié)果類似(Lee, 2010), 因此本文中Lee方法指標均是基于個體方法計算, 即公式(8)和(13)采用樣本中個體指標的平均, 即使用估計能力代替能力,并對所有被試指標求均值代替加權(quán)積分。因為隨著測驗項目數(shù)和等級數(shù)較多, 可能的項目反應模式數(shù)量非常大, 公式(6)采用蒙特卡羅方法模擬作答反應進行近似計算。采用馬爾柯夫蒙特卡羅方法之Metropolis-Hastings構(gòu)造獨立鏈抽樣并近似計算公式(17)的多重積分。
將被試分為三類, 采用三種決策規(guī)則:(1)基于測驗原始總分的決策規(guī)則, 劃界分數(shù)設置為滿分的50%和80%。當測驗長度為15且所有項目的最高等級分為2時, 測驗滿分為30, 劃界分數(shù)為15和24分; (2)基于各維度能力分數(shù)的決策規(guī)則, 各劃界分數(shù)采用各能力維度下子測驗滿分的50%和80%。如四維模型下測驗長度為30的測驗, 每個能力維度上有10個項目(含測量兩個維度的項目), 劃界分數(shù)為10和16分; (3)基于合成能力分數(shù)的決策規(guī)則。公式(15)和(16)中能力權(quán)重設為維度的倒數(shù), 而劃界分數(shù)設為0和0.75。在前兩種決策規(guī)則下, 可計算Lee和Guo方法指標。而在第三種決策規(guī)則下,由于不能建立能力子空間與總分子區(qū)間的一一對應關(guān)系, 只計算Guo方法指標。
表2 兩維模型下的項目參數(shù)(Cai, 2010)
在總分決策規(guī)則下, 本部分主要給出指標誤差的結(jié)果。指標誤差來源主要有項目參數(shù)估計誤差和蒙特卡羅方法近似計算誤差。這是因為:在真實測驗情景下, 并沒有真實項目參數(shù), 而只能基于參數(shù)估計軟件估計項目參數(shù), 再進行指標計算, 這個過程當中就存在項目參數(shù)的估計誤差; 已知真實或估計的項目參數(shù), 在指標計算過程中, 為避免維數(shù)災難問題或樣本空間特別大問題, 需要采用蒙特卡羅方法計算多重積分或獲得估計能力條件下總分的經(jīng)驗分布, 此時, 蒙特卡羅方法中樣本的抽樣數(shù)量將影響近似計算精度。下面主要考慮真實或估計項目參數(shù)和三種抽樣數(shù)量(1000,3000,9000)對指標誤差的影響。
使用偏差(bias
)、絕對偏差(abs
)和誤差均方根(RMSE
)來反映真值與估計值差異大小。給定模擬項目參數(shù), 由極大似然法估計被試能力, 然后分別計算估計能力、觀測總分與模擬能力所在類相同的比率, 分別得到Guo或Lee方法的模擬分類準確性(Lathrop & Cheng, 2013):由模擬或估計的項目參數(shù)使用極大似然法估計被試能力, 再使用公式(13)和(19)估計分類準確性。
表3給出了在真實或估計項目參數(shù)、三種抽樣數(shù)量條件下兩類分類準確性指標的誤差。結(jié)果顯示:(1)對于分類準確性指標精度, 真實項目參數(shù)下精度好于估計項目參數(shù)下精度; (2)基于Lee方法的分類準確性指標精度已經(jīng)基本上不受抽樣數(shù)量影響, 這是因為總分隨機變量的樣本空間可數(shù)而能力空間不可數(shù); (3)基于Guo方法的分類準確性指標精度隨著抽樣數(shù)量增加而提高。當抽樣數(shù)量從1000增加到3000時,RMSE
減少0.0035或0.001, 而當抽樣數(shù)量增加到9000時, 估計精度增幅非常小; (4)精度并不完全隨抽樣數(shù)量增加而提高, 可能由于取樣隨機性引起?;谝陨辖Y(jié)果, 下面只對估計項目參數(shù)和抽樣數(shù)量為3000的結(jié)果進行分析。表4給出真實項目參數(shù)下分類準確性指標的模擬值、估計項目參數(shù)下的分類準確性指標估計值及其對應的Kappa (兩維模型和四維模型結(jié)果類似,為節(jié)省篇幅, 故兩維模型結(jié)果未列出)。結(jié)果顯示:(1)兩類方法估計的分類準確性指標返真性好, 均可以準確地估計模擬分類準確性; (2)單維、兩維和四維模型下, 分類準確性隨著測驗長度增加而嚴格遞增; (3)單維模型下, 分類準確性并沒有隨樣本量增加而提高, 存在一定的差異, 可能主要由于得分矩陣的隨機性引起。另外, 樣本量1000已經(jīng)基本達到了單維模型下準確估計項目參數(shù)的要求, 并且分類準確性指標對項目參數(shù)估計誤差不是太敏感(見表3); (4)兩維模型和四維模型下, 分類準確性多數(shù)隨樣本量增加而有所提高。直觀上, 維數(shù)越大需要估計的項目參數(shù)數(shù)量更多, 對樣本量有更高要求;(5)兩類方法的分類準確性均隨著能力間相關(guān)增加而嚴格遞增, 并且四維模型與兩維模型的結(jié)果類似;(6)單維模型和兩維模型下, Guo方法下的模擬或估計的分類準確性指標均稍高于Lee方法相應指標(但是兩者相當接近, 與理論結(jié)果相符), 兩種方法得到的估計值對應的Kappa有類似的趨勢。而在四維模型下, 結(jié)果有所不同, 僅在相關(guān)為0.8時, Guo方法下分類準確性指標估計值的Kappa較明顯高于Lee方法的Kappa; (7)相同條件下, 兩類指標值差異相當小。表5給出了分類一致性, 結(jié)果類似于分類準確性, 在此不詳細說明。
表3 模擬研究所有條件下兩類分類準確性指標的三類誤差指標的平均值
單維模型的維數(shù)為1, 能力維度決策規(guī)則與總分決策規(guī)則相同, 對應的指標估計相同, 結(jié)果不重復列出。由于設計的測驗考慮了各能力維度上的項目數(shù)平衡, 各能力維度上的分類準確性十分接近,下面僅考慮第一個能力維度下指標的結(jié)果(其他結(jié)果未列出)。表6僅給出四維模型的真實項目參數(shù)下分類準確性指標的模擬值、估計項目參數(shù)下的分類準確性指標估計值及其對應的Kappa。
表6結(jié)果顯示:(1)兩類方法估計的分類準確性指標返真性好, Guo方法返真性稍好; (2)分類準確性隨著測驗長度增加而提高; (3)分類準確性并不隨著樣本量增加而提高, 可能由于相應子測驗長度較短和得分陣中隨機性導致; (4)分類準確性隨著能力間相關(guān)增加而提高; (5)平均而言, Lee方法比Guo方法的分類準確性高; (6)相同條件下, 各能力維度決策規(guī)則比總分決策規(guī)則所得到的分類準確性要小, 這意味著, 在實際應用中報告各能力維度分數(shù)或內(nèi)容領(lǐng)域分數(shù)時, 需要考慮其分類準確性是否達到指定的精度。該決策規(guī)則下的分類一致性指標與總分決策規(guī)則的分類一致性指標變化趨勢相似, 只是值要小一些, 故結(jié)果省略。
表4 總分決策規(guī)則下分類準確性指標及估計值對應的Kappa (抽樣數(shù)量為3000)
表5 總分決策規(guī)則下分類一致性指標及估計值對應的Kappa (抽樣數(shù)量為3000)
表6 第一個能力維度決策規(guī)則下分類準確性指標及估計值對應的Kappa (抽樣數(shù)量為3000)
表7給出真實項目參數(shù)下分類一致性和準確性指標模擬值、估計項目參數(shù)下分類一致性和準確性指標估計值及其對應的Kappa (兩維模型結(jié)果未列出)。結(jié)果顯示:(1)兩維模型和四維模型下, 推廣的Guo方法能很好地估計合成能力規(guī)則下的分類一致性和準確性; (2)在單維模型下, 由于并沒有其他能力維度參與合成, 其實就只有單個能力參與決策,但是基于能力量尺劃界分數(shù)與總分決策規(guī)則的劃界分數(shù)稍微有所差異。劃界分數(shù)為滿分50%基本上對應能力劃界分數(shù)0, 而若總分服從正態(tài)分布, 可計算劃界分數(shù)為滿分80%對應的Z分數(shù)約為0.84,這與能力劃界分數(shù)0.75稍有差異。劃界分數(shù)對應的能力值也可以通過已知總分量尺上的劃界分數(shù), 由真分數(shù)計算公式迭代估計出對應的能力值(可參見戴海琦, 2010)。因此, 單維模型下的分類一致性和準確性指標與表4和表5中結(jié)果稍有差異。
表7 合成能力決策規(guī)則下分類一致性和準確性指標(抽樣數(shù)量為3000)
CRT一般將被試分成少數(shù)幾個表現(xiàn)水平, 從而可以較短測驗長度獲得較高的測量精度, 特別適合于大尺度教育評估等, 并且CRT有利于提高教學(戴海琦, 2010; Chang, 2012)。許多大尺度評估具有多維性, 為了更好地利用維度間的相關(guān)信息, MIRT成為分析這類測驗的重要選擇。信度和效度是評價測量工具質(zhì)量的重要指標, 因此, 非常有必要開發(fā)分類信度和效度的評價指標。本研究正是在這樣的背景之下, 探討MIRT下CRT的分類一致性和準確性指標。
本研究在MIRT下推廣分類一致性和準確性指標, 采用蒙特卡羅方法計算多重積分值, 實現(xiàn)復雜決策規(guī)則下指標計算, 并從數(shù)學上證明分類準確性兩類估計量在總分決策規(guī)則和均勻先驗下依概率收斂于同一真值。綜合考慮測驗長度、維度、相關(guān)、樣本量和決策規(guī)則等對指標估計的影響, 研究表明,新指標及其估計方法表現(xiàn)不錯, 可以在復雜決策規(guī)則下評價CRT分類信度和效度。如果劃界分數(shù)直接定義在能力分數(shù)量尺之上, 相比Lee方法, Guo方法更適合于各個能力維度、聯(lián)合和補償?shù)葟碗s規(guī)則下指標估計。
分類一致性和準確性的估計方法的實際用處到底是什么、是否有替代方法、這些方法如何應用于真實測驗情景和是否已經(jīng)有應用的例子、以及在什么情景下需要使用新方法?這些問題十分重要,直接決定這類方法或新方法的推廣性。為了清晰地闡明分類一致性和準確性或新方法的用處, 下面對這些問題分別進行說明。
第一, 新方法可用于估計單個測驗的分類一致性和準確性, 無需進行重測、能力模擬和估計。一方面, 盡管測驗的分類一致性可以通過重測得到,但是由于重測條件十分苛刻而要獲得重測數(shù)據(jù)不太可能(Lee, 2010), 因此, 實際應用中較難直接通過重測獲得分類一致性。另一方面, 由于在實際應用中真實能力并不知道, 估計分類準確性的模擬方法需要模擬并估計能力。即先根據(jù)估計能力和項目參數(shù), 模擬作答數(shù)據(jù)再估計能力并比較兩者分類相同的比率, 即模擬的分類準確性。由于估計能力并非被試的真實能力, 該模擬方法仍有不足之處。以上兩方面的考慮, 正是眾多研究者提出了其他方法估計單個測驗的分類一致性和準確性的初衷。
第二, 條件標準誤指標并不能直接反映測驗的分類準確性。盡管CRT分類誤差還可通過其他指標來衡量, 如條件標準誤等指標(戴海琦, 2010)。由于條件標準誤只能反映能力估計與“真值”之間的一種差異, 并不能直接以“百分比”的形式反映測驗上所有被試的分類準確率。不過, 在UIRT和誤差分布為正態(tài)分布條件下, 有研究者發(fā)現(xiàn)能力估計的標準誤與分類準確性指標存在著一種較為復雜的非線性轉(zhuǎn)換關(guān)系(Cheng, Liu, & Behrens, 2015)。理論上這種關(guān)系應該可以推廣到MIRT, 但仍需要進行相關(guān)研究。
第三, 新方法或指標并不僅僅能用于模擬研究,更為重要是可以應用于實證研究。首先, 在真實測驗情景下, 由于被試真實能力未知, 無法得到分類準確性真值, 本文開展的模擬研究只是為了驗證新指標的表現(xiàn)。一般來講, 模擬研究的邏輯是, 如果模擬條件下結(jié)果不好, 那么在錯綜復雜的真實情況下結(jié)果一般更加差, 即模擬研究至少可以起到淘汰作用。結(jié)合本文來說, 如果在相當理想的模擬條件下, 新指標不能很好地估計真實的分類一致性和準確性, 那么在更加復雜的實際情況中, 新指標就不可用。其次, 從文中敘述的方法和條件來看, 新方法或指標完全可用于真實測驗情景。本文敘述的復雜決策規(guī)則下MIRT的分類一致性和準確性估計方法, 只要將相關(guān)算法嵌入到相應的MIRT參數(shù)估計程序中, 基于測驗作答數(shù)據(jù)、參數(shù)估計結(jié)果和決策規(guī)則, 就可估計真實測驗的分類一致性和準確性。相關(guān)研究顯示, 有些分類一致性和準確性估計方法已應用于真實測驗, 如在UIRT或其他模型下,Lathrop和Cheng (2014)在其文中的引言中提到(pp.318?319), 前人提出的分類一致性和準確性估計方法, 包括本文中用到的Lee方法, 已用于評價許多實際測驗的分類結(jié)果質(zhì)量, 并且已經(jīng)開發(fā)可供用戶使用的專門商業(yè)或免費軟件。
第四, 新方法或指標可用于復雜決策規(guī)則下多維測驗的領(lǐng)域分數(shù)報告質(zhì)量評價。領(lǐng)域分數(shù)主要反映學生在一組代表某個內(nèi)容和技能的試題(領(lǐng)域)上的表現(xiàn), 這比量表分或測驗總分更直接, 更能被大眾理解和接受(辛濤, 謝敏, 2010)?;贗RT的領(lǐng)域分數(shù)更具有優(yōu)勢。根據(jù)題目與潛在維度之間的關(guān)系,多維模型或測驗主要分為兩類:“題目間多維”和“題目內(nèi)多維”, 其中題目間多維測驗的各個題目僅能測量多個潛在維度中一個; 而題目內(nèi)多維測驗允許每個題目考察多個潛在維度(Adams, Wilson, &Wang, 1997)。題目間多維測驗的領(lǐng)域分數(shù)報告研究較多(Yao, 2016; Yao & Boughton, 2007), 而題目內(nèi)多維測驗僅有報告能力領(lǐng)域分數(shù)(Yao, 2010)。在復雜決策規(guī)則下, 新指標可用于評估這兩類測驗的分類準確率和一致性, 從而豐富分數(shù)報告內(nèi)容。
基于Guo方法的新指標可根據(jù)不同決策規(guī)則計算分類一致性和準確性, 不需要復雜的計算程序。Guo方法不像Rudner指標(Rudner, 2005; Wyse& Hao, 2012)需要借助正態(tài)性假設(Guo, 2006), 可適合于非正態(tài)性數(shù)據(jù), 同時可避免分數(shù)分布正態(tài)性轉(zhuǎn)換可能帶來分類結(jié)果的不同(Douglas & Mislevy,2010)。但是本研究并沒有模擬非正態(tài)分布能力, 以檢驗Guo指標對于非正態(tài)數(shù)據(jù)的穩(wěn)健性。能力分布為非正態(tài)分布條件下, 指標表現(xiàn)如何?有待研究。
盡管Guo方法并不需要能力誤差具有正態(tài)性假設, 但是需要利用IRT下的似然函數(shù), 因此Guo方法的表現(xiàn)依賴于模型-資料擬合情況。如果模型-資料擬合不好, 對Guo方法的影響如何?是否有更好的替代方法?最近有研究基于非參數(shù)統(tǒng)計中假設更弱的密度估計方法用于估計總分的平滑分布, 并用于估計分類一致性和準確性(Lathrop &Cheng, 2014)。非參數(shù)方法, 能否用于多維情形下各種決策規(guī)則下的分類一致性和準確性估計, 仍有待考慮。
MIRT下, 如何基于Rudner方法(Rudner, 2005;Wyse & Hao, 2012)估計分類一致性和準確性?值得研究。Rudner指標需要借助能力估計的誤差矩陣或信息矩陣來計算, 能力的信息矩陣的不同估計方法也將影響指標的結(jié)果。信息矩陣哪一種估計方法更有利于估計分類一致性和準確性, 仍值得研究。如果在測驗長度較長時, 極大似然法估計的能力誤差漸近服從多元正態(tài)分布。而多元正態(tài)分布隨機向量落在任意區(qū)域的概率的計算相對容易, 或可為分類一致性和準確性的計算帶來一定的方便。
本研究采用了內(nèi)容平衡技術(shù)生成多維測驗, 因此采用了相同權(quán)重得到合成分數(shù), 并計算其分類一致性和準確性。若以合成能力分數(shù)信息量最大的方式求取權(quán)重(Yao, 2010), 這樣合成能力分數(shù)的分類一致性和準確性如何值得探討。基于各內(nèi)容領(lǐng)域的觀察分數(shù)的如何合成, 及其分類一致性和準確性評價也值得考慮。在特定應用領(lǐng)域, 使用哪種決策規(guī)則, 需要綜合考慮決策目的、信度、效度、公平性和風險等因素。另外, 有待開展新指標在真實的CRT或計算機分類測驗中的應用。
本研究探討了MGRM下的分類一致性和準確性指標, 并采用蒙特卡羅方法模擬樣本進行指標估計。研究表明:
(1)基于Guo方法(Guo, 2006; Wyse & Hao,2012)提出的多維模型下的分類一致性和準確性指標, 可準確地評價多維CRT的分類信度和效度;
(2)相比Lee方法, Guo方法更加靈活, 適用于多種決策規(guī)則指標估計, 不僅可用于觀察總分、各個內(nèi)容或技能分數(shù)指標估計, 還適宜于合成分數(shù)等復雜決策規(guī)則下分類一致性和準確性指標估計;
(3)多維模型下基于能力分數(shù)的Guo方法比基于觀察總分的Lee方法得到的分類一致性略高, 分類準確性在能力間相關(guān)較大時更高。因此, 如果IRT擬合測驗數(shù)據(jù), 更適合基于能力做決策。單維等級反應模型下的基于能力分數(shù)的決策更準確,Lathrop和Cheng (2013)在比較Lee方法和Rudner方法, 也有相同的發(fā)現(xiàn)。
(4)在總分決策規(guī)則和無信息先驗分布下(即先驗分布為均勻分布), 從數(shù)學上證明了兩種方法下分類準確性指標估計量依概率收斂于同一真值。
Abedi, J. (2004). The No Child Left Behind Act and English language learners: Assessment and accountability issues.Educational Researcher, 33
(1), 4–14.Adams, R. J., Wilson, M., & Wang, W. C. (1997). The multidimensional random coefficients multinomial logit model.Applied Psychological Measurement, 21
(1), 1–23.Cai, L. (2010). High-dimensional exploratory item factor analysis by a Metropolis–Hastings Robbins–Monro algorithm.Psychometrika, 75
(1), 33–57.Carroll, P. E., & Bailey, A. L. (2016). Do decision rules matter?A descriptive study of English language proficiency assessment classifications for English-language learners and native English speakers in fifth grade.Language Testing, 33
(1), 23–52.Chang, H. H. (2012). Making computerized adaptive testing diagnostic tools for schools. In R. W. Lissitz & H. Jiao(Eds.),Computers an d their impact on st ate as sessment:Recent history and predictions for the future
(pp. 195–226.).Charlotte, NC: Information Age.Chen, P., Li, Z., Xin, T., & Gao, H. J. (2011). A review of decision consistency indices of criteria-reference test.Psychological Development and Education, 27
(2), 210–215.[陳平, 李珍, 辛濤, 高慧健. (2011). 標準參照測驗決策一致性指標研究的總結(jié)與展望.心理發(fā)展與教育, 27
(2),210–215.]Cheng, Y., Liu, C., & Behrens, J. (2015). Standard error of ability estimates and the classification accuracy and consistency of binary decisions.Psychometrika, 8 0
(3),645–664.Chester, M. D. (2003). Multiple measures and high-stakes decisions: A framework for combining measures.Educational Measurement: Issues and Practice, 22
(2), 32–41.Dai, H. Q. (2010).Psychometrics
. Beijing, China: Higher Education Press.[戴海琦. (2010).心理測量學
. 北京: 高等教育出版社.]Du, W. J., & Xiao, H. M. (2012). Multidimensional grade response model.Acta Psychologica Sinica, 44
(10), 1402–1407.[杜文久, 肖涵敏. (2012). 多維項目反應理論等級反應模型.心理學報, 44
(10), 1402–1407.]Debeer, D., Buchholz, J., Hartig, J., & Janssen, R. (2014).Student, school, and country differences in sustained test-taking effort in the 2009 PISA reading assessment.Journal of Ed ucational and Be havioral Statistics, 39
(6),502–523.Douglas, K. M., & Mislevy, R. J. (2010). Estimating classification accuracy for complex decision rules based on multiple scores.Journal o f E ducational an d B ehavioral Statistics, 35
(3), 280–306.Duncan, A. (2009, June 14). Address by the secretary of education at the 2009 governors education symposium:States will lead the way towards reform. Washington, DC:U.S. Department of Education. Retrieved May 10, 2016,from http://www2.ed.gov/news/speeches/2009/06/06142009.pdf
Gan, L. M., & Yu, J. Y. (2006). The study of criterion referenced test's score system.Psychological Exploration,26
(3), 79–83.[甘良梅, 余嘉元. (2006). 標準參照測驗分數(shù)體系的探討研究.心理學探新, 26
(3), 79–83.]Grima, A., & Yao, L. H. (2011).Classification consistency and accuracy fo r test of mix ed item ty pes: U nidimensional versus multidimensional IRT procedures
. Paper presented at the annual meeting of National Council on Measurement in Education, New Orleans, LA.Guo, F. M. (2006). Expected classification accuracy using the latent distribution.Practical A ssessment, Res earch &Evaluation, 11
(6), 1–6.Henderson-Montero, D., Julian, M. W., & Yen, W. M. (2003).Multiple measures: alternative design and analysis models.Educational Measurement: Is sues a nd Pr actice, 22
(2),7–12.Kang, C. H., & Xin, T. (2010). New development in test theory:Multidimensional item response theory.Advances i n Psychological Science, 18
(3), 530–536[康春花, 辛濤. (2010). 測驗理論的新發(fā)展: 多維項目反應理論.心理科學進展, 18
(3), 530–536.]Kroehne, U., Goldhammer, F., & Partchev, I. (2014).Constrained multidimensional adaptive testing without intermixing items from different dimensions.Psychological Test and Assessment Modeling, 56
(4), 348–367.LaFond, L. J. (2014).Decision co nsistency and ac curacy indices for the bifactor and testlet response theory models
(Unpublished doctorial dissertation). University of Iowa.Lathrop, Q. N., & Cheng, Y. (2013). Two approaches to estimation of classification accuracy rate under item response theory.Applied Ps ychological M easurement,37
(3), 226–241.Lathrop, Q. N., & Cheng, Y. (2014). A nonparametric approach to estimate classification accuracy and consistency.Journal of Educational Measurement, 51
(3), 318–334.Lee, W. C. (2010). Classification consistency and accuracy for complex assessments using item response theory.Journal of Educational Measurement, 47
(1), 1–17.Lee, W. C., Brennan, R. L., & Wan, L. (2009). Classification consistency and accuracy for complex assessments under the compound multinomial model.Applied Psy chological Measurement, 33
(5), 374–390.Liu, H. Y., Luo, F., Wang, Y., & Zhang, Y. (2012). Item parameter estimation for multidimensional measurement:Comparisons of SEM and MIRT based methods.Acta Psychologica Sinica, 44
(1), 121–132.[劉紅云, 駱方, 王玥, 張玉. (2012). 多維測驗項目參數(shù)的估計: 基于SEM與MIRT方法的比較.心理學報, 44
(11),121–132.]Makransky, G., Mortensen, E. L., & Glas, C. A. W. (2013).Improving personality facet scores with multidimensional computer adaptive testing: An illustration with the Neo Pi-R.Assessment, 20
(1), 3–13.Mao, X. Z., & Xin, T. (2015). Multidimensional computerized adaptive testing: Model, techniques and methods.Advances in Psychological Science, 23
(5), 907–918.[毛秀珍, 辛濤. (2015). 多維計算機化自適應測驗: 模型、技術(shù)和方法.心理科學進展, 23
(5), 907–918.]McBee, M. T., Peters, S. J., & Waterman, C. (2014).Combining scores in multiple-criteria assessment systems:The impact of combination rule.Gifted Ch ild Q uarterly,58
(1), 69–89.Reckase, M. D. (2009).Multidimensional item response theory
.New York: Springer.Rijmen, F., Jeon, M., von Davier, M., & Rabe-Hesketh, S.(2014). A third-order item response theory model for modeling the effects of domains and subdomains in large-scale educational assessment surveys.Journal o f Educational and Behavioral Statistics, 39
(4), 235–256.Rudner, L. M. (2005). Expected classification accuracy.Practical Assessment, Research & Evaluation, 10
(13), 1–4.Tu, D. B., Cai, Y., Dai, H. Q., & Ding, S. L. (2011).Parameters estimation of MIRT model and its application in psychological tests.Acta Ps ychologica Si nica, 43
(11),1329–1340.[涂冬波, 蔡艷, 戴海琦, 丁樹良. (2011). 多維項目反應理論:參數(shù)估計及其在心理測驗中的應用.心理學報, 43
(11),1329–1340.]Wang, C. (2015). On latent trait estimation in multidimensional compensatory item response models.Psychometrika, 80
(2),428–449.Wyse, A. E., & Hao, S. Q. (2012). An evaluation of item response theory classification accuracy and consistency indices.Applied Psychological Measurement, 36
(7), 602–624.Xin, T., Li, M., & Ren, X. Q. (2015).Reporting and using the results of national assessment of education quality
. Beijing,China: Beijing Normal University Publishing Group.[辛濤, 李勉, 任曉瓊. (2015).基礎(chǔ)教育質(zhì)量監(jiān)測報告撰寫與結(jié)果應用
. 北京: 北京師范大學出版集團.]Xin, T., & Xie, M. (2010). Group-level domain score and its estimation methods.Psychological D evelopment and Education, 26
(4), 416–422.[辛濤, 謝敏. (2010). 群體水平領(lǐng)域分數(shù)及其估計方法.心理發(fā)展與教育, 26
(4), 416–422.]Xu, Z. Y., Ding, S. L., & Zhong, J. (2013). The analysis and application of MIRT in mathematics paper in college entrance examination.Psychological Ex ploration, 33
(5),438–443.[許志勇, 丁樹良, 鐘君. (2013). 高考數(shù)學試卷多維項目反應理論的分析及應用.心理學探新, 33
(5), 438– 443.]Xu, W. N., Wang, P. X., Han, P., Yan, T. L., & Zhang, S. Y.(2011). Application of Kappa coefficient to accuracy assessments of drought forecasting model: A case study of guanzhong plain.Journal of Natural Disasters, 20
(6), 81–86.[許文寧, 王鵬新, 韓萍, 嚴泰來, 張樹譽. (2011). Kappa系數(shù)在干旱預測模型精度評價中的應用——以關(guān)中平原的干旱預測為例.自然災害學報, 20
(6), 81–86.]Yao, L. H. (2010). Reporting valid and reliable overall scores and domain scores.Journal of Educational Measurement,47
(3), 339–360.Yao, L. H. (2012). Multidimensional CAT item selection methods for domain scores and composite scores: Theory and applications.Psychometrika, 77
(3), 495–523.Yao, L. H. (2016). The BMIRT toolkit. Retrieved August 8,2016, from http://www.bmirt.com/media/f5abb5352d553d5fffff807cffff d524.pdf
Yao, L. H., & Boughton, K. A. (2007). A multidimensional item response modeling approach for improving subscale proficiency estimation and classification.Applied Psychological Measurement, 31
(2), 83–105.Zhan, P. D., Wang, W. C., Wang, L. J., & Li, X. M. (2014).The multidimensional testlet-effect Rasch model.Acta Psychologica Sinica, 46
(8), 1208–1222.[詹沛達, 王文中, 王立君, 李曉敏. (2014). 多維題組效應Rasch模型.心理學報, 46
(8), 1208–1222.]Zhang, J. M. (2012). Calibration of response data using MIRT models with simple and mixed structures.Applied Psychological Measurement, 36
(5), 375–398.