高旭亮 汪大勛 王 芳 蔡 艷 涂冬波
基于分部評分模型思路的多級評分認知診斷模型開發(fā)*
高旭亮1,2汪大勛1王 芳2蔡 艷1涂冬波1
(1江西師范大學心理學院, 南昌 330022) (2貴州師范大學心理學院, 貴陽 550000)
基于分部評分模型的思路, 本文提出了一般化的分部評分認知診斷模型(General Partial Credit Diagnostic Model, GPCDM), 與國際上已有的基于分部評分模型思路的多級評分模型GDM (von Davier, 2008)和PC-DINA (de la Torre, 2012)相比, GPCDM的Q矩陣定義更加靈活, 項目參數的約束條件更少。Monte Carlo實驗研究表明, GPCDM模型的參數估計精度指標RMSE介于[0.015, 0.043], 表明估計精度尚可; TIMSS (2007)實證數據應用研究表明, 與GDM和PC-DINA模型相比, GPCDM與該數據的擬合度更好, 并且使用GPCDM分析該數據的診斷效果也更優(yōu)??傊? 本研究提供了一種約束條件更少、功能更為強大的多級評分認知診斷模型。
認知診斷; 多級評分認知診斷模型; GDM; PC-DINA
目前, 教育評估和心理計量學的最新發(fā)展越來越強調形成性評估(Formative Assessments), 它可以提供更多的信息來改進學習和教學策略。認知診斷評估(Cognitively Diagnostic Assessments, CDA)旨在測量特定的知識結構和加工技能, 從而為教師和學生提供即時的診斷信息, 以便對課堂教學進行相應的規(guī)劃或修改, 以促進個體的全面發(fā)展(de la Torre & Minchen, 2014; Leighton & Gierl, 2007)。特別地, 美國2001年通過了《不讓一個孩子掉隊法》法案(No Child Left Behind Act of 2001), 法案要求測驗要給學生、家長和老師提供有價值的診斷性報告, 報告要包括關于學生在解決問題時所需的基礎知識和認知處理技能等方面的掌握信息, 從而為學生提供量身定制的教育服務。美國政府2015年再次通過了每個學生成功(Every Student Succeeds Act)教育法案, 新法案繼續(xù)強調測驗要為學生及家長提供診斷性評價、形成性評價。我國在2010年通過的《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010?2020年)》強調要注重因材施教, 減輕學生負擔, 改革教學評價制度, 建立科學的教育質量評價體系等。從國內外的教育政策可見, CDA在未來的教育評估領域將會發(fā)揮更大的作用。
當前, 研究者已經開發(fā)了大量的二級(0-1)評分認知診斷模型(Cognitive Diagnosis Model, CDM), 然而在實際教育和心理評估測驗中存在大量多級評分的數據, 例如, 心理測驗中經常使用李克特型(Likert-type)量表問卷, 在態(tài)度傾向性的問卷中, 使用“完全不同意”, “不同意”, “不確定”, “同意”和“完全同意”等5個選項來表示不同程度的態(tài)度傾向, 每個選項代表不同的得分。不僅如此, 與二級評分的題目相比, 多級評分題目可以提供更多的信息, 它只需要更少的題目就能達到和較多二級題目同樣的測量精度(van der Ark, 2001)。
為了分析多級評分數據, 一個常用的方法是將多級評分數據轉換為二級評分, 然后再使用二級評分的CDM來分析(Templin & Henson, 2006)。然而, 經過轉換之后必然要損失很多有價值的信息, Ma和de la Torre (2016)以及Tu, Zheng, Cai, Gao和Wang (2017)的研究均發(fā)現, 與使用多級評分模型相比, 使用二級評分模型分析多級評分數據會在很大程度上降低測驗的精度。
在CDA領域, 研究者已經開發(fā)了少量的多級評分CDMs (polytomous CDMs)。但是已有的多級評分CDMs主要是屬于累積概率(cumulative probability)模型和連續(xù)比率(continuation ratio)模型。Hansen (2013)借鑒Samejima (1969)等級反應模型(Graded Response Model, GRM)的思想, 提出了多級評分的LCDM模型。涂冬波、蔡艷、戴海琦和丁樹良(2010)基于等級反應模型(GRM)的建模思路提出了多級評分的DINA模型(polytomous DINA, P-DINA)。蔡艷、苗瑩和涂冬波 (2016)在P-DINA模型的基礎上加以改進, 提出了拓廣的P-DINA (Generalized P-DINA, GP-DINA)模型。Ma和de la Torre (2016)在G-DINA模型的基礎上提出了序列加工G-DINA模型(sequential G-DINA), 序列加工G-DINA模型是基于連續(xù)比率(continuation ratio)模型的一個特例。
然而, 目前對于相鄰類別(adjacent category)或者分部評分(partial-credit)類的多級評分CDMs的研究還相對薄弱。已有的分部評分多級CDMs模型僅有von Davier (2008)提出的一般診斷模型(General Diagnostic Model, GDM)和de la Torre (2012)提出的分部評分DINA (Partial CreditDINA, PC-DINA)模型。但這兩個模型具有以下缺陷:
(2) 其次, 對于GDM模型而言, 它假設屬性之間不存在交互效應, 即它只考慮了屬性的主效應。而在實際的數據中, 屬性之間常常存在交互效應, 即被試答對題目的概率不僅受到屬性主效應的影響, 還受到屬性之間交互效應的影響; (3)對于PC-DINA模型來說, 它是基于DINA模型而提出的, DINA模型假設屬性沒有主效應, 僅有所有屬性間的交互效應, 它屬于具有嚴格理論假設的簡單模型, 因此, 它不具一般性認知診斷模型的優(yōu)勢。
表1 兩種不同類型的Q矩陣示例
基于此, 本研究重點關注基于分部評分模型的建模思路, 開發(fā)出新的功能更為強大的多級評分認知診斷模型, 以彌補當前國際上基于分部評分模型思路的多級評分CDMs (如GDM和PC-DINA)的不足。新開發(fā)的模型不僅將屬性定義在得分類別水平(屬性的定義更加精細), 而且它以G-DINA模型作為加工函數, 因此具有一般性認知診斷模型的優(yōu)勢。
基于局部logit (local logit) 函數的定義, 定義了以下一般化的分部評分認知診斷模型(General Partial Credit Diagnostic Model, GPCDM)表達式:
假設題目的滿分是3分, 即有4個得分類別(0, 1, 2, 3), 此時, 可以得到每個得分類別的答對概率, 如下所示:
化解公式3的方程組, 可以得到如下公式:
通過公式4, 進一步可以概括出GPCDM模型的每個得分類別的一般化公式:
如果將Q矩陣定義在題目水平, 即使用Item-Q時, 并且假設屬性沒有主效應, 僅保留屬性間的最高階交互效應, 則公式(1)可以簡化為:
綜上, 已有的分部評分CDMs都將Q矩陣定義在題目水平, 而GPCDM的Q矩陣定義更加靈活, 它可以定義在題目水平和得分類別水平; 當Q矩陣定義在得分類別時, 即Q矩陣的定義更加精細, 有助于提供更多的診斷信息。在實際應用中, 使用者可以根據自身的需求靈活選擇不同類型的Q矩陣。另外, GDM和PC-DINA的理論假設均比較嚴苛, 在應用中具有較大的限制。而GPCDM的約束條件更少, 因而, 理論上GPCDM在實際應用中更加靈活, 更具優(yōu)勢。
本研究的參數估計程序使用R軟件來編寫, 在R軟件中optim函數包含了幾種常用的極值優(yōu)化算法。optim函數在R里的表達式是optim (par, fn, method), par代表項目參數初值, fn代表目標函數, method可選擇的優(yōu)化算法, 因此, 使用optim函數計算極值時只需要輸入par (項目參數初值), 初值可以從均勻分布中隨機生成, fn (目標函數)和選擇的優(yōu)化算法即可。
EM算法每循環(huán)一次, 就驗證是否達到收斂條件, 如果達到收斂條件, 則迭代停止, 否則, 重復E步和M步。最后, 通過EM算法得到項目參數后, 采用期望后驗(Expected a Posteriori, EAP)方法來估計被試參數(屬性掌握模式)。
實驗1旨在檢驗: (1)GPCDM模型的參數估計精度及其性能; (2)當采用Cat-Q矩陣生成數據時, 如果采用Item-Q矩陣分析數據是否會降低參數估計的精度, Item-Q可以從Cat-Q得到, 例如, 表2中的第1題得分類別1和2考察的屬性向量分別是(1, 0, 0, 0, 0)和(0, 1, 0, 0, 0), 而Item-Q中得分類別1和2考察的屬性向量都是(1, 1, 0, 0, 0)。
自變量包括: (1)樣本容量(500, 1000, 2000和4000)。(2)屬性個數(5個和7個); 5屬性和7屬性的Cat-Q見表2和表3, 多級評分題目中每個得分類別最多考察2個屬性, 并且Cat-Q中每個屬性的測量次數都是相同的。另外, 為了提高診斷測驗的效果, 5屬性和7屬性的Cat-Q分別包含了5個和7個二級評分的題目, 且這些測驗包括了一個完整的可達矩陣(R陣)。(3)測驗長度, 5屬性時包括20和40題, 7屬性時包括25和50題, 40題和50題的Cat-Q與20題和25題的Cat-Q是重復關系。為了減少隨機誤差, 每種條件下重復模擬實驗100次。
表2 5屬性的Cat-Q矩陣
表3 7屬性的Cat-Q矩陣
4.1.1 被試參數的模擬
4.1.2 題目參數的模擬
4.1.3 作答數據的模擬
評價標準包括被試參數和項目參數的返真性, 它們的返真性分別用模式判準率(Pattern Match Rate, PMR)和均方根誤差指標(Root Mean Square Error, RMSE)來反映(Ma & de la Torre, 2016)。兩個指標的計算公式如下:
表4和表5分別顯示了各種實驗條件下的測驗PMR指標和RMSE指標。
需要強調的是, 作答數據是基于類別水平Q矩陣(Cat-Q)生成的。因此, 為了評估參數估計的精度, 主要關注Cat-Q的結果。從表4的結果可見, 屬性個數等于5且使用Cat-Q時, 測驗長度在20題時, 不同樣本容量下的PMR值都在0.94以上, 而當測驗長度增加到40題時, 不同樣本容量下的PMR值均在0.99以上。當屬性個數等于7且使用Cat-Q時, 在測驗長度為25題時, 不同樣本容量下的PMR值都在0.86以上, 而在測驗長度為50題時, 不同樣本容量下的PMR值都在0.98以上。
表4 各種實驗條件下被試參數返真性PMR值
表5的結果顯示, 當使用Cat-Q時, 不管屬性個數、測驗長度和樣本容量如何變化, 在所有條件下的測驗RMSE值均在0.05以下。隨著樣本量的增加, RMSE也隨之降低, 例如, 屬性個數等于5和測驗長度等于20時, 在樣本容量為500的條件下, 基于Item-Q和Cat-Q的RMSE值分別是0.103和0.043, 同樣的條件下, 當樣本容量增加到4000時,基于Item-Q和Cat-Q的RMSE值分別降低到0.053和0.015。
表6顯示了在屬性個數為5, 樣本容量為1000, 測驗長度為20題時, Cat-Q和Item-Q條件下每一題的RMSE指標, 由于其他實驗條件下的結果和表6有相似的趨勢, 因此, 限于篇幅的原因, 只提供了一種條件下的結果。
從表6的結果可以發(fā)現, 由于后5題是二級評分的題目, 此時Cat-Q和Item-Q是等價的, 因此Cat-Q和Item-Q的RMSE值基本相當, 而在多級評分的前15題中, 基于Cat-Q得到的RMSE值始終要小于基于Item-Q的RMSE值, 基于Cat-Q的最大RMSE是0.036。另外, 還可以發(fā)現, 二級評分題目的RMSE要略低于多級評分的題目, 這是因為, 二級評分題目考察的屬性個數要少于多級評分題目。這個結果充分表明, EM算法可以提供精確的參數估計精度, 和Item-Q相比, 使用Cat-Q有助于提供更多有價值的診斷信息, 從而提高診斷測驗的精度。
從表4和表5基于Cat-Q的結果可以發(fā)現, 當屬性個數等于5或7時, 基于Cat-Q的PMR在短測驗(20題和25題)時, 分別達到了0.9和0.8以上, 而在長測驗條件下(40和50題)時, 它們的PMR值都在0.95以上, 它們的RMSE值均在0.05以下。這充分說明本研究提出的模型參數估計算法可以提供穩(wěn)健、精確的估計精度。
對比基于不同類別Q矩陣的結果可以發(fā)現, 在同樣的實驗條件下, 與基于Cat-Q結果相比, 基于Item-Q導致更低的PMR值, 和更高的RMSE值。這兩種Q矩陣之間的差異尤其在短測驗(5屬性時20題或7屬性時25題)或被試人數較少(例如500人時)的條件下更加明顯, 例如, 當屬性個數等于7, 測驗長度為20, 被試人數為500人時, 從表4可以看出, 使用Cat-Q時的PMR值大約是0.86, 而當使用Item-Q時的PMR值大約是0.82。而從表5可以發(fā)現, 在同樣的條件下, 使用Cat-Q時的RMSE值大約是0.04, 而使用Item-Q時, 它的RMSE值則大約是0.1。這些結果都表明如果采用Item-Q來分析Cat-Q產生的數據確實會降低項目參數和被試參數的估計精度。這個結論啟發(fā)實際使用者, 在編寫多級評分的診斷題目時, 對于Q矩陣的標定, 應盡量構建基于得分類別的測驗Q矩陣(即Cat-Q), 使用Cat-Q有利于提供更多的診斷信息, 從而提高診斷的精度。
表5 各種實驗條件下的項目參數返真性RMSE值
為了進一步探討和比較GPCDM在實證數據中的效果, 比較了三個基于分部評分模型思路的多級評分認知診斷模型, 即本文新開發(fā)的GPCDM以及國際上GDM和PC-DINA模型, 在國際數學與科學趨勢研究(Trends in International Mathematics and Science Study, TIMSS) 2007四年級數學評估測驗數據中的表現。TIMSS是由國際教育成就評價協(xié)會(International Association for the Evaluation of Educational Achievement)發(fā)起的一個國際大型教育評估項目, 該項目評估的對象是全球4年級和8年級的數學與科學學業(yè)成就。TIMSS從1995年開始第一次測試, 每4年舉行一次。在2015年的TIMSS評估測驗中, 來自世界各地的60多個國家參加了這次測試。
本文分析了TIMSS (2007)數據的一個子集, 其中包括823名學生對11個題目涉及8個屬性的數據。11個題目中, 有3個多級評分題, 8個二級評分題目, 它的Q矩陣見表7。
評價標準包括以下3個方面:
(1) 模型和測驗數據整體擬合度: 通過模型擬合指標: ?2倍對數似然(?2 log-likelihood values, ?2LL), Akaike的信息準則(Akaike’s information criterion, AIC; Akaike, 1974), 和貝葉斯信息準則(Bayesian Information Criterion, BIC; Schwarz, 1978)等來比較3個模型的擬合度。
(2) 兩類特殊被試的診斷屬性邊際概率(Marginal Probability): 兩類特殊的被試是指測驗得0分的被試和得滿分(即14分)的被試, 一般來說, 得0分的被試意味著對所考察的屬性基本沒掌握, 而得滿分的考生應該完全掌握了所考察的屬性, 因此, 理論上, 得0分的被試估計得到的屬性邊際概率應該很低(接近于0), 而得滿分的被試估計得到屬性邊際概率應該很高(接近于1)。屬性邊際概率的計算公式如下:
(3) 認知診斷信度分析: Templin和Bradshaw (2013)提出了一種計算CDM下屬性信度(attribute reliability)的方法, 該方法可以分為以下幾步: (1)首先, 使用選定的CDM估計每個被試的屬性邊際概率; (2)根據第一步估計得到的屬性邊際概率, 構建四格列聯表, 其中的列聯表的四個元素可以通過下列公式計算:
表7 實證數據的Q矩陣
5.3.1 模型擬合結果
表8顯示了3個模型的相對擬合指標, 結果顯示, GDM和PC-DINA這2個模型相比而言, 在3個擬合指標中, GDM模型的擬合更優(yōu)。而這3個模型相比而言, GPCDM在3個擬合指標的值都是最小的, 即與GDM和PC-DINA模型相比, GPCDM是相對擬合更好的模型。
表8 模型相對擬合指標
5.3.2 兩類特殊被試的屬性邊際概率
表9顯示了3個模型估計的兩類特殊被試的屬性邊際概率, 對于得0分被試而言, 3個模型的平均屬性邊際概率從低到高順序依次是: GPCDM、GDM和PC-DINA模型。對比3個模型的估計結果可以發(fā)現, PC-DINA模型估計的屬性邊際概率在8個屬性上都要明顯高于GDM和GPCDM, 其中屬性A1的邊際概率達到了0.548, 平均屬性邊際概率達到了0.375, PC-DINA模型會高估這些得0分被試的屬性邊際概率。GDM模型和GPCDM估計的屬性邊際概率都比較低, 兩者的平均屬性邊際概率分別是0.093和0.001, 但就具體屬性而言, GDM模型在屬性A7的邊際概率達到了0.278, 與GPCDM的結果相比, GDM模型高估了屬性A7的邊際概率。
對于得滿分(14分)的被試而言, 3個模型的平均屬性邊際概率從高到低順序依次是: GPCDM、GDM和PC-DINA模型。PC-DINA模型只有在屬性A2、A3和A7的屬性邊際概率達到了0.9以上, 而在其余屬性的邊際概率都在0.7以下, 平均屬性邊際概率只有0.749; GDM模型和GPCDM的平均屬性邊際概率分別是0.881和0.975, 但與GPCDM相比, GDM模型在屬性A1、A6和A8的邊際概率分別是0.786、0.671和0.671, 都明顯低于GPCDM的0.984、0.998和0.998。
總體來看, 對于得0分和滿分的被試, 擬合最優(yōu)的GPCDM模型估計的結果是最合理的, 其次是GDM模型, 最后是PC-DINA模型。
5.3.3 屬性信度分析
表10顯示了3個模型擬合該實證數據時的屬性信度, 表10的最后一列表示8個屬性的平均信度。對于GDM模型而言, 屬性A8的信度指標只有0.710, 是相對最低的, 而其余7個屬性的信度指標都在0.8以上, 屬性信度指標的最高的是A6屬性, 達到了0.997。對于PC-DINA模型而言, 屬性A5的信度指標是相對最低, 只有0.507, 而屬性A3的信度指標最高, 但也只有0.827。而GPCDM的8個屬性最低信度指標是0.841。
表9 兩類特殊被試的屬性邊際概率
表10 每個模型下的屬性信度
總體而言, PC-DINA模型的8個屬性的信度指標都要明顯低于GDM和GPCDM。而GDM和GPCDM相比而言, GPCDM在屬性A1、A2、A4、A7和A8的信度指標也要高于GDM模型, 即GPCDM在5個屬性的信度要優(yōu)于GDM模型, GPCDM在剩余屬性A3、A6和A7的信度指標和GDM非常接近。從平均屬性信度指標來看, GPCDM的平均屬性信度是最高的, 其次是GDM模型, 最后是PC-DINA, 即GPCDM分析該實證數據的效果更優(yōu)。
本研究開發(fā)了一種更為靈活、功能更為強大, 且更有理論意義和應用價值的廣義多級評分模型, 通過模擬研究驗證了GPCDM的參數估計精度, 最后通過一個實證數據比較了GPCDM和已有基于分部評分思路的多級評分CDMs (GDM和PC-DINA)的應用效果, 研究結論主要有:
(1) Monte Carlo實驗研究發(fā)現, 本研究開發(fā)的GPCDM的屬性模式診斷正確率PMR在5屬性時都在0.9以上, 項目參數的RMSE平均不到0.05, 這表明GPCDM模型具有較高的參數估計精度。
(2) 當使用Item-Q擬合Cat-Q生成的數據時, 題目和被試參數的估計精度都會降低。因此, 建議研究者在構建多級評分認知診斷的測驗Q矩陣時, 應盡量構建基于得分類別的測驗Q矩陣(即Cat-Q), 它能提供更多的診斷信息。
(3) 最后比較了GPCDM、GDM和PC-DINA模型在TIMSS (2007)數據的實際應用效果, 結果發(fā)現GPCDM的模型擬合度更優(yōu), 并且GPCDM分析該數據時的效果也更好。這表明新模型在實踐應用中具有一定的優(yōu)勢。
為使研究的結果不失一般性以及進一步拓展多級評分CDMs的相關研究, 未來至少還可以在以下幾方面展開研究:
(1) 本研究假設屬性之間是相互獨立的, Q矩陣的標定完全正確, 另外, 本研究僅采用了EAP方法來估計被試參數, 并未對其他方法進行對比研究, 這些因素都可能會影響本研究的結論。
(2) 同一份測驗中, 不同的題目可能擬合不同的CDM, 在二級評分的數據中, de la Torre (2011)應用Wald統(tǒng)計檢驗的方法為每個題目選擇不同的CDM。而在多級評分數據中, 如何為每一題選擇最適合的多級評分CDM也有待進一步研究。
(3) 多級評分的Q矩陣可以定義在得分類別水平, 這有助于提供更多診斷信息, 但是這也會增加Q矩陣標定的工作量。目前, 已經有學者開發(fā)了一系列輔助Q矩陣標定的算法, 但這些方法只局限于二級評分的模型。未來的研究可以繼續(xù)探討多級評分CDM中Q矩陣的標定算法。
(4) 本研究開發(fā)的模型假設考生的解題策略只有一種, 但在實際應用中, 同一道題目經常存在不同的解題策略。如果在診斷測驗中考慮了被試解題策略的差異, 這也有助于提供更多有價值的信息, 從而提高診斷的精度(涂冬波, 蔡艷, 戴海琦, 丁樹良, 2012)。因此, 開發(fā)多策略的多級評分CDM值得進一步研究。
(5) 已有的CD-CAT相關研究, 幾乎都是基于二級評分的模型而展開, 事實上, 多級評分CD-CAT (Polytomous CD-CAT, PCD-CAT)在實際應用中具有更廣闊的前景, 不僅是因為心理或教育評估測驗中存在大量的多級評分數據, 更重要的是與二級評分的題目相比, 多級評分題目可以提供更多的信息, 即多級評分的CD-CAT有助于進一步提高測驗的效率, 未來的研究可以針對PCD-CAT的相關算法展開研究。
Akaike, H. (1974). A new look at the statistical model identification., 19, 716–723.
Cai, Y., Miao, Y., & Tu, D. B. (2016). The polytomously scored cognitive diagnosis computerized adaptive testing.(10), 1338–1346.
[蔡艷, 苗瑩, 涂冬波. (2016). 多級評分的認知診斷計算機化適應測驗.,(10), 1338–1346.]
de la Torre, J. (2011). The generalized DINA model framework.(2), 179–199.
de la Torre, J. (2012). Application of the DINA model framework to enhance assessment and learning.(pp. 87–103). Springer, Dordrecht.
de la Torre, J., & Minchen, N. (2014). Cognitively diagnostic assessments and the cognitive diagnosis model framework.,(2), 89–97.
Hansen, M. (2013).. Unpublished doctoral dissertation. University of California at Los Angeles.
Leighton, J. P., & Gierl, M. J. (2007). Defining and evaluating models of cognition used in educational measurement to make inferences about examinees’ thinking processes.(2), 3–16.
Ma, W., & de la Torre, J. (2016). A sequential cognitive diagnosis model for polytomous responses.,(3), 253–275.
Mellenbergh, G. J. (1995). Conceptual notes on models for discrete polytomous item responses.(1)91–100.
Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores.(S1), 1–97.
Schwarz, G. (1978). Estimating the dimension of a model.,(2), 461–464.
Templin, J. L. & Bradshaw, L. (2013). Measuring the reliability of diagnostic classification model examinee estimates.(2), 251–275.
Templin, J. L., & Henson, R. A. (2006). Measurement of psychological disorders using cognitive diagnosis models.(3), 287–305.
Tu, D. B., Cai, Y., Dai, H. Q., & Ding, S. L. (2010). A polytomous cognitive diagnosis model: P-DINA model.(10), 1011–1020.
[涂冬波, 蔡艷, 戴海琦, 丁樹良. (2010). 一種多級評分的認知診斷模型: P-DINA 模型的開發(fā).,(10), 1011–1020.]
Tu, D. B., Cai, Y., Dai, H. Q., & Ding, S. L. (2012). A new multiple-strategies cognitive diagnosis model: The MSCD method.(11), 1547–1553.
[涂冬波, 蔡艷, 戴海琦, 丁樹良. (2012). 一種多策略認知診斷方法: MSCD方法的開發(fā).,(11), 1547–1553.]
Tu, D., Zheng, C., Cai, Y., Gao, X., & Wang, D. (2017). A polytomous model of cognitive diagnostic assessment for graded data.,(3), 231?252.
Tutz, G. (1997). Sequential models for ordered responses.(pp. 139?152). Springer, New York, NY.
van Der Ark, L. A. (2001). Relationships and properties of polytomous item response theory models.(3), 273–282.
von Davier, M. (2008). A general diagnostic model applied to language testing data.(2), 287–307.
Development of a Generalized Cognitive Diagnosis Model for polytomous responses based on Partial Credit Model
GAO Xuliang1,2; WANG Daxun1; WANG Fang2; CAI Yan1; TU Dongbo1
(1School of Psychology Jiangxi normal university, Nanchang 330022, China) (2School of Psychology Guizhou normal university, Guiyang 550000, China)
Currently, a large number of cognitive diagnosis models (CDMs) have been proposed to satisfy the demands of the cognitively diagnostic assessment. However, most existing CDMs are only suitable for dichotomously scored items. In practice, there are lager polytomously-score items/data in educational and psychological tests. Therefore, it is very necessary to develop CDMs for polytomous data.
Under the item response theory (IRT) framework, the polytomous models can be divided into three categories: (i) the cumulative probability (or graded-response) models, (ii) continuation ratios (or sequential) models, and (iii) the adjacent-category (or partial-credit) models.
At present, several efforts have been made to develop polytomous partial-credit CDMs, including the general diagnostic model (GDM; von Davier, 2008) and the partial credit DINA (PC-DINA; de la Torre, 2012) model. However, the existing polytomous partial-credit CDMs need to be improved in the following aspects: (1) These CDMs do not consider the relationship between attributes and response categories by assuming that all response categories of an item measure the same attributes. This may result in loss of diagnostic information, because different response categories could measure different attributes; (2) More importantly, the PC-DINA is based on reduced DINA model. Therefore, the current polytomous CDMs are established under strong assumptions and do not have the advantages of general cognitive diagnosis model.
The current article proposes a general partial credit diagnostic model (GPCDM) for polytomous responses with less restrictive assumptions. Item parameters of the proposed models can be estimated using the marginal maximum likelihood estimation approach via Expectation Maximization (MMLE/EM) algorithm.
Study 1 aims to examine (1) whether the EM algorithm can accurately estimate the parameters of the proposed models, and (2) whether using item level Q-matrix (referred to as the Item-Q) to analyze data generated by category level Q-matrix (referred to as the Cat-Q) will reduce the accuracy of parameter estimation. Results showed that when using Cat-Q fitting data, the maximum RMSE was less than 0.05. When the number of attributes was equal to 5 or 7, the minimum pattern match rate (PMR) was 0.9 and 0.8, respectively. These results indicated that item and person parameters could be recovered accurately based on the proposed estimation algorithm. In addition, the results also showed that when Item-Q is used to fit the data generated by Cat-Q, the estimation accuracy of both the item and person parameters could be reduced. Therefore, it is suggested that when constructing the polytomously-scored items for cognitively diagnostic assessment, the item writer should try to identify the association between attributes and categories. In the process, more diagnostic information may be extracted, which in turn helps improve the diagnostic accuracy.
The purpose of Study 2 is to apply the proposed model to the TIMSS (2007) fourth-grade mathematics assessment test to demonstrate its application and feasibility and compare with the exiting GDM and PC-DINA model. The results showed that compared with GDM and PC-DINA models, the new model had a better model fit of test-level, higher attribute reliability and better diagnostic effect.
cognitive diagnosis; polytomous CDMs; GDM model; PC-DINA model
2019–02–12
* 國家自然科學基金(31660278, 31760288, 31960186 )資助。
汪大勛為共同第一作者。
B841
涂冬波, E-mail: tudongbo@aliyun.com。
10.3724/SP.J.1041.2019.01386