劉彥樓 陳啟山 王一鳴 姜曉彤
模型參數(shù)點估計的可靠性:以CDM為例*
劉彥樓1,2陳啟山3,4王一鳴2姜曉彤2
(1曲阜師范大學教育大數(shù)據(jù)研究院;2曲阜師范大學心理學院, 山東 濟寧 273165) (3“兒童青少年閱讀與發(fā)展”教育部哲學社會科學實驗室(華南師范大學);4華南師范大學心理學院, 廣州 510631)
心理學研究中, 不恰當?shù)哪P蛥?shù)估計框架或收斂準則嚴重影響模型參數(shù)點估計的可靠性, 進而影響到研究結(jié)論的可靠性。本研究提出了基于MLE-EM的CDM模型參數(shù)估計新框架, 以及新收斂判斷方法。通過模擬研究與實證數(shù)據(jù)分析的方式, 探索了新參數(shù)估計框架和新收斂判斷方法的表現(xiàn), 并與已有模型參數(shù)估計框架及收斂判斷方法進行了比較。結(jié)果顯示, 新的模型參數(shù)估計框架及收斂準則的表現(xiàn)優(yōu)于已有的模型參數(shù)估計框架及收斂準則, 能有效提高模型參數(shù)點估計的可靠性。
參數(shù)估計, 點估計, 收斂準則, 認知診斷模型
自然科學及社會科學各個領(lǐng)域中, 研究結(jié)論的可靠性(研究結(jié)論可以被信賴的程度), 尤其是研究結(jié)果的可重復性(replication)受到極大關(guān)注(參見:胡傳鵬等, 2016; Begley & Ellis, 2012; Ioannidis, 2005, 2008; Tajika et al., 2015)。Nature雜志對此進行了一項調(diào)查, 發(fā)現(xiàn)70%以上的研究者無法重復他人實驗, 50%以上的研究者無法重復他們自己的實驗(Baker, 2016)。心理學領(lǐng)域中, 研究者對可重復性問題出現(xiàn)的比例、可能的原因展開了探討, 并從統(tǒng)計方法和研究實踐兩方面提出了解決方案(例如, 可參考《心理學報》的投稿指南及論文自檢報告或American Psychological Association, 2020等)。
模型參數(shù)點估計的可靠性是研究結(jié)論可靠性的基礎(chǔ)。因此, 如何提高模型參數(shù)估計值的可靠性, 進而提高研究結(jié)果的可重復性是本文將要探討的主要問題。
認知診斷(或者是診斷分類)使用心理計量模型推斷被試可觀察的外顯行為與其潛在的多維、細粒度的心理特質(zhì)(如心理結(jié)構(gòu)、技能、加工過程或策略等, 統(tǒng)稱為屬性)之間的關(guān)系(Rupp et al., 2010)。認知診斷模型(cognitive diagnostic model, CDM)在心理、教育、社會、生物以及其他多個領(lǐng)域中得到了越來越多的關(guān)注(Sorrel et al., 2016; Wu et al., 2017)。因此, 本文以CDM為例, 探討模型參數(shù)點估計的可靠性問題。
目前, 極大似然期望最大化算法(maximum likelihood estimation using the expectation maximization algorithm, MLE-EM)是應(yīng)用最廣泛的CDM模型參數(shù)估計方法之一(de la Torre, 2009, 2011; von Davier, 2008)。例如, 在R語言中的(George et al., 2016)、(Ma & de la Torre, 2020)軟件包以及,,、(Sen & Terz, 2020; Templin & Hoffman, 2013)等軟件中均可使用MLE-EM估計CDM的模型參數(shù)。理想條件下, 使用MLE-EM方法能夠獲得具有漸近性、一致性等優(yōu)良特性的點估計值。但是, 研究者指出使用MLE-EM算法估計CDM模型參數(shù)時, 可能會遇到的問題有:模型參數(shù)不收斂、項目參數(shù)極端值、(較差的)局部最優(yōu)解以及邊界值等(DeCarlo, 2011, 2019; Ma & Guo, 2019; Ma & Jiang, 2021; Philipp et al., 2018; Templin & Bradshaw, 2014; Zeng et al., 2023)。MLE-EM估計的一般過程是, 給定模型參數(shù)初始值, 迭代進行E步(期望步)和M步(最大化步), 滿足特定的收斂準則(convergence criterion或termination criterion)后停止迭代, 輸出模型參數(shù)的點估計值。因此, 可以從參數(shù)估計框架(包括模型參數(shù)初始值設(shè)置、EM過程等)及收斂準則等方面著手解決模型參數(shù)點估計可靠性問題。
本文將在第2部分闡述CDM模型參數(shù)估計中模型參數(shù)估計框架及收斂準則存在的問題, 以及這兩個問題對于參數(shù)估計可靠性的影響; 在第3部分詳細說明新提出的模型參數(shù)估計框架及收斂準則, 并在第4部分通過模擬研究比較新方法與已有方法在模型參數(shù)估計可靠性方面的表現(xiàn); 第5部分是實證數(shù)據(jù)分析, 目的是檢驗新提出的模型參數(shù)估計框架及收斂準則在估計CDM模型參數(shù)時的表現(xiàn), 并與軟件包的表現(xiàn)進行比較; 最后是討論與展望。
在這一部分, 將首先介紹飽和CDM及屬性層級CDM(hierarchical cognitive diagnostic model, HCDM); 然后以此為基礎(chǔ)闡述模型參數(shù)估計中存在的不收斂、項目參數(shù)極端值、(較差的)局部最優(yōu)解以及邊界值等問題。
根據(jù)屬性層級關(guān)系, HCDM中所有允許存在的屬性掌握模式是,
比較表達式(3)和(5), 及表達式(4)和(6), 可以發(fā)現(xiàn)將飽和CDM中的一些結(jié)構(gòu)參數(shù)以及項目參數(shù)約束為0, 可獲得HCDM。也就是, 如果“真”模型為HCDM, 但使用飽和CDM估計模型參數(shù)時, 部分模型參數(shù)的真值等于0。一些結(jié)構(gòu)模型參數(shù)真值等于0, 意味著這些參數(shù)在參數(shù)空間的下界, 如果不解決這種這類邊界值問題可能會造成MLE-EM參數(shù)估計存在多種問題。
使用CDM擬合作答反應(yīng)數(shù)據(jù)時, 如果模型參數(shù)過多、樣本量較小, 或者是模型參數(shù)中存在邊界值尤其是結(jié)構(gòu)參數(shù)中存在邊界值等問題時, 可能導致模型參數(shù)不收斂、項目參數(shù)存在極端值或者是存在多個局部最優(yōu)解等問題(Ma & Jiang, 2021; Templin & Bradshaw, 2014)。
CDM的項目正確作答概率及結(jié)構(gòu)參數(shù)均介于[0,1]之間。在估計模型參數(shù)時可能會遇到項目參數(shù)或結(jié)構(gòu)參數(shù)在參數(shù)空間的上界或下界的問題, 這可能會造成模型參數(shù)無法估計, 或者是造成模型參數(shù)的標準誤過大甚至是無法求解。Ma和Jiang (2021)提出貝葉斯眾數(shù)估計及單調(diào)約束, 估計G-DINA模型的項目參數(shù)。但是, 他們的研究指出貝葉斯眾數(shù)估計或貝葉斯眾數(shù)與單調(diào)約束結(jié)合的算法估計獲得的項目參數(shù)可能是有偏的; 另外, 他們也指出在實踐應(yīng)用中先驗分布的選擇需要非常謹慎, 因為不恰當?shù)南闰炐畔⒖赡軙е抡`導性的、甚至是錯誤的結(jié)果。為將模型參數(shù)估計值約束在適當?shù)倪吔缰? Yamaguchi (2023)進一步提出將結(jié)構(gòu)參數(shù)也要加以約束。然而, 當屬性之間存在層級關(guān)系, 但是使用飽和結(jié)構(gòu)模型估計參數(shù)時, 有些結(jié)構(gòu)參數(shù)的真值等于0, 以不恰當?shù)南闰灱s束使其遠離0的做法是不對的。
以飽和G-DINA模型的參數(shù)估計為例, 在M步中, 經(jīng)過公式推導(參考, de la Torre, 2009, 2011)可以求得更新后的第種屬性掌握模式下項目正確作答概率的表達式,
圖1 單個參數(shù)的局部最優(yōu)解或全局最優(yōu)解的簡單示例
當前, 可以用于判斷CDM模型參數(shù)估計是否收斂的方法至少有6種(George et al., 2016; Ma & de la Torre, 2020; Ma et al., 2022; Robitzsch et al., 2022; Rupp & van Rijn, 2018)。
第四種是項目正確作答概率和結(jié)構(gòu)參數(shù)組成的向量的差的絕對值。這種方法以第三種方法為基礎(chǔ), 將結(jié)構(gòu)參數(shù)也納入考慮, 因此不再贅述??梢园l(fā)現(xiàn), 以上4種收斂判斷方法是基于全部或部分模型參數(shù)的。CDM中項目正確作答概率一般是由項目參數(shù)組合而成, 也就是說相對于項目參數(shù)而言, 項目正確作答概率差這種方法更容易滿足模型收斂準則。
可以發(fā)現(xiàn), 研究者使用的收斂準則有很大差別。因此, 相同計量模型條件下, 不同的收斂準則是否會對模型參數(shù)點估計的可靠性產(chǎn)生影響; 如果產(chǎn)生影響, 在目前所有可用的模型參數(shù)估計收斂判斷方法中, 哪種效果是最好的; 或者是能否開發(fā)一種具有廣泛適用性的方法提高CDM模型參數(shù)點估計的可靠性是一個需要解決的重要問題。
如前所述CDM模型參數(shù)估計中的邊界值、局部最優(yōu)解、項目參數(shù)極端值、模型參數(shù)不收斂, 以及收斂準則設(shè)置等可能會對模型參數(shù)點估計的可靠性產(chǎn)生影響, 進而可能會影響到研究結(jié)果的可重復性。因此, 本文提出新的模型參數(shù)估計框架試圖解決2.2部分提及的模型參數(shù)估計中可能存在的問題; 提出新的收斂準則試圖解決2.3部分提及的收斂準則可能存在的問題。
其次, 闡述局部最優(yōu)解、項目參數(shù)極端值、模型參數(shù)不收斂等問題的綜合解決方法。
模型參數(shù)收斂判斷中, 設(shè)置最大迭代次數(shù)的唯一目的是避免模型參數(shù)估計程序陷入到無限(或近乎于無限)循環(huán)。然而, 在模型參數(shù)本應(yīng)收斂的情況下, 如果將最大收斂次數(shù)設(shè)置的過小, 可能會使得MLE-EM過早結(jié)束循環(huán), 造成不收斂的錯誤結(jié)果。解決不收斂問題的首要一步是設(shè)置足夠大的收斂次數(shù), 因此本研究中將最大收斂次數(shù)設(shè)置為50000。
CDM的模型參數(shù)僅存在全局最優(yōu)解的一個前提是公式(7)為凸函數(shù)。但是, 這個前提有時未必成立, 導致模型參數(shù)可靠性變差。因此, 參考Ma和Guo (2019)的相關(guān)研究, 本文提出使用多個初始值計算CDM模型參數(shù)。即, 遇到不收斂或項目參數(shù)存在極端值時重新生成初始值并計算, 如果新初始值條件下的模型參數(shù)收斂、對數(shù)似然函數(shù)值大于先前的值、且項目參數(shù)不存在極端值時, 使用新的估計值作為最終的模型參數(shù)估計值。在接下來的部分將這個新的模型參數(shù)估計框架稱為, 并以此為基礎(chǔ)探討各種收斂準則的表現(xiàn)。由于在特定條件下, 需要對于同一觀察數(shù)據(jù)矩陣, 在多個不同初始值下進行模型參數(shù)估計, 運算量可能會比較大。因此參考以往研究(劉彥樓, 2022),程序計算量大的部分采用C++語言及并行計算進行。特別說明的是,程序已上傳到科學數(shù)據(jù)銀行, 感興趣的讀者可以自行下載使用。
最后, 闡述本文中新提出的收斂判斷方法。
圖2 對數(shù)似然函數(shù)差收斂判斷方法可能缺陷的簡單示例
本研究重點關(guān)注的問題是:新提出的模型參數(shù)估計框架及收斂準則能否有效提高模型參數(shù)點估計值的可靠性。即, 新提出的框架下的綜合判斷方法是否優(yōu)于現(xiàn)有框架下的方法, 能否在盡量保證參數(shù)在合理范圍內(nèi)的前提下, 獲得使得似然函數(shù)最大的參數(shù)估計值。具體包括:(1)數(shù)據(jù)生成模型與擬合模型均為飽和G-DINA時, 即模型完全正確設(shè)定條件下各種收斂準則的表現(xiàn); (2)數(shù)據(jù)生成模型為HCDM但使用飽和G-DINA擬合時, 即模型中存在邊界值時各收斂準則的表現(xiàn)。
圖3 模擬研究中J = 16的Q矩陣
4.4.1 飽和CDM生成數(shù)據(jù)時各收斂準則的表現(xiàn)
表1 飽和CDM生成數(shù)據(jù), J = 16, N = 500條件下的模擬結(jié)果
表2 飽和CDM生成數(shù)據(jù), J = 16, N = 1000及4000條件下的模擬結(jié)果
表3 飽和CDM生成數(shù)據(jù), J = 32條件下的模擬結(jié)果
4.4.2 HCDM生成數(shù)據(jù)時各收斂準則的表現(xiàn)
表4到表6呈現(xiàn)的是通過HCDM (前3個屬性是線性層級關(guān)系)生成作答反應(yīng)數(shù)據(jù)但使用飽和CDM估計模型參數(shù)條件下的模擬結(jié)果。
表4 HCDM生成數(shù)據(jù), J = 16, N = 500條件下的模擬結(jié)果
表5 HCDM生成數(shù)據(jù), J = 16, N = 1000及4000條件下的模擬結(jié)果
表6 HCDM生成數(shù)據(jù), J = 32條件下的模擬結(jié)果
圖4 Yuan等人(2022)定義的小學數(shù)學分數(shù)運算認知屬性層級關(guān)系
根據(jù)模型參數(shù)估計的極大似然理論, 收斂判斷準則對應(yīng)的LL越大, 說明這個準則的表現(xiàn)越好, 模型參數(shù)點估計值的可靠性越高。
本文通過理論分析及模擬研究證實, 心理計量模型的點估計值在一些情景中會存在可靠性問題, 且新開發(fā)的模型參數(shù)估計框架及收斂準則能夠提高模型參數(shù)估計值的可靠性。
首先, 通過預研究作者認為最大迭代次數(shù)設(shè)置過少可能會導致模型參數(shù)不收斂的問題(如, 3000或以下, 見及軟件包), 因此本研究將最大迭代次數(shù)設(shè)置為50000。模擬研究發(fā)現(xiàn), 本文所有實驗條件組合下和這兩種模型參數(shù)估計框架均收斂。模擬研究顯示在一些特定條件下(見表1),和的最大迭代次數(shù)均超過了30000次, 這也就意味著如果將最大收斂次數(shù)設(shè)置為3000那么就會出現(xiàn)模型參數(shù)不收斂的問題。因此, 本文認為增大模型參數(shù)估計程序的最大迭代次數(shù)有助于解決模型參數(shù)不收斂問題。
其次, 針對CDM中可能存在的邊界值以及項目參數(shù)存在極端值問題, 本文開發(fā)了新的CDM模型參數(shù)估計框架。通過對比和這兩種模型參數(shù)估計框架在模擬研究及實證數(shù)據(jù)分析中的表現(xiàn), 發(fā)現(xiàn)框架的表現(xiàn)優(yōu)于或至少與框架的表現(xiàn)相當; 且框架有效減少了項目參數(shù)極端值數(shù)量。因此, 本文認為在估計CDM模型參數(shù)時,可能是一個更好的選擇。導致CDM中存在邊界值的一個原因是屬性間存在層級關(guān)系, 使得飽和CDM中的一些參數(shù)近似等于0。研究者以飽和CDM為基礎(chǔ)開發(fā)了一些屬性層級關(guān)系探索或驗證的方法(Gu & Xu 2019; Liu et al., 2022; Templin & Bradshaw, 2014)。我們建議研究者進一步在框架下使用已有方法或者是開發(fā)新方法對屬性層級關(guān)系進行研究。當有較為充分的證據(jù)證明層級關(guān)系存在時, 在框架下使用HCDM分析數(shù)據(jù), 可能會提高模型參數(shù)點估計值的可靠性。
本文以同一連接下的飽和G-DINA模型為例, 探討了和框架下目前已有的及本研究新開發(fā)的各收斂準則在CDM模型參數(shù)估計中的表現(xiàn)。盡管本研究初步解決了在CDM模型參數(shù)估計時如何選擇恰當收斂準則的問題, 但是作者認為有以下幾個問題需要進一步探索。
第二是關(guān)于框架及其應(yīng)用的問題。本研究開發(fā)框架的主要目的在于提供一個更加合理的CDM模型參數(shù)估計框架, 盡量減少模型參數(shù)不收斂、邊界值問題及項目參數(shù)極端值對CDM模型參數(shù)收斂準則表現(xiàn)的影響。特別說明的是模擬實驗中將最大迭代次數(shù)設(shè)置為50000時, 兩種參數(shù)估計框架下的所有循環(huán)中的參數(shù)估計都收斂了, 因此在本研究中框架僅在邊界值問題及項目參數(shù)存在極端值時起作用。模型中存在邊界值時, 盡管框架下的項目極端值數(shù)量少于同條件下框架所對應(yīng)的數(shù)量, 但即使是在= 4000條件下,框架下出現(xiàn)極端值的頻率仍然較高。因此, 本研究認為有必要以框架為基礎(chǔ), 繼續(xù)對模型參數(shù)不收斂、邊界值問題及項目參數(shù)極端值等問題展開探索。
第三, 不同連接函數(shù)下各種收斂準則的表現(xiàn)有待進一步探索。本文以同一連接下的飽和G-DINA模型為例, 探討了不同收斂準則的表現(xiàn)。但CDM中還有兩種得到廣泛應(yīng)用的連接:logit連接以及l(fā)og連接(de la Torre, 2009, 2011; Templin & Bradshaw, 2014)。這3種連接函數(shù)的主要區(qū)別之一是, 項目參數(shù)與項目正確作答概率之間關(guān)系的表達不同。鑒于dp的表現(xiàn)在大多數(shù)情況下略優(yōu)于ip, 本研究認為后續(xù)研究可以對不同連接函數(shù)下各個收斂準則的表現(xiàn)展開進一步探索。
American Psychological Association. (2020).(7th ed.). Washington.
Baker, M. (2016). 1,500 scientists lift the lid on reproducibility.(7604), 452?454.
Begley, C. G., & Ellis, L. M. (2012). Drug development: Raise standards for preclinical cancer research.(7391), 531?533.
Chiu, C. Y., K?hn, H. F., & Ma, W. (2023). Commentary on “Extending the Basic Local Independence Model to Polytomous Data” by Stefanutti, de Chiusole, Anselmi, and Spoto.(2), 656?671.
DeCarlo, T. (2011). On the analysis of fraction subtraction data: The DINA model, classification, latent class sizes, and the Q-Matrix.(1), 8?26.
DeCarlo, T. (2019). Insights from reparameterized DINA and beyond. In M. von Davier & Y.-S. Lee (Eds.).(pp. 549?572). Springer.
de la Torre, J. (2009). DINA model and parameter estimation: A didactic.(1), 115?130.
de la Torre, J. (2011). The generalized DINA model framework.(2), 179?199.
Dempster, A. P., Laird, N. M., & Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm.(1), 1?22.
Farrell, S., & Lewandowsky, S. (2018).. Cambridge University Press.
George, A. C., Robitzsch, A., Kiefer, T., Gro?, J., & ünlü, A. (2016). The R package CDM for cognitive diagnosis models.(2), 1?24.
Gu, Y., & Xu, G. (2019). Learning attribute patterns in high-dimensional structured latent attribute models.(115), 1?58.
Gu, Y., & Xu, G. (2020). Partial identifiability of restricted latent class models.(4), 2082? 2107.
Hu, C., Wang, F., Guo, J., Song, M., Sui, J., & Peng. K. (2014). The replication crisis in psychological research.,(9), 1504?1518.
[胡傳鵬, 王非, 過繼成思, 宋夢迪, 隋潔, 彭凱平. (2016). 心理學研究中的可重復性問題: 從危機到契機.(9), 1504?1518.]
Ioannidis, J. P. A. (2005). Why most published research findings are false.(8), e124.
Ioannidis, J. P. A. (2008). Why most discovered true associations are inflated.(5), 640?648.
Khorramdel, L., Shin, H. J., & von Davier, M. (2019). GDM softwareIncluding parallel EM algorithm. In M. von Davier & Y.-S. Lee (Eds.),(pp. 603?628). Springer.
Liu, R. (2018). Misspecification of attribute structure in diagnostic measurement.,(4), 605?634.
Liu, Y. (2022). Standard errors and confidence intervals for cognitive diagnostic models: Parallel bootstrap methods.(6), 703?724.
[劉彥樓. (2022). 認知診斷模型的標準誤與置信區(qū)間估計:并行自助法.(6), 703?724.]
Liu, Y., Tian, W., & Xin, T. (2016). An application ofMstatistic to evaluate the fit of cognitive diagnostic models.(1), 3?26.
Liu, Y., Xin, T., & Jiang, Y. (2022). Structural parameter standard error estimation method in diagnostic classificationmodels: Estimation and application.,(5), 784?803.
Ma, W., & de la Torre, J. (2016). A sequential cognitive diagnosis model for polytomous responses.(3), 253?275.
Ma, W., & de la Torre, J. (2020). GDINA: An R package for cognitive diagnosis modeling.(14), 1?26.
Ma, W., de la Torre, J., Sorrel, M., & Jiang, Z. (2022).. R package version 2.9.3. https://CRAN.R-project.org/package=GDINA
Ma, W., & Guo, W. (2019). Cognitive diagnosis models for multiple strategies.(2), 370?392.
Ma, W., & Jiang, Z. (2021). Estimating cognitive diagnosis models in small samples: Bayes modal estimation and monotonic constraints.,(2), 95?111.
Paek, I., & Cai, L. (2013). A comparison of item parameter standard error estimation procedures for unidimensional and multidimensional item response theory modeling.(1), 58?76.
Paulsen, J., & Valdivia, D. S. (2022). Examining cognitive diagnostic modeling in classroom assessment conditions.,(4), 916?933.
Philipp, M., Strobl, C., de la Torre, J., & Zeileis, A. (2018). On the estimation of standard errors in cognitive diagnosis models.(1), 88?115.
Robitzsch, A., Kiefer, T., George, A. C., & Uenlue, A. (2022).. R package version 8.2-6. http://CRAN.R-project.org/package=CDM
Rupp, A. A., Templin, J., & Henson, R. A. (2010).. Guilford Press.
Rupp, A. A., & van Rijn, P. W. (2018). GDINA and CDM packages in R.,(1), 71?77.
Sen, S., & Terzi, R. (2020). A comparison of software packages available for dina model estimation.,(2), 150?164.
Sorrel, M. A., Olea, J., Abad, F. J., de la Torre, J., Aguado, D., & Lievens, F. (2016). Validity and reliability of situational judgment test scores: A new approach based on cognitive diagnosis models.(3), 506?532.
Tajika, A., Ogawa, Y., Takeshima, N., Hayasaka, Y., & Furukawa, T. A. (2015). Replication and contradiction of highly cited research papers in psychiatry: 10-year follow-up.(4), 357?362.
Templin, J., & Bradshaw, L. (2014). Hierarchical diagnostic classification models: A family of models for estimating and testing attribute hierarchies.(2), 317?339.
Templin, J., & Hoffman, L. (2013). Obtaining diagnostic classification model estimates using.(2), 37?50.
Tian, W., Xin, T., & Kang, C. (2014). The data-augmentation techniques in item response modeling: Current approaches and new developments.,(6), 1036?1046.
[田偉, 辛濤, 康春花. (2014). 項目反應(yīng)理論中潛在心理特質(zhì)“填補”的參數(shù)估計方法及其演變.,(6), 1036?1046.]
von Davier, M. (2008). A general diagnostic model applied to language testing data.,(2), 287?307.
Wu, Z., Deloria-Knoll, M., & Zeger, S. L. (2017). Nested partially latent class models for dependent binary data; estimating disease etiology.(2), 200?213.
Xu, X., & von Davier, M. (2008). Fitting the structured general diagnostic model to NAEP data.,(1), i?18.
Yamaguchi, K. (2023). On the boundary problems in diagnostic classification models.(1), 399?429.
Yuan, L., Liu, Y., Chen, P., & Xin, T. (2022). Development of a new learning progression verification method based on the hierarchical diagnostic classification model: Taking grade 5 students’ fractional operations as an example.(3), 69?82.
Zeng, Z., Gu, Y., & Xu, G. (2023). A Tensor-EM method for large-scale latent class analysis with binary responses.(2), 580?612.
On the reliability of point estimation of model parameters:Taking cognitive diagnostic models as an example
LIU Yanlou1,2, CHEN Qishan3,4, WANG Yiming2, JIANG Xiaotong2
(1Academy of Big Data for Education;2School of Psychology, Qufu Normal University, Jining 273165, China) (3Philosophy and Social Science Laboratory of Reading and Development in Children and Adolescents (South China Normal University), Ministry of Education;4School of Psychology, South China Normal University, Guangzhou 510631, China)
Cognitive diagnostic models (CDMs) are psychometric models that have received increasing attention within fields such as psychology, education, sociology, and biology. It has been argued that an inappropriate convergence criterion for a maximum likelihood estimation using the expectation maximization (MLE-EM) algorithm could result in unpredictable and inaccurate model parameter estimates. Thus, inappropriate convergence criteria may yield unstable and misleading conclusions from the fitted CDMs. Although several convergence criteria have been developed, it remains an unexplored question, how to specify the appropriate convergence criterion for fitted CDMs.
A comprehensive method for assessing convergence is proposed in this study. To minimize the influence of the model parameter estimation framework, a new framework adopting the multiple starting values strategy () is introduced. To examine the performance of the convergence criterion for MLE-EM in CDMs, a simulation study under various conditions was conducted. Five convergence assessment methods were examined: the maximum absolute change in model parameters, the maximum absolute change in item endorsement probabilities and structural parameters, the absolute change in log-likelihood, the relative log-likelihood, and the comprehensive method. The data generating models were the saturated CDM and the hierarchical CDM. The number of items was set to= 16 and 32. Three levels of sample sizes were considered: 500, 1000, and 4000. The three convergence tolerance value conditions were 10–4, 10–6, and 10–8. The simulated response data were fitted by the saturated CDM using theand the R package. The maximum number of iterations was set to 50000.
The simulation results suggest the following.
(1) The saturated CDM converged under all conditions. However, the actual number of iterations exceeded 30000 under some conditions, implying that when the predefined maximum iteration number is less than 30000, the MLE-EM algorithm might inadvertently stop.
(2) The model parameter estimation framework affected the performance of the convergence criteria. The performance of the convergence criteria under theframework was comparable or superior to that of theframework.
(3) Regarding the convergence tolerance values considered in this study, 10–8consistently had the best performance in providing the maximum value of the log-likelihood and 10–4had the worst performance. Compared to all other convergence assessment methods, the comprehensive method in general had the best performance, especially under theframework. The performance of the maximum absolute change in model parameters was similar to the comprehensive method, but this good performance was not consistent. On the contrary, the relative log-likelihood had the worst performance under theandframeworks.
The simulation results showed that the most appropriate convergence criterion for MLE-EM in CDMs was the comprehensive method with tolerance 10–8under theframework. The results from the real data analysis also demonstrated that the proposed comprehensive method andframework had good performance.
model parameter estimation, point estimation, convergence criterion, cognitive diagnostic model
B841
https://doi.org/10.3724/SP.J.1041.2023.01712
2023-03-02
*國家自然科學基金青年項目(31900794)、山東省教育科學規(guī)劃課題(2020KZD009)、廣東省哲學社會科學規(guī)劃項目(GD22CXL01)、廣東省教育科學規(guī)劃課題(2022GXJK176)和大學生創(chuàng)新創(chuàng)業(yè)訓練計劃(202110446231X)資助。
劉彥樓, E-mail: liuyanlou@163.com