游曉鋒 楊建芹 秦春影 劉紅云
認(rèn)知診斷測評中缺失數(shù)據(jù)的處理:隨機(jī)森林閾值插補(bǔ)法*
游曉鋒1楊建芹1秦春影1劉紅云2, 3
(1南昌師范學(xué)院數(shù)學(xué)與信息科學(xué)學(xué)院, 南昌 330032) (2應(yīng)用實驗心理北京市重點(diǎn)實驗室;3北京師范大學(xué)心理學(xué)部, 北京 100875)
認(rèn)知診斷測評中缺失數(shù)據(jù)的處理是理論和實際應(yīng)用者非常關(guān)注的研究主題。借鑒隨機(jī)森林插補(bǔ)法(RFI)不依賴于缺失機(jī)制假設(shè)的特點(diǎn), 對已有的RFI方法進(jìn)行改進(jìn), 提出采用個人擬合指標(biāo)(RCI)確定插補(bǔ)閾值的新方法: 隨機(jī)森林閾值插補(bǔ)方法(RFTI)。模擬研究表明, RFTI在插補(bǔ)正確率上明顯高于RFI方法; 與RFI和EM方法相比, RFTI在被試屬性模式判準(zhǔn)率和邊際判準(zhǔn)率上表現(xiàn)出明顯優(yōu)勢, 尤其是非隨機(jī)缺失和混合缺失機(jī)制, 以及缺失比例較高的條件下, 其優(yōu)勢更加明顯。但對項目參數(shù)的估計, RFTI方法與EM方法相比不具有優(yōu)勢。
缺失數(shù)據(jù), 認(rèn)知診斷測評, 隨機(jī)森林閾值插補(bǔ), 隨機(jī)森林插補(bǔ), EM算法
近年來, 教育與心理評估的實踐越來越關(guān)注測評結(jié)果的應(yīng)用, 隨著信息技術(shù)的發(fā)展和精準(zhǔn)測評服務(wù)的需求, 測評日益融入日常的教學(xué)和學(xué)習(xí)過程(Bennett, 2010)。認(rèn)知診斷測評(cognitive diagnosis assessment, CDA)通過被試在測驗上的反應(yīng)模式對其特定的知識結(jié)構(gòu)(knowledge structure)和加工技能(processing skills)進(jìn)行評價, 而推知被試的知識狀態(tài)(knowledge state, KS), 從而對其優(yōu)勢和劣勢提供更具診斷性的信息。認(rèn)知診斷測評由于其在測評結(jié)果反饋上的優(yōu)勢備受研究者和實踐應(yīng)用者的青睞, 然而, 實際測驗中往往不可避免存在缺失數(shù)據(jù)。造成數(shù)據(jù)缺失的原因有多種, 一方面測驗設(shè)計上可能帶來作答數(shù)據(jù)缺失, 例如, 國際大規(guī)模PISA測試、分層教學(xué)等個性化學(xué)習(xí)的測試, 每個學(xué)生只完成全部測試的部分題目; 另一方面, 除設(shè)計造成的缺失數(shù)據(jù)外, 由于其他原因產(chǎn)生的缺失數(shù)據(jù)也很常見, 例如, 由于測驗時間限制或測驗安全方面的考慮, 以及測試者有意忽略測驗中某些題目等(Cheema, 2014; Mislevy & Wu, 1988; Pohl et al., 2014; Rose et al., 2010)。大量的研究證實不同缺失值處理方法會對個體知識狀態(tài)的估計精度帶來不同影響(Dai, 2017; Pan & Zhan, 2020)。因此, 在實際 CDA 測驗中應(yīng)重視缺失數(shù)據(jù)問題, 并選用合適方法處理, 以提升診斷精度(宋枝璘等, 2022)。
根據(jù)以往的研究, 基于認(rèn)知診斷模型(Cognitive Diagnosis Model, CDM)的缺失數(shù)據(jù)的處理方法, 大多借鑒項目反應(yīng)理論(Item Response Theory, IRT)模型中處理缺失數(shù)據(jù)的方法??梢愿爬橐韵氯N: (1)傳統(tǒng)的缺失值刪除、單一插補(bǔ)或替換方法, 刪除方法主要包括列刪除(Listwise)和對刪除(Pairwise), 比較簡單的替換方法是將缺失數(shù)據(jù)直接替換為0, 即零替換方法; (2)基于模型的處理方法, 其基本思想是在模型參數(shù)估計的過程中通過似然函數(shù)處理缺失數(shù)據(jù), 其中典型的方法有期望最大化算法(Expectation-Maximization algorithm, EM)和全息極大似然估計方法(Full Information Maximum Likelihood, FIML); (3)基于隨機(jī)分布假設(shè)的多重插補(bǔ)方法, 該方法的基本思想是基于假設(shè)的隨機(jī)分布對缺失數(shù)據(jù)進(jìn)行多次隨機(jī)插補(bǔ), 其中典型的多重插補(bǔ)方法包括基于回歸預(yù)測值分布的多重插補(bǔ)。研究者結(jié)合不同模型, 對不同方法的表現(xiàn)進(jìn)行了比較。Finch (2008)結(jié)合IRT模型, 對不同的缺失數(shù)據(jù)處理方法進(jìn)行了比較, 結(jié)果發(fā)現(xiàn), 很難找到一種方法, 其表現(xiàn)在任何情況下均優(yōu)于其他方法, 不同的方法在不同的缺失機(jī)制下有各自的優(yōu)缺點(diǎn)。Dai (2017)首次結(jié)合認(rèn)知診斷DINA模型, 探討了零替換、個體均值插補(bǔ)法、兩步插補(bǔ)法、反應(yīng)函數(shù)法(Response Function Imputation)和EM算法5種缺失數(shù)據(jù)處理方法在不同缺失比例和缺失機(jī)制條件下對項目參數(shù)和個體掌握模式的影響。研究發(fā)現(xiàn), 在CDM中, 如果缺失數(shù)據(jù)被忽略或處理不當(dāng), 則會對學(xué)生的屬性掌握模式和項目參數(shù)的估計帶來偏差; 相比其它4種方法, EM算法得到的個體屬性掌握模式的判準(zhǔn)率最高, 且隨著缺失比例增加, EM算法的優(yōu)勢更加明顯; 對于項目參數(shù)的估計精度, 則沒有哪種方法在任何情況下都優(yōu)于其他方法; 總體而言, 替換為零的方法和個體均值插補(bǔ)法對于CDM中的缺失數(shù)據(jù)處理不是好的選擇, EM算法相對表現(xiàn)最優(yōu)。Dai和Svetina Valdivia (2022)結(jié)合DINA模型, 比較了包含F(xiàn)IML和EM算法在內(nèi)的10種缺失數(shù)據(jù)處理方法的表現(xiàn), 結(jié)果發(fā)現(xiàn)FIML和EM算法表現(xiàn)類似。Pan和Zhan (2020)在隨機(jī)缺失機(jī)制的假設(shè)下結(jié)合追蹤C(jī)DM, 探討了缺失比例和測驗長度的影響, 研究發(fā)現(xiàn)缺失比例是影響參數(shù)估計和診斷結(jié)果精度的最主要因素, 缺失比例超過20%, 診斷結(jié)果的精度就會明顯變差, 針對缺失比例較高的情況(不超過40%), 可以通過增加測驗長度彌補(bǔ)缺失數(shù)據(jù)帶來的不利影響。宋枝璘等(2022)結(jié)合GDINA模型, 在完全隨機(jī)缺失、隨機(jī)缺失和非隨機(jī)缺失的條件下, 比較了零替換、多重插補(bǔ)(Multiple Imputation, MI)、EM算法和FIML方法的差異, 結(jié)果發(fā)現(xiàn)在估計個體知識狀態(tài)時, EM算法和FIML表現(xiàn)較好, 其中EM表現(xiàn)更優(yōu)。在本研究中, 我們將選擇表現(xiàn)較好且穩(wěn)定的EM算法與新提出的方法進(jìn)行比較。
認(rèn)知診斷模型中缺失數(shù)據(jù)的處理可以直接借鑒IRT模型中缺失數(shù)據(jù)的處理方法, 其研究結(jié)論也與基于IRT模型缺失數(shù)據(jù)的處理方法一致, 即相比于傳統(tǒng)的缺失數(shù)據(jù)處理方法, 基于模型的方法更有優(yōu)勢 (Schafer & Graham, 2002)。但是, 這類方法仍然面臨以下三方面的問題: (1)已有的缺失數(shù)據(jù)處理方法大多是基于完全隨機(jī)缺失(missing completely at random, MCAR)和隨機(jī)缺失(missing at random, MAR)機(jī)制假設(shè)的參數(shù)插補(bǔ)的方法, 假設(shè)條件和模型限定較多, 不能有效處理非隨機(jī)缺失(missing not at random, MNAR)或混合(MIXED)機(jī)制下(De Ayala et al., 2001)的缺失類型(關(guān)于缺失機(jī)制的介紹可參考Little和Rubin(2002), 宋枝璘等(2022)或本研究模擬設(shè)計部分的相關(guān)內(nèi)容)。而在實踐中, 學(xué)生可能會因各種原因漏答部分試題, 缺失數(shù)據(jù)產(chǎn)生原因具有很高的不確定性和復(fù)雜性, 對于缺失機(jī)制的判別沒有明確的衡量標(biāo)準(zhǔn)(De Ayala et al., 2001)。探索適用于不同缺失機(jī)制的缺失數(shù)據(jù)處理方法是目前尚未很好解決的問題之一。(2)已有的缺失數(shù)據(jù)處理方法無法有效處理缺失比例較高(>30%)的情況??v觀以往對缺失數(shù)據(jù)處理方法的模擬研究, 設(shè)定的缺失比例從2% (De Ayala et al., 2001)到50% (Glas & Pimentel, 2008)不等, 但大部分在5%到30%之間(Finch, 2008)。已有的缺失數(shù)據(jù)處理方法在缺失比例低(小于20%)時表現(xiàn)良好, 但在缺失比例超過20%時應(yīng)用效果已不明顯。缺失比例超過30%以上的研究不多見, 且發(fā)現(xiàn)各種方法的估計偏差均較大。然而在實踐中一些測驗設(shè)計導(dǎo)致的數(shù)據(jù)缺失比例較高的情況并不少見, 例如大規(guī)模測試中常用的分塊設(shè)計(fractional block design) (McArdle, 1994), 平衡非完全分塊螺旋設(shè)計(balanced incomplete blocks (BIB) spiral design) (Johnson, 1992)等常用的矩陣抽樣設(shè)計的方法。這些設(shè)計中缺失數(shù)據(jù)的比例往往超過了50% (Graham et al., 2006)。因此, 發(fā)展能夠較好處理高比例缺失數(shù)據(jù)的方法也是亟待解決的問題之一。(3)隨著認(rèn)知診斷理論在測評中的應(yīng)用, 以及近年來教學(xué)設(shè)計的改變和個性化學(xué)習(xí)的發(fā)展(如走班制和分層教學(xué)), 即便是日常的測評也不再是所有的學(xué)生同步完成相同的練習(xí)或測試, 而是對不同的學(xué)生進(jìn)行有區(qū)別的評估; 同時, 為了提高學(xué)習(xí)效率, 教育測評實踐也面臨著如何基于更少的題目, 得到較為精準(zhǔn)的診斷結(jié)果的問題。因此, 如何在不增加測驗題目的情況下, 提高缺失數(shù)據(jù)處理方法的精度也是認(rèn)知診斷測評的實踐需要。
近年來, 隨著教育測評理論和人工智能技術(shù)的不斷發(fā)展, IRT、CDM與機(jī)器學(xué)習(xí)相關(guān)技術(shù)的結(jié)合應(yīng)用越來越受到國內(nèi)外研究者的關(guān)注(Chen et al., 2018; Zhang & Chang, 2016; 王璞玨, 劉紅云,2019)。機(jī)器學(xué)習(xí)的興起也為缺失數(shù)據(jù)的處理帶來了一種新的思維范式, 即將數(shù)據(jù)集中的缺失值作為機(jī)器學(xué)習(xí)模型中的未知變量, 將數(shù)據(jù)集中的具有特定變量觀測值的數(shù)據(jù)樣本用作機(jī)器學(xué)習(xí)模型的訓(xùn)練集, 再將具有缺失值的數(shù)據(jù)樣本輸入訓(xùn)練后的模型, 從而對缺失值進(jìn)行插補(bǔ)(Liu & Gopalakrishnan, 2017)。已有研究發(fā)現(xiàn), 許多機(jī)器學(xué)習(xí)技術(shù)非常適合處理缺失數(shù)據(jù)的問題, 并且在處理效果上比經(jīng)典的統(tǒng)計處理技術(shù)表現(xiàn)得更好(Mabrey, 2006)。Stekhoven和Bühlmann(2012)在隨機(jī)森林算法的基礎(chǔ)上提出了隨機(jī)森林插補(bǔ)(Random Forest Imputation, RFI)法, 該方法是針對缺失數(shù)據(jù)處理提出的一種新的非參數(shù)插補(bǔ)方法。RFI方法突出的特點(diǎn)是能處理不同類型的數(shù)據(jù), 能夠利用所有可觀察到的數(shù)據(jù), 并且對數(shù)據(jù)分布的假定前提條件很少。由于RFI方法的準(zhǔn)確性和穩(wěn)健性等諸多優(yōu)點(diǎn), 它已在一些復(fù)雜研究中得到了應(yīng)用(沈琳等, 2014)。然而, 這一方法與測量模型的結(jié)合應(yīng)用尚屬空白, 其方法的適用性和效果尚待檢驗。
綜上, 本文結(jié)合目前CDA實際中缺失數(shù)據(jù)處理遇到的困難, 基于RFI的基本思想, 提出一種在CDM模型下處理缺失數(shù)據(jù)的新方法: 隨機(jī)森林閾值插補(bǔ)(Random Forest Threshold Imputation, RFTI)方法。并通過兩個Monte Carlo模擬研究驗證新方法的表現(xiàn)。模擬研究一比較不同缺失機(jī)制和不同缺失比例條件下, RFTI相對RFI方法對缺失數(shù)據(jù)插補(bǔ)正確率方面的優(yōu)勢, 以驗證所提出動態(tài)閾值方法的必要性; 模擬研究二從個體屬性模式判準(zhǔn)率和項目參數(shù)估計精度兩方面探討RFTI方法的表現(xiàn), 并與傳統(tǒng)表現(xiàn)較好的EM方法和RFI方法比較, 探討RFTI的優(yōu)勢和適用條件。
本文的主要目的是提出一種新的適合于CDM缺失數(shù)據(jù)的處理方法, 即隨機(jī)森林閾值插補(bǔ)法。在介紹新的方法之前, 我們首先介紹本文所使用的認(rèn)知診斷模型, 其次介紹已有的RFI方法, 并對其局限性進(jìn)行分析; 最后在RFI的基礎(chǔ)上提出改進(jìn)閾值的隨機(jī)森林閾值插補(bǔ)法, 即RFTI。
DINA (Deterministic Inputs, Noisy “And” Gate Model, DINA)模型是一種非補(bǔ)償?shù)恼J(rèn)知診斷模型, 其中“非補(bǔ)償”是指屬性之間不具有互補(bǔ)性, 被試只有完全掌握項目所需的所有屬性才能正確答對該項目。由于DINA模型本身的定義簡單, 每個參數(shù)對應(yīng)的含義具有可解釋性的特點(diǎn), 近年來被廣泛應(yīng)用于認(rèn)知診斷模型相關(guān)的理論研究和實際應(yīng)用研究。例如: 關(guān)于項目屬性輔助標(biāo)定(汪文義, 2012), 含認(rèn)知診斷功能的計算機(jī)化自適應(yīng)測驗的項目增補(bǔ)(陳平, 辛濤, 2011), 錯誤定義的Q矩陣下被試分類準(zhǔn)確性(喻曉鋒等, 2014), 以及與其他分類模型結(jié)合的問題(羅照盛等, 2015), 這些新方法的探索均是基于DINA模型開展的拓展研究。本研究我們也將基于DINA模型探討不同缺失數(shù)據(jù)處理方法的表現(xiàn), 下面, 首先簡要介紹常用的DINA模型。
以0-1計分的題目為例, DINA模型的定義如下:
RFI是由Stekhoven和Bühlmann (2012)提出的一種新的非參數(shù)插補(bǔ)方法(也稱missForest算法), 該方法的基本思想和步驟如下。
對于0-1計分的題目, RFI在對缺失數(shù)據(jù)進(jìn)行插補(bǔ)時, 首先對于每一個缺失的未觀測值, 得到一個處在[0,1]區(qū)間內(nèi)的概率值, 用于表示該缺失數(shù)據(jù)取值為1的概率。該概率值越接近于1表示當(dāng)前未觀測值為1的概率越大, 該概率值越接近于0則表示當(dāng)前缺失數(shù)據(jù)取值為0的概率越大。以0-1計分的題目為例, 實際應(yīng)用中通過一個選定的概率閾值, 將所得概率值轉(zhuǎn)換為0-1的二分值。RFI方法一般將概率閾值設(shè)置為0.5, 即當(dāng)計算出的概率值大于0.5時, 將缺失值替換為1; 當(dāng)概率值小于0.5時, 將缺失值替換為0; 當(dāng)概率值正好等于0.5的時候, 缺失值隨機(jī)替換為0或1。不難理解, 不考慮教育測評的實際背景, 在概率值為0.5左右時, 無論將缺失值替換為0或者1, 缺失值被錯誤插補(bǔ)的概率都非常大, 因為此時模型所做預(yù)測的不確定性非常大。如果結(jié)合教育測評實際, 當(dāng)概率值在0.5或以下時, 認(rèn)為其作答錯誤(即替換為0)是比較合理的; 然而, 如果將概率值在0.5以上的都插補(bǔ)為1, 則對于0-1計分的題目就過于寬松了。另外, RFI固定閾值的方法沒有考慮缺失數(shù)據(jù)插補(bǔ)過程中, 由于插補(bǔ)不準(zhǔn)確性所帶來的模型與數(shù)據(jù)擬合假設(shè)被違背的問題。鑒于此, 我們提出修正的動態(tài)閾值的隨機(jī)森林插補(bǔ)方法。
2.3.1 認(rèn)知診斷模型的個人擬合指數(shù)與閾值選擇
本文提出的隨機(jī)森林閾值插補(bǔ)方法的基本思想為, 在隨機(jī)森林插補(bǔ)法的基礎(chǔ)上設(shè)定兩個概率閾值, 其中將概率轉(zhuǎn)換為0的第一個閾值仍然采用0.5, 而將概率轉(zhuǎn)換為1的第二個閾值采用結(jié)合模型擬合指標(biāo)的動態(tài)閾值。我們將個人擬合指數(shù)應(yīng)用于動態(tài)閾值的確定。
Cui和Li (2015)將被試?yán)硐敕磻?yīng)與觀察反應(yīng)之間的關(guān)系作為認(rèn)知診斷模型的個人擬合的指標(biāo), 提出采用反應(yīng)一致性指標(biāo)(the response conformity index, RCI)描述學(xué)生的觀察反應(yīng)與基于Q矩陣得出的期望理想反應(yīng)之間的一致性。RCI的具體計算方法如下:
2.3.2 隨機(jī)森林閾值插補(bǔ)法的步驟
2.3.3 隨機(jī)森林閾值插補(bǔ)法的算法實現(xiàn)
采用R語言來實現(xiàn)隨機(jī)森林閾值插補(bǔ)方法, 其具體的算法步驟如下:
(1)導(dǎo)入帶有缺失值的作答矩陣數(shù)據(jù)集, 設(shè)為missData;
(3)將missData數(shù)據(jù)集賦值給oldData;
(4)采用missForest算法對oldData中的缺失值進(jìn)行插補(bǔ), 得到帶有插補(bǔ)概率值的矩陣imputeData;
(5)根據(jù)概率閾值對imputeData作答矩陣重新賦值, 將其轉(zhuǎn)換為新的作答矩陣數(shù)據(jù)集newData。
(6)比較oldData與newData, 如果oldData和newData兩個作答矩陣不完全相同, 則將newData數(shù)據(jù)集賦值給oldData, 重復(fù)第(4)(5)步, 直到oldData與newData完全相同, 迭代終止;
基于上述步驟, 我們在R語言平臺R-3.5.3版本上自編了missForestDINA函數(shù), 以方便研究者和應(yīng)用者使用本研究提出的方法。使用時需事先安裝RFI方法的missForest包(Stekhoven, 2013)和用于認(rèn)知診斷模型參數(shù)估計和數(shù)據(jù)分析的CDM包(George et al., 2016), 然后調(diào)用missForestDINA的主函數(shù)。missForestDINA主要函數(shù)為:
0.01)。
其中missData為輸入的不完整數(shù)據(jù)集, Q為認(rèn)知診斷模型對應(yīng)的Q矩陣, stepV為迭代步長, 函數(shù)返回的是插補(bǔ)后的數(shù)據(jù)集。missForestDINA包的使用非常方便, 使用者只需要讀入含有缺失數(shù)據(jù)的文件和CDM的Q矩陣, 并設(shè)置好搜索最小RCI值的迭代步長, 就能得到插補(bǔ)到的數(shù)據(jù)集。
從RFTI的步驟和公式(5)可以看出, 該方法和其他的缺失數(shù)據(jù)處理方法不同, 它是一種非完全的插補(bǔ)方法。雖然插補(bǔ)后的數(shù)據(jù)集仍可能包含一定比例的缺失數(shù)據(jù), 但是我們預(yù)期這一部分的比例應(yīng)該較低, 在后續(xù)分析中可以采用簡單默認(rèn)的缺失數(shù)據(jù)處理。另外, 我們預(yù)期動態(tài)閾值的插補(bǔ)方法相對于RFI方法有較高的插補(bǔ)正確率。為了驗證我們的預(yù)期, 研究1的主要目的是, 探討在不同的缺失機(jī)制和缺失比例的情況下, RFTI方法的插補(bǔ)正確率, 以及插補(bǔ)后數(shù)據(jù)集的缺失比例, 并將其插補(bǔ)結(jié)果直接與RFI法進(jìn)行比較。
研究1考慮的主要影響因素為數(shù)據(jù)的缺失機(jī)制和缺失比例。
(1)數(shù)據(jù)缺失機(jī)制: 考慮MIXED、MNAR、MAR和MCAR四種缺失數(shù)據(jù)的機(jī)制。
(2)缺失比例: 本實驗借鑒以往研究對缺失比例的設(shè)置條件(Dai, 2017)以及實際測驗可能面臨的情況, 考慮10%、20%、30%、40%、50%五種不同的缺失比例。
因此, 共有4×5=20種實驗條件, 每種組合的條件下, 重復(fù)模擬生成100個符合條件的被試作答數(shù)據(jù)集。再針對每個數(shù)據(jù)集分別使用RFI和RFTI兩種缺失數(shù)據(jù)處理方法對缺失數(shù)據(jù)進(jìn)行插補(bǔ), 主要借助missForest軟件包和自編missForestDINA函數(shù)實現(xiàn)。
參考已有的認(rèn)知診斷相關(guān)文獻(xiàn), 其他條件設(shè)定如下。大多數(shù)研究設(shè)定的屬性個數(shù)為6個(Cheng, 2010; Gierl et al., 2011), 因此本實驗的屬性個數(shù)也設(shè)置為6個。de la Torre等(2010)在研究樣本量對DINA模型參數(shù)估計的影響時, 使用的樣本量是500、1000、2000、4000四個水平, 結(jié)果發(fā)現(xiàn), 當(dāng)樣本量為1000時, DINA模型能得到非常精確的參數(shù)估計。本研究將樣本量設(shè)置為1000, 題目數(shù)設(shè)置為中等長度30。假設(shè)屬性間不存在層級關(guān)系, 試題屬性分配方式是隨機(jī)的, 但是每個屬性至少存在1個測量單一屬性的題目, 每個屬性至少有3個題目測量以保證模型可識別(Xu & Zhang, 2016)。
3.2.1 參數(shù)生成
(1)被試知識狀態(tài)
(2)項目參數(shù)
DINA模型中的猜測參數(shù)和失誤參數(shù)均從均勻分布中抽取, 取值區(qū)間為[0.05, 0.25]。
3.2.2 完整作答數(shù)據(jù)的生成
3.2.3 缺失數(shù)據(jù)的生成
由于使用RFI或RFTI方法進(jìn)行插補(bǔ)時, 需要首先基于目標(biāo)變量上未缺失被試的數(shù)據(jù)訓(xùn)練模型, 因此, 對于生成的完整作答數(shù)據(jù), 從中隨機(jī)選取80%的被試作答數(shù)據(jù)用于生成缺失數(shù)據(jù), 剩下20%的被試保留完整數(shù)據(jù)集, 作為隨機(jī)森林的訓(xùn)練樣本集。需要說明的是, 實際中完整的訓(xùn)練數(shù)據(jù)集并非必須的(Stekhoven, 2013)。
(1) MCAR缺失數(shù)據(jù)的生成
MCAR缺失機(jī)制指的是數(shù)據(jù)的缺失是完全隨機(jī)的, 不依賴于任何變量, 即不論其它變量(如題目難度、區(qū)分度、被試能力值等)如何變化, 數(shù)據(jù)產(chǎn)生缺失的概率都是均等的。根據(jù)MCAR的定義, MCAR數(shù)據(jù)的生成是一個完全隨機(jī)的過程, 當(dāng)數(shù)據(jù)總體缺失比例確定以后, 可以通過產(chǎn)生隨機(jī)數(shù)的方式來確定被試及某一題目的缺失, 缺失的產(chǎn)生并不依賴于被試的能力及項目本身。例如, 當(dāng)數(shù)據(jù)總體缺失比例被設(shè)置為30%的時候, 針對每個被試在每道試題上的作答都生成一個0和1之間的隨機(jī)數(shù)來判斷當(dāng)前作答是否被設(shè)置為缺失, 當(dāng)隨機(jī)數(shù)小于缺失比例0.3時, 試題作答被設(shè)置為缺失。由R語言missForest包中的prodNA函數(shù)具體實現(xiàn)該過程。
(2) MAR缺失數(shù)據(jù)的生成
MAR缺失機(jī)制指的是數(shù)據(jù)缺失的概率不是隨機(jī)的, 會受到數(shù)據(jù)集中已觀測到的其他變量的影響, 但不受缺失數(shù)據(jù)自身的影響。根據(jù)MAR的定義, MAR數(shù)據(jù)的生成借鑒De Ayala等人(2001)及Peugh和Enders (2004)提出的方法。首先, 計算除目標(biāo)題目外, 每個被試的正確作答題目個數(shù); 然后, 依據(jù)被試的得分確定每個被試作答的缺失比例, 得分越高的被試其缺失作答的比例越小, 得分越低的被試其缺失作答的比例越高。具體而言, 首先基于完整的模擬數(shù)據(jù)集計算每個被試在各項目上的CTT得分, 然后將被試的得分進(jìn)行正態(tài)化轉(zhuǎn)換, 通過正態(tài)累積分布函數(shù)找到百分等級位于5%、15%、30%、70%、85%、95%位置上的百分位數(shù), 根據(jù)這些百分位數(shù)將被試分成7組, 設(shè)定得分越高的組數(shù)據(jù)缺失比例越低。用MR表示總?cè)笔П壤? 則每組被試對應(yīng)的缺失比例如表1所示。例如, 對于總?cè)笔П壤齅R為30%的條件, 原始得分處在0%~5%這一區(qū)間的被試, 其缺失比例為1.5 × 30% = 45%, 5%~15%這一區(qū)間的被試, 其缺失作答比例為1.35 × 30% = 40.5%, 依次類推。在確定了各區(qū)間被試作答的缺失比例后, 再針對每個被試在每道試題上的作答都生成一個0和1之間的隨機(jī)數(shù)來判斷當(dāng)前作答是否被設(shè)置為缺失, 當(dāng)隨機(jī)數(shù)小于缺失比例時, 試題作答被設(shè)置為缺失。
表1 不同分?jǐn)?shù)段MAR缺失比例分布
(3) MNAR缺失數(shù)據(jù)的生成
(4) MIXED缺失數(shù)據(jù)的生成
混合缺失機(jī)制是指缺失數(shù)據(jù)集中包含兩種或以上的缺失機(jī)制。本研究借鑒了De Ayala等人(2001)和Dai (2017)及 Peugh和Enders (2004)提出的方法。首先, 采用與生成MAR缺失數(shù)據(jù)時相同的方法, 將被試分為7組, 并計算各組被試缺失作答的比例, 使得分越高的被試的數(shù)據(jù)缺失比例越低。然后, 計算出每個被試的數(shù)據(jù)缺失個數(shù)后, 再采用MNAR缺失數(shù)據(jù)產(chǎn)生的過程得到所有被試的缺失數(shù)據(jù)。這樣可以使得MIXED缺失數(shù)據(jù)的生成不僅依賴于被試能力, 而且依賴于測驗項目本身的特征。
本研究用來評價插補(bǔ)效果的指標(biāo)主要有: (1)缺失數(shù)據(jù)插補(bǔ)的正確率, 描述的是缺失數(shù)據(jù)插補(bǔ)正確的個數(shù)占插補(bǔ)數(shù)據(jù)個數(shù)的比例, 數(shù)值越大表示插補(bǔ)越準(zhǔn)確。在本研究中由于RFI和RFTI插補(bǔ)為0的數(shù)據(jù)個數(shù)相同, 我們只統(tǒng)計插補(bǔ)為1的正確率, 以考察動態(tài)閾值的效果。(2)插補(bǔ)后數(shù)據(jù)集中仍然缺失的數(shù)據(jù)所占比例, 用來描述RFTI插補(bǔ)后仍然缺失的數(shù)據(jù)占總數(shù)據(jù)個數(shù)的比例, 其數(shù)值越小表明插補(bǔ)率越高。如果其比例較低(20%以內(nèi)), 則說明前面提出的采用模型默認(rèn)的方法處理少量沒有插補(bǔ)缺失數(shù)據(jù)是合理的。
表2呈現(xiàn)了不同缺失機(jī)制和缺失比例下, 采用RFI方法和RFTI方法插補(bǔ)值為1時的正確率結(jié)果。表3呈現(xiàn)了不同缺失機(jī)制和缺失比例下RFTI方法的正確率和插補(bǔ)后仍缺失的數(shù)據(jù)比例。
表2 不同缺失機(jī)制和比例下, RFI方法與RFTI方法的插補(bǔ)正確率比較
注: 表中數(shù)據(jù)為插補(bǔ)為1時的插補(bǔ)正確率。
從表2可以看出, 所有條件下, 采用RFTI方法的插補(bǔ)正確率都明顯高于RFI方法。缺失機(jī)制是影響插補(bǔ)率的主要因素, 在缺失機(jī)制為MIXED和MNAR時, 對于各缺失比例平均正確率, RFTI方法比RFI方法要高出約25%。在缺失機(jī)制為MCAR和MAR時, RFI方法的插補(bǔ)正確率也要低于RFTI方法大約10%左右。另外, 隨著缺失比例增加, 兩種方法的插補(bǔ)正確率均出現(xiàn)下降的趨勢, 但是RFI方法下降更快。
表3 不同缺失機(jī)制和比例下, RFTI方法的插補(bǔ)正確率和插補(bǔ)后的缺失率(%)
注: 缺失率是指采用RFTI方法插補(bǔ)后, 數(shù)據(jù)集中沒有被插補(bǔ)數(shù)據(jù)所占比例。
從表3可以看出在同一缺失機(jī)制下, 數(shù)據(jù)正確率的變化受缺失比例的影響不明顯。但不同機(jī)制下插補(bǔ)的正確率存在差異。當(dāng)缺失機(jī)制為MIXED時, 不同缺失比例條件下的正確率都達(dá)到85%以上; 當(dāng)缺失機(jī)制為MNAR時, 插補(bǔ)的正確率與MIXED機(jī)制下的結(jié)果類似; 但是當(dāng)缺失機(jī)制為MAR和MCAR時, 插補(bǔ)的正確率均在78%左右, 略低于MIXED和MNAR機(jī)制下的結(jié)果。這一結(jié)果與隨機(jī)森林方法本身的特點(diǎn)有關(guān), 由于MIXED和MNAR機(jī)制下, 被試的缺失模式反而可以為RFTI方法的訓(xùn)練模型提供更多的關(guān)于缺失反應(yīng)模式的信息。
表3缺失率的結(jié)果表明, 采用RFTI方法對原始數(shù)據(jù)進(jìn)行插補(bǔ)后, 數(shù)據(jù)的缺失率隨著缺失比例的增加呈現(xiàn)上升的趨勢。當(dāng)缺失比例為10%時, 4種缺失機(jī)制下插補(bǔ)后的缺失率均在1%左右; 當(dāng)缺失比例為30%時, MIXED、MAR和MCAR三種缺失機(jī)制下的插補(bǔ)后缺失率均在3%左右, MNAR機(jī)制下也僅為4%左右。當(dāng)缺失比例為50%的時候, MIXED和MNAR機(jī)制下, 插補(bǔ)后的缺失率為10%左右, 而MAR和MCAR機(jī)制下的插補(bǔ)后缺失率略低一些, 均不超過8%。
從研究1的結(jié)果可以看出, 對RFI方法進(jìn)行改進(jìn)后的RFTI方法對于插補(bǔ)值為1時的正確率的提高有明顯效果, 并且采用RFTI方法處理后的數(shù)據(jù)的缺失比例都在10%左右, 因此, 對基于RFTI方法處理后的數(shù)據(jù)進(jìn)行后續(xù)分析時, 可以采用簡單忽略方法。
研究2的主要目的是探討不同缺失機(jī)制和缺失比例下, RFTI方法相比于其它常用的缺失數(shù)據(jù)插補(bǔ)方法的優(yōu)勢。驗證RFTI方法在DINA模型下處理缺失數(shù)據(jù)的效果, 并且與EM算法和RFI方法進(jìn)行對比。同時探討數(shù)據(jù)缺失機(jī)制和缺失比例以及不同缺失數(shù)據(jù)處理方法對被試屬性模式判準(zhǔn)率、屬性邊際判準(zhǔn)率及項目參數(shù)估計精度的影響。
本研究的設(shè)定條件與研究1相同??紤]與缺失相關(guān)的因素有兩個: 缺失機(jī)制(MIXED、MNAR、MAR、MCAR)和缺失比例(10%、20%、30%、40%、50%)。共有4×5=20種組合, 在每一種被試間變量組合的條件下, 重復(fù)模擬生成100個符合條件的被試作答數(shù)據(jù)集, 每個數(shù)據(jù)集分別采用EM、RFI和RFTI三種缺失數(shù)據(jù)處理方法進(jìn)行分析。其他條件與研究1的設(shè)定相同。
模擬數(shù)據(jù)生成方法與研究1相同。對于每種方法插補(bǔ)后的數(shù)據(jù)集, 采用EM算法估計DINA模型的項目參數(shù), 采用后驗概率估計法(Maximum A Posteriori, MAP)估計被試屬性掌握模式。對于RFTI方法中插補(bǔ)后數(shù)據(jù)集中的缺失數(shù)據(jù), 采用忽略缺失數(shù)據(jù)的方法進(jìn)行處理, 即在估計被試掌握模式時將這個被試缺失的題目刪除, 估計題目參數(shù)時將在這道題目上缺失的被試刪除。
關(guān)于項目參數(shù)的估計, 本研究主要采用了2個評價指數(shù), 分別為所有題目偏差Bias和均方根誤差RMSE的均值。所有項目參數(shù)估計的偏差均值定義為:
所有題目上平均的均方根誤差定義為:
關(guān)于被試的知識狀態(tài)估計結(jié)果, 本研究采用了被試屬性模式判準(zhǔn)率(Pattern Match Ratio, PMR)和被試屬性邊際判準(zhǔn)率(Marginal Match Rate, MMR)兩個評價指標(biāo)。
公式(10)和(11)中,表示獨(dú)立重復(fù)模擬的次數(shù);表示被試的人數(shù),為考查屬性個數(shù)。PMR和MMR越高, 表示對被試掌握模式判斷的準(zhǔn)確性就越高。
4.4.1 不同方法被試知識狀態(tài)估計結(jié)果的差異
不同缺失機(jī)制和缺失比例下, 被試屬性模式判準(zhǔn)率(PRM)和屬性邊際判準(zhǔn)率(MMR)結(jié)果見表4。從表4的結(jié)果可以看出, 無論在哪種條件下, RFTI方法在PRM和MMR上的估計結(jié)果均優(yōu)于EM和RFI方法。
表4 不同缺失機(jī)制和缺失比例下各缺失數(shù)據(jù)處理方法所得模式判準(zhǔn)率和邊際判準(zhǔn)率
缺失機(jī)制對不同方法之間的差異有明顯的影響, 無論缺失比例大小, MNAR和MIXED缺失機(jī)制時, RFTI方法的優(yōu)勢更明顯。為了清楚的呈現(xiàn)這一趨勢, 我們以缺失比例30%為例說明三種不同方法在不同缺失機(jī)制上的差異(表4)。從表4的結(jié)果可以看出, 在不同的缺失機(jī)制下, 采用RFTI方法時的PMR均高于其他方法, 特別是在缺失機(jī)制為MIXED和MNAR時優(yōu)勢更加明顯。當(dāng)缺失機(jī)制為MAR和MCAR時, RFTI仍優(yōu)于其他兩種方法, 但是三種方法之間的差異不大。另外, 在MMR上, RFTI方法也均略高于其它方法, MIXED和MNAR缺失機(jī)制下, 優(yōu)勢略微明顯。但整體來講, 由于MMR整體較高, 方法之間的差異不明顯。
缺失比例影響在不同缺失機(jī)制下也表現(xiàn)出近似一致的趨勢, 無論何種缺失機(jī)制, RFTI在PMR和MMR上的表現(xiàn)均最優(yōu), 而且這一優(yōu)勢隨著缺失比例的增加優(yōu)勢越來越明顯。從表4可以看出, 當(dāng)缺失比例為10%的時候, RFI方法和RFTI方法間的差異不明顯, 但均高于EM方法。隨著缺失數(shù)據(jù)比例的增加, 三種方法的PMR都隨之下降, 但RFT方法下降的幅度最小。從MMR的結(jié)果來看, RFTI方法也優(yōu)于其它兩種方法, 方法間差異隨著缺失比例增大而增大。
4.4.2 不同方法項目參數(shù)估計結(jié)果比較
不同缺失機(jī)制和缺失比例下, 采用EM、RFI、RFTI三種方法在DINA模型s參數(shù)和參數(shù)上的估計偏差和均方根誤差的結(jié)果分別見表5和表6。
從表5的結(jié)果可以看出, 隨著缺失比例增大, 3種方法對項目參數(shù)的估計偏差均有增大的趨勢。對于項目參數(shù), 在4種不同缺失機(jī)制下, 無論采用何種缺失數(shù)據(jù)處理方法,的值都被高估。在缺失機(jī)制為MIXED和MNAR時, 缺失比例較低時(≤20%), 三種方法之間差異較小, EM算法表現(xiàn)出微弱優(yōu)勢, 而缺失比例較高時(≥30%)采用RFTI處理方法得到的的估計偏差最小, EM、RFI方法表現(xiàn)相當(dāng), 并且隨著缺失比例增加RFTI方法的優(yōu)勢更為明顯。當(dāng)缺失機(jī)制為MAR和MCAR時, 采用EM方法得到的的估計偏差最小, 采用RFTI方法得到的估計偏差最高。對于項目參數(shù), 無論在哪種缺失機(jī)制下, 采用EM方法時的值存在高估現(xiàn)象, 采用RF和RFT方法時的值都被低估, 但偏差均較s參數(shù)小。
從表6估計均方根誤差的結(jié)果可以看出, 對于項目參數(shù)的均方根誤差的估計精度, 大部分條件下EM方法的表現(xiàn)要優(yōu)于RFI和RFTI方法, 只有在MNAR和MIXED機(jī)制下且缺失比例高時, RFTI方法表現(xiàn)出優(yōu)勢。對于項目參數(shù), 采用EM方法在4種缺失機(jī)制下的表現(xiàn)都是最好, RFI和RFTI方法則表現(xiàn)相當(dāng)。
表5 不同缺失機(jī)制和缺失比例下各處理方法參數(shù)估計偏差
表6 不同缺失機(jī)制和缺失比例下各處理方法參數(shù)估計均方根誤差
本研究嘗試將機(jī)器學(xué)習(xí)中隨機(jī)森林缺失數(shù)據(jù)的插補(bǔ)(RFI)方法應(yīng)用于認(rèn)知診斷模型, 基于RFI方法將缺失數(shù)據(jù)插補(bǔ)為1時的正確率偏低的問題, 提出了一種基于認(rèn)知診斷模型中的個人擬合指標(biāo)RCI來動態(tài)確定閾值的新方法, 即隨機(jī)森林閾值插補(bǔ)方法(RFTI)。該方法首次實現(xiàn)了缺失數(shù)據(jù)插補(bǔ)過程中, 機(jī)器學(xué)習(xí)方法與認(rèn)知診斷模型的結(jié)合應(yīng)用, 正確率和插補(bǔ)率的結(jié)果證實了這是一種有效的動態(tài)選擇閾值的方法。
為驗證該方法有效改進(jìn)了RFI方法插補(bǔ)正確率過低的問題, 我們以DINA模型為例, 探討了不同缺失比例和不同機(jī)制下, RFTI方法對缺失數(shù)據(jù)的插補(bǔ)效果, 結(jié)果證實了我們的假設(shè)和預(yù)期, RFTI方法對于插補(bǔ)值為1時的正確率相對于RFI方法有明顯提高, 并用在各種實驗條件下數(shù)據(jù)的插補(bǔ)率和正確率都有較好的結(jié)果; 從整體正確率來看, 采用RFTI方法比RFI方法有顯著提高。由于其第二閾值的選擇過程中考慮到了錯誤插補(bǔ)可能帶來的對認(rèn)知診斷模型擬合的破壞, 這一方法閾值選擇的思想也體現(xiàn)了隨機(jī)森林方法與認(rèn)知診斷模型的結(jié)合。但是我們也應(yīng)該注意到, 這一方法是一種插補(bǔ)率和正確率之間的有效平衡, 插補(bǔ)后的數(shù)據(jù)集仍存在少量的缺失數(shù)據(jù)。實際中, 由于這一比例較小, 可以將其視為可忽略的缺失值(Little & Rubin, 2002; Muthén et al., 2011), 以降低插補(bǔ)方法帶來的不確定性。
研究2的模擬研究結(jié)果驗證了在被試屬性模式判準(zhǔn)率上, RFTI方法的有效性, 以及與其他方法相比所表現(xiàn)出來的優(yōu)勢。與我們的預(yù)期一致, 由于RFTI是一種非參數(shù)的缺失數(shù)據(jù)插補(bǔ)方法, 其表現(xiàn)出較少受到缺失機(jī)制和缺失比例影響的優(yōu)點(diǎn)。同時, 由于其在缺失數(shù)據(jù)插補(bǔ)過程中, 主要利用被試個體內(nèi)的反應(yīng)模式對其缺失的類別做出概率判斷, 可以充分利用MIXED和MNAR缺失機(jī)制下, 模式反應(yīng)上的差異提供的信息, 因此, 表現(xiàn)出在缺失機(jī)制為MIXED和MNAR時在被試屬性掌握模式上有更為明顯的優(yōu)勢。這一受缺失機(jī)制影響的模式與傳統(tǒng)IRT模型并不一致, 究其原因可能與認(rèn)知診斷模型中對被試知識狀態(tài)的估計實際上是掌握和不掌握的分類預(yù)測, 而非連續(xù)的能力估計。以往研究也發(fā)現(xiàn), 缺失數(shù)據(jù)處理方法的性能與缺失機(jī)制有關(guān), 其關(guān)系取決于具體的研究背景, 包括分析模型和數(shù)據(jù)類型(分類或連續(xù)) (Dai, 2017; Zhuchkova & Rotmistrov, 2021)。因此, 可以推測在CDM和IRT之間, 缺失數(shù)據(jù)機(jī)制對傳統(tǒng)方法的影響可能不同。另一方面, RFTI方法在對被試知識狀態(tài)進(jìn)行估計時表現(xiàn)出的優(yōu)勢可能是因為其在數(shù)據(jù)插補(bǔ)和閾值確定過程中, 關(guān)注的是個人擬合指標(biāo)而非參數(shù)擬合指標(biāo), 同時也可能這一插補(bǔ)過程更多地利用了個體反應(yīng)模式的信息, MNAR和MIXED的缺失機(jī)制相比于MCAR和MAR機(jī)制, 其本身反而提供了一些額外有用的信息。但是, 從項目參數(shù)的估計精度來看, RFTI方法并沒有表現(xiàn)出一致的明顯優(yōu)勢。對于項目參數(shù)大部分條件下采用EM方法時的估計最精確。這可能與RFTI方法本身在訓(xùn)練模型的過程中本質(zhì)上并不能有效利用同一項目不同被試個體的信息有關(guān)。
本研究的重點(diǎn)是將機(jī)器學(xué)習(xí)的方法與認(rèn)知診斷模型結(jié)合, 對其可行性和效果進(jìn)行了初步的檢驗, 尚有許多值得進(jìn)一步思考和研究的問題。
(1)本研究只考慮了0-1評分的情況, 如何對方法改進(jìn)進(jìn)行多級評分的缺失數(shù)據(jù)的插補(bǔ), 應(yīng)用于多級評分的認(rèn)知診斷模型, 還有待進(jìn)一步的研究。(2)對于認(rèn)知診斷模型的選擇, 雖然從理論上來講, RFTI適用于所有明確定義項目反應(yīng)函數(shù)的認(rèn)知診斷模型, 但是本研究只結(jié)合DINA模型驗證了基于個人擬合指數(shù)確定動態(tài)閾值插補(bǔ)方法的有效性, 但是RFTI在其他認(rèn)知診斷模型中, 是否能夠得到與本研究類似的結(jié)果, 仍有待進(jìn)一步驗證。(3)由于本研究重點(diǎn)是探究缺失數(shù)據(jù)的處理, 所以RFTI方法及對該方法優(yōu)勢的結(jié)論都是基于Q矩陣正確設(shè)定的前提, 實際中Q矩陣的正確設(shè)定也是認(rèn)知診斷測評關(guān)注的重要議題。當(dāng)Q矩陣設(shè)定存在錯誤時, 未來研究一方面可以探討RFTI方法對缺失數(shù)據(jù)的插補(bǔ)效果如何受到Q矩陣錯誤設(shè)定以及錯誤設(shè)定程度的影響, 另一方面在采用RFTI方法進(jìn)行缺失數(shù)據(jù)插補(bǔ)前, 可以對Q矩陣設(shè)定進(jìn)行修正(Liu et al., 2021; 李佳等, 2021), 基于修正后的Q矩陣再采用RFTI方法處理缺失值。(4)本研究沒有對屬性之間結(jié)構(gòu)關(guān)系以及認(rèn)知診斷模型中可能存在的項目特征相依(Zhan et al., 2019)帶來的影響進(jìn)行深入的探討, 未來的模擬研究可以設(shè)定更多的條件, 進(jìn)一步考查這些因素對RFTI方法可能產(chǎn)生的影響。(5)本研究確定閾值的過程是在指定范圍內(nèi), 按照事先定義的步長在區(qū)域內(nèi)進(jìn)行搜索, 這一方法在實現(xiàn)雖然較為直接, 但有可能效率較低, 例如比較耗時; 同時可能存在由于步長設(shè)置不同而使得結(jié)果存在細(xì)微的差異。在未來研究中, 可以進(jìn)一步探討不同條件下, 閾值變化與個人擬合指標(biāo)的變化規(guī)律, 在理論上推演二者的關(guān)系, 為閾值的確定提供更充分的依據(jù)。
本研究得到的主要結(jié)論如下。
(1)本研究提出了一種RFI和DINA模型相結(jié)合的RFTI方法, 該方法是一種不依賴于缺失機(jī)制假設(shè)的非參數(shù)插補(bǔ)方法。并開發(fā)了實現(xiàn)這一方法的R程序包, 為實際應(yīng)用者提供了方便易用的工具。
(2)RFTI在正確率上彌補(bǔ)了RFI正確率過低的局限, 并且對DINA模型的項目參數(shù)s和g參數(shù)的估計結(jié)果, 以及被試屬性掌握模式和屬性邊際判準(zhǔn)率的估計結(jié)果均優(yōu)于RFI方法。
(3)對于被試知識狀態(tài)的估計結(jié)果表明, 在考慮的所有條件下, RFTI方法均優(yōu)于RFI方法和EM方法, 特別是在缺失機(jī)制為MIXED和MNAR, 以及缺失比例較高(≥30%)時, RFTI方法的優(yōu)勢更加明顯。
(4)項目參數(shù)估計結(jié)果表明在缺失比例較低或缺失機(jī)制為MCAR和MNAR時, EM方法優(yōu)于RFI和RFTI方法; 在MNAR和MIXED缺失機(jī)制下, 對于參數(shù)的估計RFTI表現(xiàn)出優(yōu)勢。總體而言, 采用RFTI方法在參數(shù)估計上的表現(xiàn)一般, 與其他方法相比并不具備優(yōu)勢。
基于本研究的結(jié)論, 我們給出RFTI方法選擇上的建議如下: 對于含有缺失數(shù)據(jù)的認(rèn)知診斷, 如果研究者關(guān)注的重點(diǎn)是被試知識狀態(tài)的估計(這往往是認(rèn)知診斷測驗本身要解決的問題, 是實際應(yīng)用關(guān)注的焦點(diǎn)), 我們推薦使用新提出的RFTI方法; 但是如果研究者的目的是對項目參數(shù)進(jìn)行準(zhǔn)確估計, 如建立題庫等, 這一方法的使用則要相當(dāng)慎重, 我們則推薦采用EM算法。
Bennett, R. E. (2010). Cognitively based assessment of, for, and as learning (CBAL): A preliminary theory of action for summative and formative assessment.(2?3), 70?91.
Cheema, J. R. (2014). A review of missing data handling methods in education research.(4), 487?508.
Chen, P., & Xin, T. (2011). Item replenishing in cognitive diagnostic computerized adaptive testing.(7), 836?850.
[陳平, 辛濤. (2011). 認(rèn)知診斷計算機(jī)化自適應(yīng)測驗中的項目增補(bǔ).,(7), 836?850. ]
Chen Y., Li X., Liu J., & Ying Z. (2018). Recommendation system for adaptive learning.(1), 24?41.
Cheng, Y. (2010). Improving cognitive diagnostic computerized adaptive testing by balancing attribute coverage: The modified maximum global discrimination index method.(6), 902?913.
Cui, Y., & Li, L. (2015). Evaluating person fit for cognitive diagnostic assessment.(3), 223?238.
Dai, S. (2017).(Unpublished doctoral dissertation). Indiana University.
Dai, S., Svetina Valdivia, D. (2022). Dealing with missing responses in cognitive diagnostic modeling., 4, 318?342. https://doi.org/10.3390/psych4020028
De Ayala, R. J., Plake, B. S. & Impara, J. C. (2001). The impact of omitted responses on the accuracy of ability estimation in item response theory.(3), 213?234.
de la Torre, J., Hong, Y., & Deng, W. (2010). Factors affecting the item parameter estimation and classification accuracy of the DINA model.,(2), 227?249.
Finch, H. (2008). Estimation of item response theory parameters in the presence of missing data.(3), 225?245.
George, A. C., Robitzsch, A., Kiefer, T., Gro?, J., & ünlü, A. (2016). The R package CDM for cognitive diagnosis models.(2), 1?24.
Gierl, M. J., Wang, C., & Zhou, J. (2011). Using the attribute hierarchy method to make diagnostic inferences about examinees' cognitive skills in algebra on the SAT.,(6). Retrieved from http://www.jtla.org
Glas, C., & Pimentel, J. (2008). Modeling nonignorable missing data in speeded tests.(6), 907?922.
Graham, J.W., Taylor, B.J., Olchowski, A.E., & Cumsille, P. E. (2006). Planned missing data designs in psychological research.,323?343.
Johnson, E. G. (1992). The design of the National Assessment of Educational Progress.,(2), 95?110.
Li, J., Mao, X., & Zhang, X. (2021).-matrix estimation (validation) methods for cognitive diagnosis.(12), 2272?2280.
[李佳, 毛秀珍, 張雪琴. (2021). 認(rèn)知診斷Q矩陣估計(修正)方法.(12), 2272?2280.]
Little, R., & Rubin, D. B. (2002).. New York: Wiley.
Liu, Y., Xin, T., & Jiang, Y. (2021). Structural parameter standard error estimation method in diagnostic classificationmodels: Estimation and application.(5), 784?803.
Liu, Y., Andersson, B., Xin, T., Zhang, H., & Wang, L. (2019). Improved Wald statistics for item-level model comparison in diagnostic classification models., 402?414.
Liu,Y., Zhang, Q., Zheng, Z., & Yin, H. (2019). The Robustness of the item-level model comparison statistics in cognitive diagnostic models.,(5), 1251?1259.
[劉彥樓, 張倩萌, 鄭宗軍, 尹昊. (2019). 認(rèn)知診斷模型中項目水平模型比較統(tǒng)計量的健壯性.(5), 1251?1259.]
Liu, Y., & Gopalakrishnan, V. (2017). An overview and evaluation of recent machine learning imputation methods using cardiac imaging data.(1), 8?23.
Luo, Z. S., Li, Y, J., Yu, X. F., Gao, C. L., & Peng, Y. F. (2015). A simple cognitive diagnosis method based on-Matrix theory.,(2), 264?272.
[羅照盛, 李喻駿, 喻曉鋒, 高椿雷, 彭亞風(fēng). (2015). 一種基于Q矩陣?yán)碚摌闼氐恼J(rèn)知診斷方法.(2), 264?272.]
Mabrey, D. J. (2006).-Unpublished doctoral Dissertation, Sam Houston State University, Huntsville, TX.
McArdle, J. J. (1994). Structural factor analysis experiments with incomplete data.,, 409?454.
Mislevy, R. J., & Wu, P. K. (1988).(RR?88?48?ONR). Princeton. NJ: Educational Testing Service.
Muthén, B., Asparouhov, T., Hunter, A., & Leuchter, A. (2011). Growth modeling with non-ignorable dropout: Alternative analyses of the STAR*D antidepressant trial.(1), 17?33.
Pan, Y., & Zhan, P. (2020). The impact of sample attrition on longitudinal learning diagnosis: A Prolog., 1051.
Peugh, J. L., & Enders, C. K. (2004). Missing data in educational research: A review of reporting practices and suggestions for improvement.,(4), 525?556.
Pohl, S., Gr?fe, L., & Rose, N. (2014). Dealing with omitted and not-reached items in competence tests: Evaluating approaches accounting for missing responses in item response theory models.(3), 423?452.
Rose, N., von Davier, M., & Xu, X. (2010).(IRT) (ETS Research Rep. no. RR?10?11), Princeton, NJ: Educational Testing Service.
Schafer, J., & Graham, J. W. (2002). Missing data: Our view of the state of the art.(2), 147?177.
Shen, L., Hu, G. Q., Chen, L. Z., & Tan, H. Z. (2014). Application of missforest algorithm for imputing missing data.(5), 774?776.
[沈琳, 胡國清, 陳立章, 譚紅專. (2014). 缺失森林算法在缺失值插補(bǔ)中的應(yīng)用.(5), 774?776.]
Song, Z. L., Guo, L., & Zheng, T. P. (2022). Comparison of missing data handling methods in cognitive diagnosis: Zero replacement, multiple imputation, and maximum likelihood estimation.,(4), 426?440.
[宋枝璘, 郭磊, 鄭天鵬. (2022). 認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較: 零替換、多重插補(bǔ)與極大似然估計法.,(4), 426?440.]
Stekhoven, D. (2013).. R package version 1.4.
Stekhoven, D., & Bühlmann, P. (2012). MissForest ? nonparametric missing value imputation for mixed-type data.(1), 112?118.
Wang, P. J., Liu, H. Y. (2019). Make adaptive testing know examinees better: The item selection strategies based on recommender systems.,(9), 1057?1067.
[王璞玨, 劉紅云. (2019). 讓自適應(yīng)測驗更知人善選——基于推薦系統(tǒng)的選題策略.,(9), 1057?1067.]
Wang, W. Y. (2012).(Unpublished doctoral dissertation). Jiangxi Normal University, China
[汪文義. (2012).(博士論文). 江西師范大學(xué). ]
Xu, G., & Zhang, S. (2016). Identifiability of diagnostic classification models..(3), 625?649.
Yu, X. F., Luo, Z. S., Gao, C. L., & Qin, C. Y. (2014). Compare the diagnostic assessment classification accuracy when the Q-Matrix contains error.(6), 1482?1488.
[喻曉鋒, 羅照盛, 高椿雷, 秦春影. (2014). Q矩陣包含錯誤的認(rèn)知診斷測驗分類準(zhǔn)確性研究.(6), 1482?1488.]
Zhan, P., Jiao, H., Liao, M., & Bian,Y. (2019). Bayesian DINA modeling incorporating within-item characteristic dependency.(2), 143?158.
Zhang S., & Chang, H. H. (2016). From smart testing to smart learning: How testing technology can assist the new generation of education.,(1), 67?92.
Zhuchkova, S., & Rotmistrov, A. (2021). How to choose an approach to handling missing categorical data: (un)expected findings from a simulated statistical experiment., 1?22. https://doi.org/10.1007/s11135-021-01114-w
Missing data analysis in cognitive diagnostic models: Random forest threshold imputation method
YOU Xiaofeng1, YANG Jianqin1, Qin Chunying1, LIU Hongyun2,3
(1School of Mathematics and Information Science, Nanchang Normal University, Nanchang 330022, China) (2Beijing Key Laboratory of Applied Experimental Psychology, Beijing Normal University, Beijing 100875, China) (3Faculty of Psychology, Beijing Normal University, Beijing 100875, China)
In recent years, interest in cognitive diagnostic assessments (CDAs), as a new form of test, has increased drastically. Due to the specific design of the test, missing data is an inevitable problem in CDAs. Proper handling of missing data in CDAs is important to provide accurate diagnostic feedback to students and teachers. With the use of machine learning in education, relevant advancements have been made in missing data imputation. Research showed machine learning techniques have more desirable features for missing data imputation than traditional approaches. The random forest algorithm has been extended to become the random forest imputation (RFI) method in handling of CDAs missing data for CDAs. The method takes into consideration the characteristics of the data rather than assumes certain missing mechanism. RFI is a new non-parametric method that makes full use of the available response information and characteristics of response patterns to impute missing data.
Making use of advantages of RFI in categorization/prediction and its non-reliant on missing mechanism type, we improved and proposed the new random forest threshold imputation (RFTI) method. It could be used to impute missing responses in the widely used DINA (Deterministic Inputs, Noise “And” Gate) model. This research proposed to apply the Response Conformity Index (RCI) in the missing data imputation to set the threshold of imputation and to develop a method for missing response treatment for CDAs without totally relying on imputation. Two simulation studies were conducted to compare the performance of the proposed method and traditional models. Study 1 began by introducing the theoretical background and algorithm implementation of RFTI. Then, RFTI and RFI were compared in terms of accuracy rate of imputation for data with different proportions of missingness (10%, 20%, 30%, 40%, 50%) and missing data mechanisms (MIXED, MNAR, MAR, MCAR). This was to affirm the necessity of including RCI during imputation. Study 2 aimed to investigate the performance of RFTI, as well as RFI and EM algorithm in imputing missing data under different conditions. The manipulated design factors were identical to those in Study 1. We evaluated RFTI in terms of its accuracy in assessing the model attributes and item parameters. We also compared RFTI against the traditionally better performed EM and RFI under various design conditions to explore the advantages and conditions of using RFTI.
Results of Study 1 showed that RFTI, as compared to RFI, improved accuracy when imputation threshold was one. In various design conditions, RFTI imputation rate and accuracy were also better. Study 2 showed that RFTI outperformed other methods (RFI, EM algorithm) in accurately assessing the attribute pattern and attribute margin. This advantage was affected by the missing data mechanism and the proportion of missing data. Notably, RFTI was particularly better than other methods in handling mixed type of missing or MNAR data, and when the proportion of missing data was higher than 30%. However, RFTI was not any better than other methods in its accuracy of item parameter estimates. In most conditions, EM algorithm provided the most accurate parameter estimates.
In sum, we propose a method to impute missing data in CDAs by applying machine learning methods in measurement models. The advantage of this new method is affirmed through its accurate assessment of attribute pattern and attribute margin of DINA model. Theoretically, the current study provides a missing data imputation approach with less assumptions, which extends the traditional methods to impute missing data in CDAs framework. Moreover, we investigate how to estimate the attribute pattern of students accurately through the responses of a few items. It sheds lights on imputing missing data due to particularly designs in assessment or teaching.
missing data, cognitive diagnostic assessment, random forest threshold imputation, random forest imputation, expectation-maximization algorithm
2022-04-23
* 江西省教育廳科技重點(diǎn)項目(GJJ212601); 南昌市教育大數(shù)據(jù)智能技術(shù)重點(diǎn)實驗室(2020-NCZDSY-012); 國家自然科學(xué)基金項目(32071091)。
劉紅云, E-mail: hyliu@bnu.edu.cn
B841