亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多級屬性Q矩陣的驗證與估計*

        2022-11-15 05:42:16秦春影喻曉鋒
        心理學報 2022年11期

        秦春影 喻曉鋒

        多級屬性矩陣的驗證與估計*

        秦春影1,2喻曉鋒1

        (1江西師范大學心理學院, 南昌 330022) (2南昌師范學院數(shù)學與信息科學學院, 南昌 330032)

        多級屬性是將診斷測驗中傳統(tǒng)的二值(即兩種水平, 通常定義為0和1)屬性定義為多值(多個水平可以為0, 1, …), 它不但可以描述學生對于知識屬性是否掌握, 而且可以描述學生在屬性上的掌握程度, 這樣使得診斷測驗?zāi)芴峁┙o被試更豐富的知識掌握詳情。本文將適用于二級屬性矩陣的統(tǒng)計量(統(tǒng)計量)拓展到多級屬性下的矩陣驗證和估計, 在兩種常見的條件下, 設(shè)計了兩種估計算法:聯(lián)合估計算法和在線估計算法。模擬實驗結(jié)果表明:聯(lián)合估計算法適用于對專家界定的初始矩陣進行驗證, 當初始矩陣中包含較少的錯誤時, 通過聯(lián)合估計算法有很大可能恢復正確的矩陣; 在線估計算法適用于對“新項目”進行屬性向量和項目參數(shù)的在線標定, 基于一定數(shù)量的“基礎(chǔ)項目”, 在線估計算法對于新項目的估計也能達到較滿意的成功率。實證數(shù)據(jù)分析則進一步展示了該方法的使用。

        多級屬性,矩陣, p-DINA模型,統(tǒng)計量

        1 引言

        隨著社會的發(fā)展, 教育和心理測驗已經(jīng)不滿足于單一的總體評價(overall assessment)。認知診斷評價(cognitive diagnosis assessment, CDA)可以提供學生在知識上的掌握詳情, 已受到社會的廣泛關(guān)注(Leighton & Gierl, 2007; Tatsuoka, 2009; Rupp et al., 2010; 羅照盛, 2019; von Davier & Lee, 2019)。傳統(tǒng)的測驗, 如基于經(jīng)典測驗理論(classical test theory, CTT)或基于項目反應(yīng)理論(item response theory, IRT)的測驗都僅僅提供學生的總體分數(shù)或能力, 除了這個總體評價之外, CDA還可以提供學生的知識狀態(tài)(knowledge state, KS), 這個知識掌握狀態(tài)可以對學生的學習、教師的教學和教學效果的評價起到很好的指導和參考作用。

        通常情況下, CDA中學生對知識的掌握情況是用0或1來描述, 1表示學生掌握了某個知識, 0表示沒有掌握, 即學生對知識的掌握僅僅有2個水平。文獻中通常把CDA中細粒度的知識用屬性(attribute; Leighton et al., 2004)來描述, 學生在這多個屬性上的掌握情況就是學生的KS。因此, 學生的KS通常是一個二值向量。將學生對屬性的掌握情況用0和1來描述的好處是相對簡單, 容易解釋, 但是卻也相對粗糙, 不能準確刻畫學生在屬性上的掌握程度, 因為兩個在某屬性上的狀態(tài)都為0的學生之間還是有掌握程度上的區(qū)別的。也正是因為如此, 有很多研究者考慮將屬性的二種取值考慮設(shè)置成多種取值(Karelitz, 2004; von Davier, 2008; Chen & de la Torre, 2013; Sun et al., 2013; 蔡艷, 涂冬波, 2015; 涂冬波, 蔡艷, 2015; 詹沛達等, 2016; Zhan et al., 2020; Shang et al., 2021)。實際應(yīng)用中, 有很多情況都是對知識屬性的多水平要求和考查, 比如《全日制義務(wù)教育數(shù)學課程標準(修改稿)》中就使用了“了解(認識)”、“理解”、“掌握”和“運用”這4個順序類別詞匯來表述知識技能目標的不同水平。因此, 多級屬性能夠?qū)W生做出更為精細地劃分, 將屬性定義成多級的診斷測驗具有現(xiàn)實應(yīng)用價值和前景。

        也正是因為如此, 研究者們對基于多級屬性的CDA展開了研究, 有針對性地開發(fā)了診斷模型, 比如Karelitz (2004)構(gòu)建了基于順序類別屬性編碼(ordered-category attribute coding, OCAC)的診斷模型OCAC-DINA, 并且對矩陣中存在缺失時的參數(shù)估計和分類進行研究; 還有基于其它診斷模型所開發(fā)的多級屬性模型, 像RRUM下的多級屬性模型(Templin, 2004), LCDM下的多級屬性模型(Templin & Bradshaw, 2014); GDM下的多級屬性模型(Haberman et al., 2008; von Davier, 2008); Zhan等人(2020)構(gòu)建了高階的多級屬性的診斷模型等; 與前面這些研究不同的是, Shang等人(2021)借鑒多維IRT的思想, 定義連續(xù)的多級屬性, 并且構(gòu)建了可以處理連續(xù)多級屬性的診斷模型。同傳統(tǒng)的CDA一樣, 多級屬性CDA中的矩陣的作用也十分關(guān)鍵, 它的正確性會直接影響模型參數(shù)的識別、被試的分類乃至整個測驗的信度和效度。并且更重要的是, 在實際應(yīng)用中, 僅僅由專家界定的矩陣很容易出現(xiàn)錯誤或?qū)<乙庖姴灰恢碌那闆r(de la Torre, 2008; DeCarlo, 2012; Liu et al., 2012; 喻曉鋒等, 2015a; Yu & Cheng, 2020)。從目前已有的研究來看, 研究者們采用的多級屬性矩陣大都是由專家界定或模擬生成, 通常假定它是正確的, 沒有對它的正確性或合適性進行驗證, 還缺乏對多級屬性矩陣的驗證和估計方法進行研究。因此, 迫切需要研究客觀的方法來對其正確性進行驗證或估計。本研究擬將適合二級屬性下矩陣的驗證和估計方法拓展到適合多級屬性矩陣的情況, 研究客觀的驗證或估計多級屬性矩陣的方法, 以期能促進多級屬性CDA的發(fā)展。

        2 多級屬性Q矩陣及診斷模型

        在正式介紹多級屬性矩陣的估計算法之前, 首先對多級屬性矩陣及對應(yīng)的診斷模型進行介紹。

        2.1 多級屬性Q矩陣

        如果屬性按按傳統(tǒng)的二級方式, 用0作為截斷點來對屬性進行劃分, 則其所對應(yīng)的矩陣如(2)所示。

        2.2 多級屬性下的診斷模型

        已開發(fā)的適合多級屬性的診斷模型主要有OCAC-DINA (Karelitz, 2004), LCDM下的多級屬性模型(Templin & Bradshaw, 2014), GDM對應(yīng)的多級屬性診斷模型(Haberman et al., 2008; von Davier, 2008), 基于G-DINA框架下的多級屬性模型, 比如Chen和de la Torre (2013), 蔡艷和涂冬波(2015), 高階的多級屬性模型(Zhan et al., 2020), 連續(xù)的多級屬性診斷模型(Shang et al., 2021)等。在這里, 為節(jié)省篇幅, 僅僅介紹與本文有關(guān)的pG-DINA和p-DINA模型。

        3 多級屬性Q矩陣的估計方法

        3.1 基于SP統(tǒng)計量的多級屬性Q矩陣估計

        下面介紹適合于前面提到的兩種應(yīng)用情境的算法。

        3.2 基于SP統(tǒng)計量的聯(lián)合估計算法JE

        3.3 基于SP統(tǒng)計量的在線估計算法OE

        JE算法需要專家已經(jīng)對測驗中的所有項目屬性均已界定, 只是其中包含錯誤。不同的是, OE算法只需要專家對少部分項目已經(jīng)界定, 對剩余的項目未界定(可以是以下三種情況:新編制的項目需要界定屬性、專家之間對屬性界定持不同意見的項目、屬性定義不確定或有懷疑的項目), 在這種情況下, 可以采用OE算法進行估計。

        4 研究設(shè)計

        4.1 對于JE算法

        4.2 對于OE算法

        4.3 數(shù)據(jù)模擬

        4.3.1矩陣

        4.3.2 項目參數(shù)

        4.3.3 被試參數(shù)

        4.3.4 作答數(shù)據(jù)

        基于真實的矩陣、項目參數(shù)和被試參數(shù), 按照p-DINA模型模擬作答數(shù)據(jù)。

        4.3.5 初始矩陣

        4.3.6 參數(shù)估計

        數(shù)據(jù)的模擬和分析采用matlab編寫程序完成, 每種實驗條件重復100次, 最后取100次的平均值作為最終的結(jié)果。

        4.3.7 評價指標

        平均迭代次數(shù)是對100次估計的總迭代次數(shù)計算平均值。

        與平均迭代次數(shù)類似, 我們同樣也分別記錄了兩種方法的平均執(zhí)行時間, 它也描述了對應(yīng)方法的計算效率, 具體計算公式為

        4.4 研究1:多級屬性Q矩陣和參數(shù)的聯(lián)合估計

        聯(lián)合估計適合的測驗情形是:專家已對測驗項目都已界定, 只是對部分項目的屬性定義尚不確定、可能界定錯誤或意見不統(tǒng)一時使用。采用JE算法可以對矩陣進行驗證, 并且輸出建議的矩陣。下面分兩種錯誤類型進行介紹。

        4.4.1 僅僅存在屬性值界定錯誤時的聯(lián)合估計

        在實際應(yīng)用中, 專家在界定某些項目的屬性值時出現(xiàn)分歧或錯誤的情況, 即前面所介紹的錯誤I, 這是一種相對簡單的情形。因此本研究考察當初始矩陣中有部分項目僅僅出現(xiàn)屬性低估或高估的情況(不包括低估至0或從0高估的情況)。

        學生在測驗中的作答模擬是按真實矩陣完成, 只是在分析數(shù)據(jù)時采用包含錯誤的“初始矩陣”作為輸入, 采用JE算法來實現(xiàn)對矩陣、項目參數(shù)和被試參數(shù)的聯(lián)合估計, 最后比較算法估計得到的矩陣與真實矩陣之間的差異, 若完全一致,則估計成功, 否則估計失敗, 并且統(tǒng)計估計過程中的迭代次數(shù)。

        4.4.2 存在屬性值錯誤、含多余屬性或缺失必要屬性時的聯(lián)合估計

        相對來說, 錯誤II是比錯誤I更嚴重的錯誤, 因為不但會出現(xiàn)屬性低估和高估, 同時還會出現(xiàn)將未考察的屬性包含進來, 也可能會出現(xiàn)將考察的屬性遺漏, 這在實際應(yīng)用也是有可能出現(xiàn)的, 錯誤I可以看成是錯誤II的一種特殊情形。因此本研究考察當初始矩陣出現(xiàn)錯誤II時JE算法的表現(xiàn)。

        4.5 研究2:多級屬性Q矩陣和參數(shù)的在線估計

        在線估計算法OE適合的另一種測驗情形, 即僅僅少部分項目被正確界定, 有大批項目需要定義屬性向量的情況, 比如對編制的一批新題進行界定(包括屬性向量和參數(shù)), “新項目”的屬性向量不需要專家進行初始界定, 可以按隨機方式生成, 在這種情況下, 可以借助已有項目的信息, 完成對新項目的界定。

        界定時需要學生同時作答“基礎(chǔ)項目”和“新項目”, 估計時固定“基礎(chǔ)項目”的屬性向量, 只需要估計“新項目”的屬性向量。為了充分利用已有信息, 減少“噪音”信息引起的“遮罩效應(yīng)”(masking effect; Fung, 1993; Yuan & Zhong, 2008)帶來的負面影響, 估計時采用每次只加入一個“新項目”的增量式估計的方式進行。并且, 為了降低由于“基礎(chǔ)題”的質(zhì)量所帶來的影響, 在OE算法結(jié)束后, 對整個矩陣再使用JE算法進行整體估計, 提高估計的成功率。最后比較算法估計得到的矩陣與真實矩陣之間的差異, 若完全一致, 則估計成功, 否則估計失敗, 并且統(tǒng)計估計過程中的迭代次數(shù)。

        需要注意的是, OE算法中是指完成所有的“新項目”估計后, 如果“新項目”沒有估計成功, 則對包含“基礎(chǔ)項目”和“新”項目的矩陣用JE算法進行聯(lián)合估計, 因此從這個角度來看, OE算法中的迭代次數(shù)與JE算法中一樣, 也是指對所有項目完成一次估計的次數(shù)。

        4.6 試驗結(jié)果

        4.6.1 JE算法的估計結(jié)果

        表1~表4是JE算法在項目數(shù)(30, 15)和錯誤類型(I和II)時的估計結(jié)果, 從結(jié)果可以看出, JE算法在估計矩陣時, 其執(zhí)行效率和正確率受到多方面因素的影響, 比如:被試人數(shù), 測驗的項目數(shù), 包含的錯誤項目數(shù)等的影響。研究1和研究2是分別安排在兩臺云服務(wù)器上運行的, 服務(wù)器的具體配置是:CPU是2顆至強E5-2697, 十二核心; 內(nèi)存類型DDR5, 容量是64 G; 硬盤類型是固態(tài), 容量512 G。從算法的執(zhí)行效率來看, 雖然算法的搜索空間已經(jīng)下降了很多, 但是依然有較大的搜索空間, 各種條件下的平均執(zhí)行時間仍然較大, 最低情況下需要一天的時間(89182.33秒)。從算法的正確率來看, 相對來看, 測驗項目數(shù)對于正確率的影響很大, 測驗項目從30下降到15, 估計成功率平均下降了61.67%。

        從表1和表2中可以看出, 被試人數(shù)和測驗項目數(shù)都與矩陣估計成功率有正向的相關(guān)關(guān)系, 而錯誤項目數(shù)與矩陣估計成功率則有負向的相關(guān)關(guān)系。根據(jù)本研究中的條件, 被試人數(shù)為2000, 測驗項目數(shù)為30, 可以達到較好的估計結(jié)果。具體來說, 對于估計成功率,矩陣包含30題時各條件下都能達到80%以上, 而15題時最好的情況都要小于60%。從迭代次數(shù)來看, 測驗項目數(shù)為15時, 各樣本條件下需要的平均迭代次數(shù)小于2.5, 而當項目數(shù)達到30時, 對應(yīng)需要的迭代次數(shù)超過3。圖1和圖2進一步展示了JE算法的表現(xiàn)隨著錯誤界定項目數(shù)發(fā)生變化的趨勢。

        表3和表4分別是測驗項目數(shù)為30, 15, 并且矩陣中包含錯誤類型II時的估計結(jié)果??梢钥闯? 一方面被試人數(shù)的增加可以提高JE算法的估計成功率, 比如測驗長為30, 錯誤項目數(shù)為3和5時, 被試人數(shù)從1000提高到4000, 估計成功率分別提高了7%和13%。另一方面, 被試人數(shù)和錯誤項目數(shù)會對估計成功率會產(chǎn)生交互作用, 因為當測驗長度只有15, 錯誤項目數(shù)3和5, 人數(shù)從1000提高到4000, 估計成功率分別提高了18%和5%, 此時人數(shù)的增加對低錯誤項目數(shù)影響更大, 這與測驗長度為30時的情況正好相反。圖3和圖4是測驗項目為15題時JE算法的表現(xiàn)隨著錯誤界定項目數(shù)發(fā)生變化的情況。

        表1 錯誤類型I, 時JE算法的估計成功率和平均迭代次數(shù)

        表2 錯誤類型I, 時JE算法的估計估計成功率和平均迭代次數(shù)

        圖1 錯誤類型I時, JE算法的估計結(jié)果

        圖2 錯誤類型I時, JE算法的迭代次數(shù)

        表3 錯誤類型II, 時JE算法的估計成功率平均迭代次數(shù)

        表4 錯誤類型II, 時JE算法的估計成功率和平均迭代次數(shù)

        綜合表1, 表2, 表3和表4可以看出, 一方面, 當錯誤類型為II時, 相同人數(shù)、題目條件下要略低于錯誤類型I時的估計成功率, 并且相應(yīng)的迭代次數(shù)也要更多, 這是因為錯誤類型II時, 項目屬性向量可能的取值空間更大所導致的; 另一方面, 從平均運行時間來看, 相對于錯誤類型I, 固定其它條件時錯誤類型II各對應(yīng)的實驗條件需要相對更多的運行時間, 這一點是和更大的迭代次數(shù)相一致的。

        圖3 錯誤類型II時, JE算法的估計結(jié)果

        圖4 錯誤類型II時, JE算法的迭代次數(shù)

        綜合圖1、圖2、圖3和圖4, 隨著矩陣中包含的錯誤項目數(shù)增加, 不論是錯誤類型I還是錯誤類型II, JE算法估計的成功率在下降, 所需要的迭代次數(shù)在增加。

        4.6.2 OE算法的估計結(jié)果

        從圖5~圖8可以看出, 當測驗項目數(shù)從30降到15時, 算法所需要的迭代次數(shù)會有較大的增加, 比如基礎(chǔ)題為10個, 1000人, 長度30和15的測驗所需要的迭代次數(shù)分別為0.74和1.06。

        圖5 OE算法在的估計結(jié)果

        圖6 OE算法在的迭代次數(shù)

        表5 時OE算法的估計成功率和平均迭代次數(shù)

        注:OE算法中的平均迭代次數(shù)是指在對數(shù)據(jù)進行整體估計時的平均迭代次數(shù), 如果估計過程不需要整體估計即已成功完成, 則該批數(shù)據(jù)的迭代次數(shù)為0。

        表6 時OE算法的估計估計成功率和平均迭代次數(shù)

        圖7 OE算法對的估計結(jié)果

        圖8 OE算法對的平均迭代次數(shù)

        5 實證數(shù)據(jù)分析

        為了進一步評價兩種算法的性能, 將它們應(yīng)用到一批實證數(shù)據(jù)上。這批實證數(shù)據(jù)是來自于某市高中的一次月考, 選取了數(shù)學試卷中與概率有關(guān)的試題。這部分測試題考察了隨機事件, 樣本空間, 古典概率, 使用頻數(shù)估計概率共4個屬性。每個屬性有5個連續(xù)的掌握類別:不了解, 了解, 理解, 掌握和應(yīng)用, 分別用0, 1, 2, 3, 4表示?;谶@4個屬性, 由學科專家共編制了20個題, 一共有1960個考生完成了測驗。

        表7 概率數(shù)據(jù)對應(yīng)的原始Q矩陣

        對于OE算法, 我們選擇了初始矩陣中的5個題目(表A4中灰色背景顯示的題目), 選擇這5個題目的原因是學科專家對這5道題的屬性定義完全一致, 并且它們在JE算法的建議矩陣中也得到了驗證。余下的15道題作為“新題目”, 將它們逐個用OE算法進行估計。當所有的“新題目”完成了估計, 再用JE算法對所有題目進行聯(lián)合估計, 這樣就得到了OE算法建議的矩陣, 如網(wǎng)絡(luò)版附錄中的表A4所示。可以看出, OE算法建議修改6個題目, 共涉及6個屬性。除了第19題之外, 由JE和OE兩種算法得到的建議矩陣是完全一致的。對于第19題, 專家界定的初始向量為[0 0 4 2], JE和OE算法得到的屬性向量分別是[0 0 3 3]和[0 0 4 3]。在與5位一線的教師進行討論之后, 他們其中的4位都傾向于同意OE算法得到的結(jié)果, 即將第4個屬性初始定義的水平2修改為水平3。

        6 討論與進一步的研究方向

        雖然JE和OE算法在模擬條件下取得了較好的結(jié)果, 即使如此, JE和OE算法仍然需要在更復雜的情況中去驗證, 對于JE算法, 這里只考慮“初始矩陣”中包含的錯誤項目較少, 對于更多錯誤時的估計或者所能容忍的最大錯誤項目數(shù)量需要進一步研究; 對于OE算法, 研究中隨機選擇了100批“基礎(chǔ)項目”, 這100批“基礎(chǔ)項目”的質(zhì)量有好有壞, 并沒有考慮“基礎(chǔ)項目”的質(zhì)量對于估計的影響, 如果進一步研究“基礎(chǔ)項目”的設(shè)計, 使之更有利于“新項目”的估計, 就像診斷測驗中的矩陣設(shè)計一樣, 在基礎(chǔ)題中加入“可達矩陣”對于矩陣估計的影響等(Chen et al., 2015; 丁樹良等, 2019; 彭亞風等, 2016, 2018; Gu et al., 2018; Gu & Xu, 2021), 應(yīng)該是很有意義的工作。本研究中無論是JE還是OE算法, 只考慮了兩種錯誤類型, 實際上, 還有可能存在其它的錯誤類型, 未來需要對其它更多可能的情況進行研究。另外, 現(xiàn)實的測驗情境往往是很復雜的, 比如考生可能是存在多種解題策略的, 因此, 結(jié)合多種策略的診斷測驗中矩陣的估計需要進一步考慮(黃玉等, 2019)。測驗的屬性間很可能存在某種層級關(guān)系(喻曉鋒等, 2021), 屬性間存在層級關(guān)系時的多值矩陣估計也是未來需要研究的方向。

        基于S統(tǒng)計量的矩陣估計一個不足之處在于需要花費較多的時間, 這對于實際應(yīng)用可能是一個潛在的缺陷, 未來對提出的方法進行時間效率上的改進或研究時間效率更高的方法都值得進一步研究。比如Yu和Cheng (2020)的研究表明, 0-1計分下基于殘差統(tǒng)計量的統(tǒng)計量比基于統(tǒng)計量在運行效率上有優(yōu)勢, 因此將基于殘差的統(tǒng)計量拓廣到多值屬性診斷測驗的矩陣估計值得考慮; 未來也需要進一步考慮一些非參數(shù)的方法, 因為它們通常對于樣本量的要求較小, 并且有執(zhí)行效率上的優(yōu)勢(劉娜等, 2021); 將基于深度學習等一些算法拓廣到多值屬性診斷測驗的矩陣估計(張玉柳等, 2021; Li et al., 2022)也需要深入研究。

        實證數(shù)據(jù)的分析表明, 本研究中提出的基于統(tǒng)計量的聯(lián)合估計算法和在線估計算法可以在實際中應(yīng)用, 并且結(jié)果顯示專家對于題目屬性向量的錯誤定義更容易出現(xiàn)在高估或低估屬性的水平上, 不太容易出現(xiàn)完全缺失某個屬性或包含額外的屬性等更嚴重的情況。OE算法的一個副產(chǎn)品是同時將新項目的參數(shù)進行了估計, 并且它能保證與基礎(chǔ)項目的參數(shù)處于同一個尺度上。將屬性間的關(guān)系納入考慮需要進一步研究, 未來也需要將算法應(yīng)用到其它的診斷模型中(Ma & de la Torre, 2019; Zhan et al., 2020)。

        Cai, Y., & Tu, D. B. (2015). Extension of cognitive diagnosis models based on the polytomous attributes framework and their Q-matrices designs.(10), 1300–1310.

        [蔡艷, 涂冬波. (2015). 屬性多級化的認知診斷模型拓展及其Q矩陣設(shè)計.(10), 1300–1310.]

        Chen, J. S., & de la Torre, J. (2013). A general cognitive diagnosis model for expert-defined polytomous attributes.(6), 419–437.

        Chen, Y. X., Liu, J. C., Xu, G. J., & Ying, Z. L. (2015). Statistical analysis of Q-matrix based diagnostic classification models.(510), 850–866.

        Chung, M.-T. (2014).(Unpublished doctoral dissertation), Columbia University, New York.

        DeCarlo, L. T. (2012). Recognizing Uncertainty in the Q-Matrix via a Bayesian Extension of the DINA Model.(6), 447–468.

        de La Torre, J. (2008). An empirically based method of Q-matrix validation for the DINA model: Development and applications.(4), 343–362.

        de la Torre, J. (2009). DINA model and parameter estimation: A didactic.(1), 115–130.

        de la Torre, J. (2011). The generalized dina model framework.(2), 179-199.

        de la Torre, J., & Chiu, C. Y. (2016). A general method of empirical Q-matrix validation.,(2), 253–273.

        Ding, S. L., Luo, F., Wang, W. Y., & Xiong, J. H. (2019). The designing cognitive diagnostic test with dichotomous scoring.(5), 441–447.

        [丁樹良, 羅芬, 汪文義, 熊建華. (2019). 0-1評分認知診斷測驗設(shè)計.(5), 441–447.]

        Fung, W.-K. (1993). Unmasking outliers and leverage points: A confirmation.(422), 515–519.

        Gu, Y. Q., Liu, J. C., Xu, G. J., & Ying, Z. L. (2018). Hypothesis testing of the Q-matrix,(3), 515–537.

        Gu, Y. Q., & Xu, G. J. (2021). Sufficient and Necessary Conditions for the Identifiability of the Q-matrix., 449–472.

        Haberman, S. J., von Davier, M., & Lee, Y.-H. (2008).(ETS Research Report no. RR-08-45). Princeton, NJ: Educational Testing Service.

        Huang, Y., Luo, F., Xiong, J. H., Ding, S. L., & Gan, D. W. (2019). The multiple-strategy cognitive diagnosis method with polytomous scoring.(4), 376–381.

        [黃玉, 羅芬, 熊建華, 丁樹良, 甘登文. (2019). 多級評分多策略認知診斷方法.(4), 376–381.]

        Karelitz, T. M. (2004).(Unpublished doctoral dissertation), University of Illinois at Urbana-Champaign.

        Leighton, J. P., & Gierl, M. J. (2007).. Cambridge University Press.

        Leighton, J. P., Gierl, M. J., & Hunka, S. M. (2004). The attribute hierarchy method for cognitive assessment: A variation on Tatsuoka’s rule-space approach.(3), 205–237.

        Li, C. C., Ma, C. C., & Xu, G. J. (2022). Learning large Q-matrix by restricted Boltzmann machines.. https://doi.org/10.1007/s11336-021-09828-4.

        Liu, J. C., Xu, G. J., & Ying, Z. L. (2012). Data driven learning of Q matrix.(7), 548–564.

        Liu, J. C., Xu, G. J., & Ying, Z. L. (2013). Theory of self-learning Q-matrix.(5A), 1790–1817.

        Liu, N., Liu, X. L., Li, J. J., Zeng, P. F., Yu, X. J., & Kang, C. H. (2021). Constructing a non-parametric Q-matrix correction method based on Manhattan distance.(6), 634–641.

        [劉娜, 劉芯伶, 李俊杰, 曾平飛, 俞向軍, 康春花. (2021). 基于曼哈頓距離構(gòu)建非參數(shù)Q矩陣修正方法.(6), 634–641.]

        Luo, Z. S. (2019).. Beijing Normal University publishing group.

        羅照盛. (2019).北京師范大學出版集團.

        Ma, W., & de la Torre, J. (2019). An empirical Q-matrix validation method for the sequential generalized DINA model.(1), 142–163.

        Peng, Y. F., Luo, Z. S., Li, Y. J., Gao, C. L. (2018). Optimization of test design for examinees with different cognitive structures.(1), 130–140.

        [彭亞風, 羅照盛, 李喻駿, 高椿雷. (2018). 不同認知結(jié)構(gòu)被試的測驗設(shè)計模式.(1), 130–140.]

        Peng, Y. F., Luo, Z. S., Yu, X. F., Gao, C. L., Li, Y, J. (2016). The optimization of test design in Cognitive Diagnostic Assessment.(12), 1600–1611.

        [彭亞風, 羅照盛, 喻曉鋒, 高椿雷, 李喻駿. (2016). 認知診斷評價中測驗結(jié)構(gòu)的優(yōu)化設(shè)計.(12), 1600–1611.]

        Qin, C. Y., Jia, S., Fang, X. W., & Yu, X. F. (2020). Relationship validation among items and attributes,(18), 3360–3375

        Qin, C. Y., Zhang, L., Qiu, D., Huang, L., Geng, T., Jiang, H., ... Zhou, J. (2015). Model identification and Q-matrix incremental inference in cognitive diagnosis.,, 66–76.

        Rupp, A. A., Templin, J., & Henson, R. A. (2010).Guilford Press.

        Shang, Z. R., Erosheva, E. A., Xu, G. J. (2021). Partial-masterycognitive diagnosis models.(3), 1529 –1555.

        Sun, J. N., Xin, T., Zhang, S. M., & de la Torre, J. (2013). A polytomous extension of the generalized distance discriminatingmethod.(7), 503–521.

        Tatsuoka, K. K. (2009).. Routledge.

        Templin, J. L. (2004).(Unpublished doctoral dissertation), University of Illinois at Urbana-Champaign.

        Templin, J. L., & Bradshaw, L. (2013). Measuring the reliability of diagnostic classification model examinee estimates.(2), 251–275.

        Templin, J. L., Bradshaw, L. (2014). The use and misuse of psychometric models.(2), 347–354.

        Tu, D. B., & Cai, Y. (2015). The development of CD-CAT with polytomous attributes.(11), 1405–1414.

        [涂冬波, 蔡艷. (2015). 基于屬性多級化的認知診斷計算機化自適應(yīng)測驗設(shè)計與實現(xiàn).(11), 1405–1414.]

        von Davier, M. (2008). A general diagnostic model applied to language testing data.(2), 287–307.

        von Davier, M., & Lee, Y.-S. (2019).. Cham: Springer International Publishing.

        Wang, D. X., Cai, Y, & Tu, D. B. (2020). Q-matrix estimation methods for cognitive diagnosis models: Based on partial known Q-matrix,, 1–13. https://doi.org/10.1080/00273171.2020.1746901.

        Xiang, R. (2013).(Unpublished doctoral dissertation), Columbia University, New York.

        Xu, G.-J. (2013).(Unpublished doctoral dissertation), Columbia University, New York.

        Yu, X. F., & Cheng, Y. (2020). Data-driven Q-matrix validation using a residual‐based statistic in cognitive diagnostic assessment.(1), 145–179.

        Yu, X. F., Luo, Z. S., Gao, C. L., Li, Y. J., Wang, R., & Wang, Y. T. (2015a). An item attribute specification method based on the likelihood D2 statistic.(3), 417–426.

        [喻曉鋒, 羅照盛, 高椿雷, 李喻駿, 王睿, 王鈺彤. (2015a). 使用似然比D2統(tǒng)計量的題目屬性定義方法.(3), 417–426.]

        Yu, X. F., Luo, Z. S., Qin, C. Y., Gao, C. L., & Li, Y. J. (2015b). Joint estimation of model parameters and Q-matrix based on response data.(2), 273–282.

        [喻曉鋒, 羅照盛, 秦春影, 高椿雷, 李喻駿. (2015b). 基于作答數(shù)據(jù)的模型參數(shù)和Q矩陣聯(lián)合估計.(2), 273–282.]

        Yu, X. F., Ma, Y. F., Luo, Z. S., & Qin, C. Y. (2021). The attribute hierarchical structure learning based on K2 algorithm.(4), 376–383.

        [喻曉鋒, 馬奕帆, 羅照盛, 秦春影. (2021). 基于K2算法的屬性層級結(jié)構(gòu)學習研究.(4), 376–383.]

        Yuan, K.-H., & Zhong, X. (2008). Outliers, leverage observations, and influential cases in factor analysis: Using robust procedures to minimize their effect.(1), 329–368.

        Zhan, P. D., Bian, Y. F., Wang, L. J. (2016). Factors affecting the classification accuracy of reparametrized diagnostic classification models for expert-defined polytomous attributes.(3), 318–330.

        [詹沛達, 邊玉芳, 王立君. (2016). 重參數(shù)化的多分屬性診斷分類模型及其判準率影響因素.(3), 318–330.]

        Zhan, P. D., Wang, W., Li, X. M. (2020). A partial mastery, higher-order latent structural model for polytomous attributesin cognitive diagnostic assessments., 328–351.

        Zhang, Y. L., Zhao, B., & Tao, J. H. (2021). The study on students' cognitive state based on fuzzy cognitive diagnostic framework.(5), 452–459.

        [張玉柳, 趙波, 陶金洪. (2021). 基于模糊認知診斷模型的學生認知狀態(tài)研究.(5),452–459.]

        附錄:

        附表A1 30題對應(yīng)的矩陣130

        附表A2 15題對應(yīng)的矩陣215

        項目編號屬性 屬性1屬性2屬性3屬性4屬性5 110000 201000 300100 400010 500001 612000 701200 800120 900012 1020001 1122010 1221002 1310220 1402102 1500221

        附表A3 由JE算法得到概率論數(shù)據(jù)的建議-matrix

        注:表格中用粗斜體顯示的元素表示JE算法所修改后的屬性取值

        附表A4 由OE算法得到概率論數(shù)據(jù)的建議-matrix

        注:陰影顯示對應(yīng)的題目表示OE算法中的“基礎(chǔ)題”, 余下的題目對應(yīng)的是需要估計的“新題”。粗斜體顯示元素表示OE算法所修改后的屬性取值。加星號的題目表示由OE算法給出的建議值與JE算法給出的建議值不一致的題目。

        Validation and estimation of expert-defined-matrix with polytomous attribute

        QIN Chunying1,2, YU Xiaofeng1

        (1School of Psychology, Jiangxi Normal University, Nanchang, 330022, China) (2School of Mathematics and Information Science, Nanchang Normal University, Nanchang 330032, China)

        Cognitive diagnosis has recently gained prominence in educational assessment, psychiatric evaluation, and many other disciplines. Generally, entries in the-matrix of traditional cognitive diagnostic tests are binary (two levels, defined as 0 and 1). Polytomous attributes (multi-levels, defined as 0, 1, …), particularly those defined as part of the test development process, can provide additional diagnostic information. Compared to binary attributes, polytomous attributes can not only describe the student's knowledge profile, but can provide more extensive details.

        As we all know,-matrix impacts the accuracy of cognitive diagnostic assessment greatly. Research on the effect of parameter estimation and classification accuracy caused by the error in-matrix already existed, and it turned out that-matrix gotten from expert definition or experience was more easily subject to be affected by subjective factors, lead to a misspecified-matrix. Under this circumstance, it’s urgently needed to find more objective polytomous-attribute-matrix verification and inference methods.

        The present research proposes the verification and estimation of expert-defined polytomous attribute-matrix based on the polytomous deterministic inputs, noisy, ‘‘a(chǎn)nd’’ gate (p-DINA) model. We intend to extend the methods adapted to binary-matrix verification and estimation to polytomous attribute-matrix, and the proposed methods which can be used in different conditions are joint estimation and online estimation. Simulation results show that: the joint estimation algorithm can be applied to the-matrix validation which needs an initial-matrix defined by experts, the online estimation algorithm can be applied to online estimate the “new items” based on a certain number of “based items”. Under the various settings in the simulations, the two estimation algorithms can recover the correct polytomous-attribute-matrix at a high probability. Empirical study also indicates that the two proposed algorithms can be applied in-matrix validation or estimation for CDA with polytomous attributes.

        polytomous attribute,-matrix, p-DINA model, S statistics

        2021-10-06

        * 全國教育科學規(guī)劃項目(BGA210060); 教育部教育考試院“十四五”規(guī)劃支撐專項課題(NEEA2021050);江西省社會科學基金項目(21JY06); 江西省高校人文社會科學項目(XL20202); 南昌市教育大數(shù)據(jù)智能技術(shù)重點實驗室(2020-NCZDSY-012); 江西省教育廳科技項目(GJJ212602, GJJ191691, GJJ191128)資助。

        喻曉鋒, E-mail: xyu6@jxnu.edu.cn

        B841

        国产极品美女高潮无套| 东京热无码人妻中文字幕| 久久精品国产亚洲AV无码不| 一区二区视频网站在线观看| 日韩人妻中文字幕专区| 四虎影在永久在线观看| 精品视频一区二区三区在线观看| 99久久er这里只有精品18| 欧美亚洲国产人妖系列视| 久久亚洲一级av一片| 中文字幕人妻日韩精品| 久久久久无码国产精品一区| 国产精品igao视频网| 国产成人综合久久久久久| 青青青视频手机在线观看| 国产精品一区二区性色| 久久精品国产精品青草| 国产精品久久久久久影视| 有码精品一二区在线| 69国产成人综合久久精| 亚洲成熟中老妇女视频| 国产精品无码素人福利不卡| 亚洲欧美日本| 国产韩国精品一区二区三区| 亚洲熟女av一区少妇| 亚洲高清一区二区三区在线播放| 又大又紧又粉嫩18p少妇| 开心婷婷五月激情综合社区| 天天中文字幕av天天爽| 高清少妇二区三区视频在线观看| 亚洲av无码av在线播放| 国产乱子乱人伦电影在线观看| 天堂69亚洲精品中文字幕| 自拍视频在线观看国产| 夫妻免费无码v看片| 欧美另类高清zo欧美| 91爱爱视频| 日产国产精品亚洲高清| 夜夜躁狠狠躁日日躁2022| 五月婷一本到五月天| 中文字幕一区二区三区精品在线|