亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于作答數(shù)據(jù)的模型參數(shù)和Q矩陣聯(lián)合估計*

2015-02-06 00:52:24喻曉鋒羅照盛秦春影高椿雷李喻駿

心理學報 2015年2期

喻曉鋒羅照盛秦春影高椿雷李喻駿

(1江西師范大學心理學院,南昌 330022)(2亳州師范高等專科學校,亳州 236800)

1 引言

認知診斷評價(也稱認知診斷)是現(xiàn)代心理與教育測量學發(fā)展的新方向,它是心理學(如認知心理學、心理測量學)、數(shù)學(如現(xiàn)代統(tǒng)計數(shù)學)和計算機科學等相結(jié)合的產(chǎn)物。相對于其它的測驗形式,認知診斷最吸引人的地方是能夠提供被試在測驗領(lǐng)域上細粒度的掌握情況報告。認知診斷通過被試在測驗項目上的反應(yīng)推斷被試在測驗領(lǐng)域上的知識掌握詳情(即屬性掌握模式),這個屬性掌握模式可以使我們更準確的了解被試在測驗領(lǐng)域上的長處和不足,有利于進一步的學習和輔導(dǎo)。近年來,越來越多的研究者加入到認知診斷評價的理論和應(yīng)用研究中,認知診斷的理論和實踐都取得了較快的發(fā)展。

在認知診斷評價研究過程中發(fā)展出了許多的計量學認知診斷模型,如規(guī)則空間模型(Rule Space Model,RSM)(Tatsuoka,2009)、屬性層級方法(Attribute Hierarchy Method,AHM)(Leighton,Gierl,&Hunka,2004)、DINA(Deterministic Inputs,Noisy“And” gate,DINA)(Junker &Sijtsma,2001 )模型等。本文中的認知診斷模型特指潛在分類模型(Latent Class Model,LCM)(de la Torre &Douglas,2004;Maris,1999),不包括多成分潛在特質(zhì)模型(Multicomponent Latent Trait Model,MLTM)(Embretson &Yang,2013)。在眾多的診斷模型中,DINA模型由于簡單、易于解釋而受到廣泛的關(guān)注。Q矩陣(Tatsuoka,1983)是認知診斷評價的一個重要組成部分,幾乎所有的認知診斷評價研究都要建構(gòu)一個Q矩陣。被試的屬性掌握模式是潛在的、不可觀察的,我們只能通過可觀察的項目反應(yīng)來推斷被試的屬性掌握模式,而這之間的橋梁是Q矩陣。因此,Q矩陣的準確性對于認知診斷評價的準確性影響很大。已有研究表明,錯誤的Q矩陣會影響診斷模型的識別和診斷分類準確率(Rupp &Templin,2008)。

通常情況下,Q矩陣是通過專家根據(jù)經(jīng)驗和領(lǐng)域知識來界定的,受到專家的知識和經(jīng)驗等主觀因素的影響較大。在Q矩陣的定義中主要存在兩個方面的問題：一是由于專家對測驗所測領(lǐng)域的知識把握不準導(dǎo)致測驗整體屬性架構(gòu)定義不準確,這可能會造成整個測驗的屬性個數(shù)和屬性含義定義不準;二是專家對某些具體項目的屬性定義不準確,這會導(dǎo)致這部分項目的屬性向量定義不準確。正是基于對這些問題的認識,認知診斷評價中迫切需要研究更加客觀的推導(dǎo)和驗證Q矩陣的方法。國內(nèi)外的研究者已經(jīng)開始關(guān)注這方面的研究,比如de la Torre(2008)提出了一種基于經(jīng)驗的方法對Q矩陣進行驗證;丁樹良等人對 Q矩陣理論進行了深入研究(丁樹良,羅芬,汪文義,2012;丁樹良,毛萌萌,汪文義,羅芬,Cui,2012;丁樹良,汪文義,羅芬,2012;丁樹良,祝玉芳,林海菁,蔡艷,2009);涂冬波等人對DINA模型下的Q矩陣修正進行了研究(涂冬波,蔡艷,戴海崎,2012);Liu,Xu和 Ying(2011,2012)研究了在DINA模型下,Q矩陣中部分項目的屬性向量定義不準確的問題。他們通過構(gòu)建項目作答分布和屬性掌握模式分布之間關(guān)系的

矩陣,定義了從作答數(shù)據(jù)中推導(dǎo)Q矩陣的判別函數(shù),并據(jù)此推導(dǎo)出擬合該測驗的最佳Q矩陣。但是,Liu等人將猜測參數(shù)和失誤參數(shù)當作已知,直接設(shè)置成某個固定值。由于正確的Q矩陣本身是未知的,除了在模擬情形下,我們不可能預(yù)先得到項目參數(shù)的值,因此,假定項目參數(shù)值已知限制了該方法的進一步應(yīng)用。另一方面,在實際的應(yīng)用中,關(guān)于測驗整體屬性的個數(shù)也不是那么容易確定的,比如著名的“分數(shù)減法數(shù)據(jù)”的屬性個數(shù)在二十多年后仍然存在爭議(DeCarlo,2011,2012)。有研究者研究了項目屬性向量界定錯誤的情況下對參數(shù)估計和分類的影響(Rupp &Templin,2008),但是也沒有涉及到屬性個數(shù)界定錯誤的情況。因此,有必要研究當屬性個數(shù)存在錯誤的情況下,Q矩陣的估計問題。

本研究基于實際應(yīng)用的目的,一方面,引入一個聯(lián)合算法,將 Liu等人的方法進行修改,在項目參數(shù)未知的情形下,從作答數(shù)據(jù)和“專家界定的 Q矩陣”中估計出較準確的項目參數(shù)和“正確的 Q矩陣”;另一方面,研究了當“專家界定的 Q 矩陣”中少了必要的屬性或多了額外的屬性時,如何利用聯(lián)合算法得到的結(jié)果來判斷Q矩陣的正確性。

本文的內(nèi)容安排如下：第2部分介紹有關(guān)的符號、概念和聯(lián)合估計算法;第3部分研究該算法在Q矩陣中存在錯誤項目時的表現(xiàn);第4部分研究Q矩陣中屬性個數(shù)界定錯誤時該算法的表現(xiàn);第5部分對研究方法、研究結(jié)果進行了總結(jié)和討論。

2 Q矩陣的估計

假定測驗中一共有

個項目,考察

個屬性,共有

個被試參加測驗。本文是基于DINA模型,在Liu等人方法(Liu et al.,2011,2012)的基礎(chǔ)上進行的研究,因此首先對涉及到的相關(guān)概念、DINA模型和Liu等人提出的方法進行介紹。為了方便讀者閱讀,本文中的許多符號和表示方式與Liu等人的論文中保持一致。

2.1 相關(guān)的概念和符號

屬性：在認知診斷評價中,屬性通常是指為了正確完成某個任務(wù)或項目,被試所需要擁有的知識、技能或特質(zhì),它是對被試知識掌握狀況的細粒度描述。

Q矩陣：Q矩陣是用來描述項目和屬性之間的聯(lián)系,它是一個

的矩陣,其中每一行(也稱行向量)代表一個項目,行向量中的每個值都是二值的,

取0時表明項目

沒有考察屬性

取1時表明項目

考察了屬性

。

向量：Q矩陣中的每一個行向量都代表了一個項目,記為

,其中

=1,2,…,

,這個行向量也稱為項目

的屬性向量。

Q矩陣界定錯誤：在界定Q矩陣的時候,存在兩類錯誤,一種是Q矩陣中的項目界定錯誤,這通常是指在屬性個數(shù)界定正確的前提下,但是部分項目的屬性向量界定有錯誤;另一種是Q矩陣的屬性個數(shù)界定錯誤,這樣會導(dǎo)致即使其它屬性是正確界定的,但是所有項目的屬性向量都是錯誤的,因為Q矩陣中缺少了必要的列或多了不必要的列。如果沒有特別說明,文中所提到的Q矩陣界定錯誤均是指Q矩陣中有部分項目的屬性向量界定錯誤。

2.2 DINA模型

2.3 β向量、T矩陣和目標函數(shù)S

向量β描述的是測驗中每個項目和項目組合上正確作答人數(shù)的比例。β向量的定義方式為

表1描述了兩個屬性在被試總體中的分布,其中

表示被試總體中對 A和 A都沒掌握的人數(shù)比例,

表示被試總體中沒有掌握A,但是掌握了A的被試的比例。

表1 測驗考察兩個屬性時的總體分布

注：

中的每個元素表示列編號對應(yīng)的被試在行所表示的項目或項目組合上的正確作答概率

2.4 Q矩陣和項目參數(shù)的聯(lián)合估計算法

Liu等人(2011,2012)提出通過作答數(shù)據(jù)推導(dǎo)Q矩陣的方法,其模擬實驗結(jié)果表明,當固定項目參數(shù)為0.2,考察屬性個數(shù)為3、4和5,整個Q矩陣中有3個項目的屬性向量被界定錯誤的條件下,他們的方法恢復(fù)正確Q矩陣的可能性很大。具體結(jié)果請見表2,表2是直接從Liu等(2012)引用的。

表2 100批模擬數(shù)據(jù)中正確估計Q矩陣的次數(shù)

由于Liu等人(2011,2012)固定失誤和猜測參數(shù)都為 0.2,而現(xiàn)實情況中,不同項目參數(shù)通常是不同的。為此,我們對Liu等人的方法進行改進,設(shè)計了對項目參數(shù)和 Q矩陣進行同時估計的聯(lián)合估計算法,簡稱為聯(lián)合估計算法。

算法的具體描述如下：

第一次迭代從

(0)出發(fā),迭代的結(jié)果記為

(1),作為第二次迭代的初始矩陣。類似地,第

次迭代時,其“出發(fā)點”是算法上一次得到的估計值

(

-1),第

次迭代過程的詳細描述如下：

(5)重復(fù)(2)～(4),直到更新所有

個項目的屬性向量為止。(6)重復(fù)上述步驟,直到Q( m )=Q( m-1),即第

次迭代前后兩次的 Q矩陣不變,則所得到的

(

)和項目參數(shù)即為算法最終的估計值。執(zhí)行步驟(2)到(4)時會固定其它項目的屬性向量不變,只對項目

在所有可能的屬性向量(共有2-1種)下計算

,選擇使

值最小的向量作為項目

的屬性向量。所有項目都完成更新稱為一次迭代,在一次迭代中,需要計算S函數(shù)和調(diào)用EM算法估計項目參數(shù)的次數(shù)都為

×(2

)

。

3 研究一項目參數(shù)和Q矩陣的聯(lián)合估計算法

考查在DINA模型下,聯(lián)合估計算法在不同條件下的表現(xiàn)。

3.1 研究方法

使用和 Liu等(2012)相同的方法,模擬屬性個數(shù)為 3、4和 5,被試人數(shù)為 500、1000、2000和 4000,項目個數(shù)為20,模擬真實的Q矩陣分別如圖1。

圖1 模擬的真實Q矩陣

猜測參數(shù)和失誤參數(shù)按均勻分布進行模擬,取值區(qū)間為[0.05,0.25]。分別模擬不同屬性個數(shù)(3、4和 5),不同被試人數(shù)(500、1000、2000和 4000)條件下的數(shù)據(jù),一共有 3′4=12種數(shù)據(jù),每種數(shù)據(jù)模擬100次。當項目個數(shù)比較大時,飽和的

矩陣(Liu et al.,2012)是一個非常龐大的矩陣,因此,為了減少計算時間,提高算法的執(zhí)行效率,按照 Liu等人(2012)的做法,在構(gòu)造的

矩陣中,選擇的項目組合最大到

+1個,這樣一來,可以顯著減少

矩陣的行數(shù)。

初始Q矩陣的選擇按照Liu等人(2012)的做法,隨機從Q矩陣中選擇3個項目進行修改,使被選擇的 3個項目的屬性向量與正確的屬性向量不一致(比如在 Q下,每個項目可能的屬性向量有 2-1=7種情況,只有一種是正確的,可以隨機選擇剩余的6種之一作為其屬性向量,這樣就實現(xiàn)了模擬項目屬性向量界定錯誤的情形)。在這里我們不只是考察了錯誤項目個數(shù)為3的情況,而且也考察了錯誤項目個數(shù)為4和5的情況,即在Q矩陣中隨機選擇3、4或5個項目進行隨機修改,使得Q矩陣中除了這3、4或5個項目是被錯誤界定的,其它項目的屬性界定都完全正確,以這樣的矩陣作為初始Q矩陣,使用聯(lián)合估計算法估計項目參數(shù)和Q矩陣。

所有的模擬過程使用matlab編寫程序,在臺式機上實現(xiàn),CPU為intel I5 3400,內(nèi)存為4G。當屬性為3個、被試為500人、項目為20題時,平均完成一次估計Q矩陣的時間在10分鐘左右。

3.2 研究結(jié)果

表3列出了在不同屬性個數(shù),不同被試人數(shù),不同錯誤項目個數(shù)情況下,聯(lián)合估計算法的表現(xiàn)。當被試人數(shù)達到 1000及以上時,聯(lián)合估計算法能夠 100%的估計出正確的 Q矩陣,因此,被試人數(shù)為2000,4000時的結(jié)果在表3中未列出。

表3 使用聯(lián)合估計算法從 100批模擬數(shù)據(jù)中正確估計Q矩陣的次數(shù)

從結(jié)果可以看出,使用聯(lián)合估計算法對項目參數(shù)和Q矩陣進行估計,即使是在被試人數(shù)為500時,不同屬性個數(shù)的 Q矩陣恢復(fù)成真值的可能性仍然很大。當被試人數(shù)達到 1000時,各種情況下都能100%恢復(fù)成正確的Q矩陣。

我們也考察了推導(dǎo)失敗的數(shù)據(jù)集,估計失敗時包含兩種情況：一種是迭代過程中“沒有經(jīng)過正確的 Q矩陣”,另一種是“經(jīng)過了正確的Q矩陣”。在這兩種情況下,迭代次數(shù)和目標函數(shù)之間的變化關(guān)系,迭代次數(shù)和錯誤屬性個數(shù)之間的關(guān)系,請參考圖2和圖3。圖2和圖3分別描述的是當被試人數(shù)為500,屬性個數(shù)為5,錯誤項目個數(shù)分別為3和5時的一次失敗估計過程。

從表3可以看出,當屬性個數(shù)為5時,聯(lián)合估計算法需要的被試人數(shù)要大于 500,才能 100%的恢復(fù)正確的Q矩陣。從圖2和圖3可以看出,當被試人數(shù)為500時,估計的Q矩陣可能無法到達正確的Q矩陣(如圖2),或者經(jīng)過正確的 Q矩陣但是并沒有識別出來(如圖3)。因此,在這兩種情況下,增加被試人數(shù)是有效的解決手段,Liu等人(2012)年提到采用提前終止算法的方法來解決類似于圖3的情況,但是這種方法所使用的提前終止策略主觀性較強。

圖2 估計的Q矩陣“沒有經(jīng)過”正確的Q矩陣

圖3 估計的Q矩陣“經(jīng)過”正確的Q矩陣,但算法此時沒有收斂

為了更進一步考察被試人數(shù)較少和錯誤項目個數(shù)較多時聯(lián)合估計算法的適應(yīng)性,我們考察了Q下,被試人數(shù)分別為300,400,錯誤項目個數(shù)為3,4,5,6時的情況,模擬數(shù)據(jù)的方法與前面相同,每種情況都模擬100次,結(jié)果如表4所示。

表4 使用聯(lián)合估計算法從 100批模擬數(shù)據(jù)中正確估計Q矩陣的次數(shù)

表4中的結(jié)果進一步表明,聯(lián)合估計算法在被試人數(shù)較少(比如 300),錯誤項目個數(shù)較多(比如 6個)時,聯(lián)合估計算法依然有很大的可能估計出正確的 Q矩陣,成功率達到 77%。當被試人數(shù)達到400時,成功率達到81%。提高被試人數(shù)是提高Q矩陣估計成功率的有效手段,也表明被試人數(shù)是影響聯(lián)合估計算法準確性的一個重要因素。

關(guān)于項目參數(shù)的估計結(jié)果,分兩種情況,一種是通過聯(lián)合估計算法可以得到正確的Q矩陣,在這種情況下,項目參數(shù)的估計精度與 de la Torre(2009)中的結(jié)果相近;當通過聯(lián)合估計算法得到的Q矩陣與正確的Q矩陣有差別,此時項目參數(shù)的估計精度與 Q矩陣真實值和估計值之間的差異有關(guān),Rupp 和 Templin(2008)對這種情況進行了詳細和深入的研究。

4 研究二屬性個數(shù)界定錯誤時的Q矩陣估計

在實際的應(yīng)用中,測驗整體的屬性個數(shù)也不是那么容易確定的。因此,有必要研究當屬性個數(shù)存在錯誤的情況下,聯(lián)合估計算法的適應(yīng)性?；诖?考察當專家界定的屬性個數(shù)與正確的屬性個數(shù)相差為 1(少一個必要的屬性或多一個額外的屬性)時,算法所估計出的 Q矩陣和項目參數(shù)能給我們帶來什么樣的參考信息,是否能夠估計出正確的 Q矩陣？

當Q矩陣中的屬性個數(shù)存在錯誤時,考察缺少必要屬性或存在多余屬性時對 Q矩陣估計和項目參數(shù)估計的影響。

4.1 Q矩陣中包含一個額外的屬性

4.1.1 研究方法

這里的Q矩陣還是與3.1中的相同,向Q矩陣中添加一個隨機的二值列向量作為屬性界定個數(shù)多一個的情形,其它未涉及到的列保持不變。在Q中,增加一列有 4種可能,即在第 1列前,第 1與第2列之間,第2與第3列之間,第3列之后。按照這種方法,從Q、Q和Q可以生成包含多余一個屬性的Q矩陣15個,作答數(shù)據(jù)仍采用前面的數(shù)據(jù),只是在估計時的初始Q矩陣是在真實Q矩陣上增加1個屬性列后所對應(yīng)的矩陣,被試分別是500、1000、2000和 4000人,一共就有 15×4=60種情況。

當Q矩陣中包含一個額外的屬性時,這將導(dǎo)致所有項目的屬性向量都是錯誤的,但是除了這個額外屬性之外,其它所有屬性在每個項目中的界定都是正確的。

4.1.2 研究結(jié)果

在估計得到的矩陣中刪除

列,以這個刪除

列后得到的矩陣為基礎(chǔ),通過聯(lián)合估計算法就可以很容易得到正確的Q矩陣。這說明,聯(lián)合估計算法能很好的處理Q矩陣中有額外屬性的情況。在實際的數(shù)據(jù)中,如果Q矩陣中出現(xiàn)

列,可以通過計算

值和項目參數(shù)值共同來決定該列是否多余,如果刪除這個

后的Q矩陣對應(yīng)的

更小,并且包含這些屬性的項目的失誤參數(shù)明顯下降,就表明可以刪除

所對應(yīng)的列,即 Q矩陣中有了一個額外的屬性,可以刪除該屬性,進一步使用聯(lián)合估計算法來驗證或估計正確的Q矩陣。

圖4 存在額外屬性時聯(lián)合估計算法得到的Q矩陣

4.2 Q矩陣中缺少一個必要的屬性

4.2.1 研究方法

Q矩陣與3.1中相同,隨機從Q矩陣中刪除一列作為缺少一個必要屬性的情形。以3個屬性為例,刪除一列有3種可能,即可以刪除第1、2或3列,在刪除列的時候,如果導(dǎo)致某行剩下的元素全部為0,則刪除該項目。按照這種方法,從Q、Q和Q可以生成缺少一個必要屬性的Q矩陣12個,作答數(shù)據(jù)仍采用前面的數(shù)據(jù),只是在估計時的初始Q矩陣是在真實Q矩陣上刪除1個屬性列后所對應(yīng)的矩陣,被試分別是500、1000、2000和4000人,一共就有12×4=48種情況。

為了便于說明問題,以 Q為例說明缺少一個必要屬性的情況。假定項目參數(shù)都為 0.2。某個項目的屬性向量為(1 0 1),被試總?cè)藬?shù)

是一個很大的正整數(shù),并且 8種屬性掌握模式是均勻分布的,則理想情況下,屬性掌握模式為(1 0 1)和(1 1 1)的兩類被試可以正確作答該項目,其余6類被試只能通過猜測。因此,根據(jù) DINA模型假設(shè),應(yīng)該有

×0.2×2/8的被試發(fā)生失誤而錯誤作答,有

×0.2×6/8的被試發(fā)生猜測而正確作答。當缺少第一個屬性時,項目變成了(0 1),則導(dǎo)致認為屬性掌握模式為(0 0 1),(0 1 1),(1 0 1),(1 1 1)的被試均可以正確作答該項目,人數(shù)為

×4/8,其余4種被試只能通過猜測,人數(shù)為

×4/8。但是實際上,這部分被試中應(yīng)該正確作答并且確實正確作答的人數(shù)為

×0.2×2/8+

×(1-0.2)×2/8=

×2/8,應(yīng)該正確作答但是錯誤作答的人數(shù)為

×4/8-

×2/8=

×2/8,則采用錯誤的 Q矩陣導(dǎo)致失誤參數(shù)為(

×2/8)/(

×4/8)=0.5,猜測參數(shù)為(

×0.2×4/8)/(

×4/8)=0.2。但是如果是另一個項目(0 0 1),刪除屬性后變成(0 1),通過同樣的分析過程可知,其猜測參數(shù)和失誤參數(shù)不會受到影響。對于4和5個屬性的情況,結(jié)論同樣適用。

4.2.2 研究結(jié)果

表5列出了在Q中刪除第1個屬性,被試人數(shù)為500時,對剩余項目(因為刪除屬性1之后,項目1,4,7的屬性向量變成了全“0”,只剩下17個項目)的參數(shù)估計與刪除屬性1之前的參數(shù)估計比較,△

和△

表示兩種情況下參數(shù)估計的差值。

表5 在Q1中刪除屬性1前后項目參數(shù)估計的結(jié)果比較

表5中的粗體顯示的數(shù)值對應(yīng)考察了屬性1的項目,從表5中可以看出,凡是考察到屬性1的項目的失誤參數(shù)都有明顯的變化,并且變化量都在0.2以上,而其它未考察到屬性1的項目的參數(shù)變化較小。

因此,當懷疑“專家界定的Q矩陣”中有多余屬性時,可以在“專家界定的 Q 矩陣”中刪除一列(多余的屬性所在的列),然后通過聯(lián)合估計算法進行參數(shù)估計。結(jié)果中如果發(fā)現(xiàn)有部分項目的失誤參數(shù)明顯上升,猜測參數(shù)變化較小,其余項目的參數(shù)基本保持不變,并且

值會變大,這些信息就提示所刪除的列不應(yīng)該被刪除,這個列所對應(yīng)的屬性是一個必要屬性。進一步,可以在專家界定的Q矩陣的基礎(chǔ)上使用聯(lián)合估計算法估計正確的Q矩陣。當項目的屬性向量中包含所有必需的屬性和一個多余的屬性時,會導(dǎo)致猜測參數(shù)上升,但是不會影響失誤參數(shù)(de la Torre,2008)。以這樣的Q矩陣(包含一個多余的屬性)為基礎(chǔ),會導(dǎo)致計算的目標函數(shù)

偏大。當Q矩陣中多余屬性對應(yīng)的元素值都為“0”時(即所有項目都未考察該屬性),項目參數(shù)估計值更接近其真值,此時目標函數(shù)

達到最小。因此,聯(lián)合估計算法可以處理Q矩陣中多余一個屬性的情況。當項目的屬性向量中僅僅只缺少一個必需的屬性,會導(dǎo)致失誤參數(shù)上升,但是不會影響猜測參數(shù)(de la Torre,2008)。以這樣的Q矩陣(缺少一個必需的屬性)為基礎(chǔ),會導(dǎo)致計算的目標函數(shù)

偏大。項目參數(shù)估計值總是圍繞真值附近波動,僅僅考慮通過項目參數(shù)估計值來判斷 Q矩陣的正確性存在較大主觀性,而這里的目標函數(shù)

同時考察了項目參數(shù)和作答數(shù)據(jù),項目參數(shù)估計值越接近于真值,

越小。并且Liu等(2011)已經(jīng)證明,當Q矩陣正確時,隨著被試人數(shù)的增加,目標函數(shù)

會趨于0。因此,當Q矩陣中存在一個多余的屬性或缺少一個必需的屬性時,聯(lián)合估計算法可以提供很好的參考信息。

5 結(jié)論與討論

通過對聯(lián)合估計算法的研究,結(jié)果發(fā)現(xiàn),當被試人數(shù)較少時,比如300,錯誤項目達到6個時,算法依然有很大可能恢復(fù)成正確的Q矩陣,這使得該算法在實際應(yīng)用中成為可能的選擇。當專家對部分項目的界定有困難、對Q矩陣的界定產(chǎn)生不一致的意見或者對界定的 Q矩陣的正確性產(chǎn)生懷疑的時候,可以使用該算法以作答數(shù)據(jù)和初始的Q矩陣為基礎(chǔ)進行估計。這個算法的一個前提是,專家必須對部分項目的屬性界定是有把握的,如果Q矩陣中大部分項目的界定都是錯誤的,該算法也很難估計出正確的Q矩陣。因為在估計過程中包含了太多的“噪音”信息而使得估計過程可能根本不會“經(jīng)過”或“到達”真實的Q矩陣,并且整個可能的Q矩陣空間是巨大的,可能的Q矩陣個數(shù)為(2-1)個,搜索這個空間在短時間內(nèi)是無法完成的,不可能對整個空間進行完全搜索。

另一方面,在實際的應(yīng)用過程中,Q矩陣的錯誤大多數(shù)是項目的屬性向量界定錯誤,但是有時候測驗中的屬性個數(shù)也難以確定。一般來說,屬性個數(shù)在界定的時候不至于出現(xiàn)較大的偏差,因此本文只考察了 Q矩陣中缺少一個必要的屬性時和多余一個額外的屬性情況下算法的表現(xiàn)。結(jié)果表明,當Q矩陣中多出不必要的屬性時,算法能將其“識別”出來,因為幾乎所有項目在這個屬性上都被界定為0,這就提示我們,該 Q矩陣中可能包含了不必要的屬性,在刪除這一列之后,通過聯(lián)合估計算法可以得到正確的Q矩陣。當在Q矩陣中刪除必要的屬性時,會導(dǎo)致考察了該屬性的項目的失誤參數(shù)明顯上升,而其它未考察該屬性的項目的參數(shù)基本不變,基于這些信息則基本可以確定該屬性是必要的屬性,不應(yīng)該被刪除,以此為基礎(chǔ),通過聯(lián)合估計算法可以估計出正確的Q矩陣。當然,在實際的應(yīng)用中,通過聯(lián)合估計算法得到的Q矩陣最好還要由領(lǐng)域?qū)＜疫M行進一步“確認”,或者與其它Q矩陣的估計和驗證方法共同來估計和驗證Q矩陣。

總之,聯(lián)合估計算法在部分項目被錯誤界定的情況下,有很高的恢復(fù)正確Q矩陣的成功率。相對于Liu等人的方法,聯(lián)合估計算法恢復(fù)成功率更高,這也有可能是由于本研究中模擬的項目參數(shù)在大部分情況下更小(Liu等人采用的是固定 0.2,而這里采用的是[0.05,0.25]的均勻分布)的原因?qū)е碌?但是采用聯(lián)合估計項目參數(shù)和 Q矩陣更加符合現(xiàn)實情況;另一方面,對于屬性個數(shù)界定錯誤情況下的 Q矩陣估計,之前并未見有文獻進行詳細報導(dǎo),當 Q矩陣中存在一個額外屬性或缺少一個必要的屬性時,該方法可以提供很好的參考信息,進一步可以通過聯(lián)合估計算法估計出正確的Q矩陣。

聯(lián)合估計算法存在的一個問題是必須對正確的Q矩陣有所了解,也就是已經(jīng)有一個經(jīng)專家初步定義好了的Q矩陣。如果對Q矩陣一無所知,聯(lián)合估計算法就不太可能估計出正確的Q矩陣。如何在對Q矩陣一無所知或了解較少的情況下,通過作答數(shù)據(jù)估計出正確的Q矩陣,需要進一步的研究。并且本研究只是考慮了 Q矩陣中缺少一個必要屬性以及添加一個多余屬性的情況下,聯(lián)合估計算法能夠提供有用的參考信息。如果缺少或添加了更多的屬性,算法得到的結(jié)果與真實的Q矩陣的差距就很大了,此時算法提供的信息的參考價值就很有限了,需要進一步研究推導(dǎo)Q矩陣中屬性個數(shù)的方法。

de la Torre,J.(2008).An empirically based method of Q-matrix validation for the DINA model:Development and applications.

Journal of Educational Measurement,45

(4),343–362.de la Torre,J.(2009).DINA model and parameter estimation:A didactic.

Journal of Educational and Behavioral Statistics,34

(1),115–130.de la Torre,J.,&Douglas,J.A.(2004).Higher-order latent trait models for cognitive diagnosis.

Psychometrika,69

(3),333–353.DeCarlo,L.T.(2011).On the analysis of fraction subtraction data:The DINA model,classification,latent class sizes,and the Q-matrix.

Applied Psychological Measurement,35

(1),8–26.DeCarlo,L.T.(2012).Recognizing uncertainty in the Q-Matrix via a bayesian extension of the DINA model.

Applied Psychological Measurement,36

(6),447–468.Ding,S.L.,Luo,F.,&Wang,W.Y.(2012).Extension to Tatsuoka’s Q matrix theory.

Psychological Exploration,32

(5),417–422.[丁樹良,羅芬,汪文義.(2012).Q矩陣理論的擴展.

心理學探新,32

(5),417–422.]Ding,S.L.,Mao,M.M.,Wang,W.Y.,Luo,F.,&Cui,Y.(2012).Evaluating the consistency of test items relative to the cognitive model for educational cognitive diagnosis.

Acta Paychologica Sinica,44

(11),1535–1546.[丁樹良,毛萌萌,汪文義,羅芬,Cui,Y.(2012).教育認知診斷測驗與認知模型一致性的評估.

心理學報,44

(11),1535–1546.]Ding,S.L.,Wang,W.Y.,&Luo,F.(2012).Q matrix and Q matrix theory in cognitive diagnosis.

Journal of Jiangxi Normal University(Natural Science),36

(5),441–445.[丁樹良,汪文義,羅芬.(2012).認知診斷中 Q 矩陣和 Q矩陣理論.

江西師范大學學報(自然科學版),36

(5),441–445.]Ding,S.L.,Zhu,Y,F.,Lin,H.J.,&Cai,Y.(2009).Modification of Tatsuoka’s Q matrix theory.

Acta Psychologica Sinica,41

(2),175–181.[丁樹良,祝玉芳,林海菁,蔡艷.(2009).Tatsuoka Q 矩陣理論的修正.

心理學報,41

(2),175–181.]Embretson,S.E.,&Yang,X.D.(2013).A multicomponent latent trait model for diagnosis.

Psychometrika,78

(1),14–36.Junker,B.W.,&Sijtsma,K.(2001).Cognitive assessment models with few assumptions,and connections with nonparametric item response theory.

Applied Psychological Measurement,25

(3),258–272.Leighton,J.P.,Gierl,M.J.,&Hunka,S.M.(2004).The attribute hierarchy method for cognitive assessment:A variation on Tatsuoka's rule-space approach.

Journal of Educational Measurement,41

(3),205–237.Liu,J.C.,Xu,G.J.,&Ying,Z.L.(2011).Theory of the self-learning Q-matrix.

Bernoulli,19

,1790–1817.Liu,J.C.,Xu,G.J.,&Ying,Z.L.(2012).Data driven learning of Q matrix.

Applied Psychological Measurement,36

(7),548–564.Maris,E.(1999).Estimating multiple classification latent class models.

Psychometrika,64

(2),187–212.Rupp,A.A.,&Templin,J.L.(2008).The effects of Q-matrix misspecification on parameter estimates and classification accuracy in the DINA model.

Educational and Psychological Measurement,68

(1),78–96.Tatsuoka,K.K.(1983).Rule space:An approach for dealing with misconceptions based on item response theory.

Journal of Educational Measurement,20

(4),345–354.Tatsuoka,K.K.(2009).

Cognitive assessment:An introduction to the rule space method

.New York:Taylor &Francis Group.Tu,D.B.,Cai,Y.,&Dai,H.Q.(2012).A new method of Q-Matrix validation based on DINA model.

Acta Psychologica Sinica,44

(4),558–568.[涂冬波,蔡艷,戴海崎.(2012).基于DINA模型的Q矩陣修正方法.