蔡 艷 涂冬波
(江西師范大學(xué)心理學(xué)院,江西省心理與認(rèn)知科學(xué)重點(diǎn)實驗室,南昌 330022)
q
=1說明項目 i測量了屬性 k;若q
=0說明項目i未測量屬性k;與此Q矩陣相對應(yīng)的是被試的屬性掌握模式即知識狀態(tài)(knowledge states)α
,它反應(yīng)了被試j是否掌握了屬性k,若α
=1說明被試j掌握了屬性k;若α
=0說明被試j未掌握屬性k。在傳統(tǒng)0-1 Q矩陣基礎(chǔ)上,為了細(xì)化項目測量的屬性水平層次以及細(xì)致考察被試具體掌握了屬性的哪個水平層次,學(xué)者們開始提出了屬性多級化的 Q矩陣思想(Karelitz,2004;de la Torre,Lam,Rhoads,&Tjoe,2010;Chen &de la Torre,2013),用于考察項目測量屬性的不同水平層次(相對應(yīng)的被試而言,為被試掌握/達(dá)到屬性的某種水平);多級化Q矩陣中,Q矩陣的元素q
取值不僅是0-1,也可以是其它取值,用于表明項目測量的屬性水平(attribute levels,Chen &de la Torre,2013),如q
=0代表項目i未測量屬性k (即Level 0),q
=1代表項目i測量了屬性k的水平1 (Level 1),q
=2代表項目i測量了屬性k的水平2 (Level 2),依此類推。相對應(yīng)的α
=0代表被試j未掌握屬性k,α
=1代表被試j掌握了屬性k的第一水平,α
=2代表被試j掌握了屬性k的第二水平。圖1是de la Torre等(2010)使用到的多級化屬性(polytomous attributes,PA)。圖1中,兩個屬性分別有三個水平Level 0、Level 1和Level 2,代表著屬性的不同水平層次。當(dāng)然,如果被試要正確答對項目,則應(yīng)掌握屬性的相應(yīng)水平層次。例如:如果項目i測量的屬性q=(1,2),屬性A1和A2均有三種水平(Level 0、Level 1和Level 2),則被試至少要掌握屬性A1的水平1和屬性A2的水平2才可能答對該項目,即當(dāng)被試的掌握模式α=(1,2)或(2,2)時才可能答對該項目。
多級化 Q矩陣的思想不僅可以進(jìn)一步細(xì)化項目測量的屬性水平層次,同時還可以進(jìn)一步細(xì)致考察被試具體掌握了屬性的哪個水平層次。與傳統(tǒng)0-1Q矩陣相比,傳統(tǒng)0-1Q矩陣思想是將被試判為未掌握和掌握兩個水平(只能將被試區(qū)分為兩類),而多級化 Q矩陣思想則將被試判為未掌握和具體掌握了屬性何種水平(即能區(qū)分出更多類型的被試),因此提供的信息更為豐富和細(xì)致,對被試的診斷也更具價值和指導(dǎo)意義。
圖1 多級化屬性的示例(摘自de la Torre et al.,2010)
當(dāng)前多級化 Q矩陣思想已引起學(xué)者們的關(guān)注(Karelitz,2004;de la Torre et al.,2010;Chen &de la Torre,2013),但國內(nèi)外對其研究還在起步階段、十分薄弱,對于諸如屬性多級化認(rèn)知診斷模型的拓展及其 Q矩陣設(shè)計等重要領(lǐng)域均有待進(jìn)一步深入。Chen等人(2013)針對多級化的認(rèn)知屬性嘗試探討了適用于處理多級化 Q矩陣的認(rèn)知診斷方法,但Chen等人(2013)研究中忽略了多級化 Q矩陣設(shè)計(即認(rèn)知診斷測驗藍(lán)圖設(shè)計)的重要性及其對認(rèn)知診斷測驗編制的指導(dǎo)作用,而這正是認(rèn)知診斷測驗設(shè)計與傳統(tǒng)測驗設(shè)計的不同之處;同時,傳統(tǒng)的認(rèn)知診斷模型(cognitive diagnosis models,CDMs),如rRUM (reduced Reparameterized Unified Model;Hartz,2002)等,基本僅適用于屬性0-1二級化的測驗情景,無法處理屬性多級化的測驗情景,因而新的屬性多級化的CDMs亟待拓展,為實際應(yīng)用者提供方法支持。鑒于屬性多級化認(rèn)知診斷的優(yōu)勢以及當(dāng)前研究的不足,本研究擬在應(yīng)用較廣泛但僅適用于屬性0-1二級化測驗情景的rRUM和DINA (deterministic inputs,noisy “and” gate model;Junker &Sijtsma,2001)兩個模型的基礎(chǔ)上,拓展出適合屬性多級化的認(rèn)知診斷模型,本文分別簡記為 PA-rRUM 模型(rRUM for polytomous attributes)和 PA-DINA模型(DINA model for polytomous attributes);并重點(diǎn)探討屬性多級化認(rèn)知診斷下,測驗Q矩陣的設(shè)計與算法、拓展模型的參數(shù)估計實現(xiàn)及其性能,為進(jìn)一步拓展認(rèn)知診斷在實踐的應(yīng)用提供方法學(xué)支持。
式2.1和2.2分別是傳統(tǒng)的屬性0-1二值化的rRUM模型和DINA模型:
η
的含義基本一致,即描述被試是否達(dá)到了項目測量屬性所需的水平數(shù)。則0-1化的DINA模型和rRUM可以多級化拓展為公式2.6和2.7,表1 屬性多級化的二值轉(zhuǎn)換及其項目答對概率,qj=(1,2)
當(dāng)Lk
=2時,則公式2.6和2.7可以分別簡化為公式2.1和2.2,即屬性0-1化的認(rèn)知診斷模型是屬性多級化認(rèn)知診斷模型的一個特例,也即DINA模型和 rRUM兩個模型分別是 PA-DINA模型和PA-rRUM模型的特例,這也說明PA-DINA模型和PA-rRUM模型既可以處理屬性0-1化的測驗情景,也可以處理屬性多級化的測驗情景,還可以處理0-1屬性和多級屬性混合的測驗情景,因此適用面較傳統(tǒng)模型更廣,具有較好的發(fā)展及應(yīng)用前景。采用MCMC算法實現(xiàn)PA-rRUM和PA-DINA兩個模型的參數(shù)估計。兩個模型的先驗分布如下,
PA-DINA模型:
full conditional distributions
)為,PA-DINA模型:
PA-rRUM模型:
則待估參數(shù)的M-H抽樣過程如下:
(1)α參數(shù)
PA-DINA模型
PA-rRUM模型
上式中,對于PA-DINA模型和PA-rRUM模型的似然函數(shù)(這里是估計被試 i,因此只需項目似然部分)分別為:
m
為測驗項目數(shù)。上式中,對于 PA-DINA模型被試似然函數(shù)(這里是估計項目j,因此只需被試似然部分)為
N
為被試數(shù))。上式中,對于PA-rRUM模型被試似然函數(shù)(這里是估計項目j,因此只需被試似然部分)為
N
為被試數(shù))。A
+I
)公式來求取R陣,其中A
為鄰接矩陣,I
為單位矩陣,也即隨著(A
+I
)的方次(n
=1,2,…)不斷增加,當(dāng)其值穩(wěn)定不變時,則為可達(dá)矩陣R。那么對于多級化屬性的Q矩陣,其對應(yīng)的R陣(為了表達(dá)方便,本研究將多級化Q矩陣的 R陣簡記為 Rp陣,下同)如何獲取?為了說明這個問題,首先定義多級化屬性下的Rp陣的含義。本研究繼續(xù)沿用0-1屬性下可達(dá)矩陣含義,Rp陣指用來表達(dá)屬性與屬性間的直接關(guān)系、間接關(guān)系與自身關(guān)系(涂冬波,蔡艷,丁樹良,2012),即 Rp陣是表達(dá)屬性與屬性間關(guān)系的矩陣,因此它與0-1化屬性下的R陣一樣,也是由K行K列 (K指屬性個數(shù))組成的矩陣,該矩陣用于表達(dá)屬性與屬性間的關(guān)系。
圖2 多級化屬性測驗情景下陣的獲取
表2 各屬性的水平數(shù)
圖3 四種屬性層級關(guān)系
N
名被試(N
=500,1000,2000)。表3 測驗Q矩陣(60題或40題)
(3)項目參數(shù)模擬。對于 PA-DINA模型,項目參數(shù)的真值從如下分布中隨機(jī)產(chǎn)生s
~U
(0,0.25),g
~U
(0,0.25);對于PA-rRUM模型,項目參數(shù)真值從如下分布中隨機(jī)產(chǎn)生π
~U
(0.8,0.98),r
~U
(0.1,0.3)。(4)被試作答反應(yīng)矩陣模擬。根據(jù)(1) (2) (3)步模擬的真值及PA-DINA模型或PA-rRUM模型的項目反應(yīng)函數(shù)計算被試答對項目概率 p,再產(chǎn)生一隨機(jī)數(shù)r,若p (5)對于模擬的數(shù)據(jù)采用認(rèn)知診斷模型——PA-DINA模型或PA-rRUM模型進(jìn)行參數(shù)估計,同時計算PA-DINA模型和PA-rRUM模型的判準(zhǔn)率及參數(shù)估計精度(見3.2部分)。 (6)每種測驗情景均重復(fù)實驗 30次,以減少實驗誤差。 采用屬性邊際判準(zhǔn)率(Average Attribute Match Ratio,AAMR)、模式判準(zhǔn)率(Pattern Match Ration,PMR)以及平均絕對離差(mean absolute bias,MAB)三個評價指標(biāo)。AAMR和PMR指標(biāo)用于評價模型的屬性判準(zhǔn)率,MAB指標(biāo)用于評價模型的項目參數(shù)估計精度。 表4為PA-DINA模型和PA-rRUM兩個模型30次實驗的屬性判準(zhǔn)率和參數(shù)估計精度。 π 總之,實驗 1結(jié)果表明基于屬性多級化的PA-DINA模型和PA-rRUM兩個模型均有較高的屬性判準(zhǔn)率、項目參數(shù)估計精度以及參數(shù)估計的穩(wěn)定性,說明這兩個模型基本可行,可以實現(xiàn)對屬性多級化的測驗情景的認(rèn)知診斷,彌補(bǔ)傳統(tǒng)屬性0-1化認(rèn)知診斷模型的不足。 表4 PA-DINA模型的診斷正確率及參數(shù)估計精度 實驗2主要是探討R陣對兩個模型診斷結(jié)果及參數(shù)估計精度的影響,進(jìn)而為進(jìn)一步指導(dǎo)屬性多級化認(rèn)知診斷的測驗 Q矩陣設(shè)計及測驗編制提供基礎(chǔ)及借鑒。 采用4×3雙因素實驗設(shè)計,因素一為屬性層級關(guān)系的類型,分獨(dú)立型、分支型、收斂性和線型四個水平,屬性層級關(guān)系詳見文章圖3,其對應(yīng)的R陣詳見2.3部分;因素二為Q矩陣設(shè)計即是否包含R陣,共 3個水平,分別為測驗 Q矩陣中不包含R陣(Q1),包含 1個 R陣(Q2)和包含 2個 R陣(Q3)。 實驗2的模擬過程與實驗1基本一致。但項目數(shù)固定為 40題,被試數(shù) 1000人,屬性共 5個,每個屬性的水平數(shù)見表2;Q陣模擬需保證Q1中不含R中的任何項目,Q2矩陣有且僅包含一個完整的R項目,Q3陣有且僅包含二個完整的R項目,從而模擬“Q 矩陣中不包含 R陣(Q1)”,“包含1個R陣(Q2)”,和“包含 2個 R陣(Q3)”三種水平的 Q矩陣。 表5是PA-DINA模型和PA-rRUM模型在不同測驗Q矩陣設(shè)計下屬性診斷正確率及參數(shù)估計精度。 表5表明,對于PA-DINA模型還是PA-rRUM模型,不論是在何種屬性層級關(guān)系下,兩模型的診斷正確率(含AAMR和PMR)均會隨著R陣的增加而提高,也即測驗 Q矩陣中包含的 R陣越多,模型的診斷正確率越高,這一種結(jié)果與屬性0-1化的認(rèn)知診斷模型(如DINA)基本一致。同樣,對于項目參數(shù)而言,隨著 R陣的增加參數(shù)估計的精度總體上也在提升(即 MAB減少),即測驗 Q矩陣中包含的R陣越多,模型參數(shù)估計精度總體上越高。 表5 不同Q矩陣設(shè)計下兩模型性能 總之,實驗 2結(jié)果充分說明,與屬性 0-1化的認(rèn)知診斷模型一樣,不論屬性間存在何種層級關(guān)系時,Q矩陣的設(shè)計會影響到屬性多級化認(rèn)知診斷模型的診斷正確率,總體來講如果測驗Q矩陣包含的R陣越多則模型的診斷正確率越好。因此,對于多級化屬性的認(rèn)知診斷,測驗編制者仍應(yīng)充分考慮測驗Q矩陣的設(shè)計,即測驗Q矩陣中應(yīng)該包含R陣。 通過 Monte Carlo模擬方法,本文開展了二項實驗研究,實驗表明:基于屬性多級化框架的認(rèn)知診斷模型——PA-rRUM和PA-DINA具有較好的診斷正確率和參數(shù)估計精度,且參數(shù)估計的穩(wěn)定性較強(qiáng),說明模型性能尚可、基本可行,實踐應(yīng)用者可用于實現(xiàn)多級化屬性的認(rèn)知診斷,彌補(bǔ)了傳統(tǒng)認(rèn)知診斷模型只能處理0-1化屬性的不足,具有較好的發(fā)展和應(yīng)用前景;研究同時表明,PA-rRUM 和PA-DINA模型參數(shù)估計精度及診斷正確率會受到樣本容量的影響,當(dāng)樣本容量越大,整體來講參數(shù)估計精度更高,模型的診斷正確率也越高;測驗 Q矩陣設(shè)計會直接影響到診斷結(jié)果的準(zhǔn)確性及參數(shù)估計精度,測驗Q矩陣中包含的可達(dá)矩陣R陣越多,模型的診斷正確率及參數(shù)估計精度越好。 本文針對當(dāng)前仍處于研究起步階段的屬性多化認(rèn)知診斷開展研究,在傳統(tǒng)只適用于屬性0-1化認(rèn)知診斷模型的基礎(chǔ)上拓展出屬性多級化的認(rèn)知診斷模型,并深入探討了在不同屬性層級關(guān)系下測驗Q矩陣的設(shè)計的重要性及其設(shè)計原則與算法??傊?與前人研究相比,本研究最大貢獻(xiàn)在于重點(diǎn)探討了屬性多級化認(rèn)知診斷測驗 Q矩陣設(shè)計原則及其算法,突破了以往研究的不足。本實驗結(jié)果發(fā)現(xiàn)若屬性多級化的測驗Q矩陣包含本文提出的R陣則可以成功實現(xiàn)對各類知識狀態(tài)(KSs)被試的診斷與區(qū)分;因此對于屬性多級化的認(rèn)知診斷測驗編制,測驗編制者應(yīng)精心設(shè)計測驗 Q矩陣(即認(rèn)知診斷測驗的藍(lán)圖設(shè)計),以保證測驗 Q矩陣中包含本研究提出的 R陣(即編制的測驗試題中須包含 R陣的試題),從而實現(xiàn)對不同屬性以及同一屬性不同水平的診斷區(qū)分,進(jìn)而提高診斷結(jié)果的準(zhǔn)確率及認(rèn)知診斷測驗的結(jié)構(gòu)效度。 當(dāng)然,限于時間及篇幅,本研究還有許多有待進(jìn)一步探討及完善的地方:本文主要拓展了非補(bǔ)償型的認(rèn)知診斷模型,那么補(bǔ)償型屬性多級認(rèn)知診斷模型如何拓展等有等未來研究進(jìn)一步解決;拓展模型在實踐的應(yīng)用效果也有待進(jìn)一步探討;同時,屬性多級化的測驗Q矩陣的屬性標(biāo)定、檢驗、修正甚至估計都是未來研究有待進(jìn)一步解決的問題。 Applied Psychological Measurement,37 Psychometrika,76 Measuring grade 8 proportional reasoning: The process of attribute identification and task development and validatio Applied Psychological Measurement,36 Journal of Jiangxi Normal University,39 [丁樹良,羅芬,汪文義,熊建華.(2015).0-1和多值可達(dá)矩陣的性質(zhì)及應(yīng)用.江西師范大學(xué)學(xué)報,39(1),64–68.] Applied Psychological Measurement,38 A bayesian framework for the unified model for assessing cognitive abilities: Blending theory with practicality Applied Psychological Measurement,25 Ordered category attribute coding framework for cognitive assessments Journal of Educational Measurement,41 Cognitively Diagnostic Assessment Cognitive Assessment-An Introduction to the Rule Space Method Theory,method and application of cognitive diagnosis [涂冬波,蔡艷,丁樹良.(2012).認(rèn)知診斷理論方法、方法與應(yīng)用.北京: 北京師范大學(xué)出版社.]3.3 評價指標(biāo)
3.4 實驗1結(jié)果
4 實驗2:屬性多級化測驗Q矩陣設(shè)計——RP*陣及對診斷結(jié)果的影響
4.1 實驗設(shè)計
4.2 Monte Carlo模擬
4.3 實驗2結(jié)果
5 研究結(jié)論及討論