周文杰 郭磊
摘 要 在多級計(jì)分協(xié)變量認(rèn)知診斷框架下,提出了一種可同時納入連續(xù)協(xié)變量信息和多類別協(xié)變量信息的多級計(jì)分認(rèn)知診斷模型GPDM-C,實(shí)現(xiàn)了其DINA形態(tài)的GPDINA-C的MCMC參數(shù)估計(jì)。模擬研究的結(jié)果顯示,GPDINA-C擁有較好的屬性/模式判準(zhǔn)精度和參數(shù)估計(jì)能力,相較于未納入?yún)f(xié)變量信息的GPDINA,GPDINA-C有更好的模型表現(xiàn),在參數(shù)估計(jì)精度上有較大優(yōu)勢。實(shí)證研究的結(jié)果同樣表明,GPDINA-C相比于未納入?yún)f(xié)變量信息的多級計(jì)分認(rèn)知診斷模型,能更好擬合實(shí)證數(shù)據(jù),估計(jì)得到的協(xié)變量影響參數(shù)能客觀反映真實(shí)情況。
關(guān)鍵詞 認(rèn)知診斷;協(xié)變量信息;多級計(jì)分認(rèn)知診斷模型;MCMC
分類號 B841
DOI: 10.16842/j.cnki.issn2095-5588.2021.08.005
1 引言
在心理和教育學(xué)研究中,除了感興趣的變量外,研究人員同時還會收集許多協(xié)變量信息,通常包括性別、年齡、地域、家庭社會經(jīng)濟(jì)地位等。Li,Hong和Macready(2015)認(rèn)為協(xié)變量信息與我們所關(guān)注的建模變量具有重要關(guān)系。這些協(xié)變量信息常作為調(diào)節(jié)因子調(diào)節(jié)自變量對因變量的影響,或是作為控制變量加以控制,許多心理學(xué)研究均涉及協(xié)變量信息。例如,張莉、薛香娟和趙景欣(2019)以家庭社會經(jīng)濟(jì)地位作為協(xié)變量控制,構(gòu)建縱向中介模型,發(fā)現(xiàn)農(nóng)村留守兒童先前的學(xué)業(yè)成績能預(yù)測隨后的歧視知覺,但先前的歧視知覺不能預(yù)測隨后的學(xué)業(yè)成績,并且農(nóng)村留守兒童的抑郁在學(xué)業(yè)成績和歧視知覺之間起縱向中介作用。王玲曉、張麗婭和常淑敏(2019)在控制性別、年級和家庭社會經(jīng)濟(jì)地位后,發(fā)現(xiàn)母親拒絕對兒童的同伴拒絕有顯著正向預(yù)測作用,家庭環(huán)境紛雜度調(diào)節(jié)了母親拒絕與同伴拒絕之間的關(guān)系,兒童外化問題行為在家庭環(huán)境紛雜度對母親拒絕和同伴拒絕關(guān)系的調(diào)節(jié)效應(yīng)中起完全中介作用。在項(xiàng)目反應(yīng)理論(item response theory, IRT)中,考慮了協(xié)變量的影響后,可以對個體能力的估計(jì)和題目參數(shù)的估計(jì)起到積極作用。研究者們提出了一些納入?yún)f(xié)變量信息的項(xiàng)目反應(yīng)模型,例如,Li等(2015)比較了多種包含協(xié)變量信息的混合Rasch模型(mixture rasch model,MRM),發(fā)現(xiàn)在MRM中納入二分類協(xié)變量時,被試能力估計(jì)精度有所提高,在納入連續(xù)協(xié)變量時,被試能力和項(xiàng)目參數(shù)的估計(jì)都有所提高。Kahraman(2014)使用解釋性IRT模型對計(jì)算機(jī)模擬病例考試(computer-based case simulation test, CCS)考生作答數(shù)據(jù)進(jìn)行分析,分別以性別、反應(yīng)時、項(xiàng)目順序、選擇題得分作為協(xié)變量納入解釋性IRT模型中,發(fā)現(xiàn)這些協(xié)變量信息均能提高模型對數(shù)據(jù)的擬合度。上述研究均表明,當(dāng)納入?yún)f(xié)變量信息后,模型參數(shù)的估計(jì)精度將得到提升,更擬合實(shí)證數(shù)據(jù)。
然而,在認(rèn)知診斷評估(cognitive diagnostic assessment, CDA)相關(guān)的研究中,少有研究者考慮了協(xié)變量信息的作用。CDA是結(jié)合認(rèn)知心理學(xué)和心理測量學(xué)優(yōu)勢而開發(fā)的新一代測驗(yàn)理論(陳秋梅,張敏強(qiáng),2010;郭磊,張金明,宋乃慶,2019),可用于評估個體知識掌握結(jié)構(gòu)和加工技能( Leighton & Gierl, 2007),向?qū)W生和老師提供個性化指導(dǎo)和反饋(Rupp, Templin & Henson, 2010),受到國內(nèi)外研究者的廣泛關(guān)注。認(rèn)知診斷模型(cognitive diagnostic models, CDMs)作為CDA的關(guān)鍵,可以實(shí)現(xiàn)對個體知識狀態(tài)的估計(jì),正確選擇CDM可以有效提高參數(shù)估計(jì)精度。絕大多數(shù)CDMs開發(fā)關(guān)注如何更好利用個體作答信息和題目信息提升個體知識狀態(tài)的估計(jì)精度,例如為了更加擬合不同題目的屬性連接形式而開發(fā)的不同屬性連接規(guī)則的約束模型(DINA, Junker & Sijtsma, 2001; DINO, Templin & Henson, 2006; LLM, Maris, 1999),以及包含多數(shù)約束模型的飽和模型(GDM, von Davier, 2005; LCDM, Henson, Templin, & Willse, 2009; G-DINA, de la Torre, 2011), 能夠處理多級計(jì)分測驗(yàn)數(shù)據(jù)的多級計(jì)分模型(seq-GDINA, Ma & de la Torre, 2016; GPDM, Chen & de la Torre, 2018; GPCDM,高旭亮,汪大勛,王芳,蔡艷,涂東波,2019),能夠處理屬性包含多水平信息的多分屬性模型(pGDINA, Chen & de la Torre, 2013)。但這些CDMs都忽略了協(xié)變量信息的重要作用。
在認(rèn)知診斷框架下納入?yún)f(xié)變量信息不僅可以在宏觀層面更好估計(jì)個體能力值,還能在微觀層面對個體的知識狀態(tài)實(shí)現(xiàn)更精準(zhǔn)的分類。研究能夠有效提升分類算法精度的模型具有重要意義,因此,很有必要開發(fā)可處理協(xié)變量信息的CDMs。當(dāng)前,僅有個別研究探討了協(xié)變量信息在CDMs中的作用。Ayers,Rabe-Hesketh和Nugent(2013)以DINA模型為基礎(chǔ),利用logistic回歸表征了協(xié)變量信息對屬性掌握概率的影響,構(gòu)建模型如下:
Pik為考生i在屬性k上的掌握概率,Malei和Prei分別為考生的性別信息(二分協(xié)變量)和前測成績(連續(xù)協(xié)變量),βMale和βPre是協(xié)變量對掌握概率的影響大小,δk是屬性k的難度參數(shù)。之后,Park和Lee(2014)提出的協(xié)變量DINA模型(the covariate extension of the DINA model)使用協(xié)變量信息分別對考生屬性掌握概率和題目正確作答概率進(jìn)行表征,其思路與Ayers等(2013)研究相似。Park,Xing和Lee(2017)構(gòu)建的解釋性認(rèn)知診斷模型(explanatory CDM)以IRT模型估計(jì)得到的能力參數(shù)作為潛在變量,與觀測變量共同作為協(xié)變量表征了屬性掌握概率和題目正確作答概率。上述研究結(jié)果表明,在加入?yún)f(xié)變量信息時,提高了個體的屬性/模式判準(zhǔn)率,以及題目參數(shù)的估計(jì)精度。
但這些研究存在以下不足,缺乏更廣泛的普適性:(1) 從大型測驗(yàn)(PISA,TIMSS,高考)到小型測驗(yàn)(班級測驗(yàn)),這些測驗(yàn)中存在大量多級計(jì)分題目(Chen & de la Torre, 2018; Ma & de la Torre, 2016),多級計(jì)分題目比二級計(jì)分題目能夠提供更多信息,而目前的模型均基于二級計(jì)分DINA模型開發(fā),不能在多級計(jì)分測驗(yàn)中處理協(xié)變量信息。(2)這些研究中包含的類別協(xié)變量僅為二分變量(如性別),不能處理諸如班級、年級、家庭社會經(jīng)濟(jì)地位等多類別協(xié)變量信息。因此,本研究旨在開發(fā)同時可以處理不同類型協(xié)變量的多級計(jì)分CDM,以推動CDA在處理協(xié)變量信息層面的研究。
2 協(xié)變量多級計(jì)分認(rèn)知診斷模型的構(gòu)建
2.1 基礎(chǔ)模型的選擇
對多級計(jì)分CDMs進(jìn)行協(xié)變量拓廣涉及對多級計(jì)分CDMs的選擇。目前多級計(jì)分CDMs包括基于等級反應(yīng)模型(graded response model)開發(fā)的P-DINA (polytomous DINA, 涂冬波, 蔡艷, 戴海琦, 丁樹良, 2010)和GPDM(general polytomous diagnosis model, Chen & de la torre, 2018),基于連續(xù)比率模型(continuation ratio model)開發(fā)的序列GDINA模型(sequential GDINA, Ma & de la Torre, 2016)以及基于分布評分模型(partial-credit model)〖JP3〗開發(fā)的GPCDM(general partial credit diagnostic model, 高旭亮等, 2019)等。本研究選擇GPDM作為協(xié)變量拓廣的基礎(chǔ)模型,其原因在于:相比于將題目參數(shù)設(shè)置在累計(jì)概率P 瘙 毐 ijc的P-DINA,GPDM將題目參數(shù)設(shè)置在條件概率Pijc上,這種表示方式更直接(Chen & de la Torre, 2018),因?yàn)闂l件概率Pijc可以直接表示被試i在題目j上得分等級為c的概率,而累計(jì)概率P 瘙 毐 ijc表示得分從0至c的概率和,需要通過計(jì)算得到對應(yīng)每個等級的概率值。GPDM、序列GDINA、GPDCDM的加工函數(shù)都是GDINA,但僅有GPDM滿足GDINA的單調(diào)性假設(shè),即掌握更多所需屬性的考生不會降低正確作答的可能性(Chen & de la Torre, 2018; Hong, Chang & Tsai, 2016)。同時,GPDM的Q矩陣界定在題目水平上,而序列GDINA與GPCDM均將Q矩陣定義在類別上,
得分步驟順序要求嚴(yán)格,并且每個類別要求明確地與特定屬性相關(guān)聯(lián),類別Q矩陣不總是適用在現(xiàn)實(shí)情境中(Chen & de la Torre, 2018)。
2.2 GPDM-C的測量模型
GPDM-C(the covariate extension of general polytomous diagnosis model)的測量模型本質(zhì)上等價于GPDM。設(shè)診斷測驗(yàn)包含J個題目,考察K個屬性,qjk為J×K的Q矩陣中第j行k列元素,取值為1時表示j題考察了屬性k,取值為0表示未考察;αik表示被試i是否掌握屬性k,掌握為1,未掌握為0;Yij=c表示被試i在題目j上的得分為c,取值為0,1,…,Cj,Cj為題目j的最高得分。于是,GPDM可表示為:
其中,P 瘙 毐 ijc表示被試i在j上得分等于c分?jǐn)?shù)及以上的概率,Pijc則表示被試i在題目j上恰好等于c分的概率;λjc0為題目j分?jǐn)?shù)c上的截距項(xiàng),表示當(dāng)被試沒有掌握題目所考察的屬性時得分為c時的基線參數(shù) ;λjck為題目j分?jǐn)?shù)c在屬性k上的主效應(yīng),表示當(dāng)被試多掌握屬性k時,對得c分改變的概率;λjckk′為題目j分?jǐn)?shù)c在屬性k和k′上的一階交互效應(yīng),表示除掌握屬性k和k′對得c分改變的概率之外,兩個屬性的額外作用;λjc1, …, K為題目j在屬性1,…,K上的最高階交互作用,表示當(dāng)掌握了所有必要屬性時,除了屬性主效應(yīng)和低階交互效應(yīng)外導(dǎo)致得c分概率改變的額外影響;ωijk用于判斷λjck的存在與否,當(dāng)題目j考察了屬性k的情況下并且被試i掌握了題目j所考察的屬性k的水平時ωijk=1,否則為0。當(dāng)Cj≡1時,GPDM等價于GDINA模型(de la Torre, 2011)。特別地,得0分及以上的概率為P 瘙 毐 ij0=1,得分為Cj+1的概率為P 瘙 毐 ij(Cj+1)=0,易得:∑Cjc=0Pijc=1。
2.3 GPDM-C的結(jié)構(gòu)模型
利用logistic回歸用連續(xù)協(xié)變量信息和分類協(xié)變量信息表征屬性掌握概率,并將二分類協(xié)變量拓展為多類別協(xié)變量,表示為:
其中Pik表示被試i掌握屬性k的概率;δk為屬性k的難度參數(shù),表示屬性k的基礎(chǔ)難度;Zi為被試i的連續(xù)協(xié)變量,βk為該連續(xù)協(xié)變量在屬性k上的影響參數(shù);gi表示被試i所屬的類別分組;γgik是分組協(xié)變量gi的影響參數(shù),代表被試i所屬組在屬性k上的影響,約束γ1k≡0;αik服從以Pik為概率的伯努利分布。GPDM-C的測量模型和結(jié)構(gòu)模型構(gòu)成了最終的GPDM-C模型。
2.4 縮減模型GPDINA-C與參數(shù)估計(jì)
由于GPDM本質(zhì)是基于GDINA的多級計(jì)分拓廣,所以GPDM-C也可以約束為各種簡約模型以滿足不同研究和現(xiàn)實(shí)情景的需求。本文基于模型簡約性、更易使大眾理解的考慮,通過對GPDM-C約束,采用更易理解的題目猜測參數(shù)gjc和失誤參數(shù)sjc,提供一種DINA形式的縮減協(xié)變量多級計(jì)分模型GPDINA-C,并采用MCMC算法基于R與JAGS軟件,對GPDINA-C模型進(jìn)行參數(shù)估計(jì),GPDINA-C的JAGS代碼見附錄。GPDINA-C的表達(dá)式為:
其中g(shù)jc是題目j在得分c上的猜測參數(shù),sjc是題目j在得分c上的失誤參數(shù),當(dāng)被試i未掌握題目j所考察的所有屬性時,ηij=1且Pijc=gjc,當(dāng)被試i掌握了題目j所考察的所有屬性時,ηij=0且Pijc=1-sjc,其他參數(shù)含義同前。盡管本研究以DINA形式為例,但協(xié)變量信息可以拓展至其余多級診斷模型中。
3 研究1: 模擬研究
3.1 研究目的
本研究有兩個目的:(1)驗(yàn)證MCMC參數(shù)估計(jì)方法是否能精準(zhǔn)估計(jì)GPDINA-C的模型參數(shù),即模型的可識別性,以及在多級計(jì)分情景下的屬性/模式判準(zhǔn)率。(2)展示當(dāng)數(shù)據(jù)存在協(xié)變量影響,而錯誤使用未能處理協(xié)變量信息的診斷模型時,會給參數(shù)估計(jì)結(jié)果帶來的影響。
3.2 研究設(shè)計(jì)
本研究Q矩陣為20題的5屬性三級計(jì)分Q矩陣(Chen & de la Torre, 2018),見表1。測驗(yàn)長度為2個水平:20題、40題,40題的Q矩陣與20題的Q矩陣是重復(fù)關(guān)系。題目質(zhì)量為3個水平:高質(zhì)量(ηij=1時Pij0從Unif(0.05, 0.15)中生成,ηij=0時Pij0從Unif(0.85, 0.95)中生成)、中等質(zhì)量(ηij=1時Pij0從Unif(0.15, 0.25)中生成,ηij=0時Pij0從Unif(0.75, 0.85)中生成)、低質(zhì)量(ηij=1時Pij0從Unif(0.25, 0.35)中生成,ηij=0時Pij0從Unif(0.65, 0.75)中生成),并使Pij1=Pij2=(1-Pij0)2(Chen & de la Torre, 2018;Ma & de la Torre, 2016)。2000名被試的連續(xù)協(xié)變量從標(biāo)準(zhǔn)正態(tài)分布N(0, 1)中生成,將被試隨機(jī)分到三分類分組協(xié)變量中的一組,約束協(xié)變量影響在屬性水平上相等(Ayers et al., 2013),共包括3個水平:高影響、中影響、低影響,分別表示協(xié)變量信息對屬性掌握的影響程度,具體設(shè)置見表2;參考Ayers等(2013)做法,設(shè)置屬性難度參數(shù)δ=(-1.5, -0.75, 0, 0.75, 1.5)。被試真實(shí)掌握情況αik通過公式9和公式10得到。共循環(huán)30次,以期求減小隨機(jī)誤差帶來的影響。
采用平均誤差(bias)和均方根誤差(RMSE)作為評價指標(biāo)來評價GPDINA-C與GPDINA的參數(shù)返真性,計(jì)算方法分別為bias()=∑Rr=1r-vR和RMSE()=∑Rr=1(r-v)2R,其中r為第r次循環(huán)的參數(shù)估計(jì)值,v為真值,R為總循環(huán)數(shù)。采用平均屬性判準(zhǔn)率(AACCR)和模式判準(zhǔn)率(PCCR)評價被試知識狀態(tài)估計(jì)的準(zhǔn)確性,其計(jì)算方法分別為AACCR=∑Ni=1∑Kk=1WikN×K,PCCR=∑Ni=1∏Kk=1WikN,其中當(dāng)估計(jì)得到的ik與真值αik相等時,Wik=1,否則Wik=0。
3.3 結(jié)果
3.3.1 GPDINA-C平均屬性判準(zhǔn)率和模式判準(zhǔn)率
如表3所示,當(dāng)題目質(zhì)量為高或中等時以及測驗(yàn)長度較長時,GPDINA-C有著較好的屬性判準(zhǔn)率和模式判準(zhǔn)率。納入?yún)f(xié)變量信息的GPDINA-C在高質(zhì)量題目條件下,AACCR和PCCR在20題時的范圍分別在0.961~0.970和0.844~0.871,當(dāng)測驗(yàn)長度增加到40題時,AACCR和PCCR的范圍分別提升至0.989~0.992和0.947~0.963;題目質(zhì)量為中等時,AACCR和PCCR在20題時的范圍分別在0.896~0.934和0.622~0.740,當(dāng)測驗(yàn)長度增加到40題時,AACCR和PCCR的范圍分別提升至0.0.952~0.961和0.813~0.841;題目質(zhì)量為低時,AACCR和PCCR在20題時的范圍分別在0.812~0.887和0.382~0.590,當(dāng)測驗(yàn)長度增加到40題時,AACCR和PCCR的范圍分別提升至0.873~0.923和0.552~0.708。題目質(zhì)量和測驗(yàn)長度大幅度影響了模型的判準(zhǔn)率。在相同題目質(zhì)量情況下,協(xié)變量影響越大,模型的判準(zhǔn)精度越高。例如,在測驗(yàn)長度均為20題、題目質(zhì)量均為中等時,在低協(xié)變量影響下的AACCR為0.896, PCCR為0.622, 中等協(xié)變量影響下的AACCR為0.909, PCCR為0.658, 高協(xié)變量影響下的AACCR為0.934, PCCR為0.740。
在所有實(shí)驗(yàn)條件下,相比于未納入?yún)f(xié)變量信息的GPDINA,GPDINA-C的平均屬性判準(zhǔn)率和模式判準(zhǔn)率都更高,尤其是在題目質(zhì)量中等或者較差的情況下,該結(jié)果表明,當(dāng)數(shù)據(jù)受到了協(xié)變量影響后,使用未能處理協(xié)變量信息的GPDINA模型,將會對被試的知識狀態(tài)估計(jì)精度帶來惡化影響。協(xié)變量效應(yīng)也影響了GPDINA-C相較于GPDINA的屬性/模式判準(zhǔn)精度的提升程度。具體而言,當(dāng)協(xié)變量的影響越大時,GPDINA-C對GPDINA的屬性/模式判準(zhǔn)精度的提升越大。例如,在測驗(yàn)長度為20題、題目質(zhì)量均為中等時,在低協(xié)變量影響下,AACCR提升了0.07%,PCCR提升了3.7%,在中等協(xié)變量影響下,AACCR提升了1.6%,PCCR提升了7.2%,在高協(xié)變量影響下,AACCR提升了2.9%,PCCR提升了11.6%;在題目質(zhì)量均為低時,在低協(xié)變量影響下,AACCR提升了2.8%,PCCR提升了13.4%,在中等協(xié)變量影響下,AACCR提升了5.8%,PCCR提升了24.0%,在高協(xié)變量影響下,AACCR提升了8.0%,PCCR提升了27.4%。以上表明,在有協(xié)變量影響的測驗(yàn)中,GPDINA-C能夠得到較高的屬性/模式判準(zhǔn)精度,參數(shù)估計(jì)方法有效。
3.3.2 GPDINA-C模型題目參數(shù)估計(jì)精度
如表4所示,GPDINA-C在各實(shí)驗(yàn)條件下的題目參數(shù)估計(jì)精度均較好,bias范圍為-0.0017~0.0011,RMSE范圍為0.0119~0.0262。在絕大多數(shù)情況下,GPDINA-C的題目參數(shù)估計(jì)精度優(yōu)于GPDINA,bias更接近0,RMSE更小,說明在有協(xié)變量影響的情景下,使用未能處理協(xié)變量信息的GPDINA模型,將會降低對題目參數(shù)估計(jì)的精度,這與前人在IRT領(lǐng)域的研究結(jié)果保持一致。當(dāng)題目質(zhì)量提高、協(xié)變量影響變大或題目長度增加時,GPDINA-C題目參數(shù)的估計(jì)精度會更好。
3.3.3 GPDINA-C模型結(jié)構(gòu)參數(shù)估計(jì)精度
如表5所示,GPDINA-C在各實(shí)驗(yàn)條件下的結(jié)構(gòu)參數(shù)估計(jì)精度良好。連續(xù)協(xié)變量影響參數(shù)(β)的bias范圍為-0.058~0.045,RMSE范圍為0.016~0.068;分類協(xié)變量影響參數(shù)(γ)的bias范圍為-0.086~0.088,RMSE范圍為0.053~0.135;屬性難度參數(shù)(δ)的bias范圍為-0.060~0.077,RMSE范圍為0.043~0.231。協(xié)變量參數(shù)(β、γ)的估計(jì)精度與題目質(zhì)量和協(xié)變量大小有關(guān),當(dāng)題目質(zhì)量越好或協(xié)變量影響越小時,協(xié)變量參數(shù)的估計(jì)精度越好。屬性難度參數(shù)(δ)的估計(jì)精度與題目質(zhì)量和協(xié)變量大小有關(guān),當(dāng)題目質(zhì)量越好或協(xié)變量影響越大時,協(xié)變量參數(shù)的估計(jì)精度越好。
4 研究2: 實(shí)證研究
4.1 研究目的
比較GPDINA-C與GPDINA在真實(shí)測驗(yàn)中的模型表現(xiàn),驗(yàn)證納入?yún)f(xié)變量信息的多級計(jì)分認(rèn)知診斷模型在實(shí)際應(yīng)用中的優(yōu)勢和適用性。
4.2 實(shí)證數(shù)據(jù)
選擇國際數(shù)學(xué)與科學(xué)趨勢研究(Trends in International Mathematics and Science Study, TIMSS)2007年四年級數(shù)學(xué)評估測驗(yàn)考生的數(shù)據(jù),共有1760名考生,包含10道二級計(jì)分題目和2道三級計(jì)分題目(第3和第10題)??疾炝?個屬性,測驗(yàn)Q矩陣由Lee,Park和Taylan(2011)所界定,如表6所示。
Park和Lee(2014)指出,數(shù)學(xué)和科學(xué)具有結(jié)構(gòu)和功能上的關(guān)系,數(shù)學(xué)可以作為科學(xué)中的工具,科學(xué)也可以進(jìn)一步刺激數(shù)學(xué)的發(fā)現(xiàn)(Li, Shavelson, Kupermintz,? & Ruiz-Primo, 2002),因此,科學(xué)成績可以作為數(shù)學(xué)成績的預(yù)測變量。在本測驗(yàn)中,考生的數(shù)學(xué)成績和科學(xué)成績存在顯著正相關(guān)(r=0.83,p<0.001),所以本研究選擇考生在科學(xué)評估測驗(yàn)的標(biāo)準(zhǔn)化成績作為連續(xù)協(xié)變量信息用于預(yù)測考生的屬性掌握程度。分類協(xié)變量是考生所在地區(qū),共五組,這些地區(qū)的考生成績有顯著的差異(F(4, 1757)=63.64,p<0.001,η2p=0.13),這種地區(qū)的成績差異也能作為被試屬性掌握的預(yù)測工具。其中,270名考生來自中國香港地區(qū)(四年級數(shù)學(xué)評估測驗(yàn)成績排名第一),294名考生來自中國臺灣地區(qū)(排名第三),320名考生來自日本(排名第五),312名考生來自英國(排名第九),564名考生來自美國(排名第十三),美國作為基準(zhǔn)組別。
4.3 結(jié)果
4.3.1 模型擬合比較
在貝葉斯方法下評價模型數(shù)據(jù)擬合的指標(biāo)為偏差信息準(zhǔn)則DIC(deviance information criterion),該指標(biāo)可由JAGS軟件直接計(jì)算得出,公式如下:
DIC的大小可以判斷模型擬合的相對優(yōu)劣,值越小說明模型對數(shù)據(jù)更擬合。分析得到,未納入?yún)f(xié)變量信息的GPDINA的DIC值為32809.2,納入?yún)f(xié)變量信息的GPDINA-C的DIC值為31518.7,說明納入?yún)f(xié)變量信息的多級計(jì)分模型對這批真實(shí)數(shù)據(jù)的擬合表現(xiàn)更優(yōu)。
4.3.2 GPDINA-C的協(xié)變量參數(shù)
GPDINA-C的協(xié)變量影響參數(shù)β和γ的大小分別反應(yīng)了連續(xù)協(xié)變量(科學(xué)成績)與分組協(xié)變量(考生所在地區(qū))對考生屬性掌握程度的貢獻(xiàn)。結(jié)果表明,科學(xué)成績對考生屬性掌握的影響大小β=2.16(SD=0.11), p<0.001,說明科學(xué)成績可以顯著正向預(yù)測考生的數(shù)學(xué)能力掌握程度;表4展示了分組協(xié)變量(即地區(qū))對考生屬性掌握的影響,即γ參數(shù),以及各地區(qū)考生在這12題的平均得分。地區(qū)對考生屬性掌握的影響與各地區(qū)的測驗(yàn)均值有顯著正相關(guān)(r=0.97,p=0.006),表明GPDINA-C能很好估計(jì)分類協(xié)變量的取值,GPDINA-C能很好地?cái)M合實(shí)際情況中分類協(xié)變量對屬性掌握的影響作用。以上結(jié)果均表明納入?yún)f(xié)變量信息的GPDINA-C可以提供GPDINA所不能提供的協(xié)變量影響參數(shù)信息,并且GPDINA-C能很好估計(jì)協(xié)變量影響大小,其估計(jì)值可以作為協(xié)變量影響考生屬性掌握的評價指標(biāo)。
4.3.3 考生知識狀態(tài)
GPDINA-C從28 =256種知識狀態(tài)中識別出1760名考生各自所屬的知識狀態(tài)。圖6展示了考生數(shù)最多的前十類知識狀態(tài),屬于這十類知識狀態(tài)的考生占總考生數(shù)的95.5%。
5 討論
5.1 不足與展望
盡管本研究開發(fā)了能夠處理多種協(xié)變量信息的GPDM-C模型,并給出其簡約模型GPDINA-C的參數(shù)估計(jì)的MCMC算法,但仍有一些值得完善和思考的研究方向。
(1) 在實(shí)證研究中,何時需要考慮協(xié)變量的信息,本研究給出如下建議:若協(xié)變量與測驗(yàn)所考察能力或?qū)傩杂酗@著的相關(guān)關(guān)系,此時可以將該協(xié)變量信息納入認(rèn)知診斷模型中,在控制協(xié)變量信息的基礎(chǔ)上,提高認(rèn)知診斷模型的估計(jì)精度;若協(xié)變量與屬性之間不存在相關(guān)關(guān)系,可以不納入?yún)f(xié)變量,這也是結(jié)構(gòu)方程模型,縱向數(shù)據(jù)分析,項(xiàng)目反應(yīng)理論等研究中的常見做法。此外,也可從模型與數(shù)據(jù)擬合指標(biāo)的角度去判斷協(xié)變量信息是否應(yīng)納入,若納入?yún)f(xié)變量信息后模型擬合指標(biāo)變小,則說明納入?yún)f(xié)變量信息后,模型更加擬合該批數(shù)據(jù),理應(yīng)納入?yún)f(xié)變量信息,獲得更精確的估計(jì)結(jié)果;反之則可以不納入?yún)f(xié)變量。考慮到文章篇幅和研究的聚焦性,本研究未以GPDINA作為真模型進(jìn)行探討,未來可嘗試模型的交叉比較。
(2) GPDM-C是對以等級計(jì)分思想為基礎(chǔ)的GPDM進(jìn)行的開發(fā),而目前存在如基于連續(xù)比率模型(continuation ratio model)的seq-GDINA,基于分布評分模型(partial-credit model)的GPDCDM等其他多級計(jì)分思想的模型,它們的計(jì)分邏輯不同,未來可基于不同計(jì)分邏輯探討納入?yún)f(xié)變量的影響。
(3) 本研究在模擬和實(shí)證研究中約束了模型中的協(xié)變量影響參數(shù)(β,γ)在屬性水平上相等,即協(xié)變量在所有屬性上有相同的作用,這更適用于屬性粒度較小的測驗(yàn),例如同一個協(xié)變量對小屬性加法和減法的掌握程度的影響相似,而可能不適用于屬性粒度較大的測驗(yàn);同一個協(xié)變量對大屬性數(shù)學(xué)和語文的掌握程度的影響差異很大。未來研究中可以放松該限制,考察協(xié)變量在各屬性上的不同影響。
(4) 本研究涉及的協(xié)變量僅為一種連續(xù)協(xié)變量信息和一種類別協(xié)變量信息的影響,而在現(xiàn)實(shí)測驗(yàn)情境下,研究者收集了大量協(xié)變量信息,未來可以探討納入更多協(xié)變量信息時模型的表現(xiàn),以及加入?yún)f(xié)變量交互作用時模型的表現(xiàn)。
(5) GPDM-C設(shè)定的協(xié)變量影響在屬性水平,即協(xié)變量影響屬性掌握程度,從而影響考生作答情況。當(dāng)前還存在將協(xié)變量影響直接作用于考生作答水平的建模思路(Park & Lee, 2014; Park at al., 2017),未來還可以在多級計(jì)分框架下,探討協(xié)變量影響分別在屬性水平和作答水平時對模型表現(xiàn)的影響。
(6) 實(shí)際中存在大量多分屬性的測驗(yàn)情景(郭磊, 張金明, 宋乃慶, 2019; Chen & de la Torre, 2013), 納入?yún)f(xié)變量信息可以在屬性的多個水平上產(chǎn)生不同影響效果,所以在多分屬性認(rèn)知診斷模型中納入?yún)f(xié)變量信息也值得進(jìn)一步探討。
5.2 研究結(jié)論
本研究在多級計(jì)分認(rèn)知診斷框架下開發(fā)了一種同時納入連續(xù)協(xié)變量信息和多類別分類協(xié)變量信息的新模型GPDM-C,并實(shí)現(xiàn)了其約束模型GPDINA-C的MCMC參數(shù)估計(jì),通過模擬研究驗(yàn)證了GPDINA-C模型性能,最后通過TIMSS測驗(yàn)(2007)的實(shí)證數(shù)據(jù)驗(yàn)證了GPDINA-C在實(shí)際應(yīng)用中的效果,驗(yàn)證了納入?yún)f(xié)變量信息的GPDINA-C相比于傳統(tǒng)多級計(jì)分認(rèn)知診斷模型的優(yōu)勢。主要研究結(jié)論如下。
(1) MCMC參數(shù)估計(jì)程序表現(xiàn)優(yōu)良,能精確估計(jì)GPDINA-C模型的所有參數(shù)。
(2) 模擬研究發(fā)現(xiàn),GPDINA-C有較好的判準(zhǔn)精度表現(xiàn)。在有協(xié)變量影響的情景下,使用不能處理協(xié)變量信息的認(rèn)知診斷模型將會對考生知識狀態(tài)的判準(zhǔn)精度產(chǎn)生負(fù)面影響,尤其是在中等或較差題目質(zhì)量的情況下,相比于GPDINA-C,未納入?yún)f(xié)變量的GPDINA的判準(zhǔn)精度大幅降低。
(3) GPDINA-C題目參數(shù)估計(jì)精度較好,在有協(xié)變量影響的情景下,使用不能處理協(xié)變量信息的認(rèn)知診斷模型將會對題目參數(shù)估計(jì)產(chǎn)生負(fù)面影響,GPDINA-C的協(xié)變量參數(shù)(β,γ)與屬性難度參數(shù)(δ)都有著較好的參數(shù)估計(jì)表現(xiàn)。
(4) 題目質(zhì)量和協(xié)變量影響的大小影響了參數(shù)估計(jì)的精度,題目質(zhì)量越好或協(xié)變量影響越大時,參數(shù)的估計(jì)精度越高。
(5) 實(shí)證研究發(fā)現(xiàn), GPDINA-C相比于未納入?yún)f(xié)變量信息的GPDINA而言,對實(shí)證數(shù)據(jù)的擬合程度更好,GPDINA-C可以提供GPDINA所沒有的協(xié)變量影響參數(shù),并且協(xié)變量影響參數(shù)能較好地反映真實(shí)的協(xié)變量影響情況,值得在實(shí)際應(yīng)用中推廣。
參考文獻(xiàn)
陳秋梅, 張敏強(qiáng) (2010). 認(rèn)知診斷模型發(fā)展及其應(yīng)用方法述評. 心理科學(xué)進(jìn)展, 18(3), 522-529.
郭磊, 張金明, 宋乃慶 (2019). 整合后驗(yàn)信息的多分屬性認(rèn)知診斷信效度指標(biāo). 心理科學(xué), 42(2), 446-454.
高旭亮, 汪大勛, 王芳, 蔡艷, 涂冬波 (2019). 基于分部評分模型思路的多級評分認(rèn)知診斷模型開發(fā). 心理學(xué)報, 51(12), 1386-1397.
王玲曉, 張麗婭, 常淑敏 (2019). 兒童母親拒絕與同伴拒絕的關(guān)系——一個有中介的調(diào)節(jié)模型. 心理科學(xué), 42(6), 1347-1353.
張莉, 薛香娟, 趙景欣 (2019). 歧視知覺、抑郁和農(nóng)村留守兒童的學(xué)業(yè)成績:縱向中介模型. 心理科學(xué), 42(3), 584-590.
Ayers, E., Rabe-Hesketh, S., & Nugent, R. (2013). Incorporating student covariates in cognitive diagnosis models. Journal of Classification, 30(2), 195-224.
Chen, J., & de la Torre, J. (2013). Ageneral cognitive diagnosis model for expert-defined polytomous attributes. Applied Psychological Measurement, 37(6), 419-437.
Chen, J., de la Torre, J. (2018). Introducing thegeneral polytomous diagnosis modeling framework. Frontiers in Psychology, 9, 1474.
de la Torre, J. (2011). The generalized DINA model framework. Psychometrika, 76(3), 179-199.
Henson, R. A., Templin, J. L., & Willse, J. T. (2009). Defining a family of cognitive diagnosis models using log-linear models with latent variables.? Psychometrika, 74(2), 191-210.
Hong, C.Y., Chang, Y.W., and Tsai, R.C. (2016). Estimation of generalized DINA model with order restrictions.? Journal of Classification, 33(3), 460-484.
Lee, Y., Park, Y. S., Taylan, D. (2011). Acognitive diagnostic modeling of attribute mastery in Massachusetts, Minnesota, and the U. S. national sample using the TIMSS 2007. International Journal of Testing, 11(2), 144-177.
Leighton, J. P., & Gierl, M. J. (2007). Cognitive diagnostic assessment for education-theory and applications. Cambridge: Cambridge University Press.
Li, M., Shavelson, R. J., Kupermintz, H., & Ruiz-Primo, M. A. (2002). On the relationship between mathematics and science achievement in the United States. In D. F. Robitaille & A. E. Beaton (Eds.), Secondary analysis of the TIMSS data (pp. 233-249). Norwell, MA: Kluwer Academic Publisher.
Li, T., Jiao, H., Macready, G. B. (2016). Differentapproaches to covariate inclusion in the mixture rasch model. Educational and Psychological Measurement, 76(5), 848-872.
Maris, E. (1999). Estimating multiple classification latent class models. Psychometrika, 64(2), 187-212.
Ma, W., & de la Torre, J. (2016). A sequential cognitive diagnosis model for polytomous responses. British Journal of Mathematical and Statistical Psychology, 69(3), 253-275.
Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory. Applied Psychological Measurement, 25(3), 258-272.
Kahraman, N. (2014). An explanatory item response theory approach for a computer-based case simulation test. Eurasian Journal of Educational Research, 14(54), 117-134.
Rupp, A., Templin, J., Henson, R. A. (2010). Diagnostic measurement: Theory, methods, and applications.New York: Guilford Press.
Templin, J. L., & Henson, R. A. (2006). Measurement of psychological disorders using cognitive diagnosis models. Psychological Methods, 11(3), 287-305.
Park, Y. S., & Lee, Y. (2014). Anextension of the DINA model using covariates: Examining factors affecting response probability and latent classification. Applied Psychological Measurement, 38(5), 376-390.
Park, Y. S., Xing, K., Lee, Y. (2017). Explanatorycognitive diagnostic models: Incorporating latent and observed predictors. Applied Psychological Measurement, 42(5), 376-392.
vonDavier, M. (2005). A general diagnostic model applied to language testing data(ETS Research Report no. RR-05-16). Princeton, NJ: Educational Testing Service.
Incorporating Covariates Information in Polytomous Responses Cognitive Diagnosis Model
ZHOU Wenjie1, GUO Lei1,2
(1 Faculty of Psychology, Southwest University, Chongqing 400715, China)
(2 Southwest University Branch, Collaborative Innovation Center of Assessment toward Basic Education Quality, Chongqing 400715, China)
Abstract
Covariates play an important role in psychological and educational studies, which can be used as control variables or regulatory factors in modelling. A few studies involve covariates information in Cognitive diagnosis models (CDMs). However, these studies have some issues that need to be solved. First, the current covariate extension models cannot analyze these polytomous responses. Second, the category covariates included in these studies are only dichotomous variables (such as gender). It cannot handle multi-category covariate information, such as grade and family socioeconomic status.
This paper proposed the GPDM-C (The covariate extension of General polytomous diagnosis model) that incorporates both continuous and multi-category covariates in the polytomous response cognitive diagnosis framework. For simplicity, the saturated GPDM-C model was constrained as a reduced model, named the GPDINA-C model. MCMC algorithm was implemented in JAGS software to complete parameter estimation.
In order to evaluate the parameter estimation accuracy of the GPDINA-C model, showing the advantages of incorporatingcovariates in the polytomous responses model, three factors (item quality, test length, and covariates effect size) were considered in a simulation study. The results indicated that: (1) The MCMC algorithm can accurately estimate all GPDINA-C model parameters. (2) Both person parameters and structure parameters recovery of GPDINA-C outperform the recovery of GPDINA.
Finally, an empirical research is applied to examine the performance of the GPDINA-C model in practice. The results indicate that GPDINA-C hada smaller DIC value than the GPDINA model did, which manifests that the GPDINA-C had a better fit for this empirical data. Furthermore, the covariates parameters of the GPDINA-C can infer the influence of covariates on attribute mastery objectively.
Key words:? cognitive diagnosis; covariates information; polytomous responses cognitive diagnosis model; MCMC