詹沛達(dá) 李曉敏 王文中 邊玉芳 王立君
(1浙江師范大學(xué)心理系,金華 321004) (2北京師范大學(xué)認(rèn)知神經(jīng)科學(xué)與學(xué)習(xí)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100875)(3香港教育學(xué)院評(píng)估研究中心,香港)
1 引言
認(rèn)知診斷評(píng)估(cognitive diagnostic assessment,CDA)不僅有助于人們更深入地了解隱藏在學(xué)生總分背后的認(rèn)知結(jié)構(gòu)、加工技能和認(rèn)知過(guò)程之間的差異,還能提供該學(xué)生的認(rèn)知診斷報(bào)告和補(bǔ)救性教學(xué)建議,對(duì)學(xué)生個(gè)體的發(fā)展起到了積極的促進(jìn)作用。要對(duì)學(xué)生的內(nèi)部心理加工過(guò)程進(jìn)行測(cè)量、診斷和評(píng)估就需要認(rèn)知診斷模型(cognitive diagnostic models,CDM)。常見(jiàn)的CDM有DINA模型(Haertel,1989;Junker &Sijtsma,2001)、DINO模型(Templin &Henson,2006)、LCDM (Henson,Templin,&Willse,2009)等。與此同時(shí),在實(shí)際心理或教育測(cè)驗(yàn)中也經(jīng)常出現(xiàn)多個(gè)項(xiàng)目共用相同刺激(stimulus)的情況(如:篇章閱讀題型),這種受共同刺激影響和制約的項(xiàng)目集合通常被稱為題組(testlet) (Wainer &Kiely,1987)。使用題組可以節(jié)約考生閱讀材料的時(shí)間,提高測(cè)驗(yàn)的效率,提供邏輯關(guān)系更強(qiáng)的材料(DeMars,
2006;Wainer,Bradlow,&Wang,2007;Huang &Wang,2013;詹沛達(dá),王文中,王立君,李曉敏,2014)。目前,如 TOEFL、GRE、PISA、PIRLS等大型測(cè)驗(yàn)均涉及了大量的題組,對(duì)題組進(jìn)行研究的必要性日顯重要。當(dāng)測(cè)驗(yàn)存在題組時(shí),由于嵌在題組內(nèi)的項(xiàng)目共用相同的題組刺激,這時(shí)題組項(xiàng)目反應(yīng)間就存在一定的相依性,即相依于題組效應(yīng)。為了合理有效地處理題組效應(yīng),研究者們也開(kāi)發(fā)出了一系列題組反應(yīng)模型(testlet response models,TRM),如:Rasch題組模型(Wang &Wilson,2005)、廣義題組模型(Li,Bolt,&Fu,2006)、高階題組模型(Huang &Wang,2013)等。
Rupp和Templin (2007)曾指出當(dāng)前認(rèn)知診斷領(lǐng)域還缺少對(duì)包含題組的測(cè)驗(yàn)進(jìn)行診斷分析的研究??梢哉f(shuō),目前CDM和TRM仍處于相互獨(dú)立的開(kāi)發(fā)階段,即已開(kāi)發(fā)的 CDM 無(wú)法有效處理含有題組效應(yīng)的測(cè)驗(yàn)數(shù)據(jù),且已開(kāi)發(fā)的 TRM 不具有對(duì)被試知識(shí)結(jié)構(gòu)或認(rèn)知過(guò)程進(jìn)行診斷的功能。因此,開(kāi)發(fā)出一種既具有認(rèn)知診斷功能的又能有效處理題組效應(yīng)的項(xiàng)目反應(yīng)模型仍是很有必要的且值得研究的。對(duì)此,本文把具有認(rèn)知診斷功能的線性 Logistic模型(LLM) (Maris,1999)和多維題組效應(yīng)Rasch模型(MTERM) (詹沛達(dá)等,2014)相結(jié)合,首先提出了一種假設(shè)認(rèn)知屬性間具有補(bǔ)償作用的多維題組效應(yīng)認(rèn)知診斷模型(compensatory multidimensional testleteffect CDM,C-MTECDM),并在此基礎(chǔ)上,提出了另一種假設(shè)認(rèn)知屬性間具有非補(bǔ)償作用多維題組效應(yīng)認(rèn)知診斷模型(noncompensatory multidimensional testleteffect CDM,N-MTECDM),之后根據(jù)C-MTECDM、N-MTECDM和已有TRM的共同點(diǎn),提出了更一般的 Logistic題組框架(Logistic testlet framework,LTF),以期找到一種可以有效解決該問(wèn)題的方法。
2 多維題組效應(yīng)認(rèn)知診斷模型的開(kāi)發(fā)
2.1 題組效應(yīng)及多維題組效應(yīng)模型簡(jiǎn)介
題組效應(yīng)是指當(dāng)被試對(duì)題組項(xiàng)目的反應(yīng)依賴于被試對(duì)題組刺激的整體認(rèn)知時(shí),項(xiàng)目反應(yīng)間存在的一種相依性。即題組效應(yīng)是一種測(cè)驗(yàn)?zāi)繕?biāo)潛在特質(zhì)(潛質(zhì))以外的影響項(xiàng)目反應(yīng)的潛質(zhì)(詹沛達(dá),王文中,王立君,2013)。那么將題組效應(yīng)引入CDA后,就可將其理解為一種測(cè)驗(yàn)?zāi)繕?biāo)屬性(即Q矩陣所包含的屬性)以外的影響項(xiàng)目反應(yīng)的潛質(zhì)。
詹沛達(dá)等(2014)將題組效應(yīng)劃分為項(xiàng)目?jī)?nèi)單維題組效應(yīng)和項(xiàng)目?jī)?nèi)多維題組效應(yīng),如圖1所示,進(jìn)而提出了MTERM,其中二級(jí)評(píng)分的MTERM可描述為(log-odds,下同):





詹沛達(dá)等(2014)指出 MTERM 更具普適性,即便當(dāng)作答數(shù)據(jù)不存在題組效應(yīng)或只存在項(xiàng)目?jī)?nèi)單維題組效應(yīng),采用該模型簇進(jìn)行測(cè)驗(yàn)分析也能得到較好的參數(shù)估計(jì)結(jié)果。因此,使用多維題組效應(yīng)向量參數(shù)而不是單維題組效應(yīng)參數(shù)可以提高新模型的適用范圍。

圖1 項(xiàng)目?jī)?nèi)單維/多維題組效應(yīng)示意圖。θ表示被試能力,γ表示題組效應(yīng),□表示項(xiàng)目
2.2 Q矩陣及LLM簡(jiǎn)介
CDM與Q矩陣(Tatsuoka,1985)是CDA的兩個(gè)重要組成部分。首先,Q矩陣是連接項(xiàng)目與屬性的紐帶,通常Q矩陣(
I
×
K
,其中
I
表示項(xiàng)目數(shù)量,
K
表示屬性數(shù)量)是由數(shù)值 0與 1所組成的,它的元素
q
界定了項(xiàng)目
i
與第
k
個(gè)屬性間的關(guān)系,若
q
=1表示項(xiàng)目
i
考查了第
k
個(gè)屬性,反之為
q
=0。另外,對(duì)比式(4)與式(2)后可發(fā)現(xiàn),U矩陣與Q矩陣的功能類似,差異僅在于Q矩陣用于界定項(xiàng)目與屬性之間的關(guān)系,而U矩陣用于界定項(xiàng)目與題組效應(yīng)之間的關(guān)系。



式中,
P
1和
P
含義同上;
α
為被試
n
對(duì)第
k
個(gè)屬性的掌握情況,有
α
∈ {0,1};
q
為項(xiàng)目 i對(duì)第
k
個(gè)屬性的考查情況,有
q
∈ {0,1};
λ
為項(xiàng)目
i
的截距,exp (
λ
)/[1+exp (
λ
)]用于描述正確作答項(xiàng)目
i
的基線概率;
λ
為項(xiàng)目
i
中屬性
k
的權(quán)重(即
λ
≥0),用于描述掌握屬性
k
對(duì)正確作答項(xiàng)目
i
的概率的對(duì)數(shù)發(fā)生比的增量;

LLM是一種補(bǔ)償(compensatory)模型,其假設(shè)被試掌握任一項(xiàng)目所考查的屬性均會(huì)增加其正確作答的概率,且這種貢獻(xiàn)與掌握其他屬性所產(chǎn)生的貢獻(xiàn)相獨(dú)立。
2.3 多維題組效應(yīng)認(rèn)知診斷模型
2.3.1 補(bǔ)償型多維題組效應(yīng)認(rèn)知診斷模型
為解決在 CDA中實(shí)現(xiàn)對(duì)含有題組效應(yīng)的數(shù)據(jù)的有效處理,本文首先將MTERM和LLM相結(jié)合,提出一種假設(shè)各認(rèn)知屬性對(duì)正確作答概率(的對(duì)數(shù)發(fā)生比)有補(bǔ)償作用的 CDM,其項(xiàng)目反應(yīng)函數(shù)可描述為:





2.3.2 非補(bǔ)償型多維題組效應(yīng)認(rèn)知診斷模型
在CDM中,除了補(bǔ)償模型外還有一類較為常見(jiàn)的非補(bǔ)償模型,如:DINA模型、NIDA模型等。通常在非補(bǔ)償模型中,當(dāng)且僅當(dāng)被試掌握項(xiàng)目所考查的全部目標(biāo)屬性時(shí)才有較高的正確作答概率。此時(shí),可將 C-MTECDM 中用于描述屬性的“連加模塊”改變?yōu)椤斑B乘模塊”,則有:





進(jìn)而有:

除對(duì)屬性掌握模式與項(xiàng)目反應(yīng)關(guān)系間的描述存在差異外,N-MTECDM仍保持與C-MTECDM一致的特性:(1)采用logit聯(lián)接函數(shù);(2)假設(shè)題組效應(yīng)為連續(xù)潛質(zhì);(3)各題組效應(yīng)間滿足正交結(jié)構(gòu)。
2.4 Logistic題組框架
上文共提出了兩種具有認(rèn)知診斷功能的題組模型,它們之間的差異在于對(duì)屬性掌握模式與項(xiàng)目反應(yīng)關(guān)系間的描述不同。其實(shí),在觀察 MTERM、Rasch題組模型、C-MTECDM、N-MTECDM以及雙參數(shù)題組模型(Bradlow,Wainer,&Wang,1999)和高階題組模型(Huang &Wang,2013)等后可發(fā)現(xiàn),它們之間的主要差異也僅在于對(duì)潛變量的描述方式不同,如圖2。

圖2 logit聯(lián)接函數(shù)下各題組反應(yīng)模型的聯(lián)系與區(qū)別
即它們均可被視為由3個(gè)模塊組成,則可將它們統(tǒng)一描述為:

式(12)可被稱為L(zhǎng)ogistic題組框架(LTF),其中,

模塊 2 “
testlet effects
”或
v
(·)是 LTF 中用于描述項(xiàng)目反應(yīng)中的題組效應(yīng)(非目標(biāo)潛質(zhì)),目前包括較常見(jiàn)的項(xiàng)目?jī)?nèi)單維題組效應(yīng)參數(shù)和更具普適性項(xiàng)目?jī)?nèi)多維題組效應(yīng)向量參數(shù)。研究者也可根據(jù)實(shí)際情況對(duì)題組效應(yīng)添加區(qū)分度參數(shù)。通常假設(shè)題組效應(yīng)與目標(biāo)潛在特質(zhì)之間不存在交互作用(DeMars,2006;Wang &Wilson,2005;Huang &Wang,2013;詹沛達(dá),2014),因此在LTF中模塊1與模塊2是求和(補(bǔ)償)關(guān)系。模塊 3 “
intercept
”或
λ
的含義與潛變量的類型有關(guān)。通常,當(dāng)潛變量為連續(xù)變量時(shí),
λ
用于描述項(xiàng)目特征曲線拐點(diǎn)所對(duì)應(yīng)的橫坐標(biāo),此時(shí)
λ
可被稱為項(xiàng)目定位參數(shù)或難度參數(shù);而當(dāng)潛變量為類別變量時(shí),exp (
λ
)/[1+exp (
λ
)]可用于描述正確作答項(xiàng)目
i
的基線概率,此時(shí)
λ
可被稱為截距參數(shù)。

為探究 C-MTECDM和 N-MTECDM的性能,本文將包含2個(gè)研究,研究1的主要目的是對(duì)兩個(gè)模型進(jìn)行參數(shù)返真性檢驗(yàn),以期檢驗(yàn)參數(shù)估計(jì)方法是否能夠提供較好的參數(shù)估計(jì)結(jié)果;研究2中分別將C-MTECDM和N-MTECDM與忽略題組效應(yīng)的CDM 進(jìn)行了對(duì)比研究,以期向讀者展示忽略題組效應(yīng)對(duì)測(cè)驗(yàn)分析結(jié)果所帶來(lái)的危害。
3 參數(shù)估計(jì)
本研究使用基于 MCMC算法的 WinBUGS(version 1.4,Spiegelhalter,Thomas,&Best,2003)進(jìn)行參數(shù)估計(jì),設(shè)定每種實(shí)驗(yàn)條件進(jìn)行
R
=10次循環(huán)以期減小隨機(jī)誤差,這與其他一些使用 MCMC算法的研究類似(e.g.,Li et al.,2006;Huang &Wang,2013;詹沛達(dá),2014),每次循環(huán)設(shè)定鏈數(shù)為 3,每條鏈中迭代5000次并預(yù)熱(burn-in)前2000次迭代結(jié)果,取后 3000次迭代結(jié)果的平均數(shù)為該鏈的參數(shù)估計(jì)結(jié)果,最后取3條鏈的估計(jì)結(jié)果的平均值作為該循環(huán)的估計(jì)結(jié)果(各參數(shù)估計(jì)均收斂)。設(shè)定待估計(jì)參數(shù)的先驗(yàn)分布滿足:
λ
~
U
(–3,3)、
λ
~
U
(0,5)、
λ
~
U
(0,5)、
α
~
Bernoulli
(0.5)、γ~
MVN
(0,Σ)。根據(jù)條件獨(dú)立假設(shè)或廣義局部獨(dú)立假設(shè)(詹沛達(dá)等,2013)有聯(lián)合后驗(yàn)分布為:

則各參數(shù)的滿條件分布為:

進(jìn)而,MCMC算法的抽樣過(guò)程如下,
t
為迭代次數(shù):(1) γ參數(shù),γ從多元正態(tài)分布
MVN
(γ,Σ)中隨機(jī)抽取,轉(zhuǎn)移概率為:

(2) Σ,多維題組效應(yīng)協(xié)方差矩陣(Σ)從
M
維逆Wishart分布
W
[R,
M
]中直接抽取,R為
M
階單位矩陣,(3) α 參數(shù),
α
從建議分布
Bernoulli
(0.5)中隨機(jī)抽取,轉(zhuǎn)移概率為:

(4) λ參數(shù),λ從建議分布
N
(λ,1),轉(zhuǎn)移概率為:

4 研究1
4.1 研究設(shè)計(jì)
4.1.1 Q矩陣與U矩陣的設(shè)定
本研究設(shè)定考查屬性個(gè)數(shù)為
K
=4,題目數(shù)
I
=30,則Q矩陣見(jiàn)表1。并設(shè)定該模擬測(cè)驗(yàn)包含3個(gè)篇章閱讀:第1篇包含第1題~第10題、第2篇包含第11題~第20題、第3篇包含第21題~第30題,且存在交叉分類結(jié)構(gòu)(crossed classification structure,即項(xiàng)目反應(yīng)受到項(xiàng)目?jī)?nèi)多維題組效應(yīng)影響),則 U矩陣的設(shè)定同見(jiàn)表1。
4.1.2 項(xiàng)目參數(shù)、題組效應(yīng)與被試屬性掌握模式的設(shè)定
本研究采用R軟件(version 3.0.2,http://www.rproject.org)自編程序來(lái)實(shí)現(xiàn)數(shù)據(jù)模擬。


表1 Q矩陣與U矩陣
考慮到 MTECDM 的復(fù)雜性(同時(shí)包含潛在類別變量和潛在連續(xù)變量)和Q矩陣的設(shè)定(共包含8個(gè)維度潛變量),根據(jù)已有關(guān)于多維項(xiàng)目反應(yīng)模型的研究(e.g.,Ackerman,1994;Yao &Boughton,2007)可推斷出欲對(duì)MTECDM實(shí)現(xiàn)較精準(zhǔn)參數(shù)估計(jì)很可能需要較大的樣本量。因此設(shè)定 3個(gè)樣本容量(1600、3200和4800)以期探究MTECDM的參數(shù)估計(jì)返真性,具體設(shè)定方法為:目標(biāo)屬性數(shù)
K
=4,即共有2=16種屬性模式,設(shè)定每種屬性模式人數(shù)分別為100、200和300人。4個(gè)題組效應(yīng)滿足多元正態(tài)分布
MVN
(0,Σ),其中對(duì)角陣:


4.2 模擬作答
模擬作答時(shí),首先根據(jù)參數(shù)“真值”和所選用的模型來(lái)計(jì)算被試
n
在項(xiàng)目
i
上的正確作答概率
P
。其次生成一個(gè)隨機(jī)數(shù)
r
(0≤
r
≤1),則得分被定義為:

4.3 評(píng)價(jià)指標(biāo)
采用平均偏差
Bias
、均方根誤差
RMSE
和相對(duì)偏差的絕對(duì)值(the absolute value of relative bias,
ARB
)作為項(xiàng)目參數(shù)和題組效應(yīng)參數(shù)返真性的評(píng)價(jià)指標(biāo):


采用屬性判準(zhǔn)率(attribute correct classification rate,
ACCR
)和屬性屬性模式判準(zhǔn)率(pattern correct classification rate,
PCCR
)作為屬性參數(shù)返真性的評(píng)價(jià)指標(biāo):

式中,
N
為樣本容量,
K
為屬性個(gè)數(shù),
am
=1表示第
r
次循環(huán)中對(duì)被式
n
的第
k
個(gè)屬性判斷正確,
pm
=1表示第
r
次循環(huán)中被試
n
的掌握模式α判斷正確。被試反應(yīng)模擬及參數(shù)估計(jì)共循環(huán)
R
次以減小實(shí)驗(yàn)誤差。
4.4 研究1結(jié)果與結(jié)論
研究1的結(jié)果見(jiàn)表2~表3和圖3。其中,表2給出了研究1中
ACCR
和
PCCR
指標(biāo)值,用于反映兩個(gè)模型對(duì)目標(biāo)屬性的返真性。

表2 研究1中ACCRPCCR指標(biāo)值

表3 研究1中對(duì)C-MTECDM的參數(shù)估計(jì)的返真性

注:為減少篇幅僅列出部分參數(shù)估計(jì)結(jié)果。
對(duì)于 C-MTECDM,當(dāng)樣本量為 1600時(shí),其 5個(gè)屬性的
ACCR
指標(biāo)值分別為0.984、0.989、0.988和0.988,且
PCCR
指標(biāo)值為0.958;當(dāng)樣本量增加至 3200時(shí),其 5個(gè)屬性的
ACCR
指標(biāo)值分別為0.988、0.990、0.986、0.988和 0.988,且
PCCR
指標(biāo)值為 0.960;當(dāng)樣本量增加至 4800時(shí),
ACCR
和
PCCR
增幅較小。這說(shuō)明C-MTECDM具有認(rèn)知診斷功能,且判準(zhǔn)率較高。而對(duì)于N-MTECDM,當(dāng)樣本量為1600時(shí),其5個(gè)屬性的
ACCR
指標(biāo)值分別為 0.992、0.993、0.989、0.989,且
PCCR
指標(biāo)值為 0.970。同樣,
ACCR
和
PCCR
也會(huì)隨著樣本量的增加而增加,這同樣說(shuō)明N-MTECDM具有認(rèn)知診斷功能。表3給出了研究1中C-MTECDM的題組效應(yīng)參數(shù)方差、截距參數(shù)和屬性權(quán)重參數(shù)的返真性。當(dāng)樣本量為1600時(shí),題組效應(yīng)參數(shù)方差的
Bias
指標(biāo)值介于[–0.03 0.05]之間,
RMSE
指標(biāo)值介于[0.07,0.10]之間,
ARB
指標(biāo)值介于[0.01,0.04]之間均小于0.05,
SD
介于[0.07,0.11]之間;30個(gè)項(xiàng)目的截距參數(shù)的
Bias
指標(biāo)值的平均值為0.04,
RMSE
指標(biāo)值平均值為0.15,
ARB
指標(biāo)值平均值為0.04,
SD
的平均值為0.15;60個(gè)屬性權(quán)重參數(shù)的
Bias
指標(biāo)值的平均值為0.04,
RMSE
指標(biāo)值平均值為0.15,
ARB
指標(biāo)值平均值為0.04,
SD
平均值為0.15。另外,表中已經(jīng)將
ARB
指標(biāo)值大于0.05的結(jié)果(表示該估計(jì)結(jié)果不可被接受)以粗體形式標(biāo)記出,可以看出當(dāng)樣本量為1600時(shí),不可接受的參數(shù)估計(jì)結(jié)果數(shù)為21個(gè)且主要集中在后面考查3個(gè)屬性的題目的屬性權(quán)重參數(shù)上,表明每個(gè)題目所考查的屬性個(gè)數(shù)會(huì)影響C-MTECDM 的參數(shù)估計(jì)結(jié)果;隨著樣本量的增加,各個(gè)參數(shù)的估計(jì)精準(zhǔn)度和穩(wěn)定性均有所提升,當(dāng)樣本量提升至 3200時(shí),不可接受的參數(shù)估計(jì)結(jié)果數(shù)為3;當(dāng)樣本量增加至4800時(shí),參數(shù)估計(jì)的返真性表現(xiàn)更好,但增幅小于樣本量從 1600增加至 3200時(shí)的增幅。因此欲實(shí)現(xiàn)C-MTECDM較為精準(zhǔn)的參數(shù)估計(jì),在與本研究研究條件相似的情況下,建議樣本數(shù)量不低于3000。表4給出了研究1中N-MTECDM的題組效應(yīng)參數(shù)方差、截距參數(shù)和屬性權(quán)重參數(shù)的參數(shù)估計(jì)返真性。與C-MTECDM類似,4個(gè)評(píng)價(jià)指標(biāo)值均隨著樣本量的增加而減小,即返真性隨著樣本量的增加而提高。根據(jù)
ARB
指標(biāo)值,當(dāng)樣本量為1600時(shí)不可接受的參數(shù)估計(jì)值數(shù)量?jī)H為3個(gè),因此欲實(shí)現(xiàn)對(duì)N-MTECDM 較為精準(zhǔn)和穩(wěn)定的參數(shù)估計(jì),在與本研究研究條件相似的情況下,建議樣本數(shù)量不低于1500。同樣可發(fā)現(xiàn)前 30個(gè)截距參數(shù)的估計(jì)返真性普遍高于后面的屬性權(quán)重參數(shù)的估計(jì)返真性。
根據(jù)上述結(jié)果可知,(1)當(dāng)樣本量足夠大時(shí),參數(shù)估計(jì)程序可為C-MTECDM和N-MTECDM提供較精準(zhǔn)和穩(wěn)定的參數(shù)估計(jì);(2)C-MTECDM 與N-MTECDM 均具有認(rèn)知診斷功能,且均可有效處理題組效應(yīng)。此外,當(dāng)樣本量為 4800時(shí),C-MTECDM和N-MTECDM均有很好的參數(shù)估計(jì)結(jié)果,這為研究2進(jìn)行模型對(duì)比提供了前提保障。
5 研究2
5.1 研究設(shè)計(jì)
研究2用于進(jìn)行模型對(duì)比,即為讀者呈現(xiàn)當(dāng)作答數(shù)據(jù)包含題組效應(yīng)時(shí),使用不包含題組效應(yīng)參數(shù)的LLM和(logit)DINA模型去進(jìn)行數(shù)據(jù)分析所帶來(lái)危害;以及當(dāng)作答數(shù)據(jù)不包含題組效應(yīng)時(shí),使用MTECDM 去進(jìn)行數(shù)據(jù)分析會(huì)得出什么結(jié)果。為簡(jiǎn)化研究,研究2所用Q矩陣、U矩陣、項(xiàng)目參數(shù)、題組效應(yīng)與被試屬性掌握模式等的設(shè)定均與研究1保持一致。
5.2 模擬作答以及評(píng)價(jià)指標(biāo)
被試模擬作答以及評(píng)價(jià)指標(biāo)與研究1大體一致,所不同的是:(1)在模擬作答時(shí),當(dāng)作答數(shù)據(jù)包含題組效應(yīng)時(shí),會(huì)使用MTECDM作為真實(shí)模型去生成作答數(shù)據(jù);而當(dāng)作答數(shù)據(jù)不包含題組效應(yīng)時(shí),會(huì)使用LLM或(logit)DINA模型作為真實(shí)模型去生成作答數(shù)據(jù);(2)樣本容量均設(shè)定為4800;(3)在研究2中還 添 加 了 –2
log-likelihood
(–2
LL
)、
AIC (
Akaike,1974)、
BIC (
Schwarz,1978)這3個(gè)相對(duì)評(píng)價(jià)指標(biāo):

(27)式中,
L
為似然函數(shù),
d
為所采用模型估計(jì)參數(shù)的個(gè)數(shù),
N
為被試樣本量。這3個(gè)指標(biāo)值越小表明模型-數(shù)據(jù)擬合越好。

表4 研究1中對(duì)N-MTECDM的題組效應(yīng)參數(shù)方差與截距參數(shù)的返真性
5.3 研究2結(jié)果與結(jié)論
研究2結(jié)果見(jiàn)表5和表6。其中,表5給出了LLM和C-MTECDM之間的對(duì)比結(jié)果,當(dāng)真實(shí)模型為L(zhǎng)LM時(shí)(即作答數(shù)據(jù)不包含題組效應(yīng)),兩個(gè)模型均有較好的參數(shù)返真性,且從各評(píng)價(jià)指標(biāo)看,兩者分析的結(jié)果間幾乎無(wú)差異,至于為什么 C-MTECDM比LLM的
AIC
和
BIC
指標(biāo)值還略小,這可能是由于模擬研究中的隨機(jī)誤差造成的(e.g.,4.2中模擬作答過(guò)程),而題組效應(yīng)參數(shù)正是為了處理題組效應(yīng)這一誤差項(xiàng)而添加的;而當(dāng)真實(shí)模型為 C-MTECDM時(shí)(即作答數(shù)據(jù)包含題組效應(yīng)),僅有 C-MTECDM具有較好的參數(shù)返真性,而 LLM 無(wú)論對(duì)項(xiàng)目參數(shù)還是目標(biāo)屬性的返真性均較差。此時(shí),C-MTECDM的-2
LL
、
AIC
和
BIC
指標(biāo)值也顯著小于LLM的,說(shuō)明LLM對(duì)該作答數(shù)據(jù)的擬合度較差。表6給出了(logit)DINA和N-MTECDM之間的對(duì)比。實(shí)驗(yàn)結(jié)果和結(jié)論與上文類似,但與表4中結(jié)果不同的是,當(dāng)使用(logit)DINA去分析含有題組效應(yīng)的數(shù)據(jù)時(shí),雖然參數(shù)估計(jì)偏差大、精確度低,但卻有較好的穩(wěn)定性。這或許也是因?yàn)镃-MTECDM中
h
(·)的復(fù)雜性高于N-MTECDM中的
h
(·),所以導(dǎo)致在提供同等信息量的情況下 CMTECDM的參數(shù)估計(jì)返真性會(huì)低于N-MTECDM的,而又因?yàn)檫@兩種模型對(duì)認(rèn)知屬性對(duì)正確作答概率貢獻(xiàn)方式假設(shè)的不同,所以并不具有直接可比性,研究者需要根據(jù)不同的測(cè)驗(yàn)情境去選用適合的模型。
綜上所述,(1)當(dāng)作答數(shù)據(jù)含有題組效應(yīng)時(shí),采用忽略題組效應(yīng)的LLM和(logit)DINA模型會(huì)導(dǎo)致項(xiàng)目參數(shù)的偏差估計(jì)并降低對(duì)目標(biāo)屬性的判準(zhǔn)率,且(logit)DINA模型的參數(shù)估計(jì)穩(wěn)定性高于LLM;(2)相對(duì)于LLM和(logit)DINA而言MTECDM更具普適性,即便當(dāng)作答數(shù)據(jù)不存在題組效應(yīng)時(shí),測(cè)驗(yàn)分析采用MTECDM也能得到很好的參數(shù)估計(jì)結(jié)果。

表5 兩個(gè)補(bǔ)償模型(LLM與C-MTECDM)之間的對(duì)比

表6 兩個(gè)非補(bǔ)償模型((logit)DINA與N-MTECDM)之間的對(duì)比

max –0.30