羅照盛 喻曉鋒,2 高椿雷 李喻駿 彭亞風(fēng)王 睿 王鈺彤
(1江西師范大學(xué)心理學(xué)院,南昌 330022) (2亳州師范高等專科學(xué)校,亳州 236800)
相對(duì)于傳統(tǒng)的測(cè)驗(yàn)形式,計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(Computerized Adaptive Test,CAT)由于有更高的測(cè)試效率和更好的測(cè)驗(yàn)精度而受到廣泛關(guān)注(Barrada,Olea,Ponsoda,&Abad,2008;Chang &Ying,1999;Chang,Qian,&Ying,2001;程小楊,丁樹良,嚴(yán)深海,朱隆尹,2011;劉珍,丁樹良,林海菁,2008)。與其它測(cè)驗(yàn)形式相比,認(rèn)知診斷(Cognitive Diagnosis,CD)測(cè)驗(yàn)最大的優(yōu)勢(shì)在于它能提供被試在測(cè)驗(yàn)領(lǐng)域上的知識(shí)診斷報(bào)告,這個(gè)診斷報(bào)告包含了更加豐富的評(píng)價(jià)信息,可以對(duì)被試的進(jìn)一步學(xué)習(xí)、教師開展針對(duì)性教學(xué)等提供幫助(Leighton&Gierl,2007;Rupp,Templin,&Henson,2010)。
認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(Cognitive Diagnostic Computerized Adaptive Testing,CD-CAT)(Cheng,2009a,2009b;McGlohen&Chang,2008;Xu,Chang,&Douglas,2003)建立在傳統(tǒng)CAT(指沒有診斷功能的CAT)的基礎(chǔ)之上,同時(shí)賦予傳統(tǒng)CAT新的功效—認(rèn)知診斷,它是將認(rèn)知診斷的基本理論、方法與計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)相結(jié)合的產(chǎn)物。CD-CAT結(jié)合了CAT和CD的優(yōu)點(diǎn),它一方面可以對(duì)被試的知識(shí)狀態(tài)進(jìn)行診斷;另一方面在診斷過程中可以有針對(duì)性、“量體裁衣”式的選擇項(xiàng)目讓被試作答,從而有利于提高測(cè)驗(yàn)效率和測(cè)量精度(Cheng,2009a)。根據(jù)Wang (2013)的描述,CD-CAT是結(jié)合了CD和CAT二者的優(yōu)點(diǎn)的一種測(cè)驗(yàn),其中CD的目的是根據(jù)被試的知識(shí)掌握情況對(duì)被試分類,找到被試的優(yōu)勢(shì)和弱點(diǎn),而 CAT的算法則使這一過程盡可能更高效的實(shí)現(xiàn)。
在傳統(tǒng) CAT研究中,選題策略是一個(gè)重要的組成部分,每次都是基于被試的當(dāng)前能力估計(jì)值,根據(jù)某種信息測(cè)度(比如Fisher最大信息量)來(lái)選擇下一個(gè)要施測(cè)的項(xiàng)目,從而達(dá)到采用較少的項(xiàng)目估計(jì)被試的能力也能達(dá)到預(yù)先設(shè)定的精度(Chang &Ying,1996)。
關(guān)于CD-CAT的選題策略,已有的研究主要有5種:一是基于 KL信息量的選題策略(KL),即根據(jù)被試的當(dāng)前屬性掌握模式估計(jì)值,每次從題庫(kù)或剩余題庫(kù)中選擇KL信息量最大的項(xiàng)目施測(cè)(Cheng,2009a)。二是基于香農(nóng)熵的選題策略(SHE),根據(jù)被試的當(dāng)前屬性掌握模式估計(jì)值,每次從題庫(kù)或剩余題庫(kù)中選擇香農(nóng)熵最小的項(xiàng)目施測(cè)(Tatsuoka,2002,Xu et al.,2003)。三是基于后驗(yàn)概率加權(quán)的KL信息量的選題策略(PWKL),相對(duì)于 KL信息量選題策略,PWKL給KL信息量增加了不同的權(quán)重,權(quán)重是屬性掌握模式的后驗(yàn)概率(Cheng,2009a)。四是基于后驗(yàn)概率和屬性掌握模式距離加權(quán)的KL信息量的選題策略(HKL),相對(duì)于PWKL選題策略,HKL選題策略的區(qū)別在于權(quán)重不同,HKL選題策略同時(shí)考慮后驗(yàn)概率和屬性掌握模式間的相似性來(lái)對(duì)KL信息量加權(quán)(Cheng,2008,2009a)。有關(guān)這4種選題策略的詳細(xì)計(jì)算方式,請(qǐng)參考 Cheng (2008,2009a),并且Cheng對(duì)這4種選題策略之間的關(guān)系進(jìn)行了闡述和說(shuō)明。根據(jù)Cheng研究結(jié)果,這4種選題策略的模式分類準(zhǔn)確率最高的是 HKL,并且 PWKL與HKL的模式分類準(zhǔn)確率很接近。第五種是基于互信息(Mutual Information)的選題策略(MI,Wang,2013),Wang研究了短測(cè)驗(yàn)下,比較 MI與 KL,PWKL,SHE等策略的表現(xiàn),模擬研究結(jié)果表明:對(duì)被試的屬性掌握模式準(zhǔn)確率上,在 Wang的實(shí)驗(yàn)條件下,MI在多數(shù)情況下略占優(yōu)。
已有的 CD-CAT選題策略基本是基于被試屬性掌握模式的當(dāng)前估計(jì)值,并結(jié)合某種信息測(cè)度,比如 KL信息量,香農(nóng)熵或互信息等,從題庫(kù)或剩余題庫(kù)中選擇某個(gè)項(xiàng)目來(lái)施測(cè)。屬性掌握模式估計(jì)值通常是通過截?cái)帱c(diǎn)轉(zhuǎn)換(比如將屬性掌握概率與0.5比較,大于0.5則認(rèn)為被試掌握了某屬性,否則不掌握)或者是取最大期望后驗(yàn)概率(Maximum A Posterior,MAP)對(duì)應(yīng)的屬性掌握模式而得到(Huebner &Wang,2011)。然而,在自適應(yīng)測(cè)驗(yàn)初期,由于對(duì)被試水平的診斷信息較少,此時(shí)的屬性掌握模式估計(jì)值可能存在較大偏差,如果采用的選題策略僅僅基于當(dāng)前的屬性掌握模式和作答,會(huì)不利于估計(jì)被試的屬性掌握模式,進(jìn)而影響到整個(gè)CD-CAT的測(cè)驗(yàn)效度和測(cè)驗(yàn)精度(涂冬波,蔡艷,戴海崎,2013)。涂冬波等(2013)研究了在初始階段選擇包含“可達(dá)矩陣”的項(xiàng)目讓被試作答,模擬實(shí)驗(yàn)結(jié)果表明,初始階段的選題對(duì)被試的屬性掌握模式的估計(jì)是有影響的。根據(jù)被試屬性掌握概率和人為給出的截?cái)帱c(diǎn)賦以被試的知識(shí)狀態(tài),比如截?cái)帱c(diǎn)為0.5,則兩個(gè)知識(shí)狀態(tài)某一個(gè)分量(屬性掌握概率)為0.01和0.49的,都評(píng)判為該屬性沒有掌握,但是兩者的差異是明顯的。因此,被試屬性掌握概率(Attribute Mastery Probability,AMP)可以更直接地反映被試的當(dāng)前水平,還未發(fā)現(xiàn)基于被試屬性掌握概率的選題策略的研究(即在測(cè)試過程中,使用屬性掌握概率變化加權(quán)的選題策略)。也正是基于這種考慮,本研究基于被試的屬性掌握概率,提出兩種新的選題策略,并與已有的CD-CAT下的選題策略進(jìn)行比較。
在介紹新的選題策略之前,首先對(duì)涉及到的概念和符號(hào)進(jìn)行說(shuō)明。
屬性掌握概率:它是一個(gè)由0到1之間的數(shù),被試在測(cè)驗(yàn)各屬性上的掌握概率就構(gòu)成了屬性掌握概率向量,每個(gè)元素對(duì)應(yīng)了被試對(duì)該位置上的屬性的掌握概率。比如:某被試的屬性掌握概率向量為[0.21,0.68,0.85],表明該被試掌握測(cè)驗(yàn)中三個(gè)屬性的概率分別是0.21、0.68和0.85。
屬性掌握模式(或稱知識(shí)狀態(tài)):它是一個(gè)由 0和1組成的二值向量,其中向量中的0表示被試對(duì)該位置對(duì)應(yīng)的屬性沒有掌握,1表示掌握。比如:某被試的屬性掌握模式為[0,1,1],表明測(cè)驗(yàn)考察了三個(gè)屬性,該被試掌握了第2和第3個(gè)屬性,未掌握第1個(gè)屬性。屬性掌握模式通常是通過屬性掌握概率轉(zhuǎn)換得到的,比如采用 0.5為截?cái)帱c(diǎn),屬性掌握概率為[0.21,0.68,0.85]的被試的屬性掌握模式為[0,1,1]。
屬性掌握概率變化加權(quán):屬性掌握概率變化是指被試在作答某個(gè)項(xiàng)目前后其屬性掌握概率的差異,分為三種情況:?jiǎn)蝹€(gè)屬性掌握概率變化、最不確定屬性掌握概率變化和屬性掌握概率之和的變化。比如被試在作答某項(xiàng)目之前的屬性掌握概率為[0.21,0.68,0.85],作答之后其屬性掌握概率變?yōu)閇0.61,0.75,0.91]。單個(gè)屬性掌握概率變化是作答前后指3個(gè)屬性的掌握概率變化值,分別為0.40、0.07和0.06,其中第1個(gè)屬性的掌握概率變化最大;最不確定屬性掌握概率是指與0.5最接近的屬性掌握概率,比如[0.21,0.68,0.85]中與0.5最接近屬性第2個(gè)屬性,其掌握概率是0.68,在作答之后變?yōu)?.75,需要注意的是,這里所說(shuō)的“最不確定”只是一個(gè)相對(duì)的概念,它是以概率 0.5作為參照;屬性掌握概率之和變化是指作答某項(xiàng)目前后3個(gè)屬性的掌握概率之和變化的絕對(duì)值,作答之前的屬性掌握概率之和為0.21+0.68+0.85=1.74,作答之后為0.61+0.75+0.91=2.27,則變化值為 0.53 (可以由|2.27-1.74|=0.53得到)。將屬性掌握概率的變化(包括上面的三種情況)值作為選題時(shí)的一個(gè)權(quán)重即為屬性掌握概率變化加權(quán)。
在認(rèn)知診斷測(cè)驗(yàn)中,期望后驗(yàn)估計(jì)(Expect A Posterior,EAP)方法常常被用來(lái)計(jì)算被試在每個(gè)屬性上的掌握概率(即被試在屬性上的邊際掌握概率),進(jìn)一步將被試對(duì)屬性的掌握概率與 0.5相比較,當(dāng)屬性掌握概率大于 0.5時(shí),即認(rèn)為被試掌握了該屬性,否則認(rèn)為被試沒有掌握該屬性 (Huebner &Wang,2011)。基于屬性掌握概率的選題策略是從屬性掌握概率出發(fā),對(duì)屬性掌握概率不作 0、1轉(zhuǎn)換,選擇對(duì)被試屬性掌握概率影響最大的項(xiàng)目作為下一個(gè)施測(cè)的項(xiàng)目。這樣做的原因有兩個(gè):第一是因?yàn)樵跍y(cè)驗(yàn)初期,對(duì)被試的屬性掌握概率估計(jì)存在較大的偏差,隨著測(cè)驗(yàn)的進(jìn)行,這個(gè)屬性掌握概率估計(jì)值會(huì)逐漸趨近其真值,我們希望新的選題策略能使測(cè)驗(yàn)加快這個(gè)過程,因此選擇能使被試的屬性掌握概率改變最大的項(xiàng)目作為下一個(gè)施測(cè)的項(xiàng)目;第二是由于被試的屬性掌握模式是通過將屬性掌握概率與截?cái)帱c(diǎn)(通常取 0.5)進(jìn)行比較,然后轉(zhuǎn)換得到的,但是當(dāng)一個(gè)屬性的掌握概率與0.5非常接近,比如0.501或0.499,其實(shí)此時(shí)測(cè)驗(yàn)對(duì)該屬性的狀態(tài)“非常不確定”的。模擬實(shí)驗(yàn)表明,基于單個(gè)屬性掌握概率變化最大、基于最不確定屬性的掌握概率變化最大的策略表現(xiàn)不佳,因此這里僅考慮研究基于屬性掌握概率之和變化最大的策略(即選擇作答某項(xiàng)目前后,被試對(duì)各屬性的掌握概率之和變化最大的項(xiàng)目)的表現(xiàn)。
記后驗(yàn)概率和屬性掌握概率變化加權(quán)的KL選題策略為 PPWKL (Posterior Probability Weighted Kullback–Leibler)。PWKL選題策略是基于后驗(yàn)概率加權(quán)的KL信息量,這里的PPWKL是在PWKL的基礎(chǔ)上,增加了屬性掌握概率的變化值這一權(quán)重,即基于后驗(yàn)概率和屬性掌握概率變化加權(quán)的KL信息量。PPWKL指標(biāo)的計(jì)算方式為
該選題策略可以表示為:
記后驗(yàn)概率、屬性掌握概率變化和屬性掌握模式距離加權(quán)的 KL選題策略為 PHKL(Posterior HybridKullback–Leibler)。與 PPWKL 不同,這里的PHKL是在HKL的基礎(chǔ)上,增加了屬性掌握概率之和的變化值這一權(quán)重,即基于后驗(yàn)概率、屬性掌握概率變化和屬性掌握模式距離加權(quán)的KL信息量。PHKL指標(biāo)的計(jì)算方式為
該選題策略可以表示為:
為了考察基于屬性掌握概率的選題策略的表現(xiàn),考慮基于 DINA模型,模擬定長(zhǎng)和變長(zhǎng)的CD-CAT測(cè)驗(yàn)。已有的研究中,CD-CAT的測(cè)驗(yàn)長(zhǎng)度經(jīng)常取12到24這個(gè)范圍(陳平等,2011;涂冬波等,2013;Wang,2013)。本研究中,對(duì)于定長(zhǎng)的CD-CAT測(cè)驗(yàn),測(cè)驗(yàn)長(zhǎng)度采用16。對(duì)于變長(zhǎng)的CD-CAT測(cè)驗(yàn),終止規(guī)則由測(cè)驗(yàn)長(zhǎng)度和屬性掌握模式后驗(yàn)概率確定,只要二者之一達(dá)到預(yù)先設(shè)定的值即終止測(cè)驗(yàn)。Hsu,Wang和Chen (2013)研究了變長(zhǎng)CD-CAT下,屬性掌握模式后驗(yàn)概率取不同值對(duì)測(cè)驗(yàn)長(zhǎng)度、測(cè)驗(yàn)精度的影響,Hsu等的結(jié)果表明,對(duì)于高風(fēng)險(xiǎn)和低風(fēng)險(xiǎn)的測(cè)驗(yàn),屬性掌握模式后驗(yàn)概率分別應(yīng)取不低于0.9和不高于0.8。考慮的測(cè)驗(yàn)長(zhǎng)度(每位被試測(cè)驗(yàn)的最大長(zhǎng)度)也是 16,屬性掌握模式后驗(yàn)概率最大值固定為0.8(Hsu et al.,2013;Tatsuoka,2002),即測(cè)驗(yàn)長(zhǎng)度達(dá)到最大值或者屬性掌握模式后驗(yàn)概率達(dá)到最大值時(shí)結(jié)束測(cè)驗(yàn)。
目前多數(shù)的CD-CAT研究是基于4-8個(gè)屬性進(jìn)行的,其中 6個(gè)居多(Cheng,2009a,2010;Wang,Chang,&Huebner,2011;Xu et al.,2003),這里模擬的題庫(kù)考慮6個(gè)屬性。
題庫(kù)中各項(xiàng)目的屬性向量和項(xiàng)目參數(shù),被試屬性掌握模式的模擬按如下方式進(jìn)行:
(1) 題庫(kù)中的項(xiàng)目數(shù)固定為200,各項(xiàng)目按0.2的概率考察每個(gè)屬性,并且保證每個(gè)項(xiàng)目至少考察1個(gè)屬性,最多考察3個(gè)屬性(Henson,2004);
(2) 項(xiàng)目參數(shù)s
和g
都采用均勻分布,取值區(qū)間為[0.05,0.25];(3) 因?yàn)樵趯?shí)際的測(cè)驗(yàn)情境下,所考察的屬性之間可能存在相關(guān)。為了比較不同情況下,各策略的表現(xiàn),分別考慮屬性間獨(dú)立和屬性間存在相關(guān)的情況。對(duì)于屬性間相互獨(dú)立的情況,假設(shè)被試掌握每個(gè)屬性的概率服從參數(shù)為 0.5的 Bernoulli分布,隨機(jī)生成被試的屬性掌握情況。對(duì)于屬性間存在相關(guān)的情況,這里分別取0.2,0.35,0.5,0.6,0.7,0.8共6種情況的相關(guān),比如 0.2表示所有屬性之間存在0.2左右(表示屬性間的相關(guān)接近 0.2,可能不一定剛好是 0.2)的相關(guān),其它相關(guān)的含義與此相同。模擬屬性間的相關(guān)可以通過HO-DINA模型的高階參數(shù)來(lái)控制,可以模擬被試總體對(duì)掌握的各屬性之間存在不同大小的相關(guān),具體可以參考Wang,Chang和 Douglas (2012)。這樣一來(lái),就存在屬性間相互獨(dú)立,屬性之間存在較低的相關(guān)(相關(guān)系數(shù)為 0.2和0.35),中等程度的相關(guān)(相關(guān)系數(shù)為0.5和0.6)和較高的相關(guān)(相關(guān)系數(shù)為0.7和0.8)共7種情況。
一共模擬1000名被試,200個(gè)項(xiàng)目,有7種被試總體(指屬性之間獨(dú)立和存在不同的相關(guān))?;诟鬟x題策略模擬 CD-CAT。每種選題策略重復(fù) 20次,結(jié)果取平均值,所有的模擬程序采用Java語(yǔ)言編制。
CD-CAT按如下過程進(jìn)行模擬:(1)隨機(jī)生成被試的屬性掌握模式;(2)按采用的選題策略,選擇下一個(gè)要施測(cè)的項(xiàng)目;(3)模擬被試作答;(4)采用EAP方法估計(jì)被試的屬性掌握概率(de la Torre,2009)。對(duì)于涉及到KL信息量的選題策略,還需估計(jì)被試的屬性掌握模式,Huebner和Wang (2011)的研究表明,采用MAP方法估計(jì)被試的屬性掌握模式更好,因此,這里采用 MAP方法估計(jì)被試的屬性掌握模式;(5)轉(zhuǎn)到步驟(2),直到滿足測(cè)驗(yàn)終止規(guī)則。當(dāng)所有的被試完成測(cè)驗(yàn)后,計(jì)算相應(yīng)的評(píng)價(jià)指標(biāo)。
為了能全面地比較不同選題策略之間的差異,綜合考慮各評(píng)價(jià)指標(biāo)下不同選題策略的表現(xiàn),采用統(tǒng)一量綱再加權(quán)求和的方法,具體做法是:對(duì)值越大越好的指標(biāo),將該評(píng)價(jià)指標(biāo)上的最大值做分母,把各選題策略在該指標(biāo)上的值做分子,求兩者的比值;對(duì)值越小越好的指標(biāo),則將評(píng)價(jià)指標(biāo)上的最小值作為分子,把各選題策略在該指標(biāo)上的值作為分母,求兩者的比值。統(tǒng)一量綱后,對(duì)某選題策略的10個(gè)評(píng)價(jià)指標(biāo)比值分別賦加權(quán)系數(shù)。加權(quán)求和值最大的,則該選題策略在各個(gè)方面的綜合效果最好;反之則最差(陳德枝,2004;劉珍等,2008;)。本文中所采用的10個(gè)評(píng)價(jià)指標(biāo)中有2個(gè)(PMR,MMR)是評(píng)價(jià)測(cè)驗(yàn)的估計(jì)精度,余下的8個(gè)是評(píng)價(jià)測(cè)驗(yàn)題庫(kù)使用相關(guān)的指標(biāo),因此,為了使兩類指標(biāo)(評(píng)價(jià)知識(shí)狀態(tài)準(zhǔn)確性的指標(biāo)和評(píng)價(jià)題庫(kù)使用均勻性的指標(biāo))在統(tǒng)一量綱中占有相同的比重,加權(quán)系數(shù)的設(shè)置方式為:PMR和MMR指標(biāo)的權(quán)重設(shè)置為4,其余指標(biāo)的權(quán)重設(shè)置為 1,這樣可以保證兩類指標(biāo)占有相同的比重。這里舉一個(gè)例子說(shuō)明,比如表1中,對(duì)于 PHKL的統(tǒng)一量綱的指標(biāo)計(jì)算方式為:4×0.961/0.961+4×0.992/0.992+1×16/16+1×92.118/9 3.357+1×0.540/0.546+1×1+1×0.967/0.972+1×1+1×9 8/100+1×22/25=15.83,其中對(duì) PMR和 MMR來(lái)說(shuō)是值越大越好,計(jì)算時(shí)是將各策略對(duì)應(yīng)的指標(biāo)作為分子,所有PMR和MMR中最大的值作為分母,并且乘上對(duì)應(yīng)的權(quán)重;其它指標(biāo)是越小越好,計(jì)算時(shí)是將各策略對(duì)應(yīng)的指標(biāo)作為分母,所有對(duì)應(yīng)指標(biāo)中最小值作為分子,并且乘上相應(yīng)的權(quán)重,最后對(duì)所有指標(biāo)按統(tǒng)一量綱后求和,得到評(píng)價(jià)各策略的綜合評(píng)價(jià)指標(biāo)。
表1和表2分別對(duì)應(yīng)了定長(zhǎng)和變長(zhǎng)CD-CAT測(cè)驗(yàn)下各評(píng)價(jià)指標(biāo)的值,并且表1和表2中的最后一列分別對(duì)應(yīng)了定長(zhǎng)和變長(zhǎng) CD-CAT測(cè)驗(yàn)下各選題策略的綜合評(píng)價(jià)指標(biāo)。
表1 各選題策略的分類準(zhǔn)確率和題庫(kù)使用均勻性(定長(zhǎng),屬性獨(dú)立)
表2 各選題策略的分類準(zhǔn)確率和題庫(kù)使用均勻性(變長(zhǎng),屬性獨(dú)立)
PPWKL 0.840 0.969 9.8 94.621 0.522 0 0.948 0.049 121 16 15.61
根據(jù)表1和表2,在測(cè)驗(yàn)長(zhǎng)度為16的定長(zhǎng)CDCAT下,如果考察測(cè)驗(yàn)的精度,則 PHKL,MI和PPWKL的表現(xiàn)較好,分別排名前三位。如果綜合測(cè)驗(yàn)精度和題庫(kù)的使用均勻性指標(biāo),則 PPWKL,PHKL和MI表現(xiàn)略好。在變長(zhǎng)(最大測(cè)驗(yàn)長(zhǎng)度為16,最大后驗(yàn)概率為0.8)的CD-CAT下,PHKL,PWKL,PPWKL和HKL的測(cè)驗(yàn)對(duì)被試的知識(shí)狀態(tài)估計(jì)精度較好,PHKL和PPWKL在題庫(kù)使用均勻性的表現(xiàn)占優(yōu)。
總的來(lái)說(shuō),在屬性獨(dú)立情況下,無(wú)論是定長(zhǎng),還是變長(zhǎng)的 CD-CAT,考慮了屬性掌握概率的選題策略在保證測(cè)驗(yàn)精度不損失或損失較小的情況下,在題庫(kù)使用均勻性上的表現(xiàn)都更好,這些都可以從表1和表2可以很明顯的看出來(lái)。
表3和表4對(duì)應(yīng)了屬性之間存在較低的相關(guān),定長(zhǎng)和變長(zhǎng)CD-CAT測(cè)驗(yàn)各評(píng)價(jià)指標(biāo)的值。
從表3可以看出,在屬性之間存在低相關(guān),長(zhǎng)度為 16的定長(zhǎng) CD-CAT下,單從測(cè)驗(yàn)精度來(lái)看,PHKL和SHE略占優(yōu)勢(shì),其中PHKL選題策略的測(cè)驗(yàn)精度最好,排在2,3,4位的分別是SHE,MI和PPWKL,它們與PHKL選題策略與PMR指標(biāo)分別相差 1%,1.5%和 1.5%;但是如果考察題庫(kù)的使用均勻性指標(biāo),PHKL選題策略最好,有4項(xiàng)指標(biāo)(分別是χ
,TOR,ER,N)排名第一,1項(xiàng)指標(biāo)(N)排名第二,剩下的三項(xiàng)指標(biāo)(N,ER和ER)都相同。綜合測(cè)驗(yàn)精度和題庫(kù)的使用均勻性來(lái)看,PHKL的表現(xiàn)較好,這一點(diǎn)從統(tǒng)一量綱后的綜合指標(biāo)也能看出。綜合指標(biāo)排在前三位的分別是PHKL、PPWKL和HKL。屬性間存在中等相關(guān)和較高相關(guān)時(shí)的詳細(xì)結(jié)果請(qǐng)參考附錄二。PHKL在屬性之間存在中等相關(guān),長(zhǎng)度為 16的定長(zhǎng) CD-CAT下有 6項(xiàng)指標(biāo)排名第1(分別是 PMR,MMR,χ
,TOR,ER,N)。從測(cè)驗(yàn)精度來(lái)說(shuō),PHKL和MI很接近,分別排在前2位,但是PHKL在題庫(kù)使用均勻性上有很大優(yōu)勢(shì),附錄二表6中的綜合指標(biāo)也表明PHKL策略的綜合表現(xiàn)更好。當(dāng)屬性之間存在高相關(guān),長(zhǎng)度為 16的定長(zhǎng)CD-CAT下,在測(cè)驗(yàn)精度指標(biāo)上,MI策略最好(其PMR和MMR指標(biāo)都排第1),但是從題庫(kù)使用上來(lái)看,PHKL策略更好(χ
,TOR,ER,N指標(biāo)都排在第1位),詳細(xì)結(jié)果請(qǐng)參考附錄二中的表7。綜合來(lái)看,PHKL策略略占優(yōu)。表3 各選題策略的分類準(zhǔn)確率和題庫(kù)使用均勻性(定長(zhǎng),低相關(guān))
表4 各選題策略的分類準(zhǔn)確率和題庫(kù)使用均勻性(變長(zhǎng),低相關(guān))
表4的結(jié)果來(lái)看,在屬性間存較低相關(guān),最大測(cè)驗(yàn)長(zhǎng)度為16,后驗(yàn)屬性掌握模式概率為0.8的變長(zhǎng)CD-CAT下,單從測(cè)驗(yàn)精度來(lái)看,PHKL、PWKL和SHE的表現(xiàn)較好,分別處于第1、2和3位。綜合來(lái)看,PHKL,PPWKL和MI選題策略的總體表現(xiàn)較好,分別有4,3和3項(xiàng)指標(biāo)排名第一,PHKL的綜合指標(biāo)表現(xiàn)最好,這說(shuō)明在考慮了被試的屬性掌握概率變化之后,在保證測(cè)驗(yàn)精度的同時(shí),對(duì)題庫(kù)使用的均勻性控制上也有了改善。
屬性間存在中等相關(guān)和較高相關(guān)時(shí)也有類似的結(jié)論,詳細(xì)結(jié)果請(qǐng)參考附錄三中的表8和表9。
總體來(lái)說(shuō),在變長(zhǎng) CD-CAT下,考慮了屬性掌握概率的選題策略 PHKL,在測(cè)驗(yàn)精度和題庫(kù)使用均勻性指標(biāo)上表現(xiàn)都較好,無(wú)論是屬性之間存在較低相關(guān)、中等相關(guān)或是較高相關(guān)的情況,PHKL的綜合指標(biāo)都排在第1位。
認(rèn)知診斷測(cè)驗(yàn)可能會(huì)用于日常分項(xiàng)診斷中,比如單元測(cè)驗(yàn)、隨堂診斷測(cè)驗(yàn)等,此時(shí),題目量可能會(huì)比較少。為了考察不同題量情形下各種選題策略的表現(xiàn),選取PWKL、HKL、MI、PPWKL和PHKL五個(gè)選題策略??紤]屬性之間相互獨(dú)立、存在相關(guān)時(shí),它們?cè)诙虦y(cè)驗(yàn)下的表現(xiàn)。所有的數(shù)據(jù)模擬方式與研究1相同,不同的是本研究中考察的是長(zhǎng)度分別為4、6、8和10的定長(zhǎng)測(cè)驗(yàn),即模擬4種短測(cè)驗(yàn),考察這5種選題策略的表現(xiàn)。所采用的評(píng)價(jià)指標(biāo)與研究1相同。表5列出了屬性獨(dú)立時(shí),4種選題策略在4種定長(zhǎng)的短測(cè)驗(yàn)中的表現(xiàn)。
從表5的結(jié)果可以看出,在屬性相互獨(dú)立時(shí),所列出的所有短測(cè)驗(yàn)(也可以看作是長(zhǎng)測(cè)驗(yàn)的測(cè)驗(yàn)初期)中,大部分情況下,PHKL的各項(xiàng)指標(biāo)都是最好的。從統(tǒng)一量綱后的綜合指標(biāo)來(lái)看,PHKL幾乎總是優(yōu)于其它幾種策略,只有在測(cè)驗(yàn)長(zhǎng)度為 10時(shí),PPWKL綜合指標(biāo)指第 1位??偟膩?lái)說(shuō),考慮了屬性掌握概率的選題策略 PHKL和 PPWKL,在綜合測(cè)驗(yàn)精度和題庫(kù)使用均勻性指標(biāo)后略占優(yōu)勢(shì)。
當(dāng)屬性之間存在較低、中等和較高相關(guān)時(shí),各選題策略在短測(cè)驗(yàn)中的表現(xiàn),請(qǐng)參考附錄4中的表10,11和12。從表10,11和12可以看出,PHKL和MI兩中策略的測(cè)驗(yàn)精度幾乎總是排在前兩位,在長(zhǎng)度為4和6的測(cè)驗(yàn)中,PHKL占優(yōu),在長(zhǎng)度為8和10的測(cè)驗(yàn)中,MI占優(yōu),并且當(dāng)屬性之間的相關(guān)達(dá)到中等以上時(shí),MI在測(cè)驗(yàn)精度上的優(yōu)勢(shì)比屬性之間存在低相關(guān)時(shí)略大;在大多數(shù)情況下,PHKL和PPWKL在題庫(kù)使用均勻性上的表現(xiàn)總是排在前 2位。綜合來(lái)看,PHKL大多數(shù)情況下,綜合指標(biāo)都是排在第1位。
表5 三種選題策略的分類準(zhǔn)確率和題庫(kù)使用均勻性(短測(cè)驗(yàn),屬性獨(dú)立)
PPWKL 0.804 0.958 99.320 0.546 0 0.955 0.050 133 15 15.903 MI 0.806 0.959 106.431 0.582 0 1.000 0.050 151 16 15.566
通過對(duì)基于屬性掌握概率的2種選題策略與5種已有的CD-CAT下的選題策略的比較研究發(fā)現(xiàn):在屬性之間是獨(dú)立的定長(zhǎng)和變長(zhǎng)的CD-CAT中,考慮了屬性掌握概率的PHKL和PPWKL選題策略在測(cè)驗(yàn)精度和題庫(kù)的利用率上的綜合表現(xiàn)優(yōu)于其它選題策略;當(dāng)屬性之間存在較低、中等和較高相關(guān)時(shí),在定長(zhǎng)和變長(zhǎng)的CD-CAT中,PHKL和PPWKL在保證測(cè)驗(yàn)精度的同時(shí),對(duì)題庫(kù)使用的均勻性控制上也有了改善,它們的綜合指標(biāo)排在前 2位;當(dāng)屬性之間存在較低、中等和較高相關(guān)的短測(cè)驗(yàn)中,在測(cè)驗(yàn)長(zhǎng)度為4和6時(shí),PHKL的測(cè)驗(yàn)精度更好,當(dāng)測(cè)驗(yàn)長(zhǎng)度達(dá)到8和10時(shí),MI的測(cè)驗(yàn)精度更好,這說(shuō)明PHKL策略更適合在測(cè)驗(yàn)初期使用;PHKL和PPWKL策略的一大優(yōu)點(diǎn)是在不損失或較少損失測(cè)驗(yàn)精度的條件下,能改善題庫(kù)的使用均勻性。
在測(cè)驗(yàn)初期,因?yàn)殛P(guān)于被試屬性掌握狀態(tài)的信息較少,采用基于屬性掌握模式的選題策略可能不利于對(duì)被試的知識(shí)狀態(tài)的估計(jì),因?yàn)檫@人為增加了誤差。特別是在測(cè)驗(yàn)長(zhǎng)度較短時(shí),從表10,11和12中的結(jié)果很清楚地說(shuō)明了這一點(diǎn),基于屬性掌握概率的PHKL和PPWKL,以及基于互信息的MI的測(cè)驗(yàn)精度分別排在前3位。PHKL和PPWKL選題策略在選題時(shí)考慮了屬性掌握模式的后驗(yàn)概率和被試的屬性掌握概率的變化情況,選題時(shí)一方面考慮被試的總體分布情況,另一方面也考慮了所選擇的項(xiàng)目對(duì)于被試屬性掌握概率的影響,越能改變被試屬性掌握概率的項(xiàng)目越容易被選到,這樣在測(cè)驗(yàn)長(zhǎng)度較短時(shí)就有利于估計(jì)被試的屬性掌握模式。
基于屬性掌握概率的選題策略與基于屬性掌握模式的選題策略的不同之處在于前者考慮了被試的屬性掌握概率變化情況,而后者只考慮被試的屬性掌握模式估計(jì)值。被試的屬性掌握概率是在區(qū)間0到1之間的連續(xù)值,被試作答每個(gè)題之后,都會(huì)引起其屬性掌握概率的變化,因此,在選題時(shí)將這個(gè)變化考慮進(jìn)去比僅考慮屬性掌握模式的變化更精細(xì),特別是在測(cè)驗(yàn)長(zhǎng)度較短的測(cè)驗(yàn)中,因?yàn)榇藭r(shí)被試的屬性掌握模式估計(jì)并不準(zhǔn)確,此時(shí)需要結(jié)合更多有用的信息來(lái)選題(這一點(diǎn)類似于CAT中的全局信息量選題,可參考Chang和Ying (1996)),有利于提高測(cè)驗(yàn)的估計(jì)精度,并且考慮了被試的屬性掌握概率之后,會(huì)對(duì)題庫(kù)的使用均勻性有改善。
在本研究中沒有考慮屬性之間可能存在的層級(jí)關(guān)系(hierarchical relationship,可參見 Leighton,Gierl,&Hunka,2004),但在實(shí)際的測(cè)驗(yàn)中,屬性之間有可能會(huì)存在層級(jí)關(guān)系。當(dāng)屬性之間存在層級(jí)關(guān)系時(shí),特別是很多實(shí)際測(cè)驗(yàn)中都涉及到的層級(jí)關(guān)系,PHKL,PPWKL,PWKL,HKL和MI等策略的表現(xiàn)會(huì)是什么樣的,這需要進(jìn)一步的深入研究。并且,在實(shí)際的應(yīng)用中,需要根據(jù)測(cè)驗(yàn)的目的進(jìn)行綜合權(quán)衡,選擇合適的選題策略。
題庫(kù)總體利用率較低是所涉及的各種選題策略都存在的問題,這一點(diǎn)從陳平等(2011)的研究結(jié)果中也可以得到驗(yàn)證。就本研究來(lái)說(shuō),在變長(zhǎng)CD-CAT測(cè)驗(yàn)下,未使用的項(xiàng)目數(shù)大多都大于110,也就是說(shuō),題庫(kù)中有超過一半以上的項(xiàng)目都沒有被使用到,只是使用了不到一半的項(xiàng)目,這充分反映了這里所使用的選題策略在題庫(kù)的利用率上的表現(xiàn)還有待進(jìn)一步提高。
Barrada,J.R.,Olea,J.,Ponsoda,V.,&Abad,F.J.(2008).Incorporating randomness in the Fisher information for improving item-exposure control in CATs.British Journal of Mathematical and Statistical Psychology,61
,493–513.Chang,H.H.,Qian,J.H.,&Ying,Z.L.(2001).A-stratified multistage computerized adaptive testing with b blocking.Applied Psychological Measurement,25
(4),333–341.Chang,H.H.,&Ying,Z.L.(1996).A global information approach to computerized adaptive testing.Applied Psychological Measurement,20
(3),213–229.Chang,H.H.,&Ying,Z.L.(1999).A-stratified multistage computerized adaptive testing.Applied Psychological Measurement,23
(3),211–222.Chen,P.,Li,Z.,&Xin,T.(2011).A note on the uniformity of item bank usage in cognitive diagnostic computerized adaptive testing.Studies of Psychology and Behavior,9
(2),125–132.[陳平,李珍,辛濤.(2011).認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)的題庫(kù)使用均勻性初探.心理與行為研究,9
(2),125–132.]Chen,D.Z.(2004).Comparison study of item selection strategies of computerized adaptive testing with the Samejima Graded Response Model
(Unpublished Master’s thesis).Jiangxi Normal University.[陳德枝.(2004).Samejima等級(jí)反應(yīng)模型下CAT選題策略比較研究
(碩士學(xué)位論文).江西師范大學(xué).]Cheng,X.Y.,Ding,S.L.,Yan,S.H.,&Zhu,L.Y.(2011).New item selection criteria of computerized adaptive testing with exposure-control factor.Acta Psychologica Sinica,43
(2),203–212.[程小楊,丁樹良,嚴(yán)深海,朱隆尹.(2011).引入曝光因子的計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)選題策略.心理學(xué)報(bào),43
(2),203–212.]Cheng,Y.(2008).Computerized adaptive testing:new development and applications
(Unpublished doctoral dissertation).University of Illinois at Urbana-Champaign.Cheng,Y.(2009a).When cognitive diagnosis meets computerized adaptive testing:CD-CAT.Psychometrika,74
(4),619–632.Cheng,Y.(2009b).Computerized adaptive testing for cognitive diagnosis
.Paper presented at the 2009 GMAC Conference on Computerized Adaptive Testing.Cheng,Y.(2010).Improving cognitive diagnostic computerized adaptive testing by balancing attribute coverge:The modified maximum global discrimination index method.Educational and Psychological Measurement,70
(6),902–913.de la Torre,J.(2009).DINA model and parameter estimation:A didactic.Journal of Educational and Behavioral Statistics,34
(1),115–130.Henson,R.A.(2004).Test discrimination and test construction for cognitive diagnostic models
(Unpublished doctoral dissertation).University of Illinois at Urbana-Champaign.
Hsu,C.L.,Wang,W.C.,&Chen,S.Y.(2013).Variable-length computerized adaptive testing based on cognitive diagnosis models.Applied Psychological Measurement,37
(7),563–582.Huebner,A.,&Wang,C.(2011).A note on comparing examinee classification methods for cognitive diagnosis models.Educational and Psychological Measurement,71
(2),407–419.Leighton,J.P.,&Gierl,M.J.(2007).Cognitive diagnostic assessment for education:Theory and applications
.New York:Cambridge University Press.Leighton,J.P.,Gierl,M.J.,&Hunka,S.M.(2004).The attribute hierarchy method for cognitive assessment:A variation on Tatsuoka's rule-space approach.Journal of Educational Measurement,41
(3),205–237.Liu,Z.,Ding,S.L.,&Lin,H.J.(2008).Item selection strategies for computerized adaptive testing with the generalized partial credit model.Acta Psychologica Sinica,40
(5),618–625.[劉珍,丁樹良,林海菁.(2008).基于GPCM的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)選題策略比較.心理學(xué)報(bào),40
(5),618–625.]McGlohen,M.,&Chang,H.H.(2008).Combining computer adaptive testing technology with cognitively diagnostic assessment.Behavior Research Methods,40
(3),808–821.Rupp,A.A.,Templin,J.,&Henson,R.(2010).Diagnostic measurement:Theory,methods and applications
.New York:Guilford.Tatsuoka,C.(2002).Data analytic methods for latent parially ordered classification models.Journal of the Royal Statistical Society:Series C (Applied Statistics),51
(3),337–350.Tu,D.B.,Cai,Y.,&Dai,H.Q.(2013).Item selection strategies and initial items selection methods of CD-CAT.Journal of Psychological Science,36
(2),469–474.[涂冬波,蔡艷,戴海崎.(2013).認(rèn)知診斷 CAT選題策略及初始題選取方法.心理科學(xué),36
(2),469–474]Wang,C.(2013).Mutual information item selection method in cognitive diagnostic computerized adaptive testing with short test length.Educational and Psychological Measurement,73
(6),1017–1035.Wang,C.,Chang,H.H.,&Douglas,J.(2012).Combining CAT with cognitive diagnosis:A weighted item selection approach.Behavior Research Methods,44
(1),95–109.Wang,C.,Chang,H.H.,&Huebner,A.(2011).Restrictive stochastic item selection methods in cognitive diagnostic CAT.Journal of Educational Measurement,48
(3),255–273.Xu,X.L.,Chang,H.H.,&Douglas,J.(2003).A simulation study to compare CAT strategies for cognitive diagnosis
.Paper presented at the the Annual Meeting of American Educational Research Association,Chicago,IL.