蔡 艷 苗 瑩 涂冬波
(江西師范大學(xué)心理學(xué)院, 江西師范大學(xué)心理健康教育研究中心, 江西省心理與認(rèn)知科學(xué)重點(diǎn)實(shí)驗(yàn)室, 南昌 330022)
認(rèn)知診斷(cognitive diagnosis, CD)技術(shù)是認(rèn)知心理學(xué)與心理計(jì)量學(xué)(Psychometrics)相結(jié)合的產(chǎn)物,它不僅要對(duì)個(gè)體心理特質(zhì)水平進(jìn)行宏觀層次評(píng)價(jià),還對(duì)個(gè)體心理內(nèi)部加工過程進(jìn)行診斷, 揭示個(gè)體的認(rèn)知加工特點(diǎn)。它在診斷個(gè)體心理加工機(jī)制與相應(yīng)機(jī)制是否一致或存在缺陷、診斷精神紊亂(psychiatry disorder)、診斷學(xué)生知識(shí)結(jié)構(gòu)等方面具有重大意義,更為有效地揭示人類認(rèn)知的過程及其心理學(xué)意義,從而更好地為指導(dǎo)教育教學(xué)決策和建構(gòu)心理理論服務(wù)。計(jì)算機(jī)化適應(yīng)測(cè)驗(yàn)(computerized adaptive testing, CAT)是一種全新的測(cè)試形式, 它采用“因人施測(cè)”、“量體裁衣”式的測(cè)試策略, 由計(jì)算機(jī)根據(jù)考生當(dāng)前作答情況, 智能化從題庫中挑選與考生相匹配的試題, 從而達(dá)到試題與考生水平的自適應(yīng)(adaptive)。CAT能比傳統(tǒng)紙筆測(cè)驗(yàn)更為高效、準(zhǔn)確、可靠地評(píng)定考生水平, 國(guó)際上許多大型測(cè)驗(yàn)正在大力推行。
認(rèn)知診斷計(jì)算機(jī)化適應(yīng)測(cè)驗(yàn)(cognitive diagnosis computerized adaptive testing, CD-CAT)是將認(rèn)知診斷基本理論、方法與計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)結(jié)合起來的產(chǎn)物, 由計(jì)算機(jī)(或internet)智能化且高效、快速和準(zhǔn)確地實(shí)現(xiàn)對(duì)被試的認(rèn)知診斷, 從而有利于認(rèn)知診斷更好地服務(wù)實(shí)踐。CD-CAT因充分結(jié)合了認(rèn)知診斷和計(jì)算化自適應(yīng)測(cè)驗(yàn)的雙重優(yōu)點(diǎn)而深受國(guó)內(nèi)外研究者推崇。然而, 當(dāng)前國(guó)內(nèi)外關(guān)認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)研究(如Kaplan, de la Torre, & Barrada,2015; Chen, Liu, & Ying, 2015; Wang, 2013; Hsu, Wang,& Chen, 2013; Mao & Xin, 2013; Wang, Chang, &Huebner, 2011; Cheng, 2009; 涂冬波, 蔡艷, 2015;郭磊, 鄭蟬金, 邊玉芳, 2015; 汪文義, 丁樹良, 宋麗紅,2014; 涂冬波, 蔡艷, 戴海琦, 2013; 陳平, 辛濤,2011)都是針對(duì)0-1評(píng)分的測(cè)量數(shù)據(jù)的CD-CAT, 而關(guān)于多級(jí)評(píng)分CD-CAT (polytomously scored CD-CAT,psCD-CAT)的研究國(guó)內(nèi)外幾乎還未開展; 然而, 在教育與心理測(cè)量中, 存在大量的多級(jí)評(píng)分測(cè)量數(shù)據(jù),如表現(xiàn)性測(cè)驗(yàn)、教育成就測(cè)驗(yàn)中的主觀題以及心理學(xué)中的Likert型量表等均為多級(jí)評(píng)分?jǐn)?shù)據(jù), 而這時(shí)傳統(tǒng)0-1評(píng)分的CD-CAT顯然不適用, 因此多級(jí)評(píng)CD-CAT亟待深入, 以進(jìn)一步推動(dòng)認(rèn)知診斷和計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)更好地服務(wù)實(shí)際。查閱相關(guān)文獻(xiàn),我們只發(fā)現(xiàn)一篇關(guān)于多級(jí)評(píng)分CD-CAT的報(bào)道(周婕,丁樹良, 陳平, 2007), 周婕等人(2007)的研究中采用先認(rèn)知診斷后能力估計(jì)的方式進(jìn)行, 但該方法并未真正使用多級(jí)評(píng)分認(rèn)知診斷模型來處理多級(jí)評(píng)分的CD-CAT, 而是采用傳統(tǒng)IRT下等級(jí)反應(yīng)模型及0-1評(píng)分的規(guī)則空間方法來處理??傮w來看, 國(guó)內(nèi)外關(guān)于多級(jí)評(píng)分的CD-CAT研究十分薄弱, 有待開展。
本文主要在0-1評(píng)分CD-CAT基礎(chǔ)上, 探討多級(jí)評(píng)分認(rèn)知診斷計(jì)算化適應(yīng)測(cè)驗(yàn)(psCD-CAT)的算法與技術(shù), 涉及psCD-CAT多級(jí)評(píng)分認(rèn)知診斷模型拓展、選題策略開發(fā)、參數(shù)估計(jì)算法、終止策略以及多級(jí)評(píng)分認(rèn)知診斷模型的拓展等, 并重點(diǎn)探討psCDCAT的設(shè)計(jì)思路及其合理性與實(shí)現(xiàn), 為進(jìn)一步拓展CD-CAT在實(shí)踐中的應(yīng)用提供方法和實(shí)踐支持。
涂冬波、蔡艷、戴海琦和丁樹良(2010)基于Samejima (1995, 1997)的等級(jí)反應(yīng)模型(GRM)開發(fā)了多級(jí)評(píng)分的DINA模型——P-DINA模型, 該模型項(xiàng)目反應(yīng)函數(shù)為:
P-DINA模型中, 理想反應(yīng)得分(ideal response score, IRS)ηij沿用了0-1評(píng)分DINA模型中計(jì)算公式, 即,取值只有0和1兩種; 同時(shí),公式2中滿足。他們研究發(fā)現(xiàn), P-DINA模型具有較好的參數(shù)估計(jì)精度及屬性診斷正確率, 這為拓展多級(jí)評(píng)分?jǐn)?shù)據(jù)的認(rèn)知診斷提供了重要的方法支持。關(guān)于P-DINA模型的詳細(xì)介紹, 感興趣讀者可參考該文獻(xiàn)。
在涂冬波等人(2010)研究基礎(chǔ)上, 我們對(duì)P-DINA模型做了進(jìn)一步拓展(拓展后的模型記為GP-DINA模型), 具體為:將P-DINA模型中的理想反應(yīng)得分ηij從0-1評(píng)分拓展為多級(jí)評(píng)分, 從而實(shí)現(xiàn)觀察得分與理想得分均為多級(jí)評(píng)分的對(duì)應(yīng), 多級(jí)理想反應(yīng)得分ηij的計(jì)算公式為:
公式3中,mfj為項(xiàng)目j的滿分值,部分為被試掌握屬性的百分比。被試在項(xiàng)目上的理想得分ηij等于被試掌握項(xiàng)目測(cè)量屬性的百分比乘以該題滿分值。由于該理想得分有小數(shù), 因此為了便于理解, 可以對(duì)ηij取整。實(shí)際上, 對(duì)于我們提出的算法(見下公式6),ηij取整與不取整是等價(jià)的, 不影響GP-DINA模型的表達(dá)與計(jì)算。
結(jié)合公式4, 則公式2可以轉(zhuǎn)換為:
以上公式4、5及結(jié)合公式1即GP-DINA模型的項(xiàng)目反應(yīng)概率函數(shù)。與P-DINA模型相比,GP-DINA模型只是拓展了理想反應(yīng)得分ηij的計(jì)算方法, 從0-1記分的ηij拓展為多級(jí)計(jì)分的ηij, 其余的參數(shù)解釋和意義與P-DINA模型一樣?,F(xiàn)舉例加于說明P-DINA模型與GP-DINA兩個(gè)模型的差異:假設(shè)某項(xiàng)目且該題滿分mfj=3, 則兩個(gè)模型被試得分概率如下:
表1 兩個(gè)多級(jí)評(píng)分模型的區(qū)別
表1可知, 在同等條件下, P-DINA模型只能將被試的項(xiàng)目反應(yīng)概率區(qū)分為兩類, 而拓展后的GP-DINA模型可以將被試的項(xiàng)目反應(yīng)概率區(qū)分為(mfj+ 1)類(表1中可以區(qū)分出4類被試); 因而, 與P-DINA模型相比, GP-DINA模型可以區(qū)分出更多類型的被試, 從而提供的信息更為細(xì)致和豐富; 同時(shí), GP-DINA模型中, 當(dāng)ηij=0時(shí)被試得0分的概率傾向最大, 當(dāng)ηij=1時(shí)被試得1分的概率傾向最大, 當(dāng)ηij=2時(shí)被試得2分的概率傾向最大, 當(dāng)ηij=3時(shí)被試得3分的概率傾向最大(具體詳見表1中的陰影部分), 從而實(shí)現(xiàn)了多級(jí)的觀察得分與多級(jí)的理想得分的間對(duì)應(yīng)關(guān)系; 而P-DINA模型中, 被試得分概率較大的均集中在0分和滿分兩個(gè)極端, 因此P-DINA傾向于將被試得分兩極化, 而難于區(qū)分得中間分?jǐn)?shù)段的被試。因而GP-DINA模型克服了P-DINA模型只能處理“0分向滿分或滿分向0分滑動(dòng)”缺陷。同時(shí), 我們采用Monte Carlo模擬研究發(fā)現(xiàn):在相同條件下, GP-DINA模型不論是在項(xiàng)目參數(shù)還是被試參數(shù)上比P-DINA模型具有更高估計(jì)精度; 如當(dāng)6個(gè)獨(dú)立屬性題量為60題時(shí), P-DINA模型的模式判準(zhǔn)率為80.7%, 而GP-DINA模型則高達(dá)95.5% (限于篇幅, 這里未全部列出, 感興趣的讀者可以向作者索要GP-DINA模型參數(shù)估計(jì)程序及Monte Carlo模擬研究結(jié)果)。
CD-CAT框架下, 參數(shù)估計(jì)一般指被試參數(shù)的條件估計(jì), 即在題庫項(xiàng)目參數(shù)已知的條件下來估計(jì)被試參數(shù)。目前在CD-CAT中, 常用被試參數(shù)估計(jì)方法主要有3種算法(Huebner & Wang, 2011; Feng, Habing, &Huebner, 2014):極大極大似然估計(jì)法(Maximum Likelihood Estimation, MLE), 極大后驗(yàn)估計(jì)法(Maximum a Posteriori, MAP)和期望后驗(yàn)估計(jì)法(Expected a Posteriori, EAP), 它們都是在項(xiàng)目參數(shù)已知的條件下來估計(jì)被試的知識(shí)狀態(tài)(Knowledge States,KS)或?qū)傩哉莆漳J健?/p>
則多級(jí)評(píng)分認(rèn)知診斷模型——GP-DINA模型的似然函數(shù)為,
則被試i的知識(shí)狀態(tài)的極大似然(MLE)估計(jì)值為,
即MLE是指使似然函數(shù)(見式9)具有最大值所對(duì)應(yīng)的知識(shí)狀態(tài)作為被試知識(shí)狀態(tài)的估計(jì)值。
那么, 被試i的知識(shí)狀態(tài)的極大后驗(yàn)(MAP)和期望后驗(yàn)(EAP)估計(jì)值分別為:
即MAP指在給定作答向量Xi條件下具有最大后驗(yàn)概率的知識(shí)狀態(tài)作為被試知識(shí)狀態(tài)的估計(jì)值; EAP是以被試知識(shí)狀態(tài)的后驗(yàn)期望值作為估計(jì)值。
CD-CAT通常是根據(jù)信息量來選擇最適合被試作答的項(xiàng)目, 由于知識(shí)狀態(tài)的非連續(xù)性, 當(dāng)前CD- CAT環(huán)境下主要是根據(jù)Kullback -Leibler信息量指標(biāo)進(jìn)行選題, 常用的方法有KL信息量(Kullback -Leibler),PWKL信息量(Posterior-Weighted KL), HKL信息量(Hybrid KL)等(Cheng, 2009; Hsu et al., 2013)。但以上選題策略均是在0-1評(píng)分的CD-CAT基礎(chǔ)上提出來的, 因此對(duì)于多級(jí)評(píng)分的CD-CAT需要對(duì)以上算法進(jìn)行多級(jí)評(píng)分拓展, 本文把多級(jí)評(píng)分拓展后的選題策略分別記為PS-KL、PS-PWKL和PS-HKL, 其多級(jí)評(píng)分拓展后計(jì)算公式分別如下:
PS-PWKL信息量(Posterior-Weighted KL)是考慮后驗(yàn)概率加權(quán)的PS-KL信息量, 若記是知識(shí)狀態(tài)為的后驗(yàn)概率計(jì)算公式參見2.8), 則,
PS-HKL信息量是在PS-PWKL信息量的基礎(chǔ)上進(jìn)一步考慮了知識(shí)狀態(tài)間的相似性, 若用表示知識(shí)狀態(tài)間的相似性, 且:
則PS-HKL信息量(Hybrid KL)可計(jì)算為,
即在psCD-CAT下, 挑選對(duì)被試當(dāng)前知識(shí)狀態(tài)估計(jì)值?α具有最大信息量(如最大PS-KL, PS-PWKL或PS-HKL)的試題, 也即挑選測(cè)量/診斷誤差最小的試題給被試作答。
CD-CAT的終止規(guī)則主要分兩種:定長(zhǎng)(fixed length)與不定長(zhǎng)(variable length)。定長(zhǎng)CD-CAT是指固定CD-CAT的測(cè)驗(yàn)長(zhǎng)度(如15題), 即如果某被試在CD-CAT中達(dá)到了該長(zhǎng)度, 則停止測(cè)試。定長(zhǎng)CD-CAT的特點(diǎn)是所有被試所用的題量均相等; 不定長(zhǎng)CAT是指固定測(cè)量精度, 即如果某被試在CD-CAT中達(dá)到某一設(shè)定的測(cè)量精度, 則停止測(cè)試。不定長(zhǎng)CD-CAT的特點(diǎn)是被試的測(cè)量精度基本一致, 但被試所有的題量不盡相同。Hsu等(2013)以及Tatsuoka (2002)在其研究中曾使用后驗(yàn)概率(posterior probability)作為不定長(zhǎng)CD-CAT的測(cè)量精度指標(biāo), 即當(dāng)被試判為某個(gè)知識(shí)狀態(tài)的后驗(yàn)概率達(dá)到事先要求水平(如0.85), 則終止測(cè)試, 本研究擬沿用這一做法。
為了進(jìn)一步驗(yàn)證研究第二部分關(guān)于多級(jí)評(píng)分的psCD-CAT設(shè)計(jì)的可行性, 本文采用Monte Carlo模擬實(shí)驗(yàn)方法進(jìn)行, 具體如下:
題庫共測(cè)量6個(gè)獨(dú)立的認(rèn)知屬性, 則共有26=64種被試掌握模式即知識(shí)狀態(tài)和26– 1=63種項(xiàng)目測(cè)量模式。為了保證題庫中各種類型的試題以及CDCAT中各種類型的被試都有, 本研究共模擬63×5=315道試題, 即各種項(xiàng)目測(cè)量模式均重復(fù)5次;同時(shí), 模擬64×25=1600名被試, 即每種知識(shí)狀態(tài)的被試重復(fù)25次試; 項(xiàng)目參數(shù)則從如下均勻分布中隨機(jī)生成,sjt~U(0,0.6),gjt~U(0,0.6),并控制sjt<= s jt+1和gjt>= gjt+1具體控制的方法是:如果隨機(jī)產(chǎn)生的s或g大于0.6則重新產(chǎn)生, 直至產(chǎn)生的值在(0, 0.6)區(qū)間; 對(duì)于同一題多個(gè)s和g參數(shù), 則分別通過排序的方法, 以控制控制sjt<= s jt+1和gjt>= gjt+1。為便于說明問題, 本題庫中所有試題均采用滿分為3分的評(píng)分方式。
采用GP-DINA模型, 該模型在涂冬波等人(2010)提出的P-DINA模型拓展而來(詳見本文2.1部分)。
Hsu等(2013)以及Huebner和Wang (2011)的研究中將知識(shí)狀態(tài)的先驗(yàn)概率P(αc)假定為均勻分布,即, 這時(shí)MAP與MLE等價(jià)。本研究采用Hsu等(2013)和Huebner和Wang (2011)的這一做法, 即參數(shù)估計(jì)采用MAP/MLE算法。
將本研究2.3部分設(shè)計(jì)的PS-KL、PS-PWKL和PS-HKL三種選題策略運(yùn)用到psCD-CAT中, 即選擇具有相應(yīng)最大信息的試題, 并與隨機(jī)選題策略(記為Random)作為參照基準(zhǔn)。
定長(zhǎng)和不定長(zhǎng)CD-CAT兩種。定長(zhǎng)CD-CAT中固定測(cè)試長(zhǎng)度為L(zhǎng)題, 即每個(gè)被試測(cè)試L題(L=10,15, 20)結(jié)束測(cè)試; 不定長(zhǎng)CD-CAT中采用固定測(cè)量精度, 固定后驗(yàn)概率為, 即測(cè)試中當(dāng)被試判為某個(gè)知識(shí)狀態(tài)的后驗(yàn)概率達(dá)到p時(shí)則終止測(cè)試。
采用單個(gè)屬性判準(zhǔn)率(Attribute Match Ratio, AMR)和所有屬性平均邊際判準(zhǔn)率(Average Attribute Match Ratio, AAMR)和模式判準(zhǔn)率(Pattern Match Ration,PMR)三個(gè)評(píng)價(jià)指標(biāo)。
采用題庫整體曝光率(exposure rate)和測(cè)驗(yàn)重疊率(test overlap ration, TOR)指標(biāo)來衡量題庫的安全性。
題庫整體曝光率(exposure rate)反應(yīng)了題庫題目整體的曝光程度, 也即反應(yīng)了題庫的安全性, 一般采用卡方類計(jì)算指標(biāo), 具體見公式18。
其中,ERj指第j題的曝光率,,fj指第j題被調(diào)用的次數(shù),N為測(cè)試總?cè)藬?shù),ERj越小說明該題的曝光率越低;為項(xiàng)目j期望曝光率, 在CD-CAT中, 理想情況是所有項(xiàng)目都被均勻調(diào)用, 即所有項(xiàng)目調(diào)用的期望次數(shù)或期望曝光率應(yīng)該相等, 也就是(定長(zhǎng)psCD-CAT中L為測(cè)驗(yàn)長(zhǎng)度, 不定長(zhǎng)G-D-CAT中L為平均測(cè)驗(yàn)長(zhǎng)度;M為題庫總題量)。因此公式18中, χ2統(tǒng)計(jì)量可以反應(yīng)觀察的曝光率與期望曝光率之間的差異, 因此χ2統(tǒng)計(jì)量越小說明題目調(diào)用的越均勻, 也即題庫越安全。
測(cè)驗(yàn)重疊率(test overlap ration, TOR)是反應(yīng)不同被試共同調(diào)用試題的重疊情況, 重疊率越高說明題庫越不安全。因此測(cè)驗(yàn)重疊率的計(jì)算與項(xiàng)目曝光率、測(cè)驗(yàn)長(zhǎng)度和被試量有關(guān), Chen, Ankenmann和Spray (2003)在其研究中給出如下計(jì)算公式。
測(cè)驗(yàn)效率(test efficiency)主要用來評(píng)價(jià)不定長(zhǎng)psCD-CAT的測(cè)試效率, 即在相同測(cè)量精度下, 平均使用的題數(shù)即為測(cè)驗(yàn)效率。如果平均使用的題數(shù)越少說明psCD-CAT測(cè)試的效率越高, 反之效率越低。
指不定長(zhǎng)CD-CAT中被試i使用的題數(shù)。
實(shí)驗(yàn)1:定長(zhǎng)條件下psCD-CAT效果。采用3×4兩因素實(shí)驗(yàn)設(shè)計(jì), 第一因素為測(cè)驗(yàn)長(zhǎng)度, 分10、15和20題三個(gè)水平; 第二個(gè)因素為選題策略, 分隨機(jī)選題策略、PS-KL、PS-PWKL和PS-HKL四種選題策略。
實(shí)驗(yàn)2:不定長(zhǎng)條件下psCD-CAT效果。采用3×4兩因素實(shí)驗(yàn)設(shè)計(jì), 第一因素為測(cè)量精度指標(biāo)——后驗(yàn)概率p, 分0.75、0.80和0.85三個(gè)水平; 第二個(gè)因素為選題策略, 分別為隨機(jī)選題策略、PS-KL、PS-PWKL和PS-HKL四種選題策略。
表2和表3分別是定長(zhǎng)psCD-CAT下的被試屬性診斷正確率及題庫安全性的結(jié)果。
表2說明, 不論在何種測(cè)驗(yàn)長(zhǎng)度下(10, 15和20題),PS-PWKL和PS-HKL選題策略具有較高的診斷正確率, 且兩種選題策略均優(yōu)于PS-KL選題策略, 但隨著測(cè)驗(yàn)長(zhǎng)度的增加, 這種差異越來越小; 表2還說明在實(shí)驗(yàn)1設(shè)計(jì)下, 若要保證有90%以上屬性模式診斷正確率(PMR), 則psCD-CAT的題長(zhǎng)應(yīng)在15題左右。表3表明與PS-KL相比, PS-PWKL和PS-HKL具有更低測(cè)驗(yàn)重疊率及題庫曝光率, 因此題庫使用更為安全, 而PS-PWKL和PS-HKL則具有相似的測(cè)驗(yàn)重疊率及題庫安全性, 但與隨機(jī)選題策略(Random)相比, PS-PWKL和PS-HKL選題策略在題庫安全性上還有進(jìn)一步提高的空間。
表2 定長(zhǎng)psCD-CAT的診斷正確率
表3 定長(zhǎng)psCD-CAT的題庫安全性
總之, 實(shí)驗(yàn)1結(jié)果表明, 在PS-PWKL和PS-HKL選題策略下, 本研究設(shè)計(jì)的定長(zhǎng)psCD-CAT具有較理想的屬性判準(zhǔn)率, 且題庫的安全性尚可。幾種選題策略相比較而言, PS-PWKL和PS-HKL選題策略整體上最佳, 而PS-KL選題策略相對(duì)差一些, 但隨機(jī)選題策略因其非常低屬性診斷正確率(尤其是PMR指標(biāo))而不太適用于psCD-CAT環(huán)境。
表4和表5分別是不定長(zhǎng)psCD-CAT下的被試屬性診斷正確率及題庫的安全性與測(cè)驗(yàn)效率的結(jié)果。
表4和表5說明, 在固定測(cè)量精度條件下, 基于KL的3種選題策略屬性診斷正確率間的差異不如定長(zhǎng)psCD-CAT大, 且比較接近。但為了達(dá)到相近的診斷正確率, PS-KL平均使用(10.2+11.14+11.79)/3=11.04題, 而PS-PWKL和PS-HLK則分別使用了(8.48+8.83+9.15)/3=8.82題和(8.43+8.67+9.25)/3=8.78題, 因此測(cè)驗(yàn)效率指標(biāo)上, PS-KL選題策略不如后兩者; 同時(shí)表5還說明, PS-PWKL和PS-HLK比PS-KL具有更低的測(cè)驗(yàn)重疊率和題庫曝光率, 因此題庫使用顯得相對(duì)更為安全。
學(xué)校立足藝術(shù)教育,必然要以特色課程作支撐?;趥鞒泻桶l(fā)展本土嘉禾文化、嶺南文化的背景,白云藝術(shù)中學(xué)大力建設(shè)“嶺南藝術(shù)”特色課程,以音樂和美術(shù)系列為核心系列課程,兼設(shè)學(xué)科拓展系列和實(shí)踐活動(dòng)系列課程。特色課程讓學(xué)生深入了解嶺南藝術(shù),促進(jìn)學(xué)生對(duì)本土文化的認(rèn)識(shí)和熱愛,提升學(xué)生的藝術(shù)鑒賞力、分析力以及藝術(shù)素養(yǎng),從而發(fā)展學(xué)生的藝術(shù)創(chuàng)作能力。
表4 不定長(zhǎng)psCD-CAT的診斷正確率
表5 不定長(zhǎng)psCD-CAT的題庫安全性與測(cè)驗(yàn)效率
總之, 實(shí)驗(yàn)2結(jié)果表明, 在PS-PWKL和PS-HKL選題策略下, 總體來講本研究設(shè)計(jì)的不定長(zhǎng)psCDCAT同樣具有較高的KS判準(zhǔn)率, 且題庫的安全性較理想。幾種選題策略相比較而言, PS-PWKL和PS-HKL選題策略整體上最佳, 具較高的測(cè)驗(yàn)效率及題庫安全性。
CD-CAT因充分結(jié)合了認(rèn)知診斷和CAT兩者的優(yōu)勢(shì)而深受國(guó)內(nèi)外研究者和應(yīng)用者的推崇。目前,國(guó)內(nèi)外學(xué)者對(duì)CD-CAT也開展了大量的研究, 研究領(lǐng)域涉及選題策略、曝光控制、參數(shù)估計(jì)算法等領(lǐng)域研究。但比較可惜的是, 目前國(guó)內(nèi)外針對(duì)CD-CAT的研究基本上僅針對(duì)二級(jí)評(píng)分?jǐn)?shù)據(jù)展開,而針對(duì)多級(jí)評(píng)分?jǐn)?shù)據(jù)的CD-CAT的還幾乎未真正展開; 但在實(shí)際應(yīng)用中, 多級(jí)評(píng)分?jǐn)?shù)據(jù)大量存在,而這是傳統(tǒng)0-1評(píng)分的CD-CAT顯然無法滿足實(shí)際的需求, 這不利于推動(dòng)CD-CAT在實(shí)際中的應(yīng)用與推廣。因此, 針對(duì)多級(jí)評(píng)分的CD-CAT的研究則顯得十分必要。本文拋磚引玉, 以期更多研究者從事這一領(lǐng)域研究, 從而為真正推動(dòng)CD-CAT為實(shí)際服務(wù)而努力。
要真正實(shí)現(xiàn)多級(jí)評(píng)分CD-CAT, 則離不開項(xiàng)目在線自動(dòng)評(píng)分, 否則自適應(yīng)無法進(jìn)行。因此多級(jí)評(píng)分項(xiàng)目的自動(dòng)評(píng)分技術(shù)有待進(jìn)一步跟進(jìn)。比較可喜的是, 英語作文評(píng)分目前國(guó)際上已實(shí)現(xiàn)了計(jì)算機(jī)自動(dòng)評(píng)分, 中文作文自動(dòng)評(píng)分的技術(shù)也日益發(fā)展并不斷成熟, 這些技術(shù)都為多級(jí)評(píng)分CD-CAT提供了重要的技術(shù)支持, 我們也深信隨著人工智能技術(shù)以及測(cè)量技術(shù)的不斷發(fā)展, 多級(jí)評(píng)分綜合題的自動(dòng)評(píng)分將會(huì)迎刃而解。
本研究將傳統(tǒng)CD-CAT的KL, PWKL和HKL選題策略的思想方法應(yīng)用于psCD-CAT環(huán)境中, 拓展出了PS-KL, PS-PWKL和PS-HKL三種適用于多級(jí)評(píng)分認(rèn)知診斷計(jì)算機(jī)化適應(yīng)測(cè)驗(yàn)的選題策略, 從而提供了新的方法技術(shù), 但未來研究可以進(jìn)一步考慮CD-CAT中香農(nóng)熵(Xu, Chang, & Douglas, 2003)和互信息量(Mutual information, Wang, 2013)等選題策略在psCD-CAT中的效果, 并比較不同選題策略的特點(diǎn)及性能, 從而為實(shí)踐者在選題策略的選用上提供進(jìn)一步的指導(dǎo)。
曝光率控制是CAT和CD-CAT領(lǐng)域中一項(xiàng)非常重要技術(shù)。過高的測(cè)驗(yàn)曝光率不僅會(huì)嚴(yán)重危害到測(cè)驗(yàn)的安全性, 更會(huì)使測(cè)驗(yàn)項(xiàng)目的性能發(fā)生改變(如參數(shù)漂移)從而影響到測(cè)量結(jié)果的精度。限于篇幅及精力, 本研究并沒有深入探討psCD-CAT環(huán)境下的題庫安全性控制技術(shù), 未來研究有待進(jìn)一步展開, 以保證屬性診斷正確率的前提下, 進(jìn)一步提高題庫使用的安全性。
本文僅是通過Monte Carlo模擬的方法驗(yàn)證了psCD-CAT的效果與性能, 未來研究更需要實(shí)際中進(jìn)一步驗(yàn)證psCD-CAT的效果。
本研究在傳統(tǒng)CD-CAT的基礎(chǔ)上進(jìn)行拓展, 開發(fā)設(shè)計(jì)了可以處理多級(jí)評(píng)分的CD-CAT (記為psCDCAT)。因此, 本文最大的特色/貢獻(xiàn)在于開發(fā)多級(jí)評(píng)分的CDM, 并使真正用多級(jí)評(píng)分CDM來處理多級(jí)評(píng)分的CD-CAT。Monte Carlo模擬實(shí)驗(yàn)結(jié)果表明:在PS-PWKL和PS-HKL選題策略下, 基于多級(jí)評(píng)分框架下設(shè)計(jì)的psCD-CAT具有較好的診斷正確率、題庫安全性和較高的測(cè)驗(yàn)效率, 說明本研究設(shè)計(jì)開發(fā)的psCD-CAT基本可行, 可以用于實(shí)現(xiàn)多級(jí)評(píng)分的計(jì)算化自適應(yīng)診斷, 彌補(bǔ)了傳統(tǒng)CD-CAT只能處理0-1評(píng)分?jǐn)?shù)據(jù)的不足; Monte Carlo模擬實(shí)驗(yàn)還同時(shí)表明PS-PWKL和PS-HKL選題策略具有較理想的被試屬性診斷正確率、題庫安全性和高測(cè)驗(yàn)效率。總之, 本研究對(duì)于進(jìn)一步拓展CD-CAT在實(shí)踐中的應(yīng)用提供了重要的方法和技術(shù)支持。
Chen, P., & Xin, T. (2011). Item replenishing in cognitive diagnostic computerized adaptive testing.Acta Psychologica Sinica, 43(7), 836?850.
[陳平, 辛濤. (2011). 認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)中的項(xiàng)目增補(bǔ).心理學(xué)報(bào),43(7), 836?850.]
Chen, S. Y., Ankenmann, R. D., & Spray, J. A. (2003). The relationship between item exposure and test overlap in computerized adaptive testing. Journal ofEducational Measurement, 40, 129-145.
Chen, Y. X., Liu J. C., & Ying, Z. L. (2015). Online item calibration for Q-Matrix in CD-CAT.Applied Psychological Measurement,39(1), 5?15.
Cheng, Y. (2009). When cognitive diagnosis meets computerized adaptive testing: CD-CAT.Psychometrika, 74, 619–632.
Feng, Y., Habing, B., Huebner, A. (2014). Paramter estimation of the reduced RUM using the EM algorithm. Applied Psychological Measurement, 38(2), 137-150.
Guo, L., Zheng, C. J., & Bian, Y. F. (2015). Exposure control methods and termination rules in variable-length cognitive diagnostic computerized adaptive testing.Acta Psychologica Sinica, 47(1), 129?140.
[郭磊, 鄭蟬金, 邊玉芳. (2015). 變長(zhǎng)CD-CAT中的曝光控制與終止規(guī)則.心理學(xué)報(bào), 47(1), 129?140.]
Hsu, C. L., Wang W. C., & Chen, S. Y. (2013). Variable-length computerized adaptive testing based on cognitive diagnosis models.Applied Psychological Measurement, 37(7), 563?582.
Huebner, A., & Wang, C. (2011). A note on comparing examinee classification methods for cognitive diagnosis models.Educational and Psychological Measurement,71(2), 407?419.
Kaplan, M., de la Torre, J., & Barrada, J. R. (2015). New item selection methods for cognitive diagnosis computerized adaptive testing.Applied Psychological Measurement, 39(3),167?188.
Mao, X. Z., & Xin, T. (2013). The application of the Monte Carlo approach to cognitive diagnostic computerized adaptive testing with content constraints.Applied Psychological Measurement, 37(6), 482?496.
Samejima, F. (1995). Acceleration model in the heterogeneous case of the general graded response model.Psychomatrika,60, 549–572.
Samejima, F. (1997). Graded response model. In W. J. van der Linden & R. K. Hambleton (Eds.),Handbook of modern item response theory(pp. 85–100). New York: Springer.
Tatsuoka, C. (2002). Data analytic methods for latent partially ordered classification models.Journal of the Royal Statistical Society: Series C (Applied Statistics), 51, 337? 350.
Tu, D. B., & Cai, Y. (2015). The development of CD-CAT with polytomous attributes.Acta Psychologica Sinica, 47(11),1405?1414.
[涂冬波, 蔡艷. (2015). 基于屬性多級(jí)化的認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)設(shè)計(jì)與實(shí)現(xiàn).心理學(xué)報(bào), 47(11), 1405? 1414.]
Tu, D. B., Cai, Y., & Dai, H. Q. (2013). Item selection strategies and initial items selection methods of CD-CAT.Journal of Psychological Science, 36(2), 469?474.
[涂冬波, 蔡艷, 戴海琦. (2013). 認(rèn)知診斷CAT選題策略及初始題選取方法.心理科學(xué), 36(2), 469?474.]
Tu, D. B., Cai, Y., Dai, H. Q., & Ding, S. L. (2010). A polytomous cognitive diagnosis model: P-DINA model.Acta Psychologica Sinica, 42(10), 1011?1020.
[涂冬波, 蔡艷, 戴海崎, 丁樹良. (2010). 一種多級(jí)評(píng)分的認(rèn)知診斷模型: P-DINA模型的開發(fā).心理學(xué)報(bào), 36(4),1011–1020.]
Wang, C. (2013). Mutual information item selection method in cognitive diagnostic computerized adaptive testing with short test length.Educational and Psychological Measurement,73(6), 1017?1035.
Wang, C., Chang, H. H., & Huebner, A. (2011). Restrictive stochastic item selection methods in cognitive diagnostic computerized adaptive testing.Journal of Educational Measurement, 48, 255?273.
Wang, W. Y., Ding, S. L., & Song, L. H. (2014). Item selection methods for balancing test efficiency with item bank usage efficiency in CD-CAT.Journal of Psychological Science,37(1), 212?216.
[汪文義, 丁樹良, 宋麗紅. (2014). 兼顧測(cè)驗(yàn)效率和題庫使用率的CD-CAT選題策略.心理科學(xué), 37(1), 212?216.]
Xu, X. L., Chang, H. H., & Douglas, J. (2003, April). A simulation study to compare CAT strategies for cognitive diagnosis.Paper presented at the Annual Meeting of National Council on Measurement in Education, Montreal, Canada.
Zhou, J., Ding, S. L., & Chen, P. (2007). The method of cognitive diagnosis CAT based on polytomous scoring model.Journal of Jiangxi Normal University (Natural Science), 31(4), 375?378.
[周婕, 丁樹良, 陳平. (2007). 多級(jí)評(píng)分CAT的認(rèn)知診斷方法.江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 31(4), 375?378.]