簡(jiǎn)小珠 陳平
計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn) (computerized adaptive testing,CAT)是一種以項(xiàng)目反應(yīng)理論(item response theory,IRT)為指導(dǎo)的新興測(cè)驗(yàn)形式。它在測(cè)試過程中根據(jù)考生作答情況來(lái)匹配考生能力水平的試題,實(shí)現(xiàn)因人施測(cè)。相對(duì)于傳統(tǒng)的紙筆測(cè)驗(yàn),CAT使用較少的試題就能獲得相同的測(cè)量精度,而且根據(jù)被試能力水平選擇試題,可以降低被試測(cè)試焦慮。CAT的其他優(yōu)點(diǎn)還包括采用標(biāo)準(zhǔn)化的測(cè)試、即時(shí)的報(bào)告測(cè)驗(yàn)成績(jī)與反饋?zhàn)鞔鸾Y(jié)果信息等[1]。
CAT國(guó)際協(xié)會(huì)于2010年成立[2],創(chuàng)辦了專業(yè)期刊Journal of Computerized Adaptive Testing[3],每 兩年舉行一次研討會(huì)議。研討會(huì)議促進(jìn)CAT研究的發(fā)展應(yīng)用。根據(jù)協(xié)會(huì)的統(tǒng)計(jì),目前至少有二十多項(xiàng)CAT項(xiàng)目正在施測(cè)應(yīng)用中[4],CAT已被廣泛應(yīng)用于多個(gè)測(cè)量領(lǐng)域:(1)心理與教育測(cè)量領(lǐng)域,例如美國(guó)大學(xué)入學(xué)考試(SAT)、學(xué)業(yè)進(jìn)展測(cè)評(píng)(MAP)、中國(guó)臺(tái)灣地區(qū)初中升高中的基礎(chǔ)知識(shí)測(cè)試等;(2)職業(yè)資格考試領(lǐng)域,包括美國(guó)醫(yī)生護(hù)士資格考試、微軟軟件程序員認(rèn)證考試、美國(guó)軍隊(duì)職業(yè)能力傾向成套測(cè)驗(yàn)(ASVABCAT)等都采用了CAT版本的測(cè)驗(yàn);(3)人格測(cè)量領(lǐng)域,CAT應(yīng)用于人格問卷的典型例子是明尼蘇達(dá)多項(xiàng)人格量表(MMPI)采用CAT測(cè)試的實(shí)踐與研究,F(xiàn)orbey和Ben-Porath(2007)回顧了MMPI-2使用CAT的測(cè)試應(yīng)用[5];(4)認(rèn)知診斷測(cè)量領(lǐng)域,認(rèn)知診斷CAT(CD-CAT)是目前研究熱點(diǎn)之一,唐小娟、丁樹良和俞宗火(2012)概述了近年來(lái)CD-CAT的理論與實(shí)踐研究情況[6];(5)在多維能力測(cè)量方面,發(fā)展出多維能力 CAT (Multidimensional Adaptive Testing),多維能力CAT可以提高自適應(yīng)測(cè)驗(yàn)的內(nèi)容覆蓋面,測(cè)量多個(gè)能力維度,從而獲得更多的測(cè)驗(yàn)信息和更高的測(cè)驗(yàn)效率,例如 Yao、Pommerich 和 Segall(2014)及劉發(fā)明和丁樹良(2006)等人的研究[7-9]。
對(duì)于目前出現(xiàn)的眾多CAT研究,已有研究者對(duì)它們進(jìn)行了分類,Chang(2012)以及唐小娟等(2012)將CAT分為兩類[10]:以IRT為基礎(chǔ)的傳統(tǒng)CAT和以認(rèn)知診斷理論為基礎(chǔ)的認(rèn)知診斷CAT。這里對(duì)CAT進(jìn)行了更為細(xì)致的分類,從四個(gè)角度進(jìn)行闡述:
第一,從CAT所使用數(shù)學(xué)模型的角度,可分為單維CAT、多維CAT和認(rèn)知診斷CAT。單維CAT是最早的、也最為常見的CAT形式,使用單維能力IRT模型,如單、兩、三、四參數(shù)Logistic模型,等級(jí)反應(yīng)模型等。多維CAT是以多維能力IRT模型為基礎(chǔ)的CAT形式,以及多維能力IRT模型(Reckase,2009)[11],包括多維Rasch模型、三參數(shù)多維Logistic模型、多維等級(jí)反應(yīng)模型等。認(rèn)知診斷CAT是以認(rèn)知診斷模型作為基礎(chǔ)模型的CAT形式,認(rèn)知診斷CAT使用的認(rèn)知診斷模型又可以分為兩類,一類是以IRT為理論基礎(chǔ)的認(rèn)知診斷模型,如線性Logistic模型、多成分潛在特質(zhì)模型等等;另外一類是不屬于IRT范疇的認(rèn)知診斷模型,如規(guī)則空間模型、屬性層次模型、DINA模型、融合模型等。
第二,從CAT測(cè)驗(yàn)長(zhǎng)度是否固定的角度,可以分為定長(zhǎng)CAT(Fixed-length computerized adaptive testing,F(xiàn)L-CAT)和變長(zhǎng) CAT(Variable-length computerized adaptive testing,VL-CAT)。 定長(zhǎng) CAT 規(guī)定所有被試作答相同數(shù)量的題目,只要CAT達(dá)到指定的測(cè)驗(yàn)長(zhǎng)度,測(cè)驗(yàn)則終止。變長(zhǎng)CAT是不固定測(cè)驗(yàn)長(zhǎng)度的CAT,需要以其他終止規(guī)則來(lái)判斷是否要終止測(cè)驗(yàn)。
第三,從CAT能力評(píng)價(jià)絕對(duì)參照點(diǎn)的角度,CAT發(fā)展出計(jì)算機(jī)化分類測(cè)驗(yàn)(Variable-length Computerized Classification Testing,VL-CCT),有些文獻(xiàn)也稱為 mastery adaptive test, 或者 computerized mastery adaptive test,或者 Pass-Fail CAT。VL-CCT 本質(zhì)上是單維CAT的一種特殊形式。VL-CCT測(cè)驗(yàn)在CAT形式下按照某一絕對(duì)標(biāo)準(zhǔn)(即能力估計(jì)值分界點(diǎn))對(duì)被試進(jìn)行分類,看其是否達(dá)到某一絕對(duì)標(biāo)準(zhǔn)來(lái)對(duì)分?jǐn)?shù)進(jìn)行解釋并將被試分為通過或不通過兩類,或兩類以上。測(cè)驗(yàn)過程中只要確定了對(duì)被試的分類并達(dá)到其他測(cè)驗(yàn)?zāi)繕?biāo),則測(cè)驗(yàn)終止。VL-CCT能用較少的試題實(shí)現(xiàn)對(duì)被試的準(zhǔn)確分類,而且在對(duì)被試能力分類方面要優(yōu)于一般的單維CAT(Eggen&Straetmans,2000)[12]。VL-CCT測(cè)驗(yàn)類似于傳統(tǒng)紙筆測(cè)驗(yàn)形式下的標(biāo)準(zhǔn)參照測(cè)驗(yàn)(或掌握性測(cè)驗(yàn))。VL-CCT適合應(yīng)用于心理與教育測(cè)量中的掌握性評(píng)價(jià)或等級(jí)評(píng)價(jià),以及職業(yè)資格考試評(píng)價(jià),可以有效地對(duì)被試進(jìn)行分類。VL-CCT也可以看成是變長(zhǎng)CAT(VL-CAT)的一種特殊形式。但與一般的變長(zhǎng)CAT相比,VL-CCT需要有一個(gè)或多個(gè)劃界分?jǐn)?shù)線,必須要對(duì)被試進(jìn)行分類才能終止測(cè)驗(yàn),并兼顧其他測(cè)驗(yàn)?zāi)繕?biāo);而變長(zhǎng)CAT可以在達(dá)到標(biāo)準(zhǔn)誤準(zhǔn)則、貝葉斯最小方差變異準(zhǔn)則等要求時(shí)就終止測(cè)驗(yàn),不需要?jiǎng)澖绶謹(jǐn)?shù)線。
第四,從CAT自適應(yīng)過程設(shè)計(jì)的角度,CAT發(fā)展出計(jì)算機(jī)化自適應(yīng)序列測(cè)驗(yàn) (computer-adaptive sequential testing,CAST)[13]。 計(jì)算機(jī)化自適應(yīng)序列測(cè)驗(yàn),有些文獻(xiàn)也稱為計(jì)算機(jī)化多步自適應(yīng)測(cè)驗(yàn)或多階段自適應(yīng)測(cè)驗(yàn) (Multistage Testing,或multistage adaptive testing,MST)。CAST在測(cè)試過程中將測(cè)試分為3至5個(gè)階段,在每個(gè)階段測(cè)試的內(nèi)容模塊需要根據(jù)被試上一階段的作答情況來(lái)估計(jì)被試能力值,并根據(jù)被試能力值情況選擇下一階段的測(cè)試內(nèi)容模塊。
此外,還有一些其他分類角度,包括是否屬于速度測(cè)驗(yàn)、是否是由被試自己選擇測(cè)試起點(diǎn)等等,但這些分類角度較少被研究者關(guān)注。
VL-CCT本質(zhì)上是單維CAT的一種特殊形式,組成部分與單維CAT的組成部分基本上是一樣的。為敘述方便,下文中CAT均表示單維CAT。Thompson(2007)認(rèn)為VL-CCT測(cè)驗(yàn)包括五個(gè)組成部分:測(cè)量模型、量尺化的題庫(kù)、測(cè)試起點(diǎn)、選題策略和終止規(guī)則[14]。筆者認(rèn)為,在Thompson觀點(diǎn)的基礎(chǔ)上應(yīng)增加能力估計(jì)方法、研究結(jié)果的評(píng)價(jià)分析這兩個(gè)部分。由于VL-CCT測(cè)驗(yàn)的主要目標(biāo)是將被試進(jìn)行分類,因而VL-CCT在選題策略、終止規(guī)則、評(píng)價(jià)分析等部分有其獨(dú)特性,以下分別論述VL-CCT各個(gè)組成部分的特點(diǎn)。
VL-CCT以IRT為基礎(chǔ)理論,常用的IRT模型都可作為VL-CCT的測(cè)量模型。研究者已經(jīng)將常用的IRT模型應(yīng)用到了VL-CCT中,例如:Eggen(2011)在VL-CCT的終止規(guī)則研究中使用了Rasch模型[15],文劍冰和王文昊(2008)在比較VL-CCT的終止規(guī)則研究中使用了三參數(shù)Logistic模型[16],Smits&Finkelman(2013)在人格測(cè)量情境下CAT與VL-CCT的比較研究中使用了等級(jí)反應(yīng)模型[17]。
在CAT研究中,題庫(kù)的試題b參數(shù)往往模擬服從標(biāo)準(zhǔn)正態(tài)分布N(0,1)。也有一些研究讓b參數(shù)服從 U[-3,+3]或 U[-4,+4],如 Wouda 和 Eggen(2009)以及程小揚(yáng)、丁樹良、嚴(yán)深海和朱隆尹(2011)等人的研究[18,19]。在VL-CCT測(cè)驗(yàn)中,在能力分?jǐn)?shù)劃界點(diǎn)的試題需要更多的題量,那么試題b參數(shù)分布就需要在能力分?jǐn)?shù)劃界點(diǎn)模擬成尖峰分布形態(tài)。例如Huebner和 Li (2012)、Thompson (2009) 的研究中[20,21],一部分研究情境的試題參數(shù)分布設(shè)計(jì)為在能力分?jǐn)?shù)劃界點(diǎn)-0.75上服從寬分布的正態(tài)形態(tài) N(-0.75,2.0),另一部分研究情境的試題參數(shù)分布設(shè)計(jì)為在能力分?jǐn)?shù)劃界點(diǎn)-0.75上服從窄分布的正態(tài)形態(tài) N(-0.75,0.4)。有些VL-CCT研究中也使用實(shí)測(cè)題庫(kù)的試題參數(shù),例如:Chen、Lei、Chen 和 Liu(2014),Lin (2011),van Groen、Eggen 和 Veldkamp(2014),Yang、Poggio 和 Glasnapp(2006)等,都使用了實(shí)測(cè)題庫(kù)的試題參數(shù)[22-25]。
在CAT模擬研究中,能力起點(diǎn)一般從能力中點(diǎn)θ=0.0 開始,例如 Lin(2011);Bock 和 Mislevy(1982);Passos,Berger 和 Tan (2008);Van Der Linden 和Veldkamp(2004)等人的研究[26-29]。 在VL-CCT 測(cè)驗(yàn)研究中,除了上述兩種測(cè)試起點(diǎn)方法外,還可以選擇以下兩種方法作為起點(diǎn)[30]:一是以實(shí)際參加測(cè)試的被試能力分布的中點(diǎn)作為測(cè)試起點(diǎn),二是以被試通過與未通過的概率似然比等于1.0時(shí)作為測(cè)試起點(diǎn)。
選題策略 (包括試題曝光率控制和測(cè)驗(yàn)交疊率控制)是計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)的關(guān)鍵環(huán)節(jié),許多CAT研究都是圍繞選題策略和測(cè)驗(yàn)安全控制進(jìn)行的。毛秀珍和辛濤(2011)以及簡(jiǎn)小珠、戴海崎、張敏強(qiáng)和彭春妹(2014)等人的研究中都已經(jīng)將CAT形式的選題策略及其變式進(jìn)行了概括分類[31,32],包括Robbins-Monro選題策略 (b匹配選題策略)、Fisher信息函數(shù)策略 (FI)及其變式、KLI函數(shù)策略 (Kullback-Leibler information,KLI)及其變式、α分層策略及其變式、貝葉斯策略及其變式等等,并認(rèn)為應(yīng)根據(jù)CAT測(cè)驗(yàn)情境要求來(lái)選擇相對(duì)應(yīng)的選題策略。
在CAT下,F(xiàn)I函數(shù)方法及其變式、KLI函數(shù)方法及其變式、PG 方法(progressive method,PG)及其變式、貝葉斯選題策略等選題策略同樣都可以適用計(jì)算機(jī)化分類測(cè)驗(yàn)。例如,路鵬、周東岱、鐘紹春、叢曉(2013)在VL-CCT下使用貝葉斯選題策略,發(fā)現(xiàn)被試分類準(zhǔn)確性較高[33];Veldkamp(1999)、van Groen、Eggen和Veldkamp(2014)在VL-CCT下為實(shí)現(xiàn)多個(gè)測(cè)驗(yàn)?zāi)繕?biāo)[34,35],在FI函數(shù)的基礎(chǔ)上進(jìn)行改進(jìn),提出了六個(gè)FI函數(shù)選題策略的變式,包括:加權(quán)方法(Weighting Methods,WM)、 等級(jí)優(yōu)先方法(Ranking or Prioritizing Methods)、目標(biāo)程序方法 (Goal Programming,GP)、 全局信息方法 (Global-Criterion,GC)、極大值方法(Maximin Methods,MA)、約束控制方法(Constraint-Based Methods,CBM)。van Groen 等(2014)的研究結(jié)果表明[36],WM、GP、GC、MA、以即時(shí)能力估計(jì)值為基礎(chǔ)的FI、以一組劃界分?jǐn)?shù)線中數(shù)為基礎(chǔ)的FI(MC)、以最近的劃界分?jǐn)?shù)線為基礎(chǔ)的FI(NC)等這七種選題策略方法,其模擬結(jié)果發(fā)現(xiàn),這七種選題策略方法下的被試分類準(zhǔn)確性相差不大,然而以一組劃界分?jǐn)?shù)線中數(shù)為基礎(chǔ)的FI(MC)、以最近的劃界分?jǐn)?shù)線為基礎(chǔ)的FI(NC)這兩種方法下的測(cè)驗(yàn)長(zhǎng)度較短,測(cè)驗(yàn)效率相對(duì)較高。
近年來(lái)研究者還提出了專門適合VL-CCT測(cè)驗(yàn)的兩種選題策略,即加權(quán)似然比函數(shù)方法(Weighted Log-odds ratio,WLOR)和交互信息函數(shù)方法(Mutual Information,MI)。
加權(quán)似然比函數(shù)(WLOR))方法最早是由Lin和Spray(2000)提出的[37]。 Eggen(1999)、Eggen 和Straetmans(2000)認(rèn)為,KLI函數(shù)方法能適合VL-CCT的終止規(guī)則 SPRT(sequential probability ratio test)[38,39],選擇具有最大KLI函數(shù)值的試題,可以在分類測(cè)驗(yàn)中使用較少的試題對(duì)被試能力進(jìn)行較為準(zhǔn)確的分類,但KLI函數(shù)方法只能適合分為兩類的情況(即一個(gè)分界點(diǎn)),而有多個(gè)分界點(diǎn)時(shí)就很困難。Lin和Spray(2000)在KLI函數(shù)方法的思想基礎(chǔ)上發(fā)展出加權(quán)似然比函數(shù)方法(WLOR),在備選的試題集中,選擇在加權(quán)似然比函數(shù)上具有最大值的試題作為測(cè)試的下一道試題,加權(quán)似然比函數(shù)方法公式為:
其中,θ1和θ2應(yīng)該分別在分?jǐn)?shù)界限的以上和以下,R函數(shù)值的性質(zhì)與作用與KLI函數(shù)值很相似。
交互信息函數(shù)方法(MI)由 Weissman(2007)提出[40]。為了克服KLI函數(shù)方法只能適合分為兩類的情況,Weissman(2007)提出MI方法可以適合被試分為三類及三類以上的情況。MI函數(shù)方法也是在KLI函數(shù)的思想上發(fā)展起來(lái)的,其函數(shù)公式為:
其中,Xi表示在試題i上f(θ)的作答反應(yīng),f(xi,θ)是Xi,θ上的聯(lián)合分布函數(shù),而f(xi)、f(θ)分別是被試作答反應(yīng)、被試能力分布的邊際分布。在此方法下,選擇具有最大MI信息量的試題作為下一道試題的測(cè)試。MI信息函數(shù)方法是對(duì)稱的,而KLI函數(shù)則不是對(duì)稱,MI信息函數(shù)方法可以適合多個(gè)分?jǐn)?shù)界線的測(cè)驗(yàn),如果只有一個(gè)分?jǐn)?shù)界線時(shí),MI信息函數(shù)方法也就簡(jiǎn)化成了KLI函數(shù)方法了[41]。在MI函數(shù)的基礎(chǔ)上結(jié)合多重分類方法,進(jìn)一步提出了交互信息函數(shù)多重分類方法 (Mutual Information and Multiple Imputations,MIMI),該方法是MI方法的一種變式。Weissman(2007)通過CAT模擬比較發(fā)現(xiàn),在被試分為四類的情況下,MI方法分類準(zhǔn)確性略高于FIP方法(后驗(yàn)加權(quán)的FI方法)和FI方法,而測(cè)驗(yàn)使用的試題數(shù)量也略少于FIP方法和FI方法。
從選題策略方法公式中使用能力值參照模式的角度,Thompson(2009)將 VL-CCT下選題策略的應(yīng)用分為兩種模式[42]:第一種模式是選題策略使用劃界分?jǐn)?shù)線 θ0為參照模式(Cutscore-based methods,CB),即選題策略方法公式中使用劃界分?jǐn)?shù)線的能力值θ0來(lái)計(jì)算,并據(jù)此來(lái)選擇試題進(jìn)行測(cè)試;第二種模式是選題策略以測(cè)試過程中被試能力估計(jì)值θ?為參照模式(Estimate-based methods,EB),即選題策略方法公式中使用即時(shí)動(dòng)態(tài)更新的被試能力估計(jì)值θ?來(lái)計(jì)算,并據(jù)此來(lái)選擇試題進(jìn)行測(cè)試。本文在Thompson(2009)歸納的選題策略應(yīng)用模式的基礎(chǔ)上進(jìn)一步總結(jié)如表1。
在以往研究中發(fā)現(xiàn),同一種選題策略下CB模式和EB模式的測(cè)驗(yàn)長(zhǎng)度、分類準(zhǔn)確性有差異,因此研究者將選題策略分為CB模式、EB模式兩大類。Thompson(2009)將選題策略與終止規(guī)則結(jié)合分析,以尋找選題策略與終止規(guī)則的最佳組合模式,在VL-CCT下將FI選題策略的CB模式、EB模式,分別與序列概率比檢驗(yàn) (SPRT)、能力置信區(qū)間方法(ACI)這兩種終止規(guī)則進(jìn)行組合,分別在這四種情境下進(jìn)行模擬分析。當(dāng)終止規(guī)則為ACI時(shí),F(xiàn)I選題策略的EB模式比CB模式所需測(cè)驗(yàn)題量平均少2.8題;而在終止規(guī)則為SPRT時(shí),F(xiàn)I選題策略的EB模式比CB模式所需測(cè)驗(yàn)題量平均多20.46題。綜合其研究結(jié)果,在FI選題策略為CB模式、終止規(guī)則為SPRT的組合情境下,被試分類準(zhǔn)確性略高,而測(cè)驗(yàn)長(zhǎng)度最短。當(dāng)然在總體上,CB模式下的題庫(kù)利用率低于EB模式。以上是FI選題策略CB模式、EB模式與不同終止規(guī)則進(jìn)行組合設(shè)計(jì),其他的選題策略、終止規(guī)則進(jìn)行組合對(duì)被試分類準(zhǔn)確性、測(cè)驗(yàn)效率的影響將是怎樣的?如何尋找選題策略、終止規(guī)則最佳的組合?這將是VL-CCT未來(lái)研究拓展方向之一。
CAT測(cè)驗(yàn)終止規(guī)則主要有固定測(cè)驗(yàn)長(zhǎng)度和不固定測(cè)驗(yàn)長(zhǎng)度兩類。以固定測(cè)驗(yàn)長(zhǎng)度為終止標(biāo)準(zhǔn)時(shí),當(dāng)作答試題數(shù)量達(dá)到規(guī)定的測(cè)驗(yàn)長(zhǎng)度便終止測(cè)驗(yàn)。在許多研究中,固定測(cè)驗(yàn)長(zhǎng)度范圍一般在25題至70題之間。當(dāng)CAT終止標(biāo)準(zhǔn)為不固定測(cè)驗(yàn)長(zhǎng)度時(shí),需要使用終止規(guī)則作為測(cè)驗(yàn)終止的依據(jù)。Babcock和Weiss(2012)歸納了變長(zhǎng)CAT下的幾種終止規(guī)則,包括標(biāo)準(zhǔn)誤準(zhǔn)則、最小信息量準(zhǔn)則、最小能力估計(jì)值變化準(zhǔn)則[63]。(1)標(biāo)準(zhǔn)誤準(zhǔn)則,在當(dāng)前能力估計(jì)值的測(cè)驗(yàn)標(biāo)準(zhǔn)誤差達(dá)到指定的標(biāo)準(zhǔn)便終止測(cè)驗(yàn),標(biāo)準(zhǔn)誤準(zhǔn)則是以往CAT研究常用的終止準(zhǔn)則。(2)最小信息量準(zhǔn)則,當(dāng)前題庫(kù)中被選擇用來(lái)測(cè)試當(dāng)前被試的試題所提供的信息量小于指定的標(biāo)準(zhǔn)時(shí)則可以終止測(cè)驗(yàn)。(3)最小能力估計(jì)值變化準(zhǔn)則,是指CAT測(cè)試過程中在測(cè)試一道試題后,被試能力估計(jì)值的前后變化值小于指定的精度時(shí)就終止測(cè)驗(yàn)。此外,還有貝葉斯最小方差變異準(zhǔn)則。以貝葉斯估計(jì)法作為CAT選題策略標(biāo)準(zhǔn)時(shí),測(cè)驗(yàn)終止規(guī)則是估計(jì)能力之變異數(shù)小到某個(gè)預(yù)定的標(biāo)準(zhǔn)時(shí)終止施測(cè)。標(biāo)準(zhǔn)誤準(zhǔn)則、最小能力估計(jì)值變化準(zhǔn)則、最小信息量準(zhǔn)則、貝葉斯最小方差變異準(zhǔn)則這四種終止規(guī)則也可以在VL-CCT中使用。VL-CCT下為了達(dá)到對(duì)被試的分類,還發(fā)展出專門適用的四種基本終止規(guī)則及其發(fā)展變式,包括序列概率比檢驗(yàn)方法、能力置信區(qū)間方法、拓展似然比方法、貝葉斯決策理論方法,這些終止規(guī)則實(shí)質(zhì)上都是對(duì)被試進(jìn)行分類的規(guī)則,是VL-CCT的關(guān)鍵組成部分,以下分別論述這四種終止規(guī)則。
表1 VL-CCT選題策略的應(yīng)用模式分類
第一種終止規(guī)則:序列概率比檢驗(yàn)方法(Sequentialprobability ratio test,SPRT;Eggen,1999;Eggen&Straetmans,2000)[64,65],其測(cè)驗(yàn)虛無(wú)假設(shè)與備擇假設(shè)是,H0:θ=θ1,H1:θ=θ2; 其中,θ1,θ2分別是劃界分?jǐn)?shù)的下界和上界,θ0為劃界分?jǐn)?shù)線的能力值,且θ1=θ0-δ,θ2=θ0+δ。 θ1,θ2之間的寬度 θ2-θ1=2δ被稱為“indifference region”,即無(wú)差異區(qū)間。2δ是被試分類判定在劃界分?jǐn)?shù)線附近所允許的誤差區(qū)間,δ一般為0.1 至 0.3 之間(Lin,2011)[66],δ越大則被試分類準(zhǔn)確性下降,而測(cè)驗(yàn)長(zhǎng)度縮短。SPRT方法下似然比率LR的計(jì)算公式:
其中xi是某被試在試題i上的得分,為1或0分;P(θ1)、P(θ2)分別為被試在能力 θ1、θ2上正確作答概率的期望值;h是測(cè)驗(yàn)?zāi)壳耙呀?jīng)測(cè)試了的最大題量。 同時(shí)設(shè)定A=(1-β)/α,B=β/(1-α),α、β 為 I型錯(cuò)誤和II型錯(cuò)誤的概率,α、β需要預(yù)先設(shè)定,在一些研究中設(shè)定 α=β=0.05[67-69]。
如果似然比率LR≤A,那么將接受虛無(wú)假設(shè),即被試判定為未通過,測(cè)驗(yàn)終止;如果LR≥B,那么將接受備擇假設(shè),即被試判定為通過,測(cè)驗(yàn)終止;如果A≤LR≤B,那么繼續(xù)測(cè)下一道試題。如果測(cè)驗(yàn)的測(cè)試題量已經(jīng)達(dá)到最大允許題量,而且A≤LR≤B,那么此時(shí)就屬于對(duì)被試強(qiáng)制分類:如果LR≤1,那么被試判定為未通過;如果LR>1,則被試判定為通過。
以上是SPRT終止規(guī)則對(duì)被試能力分類的統(tǒng)計(jì)算法。當(dāng)VL-CCT采用以劃界分?jǐn)?shù)線為參照模式的選題策略時(shí),同時(shí)配合SPRT作為測(cè)驗(yàn)終止規(guī)則更為有效,測(cè)驗(yàn)長(zhǎng)度較短,而且有更好的分類準(zhǔn)確性(Lin,2011)。
SPRT方法后來(lái)被許多研究者加以發(fā)展,Wouda和 Eggen(2009)、Finkelman(2008)等人的研究中論述了刪節(jié)SPRT方法(Truncated sequential probability ratio test,TSPRT)和隨機(jī)截尾 TSPRT 方法(stochastically curtailed SPRT,SCTSPRT)[70,71]。 TSPRT 方法是SPRT的改進(jìn)形式,當(dāng)被試作答試題題量小于最大測(cè)驗(yàn)長(zhǎng)度N時(shí),TSPRT方法的判定方法與SPRT一致。當(dāng)被試作答試題題量等于最大測(cè)驗(yàn)長(zhǎng)度N時(shí),那么測(cè)驗(yàn)終止。如果公式(3)中的
假定C為一個(gè)常量,且logC=(logA+logB)/2。此時(shí)判定方法為:如果公式(4)中的LR≥C,則被試判定為通過;否則,則評(píng)定為未通過。并且其中A≤C≤B。
Finkelman(2008)在TSPRT的基礎(chǔ)上進(jìn)一步提出了隨機(jī)截尾TSPRT方法 (stochastically curtailed TSPRT,SCTSPRT)[72],該方法是當(dāng)被試已作答題量k等于最大測(cè)驗(yàn)長(zhǎng)度N時(shí),與TSPRT方法的判定方法一致;在當(dāng)被試已作答題量k小于最大測(cè)驗(yàn)長(zhǎng)度N時(shí)(即k<N),在TSPRT方法的基礎(chǔ)上進(jìn)一步增加終止規(guī)則。SCTSPRT增加終止規(guī)則時(shí),需要預(yù)先設(shè)定能力分界點(diǎn) θ0的概率值 γ',γ, 并且 0.5<γ',γ≤1,γ'、γ設(shè)置一般為0.8至0.95之間,而不接近或等于1。γ',γ 也可以設(shè)置為同一個(gè)概率值。 同時(shí)令Pθ1,θ2(LR)為被試作答情況在(θ1,θ2)區(qū)間積分分布的期望概率。SCTSPRT增加終止規(guī)則以下兩條:當(dāng)k<N時(shí),(1)如果似然比率LR≤A,或者LR<C且Pθ1,θ2(LR)≥γ,那么被試判定為未通過,測(cè)驗(yàn)終止;(2)如果似然比率LR≥B,或者LR>C且Pθ1,θ2(LR)≥γ',那么被試判定為通過,測(cè)驗(yàn)終止。
第二種終止規(guī)則:能力置信區(qū)間方法(ability confidence intervals,ACI)。該方法是在測(cè)試過程中,使用被試的即時(shí)能力估計(jì)值?和條件測(cè)量標(biāo)準(zhǔn)誤建立判斷置信區(qū)間[73-75],其判斷置信區(qū)間的計(jì)算公式為:
其中zα為(1-α)置信區(qū)間所對(duì)應(yīng)的標(biāo)準(zhǔn)差,95%置信區(qū)間時(shí)zα值為1.96。CSEM則根據(jù)被試已測(cè)試題的項(xiàng)目信息量總和來(lái)計(jì)算,即如果此能力置信區(qū)間都高于劃界分?jǐn)?shù)線,則該被試判定為通過;如果此能力置信區(qū)間都低于劃界分?jǐn)?shù)線,則該被試判定為未通過。如果此能力置信區(qū)間包含了劃界分?jǐn)?shù),則需要繼續(xù)測(cè)試。當(dāng)采用以被試能力估計(jì)為參照模式的選題策略時(shí),往往需要配合ACI策略作為測(cè)驗(yàn)終止規(guī)則,即需要被試能力估計(jì)值達(dá)到某一能力精度(或置信區(qū)間)。
Thompson(2011)提出SEM可以分兩種計(jì)算方法[76],包括理論最大值的CSEM和觀察分?jǐn)?shù)的CSEM。理論最大值的CSEM的計(jì)算方法為根據(jù)某一被試目前已測(cè)試題所組成的測(cè)驗(yàn),在能力區(qū)間[-3,+3]每隔0.01分別計(jì)算的測(cè)驗(yàn)信息量并選擇其中的最大值。觀察分?jǐn)?shù)的CSEM的計(jì)算方法是依據(jù)被試已作答試題所組成的測(cè)驗(yàn),并根據(jù)牛頓迭代方法估計(jì)的能力估計(jì)值來(lái)計(jì)算測(cè)驗(yàn)信息量。在一般研究中,觀察分?jǐn)?shù)的CSEM應(yīng)用較多。
第三種終止規(guī)則:拓展似然比方法(generalized likelihood ratio,GLR)。SPRT方法一般情況下是將劃界分?jǐn)?shù)的上界和下界 θ0、θ1設(shè)為固定值,Thompson(2011)提出拓展似然比方法方法(GLR 方法)[77],在一定的測(cè)驗(yàn)條件下,將似然比率計(jì)算公式中的上下界 θ1、θ2用被試的極大似然估計(jì)值來(lái)替代, 其計(jì)算公式為:
如果 θ1<θ?max<θ2, 則LR計(jì)算方法保持不變,即除了以上LR計(jì)算方法不同之外,GLR方法的虛無(wú)假設(shè)、判定方法與SPRT終止規(guī)則一致。 Thompson(2011)在VL-CCT終止規(guī)則比較研究中得出,與SPRT、ACI方法相比,GLR方法在不損失分類準(zhǔn)確性的前提下能縮短測(cè)驗(yàn)長(zhǎng)度[78]。
第四種終止規(guī)則:貝葉斯決策理論方法(bayesian decision theory,BST)。 此方法是在貝葉斯選題策略的基礎(chǔ)上,在測(cè)驗(yàn)終止時(shí)進(jìn)一步對(duì)被試最終的能力估計(jì)值進(jìn)行分類[79]。貝葉斯決策理論方法主要是作為選題策略使用,而作為終止規(guī)則相對(duì)較少 使 用 (Thompson,2009),Glas 和 Vos(2006)、Vos(2000)等少量研究使用了貝葉斯決策理論方法作為終止規(guī)則[80,81]。
在以上四種終止規(guī)則中,SPRT方法及其變式在VL-CCT研究中使用最多,ACI方法使用情況次之,拓展似然比方法、貝葉斯決策理論方法這兩種終止規(guī)則使用較少。研究者認(rèn)為,SPRT方法適合偏態(tài)分布的題庫(kù),而ACI方法更適合于均勻分布的題庫(kù)(Lin&Spray,2000;Thompson,2007)[82,83]。 Spray 和Reckase(1996)的研究結(jié)果表明,在一般情況下SPRT策略要優(yōu)于ACI方法[84]。
在VL-CCT下測(cè)驗(yàn)終止時(shí),需要給定一個(gè)或多個(gè)被試分類的劃界分?jǐn)?shù)線。當(dāng)劃界分?jǐn)?shù)線為一個(gè)時(shí),劃界分?jǐn)?shù)線往往以-0.5、0.0、0.5為劃界點(diǎn),例如Thompson(2009)以-0.5 為分界點(diǎn)[85]、Huebner和 Li(2012)以 0.5 為分界點(diǎn)[86]、Wang 和 Huang(2011)以0.0為分界點(diǎn)[87],等等。當(dāng)劃界分?jǐn)?shù)線為兩個(gè)或兩個(gè)以上時(shí),被試劃界分?jǐn)?shù)線的劃分方式可以分為兩種類型。第一種類型是依據(jù)能力量尺的能力點(diǎn)作為劃界分?jǐn)?shù)線的依據(jù),此類型往往是依據(jù)達(dá)到測(cè)驗(yàn)指定的能力標(biāo)準(zhǔn)進(jìn)行分類。例如,Wang和Liu(2011)在兩個(gè)劃界分?jǐn)?shù)線時(shí)設(shè)定在-1、+1,在三個(gè)劃界分?jǐn)?shù)線時(shí)設(shè)定在-1.5、0、+1.5[88]。 Weissman(2007)三個(gè)劃界分?jǐn)?shù)線設(shè)定為-0.3、+1、+2[89]。 Yang、Poggio 和 Glasnapp(2006)將四個(gè)劃界分?jǐn)?shù)線設(shè)定為-1.8、-0.6、+0.6、+1.8[90]。 Wouda 和 Eggen(2009)、Eggen 和 Straetmans(2000)將兩個(gè)劃界分?jǐn)?shù)線設(shè)定在-0.13、+0.33[91,92]。第二種類型是依據(jù)被試分布的百分比作為劃界分?jǐn)?shù)線的依據(jù),此類型適合將被試人數(shù)均勻分為幾個(gè)等級(jí)。例如,van Groen、Eggen 和 Veldkamp(2014)將兩個(gè)劃界分?jǐn)?shù)線設(shè)定在被試能力分布的33%和66%位置[93],在三個(gè)劃界分?jǐn)?shù)線時(shí)設(shè)定在被試能力分布的25%、50%、75%位置,在四個(gè)劃界分?jǐn)?shù)線時(shí)設(shè)定在被試能力分布 20%、40%、60%、80%位置;Gnambs和Batinic(2011)在兩個(gè)劃界分?jǐn)?shù)線時(shí)設(shè)定在被試能力分布 25%、75%位置[94]。
CAT研究中常用的能力估計(jì)方法有極大似然估計(jì)方法(maximum likelihood estimator,MLE)、期望后驗(yàn)?zāi)芰烙?jì)方法(expected a posteriori,EAP)、極大后驗(yàn)?zāi)芰烙?jì)方法(maximum a posteriori,MAP)等三種基本方法及各種變式。而VL-CCT研究中也是使用這些基本能力估計(jì)方法及其變式。Yang、Poggio和Glasnapp(2006)在VL-CCT模擬研究中比較了MLE、MAP、EAP、 加權(quán)極大似然估計(jì)方法(weighted likelihood estimator,WLE)、貝葉斯估計(jì)方法(Owen’s method,OWN)五種能力估計(jì)方法,發(fā)現(xiàn) MAP、OWN方法下測(cè)驗(yàn)測(cè)量誤差較小,被試分類準(zhǔn)確性相對(duì)較高[95]。
對(duì)于CAT研究最后得到的測(cè)驗(yàn)數(shù)據(jù)都需要進(jìn)行統(tǒng)計(jì)評(píng)價(jià)分析。CAT測(cè)驗(yàn)數(shù)據(jù)的評(píng)價(jià)指標(biāo)也都可以適合VL-CCT測(cè)驗(yàn)的評(píng)價(jià),主要?dú)w納為以下五個(gè)方面:(1)反映模擬返真性能的指標(biāo),包括偏差Bias、平均絕對(duì)值誤差(MAE)、均方根誤差RMSE(或均方誤差MSE)等;(2)反映測(cè)驗(yàn)的測(cè)量準(zhǔn)確性、測(cè)驗(yàn)精度方面的指標(biāo),包括標(biāo)準(zhǔn)誤、測(cè)驗(yàn)信息量等。(3)反映題庫(kù)安全性方面的評(píng)價(jià)指標(biāo),包括試題最大曝光率觀測(cè)值、測(cè)驗(yàn)交疊率、試題使用頻數(shù)的卡方統(tǒng)計(jì)量χ2等;(4)反映題庫(kù)利用率方面的評(píng)價(jià)指標(biāo),包括題庫(kù)中被調(diào)用試題所占的比例、題庫(kù)中所有試題調(diào)用次數(shù)的標(biāo)準(zhǔn)差、從未調(diào)用試題的數(shù)量、曝光率低于0.02的試題量等;(5)反映測(cè)驗(yàn)效率方面的評(píng)價(jià)指標(biāo),如平均測(cè)驗(yàn)長(zhǎng)度(average test length,ATL,也稱為人均用題量,其計(jì)算方法是將m個(gè)被試重復(fù)n次模擬的測(cè)驗(yàn)長(zhǎng)度累加和,再除以m*n)。平均測(cè)驗(yàn)長(zhǎng)度越短、人均用題量越少,則測(cè)驗(yàn)效率越高。平均測(cè)驗(yàn)長(zhǎng)度也是VL-CCT中被試分類效率的主要評(píng)價(jià)指標(biāo)之一。
此外,近年來(lái)研究者還提出了專門適合VL-CCT對(duì)被試分類的評(píng)價(jià)指標(biāo),包括兩個(gè)方面:
一是反映測(cè)驗(yàn)效率方面的評(píng)價(jià)指標(biāo),包括測(cè)驗(yàn)效率、相對(duì)測(cè)驗(yàn)效率評(píng)價(jià)指標(biāo)。Patton、Cheng、Yuan和Diao(2013)在研究中使用測(cè)驗(yàn)效率、以及相對(duì)測(cè)驗(yàn)效率來(lái)分析測(cè)驗(yàn)分類效率[96]。測(cè)驗(yàn)效率是指所有測(cè)試試題的信息量的平均值。相對(duì)測(cè)驗(yàn)效率,是指用能力估計(jì)值進(jìn)行計(jì)算的測(cè)驗(yàn)信息量與用期望估計(jì)值進(jìn)行計(jì)算的測(cè)驗(yàn)信息量之比。
二是反映對(duì)被試分類準(zhǔn)確性方面的評(píng)價(jià)指標(biāo),包括被試正確分類的百分比[97](percentage of correct decision,PCD,Lin,2011)、 真實(shí)能力屬于掌握的測(cè)試者的正確分類百分比[98]、強(qiáng)制分類的百分比[99](forced classification rates)。被試正確分類的百分比主要反映對(duì)被試總體的分類正確性情況,其計(jì)算方法是PCD=(A+C)/N,被試模擬初始值歸屬于合格且估計(jì)值也歸屬于合格的被試人數(shù)A,加上被試模擬初始值歸屬于不合格且估計(jì)值也歸屬于不合格的被試人數(shù)C,這兩類被試的累加和占總?cè)藬?shù)N的比例。真實(shí)能力屬于掌握的測(cè)試者的正確分類百分比,此指標(biāo)關(guān)注真實(shí)水平屬于掌握的那部分被試的正確分類情況,特別適用于合格標(biāo)準(zhǔn)嚴(yán)格的資格證考試。強(qiáng)制分類的百分比計(jì)算方式為:當(dāng)考生在既定的最大測(cè)驗(yàn)長(zhǎng)度內(nèi)無(wú)法被歸類,此時(shí)只好強(qiáng)迫停止,并加以歸類,此時(shí)被強(qiáng)迫停止測(cè)驗(yàn)的被試人數(shù)占測(cè)驗(yàn)總?cè)藬?shù)的百分比,強(qiáng)制分類的百分比可以間接反映測(cè)驗(yàn)選題策略或終止規(guī)則的分類效率。
在VL-CCT中,被試分類準(zhǔn)確性與測(cè)驗(yàn)效率這兩個(gè)方面往往是此消彼長(zhǎng),如何找到這兩方面的綜合評(píng)價(jià)指標(biāo)呢? Finkelman(2008)、Huebner和 Fina(2014)在前人研究的基礎(chǔ)上進(jìn)行改進(jìn),進(jìn)一步提出了測(cè)驗(yàn)效率與被試分類準(zhǔn)確性的綜合指標(biāo)Loss[100,101],其計(jì)算公式為L(zhǎng)oss=100*1w+Test Length。當(dāng)被試分類錯(cuò)誤時(shí)1w取值為1,分類準(zhǔn)確時(shí)1w為0,公式中的100為分類不正確時(shí)的懲罰系數(shù)。當(dāng)所有被試Loss平均值越小,那么測(cè)驗(yàn)分類效率、分類準(zhǔn)確性的綜合性能就越高。
Groen和 Groen Van(2012)論述 VL-CCT 的重要組成部分是選題策略和被試分類策略 (終止規(guī)則),這也是多數(shù)研究者的一致觀點(diǎn)。圍繞VL-CCT的選題策略、被試分類策略是研究者關(guān)注的重點(diǎn),近年來(lái)VL-CCT呈現(xiàn)以下幾方面的研究熱點(diǎn)與趨勢(shì):
第一,對(duì)多種選題策略進(jìn)行比較,選擇能同時(shí)兼顧較高的被試分類準(zhǔn)確性和被試分類效率的選題策略是VL-CCT研究的主要熱點(diǎn)。在VL-CCT測(cè)驗(yàn)情境下,被試分類效率(測(cè)驗(yàn)效率)、被試分類準(zhǔn)確性存在著一定的此消彼長(zhǎng)的關(guān)系。許多研究者試圖尋找這樣一種較優(yōu)的選題策略:在保證被試分類準(zhǔn)確性不降低的情況 (被試分類準(zhǔn)確性在許多研究中都保持在90%至95%以上),適當(dāng)縮短測(cè)驗(yàn)長(zhǎng)度,提高被試分類效率。 近年來(lái)在VL-CCT測(cè)驗(yàn)情境下的選題策略比較研究有很多,包括Huebner和Li(2012)、Lin(2011)、Wang 和 Huang(2011)等等[102-104]。
Lin(2011)對(duì)比分析了 FI方法、KL 方法、加權(quán)似然比方法(WLOR)、交互信息函數(shù)方法(MI)四種選題策略[105],當(dāng)被試分為掌握與未掌握兩類,在三種測(cè)驗(yàn)情境下(包括無(wú)內(nèi)容平衡、有內(nèi)容平衡控制、有內(nèi)容平衡控制和試題曝光率控制),四種選題策略在被試分類準(zhǔn)確性、試題曝光率、試題利用率方面都很相近,在測(cè)驗(yàn)長(zhǎng)度方面WLOR方法比其他三種選題策略都要短一些。
Wang&Huang(2011)比較分析了FI選題策略、FI后驗(yàn)分布方法、PG方法、改進(jìn)的APG方法四種選題策略[106],并使用Sympson&Hetter曝光率控制方法[107](SH,Sympson&Hetter,1985),同時(shí)結(jié)合在線試題凍結(jié)方法 (Wu&Chen,2008)[108], 此方法簡(jiǎn)寫為SHOF。研究結(jié)果發(fā)現(xiàn),加入試題曝光率控制方法即SHOF方法后,被試分類準(zhǔn)確性基本沒有變化,題庫(kù)利用率提高,試題最大曝光率水平下降,而不足的是,被試強(qiáng)制分類率升高,平均測(cè)驗(yàn)長(zhǎng)度增大。
Huebner&Li(2012)在 VL-CCT測(cè)驗(yàn)下使用 FI選題策略在劃界分?jǐn)?shù)線的CB模式[109],并結(jié)合隨機(jī)化試題曝光率平衡算法,研究結(jié)果顯示,在維持測(cè)驗(yàn)分類精度基本不變的情況下,隨機(jī)化的試題曝光率平衡算法在減少過度曝光率的試題數(shù)量、實(shí)現(xiàn)試題曝光率均衡(即提供了題庫(kù)利用率)方面,優(yōu)于單獨(dú)的Sympson和Hetter(1985)提出的SH方法。
在試題曝光率控制、測(cè)驗(yàn)交疊率控制的研究方面,Huebner(2012)在FI選題策略下以 SPRT為終止規(guī)則[110],比較了三種試題曝光率控制方法,包括SH方法、限制方法(RT)、項(xiàng)目合格方法(IE)。 Chen 等(2014)對(duì) Chen(2010)的在線測(cè)驗(yàn)交疊率控制方法進(jìn)行改進(jìn)[111,112],并進(jìn)一步比較了VL-CCT下8種測(cè)驗(yàn)交疊率控制方法,認(rèn)為改進(jìn)的測(cè)驗(yàn)交疊率控制方法SHG1方法能夠在不損失被試分類精度的情況下,較好地控制測(cè)驗(yàn)交疊率。
以上研究設(shè)計(jì)中對(duì)許多選題策略 (試題曝光率控制、測(cè)驗(yàn)交疊率控制方法)進(jìn)行了比較,同時(shí)對(duì)VL-CCT的測(cè)驗(yàn)分類準(zhǔn)確性、測(cè)驗(yàn)效率、題庫(kù)曝光率、題庫(kù)利用率等進(jìn)行了分析。然而,以下研究設(shè)計(jì)方向還有待于進(jìn)一步探討,例如:(1)專門適合VLCCT的選題策略,包括加權(quán)似然比方法(WLOR)、交互信息函數(shù)方法(MI)、交互信息函數(shù)多重分類方法(MIMI)這三種策略,與多種試題曝光率控制、測(cè)驗(yàn)交疊率控制方法之間進(jìn)行交互組合設(shè)計(jì)比較;(2)專門適合VL-CCT的三種選題策略下CB模式和EB模式,與多種試題曝光率控制方法、測(cè)驗(yàn)交疊率控制方法之間的交互組合設(shè)計(jì)比較;(3)VL-CCT下對(duì)內(nèi)容平衡、試題曝光率控制、測(cè)驗(yàn)交疊率等多個(gè)測(cè)驗(yàn)?zāi)繕?biāo),使用加權(quán)離差方法、最優(yōu)指數(shù)方法 (Cheng&Chang,2009;潘奕嬈,丁樹良,尚志勇,2011)等方法同時(shí)約束控制進(jìn)行最優(yōu)化組合的研究設(shè)計(jì)[113,114]。
第二,VL-CCT的終止規(guī)則及其發(fā)展變式的研究,以及終止規(guī)則之間的比較研究是VL-CCT研究的第二個(gè)熱點(diǎn)領(lǐng)域。正如前文“(5)終止規(guī)則”所論述,近年來(lái)研究者在SPRT方法、ACI方法這兩種基本終止規(guī)則的基礎(chǔ)上提出了多種發(fā)展變式。此外,研究者還提出了其他改進(jìn)變式,例如:(1)Finkelman(2010)在標(biāo)準(zhǔn)的SCTSPRT的基礎(chǔ)上提出了SCTSPRT的三種變式[115],這些變式是使用新的能力估計(jì)值方法來(lái)替代SCTSPRT方法劃界分?jǐn)?shù)線的上下界θ1、θ2。這三種新的能力估計(jì)方法分別為極大似然估計(jì)估計(jì)算法、能力置信區(qū)間算法、貝葉斯后驗(yàn)估計(jì)算法。模擬研究發(fā)現(xiàn),SCTSPRT的三種變式能縮短測(cè)驗(yàn)長(zhǎng)度,并且在多數(shù)測(cè)驗(yàn)情境下,測(cè)驗(yàn)效率與被試分類準(zhǔn)確性的綜合指標(biāo)優(yōu)于標(biāo)準(zhǔn)的SCTSPRT。(2)Nydick(2014)對(duì)SPRT進(jìn)行改進(jìn),使用被試能力期望值來(lái)代替SPRT的能力估計(jì)值,提出期望SPRT方法,根據(jù)期望SPRT計(jì)算的對(duì)數(shù)似然比[116]可以使得FI選題策略在選擇試題時(shí)選擇FI信息量在能力點(diǎn)(θ0+θ?)/2上最大值的試題,從而縮短測(cè)驗(yàn)長(zhǎng)度縮短,而不損失被試分類準(zhǔn)確性。(3)Huebner和Fina(2014)在此GLR終止規(guī)則基礎(chǔ)上提出了SCGLR方法[117],SCGLR方法是SCTSPRT和GLR的結(jié)合,研究結(jié)果發(fā)現(xiàn),SCGLR方法同時(shí)具有SCTSPRT和GLR這兩種方法的優(yōu)點(diǎn)。
而且,對(duì)終止規(guī)則及其變式進(jìn)行比較研究也是目前的研究熱點(diǎn)。例如Wang和Huang(2011)的研究結(jié)果顯示[118],在難度參數(shù)為正態(tài)分布的題庫(kù)中,與ACI方法相比較,SPRT方法下的被試分類準(zhǔn)確性較高,被試強(qiáng)制分類率較低,但平均測(cè)驗(yàn)長(zhǎng)度相對(duì)較長(zhǎng),題庫(kù)利用率相對(duì)較低,試題最大曝光率水平相對(duì)較高。在Rasch模型下,Eggen(2011)比較了TSPRT、SCSPRT、最優(yōu)傳統(tǒng)線性方法(optimal traditional linear tests,屬于固定測(cè)驗(yàn)長(zhǎng)度)三種終止規(guī)則[119],發(fā)現(xiàn)TSPRT和SCSPRT的平均測(cè)驗(yàn)長(zhǎng)度較小,優(yōu)于最優(yōu)傳統(tǒng)線性方法,同時(shí)SCSPRT的平均測(cè)驗(yàn)長(zhǎng)度要少于TSPRT。文劍冰和王文昊(2008)通過模擬研究比較了SPRT、ACI、測(cè)驗(yàn)?zāi)繕?biāo)信息量[120]、貝葉斯決策理論(BDT)四種測(cè)驗(yàn)終止規(guī)則,結(jié)果顯示不同的測(cè)驗(yàn)終止規(guī)則在不同情況下其效率和準(zhǔn)確性表現(xiàn)有差異。
第三,以往VL-CCT的多數(shù)研究中被試分為兩類(即只有一個(gè)劃界分?jǐn)?shù)線),近年來(lái)對(duì)被試分為三類及三類以上的研究逐漸成為研究者的探討方向。在實(shí)際測(cè)驗(yàn)中,有時(shí)需要將被試分為三類或三類以上,例如將被試分為優(yōu)秀、合格、不合格三個(gè)等級(jí),或優(yōu)、良、中、差,以及在人格測(cè)量中,分為高分組、中間組、低分組三類,或無(wú)癥狀組、中間組、有癥狀組。Gnamb 和 Batinic(2011)將被試分為三類:不合格、中等、優(yōu)秀,在被試分三類的情況下將增加題庫(kù)的題量壓力,題庫(kù)需要增加那些適合劃分優(yōu)秀分界點(diǎn)的試題。van Groen、Eggen 和 Veldkamp(2014)分別設(shè)計(jì)了兩、三、四個(gè)劃界分?jǐn)?shù)線的測(cè)驗(yàn)情境[121],研究結(jié)果顯示,在同一個(gè)題庫(kù)以及其他測(cè)驗(yàn)條件下,劃界分?jǐn)?shù)線的個(gè)數(shù)越多,測(cè)驗(yàn)長(zhǎng)度相對(duì)越長(zhǎng),被試分類準(zhǔn)確就越低。Seitz和Frey(2013)在多維能力測(cè)驗(yàn)研究中發(fā)現(xiàn),劃界分?jǐn)?shù)線為4個(gè)時(shí)的測(cè)驗(yàn)長(zhǎng)度比劃界分?jǐn)?shù)線為1個(gè)時(shí)要大許多[122]。
當(dāng)被試分為兩類時(shí),可以使用被試正確分類的百分比、真實(shí)能力屬于掌握的測(cè)試者的正確分類百分比這兩個(gè)指標(biāo)來(lái)評(píng)價(jià)被試分類一致性;而當(dāng)被試分為三類或三類以上時(shí),就不適合使用以上兩個(gè)指標(biāo)。因此,VL-CCT下怎樣對(duì)多個(gè)分類的被試分類一致性進(jìn)行估計(jì)也是研究者探討的問題。Cheng和Morgan(2012)等研究者借鑒紙筆測(cè)驗(yàn)中的標(biāo)準(zhǔn)參照測(cè)驗(yàn)對(duì)被試分類的一致性估計(jì)系數(shù)Kappa的計(jì)算[123],對(duì)VL-CCT的被試多等級(jí)分類一致性進(jìn)行分析,發(fā)現(xiàn)最優(yōu)指數(shù)方法要優(yōu)于其他選題策略方法;而且被試分類的等級(jí)數(shù)量越多,被試分類的一致性則越差。Cheng、Liu 和 Behrens(2014)從公式推導(dǎo)與數(shù)理分析的角度探討了被試分為三類及三類以上時(shí)[124],能力估計(jì)的標(biāo)準(zhǔn)誤減小,那么被試分類準(zhǔn)確性和一致性將提高。
第四,VL-CCT研究應(yīng)用領(lǐng)域的拓展,包括拓展到多維能力測(cè)量、人格測(cè)量等領(lǐng)域。(1)在多維能力測(cè)量方面。例如,Seitz和Frey(2013)在CAT與多維能力CAT下比較了SPRT終止規(guī)則對(duì)被試的分類情況[125],發(fā)現(xiàn)多維能力CAT下被試分類準(zhǔn)確性要高于CAT。(2)在人格測(cè)量中也往往需要將被試分為兩類或兩類以上,例如將被試分為兩類(正常、不正常),或三類(正常、中間狀態(tài)、不正常)。近年來(lái)VL-CCT在人格測(cè)量方面的研究,如Smits和Finkelman(2013)在等級(jí)反應(yīng)模型下[126]以自陳人格問卷的試題形式進(jìn)行CAT與VL-CCT模擬測(cè)試,發(fā)現(xiàn)測(cè)試的題量會(huì)影響被試分類準(zhǔn)確性。Wang和Liu(2011)在展開模型下(generalized graded unfolding model,GGUM)進(jìn)行VL-CCT模擬[127],發(fā)現(xiàn)試題的等級(jí)分點(diǎn)數(shù)量越多,被試分類等級(jí)數(shù)量越少,則被試分類的準(zhǔn)確性越高。
此外,以往出現(xiàn)在CAT下的研究主題,目前研究者也在VL-CCT下進(jìn)行深入探討。例如:(1)關(guān)于題庫(kù)參數(shù)估計(jì)對(duì)測(cè)量誤差的研究。van der Linden和Glas(2000)討論在CAT下題庫(kù)項(xiàng)目參數(shù)估計(jì)對(duì)測(cè)量誤差的影響,而在VL-CCT下探討了題庫(kù)項(xiàng)目參數(shù)估計(jì)的誤差對(duì)被試能力分類、測(cè)驗(yàn)效率的影響[128]。(2)將被試作答反應(yīng)時(shí)間結(jié)合到選題策略中的研究。Fan、Wang、Chang 和 Douglas(2013)在 CAT 形式下,將被試作答反應(yīng)時(shí)間與α分層選題策略結(jié)合,提出結(jié)合被試作答反應(yīng)時(shí)間形成半?yún)?shù)化的選題策略模式[129]。Sie、Finkelman、Riley 和 Smits(2015)在 VL-CCT下提出了將被試作答反應(yīng)時(shí)間與FI選題策略結(jié)合形成新算法,模擬研究結(jié)果發(fā)現(xiàn),此新算法可以使測(cè)驗(yàn)的平均時(shí)間減少,被試分類準(zhǔn)確性略微提高[130]。
VL-CCT作為CAT的一種特殊形式,其主要組成部分與CAT基本一樣,包括測(cè)量模型、量尺化的題庫(kù)、測(cè)試起點(diǎn)、選題策略,終止規(guī)則、能力估計(jì)方法、評(píng)價(jià)分析共七個(gè)組成部分。VL-CCT的重要特點(diǎn)是發(fā)展出了專門適合被試分類情境下的選題策略、終止規(guī)則,以及在被試分類準(zhǔn)確性、測(cè)驗(yàn)效率方面的評(píng)價(jià)指標(biāo)。與固定測(cè)驗(yàn)長(zhǎng)度的CAT測(cè)驗(yàn)相比,VLCCT能夠用較短的測(cè)驗(yàn)長(zhǎng)度實(shí)現(xiàn)對(duì)被試能力水平的有效分類。
在VL-CCT下尋找到能同時(shí)兼顧較高的被試分類準(zhǔn)確性和被試分類效率的選題策略 (包括試題曝光率控制、測(cè)驗(yàn)交疊率控制)是主要研究趨勢(shì)。提高被試分類準(zhǔn)確性,發(fā)展新的終止規(guī)則及其變式,以及在VL-CCT下將多種選題策略、測(cè)驗(yàn)終止規(guī)則之間進(jìn)行交叉設(shè)計(jì),以尋找最佳的組合,這些將是今后VL-CCT研究拓展方向之一。此外,在VL-CCT下對(duì)被試分為三類及三類以上的研究,在人格測(cè)量、多維能力測(cè)量的拓展應(yīng)用也是今后研究探討的方向之一。
VL-CCT可以適合學(xué)校教育測(cè)驗(yàn)與評(píng)估(Groen和 Groen Van,2012),包括:(1)對(duì)學(xué)生成績(jī)進(jìn)行分等級(jí),(2)對(duì)學(xué)習(xí)內(nèi)容的掌握過程進(jìn)行評(píng)估,(3)對(duì)學(xué)生群體進(jìn)行分類以進(jìn)行分類指導(dǎo),(4)教育質(zhì)量評(píng)估[131]。各能力合格水平測(cè)驗(yàn)、職業(yè)資格測(cè)驗(yàn)等也可以使用VL-CCT,因?yàn)樵趯?duì)被試評(píng)定分類這方面,VL-CCT要優(yōu)于CAT。