楊 濤 黃生順 辛 濤
近年來,計(jì)算機(jī)化多階段測驗(yàn)(Multistage Testing,MST)相繼成為多個(gè)大型考試項(xiàng)目的施測形式,如美國注冊會計(jì)師資格考試、醫(yī)師執(zhí)照考試、法學(xué)院入學(xué)考試和研究生入學(xué)考試(GRE),與此同時(shí),許多研究也正在嘗試將這種測驗(yàn)形式應(yīng)用到PISA和NAEP等大規(guī)模教育測評項(xiàng)目中。[1][2]MST受到越來越多研究者和實(shí)踐者的青睞。
MST是使用題組的自適應(yīng)測驗(yàn),[3]根據(jù)被試的能力水平適應(yīng)性地施測相應(yīng)難度的題目集合。與計(jì)算機(jī)自適應(yīng)測驗(yàn)(Computer Adaptive Testing,CAT)一樣,依靠大型題庫,自行去適應(yīng)被試水平,但是MST根據(jù)被試在前面題目中的表現(xiàn),施測的是事先組裝好的一組題目,而不是單個(gè)題目。
MST兼具線性測驗(yàn)和CAT的優(yōu)點(diǎn)。一方面,和傳統(tǒng)的紙筆測驗(yàn)類似,MST的模塊在施測前組裝,有時(shí)題本也是在施測前組裝,測驗(yàn)開發(fā)者可以對模塊和題本的統(tǒng)計(jì)目標(biāo)、測驗(yàn)內(nèi)容的覆蓋程度、內(nèi)容間的平衡以及試題材料(圖表、音頻、視頻)等進(jìn)行檢查,對測驗(yàn)有更高的控制能力;在一個(gè)模塊內(nèi),考生可以使用紙筆測驗(yàn)中所習(xí)慣的答題方式,如檢查和跳過某道題。另一方面,在MST中,題庫中的題目事先組合為不同難度的模塊,用來適應(yīng)不同能力的被試,可以達(dá)到和CAT差不多、但高于線性測驗(yàn)的測驗(yàn)效率和測量準(zhǔn)確性;而且考生作答和自己能力水平相當(dāng)?shù)念}目,更能激活他們的答題動機(jī),收集到更加真實(shí)有效的信息。MST結(jié)合測驗(yàn)開發(fā)者的智慧和適應(yīng)性,不僅能夠提供穩(wěn)健可靠的測驗(yàn)工具,而且具備較高的測量精度,綜合考慮適應(yīng)性、實(shí)踐性、測量準(zhǔn)確性和可控性,[4]是一種實(shí)用性較強(qiáng)的測驗(yàn)形式。
MST的諸多優(yōu)勢得益于其獨(dú)特的框架結(jié)構(gòu)。MST分為多個(gè)階段,一般來說,除第一階段外,其他階段有多個(gè)平均難度不同的模塊,這樣的結(jié)構(gòu)實(shí)現(xiàn)了計(jì)算機(jī)化測驗(yàn)的適應(yīng)性,同時(shí)有利于對測驗(yàn)質(zhì)量的控制。在一些國內(nèi)心理和教育測量領(lǐng)域的研究者和考試機(jī)構(gòu)開始將關(guān)注點(diǎn)轉(zhuǎn)向MST之際,[5][6]本文對MST測驗(yàn)形式的基本結(jié)構(gòu)進(jìn)行綜述,以幫助讀者更加全面地了解MST靈活的結(jié)構(gòu),為促進(jìn)MST在國內(nèi)的研究和應(yīng)用提供理論參考。
為了更清楚地描述MST測驗(yàn)形式的結(jié)構(gòu),避免和其他測驗(yàn)形式的概念(如題本、題組)相混淆,Luecht和Nungester提出了一系列術(shù)語,分別是模塊、階段、路徑、面板。[7]
模塊(Module),由一組難度相近的題目組成,這些題目可以彼此獨(dú)立,也可以是有共同背景材料的多個(gè)題目(如閱讀題)。有些研究也稱為題組(testlet),但題組一般是指共用同一背景材料的一組題目,[8]為了和這個(gè)概念進(jìn)行區(qū)分,本文采用模塊這個(gè)術(shù)語。在施測過程中,模塊作為一個(gè)單元向考生發(fā)放和計(jì)分,考生需要完成一個(gè)模塊的所有題目,但是不同考生作答的模塊可能不同。為了適應(yīng)不同能力的考生,模塊有不同的統(tǒng)計(jì)特征(如平均難度、模塊信息函數(shù))。
為了在施測過程中能夠?yàn)椴煌芰Φ目忌x擇相應(yīng)難度的模塊,MST分為多個(gè)部分,一個(gè)部分就稱作是一個(gè)階段。MST由多個(gè)階段組成,一般來說,第一階段包括一個(gè)模塊,其他階段包括多個(gè)平均難度不同的模塊。因?yàn)镸ST借助計(jì)算機(jī)進(jìn)行階段間的評分和模塊選擇,一個(gè)階段向另一個(gè)階段的過渡只需較短時(shí)間,考生可能不會察覺到階段的存在。
階段和模塊共同組成了MST的結(jié)構(gòu)(Configuration)。不同階段數(shù)量和模塊數(shù)量可以組合為不同的結(jié)構(gòu)。圖1是一個(gè)三階段的MST結(jié)構(gòu)。第一階段有一個(gè)中等難度模塊(1M),第二階段分別有一個(gè)低難度模塊(2L)、一個(gè)中等難度模塊(2M)、一個(gè)高難度模塊(2H),第三階段也有三個(gè)平均難度不同的模塊(3L、3M、3H),這樣的結(jié)構(gòu)簡稱為1-3-3設(shè)計(jì)。
圖1 1-3-3 MST設(shè)計(jì)
第一階段所有考生作答同一模塊,也稱作探測測驗(yàn)(Routing Test)。第一階段完成后,估計(jì)考生的當(dāng)前能力,利用路線選擇策略(Routing Rule)在第二階段選擇與考生能力匹配的模塊,每個(gè)考生只作答三個(gè)模塊中的一個(gè)。第二階段完成后,重復(fù)能力估計(jì)和模塊選擇過程。第三階段完成后使用考生在所有題目的作答反應(yīng)數(shù)據(jù)估計(jì)考生的最終能力??忌诟鱾€(gè)階段所接收模塊的順序就是路徑(Pathway),反映了考生實(shí)際作答的題本。圖1總共有7條路徑,每個(gè)考生的題本會隨著考生能力不同而不同。
為了更好地實(shí)施MST測驗(yàn),測驗(yàn)開發(fā)者常常會將多個(gè)階段的所有模塊組合在一起,組成面板(Panel)。測驗(yàn)開發(fā)時(shí)為了控制題目和模塊的曝光程度,一般會按照MST的結(jié)構(gòu)組裝多個(gè)平行的面板(圖2),然后隨機(jī)向考生發(fā)放。雖然面板作為一個(gè)整體發(fā)放給考生,但是路線選擇策略會為每個(gè)考生找到最適合的模塊,所以考生在每個(gè)階段只能看見且只能作答一個(gè)與自己能力水平匹配的模塊。
圖2 平行的1-3-3設(shè)計(jì)面板
除了使用面板進(jìn)行測試,也可以在測試過程中從模塊庫中選擇與每個(gè)考生能力相符的模塊。[9]不管采用哪種方式實(shí)施測驗(yàn),MST都保持階段和模塊組成的結(jié)構(gòu),這使得它的開發(fā)實(shí)施不是簡單地依賴自適應(yīng)算法(如路線選擇策略),測驗(yàn)開發(fā)者的專業(yè)知識和經(jīng)驗(yàn)也在其中發(fā)揮著重要的作用。[10]正如Wainer和Kiely認(rèn)為,多階段的模塊是一種保持CAT優(yōu)勢同時(shí)允許使用專家智慧的機(jī)制。[11]
MST設(shè)計(jì)靈活,結(jié)構(gòu)多樣,不同測驗(yàn)采用不同的階段數(shù)量和模塊數(shù)量。在決定使用MST作為測驗(yàn)的實(shí)施方式后,測驗(yàn)開發(fā)者首先需要根據(jù)測驗(yàn)情況和實(shí)際條件來確定階段數(shù)量和模塊數(shù)量,考慮的因素主要有測驗(yàn)?zāi)康摹㈩}庫情況和預(yù)設(shè)的考生能力分布等。
測驗(yàn)有不同的目的,有些測驗(yàn)主要是為了準(zhǔn)確估計(jì)考生的能力水平,而有些測驗(yàn)則關(guān)注將考生分到合適的類別,判斷考生的表現(xiàn)水平。不同測驗(yàn)?zāi)康南碌腗ST應(yīng)該采用不同的結(jié)構(gòu)設(shè)計(jì)。用于能力測驗(yàn)的MST希望準(zhǔn)確測量整個(gè)量尺上的能力,那么需要更多階段和模塊來適應(yīng)不同能力范圍的被試;[12]用于分類測驗(yàn)的MST更注重分類決策的準(zhǔn)確性,模塊難度能夠適應(yīng)分類分?jǐn)?shù)附近的能力即可。美國的語言測試和美國的注冊會計(jì)師考試均采用1-2-2設(shè)計(jì),這是因?yàn)檫@些測驗(yàn)不太關(guān)注整個(gè)能力量尺上的測量準(zhǔn)確性,它們關(guān)注的是中上水平的考生是否掌握了測驗(yàn)?zāi)繕?biāo)要求的知識和能力。
題庫是MST的重要組成部分,題庫大小和質(zhì)量是影響MST測量精度的重要因素,而且題庫質(zhì)量的改善有利于提高測驗(yàn)信息函數(shù)。實(shí)際上,題庫質(zhì)量,尤其是題目難度參數(shù)的分布情況,還會限制結(jié)構(gòu)的選擇。[13]每種MST結(jié)構(gòu)都需要一個(gè)不同的題庫。如某個(gè)階段需要兩個(gè)不同難度的模塊,中等難度和非常難的模塊,這就意味著題庫需要有許多中等和高難度的題目。如果這兩個(gè)模塊,一個(gè)低難度,一個(gè)高難度,那么必須保證題庫中有大量相應(yīng)難度的題目。在實(shí)踐中,由于自適應(yīng)測驗(yàn)對題庫的要求較高,如果題庫整體質(zhì)量不好,任何測驗(yàn)設(shè)計(jì)也無法彌補(bǔ),所以測驗(yàn)開發(fā)者使用題庫優(yōu)化技術(shù)和題目編寫技術(shù)等來保證題庫的質(zhì)量,而在框架結(jié)構(gòu)設(shè)計(jì)時(shí)就不需太注意題庫的約束。
MST的階段包括多個(gè)模塊,每個(gè)模塊適應(yīng)某一范圍內(nèi)的考生能力,模塊數(shù)量會影響考生間能力分組的粗細(xì)程度。不同考試中考生能力的分布形態(tài)和離散趨勢都存在差異。考試能力分布一般是服從正態(tài)分布,不過在具體的教育考試中,考生能力分布可能不是正態(tài)的;或起初是正態(tài)分布,后來隨著年齡增長、接受教育而導(dǎo)致部分考生的能力值升高,而變成負(fù)偏態(tài)分布;資格考試中被試的能力分布比較集中,成就測驗(yàn)的考生能力分布相對較廣。為了覆蓋不同考生群體的整個(gè)能力量尺,需要設(shè)置相應(yīng)的模塊數(shù)量,如果能力分布比較廣,也許需要加入更多的模塊。
MST結(jié)構(gòu)的選擇是專家根據(jù)實(shí)際條件和測驗(yàn)特性進(jìn)行綜合判斷的結(jié)果,除了考慮以上三個(gè)因素,測驗(yàn)開發(fā)者還要考慮考試科目的性質(zhì)、測驗(yàn)結(jié)構(gòu)等。
MST的適應(yīng)性是在階段之間完成的,更多階段允許MST有更大的適應(yīng)性和更高的靈活性。[14]Patsula的研究發(fā)現(xiàn)階段從兩個(gè)增加到三個(gè)時(shí),能力估計(jì)誤差減小。[15]但是階段比較多時(shí),面板結(jié)構(gòu)變得復(fù)雜,組卷質(zhì)量可能會降低;模塊和面板檢查的工作量也會相應(yīng)加重,同時(shí)對最終的測量準(zhǔn)確性并沒有太大的作用。[16][17]
Zheng,Nozawa,Gao和Chang比較1-2-4和1-2-3-4在很多條件下的表現(xiàn),包括階段間題目數(shù)量的分配方式、各階段模塊組裝的先后順序、測驗(yàn)間題目是否重復(fù)、路線選擇策略和目標(biāo)測驗(yàn)信息函數(shù)的構(gòu)建方式。研究表明只有使用優(yōu)化的目標(biāo)測驗(yàn),且信息函數(shù)和測驗(yàn)間題目可以重復(fù)時(shí),四階段的分類準(zhǔn)確率比三階段更高一點(diǎn),其他情況沒有發(fā)現(xiàn)一致的結(jié)果。[18]不同的測驗(yàn)設(shè)計(jì)在準(zhǔn)確性和相對效率等方面的確有差異。因?yàn)閺谋举|(zhì)上來看,階段越多分流的次數(shù)越多,測驗(yàn)結(jié)果越接近CAT。
兩階段MST實(shí)施簡單方便,除了可以使用計(jì)算機(jī)來施測,也支持紙筆測驗(yàn)。大規(guī)模測評項(xiàng)目喜歡使用這種結(jié)構(gòu)來驗(yàn)證MST的可行性,德國的國民教育縱向研究[19]和NAEP[20]首先給考生發(fā)放一個(gè)相同的題本,經(jīng)過一段時(shí)間后根據(jù)被試的能力分配三個(gè)不同難度題本中的一個(gè)。但是兩階段只有一個(gè)適應(yīng)點(diǎn),被試在第二階段很有可能分到不恰當(dāng)?shù)哪K,特別是能力在分流時(shí)模塊間的臨界分?jǐn)?shù)附近的被試。為保險(xiǎn)起見不建議采用兩階段結(jié)構(gòu),已有的研究一般采用三階段或四階段。[21]
大多數(shù)MST的研究和應(yīng)用在第一階段使用一個(gè)模塊,隨后的階段模塊依次增加,每個(gè)階段平均有5個(gè)模塊。如果某一階段的模塊比較多,題目的平均難度水平就越多,模塊的難度和被試能力可以更有針對性地進(jìn)行匹配,所以模塊數(shù)量提供更大的適應(yīng)性和更高的靈活性。Patsula模擬研究表明,第二階段或第三階段模塊從3個(gè)增加到5個(gè),能力估計(jì)的準(zhǔn)確性和測驗(yàn)效率增加。[22]
和階段數(shù)的問題一樣,模塊的增多同樣會導(dǎo)致組卷的復(fù)雜性和檢查工作量的增加,而且需要更廣的題目難度分布,這對題庫提出更高的要求;[23]而且測量準(zhǔn)確性不一定有太多的提升。[24][25]Lord建議在實(shí)踐中每個(gè)階段使用3個(gè)或4個(gè)模塊。[26]
整理MST的相關(guān)文獻(xiàn)發(fā)現(xiàn),研究或?qū)嵺`使用的MST結(jié)構(gòu)非常多樣,主要有1-3、1-2-2、1-2-3、1-3-2、1-3-3、1-1-2-3、1-5-5-5-5、1-1-2-3-3-4、5-5-5-5-5-5。不同的階段模塊組合適用于特定條件下的測驗(yàn),不過為了更清楚地認(rèn)識不同結(jié)構(gòu)的特點(diǎn),幫助實(shí)踐者更快速地找到合適的結(jié)構(gòu),諸多研究對不同結(jié)構(gòu)的各方面表現(xiàn)進(jìn)行探討。
Zenisky設(shè)計(jì)了4種測驗(yàn)信息量、2種信息量在各階段的分配方式、4種路線選擇策略、3種通過率,比較了1-2-2、1-2-3、1-3-2、1-3-3結(jié)構(gòu)在這些條件(共4×2×4×3=96個(gè))中的表現(xiàn)。結(jié)果表明所有設(shè)計(jì)的分類準(zhǔn)確率、誤判率和漏判率都差不多。[27]全國英語等級考試結(jié)合英語考試的特點(diǎn),專家團(tuán)隊(duì)提出并設(shè)計(jì)了1-3-5和1-2-5-5兩種測試框架。研究者模擬生成500個(gè)、1000個(gè)、3000個(gè)和5000個(gè)樣本量,以檢驗(yàn)兩個(gè)測試框架的性能。研究結(jié)果表明,隨著階段的增加,能力估計(jì)的標(biāo)準(zhǔn)誤逐漸減小,模擬能力與估計(jì)能力呈現(xiàn)出更高的相關(guān),而且分類決策的準(zhǔn)確性也更高。[28]
為了滿足考試的需要,題庫不僅要包括二值計(jì)分的項(xiàng)目,還需要包括多級計(jì)分的項(xiàng)目,如簡答題。近年來,對多值計(jì)分題的題庫或混合題型題庫中的結(jié)構(gòu)設(shè)計(jì)相關(guān)研究越來越多。Kim,Chung,Park和Dodd對比了基于分部評分模型(Partial Credit Model,PCM)的面板設(shè)計(jì)(1-3-3,1-2-3,1-3-2和1-2-2),他們發(fā)現(xiàn)所有的面板設(shè)計(jì)表現(xiàn)差不多。[29]同時(shí)他們還探討了1-3-3、1-3-2、1-2-3和1-2-2四種設(shè)計(jì)在多種路徑規(guī)則和測驗(yàn)長度下的表現(xiàn),發(fā)現(xiàn)不同結(jié)構(gòu)的分類準(zhǔn)確性和分類一致性基本相同。[30]Chen關(guān)注拓展分部評分模型(Generalized Partial Credit Model,GPCM)下的MST設(shè)計(jì)的測量精度和題庫利用情況。比較了1-2、1-3、1-4、1-2-2、1-2-3、1-2-4、1-3-3和1-3-4八種結(jié)構(gòu)在兩種測驗(yàn)長度和兩種探測測驗(yàn)長度下的表現(xiàn),發(fā)現(xiàn)同一條件不同結(jié)構(gòu)的偏差、RMSE和分類準(zhǔn)確性均非常一致;發(fā)現(xiàn)測驗(yàn)長度相同時(shí),模塊越多題庫的題目利用得越充分。該研究還探討了所有考生的題目重復(fù)情況,模塊越多,一般測驗(yàn)重疊率越小,而當(dāng)探測測驗(yàn)較長時(shí),模塊數(shù)量的影響將減弱。[31]
Wang采用模擬方法比較了多維MST的1-3、1-2-3和1-3-3設(shè)計(jì),結(jié)果表明1-2-3設(shè)計(jì)產(chǎn)生了最好的測量準(zhǔn)確性,這和研究采用由后向前的組卷順序有關(guān)。本研究還發(fā)現(xiàn)只有當(dāng)各維度間能力相關(guān)程度高時(shí),多維結(jié)構(gòu)設(shè)計(jì)的測量精度才優(yōu)于每個(gè)維度單獨(dú)實(shí)施、用多維模型估計(jì)能力的測量精度。[32]
由此可見,所有MST結(jié)構(gòu)都能保證較高的測驗(yàn)精度,這給MST設(shè)計(jì)帶來很大的靈活性。
模塊和階段的結(jié)構(gòu)是MST最重要的組成部分,選擇和決定一個(gè)合適的結(jié)構(gòu)是開發(fā)一個(gè)MST最基礎(chǔ)的工作。不同模塊和階段組合的表現(xiàn)是當(dāng)前MST研究的重要領(lǐng)域,通過對已有研究的梳理發(fā)現(xiàn)仍存在一些問題待解決。
相對常見的單維IRT模型、多維IRT模型不僅更符合目前心理和教育測驗(yàn)的真實(shí)情況,而且可以提供被試在一系列分量表上的信息,這些信息有助于標(biāo)識被試在所測查的多種能力上的表現(xiàn)。多維IRT模型成為近40年來研究較為活躍的領(lǐng)域之一,而且在CAT也得到愈來愈廣泛的應(yīng)用,這些都意味著多維IRT模型應(yīng)用到MST是必然趨勢。然而,多維IRT模型下的MST質(zhì)量是否優(yōu)于各個(gè)維度單獨(dú)施測,尚未有定論。而且由于多維結(jié)構(gòu)的引入,考生不一定在所有維度上都處于同一水平,所以各階段的模塊數(shù)會隨著維度數(shù)幾何增加,使得面板結(jié)構(gòu)設(shè)計(jì)變得復(fù)雜,設(shè)計(jì)出簡潔而又有效的多維MST結(jié)構(gòu)對促進(jìn)MST的應(yīng)用和推廣有重要意義。
分類測驗(yàn)包括兩個(gè)類別的掌握性測驗(yàn)和多個(gè)類別的水平性測驗(yàn)。用于分類測驗(yàn)的MST的目的是將考生分到不同的表現(xiàn)類別,主要關(guān)注分類決策時(shí)分類臨界分?jǐn)?shù)附近的測量準(zhǔn)確性。目前,MST主要應(yīng)用于各種資格考試,已有的研究也重點(diǎn)探討這類MST的設(shè)計(jì),并得出很多重要的結(jié)論。多類別水平測驗(yàn)將被試分到多個(gè)表現(xiàn)水平中,可以詳細(xì)地知道被試已具備的知識和能力,是教育和心理測驗(yàn)中常用的測驗(yàn)。但是對于在多類別分類測驗(yàn)下的MST,階段數(shù)量的研究沒有一致的結(jié)論,而模塊數(shù)量的研究還是空白。結(jié)合更多的考試實(shí)踐條件找出適合在特定情境下的框架結(jié)構(gòu)對MST應(yīng)用者非常有價(jià)值。
由于分?jǐn)?shù)解釋和使用的需要,不同考試使用不同的表現(xiàn)類別數(shù)量,如PISA采用的是六個(gè)類別和七個(gè)類別,TIMSS采用的是四水平,而NAEP采用的是三個(gè)類別。測驗(yàn)的類別數(shù)不同,分類臨界分?jǐn)?shù)個(gè)數(shù)也不同,為了保證每個(gè)分類分?jǐn)?shù)有較高的測驗(yàn)精度,模塊數(shù)量和階段數(shù)量可以作出相應(yīng)的調(diào)整。接下來應(yīng)該進(jìn)一步探討不同表現(xiàn)類別的分?jǐn)?shù)測驗(yàn)適合采用的模塊和階段。
測驗(yàn)安全是MST需要考慮的重要問題。多階段結(jié)構(gòu)設(shè)計(jì)是一種有效控制題目曝光的方式,但是僅僅關(guān)注題目的使用頻率是不夠的,平均測驗(yàn)重疊率、測驗(yàn)重疊率的標(biāo)準(zhǔn)差和廣義測驗(yàn)重疊率反映著考生之間的題目重復(fù)情況,也是重要測驗(yàn)安全指標(biāo)。Wang,Zheng和Chang理論論證了各階段所有模塊發(fā)放概率相同的條件下,階段數(shù)量會影響測驗(yàn)重疊率的標(biāo)準(zhǔn)差;同時(shí)還進(jìn)行了模擬研究,發(fā)現(xiàn)對于測驗(yàn)重疊率均值相同時(shí),MST的測驗(yàn)重疊率標(biāo)準(zhǔn)差比CAT更大。[33]需要進(jìn)一步考查不同模塊和階段在這些指標(biāo)上的表現(xiàn),做到既能兼顧題目曝光程度和測驗(yàn)重疊狀況,又不損失測量準(zhǔn)確性。這是今后研究者在結(jié)構(gòu)設(shè)計(jì)方面重要的研究方向和目標(biāo)。
國內(nèi)外研究者深入探討了基本結(jié)構(gòu)和其他測驗(yàn)設(shè)計(jì)變量間的相互作用,但對考生能力分布、題庫大小和質(zhì)量等因素的研究較少。
Brossman和Guille比較1-3-3-3-3-3設(shè)計(jì)下6種不同能力分布,發(fā)現(xiàn)隨著能力分布的標(biāo)準(zhǔn)差增大,RMSE和平均SEM也增大,但是增大的程度比線性測驗(yàn)要低。[34]這也充分體現(xiàn)了MST更有潛力準(zhǔn)確測量整個(gè)量尺上的能力,但是如果考生能力分布較廣時(shí),需要更高的適應(yīng)性來準(zhǔn)確測量不同能力的考生。題庫的質(zhì)量可以通過區(qū)分度、難度、項(xiàng)目信息量的分布情況來考察,以往僅關(guān)注它們對MST組卷的影響程度。進(jìn)一步的研究應(yīng)考慮不同分布形態(tài)和離散程度的考生群體、題庫大小和質(zhì)量對MST框架結(jié)構(gòu)的影響。
由于真實(shí)測驗(yàn)情境復(fù)雜,并不存在一種適合于任何情境的理想結(jié)構(gòu)。結(jié)合不同結(jié)構(gòu)的表現(xiàn),綜合考慮各外在因素間的相互作用并合理借鑒其他測驗(yàn)形式的框架結(jié)構(gòu),就可以確定特定測驗(yàn)條件的相對優(yōu)化結(jié)構(gòu)。
[1] Xu,X.,Sikali,E.,Oranje,A.,Kulick,E.Multi-stage testing in educational survey assessments[C].New Orleans:the National Council on Measurement in Education,2011.
[2][20] Bock,R.D.,Zimowski,M.F.Feasibility studies of two-stage testing in large-scale educational assessment:Implications for NAEP[R].Washington,DC:National Center for Education Statistics,2003.
[3] Drasgow,F(xiàn).,Luecht,R.M.,Bennett,R.Technology and Testing[M]//Brennan,R.L.Educational measurement(4th ed.).Washington,DC:American Council on Education/Praeger Publishers,2006:471-515.
[4][23] Zenisky,A.,Hambleton,R.K.,Luecht,R.M.Multi-stage testing:Issues,designs,and research[M]//Van der Linden,W.J.,Glas,C.A.W.Elements of Adaptive Testing.New York:Springer,2010:355-372.
[5] 王睿,羅照盛,王鈺彤.計(jì)算機(jī)化多階段自適應(yīng)測驗(yàn)在限時(shí)瑞文推理測驗(yàn)中的應(yīng)用[C]//第十七屆全國心理學(xué)學(xué)術(shù)會議論文摘要集.北京:中國心理學(xué)會,2014.
[6][28] 關(guān)丹丹,劉慶思.兩種PETS計(jì)算機(jī)自適應(yīng)序列測試框架比較研究[J].中國考試,2013(1):16-22.
[7][16][24] Luecht,R.M.,Nungester,R.J.Some practical examples of computer-adaptive sequential testing[J].Journal of Educational Measurement,1998(35):229-249.
[8] Rosenbaum,P.R.Items bundles[J].Psychometrika,1988,53(3):349-359.
[9][27] Zenisky,A.L.Evaluating the effects of several multi-stage testing design variables on selected psychometric outcomes for certification and licensure assessment[D].Amherst:University of Massachusetts,2004.
[10] Wainer,H.Computerized Adaptive Testing:A primer[M].Hillsdale:Lawrence Erlbaum Associates,1990.
[11] Wainer,H.,Kiely,G.L.Item Clusters and Computerized Adaptive Testing:A Case for Testlets[J].Journal of Educational Measurement,1987(24):185-201.
[12] Crotts,K.M.,Zenisky,A.L.,Sireci,S.G.,Li,X.Estimating Measurement Precision in Reduced-length Multi-stage Adaptive Testing[J].Journal of Computerized Adaptive Testing,2013(1).
[13] Zenisky,A.L.,Hambleton,R.K.Multistage Test Designs:Moving Research Results into Practice[M]//Yan,D.L.,Davier,A.A.Von,Lewis,C.Computerized Multistage Testing:Theory and Applications.Boca Raton,FL:CRC Press,2014:21-38.
[14] Luecht,R.M.,Burgin,W.Test information targeting strategies for adaptive multistage testing designs[C].Chicago:The Annual Meeting of the National Council on Measurement in Education,2003.
[15][22] Patsula,L.N.A comparison of computerized-adaptive testing and multi-stage testing[D].Amherst:University of Massachusetts,1999.
[17][25] Luecht,R.M.,Nungester,R.J.,Hadidi,A.Heuristic-based CAT:Balancing item information,content and exposure[C].New York:The Annual Meeting of the National Council on Measurement in Education,1996.
[18] Zheng,Y.,Nozawa,Y.,Gao,X.H.,Chang,H.H.Multistage Adaptive Testing for a Large-scale Classification Test:Design,Heuristic Assembly,and Comparison with Other Testing Modes[R/OL].(2013-12-24)[2015-04-05].http://education.illinois.edu/edpsy/people/hhchang.
[19] Pohl,S.Longitudinal Multistage Testing[J].Journal of Educational Measurement,2013(50):447-468.
[21] Breithaupt,K.,Hare,D.R.Automated simultaneous assembly of multistage testlets for a high-stakes licensing examination[J].Educational and Psychological Measurement,2007,67(1):5-20.
[26] Lord,F(xiàn).M.Applications of item response theory to practical testing problems[M].Hillsdale:Lawrence Erlbaum Associates,1980.
[29] Kim,J.,Chung,H.,Park,R.,Dodd,B.G.A comparison of panel designs in the multistage test based on the partial credit model[C].New Orleans:The Annual Meeting of the American Educational Research Association,2011.
[30] Kim,J.,Chung,H.,Park,R.,Dodd,B.G.A comparison of panel designs with routing methods in the multistage test with the partial credit model[J].Behavior research methods,2013(45):1087-1098.
[31] Chen,L.Y.An investigation of the optimal test design for multistage test using the generalized partial credit model[D].Austin:University of Texas,2010.
[32] Wang,X.R.An Investigation on Computer-adaptive Multistage Testing Panels for Multidimensional Assessment[D].Greensboro:The University of North Carolina,2013.
[33] Wang,C.,Zheng,Y.,Chang,H.H.Does Standard Deviation Matter?Using“Standard Deviation”to Quantify Security of Multistage Testing[J].Psychometrika,2014,79(1):154-174.
[34] Brossman,B.G.,Guille,R.A.A Comparison of Multi-stage and Linear Test Designs for Medium-size Licensure and Certification Examinations[J].Journal of Computerized Adaptive Testing,2014(2):18-36.