計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)有效性檢驗(yàn)的探索與優(yōu)化

2024-06-16 05:04:13李心鈺王超陸宏

現(xiàn)代教育技術(shù) 2024年6期

李心鈺王超陸宏

摘要：計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)（Computerized Adaptive Testing，CAT）的有效性檢驗(yàn)是評(píng)定測(cè)驗(yàn)生成過(guò)程以及解釋測(cè)驗(yàn)結(jié)果是否恰當(dāng)、合理的必要步驟，然而系統(tǒng)性探討CAT有效性檢驗(yàn)的研究相對(duì)較少。為彌補(bǔ)其不足，文章在剖析CAT有效性檢驗(yàn)內(nèi)涵的基礎(chǔ)上，首先梳理了基于IRT的題庫(kù)、模擬CAT與真實(shí)CAT有效性檢驗(yàn)的基本內(nèi)容。然后，文章針對(duì)題庫(kù)中試題逐漸向多維度和多模態(tài)轉(zhuǎn)變的特點(diǎn)，提出利用高階因子模型與多質(zhì)多法模型對(duì)多維度與多模態(tài)試題進(jìn)行有效性檢驗(yàn)的方法；同時(shí)建議從測(cè)驗(yàn)公平性的角度，檢驗(yàn)CLT與CAT中個(gè)體人格特質(zhì)對(duì)被試作答表現(xiàn)的影響是否具有跨組不變性，最終形成了一套符合時(shí)代發(fā)展的CAT有效性檢驗(yàn)的完整流程，以期為CAT的持續(xù)改進(jìn)及其在教育實(shí)踐中的普及推廣提供助力。

關(guān)鍵詞：計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)；有效性檢驗(yàn)；多維度與多模態(tài)試題；測(cè)驗(yàn)公平性

【中圖分類號(hào)】G40-057 【文獻(xiàn)標(biāo)識(shí)碼】A 【論文編號(hào)】1009—8097（2024）06—0123—10?【DOI】10.3969/j.issn.1009-8097.2024.06.013

隨著教育評(píng)價(jià)改革運(yùn)動(dòng)和計(jì)算機(jī)技術(shù)的迅猛發(fā)展，教育測(cè)量與評(píng)價(jià)理論的演進(jìn)在不斷深入，教育測(cè)驗(yàn)也逐步從傳統(tǒng)的以經(jīng)典測(cè)量理論（Classical Test Theory，CTT）為基礎(chǔ)的線性測(cè)驗(yàn)，轉(zhuǎn)向以項(xiàng)目反應(yīng)理論（Item Response Theory，IRT）為依托的計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)（Computerized Adaptive Testing，CAT），總體發(fā)展趨勢(shì)呈現(xiàn)出尊重學(xué)生個(gè)體差異、注重因材施測(cè)的教育理念。IRT克服了CTT的諸多缺陷，使CAT能夠利用更短的時(shí)間和更少的試題，實(shí)現(xiàn)對(duì)被試能力水平更精準(zhǔn)的測(cè)量^[1]，但其測(cè)量結(jié)果的有效性檢驗(yàn)卻一直是橫亙?cè)诮逃郎y(cè)量與評(píng)價(jià)領(lǐng)域的難題之一。首先，CAT“一人一卷，千人千卷”的特點(diǎn)，使傳統(tǒng)線性測(cè)驗(yàn)的有效性檢驗(yàn)方式無(wú)法直接移植到CAT中。其次，伴隨著CAT測(cè)評(píng)模式的衍生發(fā)展，能夠同時(shí)評(píng)估被試在多個(gè)維度上能力水平的多維計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)（Multidimensional Computerized Adaptive Testing，MCAT）引起研究者的廣泛關(guān)注。同時(shí)，隨著教育評(píng)價(jià)理念的不斷演變，測(cè)驗(yàn)編制者試圖將試題從單一的文本模態(tài)擴(kuò)展至文本、圖像、視頻等混合模態(tài)，通過(guò)建構(gòu)真實(shí)情境，評(píng)估被試解決實(shí)際問(wèn)題的能力^[2]。盡管基于多維度與多模態(tài)題庫(kù)的CAT能夠滿足測(cè)驗(yàn)的更多需求，但適用于多維度與多模態(tài)試題的有效性檢驗(yàn)方式始終沒(méi)有成型。最后，在CAT環(huán)境下，被試人格特質(zhì)對(duì)作答表現(xiàn)的影響機(jī)制是否會(huì)導(dǎo)致測(cè)驗(yàn)結(jié)果的不公平，進(jìn)而影響CAT的有效性也是尚未解決的難題?；诖耍狙芯繉⒃诜謩e歸納總結(jié)CAT題庫(kù)、模擬CAT、真實(shí)CAT有效性檢驗(yàn)基本環(huán)節(jié)的基礎(chǔ)上，提出適用于多維度與多模態(tài)試題有效性檢驗(yàn)的特定方法，并設(shè)計(jì)以傳統(tǒng)線性測(cè)驗(yàn)為校標(biāo)，檢驗(yàn)CAT是否具有測(cè)驗(yàn)公平性的實(shí)驗(yàn)方案，以期為CAT的持續(xù)改進(jìn)及其在教育實(shí)踐中的普及推廣提供助力。

一?CAT有效性檢驗(yàn)的內(nèi)涵

1何為有效性檢驗(yàn)

測(cè)驗(yàn)的效度也稱有效性，是反映測(cè)驗(yàn)結(jié)果準(zhǔn)確性的指標(biāo)^[3]。教育測(cè)量學(xué)初步形成于20世紀(jì)初，有效性檢驗(yàn)亦興起于該時(shí)期。1937年，Bingham^[4]給出了有效性檢驗(yàn)的操作定義，即有效性檢驗(yàn)是指一項(xiàng)測(cè)驗(yàn)的成績(jī)與采用其他客觀方法進(jìn)行測(cè)量的結(jié)果之間的相關(guān)系數(shù)，此時(shí)的有效性檢驗(yàn)是簡(jiǎn)單、初級(jí)的，相關(guān)系數(shù)被賦予絕對(duì)化的意義。在此之后，有效性檢驗(yàn)又逐步發(fā)展形成了分類效度、構(gòu)念效度、基于論證的效度等多種檢驗(yàn)?zāi)Ｊ?sup>[5]。

隨著教育測(cè)量理論和實(shí)踐的發(fā)展，測(cè)驗(yàn)的關(guān)注點(diǎn)已越來(lái)越多地放在對(duì)被試的診斷、評(píng)價(jià)和補(bǔ)救之上，因此對(duì)測(cè)驗(yàn)分?jǐn)?shù)的解釋和應(yīng)用日益受到重視，測(cè)驗(yàn)有效性檢驗(yàn)的定義也逐漸游離于傳統(tǒng)定義之外。1985年，美國(guó)心理學(xué)會(huì)在頒布的《教育與心理測(cè)驗(yàn)標(biāo)準(zhǔn)》中給出了有效性檢驗(yàn)的第一個(gè)形式化定義，即基于測(cè)量分?jǐn)?shù)或其他評(píng)估形式所做出的推論的適當(dāng)性^[6]。由其定義可知，有效性檢驗(yàn)主要具有兩方面作用，一是為測(cè)驗(yàn)分?jǐn)?shù)的解釋和運(yùn)用提供支持，二是審核特定分?jǐn)?shù)在解釋和使用上的合理性和恰當(dāng)性。

時(shí)至今日，人們傾向于認(rèn)為測(cè)驗(yàn)的有效性檢驗(yàn)不是簡(jiǎn)單地通過(guò)一個(gè)或幾個(gè)數(shù)量化指標(biāo)就能得到充分表示的，而是實(shí)驗(yàn)、統(tǒng)計(jì)、理論等諸多方面證據(jù)的積累。換言之，有效性檢驗(yàn)是一個(gè)收集有效性證據(jù)的過(guò)程，這個(gè)過(guò)程不是一個(gè)全或無(wú)的問(wèn)題，而是一個(gè)程度大小的問(wèn)題，其從測(cè)驗(yàn)編制開(kāi)始，一直延續(xù)到測(cè)驗(yàn)結(jié)果的解釋、應(yīng)用等諸多環(huán)節(jié)^[7]。

2 CAT有效性檢驗(yàn)的重點(diǎn)環(huán)節(jié)

傳統(tǒng)線性測(cè)驗(yàn)的有效性檢驗(yàn)主要側(cè)重于信效度的測(cè)量，與之不同，CAT有效性檢驗(yàn)的著重點(diǎn)主要體現(xiàn)在以下環(huán)節(jié)：

①傳統(tǒng)線性測(cè)驗(yàn)一般由命題人員從題庫(kù)中選取特定的試題組成整套試卷提供給所有被試，其題庫(kù)功能多為儲(chǔ)存、檢索試題。而CAT要在題庫(kù)中為每一名被試挑選與其能力相匹配的試題，這樣題庫(kù)質(zhì)量（如試題與模型的匹配程度、能夠提供的信息量的大小等）是否符合要求就顯得更為重要，如果題庫(kù)質(zhì)量存在問(wèn)題，導(dǎo)致選題出現(xiàn)偏差，測(cè)驗(yàn)就可能無(wú)法達(dá)到預(yù)定的測(cè)量目標(biāo)。因此，在CAT題庫(kù)構(gòu)建完成后，需要對(duì)題庫(kù)的有效性進(jìn)行檢驗(yàn)，以確保CAT的順利實(shí)施。

②CAT的測(cè)驗(yàn)結(jié)果是否能滿足施測(cè)者的要求，與CAT中選題策略、能力估計(jì)的方法等技術(shù)細(xì)節(jié)息息相關(guān)，為了尋找最佳方案，往往需要比較多種不同的策略和方法。如果每種策略和方法的優(yōu)劣都通過(guò)選取真實(shí)被試來(lái)獲得，無(wú)疑將造成人力、財(cái)力的巨大消耗。但如果通過(guò)模擬CAT進(jìn)行實(shí)驗(yàn)研究，不僅可以解決測(cè)驗(yàn)情境復(fù)雜時(shí)研究變量不易控制的問(wèn)題，還能為研究者提供短時(shí)間內(nèi)評(píng)測(cè)多種策略與方法的可能性，因此模擬CAT是有效性檢驗(yàn)中不可或缺的組成部分。

③模擬CAT有著諸多便捷之處，但毋庸置疑的是，真實(shí)CAT的測(cè)驗(yàn)結(jié)果才更符合實(shí)際情況、更令人信服，模擬數(shù)據(jù)能否準(zhǔn)確反映真實(shí)情境始終是令人存疑的。因此，盡管真實(shí)CAT需要開(kāi)發(fā)題庫(kù)、征集被試、現(xiàn)場(chǎng)測(cè)驗(yàn)，存在研究成本高、耗時(shí)長(zhǎng)等問(wèn)題；且真實(shí)被試還可能受到如測(cè)驗(yàn)環(huán)境、測(cè)驗(yàn)焦慮等不確定因素的干擾，但真實(shí)CAT依然是有效性檢驗(yàn)中無(wú)可替代的環(huán)節(jié)。

二題庫(kù)的有效性檢驗(yàn)

建設(shè)一個(gè)高質(zhì)量的題庫(kù)是提升測(cè)驗(yàn)安全性、維護(hù)測(cè)驗(yàn)結(jié)果公平性的有力保障。題庫(kù)構(gòu)建的理論基礎(chǔ)不外乎CTT和IRT兩種，基于CTT題庫(kù)的模型較為簡(jiǎn)單，投入成本較小，但其試題參數(shù)在不同情境下的可靠性和擴(kuò)展性較差。因此，本研究中的題庫(kù)指基于IRT的題庫(kù)，此類題庫(kù)的理論基礎(chǔ)和技術(shù)手段相對(duì)復(fù)雜，但其試題參數(shù)適用于多種情境，如智能組卷、線性測(cè)驗(yàn)、自適應(yīng)測(cè)驗(yàn)等。IRT題庫(kù)的有效性檢驗(yàn)通常包括假設(shè)檢驗(yàn)、模型與數(shù)據(jù)的擬合性檢驗(yàn)、項(xiàng)目功能差異（Differential Item Function，DIF）檢驗(yàn)、測(cè)驗(yàn)信息量的計(jì)算^[8]。

1 假設(shè)檢驗(yàn)

IRT所包含的一切理論必須建立在單維性假設(shè)和局部獨(dú)立性假設(shè)的基礎(chǔ)之上，因此，IRT題庫(kù)的假設(shè)檢驗(yàn)包括：?jiǎn)尉S性檢驗(yàn)和局部獨(dú)立性檢驗(yàn)。

（1）單維性檢驗(yàn)

測(cè)驗(yàn)的單維性是指被試在測(cè)驗(yàn)中的表現(xiàn)只能由一種能力或因素進(jìn)行解釋，目前大多數(shù)關(guān)于測(cè)驗(yàn)有效性的研究?jī)H局限于題庫(kù)的單維性檢驗(yàn)，涉及題庫(kù)多維性檢驗(yàn)的研究寥寥無(wú)幾。IRT題庫(kù)是否符合單維性主要從兩方面進(jìn)行考量，一是檢驗(yàn)試題編制原則是否符合單維性；二是在收集測(cè)驗(yàn)數(shù)據(jù)的前提下，運(yùn)用統(tǒng)計(jì)分析軟件（如SPSS、AMOS、R語(yǔ)言等）進(jìn)行探索性因子分析（Exploratory Factor Analysis，EFA）或驗(yàn)證性因子分析（Confirmatory Factor Analysis，CFA），EFA和CFA中單維性檢驗(yàn)的判別指標(biāo)分別是因子的方差解釋量和擬合指數(shù)。以免費(fèi)開(kāi)源軟件R語(yǔ)言為例，EFA和CFA可以分別使用R軟件包的psych和lavaan加以實(shí)現(xiàn)。

（2）局部獨(dú)立性檢驗(yàn)

局部獨(dú)立性指任何一個(gè)能力水平的被試在全部試題上的聯(lián)合正答概率等于其在各試題上正答概率的乘積，其內(nèi)涵表現(xiàn)在：①同一被試在某道試題上的正答概率獨(dú)立于該被試在其他試題上的正答概率；②能力水平相同的被試群體在同一道試題上的正答概率相互獨(dú)立。局部獨(dú)立性是IRT中試題維持參數(shù)不變性的前提之一，其驗(yàn)證過(guò)程可以通過(guò)R語(yǔ)言軟件包mirt分析試題殘差間的相關(guān)來(lái)實(shí)現(xiàn)，若試題殘差間的相關(guān)小于0.2，局部獨(dú)立性成立，反之則存在局部依賴性。

2 模型與數(shù)據(jù)的擬合性檢驗(yàn)

模型與數(shù)據(jù)的擬合既可以在一定程度上保證試題參數(shù)與被試能力水平估計(jì)的準(zhǔn)確性，又可以使參加自適應(yīng)測(cè)驗(yàn)的不同被試的能力水平具有可比性，因此模型與數(shù)據(jù)擬合性檢驗(yàn)的目的是識(shí)別題庫(kù)中擬合效果較差的試題并予以刪除。模型與數(shù)據(jù)的擬合性檢驗(yàn)可以通過(guò)R語(yǔ)言軟件包mirt中的itemfit函數(shù)來(lái)完成，其檢驗(yàn)統(tǒng)計(jì)量有S-X²、PV-Q₁等^[9]。以S-X²為例，p＜0.001被視為模型與數(shù)據(jù)擬合性不佳，但當(dāng)測(cè)驗(yàn)的樣本量較大時(shí)，p值會(huì)隨著樣本量的增大而顯著變小，這時(shí)研究者會(huì)傾向于將近似均方根誤差RMSEA作為擬合檢驗(yàn)統(tǒng)計(jì)量^[10]。

3 項(xiàng)目功能差異檢驗(yàn)

DIF檢驗(yàn)旨在分析被試對(duì)測(cè)驗(yàn)試題的作答是否與其背景（如性別、種族或年齡等）相關(guān)，當(dāng)來(lái)自不同背景的具有相同能力水平的被試，對(duì)同一道試題進(jìn)行作答所產(chǎn)生的正答概率不同時(shí)，即代表該試題存在DIF。一個(gè)公正無(wú)偏測(cè)驗(yàn)中的試題不應(yīng)存在DIF，一旦所測(cè)試題存在DIF，被試最終能力水平估計(jì)就會(huì)出現(xiàn)偏差。DIF檢驗(yàn)可通過(guò)R語(yǔ)言軟件包lodif實(shí)現(xiàn)，當(dāng)效應(yīng)統(tǒng)計(jì)量McFaddens pseudo R²＜0.02時(shí)，DIF可忽略不計(jì)^[11]。

4 測(cè)驗(yàn)信息量的計(jì)算

測(cè)驗(yàn)信息量反映了整個(gè)測(cè)驗(yàn)在評(píng)價(jià)被試能力水平時(shí)的信息貢獻(xiàn)量，題庫(kù)的測(cè)驗(yàn)信息量由試題信息量累加而成，各試題信息量之間互不影響，某一試題信息量的取值由試題參數(shù)和被試能力水平所決定。IRT中測(cè)驗(yàn)信息量的平方根的倒數(shù)構(gòu)成了被試能力水平估計(jì)值的標(biāo)準(zhǔn)誤，1與標(biāo)準(zhǔn)誤平方之差的絕對(duì)值即該能力水平的測(cè)驗(yàn)信度。由此可知，題庫(kù)所提供的測(cè)驗(yàn)信息量越大，對(duì)被試能力水平的估計(jì)越精準(zhǔn)（標(biāo)準(zhǔn)誤越?。?，測(cè)驗(yàn)信度越高。題庫(kù)中試題信息量、測(cè)驗(yàn)信息量、能力估計(jì)標(biāo)準(zhǔn)誤、測(cè)驗(yàn)信度范圍的計(jì)算與繪制可分別通過(guò)R語(yǔ)言軟件包mirt和ltm實(shí)現(xiàn)^[12]。

三?CAT的有效性檢驗(yàn)

1 模擬CAT的有效性檢驗(yàn)

目前，模擬CAT已經(jīng)成為研究CAT技術(shù)的重要手段之一，常用的模擬CAT有以下三種方法：①蒙特卡羅模擬，這是一種基于模擬隨機(jī)數(shù)的統(tǒng)計(jì)抽樣實(shí)驗(yàn)方法，測(cè)驗(yàn)中的參數(shù)如被試能力、試題難度等常被認(rèn)為滿足一定的經(jīng)驗(yàn)概率分布，可以通過(guò)計(jì)算機(jī)的隨機(jī)發(fā)生器預(yù)先模擬產(chǎn)生，其有效性檢驗(yàn)主要是評(píng)估不同算法支持下CAT的性能，并對(duì)其優(yōu)劣進(jìn)行比較和評(píng)價(jià)；②事后模擬，即依據(jù)被試在題庫(kù)中所有試題上的真實(shí)作答結(jié)果，模擬出被試在CAT中的試題作答序列和測(cè)驗(yàn)長(zhǎng)度，其有效性檢驗(yàn)主要是依據(jù)被試在常規(guī)線性測(cè)驗(yàn)中的作答結(jié)果，探究當(dāng)測(cè)驗(yàn)以CAT的方式實(shí)施時(shí)，測(cè)驗(yàn)試題的減少數(shù)量；③混合式模擬，在實(shí)際的測(cè)驗(yàn)中，龐大的題庫(kù)、測(cè)驗(yàn)安全約束等不允許被試對(duì)題庫(kù)中的所有試題都進(jìn)行作答，因此最終生成的試題反應(yīng)矩陣是稀疏的，此時(shí)要使用混合式模擬來(lái)解決這一問(wèn)題^[13]。該方法首先使用蒙特卡羅模擬估計(jì)出被試在題庫(kù)中未作答試題上的作答結(jié)果，得到稀疏矩陣中的缺失數(shù)據(jù)，然后使用事后模擬評(píng)估CAT的有效性。

根據(jù)模擬CAT研究的不同目的，蒙特卡羅模擬的有效性檢驗(yàn)主要涉及以下三個(gè)方面：測(cè)驗(yàn)?zāi)M返真性能、測(cè)驗(yàn)安全性、題庫(kù)使用情況。其中，測(cè)驗(yàn)?zāi)M返真性能常用均方根誤差（RMSE）和偏差（Bias）進(jìn)行評(píng)價(jià)，RMSE越小或Bias絕對(duì)值越趨近于零，模擬結(jié)果越準(zhǔn)確；測(cè)驗(yàn)安全性常用測(cè)驗(yàn)重疊率、卡方統(tǒng)計(jì)量等指標(biāo)進(jìn)行評(píng)價(jià)，指標(biāo)數(shù)值越小，測(cè)驗(yàn)安全性越高；題庫(kù)使用情況常用題庫(kù)使用率進(jìn)行評(píng)價(jià)，在不降低測(cè)驗(yàn)效率的情況下，題庫(kù)中區(qū)分度偏低的試題使用越充分，效果越好^[14]。事后模擬和混合式模擬的有效性檢驗(yàn)主要是分析測(cè)驗(yàn)效率，其評(píng)價(jià)指標(biāo)為線性測(cè)驗(yàn)與CAT測(cè)驗(yàn)長(zhǎng)度間的差異。一般情況下，模擬CAT及其有效性檢驗(yàn)可通過(guò)R語(yǔ)言軟件包mirtCAT實(shí)現(xiàn)，在選拔性、高利害的CAT中，著重檢驗(yàn)測(cè)驗(yàn)的安全性；而在診斷性、低利害的CAT中更加關(guān)注被試能力估計(jì)的準(zhǔn)確性^[15]。

2 真實(shí)CAT的有效性檢驗(yàn)

目前，線性測(cè)驗(yàn)作為教育測(cè)量與評(píng)價(jià)領(lǐng)域的常用測(cè)驗(yàn)形式已經(jīng)獲得了教育教學(xué)實(shí)踐工作者的認(rèn)可。因此，對(duì)真實(shí)CAT的有效性檢驗(yàn)可以通過(guò)將其與計(jì)算機(jī)化線性測(cè)驗(yàn)（Computerized Linear Test，CLT）進(jìn)行等效性研究來(lái)加以實(shí)施，兩者的等效性比較主要從被試能力水平、測(cè)驗(yàn)信度、測(cè)驗(yàn)效度、測(cè)驗(yàn)效率的角度進(jìn)行。

（1）被試能力水平的比較

為使CLT與CAT的被試能力水平具備可比性，應(yīng)確保兩者進(jìn)行等效性研究的試題是源于同一個(gè)以IRT為基礎(chǔ)開(kāi)發(fā)的題庫(kù)，且參加CLT與CAT的被試為相同被試或隨機(jī)分配的兩組被試。若為相同被試分別參加CLT和CAT，可直接比較兩次測(cè)驗(yàn)獲取的被試能力水平的排序是否一致；若為不同組被試，則可比較CLT與CAT被試能力水平的描述性統(tǒng)計(jì)特征，如比較能力水平分布曲線，觀察其形狀是否相似。

（2）測(cè)驗(yàn)信度的比較

在IRT構(gòu)建的測(cè)驗(yàn)中，測(cè)驗(yàn)信息量取代了CTT的信度概念，測(cè)驗(yàn)信息量越大，表示測(cè)驗(yàn)的信度越高。就CLT而言，盡管每位被試所測(cè)的試題相同，但其能力水平不同，測(cè)驗(yàn)所能提供的信息量亦不相同，所得的測(cè)驗(yàn)信度系數(shù)最終表現(xiàn)為一個(gè)范圍。在CAT中，測(cè)驗(yàn)信度的取值與測(cè)驗(yàn)的終止規(guī)則息息相關(guān)，若比較測(cè)驗(yàn)信度，則CAT的終止規(guī)則應(yīng)采用固定長(zhǎng)度法（CLT與CAT測(cè)驗(yàn)長(zhǎng)度相同），此時(shí)CAT的信度系數(shù)同樣存在一個(gè)范圍。CLT與CAT測(cè)驗(yàn)信度的比較可通過(guò)對(duì)比測(cè)驗(yàn)信度系數(shù)的統(tǒng)計(jì)學(xué)特征（如平均值、標(biāo)準(zhǔn)差、最大值、最小值）來(lái)實(shí)現(xiàn)。

（3）測(cè)驗(yàn)效度的比較

在CLT與CAT測(cè)驗(yàn)效度的比較中，內(nèi)容效度是較適宜的評(píng)價(jià)指標(biāo)。CLT的試題由學(xué)科和測(cè)量專家按照課程目標(biāo)、教學(xué)內(nèi)容、評(píng)價(jià)目的等編制而得，一般具有良好的內(nèi)容效度；而CAT利用選題策略進(jìn)行適應(yīng)性選題，這就意味著被試的能力水平不同，其所做的試題不同，試題考查的內(nèi)容可能存在不平衡性。兩者內(nèi)容效度的比較按照以下步驟展開(kāi)：①劃分CAT高、中、低能力區(qū)間，選取每個(gè)能力區(qū)間處于中間值的被試的測(cè)驗(yàn)內(nèi)容為代表；②以CLT為校標(biāo)，比較CLT與CAT中各部分試題內(nèi)容的數(shù)量和比例。

（4）測(cè)驗(yàn)效率的比較

考慮到CAT中測(cè)驗(yàn)終止規(guī)則的差異，CLT與CAT測(cè)驗(yàn)效率的比較主要從兩方面進(jìn)行考量：①測(cè)驗(yàn)所測(cè)試題數(shù)量相同時(shí)，測(cè)量精確度的比較；②測(cè)驗(yàn)達(dá)到相同測(cè)量精確度時(shí)，所測(cè)試題數(shù)量的比較。若CAT采用固定長(zhǎng)度法的測(cè)驗(yàn)終止規(guī)則，測(cè)驗(yàn)效率的比較即被試能力估計(jì)值標(biāo)準(zhǔn)誤的比較，標(biāo)準(zhǔn)誤越小，測(cè)驗(yàn)效率越高；若CAT采用固定測(cè)量精確度的測(cè)驗(yàn)終止規(guī)則，測(cè)驗(yàn)效率的比較則為測(cè)驗(yàn)試題數(shù)量的比較，試題數(shù)量越少，測(cè)驗(yàn)效率越高。

四題庫(kù)及CAT有效性檢驗(yàn)的優(yōu)化

現(xiàn)有題庫(kù)的有效性檢驗(yàn)主要用于檢驗(yàn)單維度和單一文本模態(tài)的題庫(kù)。隨著試題能力維度與模態(tài)的發(fā)展變化，基于多維度與多模態(tài)題庫(kù)的CAT逐漸進(jìn)入教育實(shí)踐領(lǐng)域，但其有效性檢驗(yàn)的方法至今鮮有涉及。另外，有研究顯示，在CAT中被試的測(cè)驗(yàn)焦慮、自我效能感、認(rèn)知風(fēng)格會(huì)顯著影響其作答成績(jī)、作答時(shí)間、作答行為等作答表現(xiàn)^[16]。因此，有必要對(duì)測(cè)驗(yàn)過(guò)程中更廣泛的個(gè)體人格特質(zhì)和作答表現(xiàn)之間的關(guān)聯(lián)做進(jìn)一步探討，以便更全面地從測(cè)驗(yàn)公平性的角度檢驗(yàn)CAT施測(cè)結(jié)果的有效性。

1 題庫(kù)有效性檢驗(yàn)的優(yōu)化——多維度與多模態(tài)試題的有效性檢驗(yàn)

本研究將以教師數(shù)字素養(yǎng)的題庫(kù)為例，進(jìn)行多維度與多模態(tài)試題的有效性檢驗(yàn)。2022年12月，教育部發(fā)布了《教師數(shù)字素養(yǎng)》教育行業(yè)標(biāo)準(zhǔn)，旨在提升教師利用數(shù)字技術(shù)優(yōu)化、創(chuàng)新和變革教育教學(xué)活動(dòng)的意識(shí)、能力和責(zé)任^[17]?！督處煍?shù)字素養(yǎng)》規(guī)定了教師數(shù)字化意識(shí)、數(shù)字技術(shù)知識(shí)與技能、數(shù)字化應(yīng)用、數(shù)字社會(huì)責(zé)任和專業(yè)發(fā)展五個(gè)能力維度的目標(biāo)要求，其測(cè)量不僅應(yīng)涉及教師在多維度認(rèn)知領(lǐng)域的掌握、應(yīng)用能力，還應(yīng)通過(guò)多模態(tài)試題實(shí)現(xiàn)對(duì)分析、整合、評(píng)價(jià)能力的測(cè)量。本研究按照《教師數(shù)字素養(yǎng)》將題庫(kù)中試題所測(cè)量的能力劃分為五個(gè)維度，將試題的模態(tài)劃分為文本、圖像、視頻三種，嘗試通過(guò)構(gòu)建高階因子模型和多質(zhì)多法模型對(duì)題庫(kù)中多維度與多模態(tài)試題的有效性進(jìn)行檢驗(yàn)。

（1）高階因子模型

高階因子（High-order Factor）模型是由Hull等^[18]提出的一種能夠測(cè)量多維特質(zhì)的模型，其原理是由一個(gè)高階因子解釋多個(gè)高度相關(guān)的低階因子，并用低階因子的殘差解釋各維度的獨(dú)特性，可在多維度與多模態(tài)試題的有效性檢驗(yàn)中評(píng)估能力高階因子對(duì)不同測(cè)評(píng)方法的解釋程度。

以教師數(shù)字素養(yǎng)題庫(kù)的有效性檢驗(yàn)為例，在高階因子模型的構(gòu)建過(guò)程中，首先將相同試題模態(tài)測(cè)評(píng)的每個(gè)能力維度上的試題得分平均值作為模型的指標(biāo)，此處三種試題模態(tài)和五個(gè)能力維度的交叉形成模型包含15個(gè)指標(biāo)，模型中測(cè)評(píng)相同能力維度的指標(biāo)之間容許殘差相關(guān)。然后，將文本類、圖像類、視頻類試題作為一階因子，15個(gè)指標(biāo)分別歸屬于這三個(gè)一階因子。最后，抽取一個(gè)二階因子（此處為數(shù)字素養(yǎng)），建立數(shù)字素養(yǎng)的二階因子模型，如圖1所示。

圖中的DL代表數(shù)字素養(yǎng)（Digital Literacy），D1、D2、D3、D4、D5分別代表數(shù)字化意識(shí)、數(shù)字技術(shù)知識(shí)與技能、數(shù)字化應(yīng)用、數(shù)字社會(huì)責(zé)任和專業(yè)發(fā)展能力；T、I、V分別代表文本（Text）類試題模態(tài)、圖像（Image）類試題模態(tài)、視頻（Video）類試題模態(tài)；U代表獨(dú)特性（Uniqueness）。

最終，模型分析的結(jié)果將提供能力高階因子對(duì)三個(gè)試題模態(tài)因子的標(biāo)準(zhǔn)化路徑系數(shù)和解釋率，以此檢驗(yàn)題庫(kù)中多模態(tài)試題對(duì)多維度數(shù)字素養(yǎng)能力的測(cè)量結(jié)果是否有效。

（2）多質(zhì)多法模型

多質(zhì)多法（Multitrait-Multimethod）的研究觀點(diǎn)源于Campbell和Fiske，其理念是針對(duì)同一特質(zhì)采用不同測(cè)量工具所得的測(cè)量結(jié)果之間相關(guān)程度應(yīng)該較高，而測(cè)量不同特質(zhì)的相同測(cè)量工具的測(cè)量結(jié)果之間相關(guān)程度應(yīng)該較低^[19]。通過(guò)分析多質(zhì)多法模型中的相關(guān)矩陣，可以檢驗(yàn)不同測(cè)量方法的會(huì)聚效度和不同特質(zhì)之間的區(qū)分效度，以便準(zhǔn)確了解不同測(cè)評(píng)手段測(cè)量不同特質(zhì)的有效性。

在教師數(shù)字素養(yǎng)的測(cè)量中，可基于三種試題模態(tài)和五個(gè)能力維度構(gòu)建數(shù)字素養(yǎng)的多質(zhì)多法模型，如圖2所示。其中，三種試題模態(tài)和五個(gè)能力維度的交叉形成了模型所包含的15個(gè)指標(biāo)，三種試題模態(tài)作為模型的3個(gè)方法潛因子，五個(gè)能力維度作為模型的5個(gè)特質(zhì)潛因子，模型中的每一個(gè)指標(biāo)都?xì)w屬于1個(gè)方法因子和1個(gè)特質(zhì)因子，方法因子之間、特質(zhì)因子之間容許相關(guān)。

通過(guò)多質(zhì)多法模型與數(shù)據(jù)的擬合程度、因子載荷和因子之間的相關(guān)性，可以考查不同模態(tài)試題測(cè)評(píng)相同能力維度的會(huì)聚效度和相同模態(tài)試題測(cè)評(píng)不同能力維度的區(qū)分效度，并比較不同模態(tài)試題測(cè)評(píng)不同能力維度時(shí)在有效性方面的差異。在多質(zhì)多法模型中，良好的會(huì)聚效度代表不同方法測(cè)量同一能力時(shí)呈現(xiàn)出較高的相關(guān)性；而良好的區(qū)分效度則表現(xiàn)為同一方法能準(zhǔn)確測(cè)量不同的能力，但不同能力間的相關(guān)則較低。

2 真實(shí)CAT有效性檢驗(yàn)的優(yōu)化——CLT與真實(shí)CAT測(cè)驗(yàn)公平性的比較

研究發(fā)現(xiàn)，在不同的測(cè)驗(yàn)環(huán)境中個(gè)體人格特質(zhì)可能對(duì)被試的作答表現(xiàn)產(chǎn)生顯著的影響。例如，Von der Embse等^[20]通過(guò)對(duì)238項(xiàng)教育類測(cè)驗(yàn)進(jìn)行元分析，發(fā)現(xiàn)課程測(cè)驗(yàn)成績(jī)、平均績(jī)點(diǎn)和高風(fēng)險(xiǎn)測(cè)驗(yàn)成績(jī)與測(cè)驗(yàn)焦慮間表現(xiàn)出顯著的負(fù)相關(guān)，這些測(cè)驗(yàn)涉及多種國(guó)家級(jí)考試及各類專業(yè)考試，測(cè)驗(yàn)形式既有紙筆類測(cè)驗(yàn)，也有計(jì)算機(jī)化線性測(cè)驗(yàn)和自適應(yīng)測(cè)驗(yàn)。經(jīng)過(guò)研究發(fā)現(xiàn)，在正答概率為0.5和0.7的CAT中，沉思-沖動(dòng)型認(rèn)知風(fēng)格對(duì)被試的試題作答時(shí)間均有顯著影響，且在測(cè)驗(yàn)由難變易（正答概率由0.5變?yōu)?.7）時(shí)，個(gè)體認(rèn)知風(fēng)格的差異與試題特征對(duì)試題作答時(shí)間的總效應(yīng)顯著降低^[21]。此外，研究還證實(shí)，CAT中不同被試的作答行為差異與其人格特質(zhì)息息相關(guān)^[22]。

線性測(cè)驗(yàn)與自適應(yīng)測(cè)驗(yàn)提供了不同的測(cè)驗(yàn)環(huán)境，而不同的測(cè)驗(yàn)環(huán)境可能會(huì)導(dǎo)致個(gè)體人格特質(zhì)對(duì)作答表現(xiàn)（含作答成績(jī)、作答時(shí)間、作答行為）的影響存在顯著差異。由于教育實(shí)踐領(lǐng)域已經(jīng)普遍認(rèn)同了線性測(cè)驗(yàn)的公平性，因此可以將線性測(cè)驗(yàn)作為校標(biāo)，探究個(gè)體人格特質(zhì)在CAT環(huán)境中是否會(huì)對(duì)作答表現(xiàn)產(chǎn)生更強(qiáng)的正面或負(fù)面影響，從而判定CAT是否具有測(cè)驗(yàn)的公平性。

（1）個(gè)體人格特質(zhì)與被試作答表現(xiàn)

人格特質(zhì)是個(gè)體中相對(duì)穩(wěn)定的認(rèn)知、情感和行為模式^[23]。目前普遍認(rèn)同的構(gòu)成人格的基本要素或特質(zhì)是美國(guó)心理學(xué)家Costa等^[24]提出的大五人格特質(zhì)，這是一種闡述人格特質(zhì)的結(jié)構(gòu)關(guān)系的理論，包含五個(gè)維度——神經(jīng)質(zhì)、宜人性、盡責(zé)性、開(kāi)放性、外傾性。經(jīng)過(guò)幾十年的實(shí)證檢驗(yàn)，大五人格特質(zhì)已獲得學(xué)界公認(rèn)，且盡管該理論源自國(guó)外，但在不同文化、民族的群體中，大五人格特質(zhì)均表現(xiàn)出跨文化的一致性。因此，本研究以大五人格特質(zhì)為例，探究其在CLT和CAT測(cè)驗(yàn)環(huán)境中對(duì)被試作答表現(xiàn)的影響是否存在顯著差異。

本研究中的作答表現(xiàn)是指在CLT和CAT中被試的作答成績(jī)以及被試表現(xiàn)出來(lái)的作答時(shí)間和作答行為。其中，作答成績(jī)指被試的能力水平；作答時(shí)間指被試在作答某一試題時(shí)，從開(kāi)始作答到作答結(jié)束所用的時(shí)間；作答行為則是被試在做題過(guò)程中表現(xiàn)出來(lái)的外顯行為，即解題行為和猜答行為。解題行為是指被試對(duì)試題做出認(rèn)真思考并努力尋求正確答案的作答行為；猜答行為是指被試不瀏覽試題，或?yàn)g覽試題但未經(jīng)思考而直接猜測(cè)試題答案的作答行為。要識(shí)別解題行為和猜答行為，需要為每道試題指定一個(gè)時(shí)間閾值，本研究選用了Kong等^[25]提出的標(biāo)準(zhǔn)閾值法作為區(qū)分解題行為和猜答行為的判別方法。

（2）大五人格對(duì)被試作答表現(xiàn)的影響機(jī)制

本研究根據(jù)個(gè)體大五人格的定義和大五人格對(duì)學(xué)習(xí)成績(jī)、學(xué)習(xí)行為影響的文獻(xiàn)綜述^[²⁶^][²⁷^]，以及作答成績(jī)、作答時(shí)間、作答行為之間的相互關(guān)系，做出如下假設(shè)：①被試的神經(jīng)質(zhì)、宜人性、盡責(zé)性對(duì)作答成績(jī)有顯著的影響；②被試的神經(jīng)質(zhì)、盡責(zé)性、外傾性對(duì)作答時(shí)間有顯著的影響；③被試的神經(jīng)質(zhì)、盡責(zé)性、開(kāi)放性對(duì)作答行為有顯著影響；④被試的作答行為對(duì)作答成績(jī)有顯著的影響；⑤被試的作答行為對(duì)作答時(shí)間有顯著影響；⑥被試的神經(jīng)質(zhì)、宜人性、盡責(zé)性、開(kāi)放性、外傾性之間存在顯著相關(guān)。根據(jù)上述假設(shè)，本研究構(gòu)建了圖3所示的個(gè)體大五人格對(duì)被試作答表現(xiàn)影響機(jī)制的結(jié)構(gòu)方程模型，圖中ξ是外源潛變量，η是內(nèi)生潛變量，β描述了內(nèi)生潛變量η之間的關(guān)系，ζ是結(jié)構(gòu)方程的殘差項(xiàng)，反映了η在方程中未能被解釋的部分。

（3）跨組不變性檢驗(yàn)

本研究通過(guò)多組結(jié)構(gòu)方程模型分析來(lái)檢驗(yàn)，在CLT與CAT中個(gè)體大五人格對(duì)被試作答表現(xiàn)的影響機(jī)制是否存在跨組不變性。

首先，利用總樣本、CLT和CAT樣本的作答數(shù)據(jù)分別與圖3中的結(jié)構(gòu)方程模型進(jìn)行擬合，如果模型與數(shù)據(jù)擬合良好，該模型將作為基準(zhǔn)模型用于后續(xù)的多組結(jié)構(gòu)方程模型分析。

然后，在得到基準(zhǔn)模型后，通過(guò)設(shè)置多個(gè)約束條件檢驗(yàn)CLT和CAT之間是否存在不變性，當(dāng)前面的約束條件不成立時(shí)，則不存在跨組不變性，后面的約束條件就不需要再檢驗(yàn)了。可以設(shè)置的約束條件有：①設(shè)定結(jié)構(gòu)系數(shù)相等，即B^?（^CLT^）=B^?（^CAT^），G^?（^CLT^）=G^?（^CAT^）；②增設(shè)潛變量x的協(xié)方差矩陣F相等，即B^?（^CLT^）=B^?（^CAT^），G^?（^CLT^）=G^?（^CAT^），F ^（^CLT^）=F ^（^C^AT^）；③增設(shè)殘差項(xiàng)?的協(xié)方差矩陣Y 相等，即B^?（^CLT^）=B^?（^CAT^），G^?（^CLT^）=G^?（^CAT^），F ^（^CLT^）=F ^（^C^AT^），Y ^（^CLT^）=Y ^（^CAT^）。

最后，比較結(jié)構(gòu)方程模型中外源潛變量對(duì)內(nèi)生潛變量的直接效應(yīng)和間接效應(yīng)是否具有跨組不變性。

若檢驗(yàn)結(jié)果顯示CLT與CAT之間存在跨組不變性，表明CLT與CAT具有相似的測(cè)驗(yàn)公平性。若檢驗(yàn)結(jié)果顯示CLT與CAT之間不存在跨組不變性，則需要進(jìn)一步分析CLT與CAT中大五人格特質(zhì)對(duì)作答表現(xiàn)的影響孰強(qiáng)孰弱，若CAT強(qiáng)于CLT，則CAT的測(cè)驗(yàn)公平性差于CLT；若CAT弱于CLT，則CAT的測(cè)驗(yàn)公平性優(yōu)于CLT。

五結(jié)語(yǔ)

本研究在闡述CAT有效性檢驗(yàn)內(nèi)涵的基礎(chǔ)上，探討了題庫(kù)、模擬CAT和真實(shí)CAT有效性檢驗(yàn)的基本環(huán)節(jié)，并進(jìn)一步提出了優(yōu)化題庫(kù)和真實(shí)CAT有效性檢驗(yàn)的改進(jìn)方法，從而形成了CAT有效性檢驗(yàn)的完整流程。研究?jī)?nèi)容側(cè)重于以定量的方法探討CAT的有效性檢驗(yàn)，但實(shí)際上，定性的方法也能為CAT的有效性檢驗(yàn)提供證據(jù)。例如，在一次CAT施測(cè)前，并未告知被試將要進(jìn)行的是自適應(yīng)測(cè)驗(yàn)，施測(cè)后研究團(tuán)隊(duì)組織被試進(jìn)行了座談，座談中有被試提及在測(cè)驗(yàn)中有一種特殊的感覺(jué)，即當(dāng)自己有把握答對(duì)試題時(shí)，后續(xù)試題會(huì)變難；當(dāng)自己遇到不會(huì)做的試題時(shí)，后續(xù)試題會(huì)變得容易。無(wú)疑，被試以自己的感知，為CAT中選題策略的有效性提供了強(qiáng)有力的證據(jù)。然而本研究提出的題庫(kù)與真實(shí)CAT有效性檢驗(yàn)的改進(jìn)方法僅從理論層面做了探討，尚未進(jìn)行實(shí)踐，因此在未來(lái)CAT有效性檢驗(yàn)的研究中，研究團(tuán)隊(duì)將注重開(kāi)展定量與定性方法結(jié)合的實(shí)證探索，從不同的角度為CAT的有效性檢驗(yàn)積累更多證據(jù)，這更符合測(cè)驗(yàn)有效性檢驗(yàn)的內(nèi)涵，即有效性檢驗(yàn)是一個(gè)收集證據(jù)的過(guò)程，它不是一個(gè)全或無(wú)的問(wèn)題，而是一個(gè)程度大小的問(wèn)題。

參考文獻(xiàn)

[1]Weiss D J. Improving measurement quality and efficiency with adaptive testing[J]. Applied Psychological Measurement，?1982，（4）：473-492.

[2]Wang Y， Lu H. Validating items of different modalities to assess the educational technology competency of pre-service teachers[J]. Computers & Education， 2021，162：104081.

[3][6]AERA， APA， NCME. Standards for educational and psychological testing[M]. Washington D C：?American Educational Research Association，?1985：9、94.

[4]Bingham W V. Aptitudes and aptitude testing[M]. New York： Harper & Brothers，?1937：204.

[5]劉慶思.效度驗(yàn)證：教育考試亟需補(bǔ)齊的短板[J].中國(guó)考試，2018，（4）：16-21.

[7]張厚粲，龔耀先.心理測(cè)量學(xué)[M].杭州：浙江教育出版社，2012：208.

[8]王玥，常淑娟，韓曉玲，等.基于項(xiàng)目反應(yīng)理論的題庫(kù)構(gòu)建及其有效性檢驗(yàn)——以“現(xiàn)代教育技術(shù)”公共課為例[J].現(xiàn)代教育技術(shù)，2019，（10）：41-47.

[9]溫忠麟，侯杰泰，馬什赫伯特.結(jié)構(gòu)方程模型檢驗(yàn)：擬合指數(shù)與卡方準(zhǔn)則[J].心理學(xué)報(bào)，2004，（2）：186-194.

[10]Reeve B B， Hays R D， Bjorner J B， et al. Psychometric evaluation and calibration of health-related quality of life item banks： Plans for the patient-reported outcomes measurement information system （PROMIS）[J]. Medical Care，?2007，（5）：22-31.

[11]Choi S W， Gibbons L E， Crane P K. Lordif： An R package for detecting differential item functioning using iterative hybrid ordinal logistic regression/item response theory and Monte Carlo simulations[J]. Journal of Statistical Software，?2011，（8）：1-30.

[12]張宏.基于IRT的試題分析：R軟件ltm包運(yùn)用實(shí)例[J].中國(guó)考試，2012，（8）：45-51.

[13]Smits N， Paap M C S，?B?hnke J R. Some recommendations for developing multidimensional computerized adaptive tests for patient-reported outcomes[J]. Quality of Life Research，?2018，（4）：1055-1063.

[14]Chang H?H， Qian J， Ying Z. A-Stratified multistage computerized adaptive testing with b blocking[J]. Applied Psychological Measurement，?2001，（4）：333-341.

[15]余嘉元，汪存友.項(xiàng)目反應(yīng)理論參數(shù)估計(jì)研究中的蒙特卡羅方法[J].南京師大學(xué)報(bào)（社會(huì)科學(xué)版），2007，（1）：87-91.

[16][21]陸宏，王玥，王超，等.計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)中沉思-沖動(dòng)型認(rèn)知風(fēng)格、能力水平、試題難度與試題作答時(shí)間的關(guān)系分析[J].現(xiàn)代教育技術(shù)， 2020，（10）：91-97.

[17]教育部.關(guān)于發(fā)布《教師數(shù)字素養(yǎng)》教育行業(yè)標(biāo)準(zhǔn)的通知[OL].

[18]Hull J G， Lehn D A， Tedlie J C. A general approach to testing multifaceted personality constructs[J] Journal of Personality and Social Psychology，?1991，（6）：932-945.

[19]Campbell D T， Fiske D W. Convergent and discriminant validation by the multitrait-multimethod matrix[J]. Psychological Bulletin，?1959，（2）：81-105.

[20]Von der Embse N， Jester D， Roy D， et al. Test anxiety effects， predictors， and correlates： A 30-year meta-analytic review[J]. Journal of Affective Disorders，?2018，227：483-493.

[22]Lu H， Tian Y， Wang C. The influence of ability level and big five personality traits on examinees test-taking behaviour in computerised adaptive testing[J]. International Journal of Social Media and Interactive Learning Environments，?2018，（1）：70-84.

[23]Steel P， Schmidt J， Shultz J. Refining the relationship between personality and subjective well-being[J] Psychological Bulletin，?2008，（1）：138-161.

[24]Costa Jr?P T， McCrae R R. From catalog to classification： Murrays needs and the five-factor model[J]. Journal of Personality & Social Psychology，?1988，（2）：258-265.

[25]Kong X J， Wise S L， Bhola D S. Setting the response time threshold parameter to differentiate solution behavior from rapid-guessing behavior[J]. Educational & Psychological Measurement，?2007，（4）：606-619.

[26]Wang H， Liu Y， Wang Z， et al. The influences of the big five personality traits on academic achievements： Chain mediating effect based on major identity and self-efficacy[J]. Frontiers in Psychology，?2023，（1）：1-21.

[27]Tett R R， Jackson D N， Rothstein M， et al. Meta-analysis of personality-job performance relations： A reply to ones， mount， barrick， and hunter?（1994）[J].?Personnel Psychology， 2010，（1）：157-172.

The Investigation and Optimization of Validity Testing for Computerized Adaptive Testing

LIXin-YuWANG?Chao????LU Hong^{[Corresponding Author]}

（Faculty of Education， Shandong Normal University， Jinan， Shandong， China 250014）

Abstract：The validity testing of computerized adaptive testing （CAT）?is a?necessary step in evaluating test generation?and interpreting test results as appropriate and rational. However， systematic studies on CAT validity test were rarely conducted. In order to?make up for the deficiency，?based on the analysis of the connotation of CAT validity test，?the firstly combed the basic contents of IRT-based question bank， simulated CAT and real CAT validity test.?Then， according to the characteristics of the question bank gradually changing to multi-dimension and multi-mode， this paper put forward a method to check the validity of multi-dimension and multi-mode questions by using high-order factor model and multi-quality and multi-method model. Moreover， from the view of test fairness， it was suggested to test whether the influence of individual personality traits on participants response performance?was invariable?across groups between CLT and CAT. Finally， a whole procedure for verifying the validity of CAT?that conformed to the development of The Times was formed， expecting?to provide help for the continuous improvement of CAT and its popularization?in educational practice.

Keywords：computerized adaptive testing; validity testing， multi-dimensional and?multi-modal item; test fairness

作者簡(jiǎn)介：李心鈺，在讀博士，研究方向?yàn)橛?jì)算機(jī)教育應(yīng)用，郵箱為echo_lixinyu@163.com。

編輯：小時(shí)

現(xiàn)代教育技術(shù)2024年6期

現(xiàn)代教育技術(shù)的其它文章: 實(shí)踐場(chǎng)域中促進(jìn)教師發(fā)展的智力資源跨區(qū)域擴(kuò)散模型研究; 培育智能時(shí)代的專家學(xué)習(xí)者; 生成式人工智能在教育領(lǐng)域的倫理風(fēng)險(xiǎn)與治理路徑; 生成式人工智能與教育變革：價(jià)值、困難與策略; 破解“南國(guó)農(nóng)之問(wèn)”，助力新質(zhì)教育; 服務(wù)深度學(xué)習(xí)的智慧空間：理念、模型建構(gòu) 與實(shí)現(xiàn)路徑

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)有效性檢驗(yàn)的探索與優(yōu)化