亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        測(cè)驗(yàn)?zāi)J叫?yīng):來(lái)源、檢測(cè)與應(yīng)用*

        2023-10-09 06:31:24黃穎詩(shī)
        心理科學(xué)進(jìn)展 2023年10期
        關(guān)鍵詞:測(cè)驗(yàn)層面形式

        陳 平 代 藝 黃穎詩(shī)

        ·研究方法(Research Method)·

        測(cè)驗(yàn)?zāi)J叫?yīng):來(lái)源、檢測(cè)與應(yīng)用*

        陳 平 代 藝 黃穎詩(shī)

        (北京師范大學(xué)中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心, 北京 100875)

        測(cè)驗(yàn)?zāi)J叫?yīng)(Test Mode Effect, TME)是指同一測(cè)驗(yàn)采用不同測(cè)驗(yàn)形式施測(cè)而產(chǎn)生的測(cè)驗(yàn)功能差異。TME的存在會(huì)對(duì)測(cè)驗(yàn)公平、選拔標(biāo)準(zhǔn)和測(cè)驗(yàn)等值等產(chǎn)生影響, 因此對(duì)TME進(jìn)行準(zhǔn)確檢測(cè)和合理解釋具有重要意義。通過(guò)對(duì)TME的來(lái)源、檢測(cè)(包括實(shí)驗(yàn)設(shè)計(jì)和檢測(cè)方法)以及研究結(jié)果進(jìn)行系統(tǒng)梳理, 全面展示TME研究的方法論。對(duì)TME模型進(jìn)行進(jìn)一步解釋、對(duì)TME研究中的測(cè)驗(yàn)形式進(jìn)行拓展以及將TME的研究成果應(yīng)用于我國(guó)的大規(guī)模教育測(cè)評(píng)項(xiàng)目, 都是TME領(lǐng)域的未來(lái)重要發(fā)展方向。

        測(cè)驗(yàn)?zāi)J叫?yīng), 測(cè)驗(yàn)公平, 測(cè)量不變性, 計(jì)算機(jī)測(cè)驗(yàn)

        1 引言

        隨著計(jì)算機(jī)技術(shù)的進(jìn)步和網(wǎng)絡(luò)的普及, 計(jì)算機(jī)測(cè)驗(yàn)已經(jīng)在測(cè)量和評(píng)估領(lǐng)域得到廣泛使用。大到國(guó)際大規(guī)模測(cè)評(píng)項(xiàng)目, 小到課堂測(cè)試, 都越來(lái)越多地使用計(jì)算機(jī)進(jìn)行施測(cè)。測(cè)驗(yàn)形式正經(jīng)歷著從傳統(tǒng)“紙筆測(cè)驗(yàn)(Paper-based Testing, PBT)”向“計(jì)算機(jī)測(cè)驗(yàn)(Computer-based Testing, CBT)”的轉(zhuǎn)變。與PBT相比, CBT具有很多優(yōu)點(diǎn), 比如: (1)采用計(jì)算機(jī)輔助測(cè)驗(yàn), 測(cè)量更加高效、公平; (2)可以呈現(xiàn)高生態(tài)效度和高交互性的新穎題型, 增加被試的作答興趣(Pomplun et al., 2006); (3)可以方便記錄被試的作答步驟、動(dòng)作序列和作答時(shí)間等過(guò)程性信息, 從而更全面地評(píng)價(jià)被試。正因如此, CBT已在國(guó)際學(xué)生評(píng)估項(xiàng)目(Programme for International Student Assessment, PISA)、國(guó)際數(shù)學(xué)和科學(xué)趨勢(shì)研究(Trends in International Mathematics and Science Study, TIMSS)、美國(guó)國(guó)家教育進(jìn)展評(píng)估(National Assessment of Educational Progress, NAEP)等大規(guī)模測(cè)評(píng)項(xiàng)目中得到廣泛應(yīng)用(檀慧玲等, 2018)。

        盡管大多數(shù)測(cè)驗(yàn)都在朝著CBT的方向發(fā)展, 但這并非一個(gè)簡(jiǎn)單的過(guò)程。在進(jìn)行測(cè)驗(yàn)形式的轉(zhuǎn)化之前, 研究者和實(shí)踐者面臨一個(gè)關(guān)鍵性問(wèn)題: 當(dāng)同一測(cè)驗(yàn)采用不同測(cè)驗(yàn)形式(比如PBT和CBT)施測(cè)時(shí), 其測(cè)驗(yàn)結(jié)果不一定相同, 因而不能盲目地對(duì)它們進(jìn)行直接比較(Jerrim, 2016)。這種由測(cè)驗(yàn)形式不同而帶來(lái)的測(cè)驗(yàn)功能差異, 被稱為測(cè)驗(yàn)?zāi)J叫?yīng)(Test Mode Effect, TME; Kroehne et al., 2019; OECD, 2017)。在已有研究中, TME在絕大多數(shù)情況下特指PBT和CBT這兩種測(cè)驗(yàn)形式間的差異??紤]到測(cè)驗(yàn)形式從PBT向CBT轉(zhuǎn)變是大勢(shì)所趨, 因此對(duì)TME進(jìn)行研究具有以下重要意義:

        首先, 對(duì)TME進(jìn)行研究可以促進(jìn)測(cè)驗(yàn)公平。測(cè)驗(yàn)公平是衡量測(cè)驗(yàn)質(zhì)量的一個(gè)重要方面, 一直受到測(cè)驗(yàn)開(kāi)發(fā)者、使用者、心理測(cè)量學(xué)家和普通大眾的廣泛關(guān)注(Kline, 2013)。一個(gè)公平的測(cè)驗(yàn)應(yīng)該能給被試提供平等的機(jī)會(huì), 來(lái)反映他們掌握的與測(cè)驗(yàn)?zāi)康南嚓P(guān)的知識(shí)和技能。然而, 不同測(cè)驗(yàn)形式間的轉(zhuǎn)換可能會(huì)引入與測(cè)驗(yàn)?zāi)康臒o(wú)關(guān)的變量, 比如被試操作計(jì)算機(jī)的能力可能會(huì)對(duì)其CBT的成績(jī)產(chǎn)生影響。因此, 研究TME有助于明確和控制無(wú)關(guān)因素的影響, 從而提高測(cè)驗(yàn)的公平性。

        其次, 對(duì)TME進(jìn)行研究可以保障選拔結(jié)果的可比性。很多大型考試都曾出現(xiàn)同時(shí)使用PBT和CBT的情況。比如, TOEFL就同時(shí)存在PBT和基于互聯(lián)網(wǎng)的測(cè)驗(yàn)(Internet-based Testing, iBT)等多種測(cè)驗(yàn)形式??紤]到TME的存在, 美國(guó)教育考試服務(wù)中心在使用PBT時(shí), 并不是將CBT中的題目直接轉(zhuǎn)移到PBT上, 而是有針對(duì)性地對(duì)PBT中的測(cè)驗(yàn)內(nèi)容、實(shí)施過(guò)程和評(píng)價(jià)標(biāo)準(zhǔn)等進(jìn)行修改, 以保障不同測(cè)驗(yàn)形式下的結(jié)果具有可比性, 從而增加選拔與評(píng)價(jià)結(jié)果的可信度。

        最后, 對(duì)TME進(jìn)行研究可以幫助獲得準(zhǔn)確的等值結(jié)果。隨著CBT的廣泛使用, PISA等國(guó)際測(cè)評(píng)項(xiàng)目已經(jīng)出現(xiàn)“不同測(cè)驗(yàn)周期使用不同測(cè)驗(yàn)形式”的情況(Feskens et al., 2019)。TME的存在會(huì)影響不同測(cè)驗(yàn)周期學(xué)生分?jǐn)?shù)等值結(jié)果的準(zhǔn)確性, 使得研究者沒(méi)法合理刻畫(huà)學(xué)生的能力發(fā)展趨勢(shì), 進(jìn)而削弱教育評(píng)估項(xiàng)目的意義。因此, 對(duì)題庫(kù)中可能存在TME的題目進(jìn)行檢測(cè), 可進(jìn)一步改善測(cè)驗(yàn)和題目質(zhì)量, 從而保障教育評(píng)估項(xiàng)目的有效性。

        鑒于這一主題的重要性, 本文對(duì)TME進(jìn)行系統(tǒng)述評(píng), 以期為測(cè)量研究者與實(shí)踐者了解TME的來(lái)源、檢測(cè)方法和研究思路提供幫助。本文將按以下順序進(jìn)行組織: 首先介紹TME的來(lái)源, 然后探討TME的檢測(cè)(包括控制TME影響的實(shí)驗(yàn)設(shè)計(jì)和對(duì)TME進(jìn)行檢測(cè)的方法), 接著總結(jié)TME研究的結(jié)果與不足, 最后展望TME的未來(lái)研究方向。

        2 TME的來(lái)源

        TME來(lái)源于測(cè)驗(yàn)形式不同所帶來(lái)的差異, 這種差異可以來(lái)自4個(gè)層面: 測(cè)驗(yàn)層面、題目層面、被試層面和評(píng)分者層面。接下來(lái)分別介紹這4個(gè)層面的差異如何導(dǎo)致TME的產(chǎn)生。

        2.1 測(cè)驗(yàn)層面

        測(cè)驗(yàn)層面的差異是指由于不同測(cè)驗(yàn)形式具有的特征不同而導(dǎo)致的差異, 比如PBT與CBT在作答設(shè)備、作答過(guò)程中是否允許檢查并修改答案、測(cè)驗(yàn)過(guò)程中有無(wú)監(jiān)督以及測(cè)驗(yàn)計(jì)時(shí)和選題方式等方面都具有不同的特征。具體來(lái)說(shuō):

        (1)作答設(shè)備。在PBT中, 被試通常使用紙筆進(jìn)行作答; 而在CBT中, 被試需要在顯示屏上閱讀題目, 并使用鼠標(biāo)和鍵盤(pán)進(jìn)行作答。屏幕大小、分辨率和刷新速度等都可能對(duì)被試在計(jì)算機(jī)上的作答產(chǎn)生影響。Ziefle (1998)對(duì)被試在PBT和兩種屏幕分辨率(1664×1200和832×600)下CBT的閱讀表現(xiàn)及感受到的疲勞程度進(jìn)行比較, 結(jié)果發(fā)現(xiàn): 被試在PBT中的表現(xiàn)顯著好于兩種分辨率下CBT的表現(xiàn); 而且分辨率越高, 被試感受到的疲勞程度越輕。在屏幕大小方面, 其對(duì)TME的影響因人而異, 但總體來(lái)說(shuō), 更大的屏幕會(huì)增加文字的可讀性, 從而提高測(cè)驗(yàn)表現(xiàn)(Bridgeman et al., 2003)。

        (2)是否允許檢查并修改答案。在PBT中, 被試可以不按題目的呈現(xiàn)順序進(jìn)行作答, 甚至可以隨時(shí)對(duì)已作答題目進(jìn)行檢查并修改答案; 而有些CBT (如計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)[Computerized Adaptive Testing, CAT])一般不允許被試返回檢查并修改答案, 主要是因?yàn)榭荚嚈C(jī)構(gòu)擔(dān)心提供修改機(jī)會(huì)會(huì)帶來(lái)兩個(gè)問(wèn)題: ①“聰明”被試或“聰明”備考機(jī)構(gòu)所指導(dǎo)的被試通過(guò)采用Wainer策略(Wainer, 1993)和Kingsbury策略(Wise et al., 1997)等作弊策略獲得虛高的分?jǐn)?shù), 從而影響測(cè)驗(yàn)的公平性、公正性和準(zhǔn)確性; ②增加測(cè)驗(yàn)時(shí)間, 相應(yīng)地增加測(cè)驗(yàn)費(fèi)用。CAT不提供修改功能也會(huì)給被試帶來(lái)兩方面的影響: ①被試在PBT中慣用的作答策略不能用于CAT, 會(huì)給他們帶來(lái)焦慮和壓力; ②若被試完全有能力答對(duì)某道題目但是鍵入或點(diǎn)擊失誤了, 不允許修改會(huì)導(dǎo)致其能力被低估; 相反, 若被試沒(méi)有能力答對(duì)某道題目但是猜對(duì)了, 不允許修改會(huì)導(dǎo)致其能力被高估(陳平, 丁樹(shù)良, 2008; 高旭亮等, 2016; 林喆等, 2015)。不提供修改機(jī)會(huì)的CAT可能導(dǎo)致TME的產(chǎn)生。

        (3)測(cè)驗(yàn)過(guò)程有無(wú)監(jiān)督。一般情況下, PBT的實(shí)施過(guò)程中往往有主試在場(chǎng)監(jiān)督; 而對(duì)于部分CBT (比如通過(guò)網(wǎng)絡(luò)進(jìn)行的在線測(cè)驗(yàn))很有可能會(huì)在無(wú)人監(jiān)督的情況下開(kāi)展, 這也有可能導(dǎo)致TME的產(chǎn)生。Goldberg和Pedulla(2002)比較被試在PBT、有監(jiān)督CBT和無(wú)監(jiān)督CBT的GRE分?jǐn)?shù), 結(jié)果表明: 被試在PBT和有監(jiān)督CBT中的表現(xiàn)顯著好于無(wú)監(jiān)督CBT。測(cè)驗(yàn)過(guò)程有無(wú)監(jiān)督可能會(huì)對(duì)被試的作答動(dòng)機(jī)產(chǎn)生影響, 從而影響其在測(cè)驗(yàn)中的表現(xiàn)。

        (4)測(cè)驗(yàn)計(jì)時(shí)與選題方式。在CBT中, 計(jì)算機(jī)為更精細(xì)的考試流程設(shè)計(jì)提供了可能: ①測(cè)驗(yàn)開(kāi)發(fā)者可以將測(cè)驗(yàn)的計(jì)時(shí)設(shè)計(jì)為“以單道題目為單位”、“以測(cè)驗(yàn)?zāi)K為單位”或“以整個(gè)測(cè)驗(yàn)為單位”; ②測(cè)驗(yàn)的組卷不再拘泥于固定試題, 而允許被試作答與自身能力匹配的題目(即CAT)。雖然沒(méi)有研究直接表明不同的測(cè)驗(yàn)計(jì)時(shí)設(shè)計(jì)會(huì)引起TME, 但是相比于以單道題為單位的計(jì)時(shí), 目前主流的大型CBT (如PISA和NAEP)通常以一個(gè)測(cè)驗(yàn)?zāi)K為單位進(jìn)行計(jì)時(shí), 且部分CBT (如GRE)允許被試選擇偏好的時(shí)間呈現(xiàn)方式(即顯示或不顯示倒計(jì)時(shí))。另外, 相比于可能包含簡(jiǎn)單題的PBT, CAT中高能力水平被試的測(cè)驗(yàn)過(guò)程可能更“吃力”, 因?yàn)榭偸亲鞔鹋c自身能力水平匹配的難題。為探究CAT匹配被試能力的選題策略是否會(huì)增加被試的測(cè)驗(yàn)焦慮程度進(jìn)而引起TME, Powers (1999)基于GRE的PBT和CBT樣本進(jìn)行回歸分析, 發(fā)現(xiàn)被試在兩種測(cè)驗(yàn)形式下的焦慮與GRE分?jǐn)?shù)之間的關(guān)系并無(wú)顯著差異, 而且自適應(yīng)的選題策略并未加劇被試的測(cè)驗(yàn)焦慮。Fritts和Marszalek (2010)分析中學(xué)生的學(xué)業(yè)進(jìn)度測(cè)驗(yàn)(measures of academic progress)結(jié)果后發(fā)現(xiàn): 在控制被試對(duì)考試的基線焦慮水平和對(duì)電腦使用的焦慮后, 相比于CAT, 被試在PBT上表現(xiàn)出更高的焦慮水平。

        2.2 題目層面

        題目層面的差異來(lái)源于題目本身的屬性, 這些屬性可能在不同測(cè)驗(yàn)形式下的表現(xiàn)不同, 從而導(dǎo)致TME的產(chǎn)生。具體包括:

        (1)題目呈現(xiàn)方式。呈現(xiàn)方式包括題目的字體、字號(hào)、粗細(xì)和顏色(Bernard et al., 2002; Bernard & Mills, 2000)、每一行的文字長(zhǎng)度(Chaparro et al., 2002)、每一頁(yè)中呈現(xiàn)的題目數(shù)量和行數(shù)(Duchnicky & Kolers, 1983)以及每一頁(yè)中空白部分的面積大小(McMullin et al., 2002)等。由于CBT的形式多樣且多借助現(xiàn)成軟件或平臺(tái)進(jìn)行施測(cè), 很難保證所有題目都以相同方式呈現(xiàn)給被試, 從而導(dǎo)致TME的產(chǎn)生。

        (2)題目類(lèi)型。題目類(lèi)型可能會(huì)影響被試和題目間的交互方式, 從而影響被試的作答表現(xiàn)(Kr?hne & Martens, 2011)。題目類(lèi)型主要包括兩大類(lèi): 選擇題與建構(gòu)題。對(duì)于選擇題, 特別是當(dāng)題目較短時(shí), 不同測(cè)驗(yàn)形式的差異較小, 較少檢測(cè)出TME (Buerger et al., 2016; Lynch, 2022)。而對(duì)于建構(gòu)題, 考生在PBT上的表現(xiàn)傾向于比CBT更好(Bennett et al., 2008)。這可能源于題目交互方式的復(fù)雜程度的變化, 交互方式較復(fù)雜的題目更容易影響被試在CBT上的成績(jī)(Kingston, 2008)。例如, 當(dāng)題目包含較長(zhǎng)的文本或作答過(guò)程涉及使用鼠標(biāo)、滾輪和下拉菜單等, 題目的作答難度會(huì)增加(Poggio et al., 2005)。另外, Liu等人(2016)對(duì)美國(guó)基礎(chǔ)教育評(píng)價(jià)系統(tǒng)(PARCC)的數(shù)學(xué)建構(gòu)題進(jìn)行分析后發(fā)現(xiàn): 相對(duì)于PBT被試群體, CBT被試群體在低年級(jí)(3~8年級(jí))題目上的表現(xiàn)更好; 而對(duì)于高年級(jí)的建構(gòu)題, 結(jié)論則相反。這意味著題型在不同測(cè)驗(yàn)形式上的差異還可能源于題目所涉及的認(rèn)知過(guò)程不同。Johnson和Green (2006)通過(guò)觀察和訪談小學(xué)生后發(fā)現(xiàn), 約1/3的被試在作答不同測(cè)驗(yàn)形式下的題目時(shí)會(huì)采用不同的作答策略。而對(duì)于作文任務(wù), 研究認(rèn)為被試在CBT上的表現(xiàn)優(yōu)于PBT, 或兩者沒(méi)有顯著差異(Lee, 2002; Lynch, 2022; Zhi & Huang, 2021)。Li (2006)讓被試在作答學(xué)術(shù)英語(yǔ)任務(wù)(English for academic purposes)時(shí)進(jìn)行出聲思維, 發(fā)現(xiàn)被試在CBT上展現(xiàn)出更高階的思維能力, 并且比PBT做出更多的修改。相比于關(guān)注單詞水平的修改, 被試在CBT上更多地進(jìn)行句子和段落層次的完善和組織(Chan et al., 2018)。

        2.3 被試層面

        被試層面的差異來(lái)源于被試本身的屬性, 這些屬性并非測(cè)驗(yàn)想要測(cè)量的特質(zhì), 但是它們?cè)诓煌瑴y(cè)驗(yàn)形式上的差異可能會(huì)導(dǎo)致TME的產(chǎn)生。具體包括:

        (1)人口學(xué)變量。性別、年齡、種族和社會(huì)經(jīng)濟(jì)地位等人口學(xué)變量并不直接導(dǎo)致TME, 而是通過(guò)影響與測(cè)驗(yàn)?zāi)康南嚓P(guān)的被試能力等來(lái)間接導(dǎo)致TME。比如, 老年人可能由于使用計(jì)算機(jī)的熟練程度不如年輕人, 因而在CBT上的表現(xiàn)更差(Chua et al., 1999); 但也有研究表明, 年齡帶來(lái)的差異并不像研究者預(yù)期的那樣顯著(Weigold et al., 2016)。Fouladi等人(2002)發(fā)現(xiàn)不同測(cè)驗(yàn)形式間的結(jié)果存在較大差異, 但在控制性別和種族的影響后, 不同測(cè)驗(yàn)形式間的結(jié)果差異顯著減小。

        (2)計(jì)算機(jī)的熟練程度。對(duì)計(jì)算機(jī)使用越熟練, 在CBT中的表現(xiàn)就越好(Jerrim et al., 2018; Pomplun, 2007)。一方面, 對(duì)計(jì)算機(jī)越熟練, 在作答時(shí)的操作就越快捷; 另一方面, 被試的學(xué)習(xí)過(guò)程和測(cè)試過(guò)程的形式相匹配時(shí), 他們的作答分?jǐn)?shù)會(huì)更高, 即存在一定的遷移適用加工過(guò)程(transfer appropriate processing; Clariana & Wallace, 2002)。但也有研究發(fā)現(xiàn), 使用計(jì)算機(jī)的熟練程度不會(huì)對(duì)被試在CBT上的結(jié)果產(chǎn)生影響(Jeong, 2012)。

        (3)作答動(dòng)機(jī)。與低利害測(cè)驗(yàn)相比, 參加高利害測(cè)驗(yàn)的被試具有更高的作答動(dòng)機(jī), 從而在PBT和CBT上有更相近的表現(xiàn)(Rowan, 2010)。有意思的是, 也有研究發(fā)現(xiàn): 與PBT相比, 被試對(duì)CBT普遍有更好的體驗(yàn)、更高的作答動(dòng)機(jī)和自我效能感, 但在CBT上的得分卻更低(Chua, 2012)。

        2.4 評(píng)分者層面

        評(píng)分者層面的差異本質(zhì)上源于評(píng)分者內(nèi)在認(rèn)知加工的不同, 認(rèn)知加工的不同可能使得評(píng)分者在不同測(cè)驗(yàn)形式下的評(píng)分結(jié)果有所差異, 從而導(dǎo)致TME的產(chǎn)生。也即, 評(píng)分者效應(yīng)(rater effect; 韓建濤等, 2019)也可能是TME的來(lái)源之一。測(cè)驗(yàn)中的客觀題由于評(píng)分標(biāo)準(zhǔn)明確、客觀, 所以其評(píng)分結(jié)果不易被評(píng)分者效應(yīng)影響; 而對(duì)于主觀題, 其評(píng)分結(jié)果則容易受到評(píng)分者主觀因素的影響, 從而導(dǎo)致其在PBT和CBT中的評(píng)分結(jié)果存在差異。具體來(lái)說(shuō), 評(píng)分者在評(píng)定不同測(cè)驗(yàn)形式下的被試作答時(shí), 主要受到被試作答呈現(xiàn)方式的影響(Hunsu, 2015), 其中手寫(xiě)版(handwritten)和打字版(typed or word-processed)的差異是研究關(guān)注的重點(diǎn)。Arnold等人(1990)發(fā)現(xiàn), 評(píng)分者傾向于對(duì)手寫(xiě)版作答采用更寬松的標(biāo)準(zhǔn), 而對(duì)打字版更苛刻。這可能是因?yàn)槭謱?xiě)作答在一定程度上具有更長(zhǎng)的感知視覺(jué)效果, 并保留被試的修改痕跡, 而且有評(píng)分者認(rèn)為手寫(xiě)版比打字版更有“力量” (Powers et al., 1994; Russell & Tao, 2004a)。另外, 為探討不同測(cè)驗(yàn)形式給評(píng)分者帶來(lái)的感知長(zhǎng)度差異對(duì)測(cè)驗(yàn)結(jié)果的影響, 研究者對(duì)比單倍行距與雙倍行距的作文評(píng)分, 發(fā)現(xiàn)長(zhǎng)度的變化并沒(méi)有消除CBT與PBT的得分差異(Russell & Tao, 2004b)。

        需要注意的是, 來(lái)自評(píng)分者的影響通常與題型相互交織, 評(píng)分者對(duì)CBT與PBT的評(píng)分差異大多出現(xiàn)于建構(gòu)題上。為區(qū)分兩者的影響, 研究者將手寫(xiě)版的作答輸入計(jì)算機(jī), 讓評(píng)分者對(duì)混合之后的打字版作答進(jìn)行評(píng)分, 發(fā)現(xiàn)被試在CBT上的得分更高(Jin & Yan, 2017; Russell & Haney, 1997)。但也有對(duì)學(xué)術(shù)英語(yǔ)測(cè)試的研究發(fā)現(xiàn), 控制評(píng)分者的嚴(yán)格程度和信度之后, 被試在CBT與PBT下的整體測(cè)驗(yàn)得分差異較小, 評(píng)分者僅在詞匯量測(cè)試題中呈現(xiàn)出對(duì)手寫(xiě)版的偏好(Chan et al., 2018)。

        表1對(duì)TME的來(lái)源進(jìn)行總結(jié), 并對(duì)TME的產(chǎn)生進(jìn)行說(shuō)明。

        在實(shí)踐中, 研究者往往需要在排除無(wú)關(guān)變量的影響后, 再探究測(cè)驗(yàn)形式對(duì)測(cè)驗(yàn)結(jié)果的影響。因此, 對(duì)TME的來(lái)源進(jìn)行梳理有助于研究者在實(shí)驗(yàn)設(shè)計(jì)階段對(duì)無(wú)關(guān)變量進(jìn)行嚴(yán)格控制, 以減少無(wú)關(guān)變量的影響。比如, 在測(cè)驗(yàn)層面保證被試都能檢查并修改答案, 且作答過(guò)程都在有人監(jiān)督的情況下進(jìn)行; 在題目層面保證所有題目在PBT和CBT上有相同的呈現(xiàn)效果; 在被試層面保證在兩種測(cè)驗(yàn)形式上作答的被試的年齡和性別等方面一致。

        3 TME的檢測(cè)

        3.1 TME的實(shí)驗(yàn)設(shè)計(jì)

        TME研究一般采用兩類(lèi)實(shí)驗(yàn)設(shè)計(jì)控制被試特征: 組間設(shè)計(jì)和組內(nèi)設(shè)計(jì)(Buerger et al., 2016)。在TME的研究背景下, 組間設(shè)計(jì)中每名被試只接受PBT或者CBT, 而在組內(nèi)設(shè)計(jì)中每名被試先后接受這兩種測(cè)驗(yàn)形式。TME組間設(shè)計(jì)和組內(nèi)設(shè)計(jì)如圖1所示(共名被試和道題)。根據(jù)被試是否能夠自由選擇測(cè)驗(yàn)形式, 組間設(shè)計(jì)又被分為兩類(lèi): (1)自由選擇。即被試可以自由選擇測(cè)驗(yàn)形式(Puhan et al., 2007); (2)隨機(jī)分配。即研究者將被試隨機(jī)分配給某種測(cè)驗(yàn)形式(Gu et al., 2021; Schwarz et al., 2003)。根據(jù)被試作答順序是否固定, 組內(nèi)設(shè)計(jì)也可以被分為兩類(lèi): (1)固定順序。即所有被試接受兩種形式測(cè)驗(yàn)的順序固定且一致(Jeong, 2012); (2)平衡順序。即先將被試隨機(jī)分成兩組, 一組先接受測(cè)驗(yàn)形式A (如PBT), 一段時(shí)間后再接受測(cè)驗(yàn)形式B (如CBT), 另一組則與之相反, 即所謂的“AB-BA設(shè)計(jì)” (Bodmann & Robinson, 2004; Kim et al., 2018; Seifert & Paleczek, 2022)。

        表1 TME的來(lái)源和對(duì)TME產(chǎn)生的說(shuō)明

        組間設(shè)計(jì)和組內(nèi)設(shè)計(jì)各有其適用范圍。與前者比, 后者能有效避免由組間個(gè)體差異帶來(lái)的無(wú)關(guān)變量干擾, 但也容易受到疲勞效應(yīng)和練習(xí)效應(yīng)的影響, 因此適用于樣本量和題量都較少的情況, 更適用于練習(xí)效應(yīng)較小的人格測(cè)驗(yàn)。而在組間設(shè)計(jì)中, 雖然組間個(gè)體差異難以避免、容易引入無(wú)關(guān)變量, 但是由于每名被試只接受一種測(cè)驗(yàn)形式, 實(shí)施起來(lái)更方便、快捷, 因而適用于樣本量和題量都較多的情境, 更適用于能力測(cè)驗(yàn)。

        為改進(jìn)這兩種設(shè)計(jì)的不足, 研究者將它們結(jié)合形成平衡不完全區(qū)組(Balanced Incomplete Block, BIB; Brunfaut et al., 2018)設(shè)計(jì), 如表2所示。在BIB設(shè)計(jì)中, 原測(cè)驗(yàn)被分成多個(gè)平行題本, 相應(yīng)地被試也被隨機(jī)分成多個(gè)組, 這多個(gè)被試組理論上可被看作是相互平行的。表2中的“Test 1”和“Test 2”代表被試的作答順序。每組被試作答兩個(gè)題本, 并在題本序號(hào)和作答順序上進(jìn)行平衡, 從而減輕被試的疲勞效應(yīng)。由于題本A和B理論上平行, 比較每組中兩個(gè)題本間的作答就可以估計(jì)TME。通過(guò)設(shè)計(jì)組1和組4以及組2和組3可以控制順序效應(yīng)、疲勞效應(yīng)和學(xué)習(xí)效應(yīng)。BIB設(shè)計(jì)結(jié)合兩種設(shè)計(jì)的優(yōu)點(diǎn), 因而在樣本量大、題目較多的測(cè)評(píng)項(xiàng)目(如PISA)中已經(jīng)得到較為成熟的運(yùn)用(OECD, 2014)。

        通過(guò)實(shí)驗(yàn)設(shè)計(jì), 可以有效控制組間被試特征的影響。但是即使控制組間差異, BIB設(shè)計(jì)依舊無(wú)法完全避免組內(nèi)個(gè)體差異(如年齡、計(jì)算機(jī)的使用和作答動(dòng)機(jī))的影響, 此時(shí)可以在測(cè)驗(yàn)過(guò)程中估計(jì)由個(gè)體特征造成的TME。接下來(lái)介紹TME的檢測(cè)方法。

        3.2 TME的檢測(cè)方法

        對(duì)TME進(jìn)行檢測(cè)就是對(duì)被試在PBT和CBT上的作答表現(xiàn)進(jìn)行比較, 作答表現(xiàn)的比較可以分為兩個(gè)層面: 觀測(cè)變量層面和潛變量層面。在觀測(cè)變量層面, 一般采用方差分析(Analysis of Variance, ANOVA)法進(jìn)行比較。在潛變量層面, 一般通過(guò)檢驗(yàn)測(cè)量不變性或參數(shù)不變性來(lái)檢測(cè)TME。在結(jié)構(gòu)方程模型框架下, 測(cè)量不變性是指在測(cè)量被試的目標(biāo)特質(zhì)時(shí), 觀測(cè)變量和潛在特質(zhì)間以及潛在特質(zhì)之間的關(guān)系在待比較的各組之間或在不同情境下等同(白新文, 陳毅文, 2004); 而在項(xiàng)目反應(yīng)理論(Item Response Theory, IRT)框架下, 參數(shù)不變性體現(xiàn)在題目參數(shù)和能力參數(shù)的不變性上(聶旭剛等, 2018)。目前, 潛變量層面的TME檢測(cè)方法主要包括多組驗(yàn)證性因子分析(Multigroup Confirmatory Factor Analysis, MCFA)法、題目功能差異(Differential Item Functioning, DIF)法和模式效應(yīng)模型(Mode Effect Model, MEM)法。下面對(duì)這4種方法進(jìn)行述評(píng)。

        圖1 TME組間設(shè)計(jì)(左)和組內(nèi)設(shè)計(jì)(右)示意圖

        表2 TME研究中的BIB設(shè)計(jì)

        3.2.1 ANOVA法

        ANOVA法首先計(jì)算兩種測(cè)驗(yàn)形式下的作答指標(biāo)(包括測(cè)驗(yàn)層面的總分以及題目層面的平均分、正確率和空缺率等), 然后根據(jù)實(shí)驗(yàn)設(shè)計(jì)是組內(nèi)或組間設(shè)計(jì), 采用被試內(nèi)或被試間的ANOVA對(duì)這些作答指標(biāo)進(jìn)行比較。如果這些指標(biāo)間存在顯著差異, 則說(shuō)明存在TME并且TME會(huì)對(duì)測(cè)驗(yàn)結(jié)果產(chǎn)生影響(Bodmann & Robinson, 2004; Goldberg et al., 2003; Khoshsima et al., 2017)。ANOVA法可通過(guò)SPSS或R中的TAM包(Robitzsch et al., 2022)實(shí)現(xiàn)。

        3.2.2 MCFA法

        MCFA法采用多組比較的思想, 對(duì)兩種測(cè)驗(yàn)形式下的結(jié)果進(jìn)行測(cè)量不變性檢驗(yàn)(Kim & Huynh, 2008)。測(cè)量不變性檢驗(yàn)是通過(guò)比較一系列嵌套模型來(lái)實(shí)現(xiàn), 具體表現(xiàn)在依次對(duì)以下不變性進(jìn)行檢驗(yàn): (1)結(jié)構(gòu)不變性(configural invariance)檢驗(yàn)。即檢驗(yàn)不同組之間的因子結(jié)構(gòu)(即觀測(cè)變量和潛變量間的關(guān)系)是否相同; (2)弱不變性(weak invariance)檢驗(yàn)。若結(jié)構(gòu)不變性得到滿足, 則進(jìn)一步檢驗(yàn)不同組之間的因子載荷是否相等; (3)強(qiáng)不變性(strong invariance)檢驗(yàn)。若弱不變性得到滿足, 則進(jìn)一步檢驗(yàn)不同組之間的截距(潛變量預(yù)測(cè)觀測(cè)變量時(shí)的截距)是否相同; (4)嚴(yán)格不變性(strict invariance)檢驗(yàn)。若強(qiáng)不變性得到滿足, 則檢驗(yàn)不同組之間的殘差方差是否相同。這4種檢驗(yàn)對(duì)應(yīng)的測(cè)量不變性水平具有層級(jí)嵌套關(guān)系, 只有低一級(jí)的不變性得到證實(shí)后, 進(jìn)行高一級(jí)的不變性檢驗(yàn)才有意義(蔡華儉等, 2008)。如果測(cè)驗(yàn)在某一級(jí)水平的測(cè)量不變性上出現(xiàn)違反, 則說(shuō)明該測(cè)驗(yàn)在對(duì)應(yīng)水平上存在TME, 通過(guò)這種方式可以對(duì)測(cè)驗(yàn)層面的TME進(jìn)行檢驗(yàn)。

        為進(jìn)一步尋找違反測(cè)量不變性的成因, 可以根據(jù)輸出結(jié)果確定當(dāng)前測(cè)量不變性水平下對(duì)模型擬合違反較大的題目。在放松該題目上的檢驗(yàn)限制后, 若模型擬合顯著變好, 則說(shuō)明該題目的存在會(huì)對(duì)測(cè)量不變性產(chǎn)生影響, 可認(rèn)為存在TME。這樣依次對(duì)所有題目進(jìn)行檢測(cè), 即可找出所有具有TME的題目。此時(shí), 測(cè)驗(yàn)滿足部分(partial)弱不變性、部分強(qiáng)不變性或部分嚴(yán)格不變性。

        已有研究幾乎都得到結(jié)構(gòu)不變性的結(jié)果, 這可能是因?yàn)橐粋€(gè)用于施測(cè)的成熟測(cè)驗(yàn)往往具有較好的信效度, 所以在測(cè)驗(yàn)形式發(fā)生變化后因子結(jié)構(gòu)并沒(méi)有發(fā)生變化。大多數(shù)測(cè)驗(yàn)具有完全或部分弱不變性, 還有一些測(cè)驗(yàn)具有完全或部分強(qiáng)不變性, 但是極少有測(cè)驗(yàn)?zāi)軌蜻_(dá)到嚴(yán)格不變性(比如, Hox et al., 2015)。一般來(lái)說(shuō), 只要達(dá)到弱不變性或部分強(qiáng)不變性, 就說(shuō)明不同測(cè)驗(yàn)形式下的結(jié)果可比。MCFA法可通過(guò)R中的lavaan包(Rosseel, 2012)實(shí)現(xiàn)。

        3.2.3 DIF法

        TME和DIF都反映“由于某種因素的影響, 導(dǎo)致能力相同的被試在同一題目上具有不同的正確作答概率”, 在DIF中這種因素是指被試來(lái)自不同群體, 而在TME中這種因素是指不同的測(cè)驗(yàn)形式。鑒于兩者的相似性, 不少研究者將檢測(cè)DIF的方法用于對(duì)TME的檢測(cè)(Chan et al., 2004; Keng et al., 2008; Puhan et al., 2007; Schwarz et al., 2003), 此時(shí)作答CBT的被試組可看作是目標(biāo)組(focus group), 作答PBT的被試組可看作是參照組(reference group)。

        常見(jiàn)的DIF檢測(cè)方法主要有兩類(lèi): 一類(lèi)是基于IRT的方法(即將潛在特質(zhì)作為匹配變量), 包括IRT似然比檢驗(yàn)法(IRT Likelihood Ratio, IRT-LR)、測(cè)驗(yàn)與題目功能差異法(Differential Functioning of Items and Test, DFIT)以及同時(shí)題目偏差檢驗(yàn)法(Simultaneous Item Bias Test, SIBTEST; Shealy & Stout, 1993)等; 另一類(lèi)是非IRT的方法(即直接將測(cè)驗(yàn)總分作為匹配變量), 包括Mantel- Haenszel法、標(biāo)準(zhǔn)化法(Standardization, STND)和邏輯斯蒂克回歸法(Logistic Regression, LRDIF)等。其中, Mantel-Haenszel、SIBTEST、IRT-LR和DFIT法都已被用于檢測(cè)TME(Claudia et al., 1999; Puhan et al., 2007; Terluin et al., 2018)。值得注意的是, 只有DFIT法可以同時(shí)對(duì)測(cè)驗(yàn)和題目層面的DIF進(jìn)行檢測(cè), 其他方法只能對(duì)單個(gè)題目的DIF進(jìn)行檢測(cè)(Raju et al., 1995)。

        以SIBTEST法為例, 簡(jiǎn)要介紹檢測(cè)TME的步驟: (1)將所有題目分為匹配子測(cè)驗(yàn)和待測(cè)子測(cè)驗(yàn)。匹配子測(cè)驗(yàn)由不存在TME的題目組成, 因此可將被試在匹配子測(cè)驗(yàn)上的分?jǐn)?shù)作為其能力估計(jì)值; (2)對(duì)目標(biāo)組和參照組在匹配子測(cè)驗(yàn)和待測(cè)子測(cè)驗(yàn)中的作答結(jié)果進(jìn)行評(píng)價(jià), 并基于匹配子測(cè)驗(yàn)上的分?jǐn)?shù)將能力相同但組別不同的被試進(jìn)行匹配。SIBTEST假定在匹配子測(cè)驗(yàn)中分?jǐn)?shù)相同的被試具有相同能力, 所以組別不同的匹配被試在待測(cè)子測(cè)驗(yàn)上的分?jǐn)?shù)差異就是TME的值; (3)對(duì)TME的值進(jìn)行顯著性檢驗(yàn), 從而確定題目是否有TME(蔡曉芬, 2014; 湯楚, 2016)。DIF法可通過(guò)R中的mirt包(Chalmers, 2012)實(shí)現(xiàn)。

        3.2.4 MEM法

        von Davier等人(2019)提出可以通過(guò)在兩參數(shù)邏輯斯蒂克模型(Two-Parameter Logistic Model, 2PLM)中加入量化的TME參數(shù)從而形成MEM, 然后在估計(jì)題目參數(shù)和能力參數(shù)的同時(shí)也對(duì)TME參數(shù)進(jìn)行估計(jì)。MEM包含三個(gè)子模型, 每個(gè)子模型都有不同的模型假設(shè)。

        MEM中的模型2假設(shè)測(cè)驗(yàn)形式和題目之間存在交互作用, 也即在測(cè)驗(yàn)形式發(fā)生變化后, 測(cè)驗(yàn)中有的題目可能會(huì)變得更難, 有的題目會(huì)變得更簡(jiǎn)單。因此, 模型2也被稱為題目特異性的MEM (item-specific MEM), 公式如下:

        MEM中的模型3假設(shè)測(cè)驗(yàn)形式和被試之間存在交互作用, 即在測(cè)驗(yàn)形式轉(zhuǎn)化后, 對(duì)于有的被試來(lái)說(shuō)題目變得更難, 對(duì)于有的被試來(lái)說(shuō)題目變得更簡(jiǎn)單。模型3也被稱為個(gè)體特異性的MEM (person-specific MEM), 公式如下:

        MEM法的以上三個(gè)子模型分別假設(shè)三種不同的情況。在使用這種方法檢測(cè)TME時(shí), 通常的做法是使用AIC和BIC等模型擬合指標(biāo)比較三個(gè)模型和數(shù)據(jù)的擬合程度, 擬合越好說(shuō)明數(shù)據(jù)更接近對(duì)應(yīng)模型的假設(shè), 從而可以探究TME是具有一般性、題目特異性還是個(gè)體特異性(von Davier et al., 2019)。模型擬合的同時(shí)也對(duì)題目參數(shù)、能力參數(shù)和TME參數(shù)進(jìn)行估計(jì), 進(jìn)而找出具有TME的題目并對(duì)其進(jìn)行調(diào)整。另外, 模型1和2具有嵌套關(guān)系, 模型3與模型1和2沒(méi)有嵌套關(guān)系。如果簡(jiǎn)單模型和復(fù)雜模型的擬合不存在顯著差異, 則選擇性價(jià)比更高的簡(jiǎn)單模型。MEM法可通過(guò)mdltm軟件(von Davier, 2005)實(shí)現(xiàn)。

        MEM法的三個(gè)子模型還可以從TME來(lái)源的角度進(jìn)行理解。模型1假設(shè)TME只與測(cè)驗(yàn)形式有關(guān), 說(shuō)明此時(shí)TME的來(lái)源只包括測(cè)驗(yàn)層面的差異, 如計(jì)算機(jī)的硬件設(shè)施和是否允許檢查并修改答案等。模型2假設(shè)TME具有題目特異性, 說(shuō)明此時(shí)TME會(huì)受到題目層面差異的影響, 如題目類(lèi)型和題目的呈現(xiàn)方式等。這種情況在能力測(cè)驗(yàn)中較為常見(jiàn), 特別是包含多種題型的考試中, 不同題目受到測(cè)驗(yàn)形式的影響也不同, 從而導(dǎo)致題目特異性的TME。模型3假設(shè)TME具有個(gè)體特異性, 說(shuō)明此時(shí)TME會(huì)受到被試層面差異的影響, 如年齡、性別、計(jì)算機(jī)的熟練程度和作答動(dòng)機(jī)等。這種情況可能出現(xiàn)在個(gè)體差異較大的時(shí)候, 即使通過(guò)實(shí)驗(yàn)設(shè)計(jì)進(jìn)行控制, 也沒(méi)法完全避免個(gè)體差異的影響, 從而導(dǎo)致個(gè)體特異性的TME。

        為促進(jìn)TME檢測(cè)方法的應(yīng)用, 本文在附錄部分呈現(xiàn)能實(shí)現(xiàn)ANOVA、MCFA和DIF方法的R代碼示例, 并以組間設(shè)計(jì)為例給出檢驗(yàn)題目層面TME的簡(jiǎn)要流程。

        3.2.5 TME檢測(cè)方法的比較

        表3對(duì)上述4種TME檢測(cè)方法的優(yōu)缺點(diǎn)、適用范圍和實(shí)現(xiàn)方法進(jìn)行了總結(jié)。

        ANOVA法通過(guò)“計(jì)算PBT和CBT上的作答指標(biāo), 再比較兩者間的差異”來(lái)檢測(cè)TME, 優(yōu)點(diǎn)在于方便快捷、計(jì)算簡(jiǎn)單, 適合對(duì)測(cè)驗(yàn)層面的TME進(jìn)行初步檢測(cè); 不足在于檢驗(yàn)力較低, 而且只能對(duì)觀測(cè)指標(biāo)進(jìn)行比較。MCFA法通過(guò)驗(yàn)證測(cè)量不變性來(lái)對(duì)TME進(jìn)行檢測(cè)。與ANOVA法類(lèi)似, MCFA法更適合對(duì)測(cè)驗(yàn)層面的TME進(jìn)行檢測(cè), 可以探究觀測(cè)變量與潛在特質(zhì)間以及潛在特質(zhì)間的關(guān)系; 不足在于對(duì)題目層面TME進(jìn)行檢測(cè)的過(guò)程繁瑣、不易操作。

        DIF法利用DIF和TME在概念和檢測(cè)方法上的共通性, 采用DIF檢測(cè)方法對(duì)TME進(jìn)行檢測(cè)。DIF法的優(yōu)點(diǎn)體現(xiàn)在兩方面: 一是能對(duì)測(cè)驗(yàn)中具有TME的題目進(jìn)行準(zhǔn)確識(shí)別; 二是包含的方法非常多樣, 在實(shí)踐中可以靈活選擇。MEM法通過(guò)建立包含TME參數(shù)的IRT模型, 直接對(duì)TME的值進(jìn)行估計(jì)。與前三種方法相比, MEM法具有兩方面的優(yōu)點(diǎn): 一是能對(duì)TME的大小進(jìn)行直接估計(jì); 二是能在一定程度上探究TME的來(lái)源, 從而更好地對(duì)TME進(jìn)行解釋和控制; 缺點(diǎn)是模型較為復(fù)雜(特別是模型3), 可能會(huì)面臨模型識(shí)別和參數(shù)估計(jì)等方面的挑戰(zhàn)。

        4 測(cè)驗(yàn)?zāi)J叫?yīng)的研究結(jié)果

        在過(guò)去30多年里, 已經(jīng)有超過(guò)300項(xiàng)研究對(duì)PBT和CBT的測(cè)驗(yàn)結(jié)果(包括成就測(cè)驗(yàn)、人格與態(tài)度測(cè)驗(yàn)和職業(yè)興趣測(cè)驗(yàn)等領(lǐng)域的結(jié)果)進(jìn)行比較(Duchnicky & Kolers, 1983; Kulik et al., 1980), 但并沒(méi)有得到一致的結(jié)論。很多研究者發(fā)現(xiàn), 同一測(cè)驗(yàn)在CBT上的難度要普遍高于PBT, 導(dǎo)致被試在PBT上的表現(xiàn)顯著好于在CBT上的表現(xiàn)(比如, Backes & Cowan, 2019; Beatty et al., 2022; Lee et al., 1986; Jeong, 2012)。然而也有一些研究得出相反的結(jié)論, 即被試在CBT上的表現(xiàn)要好于在PBT上的表現(xiàn)(比如, Brunfaut et al., 2018; Russell & Plati, 2002)。還有不少研究發(fā)現(xiàn), 被試在不同測(cè)驗(yàn)形式上的作答結(jié)果沒(méi)有顯著差異(Blumenthal & Blumenthal, 2020; Hamhuis et al., 2020; Khoshsima & Toroujeni, 2017; Paleczek et al., 2021; Porion et al., 2016; Prisacari & Danielson, 2017a, 2017b)。

        出現(xiàn)這樣的結(jié)果可能與研究發(fā)表的年代有關(guān)。隨著研究發(fā)表年代的遞進(jìn), 被試在PBT和CBT上的作答表現(xiàn)也發(fā)生變化。在21世紀(jì)之前, 計(jì)算機(jī)還沒(méi)有得到普及, 相應(yīng)地人們對(duì)計(jì)算機(jī)的使用不太熟練, 因此會(huì)出現(xiàn)PBT得分顯著高于CBT的結(jié)果。隨著計(jì)算機(jī)的逐漸普及, 人們使用計(jì)算機(jī)的能力也得到提高, 再加上對(duì)計(jì)算機(jī)有著較強(qiáng)的興趣和作答動(dòng)機(jī), 因此出現(xiàn)更多在CBT上得分更高的情況。

        表3 四種TME檢測(cè)方法的總結(jié)

        對(duì)于沒(méi)有檢測(cè)出TME的研究, 則可能有以下幾點(diǎn)原因: (1)部分測(cè)驗(yàn)題目(如多選題)的穩(wěn)定性較好, 不易產(chǎn)生TME; (2)隨著題型越來(lái)越多樣化, 可能會(huì)出現(xiàn)“在同一測(cè)驗(yàn)中, 部分題目對(duì)PBT更有利, 而另一些題目對(duì)CBT更有利”的情況。如果只對(duì)測(cè)驗(yàn)層面的TME進(jìn)行檢測(cè), 則可能出現(xiàn)效應(yīng)上的抵消; (3)在“測(cè)驗(yàn)本身結(jié)構(gòu)較好、實(shí)驗(yàn)設(shè)計(jì)較完善且對(duì)TME來(lái)源控制較好”的前提下, 測(cè)驗(yàn)層面不存在較大的TME。若研究者采用檢驗(yàn)力較低的ANOVA和MCFA法, 則容易出現(xiàn)TME檢測(cè)不顯著的情況。

        因此, 很多研究在對(duì)測(cè)驗(yàn)層面的TME進(jìn)行檢測(cè)后, 還會(huì)對(duì)題目層面的TME進(jìn)行檢測(cè)(Keng et al., 2008; Puhan et al., 2007; OECD, 2017)。通過(guò)綜合測(cè)驗(yàn)和題目層面的檢測(cè)結(jié)果, 可以為測(cè)驗(yàn)在PBT和CBT上的可比性提供依據(jù), 也可以更細(xì)致地探究TME的來(lái)源, 從而為題目的修訂提出建議。

        5 討論與展望

        目前隨著計(jì)算機(jī)和網(wǎng)絡(luò)的廣泛運(yùn)用, TME已經(jīng)成為大型測(cè)驗(yàn)電子化進(jìn)程中不容忽視的問(wèn)題。PISA、NAEP和TIMSS等大規(guī)模測(cè)評(píng)項(xiàng)目都在經(jīng)歷著從PBT到CBT的變化。在進(jìn)行測(cè)驗(yàn)形式的轉(zhuǎn)變之前, 采用嚴(yán)密的實(shí)驗(yàn)設(shè)計(jì)和精確的檢測(cè)方法對(duì)測(cè)驗(yàn)中可能存在的TME進(jìn)行檢測(cè), 是保證PBT和CBT上作答結(jié)果具有可比性的重要途徑, 也是對(duì)測(cè)驗(yàn)公平的保障。

        通過(guò)前面的梳理, 可以看到盡管TME的研究已經(jīng)較為成熟, 但是也還存在一些問(wèn)題: 首先, TME的來(lái)源比較復(fù)雜, 使得影響TME的因素繁多。而且對(duì)于同一因素, 還可能會(huì)在不同人群中出現(xiàn)巨大差異。比如CBT中的交互方式, 年輕人會(huì)適應(yīng)鍵盤(pán)和鼠標(biāo)的輸入方式, 而中老年人可能會(huì)非常不適應(yīng)。這使得研究者幾乎無(wú)法預(yù)測(cè)和控制影響因素, 不利于對(duì)TME進(jìn)行深入的分析與解釋。其次, 缺少對(duì)TME檢測(cè)方法的系統(tǒng)比較。盡管4種TME檢測(cè)方法各有優(yōu)勢(shì), 有時(shí)也可以同時(shí)使用以達(dá)到更好的效果, 但是還沒(méi)有研究對(duì)它們的檢測(cè)效果進(jìn)行全面比較。最后, 不同TME研究中的結(jié)果難以進(jìn)行比較。如前所述, TME的研究結(jié)果受TME的來(lái)源、實(shí)驗(yàn)設(shè)計(jì)和檢測(cè)方法等多方面的影響, 因此有研究者使用元分析方法對(duì)TME研究的影響因素進(jìn)行探究, 然而結(jié)果不盡相同(Wang et al., 2007, 2008)。這可能是因?yàn)樵治霰旧泶嬖凇疤O(píng)果與桔子之爭(zhēng)”問(wèn)題, 即很多研究者認(rèn)為方法不同的研究不能進(jìn)行直接比較。

        綜上, TME今后的研究方向包括但不限于以下幾個(gè)方面:

        5.1 提升MEM方法的解釋性與適用性

        第三部分提到, 可以從TME來(lái)源的角度理解MEM。但是, MEM只能在一定程度上幫助研究者鎖定TME的來(lái)源范圍, 無(wú)法對(duì)TME的來(lái)源做出解釋。因此, 可以借助“IRT模型能夠增減參數(shù)”的優(yōu)勢(shì), 在現(xiàn)有MEM中加入與TME來(lái)源相關(guān)的因素, 從而直接在模型中對(duì)TME進(jìn)行解釋。比如, 模型1假設(shè)TME只與測(cè)驗(yàn)形式有關(guān), TME的來(lái)源可能是作答過(guò)程有無(wú)監(jiān)督等測(cè)驗(yàn)層面的特征。為進(jìn)一步對(duì)這些因素進(jìn)行解釋, 可以建立關(guān)于TME參數(shù)和測(cè)驗(yàn)層面特征的回歸方程, 以探究不同特征的權(quán)重以及不同特征對(duì)TME產(chǎn)生的貢獻(xiàn)大小。在模型2和3中, 也可以建立類(lèi)似的回歸方程對(duì)TME的來(lái)源進(jìn)行解釋。

        另外, 還可以使用廣義模型對(duì)TME進(jìn)行解釋。陳冠宇和陳平(2019)基于廣義線性混合模型和非線性混合模型的視角全面探討解釋性IRT模型(Explanatory IRT Model, EIRTM)。EIRTM是一個(gè)綜合性的解釋框架, 它通過(guò)在IRT模型中加入預(yù)測(cè)變量來(lái)對(duì)被試和題目間的關(guān)系進(jìn)行刻畫(huà), 進(jìn)而解釋相關(guān)變量的影響。具體地講, 他們?cè)贓IRTM的框架下, 從固定效應(yīng)和隨機(jī)效應(yīng)的角度對(duì)TME進(jìn)行解釋。未來(lái)研究也可以在EIRTM這一更加靈活、更加廣義的框架下對(duì)混合MEM進(jìn)行進(jìn)一步界定。

        再者, 已有的MEM方法主要基于IRT模型(即2PLM)。而認(rèn)知診斷測(cè)驗(yàn)(Cognitive Diagnostic Testing, CDT)由于能夠反饋學(xué)生對(duì)特定知識(shí)屬性的掌握情況、能夠剖析心理量表的潛在結(jié)構(gòu)(de La Torre & Douglas, 2004), 正日益受到測(cè)量研究者和實(shí)踐者的青睞。未來(lái)研究可進(jìn)一步開(kāi)發(fā)適用于CDT的MEM方法, 比如借助廣義多策略認(rèn)知診斷模型(Ma & Guo, 2019)分析CBT與PBT下的被試作答策略差異, 以了解不同測(cè)驗(yàn)形式下的認(rèn)知加工過(guò)程變化。

        5.2 拓展TME研究中測(cè)驗(yàn)形式的范圍

        目前大多數(shù)TME研究都聚焦于PBT和CBT之間的比較, 然而TME還可能出現(xiàn)在PBT和其他測(cè)驗(yàn)形式之間, 包括手機(jī)測(cè)驗(yàn)(mobile-based assessment)和電話或面對(duì)面訪談(phone or face-to-face interview)等測(cè)驗(yàn)形式(Chan et al., 2004; Magnus et al., 2016)。Kim和Walker (2021)還研究在考試中心參加測(cè)驗(yàn)和使用遠(yuǎn)程監(jiān)考在家參加測(cè)驗(yàn)之間的TME。隨著測(cè)驗(yàn)形式的不斷發(fā)展, 更多新型測(cè)驗(yàn)形式不斷涌現(xiàn), 比如基于游戲的測(cè)驗(yàn)(game-based assessment)、基于虛擬現(xiàn)實(shí)(virtual reality)和增強(qiáng)現(xiàn)實(shí)(augmented reality)等智能穿戴設(shè)備的測(cè)驗(yàn)等。對(duì)這些形式的測(cè)驗(yàn)進(jìn)行TME研究也值得未來(lái)研究者重視。

        5.3 將TME研究成果應(yīng)用于我國(guó)大規(guī)模教育測(cè)評(píng)項(xiàng)目

        在PISA 2014年的現(xiàn)場(chǎng)實(shí)驗(yàn)研究(field trial study)中, 研究者在參與測(cè)試的學(xué)校中隨機(jī)選取學(xué)生參加PBT和CBT, 并通過(guò)多種方法對(duì)TME進(jìn)行檢測(cè), 證實(shí)數(shù)學(xué)、閱讀和科學(xué)等認(rèn)知測(cè)驗(yàn)在PBT和CBT上的結(jié)果具有可比性, 從而為測(cè)驗(yàn)形式的轉(zhuǎn)變提供理論依據(jù)(OECD, 2016)。隨后在2015年的正式測(cè)驗(yàn)中, 全球參與測(cè)試的74個(gè)國(guó)家(地區(qū))中的58個(gè)國(guó)家(地區(qū))全面使用CBT進(jìn)行測(cè)驗(yàn)(OECD, 2017)。

        而在我國(guó)的一些大規(guī)模教育測(cè)評(píng)項(xiàng)目中, 學(xué)科測(cè)驗(yàn)仍采用PBT的形式。這主要是因?yàn)槲覈?guó)各地的信息化水平程度不同、計(jì)算機(jī)或網(wǎng)絡(luò)機(jī)房的配備程度不同, 導(dǎo)致少部分地區(qū)尚無(wú)條件使用CBT。通過(guò)對(duì)TME進(jìn)行深入研究, 可在一定程度上解決這一問(wèn)題: (1)若測(cè)驗(yàn)中不存在顯著影響測(cè)驗(yàn)結(jié)果的TME, 則說(shuō)明該測(cè)驗(yàn)在PBT和CBT上的結(jié)果具有測(cè)量等價(jià)性, 即可以在不同地區(qū)使用不同測(cè)驗(yàn)形式; (2)若測(cè)驗(yàn)中存在具有TME的題目, 則可以對(duì)其進(jìn)行修訂和改進(jìn), 增強(qiáng)它們?cè)诓煌榫持械姆€(wěn)定性。

        需要注意的是: 對(duì)于部分需要人工評(píng)分的建構(gòu)題, 仍需盡量避免評(píng)分者對(duì)被試作答呈現(xiàn)方式感知差異所帶來(lái)的影響。比如: (1)考慮將手寫(xiě)作答輸入計(jì)算機(jī), 能較有效地控制來(lái)自評(píng)分者層面的影響; (2)通過(guò)改良對(duì)評(píng)分者的訓(xùn)練規(guī)則來(lái)降低手寫(xiě)版和打字版的評(píng)分差異(Powers et al., 1994)。另外, 隨著自動(dòng)評(píng)分技術(shù)的發(fā)展(Ramesh & Sanampudi, 2022 ; Zhang et al., 2020), 測(cè)驗(yàn)或?qū)⒂瓉?lái)全計(jì)算機(jī)化模式, 屆時(shí)評(píng)分者對(duì)TME的影響將主要集中在機(jī)器評(píng)分的算法層面。

        白新文, 陳毅文. (2004). 測(cè)量等價(jià)性的概念及其判定條件.(2), 231?239.

        蔡華儉, 林永佳, 伍秋萍, 嚴(yán)樂(lè), 黃玄鳳. (2008). 網(wǎng)絡(luò)測(cè)驗(yàn)和紙筆測(cè)驗(yàn)的測(cè)量不變性研究——以生活滿意度量表為例.(2), 228?239.

        蔡曉芬. (2014).(碩士學(xué)位論文). 江西師范大學(xué), 南昌.

        陳冠宇, 陳平. (2019). 解釋性項(xiàng)目反應(yīng)理論模型: 理論與應(yīng)用.(5), 937?950.

        陳平, 丁樹(shù)良. (2008). 允許檢查并修改答案的計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn).(6), 737?747.

        高旭亮, 涂冬波, 王芳, 張龍, 李雪瑩. (2016). 可修改答案的計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)的方法.(4), 654?664.

        韓建濤, 劉文令, 龐維國(guó). (2019). 創(chuàng)造力測(cè)評(píng)中的評(píng)分者效應(yīng).(1), 171?180.

        林喆, 陳平, 辛濤. (2015). 允許CAT題目檢查的區(qū)塊題目袋方法.(9), 1188?1198.

        聶旭剛, 陳平, 張纓斌, 何引紅. (2018). 題目位置效應(yīng)的概念及檢測(cè).(2), 368?380.

        檀慧玲, 李文燕, 萬(wàn)興睿. (2018). 國(guó)際教育評(píng)價(jià)項(xiàng)目合作問(wèn)題解決能力測(cè)評(píng): 指標(biāo)框架、評(píng)價(jià)標(biāo)準(zhǔn)及技術(shù)分析.(9), 123?128.

        湯楚. (2016).(碩士學(xué)位論文). 江西師范大學(xué), 南昌.

        Arnold, V., Legas, J., Obler, S., Pacheco, M. A., Russell, C., & Umbdenstock, L. (1990).. Retrieved March 7,2023, from https://files.eric.ed.gov/fulltext/ED345818.pdf.

        Backes, B., & Cowan, J. (2019). Is the pen mightier than the keyboard? The effect of online testing on measured studentachievement., 89?103.

        Beatty, A. E., Esco, A., Curtiss, A. B. C., & Ballen, C. J. (2022). Students who prefer face-to-face tests outperform their online peers in organic chemistry., 464?474.

        Bennett, R. E., Braswell, J., Oranje, A., Sandene, B., Kaplan, B., & Yan, F. (2008). Does it matter if I take my mathematics test on computer? A second empirical study of mode effects in NAEP.(9), 1?39.

        Bernard, M., Fernandez, M., Hull, S., & Chaparro, B. S. (2003). The effects of line length on children and adults’ perceived and actual online reading performance.(11), 1375?1379.

        Bernard, M., Lida, B., Riley, S., Hackler, T., & Janzen, K. (2002). A comparison of popular online fonts: Which size and type is best.(1), 1?8.

        Bernard, M., & Mills, M. (2000). So, what size and type of font should I use on my website?(2), 1?5.

        Blumenthal, S., & Blumenthal, Y. (2020). Tablet or paper and pen? Examining mode effects on German elementary school students’ computation skills with curriculum-based measurements.(4), 669?680.

        Bodmann, S. M., & Robinson, D. H. (2004). Speed and performance differences among computer-based and paper-pencil tests.(1), 51?60.

        Bridgeman, B., Lennon, M. L., & Jackenthal, A. (2003). Effects of screen size, screen resolution, and display rate on computer-based test performance.(3), 191?205.

        Brunfaut, T., Harding, L., & Batty, A. O. (2018). Going online: The effect of mode of delivery on performances and perceptions on an English L2 writing test suite., 3?18.

        Buerger, S., Kroehne, U., & Goldhammer, F. (2016). The transition to computer-based testing in large-scale assessments: Investigating (partial) measurement invariance between modes., 597?616.

        Chalmers, R. P. (2012). mirt: A multidimensional item response theory package for the R environment.(6), 1?29.

        Chan, K. S., Orlando, M., Ghosh-Dastidar, B., Duan, N., & Sherbourne, C. D. (2004). The interview mode effect on the Center for Epidemiological Studies Depression (CES-D) scale: An item response theory analysis.(3), 281?289.

        Chan, S., Bax, S., & Weir, C. (2018). Researching the comparability of paper-based and computer-based delivery in a high-stakes writing test., 32?48.

        Chua, S. L., Chen, D.-T., & Wong, A. F. L. (1999). Computer anxiety and its correlates: A meta-analysis.(5), 609?623.

        Chua, Y. P. (2012). Effects of computer-based testing on test performance and testing motivation.(5), 1580?1586.

        Clariana, R., & Wallace, P. (2002). Paper-based versus computer-based assessment: Key factors associated with the test mode effect.(5), 593?602.

        Claudia, P. F., Oshima, T. C., & Nambury, S. R. (1999). A description and demonstration of the polytomous-DFIT framework.(4), 309?326.

        de La Torre, J., & Douglas, J. A. (2004). Higher-order latent traitmodels for cognitive diagnosis., 333?353.

        Duchnicky, R. L., & Kolers, P. A. (1983). Readability of text scrolled on visual display terminals as a function of window size.(6), 683?692.

        Feskens, R., Fox, J.-P., & Zwitser, R. (2019). Differential item functioning in PISA due to mode effects. In B. Veldkamp & C. Sluijter (Eds.),(pp. 231?247). Cham, Switzerland: Springer.

        Fouladi, R. T., McCarthy, C. J., & Moller, N. (2002). Paper-and-pencil or online? Evaluating mode effects on measures of emotional functioning and attachment.(2), 204?215.

        Fritts, B. E., & Marszalek, J. M. (2010). Computerized adaptive testing, anxiety levels, and gender differences., 441?458.

        Goldberg, A., Russell, M. & Cook, A. (2003). The effect of computers on student writing: A meta-analysis of studies from 1992 to 2002.(1), 1?52.

        Goldberg, A. L., & Pedulla, J. J. (2002). Performance differences according to test mode and computer familiarity on a practice graduate record exam.(6), 1053?1067.

        Gu, L., Ling, G. M., Liu, O. L., Yang, Z. T., Li, G. R., Kardanova, E., & Loyalka, P. (2021). Examining mode effects for an adapted Chinese critical thinking assessment.(6), 879?893.

        Hamhuis, E., Glas, C., & Meelissen, M. (2020). Tablet assessment in primary education: Are there performance differences between TIMSS’ paper-and-pencil test and tablet test among Dutch grade-four students?(6), 2340?2358.

        Hox, J. J., De Leeuw, E. D., & Zijlmans, E. A. O. (2015). Measurement equivalence in mixed mode surveys, Article 87.

        Hunsu, N. J. (2015). Issues in transitioning from the traditional blue-book to computer-based writing assessment., 41?51.

        Jeong, H. (2012). A comparative study of scores on computer-based tests and paper-based tests.,(4), 410?422.

        Jerrim, J. (2016). PISA 2012: How do results for the paper and computer tests compare?(4), 495?518.

        Jerrim, J., Micklewright, J., Heine, J.-H., Salzer, C., & McKeown, C. (2018). PISA 2015: How big is the ‘mode effect’ and what has been done about it?(4), 476?493.

        Jin, Y., & Yan, M. (2017). Computer literacy and the constructvalidity of a high-stakes computer-based writing assessment.(2), 101?119.

        Johnson, M., & Green, S. (2006). On-Line mathematics assessment: The impact of mode on performance and question answering strategies.(5), 1?35.

        Keng, L., McClarty, K. L., & Davis, L. L. (2008). Item-level comparative analysis of online and paper administrations of the Texas Assessment of Knowledge and Skills.(3), 207?226.

        Khoshsima, H., Hosseini, M., & Toroujeni, S. M. H. (2017). Cross-mode comparability of computer-based testing (CBT) versus paper-pencil based testing (PPT): An investigation of testing administration mode among Iranian intermediate EFL learners.(2), 23?32.

        Khoshsima, H., & Toroujeni, S. M. H. (2017). Comparability of computer-based testing and paper-based testing: Testing mode effect, testing mode order, computer attitudes and testing mode preference., 80?99.

        Kim, D., & Huynh, H. (2008). Computer-based and paper- and-pencil administration mode effects on a statewide end-of-course English test.(4), 554?570.

        Kim, S., & Walker, M. (2021).(ETS Research Reprot Series, No. 21-10). New Jersey, NJ: Educational Testing Service.

        Kim, Y. J., Dykema, J., Stevenson, J., Black, P., & Moberg, D. P. (2018). Straightlining: Overview of measurement, comparison of indicators, and effects in mail-web mixed-mode surveys.(2), 214?233.

        Kingston, N. M. (2008). Comparability of computer-and paper- administered multiple-choice tests for K-12 populations: A synthesis.(1), 22?37.

        Kline, R. (2013). Assessing statistical aspects of test fairness with structural equation modelling.(2-3), 204?222.

        Kroehne, U., Gnambs, T., & Goldhammer, F. (2019). Disentangling setting and mode effects for online competence assessment. In H. P. Blossfeld & H. G. Roβbach (2ndEds.),(pp. 171?193). Wiesbaden, Germany: Springer VS.

        Kr?hne, U., & Martens, T. (2011). 11 Computer-based competence tests in the national educational panel study: The challenge of mode effects., 169?186.

        Kulik, J. A., Kulik, C.-L. C., & Cohen, P. A. (1980). Effectiveness of computer-based college teaching: A meta-analysis of findings.(4), 525?544.

        Lee, J. A., Moreno, K. E., & Sympson, J. B. (1986). The effects of mode of test administration on test performance.(2), 467?474.

        Lee, Y.-J. (2002). A comparison of composing processes and written products in timed-essay tests across paper-and- pencil and computer modes., 135?157.

        Li, J. (2006). The mediation of technology in ESL writing and its implications for writing assessment.(1), 5?21.

        Liu, J., Brown, T., Chen, J., Ali, U., Hou, L., & Costanzo, K. (2016).. Retrieved March 6, 2023, from https://files.eric.ed.gov/fulltext/ED599049.pdf.

        Lynch, S. (2022). Adapting paper-based tests for computer administration: Lessons learned from 30 years of mode effects studies in education., Article 22.

        Ma, W., & Guo, W. (2019). Cognitive diagnosis models for multiple strategies.(2), 370?392.

        Magnus, B. E., Liu, Y., He, J., Quinn, H., Thissen, D., Gross, H. E., & Reeve, B. B. (2016). Mode effects between computer self-administration and telephone interviewer- administration of the PROMIS(?) pediatric measures, self-and proxy report.(7), 1655?1665.

        McMullin, J., Varnhagen, C., Heng, P., & Apedoe, X. (2002). Effects of surrounding information and line length on text comprehension from the web., 19?29.

        OECD. (2014).. PISA, OECD Publishing, Paris.

        OECD. (2016).. PISA, OECD Publishing, Paris.

        OECD. (2017).PISA, OECD Publishing, Paris.

        Paleczek, L., Seifert, S., & Sch?fl, M. (2021). Comparing digital to print assessment of receptive vocabulary with GraWo-KiGa in Austrian kindergarten.(6), 2145?2161.

        Poggio, J., Glasnapp, D. R., Yang, X., & Poggio, A. J. (2005). A comparative evaluation of score results from computerized and paper & pencil mathematics testing in a large scale state assessment program.(6), 1?31.

        Pomplun, M. (2007). A bifactor analysis for a mode-of- administration effect., 137?152.

        Pomplun, M., Ritchie, T., & Custer, M. (2006). Factors in paper-and-pencil and computer reading score differences atthe primary grades.(2), 127?143.

        Porion, A., Aparicio, X., Megalakaki, O., Robert, A., & Baccino, T. (2016). The impact of paper-based versus computerized presentation on text comprehension and memorization., 569?576.

        Powers, D. E. (1999).(ETS Research Report Series, No. 99-15). Princeton, NJ: Educational Testing Service.

        Powers, D. E., Fowles, M. E., Farnum, M., & Ramsey, P. (1994). They think less of my handwritten essay if others word process theirs? Effects on essay scores of intermingling handwritten and word-processed essays.(3), 220?233.

        Prisacari, A. A., & Danielson, J. (2017a). Rethinking testing mode: Should I offer my next chemistry test on paper or computer?, 1?12.

        Prisacari, A. A., & Danielson, J. (2017b). Computer-based versus paper-based testing: Investigating testing mode with cognitive load and scratch paper use., 1?10.

        Puhan, G., Boughton, K., & Kim, S. (2007). Examining differences in examinee performance in paper and pencil and computerized testing.(3), 1?21.

        Raju, N. S., van der Linden, W., & Fleer, P. (1995). IRT-based internal measures of differential functioning of items and tests.(4), 353?368.

        Ramesh, D., & Sanampudi, S. K. (2022). An automated essay scoring systems: A systematic literature review.(3), 2495?2527.

        Robitzsch, A., Kiefer, T., & Wu, M. (2022).(TAM). R package. Retrieved April 26, 2023, from https://cran.r-project.org/web/packages/TAM/TAM.pdf.

        Rosseel, Y. (2012). lavaan: An R package for structural equation modeling.(2), 1?36.

        Rowan, B. (2010).(Unpublished doctorial dissertation). James Madison University, Harrisonburg.

        Russell, M., & Haney, W. (1997). Testing writing on computers: An experiment comparing student performance on tests conducted via computer and via paper-and-pencil.(3), 1?20.

        Russell, M., & Plati, T. (2002). Does it matter with what I write? Comparing performance on paper, computer and portable writing devices.(4), 1?15.

        Russell, M, & Tao, W. (2004a). Effects of handwriting and computer-print on composition scores: A follow-up to Powers, Fowles, Farnum, & Ramsey., Article 1.

        Russell, M., & Tao, W. (2004b). The influence of computer-print on rater scores., Article 10.

        Schwarz, R. D., Rich, C., & Podrabsky, T. (2003, April).. Paper presented at the Annual Meeting of the National Council on Measurement in Education, Chicago, IL.

        Seifert, S., & Paleczek, L. (2022). Comparing tablet and print mode of a German reading comprehension test in grade 3: Influence of test order, gender and language., 1?13.

        Shealy, R., & Stout, W. (1993). A model-based standardization approach that separates true bias/DIF from group ability differences and detects test bias/DTF as well as item bias/DIF.(2), 159?194.

        Terluin, B., Brouwers, E. P. M., Marchand, M. A. G., & de Vet, H. C. W. (2018). Assessing the equivalence of web-based and paper-and-pencil questionnaires using differential item and test functioning (DIF and DTF) analysis: A case of the Four-Dimensional Symptom Questionnaire (4DSQ).,(5), 1191?1200.

        von Davier, M. (2005).(ETS Research Report Series, No. 05-16). Princeton, NJ: Educational Testing Service.

        von Davier, M., Khorramdel, L., He, Q. W., Shin, H. J., & Chen, H. W. (2019). Developments in psychometric population models for technology-based large-scale assessments: An overview of challenges and opportunities.(6), 671?705.

        Wainer, H. (1993). Some practical considerations when converting a linearly administered test to an adaptive format., 15?20.

        Wang, S., Jiao, H., Young, M. J., Brooks, T., & Olson, J. (2007). A meta-analysis of testing mode effects in grade K-12 mathematics tests.(2), 219?238.

        Wang, S., Jiao, H., Young, M. J., Brooks, T., & Olson, J. (2008). Comparability of computer-based and paper-and- pencil testing in K-12 reading assessments: A meta-analysis of testing mode effects.(1), 5?24.

        Weigold, A., Weigold, I. K., Drakeford, N. M., Dykema, S. A., & Smith, C. A. (2016). Equivalence of paper-and- pencil and computerized self-report surveys in older adults., 407?413.

        Wise, S. L., Freeman, S. A., Finney, S. J., Enders, C. K., & Severance, D. D. (1997, March).. Paper presented at the annual meeting of the National Council on Measurement in Education. Chicago, IL.

        Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., & Artzi, Y. (2020).. arXiv preprint arXiv:1904.09675.

        Zhi, M., & Huang, B. (2021). Investigating the authenticity of computer-and paper-based ESL writing tests., Article 100548.

        Ziefle, M. (1998). Effects of display resolution on visual performance.(4), 554?568.

        為促進(jìn)TME檢測(cè)方法的應(yīng)用, 以下呈現(xiàn)能實(shí)現(xiàn)ANOVA、MCFA和DIF方法的R代碼示例。由于實(shí)現(xiàn)MEM方法的mdltm軟件不是開(kāi)源軟件且研究者在技術(shù)報(bào)告中并未提供詳細(xì)的參數(shù)估計(jì)方法, 因此未囊括在本例中。接下來(lái)以組間設(shè)計(jì)為例, 給出檢驗(yàn)題目層面TME的簡(jiǎn)要流程。

        附表1 基于R軟件的ANOVA、MCFA和DIF方法代碼示例

        檢驗(yàn)方法代碼示例 ANOVA目的: 比較每一題在PBT和CBT上的平均分# 加載所需程序包 -------library(TAM)# 數(shù)據(jù)準(zhǔn)備 ----------------# 1 = PBT, 0 = CBT# nperson 為被試量(即圖1中N)# nitem 為題目數(shù)(即圖1中I)# response_raw 包含兩種測(cè)驗(yàn)形式下的所有作答, 是一個(gè)[nperson, nitem]的矩陣# TMEbetween 用于儲(chǔ)存每道題在不同測(cè)驗(yàn)形式下的顯著性結(jié)果# 創(chuàng)建數(shù)據(jù)框, 包含測(cè)驗(yàn)?zāi)J綐?biāo)簽“mode”與相應(yīng)的作答數(shù)據(jù)response_b <- data.frame(mode = c(rep(1, nperson/2), rep(0, nperson/2)),response_raw)# 數(shù)據(jù)分析 ----------------# 創(chuàng)建空矩陣用于結(jié)果存儲(chǔ)TMEbetween <- matrix(data = NA, nrow = nitem, ncol = 1)for (j in 1:nitem){# 對(duì)每一題比較兩種測(cè)驗(yàn)?zāi)J较碌牡梅植町?第一列是標(biāo)簽, 因此從j+1開(kāi)始)anova_item <- aov(response_b[, j+1] ~ mode, data = response_b)# 將結(jié)果儲(chǔ)存于矩陣相應(yīng)位置TMEbetween[j, 1] <- summary(anova_item)[[1]]$`Pr(>F)`[1]}

        續(xù)表

        檢驗(yàn)方法代碼示例 MCFA目的: 檢驗(yàn)PBT與CBT下結(jié)果的測(cè)量不變性# 加載所需程序包 -------library(lavaan)# 模型檢驗(yàn) ----------------# (本示例限定所有題目都屬于同一個(gè)潛在特質(zhì))# 1. 檢驗(yàn)形態(tài)等價(jià)(即結(jié)構(gòu)不變性)# 2. 檢驗(yàn)載荷等價(jià)(即弱不變性)# 3. 檢驗(yàn)截距等價(jià)(即強(qiáng)不變性)# 4. 依次放松每道題目的載荷限制, 并將結(jié)果儲(chǔ)存于cfa_itemmodel <- 'trait =~ item1 + item2 + … + itemN' # 建立模型fit1 <- cfa(model, data = response_b, group = "mode") # 形態(tài)等價(jià)fit2 <- cfa(model, data = response_b, group = "mode", group.equal = "loadings") # 載荷等價(jià)fit3 <- cfa(model, data = response_b, group = "mode",group.equal = c("loadings", "intercepts")) # 截距等價(jià)cfa_item <- matrix(data = NA, nrow = nitem, ncol = 1) # 創(chuàng)建空矩陣for (j in 1:nitem){# 依次對(duì)每一題放松限制fit4 <- cfa(model, data = response_b, group = "mode",group.equal = c("loadings", "intercepts"),group.partial = paste("item", j, "~1", sep = ""))# 將結(jié)果儲(chǔ)存于矩陣相應(yīng)位置cfa_item[j, 1] <- anova(fit3, fit4)$`Pr(>Chisq)`[2]} DIF (SIBTEST)目的: 分析參照組和目標(biāo)組的結(jié)果差異# 加載所需程序包 -------library(mirt)# DIF檢驗(yàn) -----------------# beta_statistic用于儲(chǔ)存檢驗(yàn)統(tǒng)計(jì)量的結(jié)果, 并且: # 表示不存在DIF# 表示存在中等程度DIF# 大于0.1表示存在較嚴(yán)重DIF (Puhan et al., 2007)# suspect為可能存在TME的題目集合# anchor為不存在TME的錨題集合#(當(dāng)不指定錨題時(shí), 可令除待檢題目外的所有題作為錨題集)anchor <- c(1, 2, 3) # 設(shè)置錨題為第1、2和3題suspect <- c(1:nitem)[-anchor] # 除去錨題, 即得到可能存在DIF的題目集合beta_statistic <- matrix(data = NA, nrow = length(suspect), ncol = 1) # 創(chuàng)建空矩陣for (j in 1:length(suspect)){# 對(duì)每一題進(jìn)行DIF檢驗(yàn)dif_item <- SIBTEST(response_b[, -1], response_b$mode,match_set = anchor, suspect_set = suspect[j])# 將結(jié)果儲(chǔ)存于矩陣相應(yīng)位置beta_statistic[j, 1] <- dif_item$beta[1]}

        Test mode effect: Sources, detection, and applications

        CHEN Ping, DAI Yi, HUANG Yingshi

        (Collaborative Innovation Center of Assessment for Basic Education Quality, Beijing Normal University, Beijing 100875, China)

        Test mode effect (TME) refers to the difference in test function caused by the administration of the same test in different test modes. The existence of TME will have an impact on test fairness, selection criteria and test equating, so it is of great significance to accurately detect and interpret TME. By systematically sorting out the source, detection (including the experimental design and detection methods) and research results of TME, the methodology of TME research is comprehensively demonstrated. Further interpretation of the TME model, expansion of the test modes in TME research, and application of TME research results to large-scale educational assessment programs in China, are important future development directions in the field of TME.

        test mode effect, test fairness, measurement invariance, computer-based testing

        B841

        2023-01-10

        * 國(guó)家自然科學(xué)基金面上項(xiàng)目(32071092)、北京師范大學(xué)中國(guó)基礎(chǔ)教育質(zhì)量監(jiān)測(cè)協(xié)同創(chuàng)新中心自主課題(2022-01-082-BZK01)資助。

        陳平, E-mail: pchen@bnu.edu.cn

        猜你喜歡
        測(cè)驗(yàn)層面形式
        江陰市三個(gè)層面構(gòu)建一體化治理重大事故隱患機(jī)制
        微型演講:一種德育的新形式
        《新年大測(cè)驗(yàn)》大揭榜
        搞定語(yǔ)法填空中的V—ing形式
        兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
        考試周刊(2016年88期)2016-11-24 13:30:50
        健康到底是什么層面的問(wèn)題
        發(fā)現(xiàn)“形式” 踐行“形式”
        高三化學(xué)復(fù)習(xí)的四個(gè)“層面”
        策略探討:有效音樂(lè)聆聽(tīng)的三層面教學(xué)研究(二)
        你知道嗎?
        色窝窝免费播放视频在线| 久久免费亚洲免费视频| 精人妻无码一区二区三区| 无码一区二区三区在线 | 日本黄页网站免费大全| 欧美—iGAO视频网| 精品亚洲av乱码一区二区三区| 国产欧美性成人精品午夜| 国产va免费精品观看| 日本中文字幕一区二区高清在线| 亚洲国产一区二区av| 无码熟妇人妻av在线影片最多| 一本大道久久香蕉成人网| 国产精品98福利小视频| 久久久人妻精品一区bav| 无码av不卡一区二区三区| 国产精品美女久久久久久久| 少妇高潮无码自拍| 日本少妇一区二区三区四区| 亚洲国产日韩精品一区二区三区| 久久精品国波多野结衣| 亚洲国产一区二区三区视频在线| 在线观看日本一区二区三区四区| a级毛片无码久久精品免费 | 国产精品27页| 色婷婷久久综合中文久久一本| 玩弄少妇人妻中文字幕| 国产乱人伦精品一区二区| 国产高清天干天天视频| 国产一区二区三区啊啊| 又色又爽又黄还免费毛片96下载| 国产午夜福利精品| 久久精品国产亚洲av专区| 草色噜噜噜av在线观看香蕉| 欧美精品久久久久久久自慰| 中文字幕一区二区三区在线视频| 97成人精品视频在线| a级毛片高清免费视频就| 在线看片国产免费不卡| 亚洲国产精品久久久婷婷| 久久综合丝袜日本网|