引入眼動(dòng)注視點(diǎn)的聯(lián)合?交叉負(fù)載多模態(tài)認(rèn)知診斷建模*

2022-11-15 00:33:52詹沛達(dá)

心理學(xué)報(bào) 2022年11期

詹沛達(dá)

詹沛達(dá)

(浙江師范大學(xué)教師教育學(xué)院心理學(xué)系; 浙江省智能教育技術(shù)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室, 金華 321004)

多模態(tài)數(shù)據(jù)為實(shí)現(xiàn)對(duì)認(rèn)知結(jié)構(gòu)的精準(zhǔn)診斷及其他認(rèn)知特征(如, 認(rèn)知風(fēng)格)的全面反饋提供了可能性。為實(shí)現(xiàn)對(duì)題目作答精度、作答時(shí)間(RT)和視覺(jué)注視點(diǎn)數(shù)(FC)的聯(lián)合分析, 本文基于聯(lián)合?交叉負(fù)載建模法提出3個(gè)多模態(tài)認(rèn)知診斷模型。實(shí)證研究及模擬研究結(jié)果表明: (1)聯(lián)合分析比分離分析更適用于多模態(tài)數(shù)據(jù); (2)新模型可直接利用RT和FC中信息提高潛在能力或潛在屬性的估計(jì)準(zhǔn)確性; (3)新模型的參數(shù)估計(jì)返真性較好; (4)忽略交叉負(fù)載所導(dǎo)致的負(fù)面結(jié)果比冗余考慮交叉負(fù)載所導(dǎo)致的更嚴(yán)重。

認(rèn)知診斷, 多模態(tài)數(shù)據(jù), 題目作答時(shí)間, 注視點(diǎn), 認(rèn)知風(fēng)格, 眼動(dòng)

1 引言

個(gè)體的外顯行為(如, 學(xué)習(xí)行為或問(wèn)題解決行為)是由相互關(guān)聯(lián)的多種認(rèn)知過(guò)程及心理建構(gòu)所共同決定的。因此, 在特定問(wèn)題(任務(wù))情境下, 對(duì)問(wèn)題解決行為的合理分析不僅可以挖掘個(gè)體的認(rèn)知結(jié)構(gòu), 還能反映個(gè)體的認(rèn)知風(fēng)格或認(rèn)知流暢性等其他認(rèn)知特征。認(rèn)知風(fēng)格是個(gè)體組織和處理信息的特征及相對(duì)穩(wěn)定的方式, 反映了個(gè)體在感知、記憶、思維、判斷和解決問(wèn)題等方面的偏好或典型模式(Riding, 1997), 有助于調(diào)節(jié)認(rèn)知加工過(guò)程的持續(xù)時(shí)間、強(qiáng)度、范圍和速度(Gardner et al., 1959; Messick, 1989)。比如, 根據(jù)個(gè)體加工信息或解決問(wèn)題的速度和精度, 可將個(gè)體分為沉思型或沖動(dòng)型(Kagan, 1965);通常, 沉思型個(gè)體反應(yīng)速度較慢但精度較高, 而沖動(dòng)型個(gè)體反應(yīng)速度較快但容易發(fā)生錯(cuò)誤。再比如, 根據(jù)個(gè)體注意力的廣度和專注度, 可將個(gè)體分為掃描者和聚焦者(Gardner et al., 1959)。在解決問(wèn)題時(shí), 掃描者的注意力廣度寬但專注度低, 而聚焦者的注意力廣度窄但專注度高。有研究表明在解決問(wèn)題時(shí)掃描者的精度高于聚焦者的(Gardner et al., 1959; Holzman, 1966); 另有研究指出聚焦者對(duì)目標(biāo)的注意力持續(xù)時(shí)間久于掃描者(Rimawi et al., 2020)。也有研究認(rèn)為掃描和聚焦是兩種可分離的風(fēng)格(Messick, 1989), 根據(jù)掃描范圍(即注意力廣度)可將個(gè)體分為窄掃描者和寬掃描者, 根據(jù)聚焦程度(即專注度)可將個(gè)體分為聚焦者和非聚焦者; 而且, 兩種風(fēng)格還能相互組合。與具有相對(duì)穩(wěn)定性的認(rèn)知風(fēng)格不同, 認(rèn)知流暢性通常是指?jìng)€(gè)體對(duì)信息處理或解決問(wèn)題的難易程度的主觀體驗(yàn)(Unkelbach, 2006), 流暢性可能會(huì)隨所處理的信息、所解決的問(wèn)題或所屬的領(lǐng)域的不同而不同(Biancarosa & Shanley, 2015)。通常, 在有關(guān)流暢性測(cè)量的研究中, 流暢性被視為一種速度和精度的綜合反映。已有研究表明達(dá)到流暢性水平的個(gè)體可以又快又好地解決問(wèn)題(Wang & Chen, 2020)?？傊? 為實(shí)現(xiàn)對(duì)個(gè)體學(xué)習(xí)現(xiàn)狀的全面反饋, 對(duì)個(gè)體問(wèn)題解決行為的分析應(yīng)嘗試從多視角切入, 不僅提供可反映認(rèn)知結(jié)構(gòu)的, 還要提供可反映認(rèn)知風(fēng)格或認(rèn)知流暢性等其他認(rèn)知特征的反饋信息。

近些年, 以促進(jìn)個(gè)體學(xué)習(xí)為目的, 客觀量化個(gè)體學(xué)習(xí)現(xiàn)狀并提供診斷反饋的測(cè)評(píng)模式日益受到關(guān)注。其中, 認(rèn)知診斷作為一種有代表性的診斷測(cè)評(píng)方式, 主要功能是診斷個(gè)體的學(xué)習(xí)現(xiàn)狀(如, 知識(shí)掌握程度)并提供相應(yīng)的反饋, 為促進(jìn)個(gè)體學(xué)習(xí)提供了方法學(xué)支持(Ren et al., 2021; Tang & Zhan, 2021; 王立君等, 2020)。作為認(rèn)知診斷的核心技術(shù)環(huán)節(jié)之一, 認(rèn)知診斷模型(cognitive diagnosis model, CDM)或診斷分類模型的合理性影響著診斷結(jié)果的準(zhǔn)確性、有效性和可解釋性。CDM作為一種有約束的潛在類別模型, 描述了潛在屬性和外顯題目作答行為之間概率關(guān)系。通常, 潛在屬性為類別變量(如, “0”表示“未掌握”, “1”表示“掌握”), 是根據(jù)個(gè)體完成復(fù)雜學(xué)習(xí)任務(wù)或解決復(fù)雜問(wèn)題時(shí)所需具備的潛在技能或知識(shí)來(lái)確定的。目前, 針對(duì)不同的測(cè)驗(yàn)情境和理論假設(shè), 已有許多CDM被提出(Rupp et al., 2010; von Davier & Lee, 2019), 比如常見(jiàn)的DINA模型(Junker & Sijtsma, 2001)及其一般化模型(de la Torre, 2011)。然而, 絕大多數(shù)CDM是基于題目作答精度(response accuracy, RA)這種單一且傳統(tǒng)的數(shù)據(jù)源開(kāi)發(fā)的(詹沛達(dá), 2018), 導(dǎo)致它們所提供的診斷反饋范圍有限: 僅關(guān)注對(duì)問(wèn)題解決所需的認(rèn)知技能或?qū)W科知識(shí)的診斷, 僅能提供可反映認(rèn)知結(jié)構(gòu)的反饋信息; 忽略問(wèn)題解決時(shí)的信息加工速度和專注力(或視覺(jué)參與度)等其他相關(guān)建構(gòu), 難以提供可反映認(rèn)知風(fēng)格或認(rèn)知流暢性等其他認(rèn)知特征的反饋信息。換句話說(shuō), 目前絕大多數(shù)CDM提供的反饋信息有限, 不能全面反映個(gè)體間學(xué)習(xí)現(xiàn)狀之間的差異, 進(jìn)而可能限制有針對(duì)性干預(yù)的效果。導(dǎo)致這種局限性的可能原因之一是在傳統(tǒng)的(基于紙筆測(cè)驗(yàn)的)認(rèn)知診斷測(cè)評(píng)中很難采集到諸如題目作答時(shí)間(response time, RT)等數(shù)據(jù)。

近些年, 隨著計(jì)算機(jī)(網(wǎng)絡(luò))化測(cè)驗(yàn)的普及, 對(duì)過(guò)程數(shù)據(jù)的采集已趨于常態(tài)化。過(guò)程數(shù)據(jù)是指由計(jì)算機(jī)記錄的反映個(gè)體問(wèn)題解決過(guò)程的含有時(shí)間戳的行為序列數(shù)據(jù)(Zhan & Qiao, 2022; Zoanetti, 2010;李美娟等, 2020; 劉耀輝等, 2022)。對(duì)過(guò)程數(shù)據(jù)的分析不僅可以挖掘個(gè)體的問(wèn)題解決策略(Qiao & Jiao, 2018), 還可以探究個(gè)體的問(wèn)題解決能力(Liu et al., 2018; Zhan & Qiao, 2022)。目前, RT數(shù)據(jù)作為一種有代表性的過(guò)程數(shù)據(jù), 因?yàn)槠渚哂袠?biāo)準(zhǔn)化數(shù)據(jù)結(jié)構(gòu)[1]標(biāo)準(zhǔn)化數(shù)據(jù)結(jié)構(gòu)是指數(shù)據(jù)具有N × I的矩陣結(jié)構(gòu), 其中N表示被試總數(shù), I表示題目總數(shù)。, 符合心理計(jì)量模型的建模與分析要求, 得到了研究者們的高度關(guān)注。已有研究表明, RT數(shù)據(jù)作為傳統(tǒng)RA數(shù)據(jù)的補(bǔ)充, 不僅能夠提供個(gè)體在問(wèn)題解決過(guò)程中的加工速度信息, 還可以提高對(duì)潛在能力的估計(jì)精度(Bolsiova & Tijmstra, 2018; 詹沛達(dá), 2019)和潛在屬性的分類準(zhǔn)確性(Zhan, Jiao, & Liao, 2018)。實(shí)際上, 計(jì)算機(jī)化測(cè)驗(yàn)的自動(dòng)化特性使得它能夠在個(gè)體解決問(wèn)題過(guò)程中實(shí)時(shí)記錄不限于過(guò)程數(shù)據(jù)的多種類型數(shù)據(jù), 即多模態(tài)數(shù)據(jù)。多模態(tài)數(shù)據(jù)是指對(duì)于同一個(gè)描述對(duì)象, 通過(guò)多種儀器、測(cè)量設(shè)備或采集儀器獲得到的互補(bǔ)的多樣性數(shù)據(jù)(Lahat et al., 2015)。比如, 除結(jié)果數(shù)據(jù)(如, RA數(shù)據(jù))和過(guò)程數(shù)據(jù)(如, RT數(shù)據(jù))外, 通過(guò)嵌入式傳感器或?qū)嶒?yàn)設(shè)備(如, 眼動(dòng)儀), 計(jì)算機(jī)化測(cè)驗(yàn)還可以同步記錄諸如眼動(dòng)、身體運(yùn)動(dòng)及神經(jīng)活動(dòng)等生物計(jì)量數(shù)據(jù)。生物計(jì)量數(shù)據(jù)可用于提供有關(guān)個(gè)體與任務(wù)情境互動(dòng)效果的反饋, 比如, 解決問(wèn)題時(shí)個(gè)體的視覺(jué)參與度(Man & Harring, 2019; Zhan et al., 2022)或大腦激活水平(Jeon et al., 2021)。在技術(shù)增強(qiáng)測(cè)評(píng)環(huán)境中, 隨著多模態(tài)數(shù)據(jù)采集技術(shù)的不斷發(fā)展, 針對(duì)多模態(tài)數(shù)據(jù)的聯(lián)合分析技術(shù)也應(yīng)得到相應(yīng)的關(guān)注和發(fā)展。

但是, 多模態(tài)數(shù)據(jù)的分析也給心理計(jì)量模型帶來(lái)了挑戰(zhàn): 僅憑借單一的測(cè)量模型無(wú)法滿足分析多模態(tài)數(shù)據(jù)的需求。因此, 在智能時(shí)代背景下, 基于技術(shù)增強(qiáng)測(cè)評(píng)環(huán)境, 建立心理與教育測(cè)量新范式, 探究多模態(tài)數(shù)據(jù)分析方法具有重要的理論意義和實(shí)踐價(jià)值。對(duì)此, 遵循聯(lián)合?層級(jí)建模法(van der Linden, 2007), Zhan等(2022)基于聯(lián)合?層級(jí)認(rèn)知診斷建?？蚣?Zhan, Jiao, & Liao, 2018)提出了聯(lián)合?層級(jí)多模態(tài)認(rèn)知診斷模型(joint-hierarchical multimodal CDM, H-MCDM); 首次在認(rèn)知診斷領(lǐng)域?qū)崿F(xiàn)對(duì)結(jié)果數(shù)據(jù)、過(guò)程數(shù)據(jù)和生物計(jì)量數(shù)據(jù)進(jìn)行聯(lián)合分析。其研究結(jié)果表明聯(lián)合分析多模態(tài)數(shù)據(jù)不僅能為個(gè)體提供更全面的反饋還能提高診斷精度。然而, Ranger (2013)指出聯(lián)合?層級(jí)建模的一個(gè)主要理論局限是僅當(dāng)潛在變量之間的相關(guān)不等于0時(shí), 各模態(tài)數(shù)據(jù)之間的信息才能相互被利用; 進(jìn)而才有可能實(shí)現(xiàn)利用輔助數(shù)據(jù)所提供的信息提高對(duì)核心特質(zhì)(如, 潛在能力)的估計(jì)精度(Bolsinova & Tijmstra, 2018)。對(duì)此, 有研究者提出聯(lián)合?交叉負(fù)載建模法(Bolsinova & Tijmstra, 2018; Molenaar et al., 2015)。聯(lián)合?交叉負(fù)載建模法可視為是對(duì)聯(lián)合?層級(jí)建模法的拓廣, 理論上可以通過(guò)交叉負(fù)載實(shí)現(xiàn)直接利用輔助數(shù)據(jù)(如, RT)為核心特質(zhì)(如, 潛在能力)提供信息。鑒于H-MCDM是遵循聯(lián)合?層級(jí)建模法構(gòu)建的, 理論上也必然存在上述局限性; 這在一定程度上可能會(huì)影響該模型的實(shí)踐應(yīng)用性。對(duì)此, 本文聚焦于認(rèn)知診斷領(lǐng)域, 針對(duì)結(jié)果數(shù)據(jù)、過(guò)程數(shù)據(jù)和生物計(jì)量數(shù)據(jù), 擬基于聯(lián)合?交叉負(fù)載建模法構(gòu)建多模態(tài)認(rèn)知診斷模型(joint-cross-loading MCDM, C-MCDM)。

首先, 簡(jiǎn)單回顧兩種可聯(lián)合分析多模態(tài)數(shù)據(jù)的聯(lián)合建模法: 聯(lián)合?層級(jí)建模法和聯(lián)合?交叉負(fù)載建模法; 其次, 簡(jiǎn)單介紹視覺(jué)注視點(diǎn)數(shù)(visual fixation count, FC), 一個(gè)重要的眼動(dòng)指標(biāo); 然后, 以傳統(tǒng)的分離建模法為始, 分別介紹有關(guān)RA、RT和FC數(shù)據(jù)的測(cè)量模型, 繼而引出H-MCDM; 接著, 闡述本研究新提出的3個(gè)C-MCDM, 基于實(shí)證研究將新模型與已有模型進(jìn)行對(duì)比以展現(xiàn)新模型的現(xiàn)實(shí)可應(yīng)用性及相對(duì)優(yōu)勢(shì), 并通過(guò)兩則模擬研究分別探究新模型的參數(shù)估計(jì)返真性和相對(duì)于H-MCDM的優(yōu)勢(shì); 最后, 總結(jié)了研究結(jié)果并探討了未來(lái)的研究方向。

2 多模態(tài)數(shù)據(jù)的聯(lián)合分析

2.1 兩種聯(lián)合建?？蚣?/h3>
目前, 聯(lián)合?層級(jí)建模是使用最廣泛的聯(lián)合分析多模態(tài)數(shù)據(jù)的心理計(jì)量建模方法, 如圖1(a)所示。如上文所述, RT數(shù)據(jù)作為一種有代表性的過(guò)程數(shù)據(jù)近些年受到高度關(guān)注, 研究者們提出了多個(gè)可聯(lián)合分析RA和RT數(shù)據(jù)的聯(lián)合?層級(jí)模型(de Boeck & Jeon, 2019; 郭磊等, 2017; 詹沛達(dá), 2018)。在典型的聯(lián)合?層級(jí)建模中, 第一層中構(gòu)建RA數(shù)據(jù)和RT數(shù)據(jù)的測(cè)量模型: 潛在能力完全解釋RA數(shù)據(jù), 潛在加工速度完全解釋RT數(shù)據(jù); 而潛在能力和潛在加工速度之間的關(guān)系以二元正態(tài)分布的形式被建模在第二層結(jié)構(gòu)模型中。盡管幾乎所有的聯(lián)合?層級(jí)模型都局限于分析RA和RT這兩類數(shù)據(jù), 但由于該建模思路具有較強(qiáng)的可擴(kuò)展性, 基于該建?？蚣芸梢詫?shí)現(xiàn)對(duì)更多類型數(shù)據(jù)的分析和對(duì)更多類型潛在建構(gòu)的測(cè)量。比如, Jeon等(2021)通過(guò)聯(lián)合分析RA數(shù)據(jù)和大腦激活這一生物計(jì)量數(shù)據(jù), 測(cè)量了個(gè)體的潛在能力和大腦激活水平。Man和Harring (2020)通過(guò)聯(lián)合分析RA數(shù)據(jù)、RT數(shù)據(jù)和FC數(shù)據(jù), 測(cè)量了個(gè)體的潛在能力、潛在加工速度和視覺(jué)參與度。Bezirhan等(2021)聯(lián)合分析了RA數(shù)據(jù)、RT數(shù)據(jù)和重訪題目次數(shù), 測(cè)量了個(gè)體的潛在能力、潛在加工速度和重訪題目?jī)A向?；诼?lián)合?層級(jí)建模, 在認(rèn)知診斷領(lǐng)域, Zhan, Jiao和Liao (2018)首次將RT數(shù)據(jù)引入認(rèn)知診斷建模中提出了聯(lián)合?層級(jí)認(rèn)知診斷建?？蚣? 如圖1(b)所示; 該建模法同樣具有可擴(kuò)展性, 通過(guò)加入其他模態(tài)數(shù)據(jù)的測(cè)量模型, 實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的聯(lián)合分析(如, Zhan et al., 2022)。
與僅關(guān)注的RA數(shù)據(jù)的傳統(tǒng)模型相比, Ranger (2013)指出聯(lián)合?層級(jí)建模的主要理論局限是僅當(dāng)潛在能力和潛在加工速度之間的相關(guān)系數(shù)不等于0時(shí), 額外引入RT數(shù)據(jù)的聯(lián)合?層級(jí)模型才能夠提高對(duì)潛在能力參數(shù)的估計(jì)精度。Bolsinova和Tijmstra (2018)指出聯(lián)合?層級(jí)建模未充分利用RT數(shù)據(jù)所提供的信息, 即假設(shè)RT數(shù)據(jù)僅受潛在加工速度的影響, 不受潛在能力的影響。然而, 在實(shí)際測(cè)驗(yàn)中, 可能存在潛在能力和潛在加工速度之間的相關(guān)系數(shù)較小(Bolsinova et al., 2017; Zhan, Liao, & Bian, 2018)以及不同能力的個(gè)體在解決問(wèn)題時(shí)所花費(fèi)的時(shí)間可能不同(Schaeffer et al., 1993)的情況。對(duì)此, 聯(lián)合?交叉負(fù)載建模假設(shè)RT數(shù)據(jù)同時(shí)受個(gè)體的潛在能力和潛在加工速度的影響, 如圖1(c)所示; 理論上, 無(wú)論潛在能力與潛在加工速度之間的相關(guān)系數(shù)多大, RT數(shù)據(jù)都可以直接為潛在能力參數(shù)的估計(jì)提供信息, 增加潛在能力參數(shù)的估計(jì)精度。但目前, 尚未有研究將該建模方法引入認(rèn)知診斷領(lǐng)域, 這是本文要做的一項(xiàng)工作。
圖1 多模態(tài)聯(lián)合建模示意圖(以作答精度和作答時(shí)間數(shù)據(jù)為例)
注: θ為潛在能力; τ為潛在加工速度; α為潛在屬性;為題目作答精度;為題目作答時(shí)間;為題目數(shù)量;為屬性數(shù)量; IRT為項(xiàng)目反應(yīng)理論.

2.2 注視點(diǎn)數(shù)

在計(jì)算機(jī)化測(cè)驗(yàn)中, 通過(guò)嵌入式傳感器可以記錄個(gè)體解決問(wèn)題時(shí)的生物計(jì)量數(shù)據(jù); 其中, 眼動(dòng)儀是被關(guān)注較多的一種, 已被用于大規(guī)模測(cè)評(píng)項(xiàng)目之中(Bos et al., 2005, 也見(jiàn)Rupp et al., 2010)。眼動(dòng)指標(biāo)可以提供有關(guān)個(gè)體在解決問(wèn)題時(shí)的認(rèn)知過(guò)程的證據(jù)。常見(jiàn)的眼動(dòng)指標(biāo)有注視點(diǎn)(提供眼睛看哪里信息)、眼跳(提供注視點(diǎn)位置發(fā)生變化的信息)、感興趣區(qū)(提供注視點(diǎn)聚集區(qū)域的信息)和回視次數(shù)(提供個(gè)體將注視點(diǎn)返回到特定目標(biāo)上的次數(shù)信息)等; 其中, 注視點(diǎn)是最常用的指標(biāo), 它可以反映個(gè)體對(duì)視覺(jué)目標(biāo)區(qū)域的專注度(An et al., 2017), 或視覺(jué)目標(biāo)區(qū)域?qū)€(gè)體的重要性和吸引力(Poole et al., 2004)。聚焦在計(jì)算機(jī)化測(cè)驗(yàn)中, 作答題目時(shí)的注視點(diǎn)數(shù)(即FC數(shù)據(jù))可以反映個(gè)體解決問(wèn)題時(shí)的視覺(jué)參與度(Man & Harring, 2019; Zhan et al., 2022)。

2.3 多模態(tài)數(shù)據(jù)分析

本文以分析RA數(shù)據(jù)、RT數(shù)據(jù)和FC數(shù)據(jù)為例, 涉及3種可分析多模態(tài)數(shù)據(jù)的建模法: 分離建模法, 聯(lián)合?層級(jí)建模法和聯(lián)合?交叉負(fù)載建模法。

2.3.1 分離建模法

分離建模法延續(xù)傳統(tǒng)心理計(jì)量學(xué)模型的做法, 對(duì)不同模態(tài)的數(shù)據(jù)分別建模、獨(dú)立分析。為便于下文撰寫(xiě), 將采用分離建模法分析多模態(tài)認(rèn)知診斷數(shù)據(jù)的方法稱為分離多模態(tài)認(rèn)知診斷模型(separate MCDM, S-MCDM)。在S-MCDM中, 本文選用3個(gè)具有代表性的測(cè)量模型分別來(lái)分析RA數(shù)據(jù)、RT數(shù)據(jù)和FC數(shù)據(jù)。

首先, 選用高階DINA (higher-order DINA, HO-DINA) (de la Torre & Douglas, 2004)模型作為RA數(shù)據(jù)的測(cè)量模型, 主要原因是為與基于聯(lián)合?層級(jí)建模法的H-MCDM做對(duì)比。HO-DINA模型可描述為:

其次, 選用對(duì)數(shù)正態(tài)RT(lognormal RT, LRT)模型(van der Linden, 2006)作為RT數(shù)據(jù)的測(cè)量模型, 該模型可描述為:

式中,T為被試作答題目的時(shí)間(常以秒為單位); τ為被試的潛在加工速度, 表示被試投入到整個(gè)測(cè)驗(yàn)中的平均工作速度; ξ為題目的時(shí)間強(qiáng)度參數(shù), 表示完成題目所必需的時(shí)間; ω為題目的時(shí)間精度參數(shù)。LRT模型假設(shè)當(dāng)被試的潛在加工速度較高時(shí)則其RT較小。LRT模型也可簡(jiǎn)單記為:

最后, 為實(shí)現(xiàn)對(duì)個(gè)體視覺(jué)參與度的測(cè)量, Man和Harring (2019)提出了可分析FC數(shù)據(jù)的負(fù)二項(xiàng)注視點(diǎn)(negative binomial fixation, NBF)模型。NBF模型假設(shè)FC服從負(fù)二項(xiàng)分布, 并將FC解釋為個(gè)體的視覺(jué)參與度與題目所需的必要注視點(diǎn)數(shù)量之間的權(quán)衡關(guān)系的產(chǎn)物。NBF模型描述了被試在作答題目時(shí), 在貫序、獨(dú)立的V次觀察后成功提取了h次關(guān)鍵信息的概率分布, 即:

式中,V為被試解答題目時(shí)的FC; ε為被試的潛在視覺(jué)參與度, 可反映被試對(duì)問(wèn)題情境中各種刺激的專注度;m為題目的視覺(jué)強(qiáng)度參數(shù), 表示完成題目所必需的注視點(diǎn)數(shù);h為題目上FC的離散程度參數(shù)。NBF模型也可簡(jiǎn)單記為:

2.3.2 聯(lián)合?層級(jí)建模法

近年來(lái), 人們?cè)絹?lái)越有興趣去結(jié)合多模態(tài)數(shù)據(jù)所提供的信息對(duì)感興趣的心理現(xiàn)象提供統(tǒng)一的解釋。實(shí)際上, 在計(jì)算機(jī)化測(cè)驗(yàn)中, 對(duì)RA數(shù)據(jù)、RT數(shù)據(jù)和FC數(shù)據(jù)的采集幾乎是同時(shí)進(jìn)行的, 且它們提供的是被試在作答相同題目時(shí)的平行信息(如, 被試正確作答某題目耗時(shí)20秒并投入30個(gè)注視點(diǎn)), 因此, 也有研究者將這類多模態(tài)數(shù)據(jù)稱之為平行數(shù)據(jù)(Jeon et al., 2021)。平行數(shù)據(jù)最大的優(yōu)勢(shì)在于它們包含有關(guān)同一個(gè)問(wèn)題解決過(guò)程的平行信息, 如果這些信息可以被聯(lián)合分析并相互利用, 不僅可以直接分析不同潛在變量之間的關(guān)系, 還有可能提高各自測(cè)量模型的參數(shù)估計(jì)準(zhǔn)確性。

基于聯(lián)合?層級(jí)認(rèn)知診斷建模, Zhan等(2022)提出可同時(shí)分析RA數(shù)據(jù)、RT數(shù)據(jù)和FC數(shù)據(jù)的H-MCDM。如圖2(a)所示, H-MCDM包含兩層級(jí)模型: 測(cè)量模型和結(jié)構(gòu)模型。在第一層測(cè)量模型中, 對(duì)3種模態(tài)數(shù)據(jù)分別建模, 這與S-MCDM類似, 不再贅述; 在第二層結(jié)構(gòu)模型中, 通過(guò)三元正態(tài)分布來(lái)描述潛在能力、潛在加工速度和潛在視覺(jué)參與度三者之間的關(guān)系:

式中, μperson= (μθ, μτ, με)’為3個(gè)潛在變量的均值向量; Σperson為3個(gè)潛在變量的方差協(xié)方差矩陣。

2.3.3 聯(lián)合?交叉負(fù)載建模法

如上文所述, 聯(lián)合?層級(jí)建模的主要局限之一是: 理論上, 僅當(dāng)潛在變量之間相關(guān)不為0時(shí), 各模態(tài)數(shù)據(jù)之間的信息才能相互被利用。為了更直接地利用RT和FC這兩個(gè)附屬數(shù)據(jù)中的信息, 可使用聯(lián)合?交叉負(fù)載建模法, 將潛在屬性或潛在能力直接建模在RT測(cè)量模型和FC測(cè)量模型中?；谠撨壿? 本文提出3個(gè)C-MCDM, 如圖2(b)～2(d)所示,分別為基于潛在能力的C-MCDM (C-MCDM-θ)、基于連接縮合規(guī)則的C-MCDM (C-MCDM-D)和基于補(bǔ)償縮合規(guī)則的C-MCDM (C-MCDM-C)。3個(gè)模型遵循不同的邏輯假設(shè), 其中, C-MCDM-θ假設(shè)被試的潛在能力的變化會(huì)影響其完成該題目的耗時(shí)及所用注視點(diǎn)數(shù); 而C-MCDM-D和C-MCDM-C均假設(shè)被試的潛在屬性掌握情況會(huì)影響其完成該題目的耗時(shí)和注視點(diǎn)數(shù), 兩者差異在于前者認(rèn)為僅有被試掌握了題目所考查的所有屬性后才會(huì)影響RT和FC, 而后者認(rèn)為被試掌握該題目所考查的屬性的數(shù)量會(huì)影響RT和FC (即掌握的越多影響越大)。另外, 為保證與S-MCDM和H-MCDM具有可比性, 本文設(shè)定在C-MCDM-D和C-MCDM-C中也存在高階潛在結(jié)構(gòu), 但是否存在高階潛在結(jié)構(gòu)不影響建模。再有, 為了保證模型的可識(shí)別性(即θ和τ之間的以及θ和ε之間的相關(guān)性已經(jīng)被交叉負(fù)載解釋), 在3個(gè)C-MCDM中并沒(méi)有使用三元正態(tài)分布來(lái)聯(lián)接潛在能力、潛在加工速度和潛在視覺(jué)參與度這3個(gè)潛在變量(Bolsinova & Tijmstra, 2018; Molenaar et al., 2015)。小規(guī)模模擬研究結(jié)果顯示在當(dāng)前C-MCDM基礎(chǔ)上再采用三元正太分布聯(lián)接3個(gè)潛在變量后會(huì)導(dǎo)致參數(shù)估計(jì)不收斂, 尤其是三元正太分布中的方差和協(xié)方差。

圖2 聯(lián)合?層級(jí)和聯(lián)合?交叉負(fù)載多模態(tài)認(rèn)知診斷建模示意圖

注: θ為潛在能力; τ為潛在加工速度; ε為潛在視覺(jué)參與度; α為潛在屬性; Y為題目作答精度; T為題目作答時(shí)間; V為注視點(diǎn)數(shù); I為題目數(shù)量; K為屬性數(shù)量.

為便于表達(dá), 用統(tǒng)一模型來(lái)表示3個(gè)C-MCDM。首先, 對(duì)RA數(shù)據(jù)而言仍選用HO-DINA模型作為其測(cè)量模型(見(jiàn)公式(1))。其次, 對(duì)RT數(shù)據(jù)和FC數(shù)據(jù)而言, 它們的測(cè)量模型可分別表示為:

式中, 函數(shù)(θ, α, q)表示對(duì)于考查給定屬性的題目, 潛在能力或潛在屬性如何影響其RT和FC:

φ和λ分別為函數(shù)(θ, α, q)對(duì)RT和FC的加權(quán)系數(shù)或交叉載荷; 以C-MCDM-D為例,φ和λ分別表示, 對(duì)于題目, 理想作答為1的被試和理想作答為0的被試之間(對(duì)數(shù))RT和FC的均值的差異。鑒于已有研究表明潛在能力與潛在加工速度之間并不總是正相關(guān)(Zhan, Jiao, & Liao, 2018), 因此, 3個(gè)模型中并不限制φ和λ的正負(fù)號(hào), 而由數(shù)據(jù)驅(qū)動(dòng)決定。對(duì)于題目, 當(dāng)φ> 0時(shí), 一定程度反映了題目對(duì)被試作答時(shí)需付出的認(rèn)知負(fù)荷的要求相對(duì)較低(如, 速度測(cè)驗(yàn)中的題目), 進(jìn)而能力較高(或?qū)傩哉莆赵蕉?的被試會(huì)使用相對(duì)更少的時(shí)間來(lái)作答, 而能力較低的被試會(huì)使用相對(duì)更多的時(shí)間來(lái)作答; 而當(dāng)φ< 0時(shí), 一定程度反映了題目對(duì)被試作答時(shí)需付出的認(rèn)知負(fù)荷的要求相對(duì)較高(如, 難度測(cè)驗(yàn)中的題目), 進(jìn)而能力較高的被試會(huì)使用相對(duì)更多的時(shí)間來(lái)作答, 而能力較低的被試會(huì)使用相對(duì)更少的時(shí)間來(lái)作答(可能是動(dòng)機(jī)較低導(dǎo)致的(Wise & Kong, 2005; Zhan, Jiao, & Liao, 2018))。同理, 對(duì)于題目, 當(dāng)λ> 0時(shí), 一定程度反映了題目所涉及的關(guān)鍵信息的數(shù)量較多, 進(jìn)而能力較高的被試在作答該題目時(shí)會(huì)使用相對(duì)更多的注視點(diǎn), 而能力較低的被試會(huì)使用相對(duì)較少的注視點(diǎn)(即難以提取到所有的關(guān)鍵信息); 而當(dāng)λ< 0時(shí), 一定程度反映了題目所涉及的關(guān)鍵信息的數(shù)量較少, 進(jìn)而能力較高的被試在作答該題目時(shí)會(huì)使用相對(duì)更少的注視點(diǎn), 而能力較低的被試會(huì)使用相對(duì)較多的注視點(diǎn)(可能是受到無(wú)關(guān)信息干擾, 難以確定關(guān)鍵信息的位置)。另外, 由于φ和λ是同一道題目的參數(shù), 所以理論上有4種組合, 如表1所示; 當(dāng)然, 表1中的描述只是一種可能性, 實(shí)踐中還需要針對(duì)具體問(wèn)題具體分析。

另外, 鑒于在認(rèn)知診斷中提高潛在屬性的診斷準(zhǔn)確率才是關(guān)鍵, 3個(gè)C-MCDM均未考慮潛在加工速度和潛在視覺(jué)參與度對(duì)RA的影響, 即不考慮利用RA數(shù)據(jù)信息提高這兩個(gè)潛在變量的參數(shù)估計(jì)準(zhǔn)確性; 也沒(méi)有考慮RT數(shù)據(jù)和FC數(shù)據(jù)之間信息的相互利用, 仍假設(shè)潛在加工速度和潛在視覺(jué)參與度之間存在相關(guān)。此時(shí), 可以用二元正態(tài)分布描述潛在加工速度和潛在視覺(jué)參與度之間的關(guān)系:

2.3.4 認(rèn)知結(jié)構(gòu)診斷及認(rèn)知特征推斷

實(shí)際上, 相比于傳統(tǒng)的僅分析RA數(shù)據(jù)的CDM而言, S-MCDM、H-MCDM和3個(gè)C-MCDM均能實(shí)現(xiàn)對(duì)多模態(tài)數(shù)據(jù)的分析, 研究者也均可以基于分析結(jié)果實(shí)現(xiàn)對(duì)個(gè)體認(rèn)知結(jié)構(gòu)的診斷及其他認(rèn)知特征的推斷。具體而言, 首先, 在MCDM中, 作為RA數(shù)據(jù)的測(cè)量模型, HO-DINA模型的主要功能就是診斷個(gè)體對(duì)潛在屬性的掌握情況; 因此, 潛在屬性模式的診斷結(jié)果可以較為直接地反映個(gè)體的認(rèn)知結(jié)構(gòu)。其次, 在MCDM中, 額外使用了LRT模型和NBF模型分別作為RT和FC數(shù)據(jù)的測(cè)量模型。與HO-DINA模型中將被試參數(shù)設(shè)為類別變量不同, LRT模型和NBF模型中的被試參數(shù)為連續(xù)變量; 因此, 無(wú)法像對(duì)潛在屬性的診斷一樣直接對(duì)個(gè)體的潛在加工速度和潛在視覺(jué)參與度進(jìn)行分類, 進(jìn)而無(wú)法直接實(shí)現(xiàn)對(duì)個(gè)體認(rèn)知特征的分類。

表1 C-MCDM中φi和λi參數(shù)的正負(fù)取值可能反映的題目信息

注:φ和λ分別為函數(shù)(θ, α, q)對(duì)RT和FC的交叉載荷; θ為潛在能力; α為潛在屬性;為題目所考查的屬性; ↑為增加, ↓為下降; RT為題目作答時(shí)間; FC為注視點(diǎn)數(shù).

表2 8種認(rèn)知特征綜合類別及可能的原因或行為表現(xiàn)(Zhan et al., 2022)

注: θ為潛在能力; τ為潛在加工速度; ε為潛在視覺(jué)參與度; +為大于均值; –為小于均值.

對(duì)此, 一種較為簡(jiǎn)單明了的方式是利用均值作為切點(diǎn): 當(dāng)個(gè)體的潛在能力大于均值時(shí)表明該個(gè)體屬于認(rèn)知能力(如, 問(wèn)題解決能力)相對(duì)較高的一類, 反之則反; 當(dāng)個(gè)體的潛在加工速度大于均值時(shí)表明該個(gè)體屬于加工速度相對(duì)較快的一類, 反之則反; 當(dāng)個(gè)體的潛在視覺(jué)參與度大于均值時(shí)表明該個(gè)體屬于專注度較高的一類, 反之則反。理論上, 三者進(jìn)一步組合, 可得到8種認(rèn)知特征綜合類別(Zhan et al., 2022); 表2呈現(xiàn)了這8種認(rèn)知特征綜合類別及可能的原因或行為表現(xiàn)。當(dāng)然, 需要強(qiáng)調(diào)的是這種分類方式是比較粗糙的, 適用于對(duì)個(gè)體認(rèn)知特征的粗略推斷, 并非精確的測(cè)量或診斷結(jié)果。

2.4 貝葉斯參數(shù)估計(jì)

本文使用全貝葉斯馬爾可夫鏈蒙特卡洛算法對(duì)S-MCDM、H-MCDM和3個(gè)C-MCDM進(jìn)行參數(shù)估計(jì), 并基于JAGS (Plummer, 2015)實(shí)現(xiàn)。網(wǎng)絡(luò)版附錄S1章節(jié)中呈現(xiàn)了模型參數(shù)估計(jì)對(duì)高、中和低信息先驗(yàn)分布的魯棒性分析結(jié)果, 結(jié)果表明新模型對(duì)包含不同信息量的先驗(yàn)分布具有一定的魯棒性。結(jié)合已有實(shí)證數(shù)據(jù)分析經(jīng)驗(yàn)和已有研究結(jié)果(Man & Harring, 2019; Zhan et al., 2022), 正文所有參數(shù)估計(jì)均采用中信息先驗(yàn)分布。示例數(shù)據(jù)及相應(yīng)的JAGS代碼已分享在網(wǎng)絡(luò)版附錄中, 關(guān)于如何使用JAGS進(jìn)行貝葉斯參數(shù)估計(jì)可參見(jiàn)Zhan等(2019)。

3 實(shí)證數(shù)據(jù)分析

鑒于本文所提出模型中包含φ和λ兩個(gè)新參數(shù), 暫缺乏對(duì)它們的取值范圍的了解, 難以進(jìn)行恰當(dāng)?shù)哪M研究(即, 不知根據(jù)何種分布來(lái)生成它們的真值); 因此需要先進(jìn)行實(shí)證研究, 以展現(xiàn)新模型的實(shí)踐可應(yīng)用性, 并為模擬研究中參數(shù)真值生成提供參考依據(jù)。

3.1 數(shù)據(jù)描述和分析

為對(duì)比3種多模態(tài)數(shù)據(jù)分析方法(即5個(gè)MCDM)的表現(xiàn), 我們選用來(lái)自一項(xiàng)技術(shù)增強(qiáng)測(cè)評(píng)環(huán)境下的數(shù)學(xué)測(cè)驗(yàn)的數(shù)據(jù)。該數(shù)據(jù)[2]需要強(qiáng)調(diào)的是由于該數(shù)據(jù)中涉及到某高利害測(cè)驗(yàn)中敏感信息(例如, 題目), 所以該數(shù)據(jù)并不對(duì)外公開(kāi)。但研究者可以嘗試向Man和Harring (2019)或Zhan等(2022)的通訊作者以合理的理由索取。在美國(guó)東海岸一所大學(xué)的眼動(dòng)實(shí)驗(yàn)室采集的(Man & Harring, 2019), 其中包括= 93名(矯正)視力正常的大個(gè)體對(duì)= 10道題目的作答。該測(cè)驗(yàn)考查= 4個(gè)潛在屬性: (α1)算數(shù)(arithmetic)、(α2)代數(shù)(algebra)、(α3)幾何(geometry)和(α4)數(shù)據(jù)分析(data analysis), 測(cè)驗(yàn)Q矩陣見(jiàn)圖3。該數(shù)據(jù)包含3種同時(shí)采集的數(shù)據(jù): 結(jié)果數(shù)據(jù)(即RA)、過(guò)程數(shù)據(jù)(即RT)和生物計(jì)量數(shù)據(jù)(即FC)。另外, 有關(guān)該數(shù)據(jù)更詳細(xì)的描述請(qǐng)參閱Man和Harring (2019)。注意, Man和Harring (2019)使用的是語(yǔ)言推理數(shù)據(jù), 而Zhan等(2022)及本文使用的是同一批次采集的數(shù)學(xué)測(cè)驗(yàn)數(shù)據(jù)。

分別使用S-MCDM、H-MCDM和3個(gè)C-MCDM分析該數(shù)據(jù)。5個(gè)模型均使用兩條馬爾可夫鏈(隨機(jī)起點(diǎn)), 每條鏈包含60, 000次迭代(預(yù)熱40, 000次), 稀疏值1; 最終剩余40, 000次迭代用于計(jì)算后驗(yàn)均值和后驗(yàn)標(biāo)準(zhǔn)差。使用潛在量尺縮減因子(PSRF) < 1.2 (Brooks & Gelman, 1998)作為參數(shù)估計(jì)收斂檢驗(yàn)標(biāo)準(zhǔn)(Brooks & Gelman, 1998; de la Torre & Douglas, 2004)。使用后驗(yàn)預(yù)測(cè)模型檢驗(yàn)(posterior predictive model checking) (PPMC; Gelman et al., 2014)來(lái)評(píng)估模型?數(shù)據(jù)絕對(duì)擬合, 其中后驗(yàn)預(yù)測(cè)概率(posterior predictive probability,)接近0.5表示模型與數(shù)據(jù)擬合(通常,< 0.05或> 0.95可被視為不擬合(Gelman et al., 2014))。在PPMC中使用測(cè)驗(yàn)統(tǒng)計(jì)量(test statistics) (即僅關(guān)注真實(shí)數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)之間的差異, 不涉及具體模型參數(shù)) (Levy & Mislevy, 2016)。由于目前缺乏針對(duì)聯(lián)合模型的絕對(duì)擬合評(píng)價(jià)指標(biāo), 在3個(gè)模型中, 我們均分別評(píng)估不同模態(tài)數(shù)據(jù)與其測(cè)量模型之間的擬合關(guān)系。此外, 使用DIC作為模型?數(shù)據(jù)的相對(duì)擬合指標(biāo)用于模型選擇; 指標(biāo)值越小表示模型與數(shù)據(jù)擬合的越好。

圖3 實(shí)證數(shù)據(jù)Q矩陣; 白色表示“0”, 灰色表示“1”

3.2 結(jié)果

表3 實(shí)證數(shù)據(jù)中模型?數(shù)據(jù)擬合指標(biāo)

注: –2LL = –2 log likelihood; DIC = deviance information criterion;= 后驗(yàn)預(yù)測(cè)概率; RA = 作答精度; RT = 作答時(shí)間; FC = 注視點(diǎn)數(shù)。

通過(guò)觀察H-MCDM中潛在能力與潛在加工速度的估計(jì)值之間的相關(guān)系數(shù)(–0.008, SE = 0.278)和潛在能力與潛在視覺(jué)參與度的估計(jì)值之間的相關(guān)系數(shù)(0.004, SE = 0.252), 可發(fā)現(xiàn)兩相關(guān)系數(shù)均接近于0, 理論上難以發(fā)揮H-MCDM相較于S-MCDM的優(yōu)勢(shì); 反觀, 由于C-MCDM-θ可以直接利用RT和FC數(shù)據(jù)中的信息來(lái)降低對(duì)潛在能力參數(shù)的估計(jì)標(biāo)準(zhǔn)誤(見(jiàn)圖4), 所以導(dǎo)致該模型對(duì)數(shù)據(jù)的擬合相對(duì)更好。下文將基于C-MCDM-θ模型的分析結(jié)果進(jìn)行闡述。

表4呈現(xiàn)了C-MCDM-θ模型中3個(gè)測(cè)量模型的參數(shù)估計(jì)值及φ和λ的估計(jì)值。首先, 對(duì)測(cè)量模型中參數(shù)而言, 該結(jié)果與Zhan等(2022)的估計(jì)結(jié)果基本一致。其中, 前兩題的猜測(cè)參數(shù)較大, 而第6題的失誤參數(shù)較大。各題目的時(shí)間強(qiáng)度參數(shù)的平均值約為3.33, 表明被試完成這些題目所必須的平均耗時(shí)約為28秒(接近該數(shù)據(jù)中RT的均值33.99)。各題目的視覺(jué)強(qiáng)度參數(shù)的平均值約為4.68, 表明被試完成這些題目所必須的注視點(diǎn)數(shù)約為107個(gè)(接近該數(shù)據(jù)中FC的均值114.53)。其次, 對(duì)φ和λ而言, 一個(gè)顯著特點(diǎn)是對(duì)于同一道題目?jī)蓞?shù)的正負(fù)號(hào)相反。結(jié)合表1中的描述, 表明該測(cè)驗(yàn)中題目所包含的關(guān)鍵信息數(shù)量與認(rèn)知負(fù)荷要求相匹配, 即關(guān)鍵信息多則認(rèn)知負(fù)荷要求高, 反之則反。進(jìn)一步, 圖5呈現(xiàn)φ和λ的估計(jì)值分布。發(fā)現(xiàn)φ估計(jì)值的中位數(shù) < 0, 一定程度反映該測(cè)驗(yàn)中多數(shù)題目的認(rèn)知負(fù)荷要求相對(duì)較高, 進(jìn)而個(gè)體的潛在能力越高則其解題時(shí)所消耗的時(shí)間越長(zhǎng); 另外, 發(fā)現(xiàn)λ估計(jì)值的中位數(shù) > 0, 一定程度反映該測(cè)驗(yàn)中多數(shù)題目所包含的關(guān)鍵信息數(shù)量較多, 進(jìn)而個(gè)體的潛在能力越高則其解題時(shí)所呈現(xiàn)的注視點(diǎn)數(shù)越多。

表4 實(shí)證數(shù)據(jù)中C-MCDM-θ模型的題目參數(shù)估計(jì)值

注: g = 猜測(cè)參數(shù); s = 失誤參數(shù); ξ = 時(shí)間強(qiáng)度參數(shù); ω = 時(shí)間精度參數(shù);= 視覺(jué)強(qiáng)度參數(shù);= 視覺(jué)區(qū)分度參數(shù); 括號(hào)內(nèi)為標(biāo)準(zhǔn)誤(后驗(yàn)標(biāo)準(zhǔn)差)。

表5呈現(xiàn)了基于C-MCDM-θ模型的反饋樣例, 包括對(duì)認(rèn)知結(jié)構(gòu)和其他認(rèn)知特征的反饋信息, 以展現(xiàn)聯(lián)合分析多模態(tài)數(shù)據(jù)的優(yōu)勢(shì)。以被試5、9和65為例, 3人在潛在屬性上的診斷結(jié)果相同, 但他/她們?cè)跐撛谀芰?、潛在加工速度和潛在視覺(jué)參與度上的估計(jì)值有較大差異; 這表明即便他/她們具有相同的認(rèn)知結(jié)構(gòu), 他/她們?cè)谡J(rèn)知風(fēng)格或認(rèn)知流暢性等認(rèn)知特征方面也可能不同。另外, 對(duì)于認(rèn)知結(jié)構(gòu)有缺失的被試, 若實(shí)施有針對(duì)性干預(yù), 除缺失的潛在屬性外, 還應(yīng)考慮不同個(gè)體的認(rèn)知特征, 采取更恰當(dāng)?shù)母深A(yù)措施。比如, 被試34和67均缺失屬性2和4, 但由于兩者的認(rèn)知特征不同, 或許可以嘗試不同的有針對(duì)性干預(yù)措施。對(duì)于被試34 (沖動(dòng)型+非聚焦者)而言, 由于其傾向于僅根據(jù)從問(wèn)題情境中提取的部分信息就倉(cāng)促做出決定, 除缺失的潛在屬性外, 還可以嘗試培養(yǎng)該被試的視覺(jué)參與度, 并鼓勵(lì)其認(rèn)真審題、謹(jǐn)慎作答。而被試67 (認(rèn)知不流暢+聚焦者)似乎有解決問(wèn)題的動(dòng)機(jī)或欲望但由于能力有限即便視覺(jué)參與度較高也無(wú)法提取題目中的關(guān)鍵信息; 所以對(duì)該被試而言, 應(yīng)該著重補(bǔ)救其所缺失的潛在屬性。

表5 實(shí)證數(shù)據(jù)中個(gè)體認(rèn)知結(jié)構(gòu)診斷及其他認(rèn)知特征推斷樣例

注: θ = 潛在能力; τ = 潛在加工速度; ε = 潛在視覺(jué)參與度; 括號(hào)內(nèi)為標(biāo)準(zhǔn)誤(后驗(yàn)標(biāo)準(zhǔn)差)。

4 模擬研究

上文已經(jīng)通過(guò)實(shí)證研究展示了新模型的實(shí)用性及相對(duì)優(yōu)勢(shì)。本節(jié)通過(guò)兩則模擬研究進(jìn)一步探究新模型的心理計(jì)量學(xué)性能。其中, 研究1擬在多種模擬測(cè)驗(yàn)條件下探究新模型的參數(shù)估計(jì)返真性; 研究2擬對(duì)比新模型和H-MCDM的相對(duì)表現(xiàn), 以展現(xiàn)新模型的相對(duì)優(yōu)勢(shì)及考慮交叉負(fù)載的必要性。

4.1 模擬研究1

4.1.1 數(shù)據(jù)生成與分析

模擬研究中, 設(shè)定3個(gè)操縱變量: (1)樣本量: 100和500, 考慮到CDM的實(shí)際應(yīng)用場(chǎng)景及眼動(dòng)研究目前可能的被試數(shù)量, 本研究主要關(guān)注新模型在小樣本條件下的表現(xiàn); (2)測(cè)驗(yàn)長(zhǎng)度: 15和30, 固定潛在屬性數(shù)量= 5, Q矩陣見(jiàn)圖6 (該Q矩陣滿足DINA模型的參數(shù)可識(shí)別性要求(Gu & Xu, 2021)); (3)交叉載荷: λ= –φ= 0、0.2和0.5, 其中, 0.2和0.5的設(shè)定參考實(shí)證數(shù)據(jù)分析結(jié)果(見(jiàn)表4), 而設(shè)置0的目的是為了探究當(dāng)不存在交叉負(fù)載時(shí)新模型的表現(xiàn)。

被試的潛在能力、潛在加工速度和潛在視覺(jué)參與度按如下方法生成:

該設(shè)定中ρτε= –0.5參考了上文實(shí)證研究結(jié)果及Zhan, Jiao和Liao (2018)和Man和Harring (2019)的設(shè)定: 假設(shè)個(gè)體的加工速度越慢則視覺(jué)參與度越高(即沉思型多匹配聚焦者); 同時(shí), 個(gè)體學(xué)習(xí)的加工速度越快則視覺(jué)參與度越低(即沖動(dòng)型多匹配非聚焦者); 另外, 遵循圖2(b)～2(d)中的設(shè)定, 設(shè)定ρθτ= 0和ρθε= 0, 原因是在交叉負(fù)載認(rèn)知診斷建模法中θ與τ之間的關(guān)系及θ與ε之間的關(guān)系已經(jīng)由交叉載荷來(lái)描述。

另外, 參考上文實(shí)證研究結(jié)果及Zhan, Jiao和Liao (2018)、Man和Harring (2019)的設(shè)定, 題目參數(shù)按如下方法生成

ω～(1.25, 2)和h～I(xiàn)nvGamma (2, 6)。另外, 屬性區(qū)分度參數(shù)被固定為γ1k= 1.5, 屬性難度參數(shù)被固定為γ0= (–1.5, –0.5, 0, 0.5, 1.5)’, 并依據(jù)公式2生成被試的屬性模式。

最后, 在6種(2樣本量 × 2測(cè)驗(yàn)長(zhǎng)度 × 2交叉載荷)模擬測(cè)驗(yàn)條件下, 分別依據(jù)C-MCDM-θ、C-MCDM-D和C-MCDM-C各生成30組平行數(shù)據(jù)(RA數(shù)據(jù)、RT數(shù)據(jù)和FC數(shù)據(jù))。

4.1.2 結(jié)果

在所有模擬測(cè)驗(yàn)條件下, 3個(gè)分析模型中的所有參數(shù)的PSRF值均滿足PSRF < 1.2的收斂標(biāo)準(zhǔn)(且98%以上的參數(shù)滿足相對(duì)更嚴(yán)苛的PSRF < 1.1收斂標(biāo)準(zhǔn)(Brooks & Gelman, 1998))。

圖7分別呈現(xiàn)了3個(gè)模型的屬性(模式)判準(zhǔn)率。首先, 當(dāng)交叉載荷為0時(shí), 3個(gè)模型在不同測(cè)驗(yàn)條件的表現(xiàn)基本一致。其次, 隨著交叉載荷的提高, 可發(fā)現(xiàn)3個(gè)模型的ACCR和PCCR在不同測(cè)驗(yàn)條件下均有所提升, 其中C-MCDM-C提升幅度最大, C-MCDM-D次之, C-MCDM-θ最小。這表明, 在聯(lián)合?交叉負(fù)載建模法中, 為提高診斷分類準(zhǔn)確性, 直接利用RT和FC數(shù)據(jù)為被試對(duì)屬性的掌握情況提供輔助信息比先為高階潛在能力提供輔助信息再間接影響被試對(duì)屬性的掌握更有效。對(duì)此, 一種可能的原因是, 在C-MCDM-θ中, HO-DINA模型(RA數(shù)據(jù)的測(cè)量模型)中的高階潛在能力作為一種輔助參數(shù)其參數(shù)估計(jì)返真性通常較差(de la Torre & Douglas, 2004; Zhan, 2020; Zhan et al., 2020); 因此, 盡管利用RT和FC數(shù)據(jù)中的輔助信息可以適當(dāng)提高高階潛在能力的參數(shù)估計(jì)準(zhǔn)確性, 但或許是提升幅度有限, 難以有效促進(jìn)潛在屬性的估計(jì)準(zhǔn)確性。這點(diǎn)在圖4中也可以得到印證。

圖8分別呈現(xiàn)了3個(gè)模型的潛在能力、潛在加工速度和潛在視覺(jué)參與度的參數(shù)估計(jì)返真性。首先, 3個(gè)模型在所有條件的參數(shù)估計(jì)偏差都接近于0。其次, 對(duì)C-MCDM-θ而言, 隨著交叉載荷的提高, 潛在能力的RMSE逐漸下降且Cor逐漸提高, 表明隨著RT和FC數(shù)據(jù)中的輔助信息的提高, 潛在能力的估計(jì)返真性會(huì)隨之增加; 但值得注意的是, 隨著交叉載荷的提高, 盡管潛在能力的估計(jì)返真性有所提升, 但潛在加工速度和潛在視覺(jué)參與度的估計(jì)返真性卻出現(xiàn)下降現(xiàn)象。然后, 對(duì)C-MCDM-D和C-MCDM-C而言, 由于RT和FC數(shù)據(jù)并未直接為潛在能力提供輔助信息系; 因此, 隨著交叉載荷的提高, 兩模型中潛在能力的RMSE略微下降且Cor略微提高。

由于篇幅限制, 3個(gè)模型的題目參數(shù)估計(jì)返真性呈現(xiàn)在網(wǎng)絡(luò)版附錄表S2-S4中。整體而言, 在不同測(cè)驗(yàn)條件下, 3個(gè)模型的題目參數(shù)估計(jì)返真性都較好, 呈現(xiàn)出較為一致的趨勢(shì): 被試數(shù)量增加有助于提高題目參數(shù)估計(jì)返真性, 而測(cè)驗(yàn)長(zhǎng)度和交叉載荷大小的影響似乎很小。

注: N = 樣本量; I = 測(cè)驗(yàn)長(zhǎng)度; CL = 交叉載荷; ACCR = 屬性判準(zhǔn)率; PCCR = 屬性模式判準(zhǔn)率.

圖8 模擬研究1中3個(gè)C-MCDM的潛在能力、潛在加工速度和潛在視覺(jué)參與度的參數(shù)估計(jì)返真性.

注: N = 樣本量; I = 測(cè)驗(yàn)長(zhǎng)度; CL = 交叉載荷; θ = 高階潛在能力; τ = 潛在加工速度; ε = 潛在視覺(jué)參與度; Bias = 偏差; RMSE = 均方根誤差; Cor = 估計(jì)值與真值的相關(guān)系數(shù).

4.2 模擬研究2

4.2.1 數(shù)據(jù)生成與分析

為進(jìn)一步探究新模型的相對(duì)優(yōu)勢(shì)及交叉?負(fù)載的必要性, 模擬研究2中分別使用3個(gè)新模型和H-MCDM作為數(shù)據(jù)生成模型, 然后對(duì)比探究幾個(gè)模型的表現(xiàn)。當(dāng)3個(gè)新模型作為數(shù)據(jù)生成模型時(shí), 被試的潛在能力、潛在加工速度和潛在視覺(jué)參與度的生成方法與模擬研究1保持一致(公式12); 交叉載荷(λ= –φ)從均值為0.1、標(biāo)準(zhǔn)差為0.3的正態(tài)分布中抽取, 表明交叉載荷在題目之間存在差異(該設(shè)定參考了上文實(shí)證數(shù)據(jù)的結(jié)果)。當(dāng)H-MCDM作為數(shù)據(jù)生成模型時(shí), 被試的潛在能力、潛在加工速度和潛在視覺(jué)參與度按如下分布生成:

此時(shí), ρθτ= –0.5、ρθε= 0.5和ρτε= –0.5, 該設(shè)定參考了已有實(shí)證數(shù)據(jù)的結(jié)果(Zhan, Jiao, & Liao, 2018; Man & Harring, 2019): 假設(shè)學(xué)生能力越高則加工速度越慢且視覺(jué)參與度水平越高; 同時(shí), 學(xué)生學(xué)習(xí)能力越低則加工速度越快且視覺(jué)參與度水平越低。另外, 每種模擬條件下均固定被試量= 500和測(cè)驗(yàn)長(zhǎng)度= 30, 其他設(shè)定均與模擬研究1保持一致。每種模擬條件下生成30組數(shù)據(jù)。

當(dāng)3個(gè)新模型作為數(shù)據(jù)生成模型時(shí), 僅使用數(shù)據(jù)生成模型和H-MCDM分析數(shù)據(jù); 當(dāng)H-MCDM作為數(shù)據(jù)生成模型時(shí), 使用H-MCDM和3個(gè)新模型分析數(shù)據(jù)。參數(shù)估計(jì)設(shè)定(如, 鏈數(shù)和鏈長(zhǎng)等)、收斂指標(biāo)和返真性指標(biāo)等均與模擬研究1保持一致。

4.2.2 結(jié)果

表6呈現(xiàn)不同條件下各數(shù)據(jù)分析模型與數(shù)據(jù)的擬合情況。首先, 無(wú)論何種條件下, 數(shù)據(jù)生成模型本身對(duì)模擬數(shù)據(jù)的擬合均相對(duì)更好。其次, 根據(jù)DIC可發(fā)現(xiàn), 當(dāng)C-MCDM作為數(shù)據(jù)生成模型時(shí), C- MCDM較H-MCDM的相對(duì)優(yōu)勢(shì)較大; 而當(dāng)H-MCDM作為數(shù)據(jù)生成模式時(shí), H-MCDM較C-MCDM的相對(duì)劣勢(shì)較小; 表明C-MCDM對(duì)不同測(cè)驗(yàn)條件的兼容性比H-MCDM更好。即忽略可能存在的交叉負(fù)載所導(dǎo)致的模型?數(shù)據(jù)不擬合比冗余考慮存在交叉負(fù)載所導(dǎo)致的模型?數(shù)據(jù)不擬合的程度更大。表7呈現(xiàn)了不同條件下各數(shù)據(jù)分析模型的屬性判準(zhǔn)率。結(jié)果的整體趨勢(shì)與DIC的類似, 即忽略可能存在的交叉負(fù)載對(duì)PCCR的負(fù)面影響比冗余考慮存在交叉負(fù)載對(duì)PCCR的負(fù)面影響更大。另外, 潛變量的和題目參數(shù)的返真性也均呈現(xiàn)類似的趨勢(shì)(見(jiàn)網(wǎng)絡(luò)版附錄表S5-S6)。總之, 模擬研究2結(jié)果表明忽略可能存在的交叉負(fù)載所導(dǎo)致的負(fù)面結(jié)果比冗余考慮存在交叉負(fù)載所導(dǎo)致的更嚴(yán)重, 即C-MCDM對(duì)測(cè)驗(yàn)情境的兼容性優(yōu)于H-MCDM的。

表6 模擬研究2中模型?數(shù)據(jù)擬合情況

表7 模擬研究2中潛在屬性(模式)判準(zhǔn)率.

5 總結(jié)與展望

5.1 總結(jié)

個(gè)體的問(wèn)題解決行為是彼此相關(guān)的多種認(rèn)知過(guò)程及心理建構(gòu)所共同決定的。在技術(shù)增強(qiáng)測(cè)評(píng)環(huán)境中, 通過(guò)多種儀器或測(cè)量設(shè)備采集的多模態(tài)數(shù)據(jù)為實(shí)現(xiàn)對(duì)個(gè)體認(rèn)知結(jié)構(gòu)的精準(zhǔn)診斷及其他認(rèn)知特征的全面反饋提供了可能性。本文以對(duì)RA數(shù)據(jù)、RT數(shù)據(jù)和FC數(shù)據(jù)的分析為例, 基于聯(lián)合?交叉負(fù)載建模法提出了3個(gè)具有不同理論假設(shè)的C-MCDM。其中, C-MCDM-θ假設(shè)被試的潛在能力的變化會(huì)影響其完成該題目的耗時(shí)和所用注視點(diǎn)數(shù); 而C- MCDM-D和C-MCDM-C均假設(shè)被試的潛在屬性掌握情況會(huì)影響其完成該題目的耗時(shí)和所用注視點(diǎn)數(shù), 兩者差異在于前者認(rèn)為僅有被試掌握了題目所考查的所有屬性后才會(huì)影響RT和FC, 而后者認(rèn)為被試掌握該題目所考查的屬性的數(shù)量會(huì)影響RT和FC。然后, 本文以一則實(shí)證數(shù)據(jù)為例對(duì)比探究了5個(gè)MCDM的表現(xiàn), 包括基于傳統(tǒng)分離建模法的S-MCDM、基于聯(lián)合?層級(jí)建模法的H-MCDM和新提出的3個(gè)C-MCDM。實(shí)證研究結(jié)果表明(1)聯(lián)合分析(即H-MCDM和C-MCDM)比分離分析(即S- MCDM)更適用于提供平行信息的多模態(tài)數(shù)據(jù); 且(2)從模型?數(shù)據(jù)擬合角度看, 新模型比H-MCDM更擬合該數(shù)據(jù)。此外, 實(shí)證研究也向讀者展示了如何根據(jù)數(shù)據(jù)分析結(jié)果來(lái)實(shí)現(xiàn)對(duì)個(gè)體認(rèn)知結(jié)構(gòu)的診斷及其他認(rèn)知特征(如, 認(rèn)知風(fēng)格)的推斷。最后, 使用兩則模擬研究進(jìn)一步探討新模型的表現(xiàn)。模擬研究1作為對(duì)實(shí)證研究的補(bǔ)充, 探究了3個(gè)新模型在不同模擬測(cè)驗(yàn)條件的參數(shù)估計(jì)返真性。模擬研究2對(duì)比探討了3個(gè)新模型和H-MCDM的表現(xiàn), 以展示新模型的相對(duì)優(yōu)勢(shì)及考慮交叉負(fù)載的必要性。模擬研究1結(jié)果表明(1)全貝葉斯MCMC算法能夠?yàn)?個(gè)新模型提供較好的參數(shù)估計(jì)返真性, 且3個(gè)新模型中各參數(shù)估計(jì)均可有效收斂; (2)實(shí)踐應(yīng)用中, 充足的題目數(shù)量是保證被試參數(shù)估計(jì)準(zhǔn)確性的必要條件之一; (3)在不以題庫(kù)建設(shè)為目標(biāo)的(或其他題目參數(shù)相對(duì)不重要的)應(yīng)用場(chǎng)景中, 100人的小樣本量足以滿足提供較為精準(zhǔn)的被試參數(shù)估計(jì)值。模擬研究2結(jié)果表明忽略可能存在的交叉負(fù)載所導(dǎo)致的負(fù)面結(jié)果比冗余考慮存在交叉負(fù)載所導(dǎo)致的更嚴(yán)重, 即C-MCDM對(duì)測(cè)驗(yàn)情境的兼容性優(yōu)于H- MCDM的?？傊? 本文通過(guò)實(shí)證研究闡明了新模型的現(xiàn)實(shí)可應(yīng)用性, 并通過(guò)模擬研究闡明了新模型具有良好的心理計(jì)量學(xué)性能。

綜上所述, 對(duì)本文的理論創(chuàng)新、理論貢獻(xiàn)和應(yīng)用價(jià)值做如下總結(jié):

(1)理論創(chuàng)新: 首次將聯(lián)合?交叉負(fù)載建模法引入認(rèn)知診斷領(lǐng)域, 提出3種不同假設(shè)的C-MCDM;

(2)理論貢獻(xiàn): 填補(bǔ)了在認(rèn)知診斷領(lǐng)域缺少聯(lián)合?交叉負(fù)載模型的空白;

(3)應(yīng)用價(jià)值: 從全面反饋視角出發(fā), 以認(rèn)知風(fēng)格和認(rèn)知流暢性為例, 嘗試在認(rèn)知診斷中提供認(rèn)知結(jié)構(gòu)以外其他認(rèn)知特征的反饋; 豐富了認(rèn)知診斷反饋的范圍, 增加了認(rèn)知診斷的實(shí)踐價(jià)值。

另外, 本文遵循Zhan等(2022)的做法, 將實(shí)驗(yàn)心理學(xué)與心理與教育測(cè)量相結(jié)合, 嘗試將眼動(dòng)數(shù)據(jù)引入心理計(jì)量模型; 這在一定程度上拓展了心理與教育測(cè)量的研究范式, 為今后進(jìn)一步將實(shí)驗(yàn)心理學(xué)基于儀器的測(cè)量或量化研究方法引入傳統(tǒng)心理與教育測(cè)量中提供了新視角。

值得強(qiáng)調(diào)的是由于新提出的3個(gè)C-MCDM與H-MCDM是基于不同聯(lián)合建模方法構(gòu)建的, 即它們基于不同的理論假設(shè)。在本文中, 盡管3個(gè)C-MCDM對(duì)實(shí)證數(shù)據(jù)的擬合程度優(yōu)于H-MCDM, 這并不代表它們?nèi)咴谌魏螠y(cè)驗(yàn)情境下都優(yōu)于H-MCDM; 比如, H-MCDM的相對(duì)優(yōu)勢(shì)是理論結(jié)構(gòu)簡(jiǎn)單、待估計(jì)參數(shù)數(shù)量較少。因此, 本文更多的是在認(rèn)知診斷領(lǐng)域向讀者提供一種基于聯(lián)合?交叉負(fù)載建模法的多模態(tài)數(shù)據(jù)分析視角和方法, 以期進(jìn)一步豐富多模態(tài)診斷數(shù)據(jù)分析模型的可選項(xiàng)。我們建議后續(xù)使用者針對(duì)特定的實(shí)證數(shù)據(jù), 同時(shí)使用多個(gè)MCDM對(duì)數(shù)據(jù)進(jìn)行聯(lián)合分析, 并基于數(shù)據(jù)?模型擬合指標(biāo)來(lái)選擇相對(duì)最合適的模型, 并結(jié)合模型的構(gòu)建理論對(duì)分析結(jié)果做進(jìn)一步解讀。

5.2 局限與展望

本文仍有一些局限性, 值得后續(xù)做進(jìn)一步探究。第一, 與已有聯(lián)合分析RA數(shù)據(jù)和RT數(shù)據(jù)的研究相比, 盡管本文僅額外分析了一種眼動(dòng)數(shù)據(jù)——注視點(diǎn)數(shù)(FC), 但鑒于聯(lián)合?層級(jí)建模法和聯(lián)合?交叉負(fù)載建模法的靈活擴(kuò)展性, 其他類型的眼動(dòng)數(shù)據(jù)或其他模態(tài)數(shù)據(jù)(如, 腦電[Jeon et al., 2021])也可嘗試被納入分析中, 進(jìn)而提出更全面的可聯(lián)合分析更多模態(tài)數(shù)據(jù)的認(rèn)知診斷模型。

第二, 本文以3個(gè)代表性的測(cè)量模型(即HO- DINA模型、LRT模型和NBF模型)為例闡述了聯(lián)合?交叉負(fù)載認(rèn)知診斷模型的構(gòu)建。同樣, 鑒于聯(lián)合?交叉負(fù)載建模法的靈活擴(kuò)展性, 后續(xù)針對(duì)不同的測(cè)驗(yàn)情境可分別替換不同的測(cè)量模型。當(dāng)然, 需要強(qiáng)調(diào)的是測(cè)量模型的更換并不影響本文的主要?jiǎng)?chuàng)新點(diǎn)——聯(lián)合?交叉負(fù)載認(rèn)知診斷建模法。

第三, 遵循Zhan等(2022), 利用多模態(tài)診斷數(shù)據(jù)本文只關(guān)注到對(duì)有限認(rèn)知特征的推斷, 如沉思型?沖動(dòng)型認(rèn)知風(fēng)格、聚焦者認(rèn)知風(fēng)格和認(rèn)知流暢性。實(shí)際上, 個(gè)體的認(rèn)知特征還有很多, 僅認(rèn)知風(fēng)格就還有其他的分類方式, 比如場(chǎng)獨(dú)立性?場(chǎng)依存性、言語(yǔ)型?視覺(jué)型等; 從全面反饋的視角看, 未來(lái)是否有可能利用多模態(tài)的數(shù)據(jù)實(shí)現(xiàn)對(duì)更多認(rèn)知特征的推斷, 甚至對(duì)是一些非認(rèn)知因素(如, 動(dòng)機(jī)、情緒和信念)的識(shí)別, 是非常值得關(guān)注的研究方向。

第四, 本文主要是提供了一種多模態(tài)診斷數(shù)據(jù)的分析方法, 實(shí)際上, 對(duì)多模態(tài)數(shù)據(jù)的利用可以延伸到很多已有模型中。比如, 后續(xù)研究可以將多模態(tài)數(shù)據(jù)引入多策略CDM (Ma & Guo, 2019)、多水平CDM (Wang & Qiu, 2019)和多級(jí)評(píng)分CDM (Ma & de la Torre, 2016)中, 甚至考慮將多模態(tài)數(shù)據(jù)引入到一些非參數(shù)診斷法中(如, 聚類分析)等。

第五, 本文提出的3個(gè)C-MCDM均未考慮潛在加工速度和潛在視覺(jué)參與度對(duì)RA的影響, 即未考慮利用RA數(shù)據(jù)信息提高這兩個(gè)潛在變量的參數(shù)估計(jì)精度。后續(xù), 若有必要也可嘗試C-MCDM做進(jìn)一步拓廣, 納入上述未考慮的路徑(鄭天鵬等, in press), 開(kāi)發(fā)全交叉負(fù)載模型; 只不過(guò)要額外注意模型可識(shí)別性問(wèn)題。

第六, 如2.3.4節(jié)中所述, 由于在RT和FC測(cè)量模型中的被試參數(shù)為連續(xù)變量, 無(wú)法像對(duì)潛在屬性的診斷一樣直接對(duì)個(gè)體的潛在加工速度和潛在視覺(jué)參與度進(jìn)行分類, 進(jìn)而無(wú)法直接實(shí)現(xiàn)對(duì)個(gè)體認(rèn)知特征的分類。對(duì)此, 本文采用了以均值為切點(diǎn)的分類方法, 并依據(jù)潛在能力、潛在加工速度和潛在視覺(jué)參與度的分類組合, 嘗試對(duì)個(gè)體認(rèn)知特征的推斷。需要強(qiáng)調(diào)的是(1)這種分類方法是比較粗糙的, 適用于對(duì)個(gè)體認(rèn)知特征的粗略推斷, 并非精確的測(cè)量或診斷結(jié)果; (2)這種分類方法所利用的信息尚有限, 僅利用了潛在能力、潛在加工速度和潛在視覺(jué)參與度這3個(gè)潛在變量的估計(jì)值作分類依據(jù)。未來(lái), 為實(shí)現(xiàn)對(duì)個(gè)體認(rèn)知特征的更精準(zhǔn)推斷甚至是測(cè)量, 可嘗試從3個(gè)角度突破: (1)綜合利用更多模態(tài)的數(shù)據(jù)來(lái)實(shí)現(xiàn)對(duì)個(gè)體認(rèn)知特征的推斷, 以期為推斷性分類提供更多的參考信息; (2)嘗試借鑒計(jì)算機(jī)化分類測(cè)驗(yàn)中對(duì)連續(xù)變量的分類方法(Ferguson, 1969), 以期改進(jìn)以均值為切點(diǎn)的分類方法; (2)直接通過(guò)類別變量構(gòu)建特定認(rèn)知特征的被試參數(shù)(Wang & Chen, 2020), 以期實(shí)現(xiàn)對(duì)個(gè)體認(rèn)知特征的測(cè)量而非推斷。

第七, 由于現(xiàn)實(shí)硬件條件的限制(如, 沒(méi)有大批量眼動(dòng)儀), 本文所分析的實(shí)證數(shù)據(jù)仍屬于小規(guī)模測(cè)驗(yàn)(由于成本儀器成本原因, 在未來(lái)一段時(shí)間, 涉及實(shí)驗(yàn)儀器采集數(shù)據(jù)的研究都會(huì)受限于被試量的問(wèn)題)。盡管模擬研究結(jié)果顯示, 在不考慮建立題庫(kù)的應(yīng)用場(chǎng)景下小樣本量(100人)也可以滿足要求, 但在大規(guī)模測(cè)驗(yàn)和涉及題庫(kù)的應(yīng)用場(chǎng)景(如, 計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn))中, 這些硬件條件的限制都會(huì)制約多模態(tài)數(shù)據(jù)分析方法的實(shí)際應(yīng)用。隨著測(cè)量方式及數(shù)據(jù)分析技術(shù)的不斷發(fā)展, 充分利用計(jì)算機(jī)(網(wǎng)絡(luò))技術(shù), 尤其是人工智能的介入, 并結(jié)合便攜式和低成本的心理學(xué)實(shí)驗(yàn)儀器, 我們期待也有理由相信未來(lái)可以突破硬件條件的限制, 在大規(guī)模測(cè)驗(yàn)中實(shí)現(xiàn)對(duì)多模態(tài)數(shù)據(jù)的采集與分析。

最后, 在貝葉斯參數(shù)估計(jì)值中, 先驗(yàn)分布的選擇反映了數(shù)據(jù)分析者對(duì)模型參數(shù)的信念或已有經(jīng)驗(yàn)。根據(jù)已有數(shù)據(jù)分析經(jīng)驗(yàn)以及已有研究結(jié)果(Man & Harring, 2019; Zhan et al., 2022), 本文選取了特定的先驗(yàn)分布。盡管魯棒性分析表明模型的參數(shù)估計(jì)結(jié)果受包含不同信息量的先驗(yàn)分布的影響較小, 但這并不意味著本文所用的先驗(yàn)分布適用于所有測(cè)驗(yàn)情境。在后續(xù)的實(shí)踐應(yīng)用中, 針對(duì)全新的實(shí)證數(shù)據(jù), 數(shù)據(jù)分析者也可嘗試使用超先驗(yàn)分布來(lái)探索恰當(dāng)?shù)南闰?yàn)分布。

An, L., Wang, Y., & Sun, Y. (2017). Reading words or pictures: Eye movement patterns in adults and children differ by age group and receptive language ability.791. https://doi.org/10.3389/fpsyg.2017.00791

Bezirhan, U., von Davier, M., & Grabovsky, I. (2021). Modelingitem revisit behavior: The hierarchical speed-accuracy-revisitsmodel.(2), 363?387.

Biancarosa, G., & Shanley, L. (2015). What is fluency? In K. D. Cummings & Y. Petscher (Eds.),(pp. 1?18). Springer.

Bolsinova, M., de Boeck, P., & Tijmstra, J. (2017). Modelling conditional dependence between response time and accuracy., 112?1148. https://doi.org/10.1007/ s11336-016-9537-6

Bolsinova, M., & Tijmstra, J. (2018). Improving precision of ability estimation: Getting more from response times.(1), 13?38.

Bos, W., Lankes, E.-M., Prenzel, M., Schwippert, K., Valtin, R., & Walther, G. (Eds). (2005).[IGLU: Supplementary in-depth analyses of reading comprehension, context effects, and additional studies]. Münster: Waxmann.

Brooks, S. P., & Gelman, A. (1998). General methods for monitoring convergence of iterative simulations.(4), 434–455. https://doi.org/10.2307/1390675

de Boeck, P., & Jeon, M. (2019). An overview of models for response times and processes in cognitive tests.102.

De la Torre, J. (2011). The generalized DINA model framework., 179–199.

De la Torre, J., & Douglas, J. A. (2004). Higher-order latent trait models for cognitive diagnosis.(3), 333–353. https://doi.org/10.1007/BF02295640

Gardner, R. W., Holzman, P. S., Klein, G. S., Linton, H. B., & Spence, D. (1959). Cognitive control: A study of individual consistencies in cognitive behavior., Monograph 4.

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2014).. Boca Raton: CRC Press.

Gu, Y., & Xu, G. (2021). Sufficient and necessary conditions for the identifiability of the Q-matrix., 449?472.

Guo, L. Shang, P., & Xia, L. (2017). Advantages and illustrations of application of response time model in psychological and educational testing.(4), 701–712.

[郭磊, 尚鵬麗, 夏凌翔. (2017). 心理與教育測(cè)驗(yàn)中反應(yīng)時(shí)模型應(yīng)用的優(yōu)勢(shì)與舉例.(4), 701–712.]

Holzman, P. S. (1966). Scanning: A principle of reality contact., 835?844.

Jeon, M., de Boeck, P., Luo, J., Li, X., & Lu, Z.-L. (2021). Modeling within-item dependencies in parallel data on test responses and brain activation.(1), 239? 271. https://doi.org/10.1007/s11336-020-09741-2

Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory.(3), 258–272.

Kagan, J. (1965). Reflection-impulsivity and reading ability in primary grade children.(3), 609–628.

Lahat, D., Adali, T., & Jutten, C. (2015). Multimodal data fusion: An overview of methods, challenges, and prospects.(9), 1449?1477.

Levy, R., & Mislevy, R. J. (2016).. Boca Raton, FL: CRC Press.

Li, M., Liu, Y., & Liu, H. (2020). Analysis of the problem- solving strategies in computer-based dynamic assessment: The extension and application of multilevel mixture IRT model.(4), 528?540.

[李美娟, 劉玥, 劉紅云. (2020). 計(jì)算機(jī)動(dòng)態(tài)測(cè)驗(yàn)中問(wèn)題解決過(guò)程策略的分析: 多水平混合IRT模型的拓展與應(yīng)用.(4), 528?540.]

Liu, H., Liu Y., & Li, M. (2018). Analysis of process data of PISA 2012 computer-based problem solving: Application of the modified multilevel mixture IRT model., 1372.

Liu, Y., Xu, H., Chen, Q., & Zhan, P. (2022). The measurement of problem-solving competence using process data.(3), 522?525.

[劉耀輝, 徐慧穎, 陳琦鵬, 詹沛達(dá). (2022). 基于過(guò)程數(shù)據(jù)的問(wèn)題解決能力測(cè)量及數(shù)據(jù)分析方法.(3), 522?525.]

Ma, W., & de la Torre, J. (2016). A sequential cognitive diagnosis model for polytomous responses.(3), 253–275.

Ma, W., & Guo, W. (2019). Cognitive diagnosis models for multiple strategies.(2), 370?392.

Man, K., & Harring, J. R. (2019). Negative binomial models for visual fixation counts on test items.(4), 617?635. http://doi. Org/0.1177/0013164418824148

Man, K., & Harring, J. R. (2020). Assessing preknowledge cheating via innovative measures: A multiple-group analysis of jointly modeling item responses, response times, and visual fixation counts.,(3), 441–465. https://doi.org/10.1177/ 0013164420968630

Messick, S. (1989). Cognitive style and personality: Scanning and orientation toward affect.s, RR-89-16. https://doi.org/10.1002/j.2330-8516.1989.tb00 342.x

Molenaar, D., Tuerlinckx, F., & van der Maas, H. L. (2015). A bivariate generalized linear item response theory modeling Framework to the Analysis of Responses and Response Times.,(1), 56–74.

Plummer, M. (2015).. Retrieved from http://mcmc-jags.sourceforge.net/

Poole, A., Ball, L. J., & Phillips, P. (2004). In search of salience: A response-time and eye-movement analysis of bookmark recognition. In S. Fincher, P. Markopoulos, D. Moore, & R. Ruddle (Eds.),(pp. 363–378). London, England: Springer.

Ranger, J. (2013). A note on the hierarchical model for responses and response times in tests of van der Linden (2007).(3), 538?544.

Ren, H., Xu, N., Lin, Y., Zhang, S., & Yang, T. (2021). Remedial teaching and learning from a cognitive diagnostic model perspective: Taking the data distribution characteristics as an example., 628607. https:// doi.org/10.3389/fpsyg.2021.628607

Riding, R. J. (1997). On the nature of cognitive style.(1-2), 29?49.

Rimawi, O., Al-Halabiyah, F., & Hussein, O. (2020). The cognitive style (focusing-scanning) among Al-Quds University students.(1), 143?154.

Rupp, A. A., Templin, J. L., & Henson, R. (2010).. New York: Guilford Press.

Schaeffer, G. A., Reese, C. M., Steffen, M., McKinley, R. L., & Mills, C. N. (1993).. Princeton, NJ: Educational Testing Service.

Tang, F., & Zhan, P. (2021). Does diagnostic feedback promote learning? Evidence from a longitudinal cognitive diagnostic assessment.,. https://doi.org/10.1177/ 23328584211060804

Unkelbach, C. (2006). The learned interpretation of cognitive fluency.(4), 339?345.

Van der Linden, W. J. (2006). A lognormal model for response times on test items.(2), 181?204.

Van der Linden, W. J. (2007). A hierarchical framework for modeling speed and accuracy on test items.(3), 287?308.

Von Davier, M., & Lee, Y.-S. (2019).. New York, NY: Springer.

Wang, L., Tang, F., & Zhan, P. (2020). Effect analysis of individualized remedial teaching based on cognitive diagnostic assessment: Taking “l(fā)inear equation with one unknown” as an example.(6), 1490?1497.

[王立君, 唐芳, 詹沛達(dá). (2020). 基于認(rèn)知診斷測(cè)評(píng)的個(gè)性化補(bǔ)救教學(xué)效果分析: 以“一元一次方程”為例.(6), 1490?1497.]

Wang, S., & Chen, Y. (2020). Using response times and response accuracy to measure fluency within cognitive diagnosis models.(2), 600–629.

Wang, W. C., & Qiu, X. L. (2019). Multilevel modeling of cognitive diagnostic assessment: The multilevel DINA example.(1), 34?50.

Wise, S. L., & Kong, X. (2005). Response time effort: A new measure of examinee motivation in computer-based tests.(2), 163–183

Zhan, P. (2018).(Unpublished doctoral dissertation). Beijing Normal University.

[詹沛達(dá). (2018).(博士學(xué)位論文). 北京師范大學(xué).]

Zhan, P. (2019). Joint modeling for response times and response accuracy in computer-based multidimensional assessments.(1), 170–178.

[詹沛達(dá). (2019). 計(jì)算機(jī)化多維測(cè)驗(yàn)中作答時(shí)間和作答精度數(shù)據(jù)的聯(lián)合分析.(1), 170–178.]

Zhan, P. (2020). A Markov estimation strategy for longitudinal learning diagnosis: Providing timely diagnostic feedback.(6), 1145? 1167. https://doi.org/10.1177/0013164420912318

Zhan, P., Jiao, H., & Liao, D. (2018). Cognitive diagnosis modelling incorporating item response times.(2), 262–286.

Zhan, P., Jiao, H., Man, K, & Wang, L. (2019). Using JAGS for Bayesian cognitive diagnosis modeling: A tutorial.(4), 473–503.

Zhan, P., Liao, M., & Bian, Y. (2018). Joint testlet cognitive diagnosis modeling for paired local item dependence in response times and response accuracy., 607.

Zhan, P., Man, K., Wind, S. A., & Malone, J. (2022). Cognitive diagnosis modeling incorporating response times and fixation counts: Providing comprehensive feedback and accurate diagnosis.. https://doi.org/10.3102/10769986221111085

Zhan, P., & Qiao, X. (2022). Diagnostic Classification analysis of problem-solving competence using process data: An item expansion method.. https://doi.org/10.1007/ s11336-022-09855-9

Zheng, T., Zhou, W., & Guo, L. (in press). Cognitive diagnosis modelling based on response times.

[鄭天鵬, 周文杰, 郭磊. (in press). 基于題目作答時(shí)間信息的認(rèn)知診斷模型..]

Zoanetti, N. (2010). Interactive computer based assessment tasks: How problem-solving process data can inform instruction.(5), 585–606.

附錄:

S1 參數(shù)估計(jì)對(duì)先驗(yàn)分布的魯棒性分析

S1.1 高、中和低信息先驗(yàn)分布

S1.1.1 中信息先驗(yàn)分布

在貝葉斯參數(shù)估計(jì)值中, 先驗(yàn)分布的選擇反映了數(shù)據(jù)分析者對(duì)模型參數(shù)的信念或已有經(jīng)驗(yàn)。根據(jù)已有數(shù)據(jù)分析經(jīng)驗(yàn)以及已有研究結(jié)果(如, Man & Harring, 2019; Zhan et al., 2022), 包含適量信息的先驗(yàn)分布(即中信息先驗(yàn)分布)設(shè)定如下(對(duì)3個(gè)C-MCDM通用):

首先, 根據(jù)局部獨(dú)立性假設(shè), 有

其次, 對(duì)題目參數(shù)而言, 有

然后, 對(duì)被試參數(shù)而言, 有

再有, 對(duì)高階潛在結(jié)構(gòu)參數(shù)而言, 有

S1.1.2 低信息先驗(yàn)分布

低信息先驗(yàn)分布的設(shè)定以“無(wú)知”為前提, 并以大方差(如, 10)為變異范圍。在S1.1.1的基礎(chǔ)上, 低信息先驗(yàn)分布設(shè)定如下:

其他參數(shù)的先驗(yàn)分布保持不變。

S1.1.3 高信息先驗(yàn)分布

高信息先驗(yàn)分布的設(shè)定以“先知”為前提, 圍繞參數(shù)“真值”進(jìn)行, 并以小方差(如, 0.5)為變異范圍。在S1.1.1的基礎(chǔ)上, 高信息先驗(yàn)分布設(shè)定如下:

其他參數(shù)的先驗(yàn)分布保持不變。

S1.2 參數(shù)估計(jì)一致性

選用正文模擬研究中= 100,= 15,= 0.5條件下生成的數(shù)據(jù)作為分析數(shù)據(jù); 該模擬測(cè)驗(yàn)條件屬于小樣本短測(cè)驗(yàn)情境, 理論上, 參數(shù)估計(jì)結(jié)果受到先驗(yàn)分布的影響更大。因此, 隨樣本量增大及測(cè)驗(yàn)長(zhǎng)度提高, 參數(shù)估計(jì)結(jié)果受先驗(yàn)分布中所含信息量的影響會(huì)逐漸降低(即魯棒性會(huì)增加)。3個(gè)模型的參數(shù)估計(jì)設(shè)定(如, 馬爾可夫鏈長(zhǎng))與模擬研究中保持一致。

圖S1-S2和表S1分別呈現(xiàn)了3個(gè)模型在不同信息量先驗(yàn)分布下各參數(shù)的返真性?？砂l(fā)現(xiàn)隨著先驗(yàn)分布的信息量的提高, 各參數(shù)的返真性均有小幅度提升; 其中, 提升幅度相對(duì)較大的是由低信息量先驗(yàn)到中信息量先驗(yàn)時(shí), 而由中信息量先驗(yàn)到高信息量先驗(yàn)的提升幅度微弱?？紤]到實(shí)際應(yīng)用中很少使用如此低信息的先驗(yàn)分布且無(wú)法像高信息先驗(yàn)分布那樣圍繞各參數(shù)的“真值”進(jìn)行設(shè)定, 中信息先驗(yàn)分布的普適性是相對(duì)較高的: 即避免了不實(shí)際的“無(wú)知”或“先知”, 同時(shí)又保證了較高的參數(shù)估計(jì)精度。因此, 正文中我們選用中信息先驗(yàn)分布進(jìn)行后續(xù)的分析。

整體而言, 當(dāng)采用包含不同信息量的先驗(yàn)分布時(shí), 每個(gè)模型的參數(shù)估計(jì)結(jié)果均較為穩(wěn)定, 即新模型對(duì)不同先驗(yàn)分布具有一定的魯棒性。

圖S1 三模型在不同信息量先驗(yàn)分布下的屬性(模式)判準(zhǔn)率.

注: N = 樣本量; I = 測(cè)驗(yàn)長(zhǎng)度; CL = 交叉載荷; ACCR = 屬性判準(zhǔn)率; PCCR = 屬性模式判準(zhǔn)率.

圖S2 三模型在不同信息量先驗(yàn)分布下的潛在能力、潛在加工速度和潛在視覺(jué)參與度的返真性

Joint-cross-loading multimodal cognitive diagnostic modeling incorporating visual fixation counts

ZHAN Peida

(Department of Psychology, College of Teacher Education, Zhejiang Normal University; Key Laboratory of Intelligent Education Technology and Application of Zhejiang Province, Zhejiang Normal University, Jinhua 321004, China)

Students’ observed behavior (e.g., learning behavior and problem-solving behavior) comprises of activities that represent complicated cognitive processes and latent conceptions that are frequently systematically related to one another. Cognitive characteristics such as cognitive styles and fluency may differ between students with the same cognitive/knowledge structure. However, practically all cognitive diagnosis models (CDMs) that merely assess item response accuracy (RA) data are currently incapable of estimating or inferring individual differences in cognitive traits. With advances in technology-enhanced assessments, it is now possible to capture multimodal data, such as outcome data (e.g., response accuracy), process data (e.g., response times (RTs), and biometric data (e.g., visual fixation counts (FCs)), automatically and simultaneously during the problem-solving activity. Multimodal data allows for precise cognitive structure diagnosis as well as comprehensive feedback on various cognitive characteristics.

First, using joint analysis of RA, RT, and FC data as an example, this study elaborated three multimodal data analysis methods and models, including separate modeling (whose model is denoted as S-MCDM), joint- hierarchical modeling (whose model is denoted as H-MCDM) (Zhan et al., 2022), and joint-cross-loading modeling (whose model is denoted as C-MCDM). Following that, three C-MCDMs with distinct hypotheses were presented based on joint-cross-loading modeling, namely, the C-MCDM-θ, C-MCDM-D, and C-MCDM-C, respectively. Three C-MCDMs, in comparison to the H-MCDM, introduce two item-level weight parameters (i.e., φand λ) into the RT and FC measurement models, respectively, to quantify the impact of latent ability or latent attributes on RT and FC. The Markov Chain Monte Carlo method was used to estimate model parameters using a full Bayesian approach. To illustrate the three proposed models’ application and compare them to the S-MCDM and H-MCDM, multimodal data for a real-world mathematics test was used. Data was gathered at a prominent university on the East Coast of the United States in an eye-tracking lab. An= 10 mathematics items test was given to= 93 university students with normal or corrected vision. The test included= 4 attributes, and the related Q-matrix is shown in Figure 3. The data is divided into three modalities: RA, RT, and FC, which were all collected at the same time. The data was fitted to all five multimodal models.

In addition, two simulation studies were conducted further to explore the psychometric performance of the proposed models. The purpose of simulation study 1 was to explore whether the parameter estimates of the proposed models can converge effectively and explore the recovery of parameter estimation under different simulated test situations. The purpose of simulation study 2 was to explore the relative merits of C-MCDMs and H-MCDM, that is, to explore the necessity of considering cross-loading in multimodal data analysis.

The results of the empirical study showed that (1) the C-MCDM-θ has the best model-data fitting, followed by the H-MCDM and the S-MCDM. Although the DIC showed that the C-MCDM-D and C-MCDM-C also fitted the data well, the results were only for reference because some parameter estimates in these two models did not converge; that (2) the correlation coefficients between latent ability and latent processing speed and that between latent ability and latent concentration were weak, making it difficult to fully exploit the theoretical advantages of H-MCDM over S-MCDM (Ranger, 2013). By contrast, since the C-MCDM-θ can directly utilize the information from RT and FC data, the standard error of the estimates of its latent ability was significantly lower than that of the previous two competing models; and that (3) the median of the estimates of φwas less than 0, which indicated that for most items, the higher the participant’s latent ability is, the longer the time it will take to solve the items; and the median of the estimates of λwas higher than 0, which indicated that for most items, the higher the participant’s latent ability is, the more number of fixation counts he/she shown in problem-solving. Furthermore, it should be noted that the estimates of φand λdo not always have the same sign for different items, indicating that the influence of latent abilities on RT and FC has different directions (i.e., facilitation or inhibition) for different items. Furthermore, simulation study 1 indicated that the parameter estimation of the proposed three models could converge effectively and the recovery of model parameters was good under different simulated test situations. The results of simulation study 2 indicated that the adverse effects of ignoring the possible cross- loadings are more severe than redundantly considering the cross-loadings.

Overall, the results of this study indicate that (1) fusion analysis is more suitable for multimodal data that provides parallel information than separate analysis; that (2) through cross-loading, the proposed models can directly use information from RT and FC data to improve the parameter estimation accuracy of latent ability or latent attributes; that (3) the results of the proposed models can be used to diagnose cognitive structure and infer other cognitive characteristics such as cognitive styles and fluency; and that (4) the proposed models have better compatibility with different test situations than H-MCDM.

cognitive diagnosis, multimodal data, item response times, fixation counts, cognitive style, eye-tracking

B841

2021-06-10

* 國(guó)家自然科學(xué)基金青年基金項(xiàng)目(31900795)和浙江省哲學(xué)社會(huì)科學(xué)規(guī)劃“之江青年理論與調(diào)研專項(xiàng)課題”(22ZJQN38YB)資助。

詹沛達(dá), E-mail: pdzhan@gmail.com

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

引入眼動(dòng)注視點(diǎn)的聯(lián)合?交叉負(fù)載多模態(tài)認(rèn)知診斷建模*

1 引言

2 多模態(tài)數(shù)據(jù)的聯(lián)合分析

2.2 注視點(diǎn)數(shù)

2.3 多模態(tài)數(shù)據(jù)分析

2.4 貝葉斯參數(shù)估計(jì)

3 實(shí)證數(shù)據(jù)分析

3.1 數(shù)據(jù)描述和分析

3.2 結(jié)果

4 模擬研究

4.1 模擬研究1

4.2 模擬研究2

5 總結(jié)與展望

5.1 總結(jié)

5.2 局限與展望

附錄: