亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于過程數(shù)據(jù)的問題解決能力測量及數(shù)據(jù)分析方法*

        2022-03-15 03:31:54劉耀輝徐慧穎陳琦鵬詹沛達(dá)
        心理科學(xué)進(jìn)展 2022年3期
        關(guān)鍵詞:測量能力

        劉耀輝 徐慧穎 陳琦鵬 詹沛達(dá),2

        ·研究方法(Research Method)·

        基于過程數(shù)據(jù)的問題解決能力測量及數(shù)據(jù)分析方法*

        劉耀輝1徐慧穎1陳琦鵬1詹沛達(dá)1,2

        (1浙江師范大學(xué)教師教育學(xué)院心理學(xué)系;2浙江省智能教育技術(shù)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室, 金華 321004)

        問題解決能力是指在沒有明顯解決方法的情況下個(gè)體從事認(rèn)知加工以理解和解決問題情境的能力。對問題解決能力的測量需要借助相對更復(fù)雜、更真實(shí)、具有可交互性的問題情境來誘導(dǎo)問題解決行為的呈現(xiàn)。使用虛擬測評抓取問題解決的過程數(shù)據(jù)并分析其中所蘊(yùn)含的潛在信息是當(dāng)前心理計(jì)量學(xué)中測量問題解決能力的新趨勢。首先, 回顧問題解決能力測量方式的發(fā)展:從紙筆測驗(yàn)到虛擬測評。然后, 總結(jié)對比兩類過程數(shù)據(jù)的分析方法:統(tǒng)計(jì)建模法和數(shù)據(jù)挖掘法。最后, 從非認(rèn)知因素的影響、多模態(tài)數(shù)據(jù)的利用、問題解決能力發(fā)展的測量、其他高階思維能力的測量和問題解決能力概念及結(jié)構(gòu)的界定五個(gè)方面展望未來可能的研究方向。

        問題解決能力, 過程數(shù)據(jù), 虛擬測評, 計(jì)算機(jī)化測驗(yàn), 高階思維能力

        1 引言

        “在現(xiàn)代社會里, 所有生活都是問題解決(In modern societies, all of life is problem solving)” (p.13, OECD, 2014)。Mayer (1990)將問題解決(problem solving)定義為在沒有明顯解決方法的情況下, 將一個(gè)給定情境轉(zhuǎn)換為目標(biāo)情境的認(rèn)知加工過程?;诖? OECD (2013)將問題解決能力(problem- solving competence)1不同研究對“competence”一詞的翻譯存在差異, 其譯文包括但不限于“能力”、“素養(yǎng)”和“勝任力”; 針對問題解決這一特定主題, 作者認(rèn)為將“competence”譯為“能力”更合適也更通俗易懂。但同時(shí)也請讀者留意其與“ability”和“capacity”等詞的差異性。定義為在沒有明顯解決方法的情況下個(gè)體從事認(rèn)知加工以理解和解決問題情境的能力; 同時(shí)包括個(gè)體參與問題解決的意愿。其中, 認(rèn)知加工可進(jìn)一步細(xì)分為(1)探索和理解(exploring and understanding)、(2)表征和構(gòu)想(representing and formulating)、(3)計(jì)劃和執(zhí)行(planning and executing)和(4)監(jiān)測和反思(monitoring and reflecting)。我國也于2016年發(fā)布的《中國學(xué)生發(fā)展核心素養(yǎng)》明確將問題解決作為實(shí)踐創(chuàng)新的基本點(diǎn)之一, 強(qiáng)調(diào)學(xué)生要“善于發(fā)現(xiàn)和提出問題, 有解決問題的興趣和熱情; 能依據(jù)特定情境和具體條件, 選擇制訂合理的解決方案; 具有在復(fù)雜環(huán)境中行動的能力等”。

        區(qū)別于利用特定領(lǐng)域或問題情境的專業(yè)知識或技能的能力, 問題解決能力聚焦于能處理真實(shí)生活中所遇問題的認(rèn)知技能, 其包括在環(huán)境中獲取和使用新知識的能力或采用新方式結(jié)合個(gè)體已有的知識去解決新問題的能力。作為一種不局限于特定問題(任務(wù))情境的一般化能力, 問題解決能力所涉及的內(nèi)容遠(yuǎn)不止對個(gè)體所積累的知識的再現(xiàn), 它還涉及到對認(rèn)知和實(shí)踐技能、創(chuàng)造力和其他社會心理資源(比如態(tài)度、動機(jī)和價(jià)值觀)的調(diào)動(OECD, 2013)。另外, OECD (2013)對問題解決能力的定義強(qiáng)調(diào)個(gè)體在解決問題時(shí)的認(rèn)知加工過程, 并明確指出“學(xué)生對評估題目的作答——他們的探索策略, 在建模問題時(shí)使用的表征, 數(shù)字和非數(shù)字答案, 或?qū)栴}如何解決的擴(kuò)展解釋——將用于推斷他們所采用的認(rèn)知加工過程” (OECD, 2013, p.122)。

        問題解決能力作為一種重要的高階思維能力2高階思維是指發(fā)生在較高層次水平上的認(rèn)知活動, 包括批判性思維、創(chuàng)造性思維、問題解決和決策等, 其不僅影響著個(gè)體在學(xué)業(yè)或事業(yè)上的表現(xiàn), 也是當(dāng)代社會發(fā)展對人才的基本要求(鐘志賢, 2004; Brookhart, 2010; Carroll & Harris, 2020)。(Autor & Dorn, 2009), 是個(gè)體適應(yīng)社會與生活的必備特質(zhì), 也是個(gè)體勝任未來工作的核心能力之一。換句話說, 具有高水平問題解決能力的人才是促進(jìn)新時(shí)代社會進(jìn)步的主要?jiǎng)恿?。然? 對問題解決能力的測量需要依托于真實(shí)的、復(fù)雜的、具有可交互性的問題情境(任務(wù)), 以充分展現(xiàn)問題解決的過程并保證測量的效度; 因此, 如何實(shí)現(xiàn)對個(gè)體問題解決能力的客觀測量不僅對傳統(tǒng)的心理測量方式(例如, 采用諸如李克特式題目的紙筆測驗(yàn))提出了挑戰(zhàn), 也對傳統(tǒng)的心理測量數(shù)據(jù)分析方法和理論(例如, 經(jīng)典測量理論(classical test theory, CTT)和題目作答理論(item response theory, IRT))提出了挑戰(zhàn)。

        面對信息智能時(shí)代的全新挑戰(zhàn), 提升高階思維能力、落實(shí)核心素養(yǎng), 并建構(gòu)與之相應(yīng)的新測評體系顯得尤為迫切。近些年, 隨著心理與教育測量理論與應(yīng)用研究的發(fā)展, 尤其是近兩年受新冠肺炎(COVID-19)疫情的影響, 計(jì)算機(jī)(網(wǎng)絡(luò))化測評形式逐漸成為人們的關(guān)注焦點(diǎn)和現(xiàn)實(shí)需求。虛擬測評(virtual assessment)是指在計(jì)算機(jī)化虛擬環(huán)境中進(jìn)行的, 可利用虛擬環(huán)境特性的測評方式(Agard & von Davier, 2018), 常見的有情景化(scenario-based)、模擬化(simulation-based)和游戲化(game-based)測評。虛擬測評是對傳統(tǒng)測評的革新, 它更具真實(shí)性、情景性和趣味性, 能夠增加學(xué)生的代入感、公平感并緩解測驗(yàn)焦慮, 進(jìn)而促使學(xué)生展現(xiàn)出“真實(shí)的自己” (Banfield & Wilkerson, 2014; Li et al., 2015)。使用虛擬測評探究學(xué)生高階思維能力或?qū)W科核心素養(yǎng)已成為心理與教育測量的新趨勢(Liu et al., 2018; Shute & Moore, 2018; 孫鑫等, 2018; 袁建林, 劉紅云, 2017)。比如, 徐俊怡和李中權(quán)(2021)對游戲化測評的概念、范式和實(shí)踐應(yīng)用做了詳細(xì)的闡述; 孫鑫等人(2018)和Shute和Rahimi (2020)采用游戲化測評分別測量了學(xué)生的推理能力和創(chuàng)造力。除帶有實(shí)驗(yàn)設(shè)計(jì)色彩的小規(guī)模測評外, 諸如國際學(xué)生評估項(xiàng)目(Programme for International Student Assessment, PISA)和美國教育進(jìn)步測評(National Assessment of Educational Progress, NEAP)等大規(guī)模測評項(xiàng)目也已經(jīng)開始使用虛擬測評工具來測量學(xué)生的高階思維能力(OECD, 2016; NCES, 2014)。比如, PISA 2012和NEAP 2014探究了學(xué)生的個(gè)體問題解決能力; PISA 2015探究了學(xué)生的合作問題解決能力; 我國國家基礎(chǔ)教育質(zhì)量監(jiān)測也于2020年開始使用虛擬測評工具測量學(xué)生的科學(xué)探究能力。

        與傳統(tǒng)測評方式相比, 虛擬測評可基于日志文件(log-file)同時(shí)抓取個(gè)體作答的結(jié)果數(shù)據(jù)(outcome data)和過程數(shù)據(jù)(process data)。結(jié)果數(shù)據(jù)是指諸如題目作答精度等傳統(tǒng)數(shù)據(jù); 而過程數(shù)據(jù)是指帶有時(shí)間戳(time stamp)的能夠反映個(gè)體解決問題過程的人機(jī)或人人交互數(shù)據(jù)(Bergner & von Davier, 2018; Hao et al., 2015), 包括題目層面過程數(shù)據(jù)(例如, 題目作答時(shí)間、題目操作(鼠標(biāo)點(diǎn)擊)次數(shù)和答案修改(試錯(cuò))次數(shù))和相對更為精細(xì)的操作層面過程數(shù)據(jù)(例如, 操作歷程、操作時(shí)間)。分析過程數(shù)據(jù)有助于了解個(gè)體的問題解決過程、探究個(gè)體的問題解決策略, 對精準(zhǔn)診斷學(xué)習(xí)現(xiàn)狀、促進(jìn)學(xué)習(xí)發(fā)展具有重要作用(Bergner & von Davier, 2018; Jiao et al., 2019; 袁建林, 劉紅云, 2020)。對過程數(shù)據(jù)的分析使得研究重點(diǎn)從探究“結(jié)果是什么”轉(zhuǎn)變?yōu)樘骄俊敖Y(jié)果是如何產(chǎn)生” (Greiff et al., 2015)。與關(guān)注結(jié)果數(shù)據(jù)的傳統(tǒng)測評相比, 額外關(guān)注過程數(shù)據(jù)的虛擬測評對傳統(tǒng)的測評數(shù)據(jù)分析方法提出了挑戰(zhàn)。如何合理地分析與利用過程數(shù)據(jù), 已成為當(dāng)前心理與教育測量學(xué)、教育數(shù)據(jù)挖掘和學(xué)習(xí)分析等交叉學(xué)科領(lǐng)域的研究新熱點(diǎn)與難點(diǎn)。

        綜上所述, 作為一種高階思維能力, 問題解決能力的測量與傳統(tǒng)心理特質(zhì)的測量存在較大差異:前者需要借助相對更復(fù)雜、更真實(shí)、具有可交互性的問題情境來誘導(dǎo)問題解決行為(過程)的呈現(xiàn)。換句話說, 反映問題解決能力的行為樣本相比于反映傳統(tǒng)心理特質(zhì)的更為復(fù)雜。這對問題解決能力的測量方式和相應(yīng)的數(shù)據(jù)分析方法都帶來了挑戰(zhàn)。為回答如何客觀、準(zhǔn)確地測量個(gè)體的問題解決能力, 以及如何科學(xué)、合理地分析虛擬測評中的過程數(shù)據(jù)這兩個(gè)問題, 如圖1所示, 本文將圍繞問題解決能力的測量及數(shù)據(jù)分析方法這一主題, 從(1)問題解決能力測量方式的發(fā)展以及(2)過程性數(shù)據(jù)分析方法兩個(gè)方面展開闡述, 并從非認(rèn)知因素的影響、多模態(tài)數(shù)據(jù)的利用、問題解決能力的發(fā)展、其他高階思維能力的測量和問題能力解決概念及結(jié)構(gòu)的界定五個(gè)方面展望未來可能的研究方向, 以期為國內(nèi)學(xué)者更全面地了解問題解決能力的測量及為過程性數(shù)據(jù)的分析方法提供理論參考。

        圖1 基于虛擬測評中過程數(shù)據(jù)的問題解決能力測量

        2 問題解決能力測量方式的發(fā)展

        2.1 早期問題解決能力測量方式

        由于技術(shù)條件的限制, 早期問題解決能力測量主要采用傳統(tǒng)紙筆測驗(yàn)方式, 其特點(diǎn)是基于文字表述給個(gè)體營造一定的問題情境, 常見于各學(xué)科領(lǐng)域內(nèi)的學(xué)業(yè)成就測驗(yàn)。Novak (1961)認(rèn)為問題解決能力的測試應(yīng)該允許被試在多個(gè)選項(xiàng)中選擇其認(rèn)為最正確的答案, 同時(shí)對于被試的每一步選擇, 都應(yīng)當(dāng)給予反饋。基于此, Novak將作答環(huán)節(jié)分成三部分(如圖2), 每一部分提供給被試兩個(gè)選擇, 被試的選擇范圍被箭頭所限制, 但允許被試返回上一部分選擇其他選項(xiàng)。該測驗(yàn)過程相當(dāng)于被試需要在相互關(guān)聯(lián)的三個(gè)部分中分別做出選擇,且允許被試在不同的作答階段反思和修改之前的選擇(例題見附錄圖A1)。最后的得分由專家依據(jù)被試提交的最終答案序列給出(例如, 1→2→2為滿分)。

        圖2 Novak (1961)提出的分部作答模式(紅色為正確答案)

        紙筆測驗(yàn)的優(yōu)點(diǎn)是易于大規(guī)模施測、測驗(yàn)工具開發(fā)成本較低且對計(jì)算機(jī)編程技術(shù)的依賴程度較低; 同時(shí), 其缺點(diǎn)也較為明顯:一方面是難以記錄被試解決問題的詳細(xì)過程(袁建林, 劉紅云, 2020), 另一方面是難以構(gòu)建真實(shí)的、復(fù)雜的問題情境。在真實(shí)的、復(fù)雜的問題情境中往往需要問題解決者與問題情境產(chǎn)生實(shí)時(shí)交互, 這有助問題解決者找出問題產(chǎn)生的原因并做進(jìn)一步的探索(Greiff et al., 2013)。

        另外, 值得注意的是, 即便是在計(jì)算機(jī)尚未普及的年代也已出現(xiàn)了小部分虛擬測評。如:模擬經(jīng)營服裝公司的“裁縫店(tailor shop)”和充當(dāng)消防隊(duì)長并負(fù)責(zé)森林消防的“消防隊(duì)長(fire chief)”系統(tǒng)等(Funke, 1983; Omodei & Wearing, 1995)。對于這些早期的虛擬測評, 由于其背后缺乏統(tǒng)一的理論指導(dǎo)框架, 導(dǎo)致它們對問題解決能力的測量結(jié)果缺乏可比較性(張生等, 2019)。對此, 一些心理學(xué)家認(rèn)為在不同領(lǐng)域中有待解決的問題的內(nèi)容和過程不盡相同, 難以提取出有關(guān)問題解決能力的全局性理論, 應(yīng)專注于測量不同領(lǐng)域下的問題解決能力(Frensch & Funke, 2002), 如在醫(yī)療領(lǐng)域評估被試的病人管理能力和醫(yī)療問題解決能力的測評系統(tǒng)(Marshall, 1977; Diserens et al., 1986)。與之不同, 另一些持相反觀點(diǎn)的心理學(xué)家認(rèn)為通過對問題情境的設(shè)置可以構(gòu)建類似于現(xiàn)實(shí)生活中的問題, 進(jìn)而去評估被試的綜合問題解決能力。如開發(fā)了基于計(jì)算機(jī)的情景模擬評估系統(tǒng)“洛豪森市(Lohhausen)3洛豪森市(Lohhausen)是用計(jì)算機(jī)模擬現(xiàn)實(shí)的一個(gè)問題解決評估系統(tǒng), 受試者被要求擔(dān)任該市“市長”, 可以通過調(diào)整稅率、建立住房等措施來促進(jìn)城市發(fā)展。”, 用于分析被試在復(fù)雜環(huán)境下的高階思維能力(Doerner, 1980)。

        21世紀(jì)初, OECD (2003)在前人研究的基礎(chǔ)上, 勾畫了相對全面的問題解決框架(如圖3)。該框架可分為題目設(shè)置和問題解決方案生成兩部分。在題目設(shè)置上, 問題情境應(yīng)貼近個(gè)人生活或工作, 問題類型需側(cè)重不同的認(rèn)知過程, 同時(shí)問題內(nèi)容也要涉及到不同學(xué)科領(lǐng)域的知識。在問題解決方案生成上, 注重學(xué)生的內(nèi)在問題解決過程和推理技能。施測形式上, 依然采用了傳統(tǒng)的紙筆測驗(yàn)形式, 用文字和圖片來描述問題情境, 并基于每段問題表述設(shè)置不同類型的問題, 如選擇題, 簡答題等。該框架結(jié)合現(xiàn)有理論研究, 通過對問題類型的設(shè)置, 加大了對內(nèi)在認(rèn)知過程和推理技能的考量。

        圖3 OECD (2003)問題解決框架.

        整體來看, 早期問題解決能力的測量主要采用傳統(tǒng)紙筆測驗(yàn)。但由于技術(shù)條件的限制, 紙筆測驗(yàn)中以文字或圖片構(gòu)建的問題情境相對缺乏真實(shí)性和情景性, 不具備實(shí)時(shí)交互功能, 難以誘發(fā)個(gè)體真正的問題解決能力??梢哉f, 面對問題解決能力的測量需求, 傳統(tǒng)紙筆測驗(yàn)方式已心有余而力不足。對問題解決能力等其他高階思維能力的測量需求促使測量方式的發(fā)展, 對個(gè)體內(nèi)在認(rèn)知過程的重視和對現(xiàn)實(shí)問題情境模擬的追求也將提高測量的生態(tài)效度。這導(dǎo)致研究者對問題解決能力測量新方式的渴望, 而計(jì)算機(jī)(網(wǎng)絡(luò))的高速發(fā)展為實(shí)現(xiàn)對問題解決能力等其他高階思維能力的測量帶來了希望。

        2.2 利用虛擬測評測量問題解決能力

        以個(gè)體為中心的測評應(yīng)做到在真實(shí)情景中對個(gè)體的過程性表現(xiàn)進(jìn)行測評, 并給予適當(dāng)?shù)姆答?。比? Diehl等人(2005)基于修訂的可觀察日常生活任務(wù)測驗(yàn)(revised observed tasks of daily living)考察老年人的問題解決能力。該測驗(yàn)要求被試在日常生活環(huán)境中完成藥物使用、電話使用和財(cái)務(wù)管理等任務(wù), 由主試對觀察并記錄下的任務(wù)完成情況進(jìn)行打分。雖然這種基于真實(shí)情景的施測方式提高了測驗(yàn)的生態(tài)效度, 但其施測成本和對主試的高要求阻礙了該測驗(yàn)的大規(guī)模的使用。鑒于在真實(shí)情景中進(jìn)行大規(guī)模施測缺乏可操作性(例如, 成本過高、數(shù)據(jù)記錄不全等), 可在大規(guī)模測評中實(shí)時(shí)并完整抓取個(gè)體作答過程數(shù)據(jù)的虛擬測評逐漸受到人們的關(guān)注(Jiao & Lissitz, 2018)。美國心理學(xué)會也曾把利用虛擬工具(例如, 游戲)促進(jìn)學(xué)習(xí)列入到2019年需要關(guān)注的10個(gè)心理學(xué)研究趨勢之中(Weir, 2018)。

        虛擬測評工具的開發(fā)是一個(gè)相對復(fù)雜的過程。相比于傳統(tǒng)測評工具(例如, 李克特量表), 虛擬測評工具的開發(fā)成本更高、周期更長。因此, 程序開發(fā)和測驗(yàn)設(shè)計(jì)等人員在較為統(tǒng)一的工具開發(fā)框架下進(jìn)行及時(shí)溝通是必要的。同時(shí), 這也有助于保證測量結(jié)果之間的可比性。目前, 大多數(shù)虛擬測評工具是基于證據(jù)中心設(shè)計(jì)(evidence-centered design, ECD; Mislevy et al., 2003)框架開發(fā)的(Shute et al., 2017)。該框架認(rèn)為測量是“基于證據(jù)進(jìn)行推理”的過程, 其核心內(nèi)容是對能力模型、證據(jù)模型和任務(wù)模型的界定。其中, 能力模型界定“測什么”, 證據(jù)模型界定“怎么測”, 任務(wù)模型界定“用什么工具測” (如圖4所示)。另外, 還有界定“如何組裝測驗(yàn)”的組裝模型和“如何呈現(xiàn)任務(wù)”的呈現(xiàn)模型, 用于測驗(yàn)整體的構(gòu)建。該框架系統(tǒng)地闡明了復(fù)雜測驗(yàn)設(shè)計(jì)的基本結(jié)構(gòu)、各部分的內(nèi)涵與功能及相互之間的關(guān)系, 適用于高階思維能力或?qū)W科核心素養(yǎng)的測評工具開發(fā)(袁建林, 劉紅云, 2017)。

        圖4 證據(jù)中心設(shè)計(jì)框架中的能力模型、證據(jù)模型和任務(wù)模型 (Zhao et al., 2015; Mislevy et al., 2003)

        比如, Zhao等人(2015)基于ECD構(gòu)建了游戲化測評, 用于測量被試的問題解決能力。在能力模型中, 從“理解問題給定的條件和約束”、“規(guī)劃解決方案路徑”、“是否有效或高效率地使用工具”和“監(jiān)測和評估問題解決過程”四個(gè)方面去評估被試的問題解決能力。在任務(wù)模型中, 選用了植物大戰(zhàn)僵尸4植物大戰(zhàn)僵尸是一款策略塔防類游戲, 玩家需要收集陽光,安置不同的植物, 使用其功能以阻擋僵尸的入侵。這款游戲作為被試要完成的目標(biāo), 并設(shè)定了相應(yīng)的任務(wù)難度及游戲時(shí)長(附錄圖A2)。在證據(jù)模型的界定中, 從可觀測的變量中提取了一些行為指標(biāo)與能力模型建立了聯(lián)系(附錄圖A3), 并用貝葉斯網(wǎng)去搭建各變量之間的數(shù)學(xué)關(guān)系。該游戲測評結(jié)果與MircoDYN5MircoDYN是一個(gè)基于計(jì)算機(jī)交互式的動態(tài)問題解決評估系統(tǒng), 該系統(tǒng)將多個(gè)任務(wù)嵌入線性結(jié)構(gòu)方程框架用來評估被試的動態(tài)問題解決能力。詳細(xì)內(nèi)容可見Greiff et al. (2012)。測試結(jié)果相關(guān)顯著(= 0.48,< 0.01), 基于聚合效度, 表明了該游戲化虛擬測評的有效性。

        此外, 如上文所述, 目前諸如PISA和NEAP等大規(guī)模測評項(xiàng)目也已經(jīng)開始使用虛擬測評工具來測量學(xué)生的問題解決能力, 比如, PISA 2012和NEAP 2014探究了學(xué)生的個(gè)體問題解決能力, PISA 2015探究了學(xué)生的合作問題解決能力。以PISA 2012的一道題為例(如附錄圖A4所示), 題目呈現(xiàn)了一個(gè)MP3播放器, 學(xué)生需通過點(diǎn)擊播放器的按鈕來了解其工作原理。在此基礎(chǔ)上, 學(xué)生需回答題目對應(yīng)的4個(gè)問題。每個(gè)問題則側(cè)重考察學(xué)生問題解決中不同的認(rèn)知過程, 例如, 第一問主要考察學(xué)生對題目的探索和理解、第二問主要考察學(xué)生問題解決中的計(jì)劃和執(zhí)行能力等。該測驗(yàn)通過向?qū)W生呈現(xiàn)生活中可能遇到的問題來實(shí)現(xiàn)對其問題解決能力的評估, 測評結(jié)果由系統(tǒng)判定和專家評分兩部分組成。同時(shí), 大規(guī)模的國際化虛擬測評也為各國、各地區(qū)之間在人才培養(yǎng)方面提供了參考借鑒的機(jī)會。

        3 過程性數(shù)據(jù)分析方法

        鑒于虛擬測評的新穎性及過程數(shù)據(jù)的復(fù)雜性, 國內(nèi)外關(guān)于過程數(shù)據(jù)的分析方法的研究均處于起步階段。經(jīng)過梳理, 大體可將現(xiàn)有的過程數(shù)據(jù)分析方法分為兩類:數(shù)據(jù)挖掘法(data mining)和統(tǒng)計(jì)建模法(statistical modeling)。其中, 前者屬于探索性研究方法或歸納法, 是基于數(shù)據(jù)驅(qū)動的自下而上的研究方法, 強(qiáng)調(diào)從已有數(shù)據(jù)入手, 對數(shù)據(jù)進(jìn)行描述、分析、總結(jié)和歸納理論, 遵循著“發(fā)現(xiàn)的邏輯”; 而后者屬于驗(yàn)證性方法或演繹法, 是基于理論驅(qū)動的自上而下的研究方法, 強(qiáng)調(diào)從理論出發(fā), 生成假設(shè), 再用數(shù)據(jù)檢驗(yàn), 接受或者拒絕假設(shè), 遵循著“證明的邏輯”。如圖5所示, 兩種方法的使用形成了一個(gè)循環(huán)的研究過程(Johnson & Christensen, 2014), 推動著科學(xué)研究的發(fā)展。

        圖5 循環(huán)研究過程 (Johnson & Christensen, 2014)

        3.1 數(shù)據(jù)挖掘法

        基于虛擬測評產(chǎn)生的過程數(shù)據(jù), 因其數(shù)據(jù)結(jié)構(gòu)的不規(guī)則性和來源的復(fù)雜性, 大幅度增加了分析難度。過程數(shù)據(jù)背后蘊(yùn)藏著與問題解決有關(guān)的認(rèn)知加工過程, 需要采用特定的方法來挖掘和分析。數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中通過算法來揭示有意義的新的關(guān)系、趨勢和模式的過程(王光宏, 蔣平, 2004), 是“從數(shù)據(jù)中發(fā)現(xiàn)知識規(guī)律(knowledge discovery in databases)” (Fayyad et al., 1996)的過程。通過數(shù)據(jù)挖掘來探索過程數(shù)據(jù)所蘊(yùn)含的潛在信息是教育數(shù)據(jù)挖掘領(lǐng)域的主要研究邏輯, 目前主要涉及有監(jiān)督學(xué)習(xí)(supervised learning)算法和無監(jiān)督學(xué)習(xí)(unsupervised learning)算法這兩類。

        有監(jiān)督學(xué)習(xí)算法是通過已有的訓(xùn)練樣本(即已知數(shù)據(jù)及其對應(yīng)的類別)來訓(xùn)練分類器(classifier), 再利用訓(xùn)練后的最優(yōu)分類器將新的研究樣本映射到相應(yīng)的類別中, 其中類別總數(shù)是已知且固定的。目前, 使用有監(jiān)督學(xué)習(xí)算法分析過程數(shù)據(jù)的研究還較少, 而決策樹(decision tree)是被使用相對較多的一類算法, 主要包括分類和回歸樹(CART; DiCerbo & Kidwai, 2013)及隨機(jī)森林(random forest; Hao et al., 2016; 孫鑫等, 2018)這兩種方法。比如, 為了探索可以有效預(yù)測被試反映的特征, Han等人(2019)從被試的行為序列、有策略意義的行為指標(biāo)和時(shí)間維度三個(gè)方面初步提取了77個(gè)特征變量, 通過隨機(jī)森林和遞歸特征消除法篩選出13個(gè)最有高預(yù)測表現(xiàn)的特征變量。例如, 是否應(yīng)用“一次只改變一個(gè)變量(vary one thing at a time)”策略和應(yīng)用該策略的次數(shù)這兩個(gè)特征變量都能有效預(yù)測被試是否有較大概率成功解決問題。

        無監(jiān)督學(xué)習(xí)算法是在事先沒有任何訓(xùn)練樣本的情況下, 直接根據(jù)研究樣本之間的相似性對樣本進(jìn)行分類, 并試圖使類內(nèi)差距最小化且類間差距最大化, 其中類別總數(shù)是未知且不固定的。目前, 在對個(gè)體問題解決策略進(jìn)行分類時(shí), 主要采用聚類分析(cluster analysis; Bergner et al., 2014)和自組織映射神經(jīng)網(wǎng)絡(luò)(SOM; Soller & Stevens, 2007)。鑒于不同的無監(jiān)督學(xué)習(xí)算法可能會給出有差異的分類結(jié)果, 有研究建議同時(shí)使用多種無監(jiān)督學(xué)習(xí)算法, 比如Fossey (2017)對比了三種無監(jiān)督的學(xué)習(xí)算法, 包括-means、SOM和使用鏈接的魯棒聚類算法(ROCK); Qiao和Jiao (2018)針對同一批數(shù)據(jù)同時(shí)研究了4種有監(jiān)督學(xué)習(xí)算法(CART、隨機(jī)森林、梯度提升決策樹和支持向量機(jī))和兩種無監(jiān)督學(xué)習(xí)算法(-means和SOM)的表現(xiàn)。

        該方法的優(yōu)勢在于基于訓(xùn)練好的分類器或者不同的聚類規(guī)則便可快速實(shí)現(xiàn)對個(gè)體問題解決能力的分類, 同時(shí)應(yīng)用數(shù)據(jù)挖掘算法也能快速幫助研究者從高維復(fù)雜的數(shù)據(jù)中挖掘出有統(tǒng)計(jì)意義的信息, 但該方法在心理學(xué)領(lǐng)域中的應(yīng)用和推廣還需要理論基礎(chǔ)的支撐。一方面就數(shù)據(jù)挖掘算法而言, 其任務(wù)是從數(shù)據(jù)中挖掘隱藏在數(shù)據(jù)中的模式, 刻畫當(dāng)前數(shù)據(jù)特征或構(gòu)建高預(yù)測率模型(王光宏, 蔣平, 2004)。但其構(gòu)建的模型或得出的結(jié)論有時(shí)并不能給我們帶來任何啟示, 甚至是無用的。對大數(shù)據(jù)的處理, 要注重對其背后含義的理解(吳忭等, 2019)。另一方面, 就數(shù)據(jù)挖掘在心理學(xué)中的應(yīng)用而言, 心理學(xué)領(lǐng)域注重?cái)?shù)據(jù)結(jié)果的可解釋性或其折射出的基于個(gè)體或群體的心理過程和潛在特質(zhì)等。過程數(shù)據(jù)的價(jià)值在于其背后對應(yīng)的心理過程, 單純的數(shù)據(jù)驅(qū)動無法在跨任務(wù)的操作中提取或者構(gòu)造出可反映個(gè)體自身潛在水平的變量(He et al., 2021), 很難得出有效可靠的結(jié)論, 往往需要專家的進(jìn)一步介入。比如, 在特定情景中, 需要專家界定出最優(yōu)行為序列、判斷異常行為或解讀數(shù)據(jù)分析結(jié)果(Hao et al., 2015; He et al., 2021; He & von Davier, 2016; Qiao & Jiao, 2018 )。另外, 對于特定任務(wù)下結(jié)論的有效性也應(yīng)持有懷疑的態(tài)度。比如, Qiao和Jiao (2018)的研究發(fā)現(xiàn)所有方法均表現(xiàn)出滿意的分類一致性, 但在此研究中并未發(fā)現(xiàn)時(shí)間信息作為分類依據(jù)的重要性, 這與其他已有研究觀點(diǎn)不同(Chen, 2020; Molenaar et al., 2016; Ulitzsch et al., 2021)。再有, 在數(shù)據(jù)的預(yù)處理方面, 如數(shù)據(jù)的篩選、排序、編碼等, 處理方法也常常因數(shù)據(jù)類型、分析目的和選用算法的不同而不同; 對缺失數(shù)據(jù)、極端值和重復(fù)行為序列的處理也且尚無內(nèi)在統(tǒng)一標(biāo)準(zhǔn)。

        3.2 統(tǒng)計(jì)建模法

        統(tǒng)計(jì)建模法主要是指利用人工建模的思路來分析數(shù)據(jù)的方法。在統(tǒng)計(jì)建模中, 一般基于理論假設(shè)構(gòu)建函數(shù)模型, 同時(shí)假設(shè)觀測變量是由該模型所表達(dá)的概率法則隨機(jī)生成的(洪永淼, 汪壽陽, 2021)。通過統(tǒng)計(jì)模型來解釋過程數(shù)據(jù)所蘊(yùn)含的潛在信息是心理計(jì)量學(xué)的主要研究邏輯(Bergner & von Davier, 2018)。符合心理計(jì)量學(xué)的基本假設(shè):個(gè)體的內(nèi)隱(潛在)特質(zhì)決定其外顯行為。目前, 針對記錄下的過程數(shù)據(jù)和結(jié)果數(shù)據(jù), 統(tǒng)計(jì)建模法主要包括心理計(jì)量聯(lián)合建模(psychometric joint modeling)、隱馬爾可夫建模(hidden Markov modeling)和多水平建模(multilevel modeling)等。

        心理計(jì)量聯(lián)合建模是目前最常見的題目層面過程數(shù)據(jù)分析方法。該方法的邏輯是基于IRT視角下的聯(lián)合?層級建??蚣?joint-hierarchical modeling framework; van der Linden, 2007), 建構(gòu)針對不同數(shù)據(jù)源(例如, 題目作答結(jié)果和題目作答時(shí)間)的心理計(jì)量模型, 然后使用多元正態(tài)分布描述多種潛在特質(zhì)之間的關(guān)系。目前, 該方法分析的過程數(shù)據(jù)主要是題目作答時(shí)間。基于此, 研究者們提出了一系列的聯(lián)合模型用于探究個(gè)體潛在能力、加工速度及兩者之間的關(guān)系(Fox & Marianti, 2016; Man et al., 2019; Molenaar et al., 2018; Zhan & He, 2021; 詹沛達(dá), 2019)。此外, 為滿足當(dāng)前實(shí)踐對診斷性測評的需求, Zhan等人(2018)從認(rèn)知診斷視角對聯(lián)合建??蚣苓M(jìn)行拓廣, 所提出的聯(lián)合認(rèn)知診斷建??蚣茉试S研究者使用不同的高階認(rèn)知診斷模型(e.g., de la Torre & Douglas, 2004)和作答時(shí)間模型(van der Linden, 2006)分別作為作答結(jié)果和作答時(shí)間的測量模型, 進(jìn)而可以同時(shí)探究個(gè)體的一般學(xué)習(xí)能力、屬性、加工速度及它們之間的關(guān)系。

        隱馬爾可夫建模假設(shè)個(gè)體的解題歷程符合馬爾可夫過程并受個(gè)體潛在能力的影響, 側(cè)重對問題解決過程的建模。其中, 個(gè)體的解題歷程包括外顯的操作步驟和內(nèi)在認(rèn)知狀態(tài)的變化(如, 問題表征、策略使用); 馬爾可夫過程是研究離散事件動態(tài)系統(tǒng)狀態(tài)空間的一種方法, 是指在一個(gè)隨機(jī)過程中事物的未來狀態(tài)僅依賴于當(dāng)前狀態(tài)而與過去狀態(tài)無關(guān)。Baker等人(2011)在其研究中驗(yàn)證了馬爾可夫過程作為認(rèn)知模型的可行性, 且馬爾科夫過程已被廣泛應(yīng)用于過程數(shù)據(jù)的建模中(Shu et al., 2017)。Molenaar等人(2016)把隱馬爾可夫模型引入到聯(lián)合建??蚣苤?把個(gè)體按特定順序的作答視為馬爾可夫過程, 通過分析個(gè)體在不同題目上作答時(shí)間的變化探究他們個(gè)體內(nèi)(within-subject)加工速度的變化情況。鑒于作答時(shí)間可以在一定程度上反映個(gè)體對知識的精熟程度, Wang等人(2018)在認(rèn)知診斷視角下提出了高階隱馬爾可夫模型, 通過分析個(gè)體在縱向測驗(yàn)上作答時(shí)間的變化測量他們的學(xué)習(xí)進(jìn)步情況。實(shí)際上, 上述兩個(gè)研究所分析的仍是題目作答時(shí)間。與之不同, Shu等人(2017)針對個(gè)體的問題解決過程(操作歷程)提出了馬爾可夫IRT模型, 認(rèn)為個(gè)體的當(dāng)前操作與其上一步操作和其潛在能力有關(guān)。該模型把所有可能的相鄰操作行為視為操作層面“題目”, 進(jìn)而根據(jù)個(gè)體在“題目”上的“作答” (例如, 是否呈現(xiàn)該操作)去估計(jì)其潛在能力。該模型巧妙地將個(gè)體的問題解決過程轉(zhuǎn)換為操作層面觀察分?jǐn)?shù), 實(shí)現(xiàn)了在單題內(nèi)估計(jì)個(gè)體潛在能力, 為后續(xù)研究提供了借鑒和參考。

        在傳統(tǒng)心理統(tǒng)計(jì)中, 多水平建模(multilevel modeling)常用于分析因分層抽樣導(dǎo)致含有嵌套關(guān)系的數(shù)據(jù)6通常, 多水平數(shù)據(jù)的分布在個(gè)體之間不具備獨(dú)立性, 存在地理距離內(nèi)、某行政區(qū)域內(nèi)或者特定空間范圍內(nèi)的聚集性(clustering)或相似性。。通過多水平建??蓪€(gè)體水平上個(gè)體數(shù)據(jù)之間的變異分解為班級、學(xué)?;虻貐^(qū)等不同水平上的變異, 有助剝離出造成個(gè)體之間差異的真實(shí)原因(劉紅云, 駱方, 2008)。Liu等人(2018)將該邏輯遷移至過程數(shù)據(jù)分析中, 假設(shè)由人工賦分得到的操作層面分?jǐn)?shù)嵌套于個(gè)體個(gè)體水平, 并基于該邏輯提出了適用于分析操作歷程數(shù)據(jù)的多水平混合IRT模型。該研究與Shu等人(2017)類似的是需要先對個(gè)體的問題解決歷程進(jìn)行人工賦分; 所不同的是該研究把所有可操作項(xiàng)(例如, 可選路線)視為操作層面“題目”, 把個(gè)體的特定操作行為視為操作層面“人”, 然后根據(jù)“人”在“題目”上的“作答”去估計(jì)其潛在能力。鑒于該模型同時(shí)包含了IRT模型、潛在類別模型和多水平模型的特點(diǎn), 它可在單題內(nèi)估計(jì)個(gè)體的問題解決能力并判斷其所采用的問題解決策略。

        除此之外, 近些年也有研究嘗試?yán)妙}目擴(kuò)張技術(shù)(即將一道虛擬測評題目中正確解答所需的操作流程拆解為多個(gè)子流程(或步驟), 并將這些子流程視為相互條件獨(dú)立的虛假題目(pseudo item); 然后根據(jù)個(gè)體在解決問題過程中是否呈現(xiàn)出這些子流程, 對其進(jìn)行賦分), 直接使用傳統(tǒng)的心理計(jì)量模型對過程數(shù)據(jù)進(jìn)行分析(Zhan & Qiao, 2020)。這種做法雖然增加了數(shù)據(jù)預(yù)處理的難度, 但大幅度降低了數(shù)據(jù)分析的難度, 為分析過程數(shù)據(jù)提供了新思路。

        3.3 兩種方法的對比

        近些年, 在智能時(shí)代背景下, 研究者們愈發(fā)傾向于在技術(shù)增強(qiáng)環(huán)境(technology-enhanced environment)中探索心理與教育測量的新范式。虛擬測評和數(shù)據(jù)挖掘技術(shù)因其“智能”屬性更容易引起研究者和實(shí)踐者的關(guān)注。比如, 利用游戲化測評來測量個(gè)體的高級認(rèn)知技能, 并采用數(shù)據(jù)挖掘技術(shù)分析數(shù)據(jù)以實(shí)現(xiàn)對個(gè)體分類(Qiao & Jiao, 2018)。實(shí)際上, 數(shù)據(jù)挖掘技術(shù)與潛變量建模在底層邏輯上存在差異:后者主要關(guān)注的是隱藏在外顯行為數(shù)據(jù)背后的潛在變量, 即假設(shè)潛在變量決定外顯行為, 并通過潛變量模型實(shí)現(xiàn)對兩者的聯(lián)接; 而前者僅關(guān)注外顯行為數(shù)據(jù)的分析, 通過計(jì)算數(shù)據(jù)之間的相似性或距離對數(shù)據(jù)進(jìn)行分類或聚類。對數(shù)據(jù)挖掘技術(shù)而言, 因?yàn)椴淮嬖诶碚摷僭O(shè)的因果關(guān)系, 所以我們難以利用其結(jié)果來反推導(dǎo)致該結(jié)果的原因。因此, 數(shù)據(jù)挖掘技術(shù)的結(jié)果可解釋性通常低于潛變量模型的, 而結(jié)果的可解釋性恰恰是心理與教育測量的重點(diǎn)。

        整體而言, 采用統(tǒng)計(jì)建模法分析過程數(shù)據(jù)的主要優(yōu)勢是結(jié)果的易解釋性且符合心理與教育研究的一般過程(如圖6所示); 其局限性是需要針對不同類型的過程數(shù)據(jù)分別建模, 這也導(dǎo)致目前針對不同類型過程數(shù)據(jù)的建模邏輯尚未統(tǒng)一。而數(shù)據(jù)挖掘法的主要優(yōu)勢是可以同時(shí)考慮多種過程數(shù)據(jù), 其局限性是結(jié)果的可解釋性較差, 即無法直接報(bào)告?zhèn)€體的具體不足, 仍需采用專家判斷法做推斷。然而, 在心理與教育測量中, 尤其是在診斷性測量中, 結(jié)果的易解釋性顯得尤為重要。另外, 現(xiàn)有的數(shù)據(jù)挖掘方法主要是基于觀察變量進(jìn)行分類, 而非基于個(gè)體的潛在特質(zhì)(例如, 認(rèn)知過程或知識技能)進(jìn)行分類, 在數(shù)據(jù)源和數(shù)據(jù)量有限的情況下兩種分類結(jié)果并不完全等同(Liu & Cheng, 2018)。反觀, 基于潛在特質(zhì)進(jìn)行分類, 明確指出個(gè)體在特定的認(rèn)知過程或知識技能上的不足, 有助于教師或干預(yù)者有針對性地制定補(bǔ)救教學(xué)或干預(yù)方案。

        圖6 心理與教育研究的一般過程

        實(shí)際上, 數(shù)據(jù)挖掘法和統(tǒng)計(jì)建模法各具優(yōu)勢, 在心理與教育測量中, 它們適用于解決不同的問題。前者更適用于在具有多變量且不滿足特定概率密度函數(shù)的復(fù)雜數(shù)據(jù)情境下挖掘隱藏的規(guī)律, 并依據(jù)這些規(guī)律對個(gè)體進(jìn)行分類, 但同時(shí)又不需要解釋分類的具體原因的場景。比如, 在自適應(yīng)學(xué)習(xí)系統(tǒng)中根據(jù)學(xué)生的學(xué)習(xí)時(shí)長、練習(xí)結(jié)果、內(nèi)容偏好等多變量的數(shù)據(jù)進(jìn)行分類, 進(jìn)而推薦適合的學(xué)習(xí)內(nèi)容, 或依據(jù)特定評分(級)規(guī)則對文字內(nèi)容(例如, 作文)進(jìn)行自動評分(級)。由于數(shù)據(jù)挖掘法解決的是分類問題, 所以采用該方法的研究常以分類結(jié)果來報(bào)告?zhèn)€體問題解決能力之間的差異(如, “正確組”、“冗余行為組”、“離群組”等; Qiao & Jiao, 2018)。相比之下, 后者更適用于在滿足特定概率密度函數(shù)的數(shù)據(jù)情境下, 基于概率密度函數(shù)構(gòu)建可聯(lián)接外顯行為與潛在特質(zhì)的統(tǒng)計(jì)模型, 并依據(jù)這些統(tǒng)計(jì)模型實(shí)現(xiàn)對個(gè)體潛在特質(zhì)水平或類別的估計(jì)。比如, 針對題目作答精度數(shù)據(jù), 基于Logistic函數(shù)構(gòu)建的IRT模型, 并依據(jù)IRT模型實(shí)現(xiàn)對潛在能力水平的估計(jì); 或針對題目作答時(shí)間, 基于對數(shù)正態(tài)分布函數(shù)構(gòu)建題目作答時(shí)間模型, 并依據(jù)題目作答時(shí)間模型實(shí)現(xiàn)對潛在加工速度水平的估計(jì)。由于統(tǒng)計(jì)建模法以被試參數(shù)的形式來反映個(gè)體的問題解決能力, 所以采用該方法的研究對問題解決能力的報(bào)告形式是由被試參數(shù)的類型決定的。比如, Shu等人(2017)用連續(xù)潛變量表示個(gè)體的問題解決能力, Zhan和Qiao (2020)用連續(xù)變量表示個(gè)體的一般問題解決能力并用類別變量表示個(gè)體的問題解決策略。

        以基于特定問題擬將個(gè)體的問題解決能力分為“高”、“中”和“低”三個(gè)類別為例。若采用數(shù)據(jù)挖掘法, 比如有監(jiān)督學(xué)習(xí)算法, 就需要先采用專家判斷法對已知的典型行為數(shù)據(jù)打標(biāo)簽(如, 包含哪些行為表現(xiàn)的數(shù)據(jù)可以被標(biāo)記為“高”), 然后將訓(xùn)練數(shù)據(jù)和對應(yīng)標(biāo)簽放入分類器進(jìn)行訓(xùn)練, 再用訓(xùn)練好的分類器去分析個(gè)體解決該問題時(shí)的行為數(shù)據(jù), 進(jìn)而實(shí)現(xiàn)對個(gè)體問題解決能力的分類; 而若采用統(tǒng)計(jì)建模法, 就需要先對觀測到的行為數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì), 判斷其分布形態(tài)是否符合某種概率密度函數(shù), 然后基于該概率密度函數(shù)構(gòu)建同時(shí)包含反映問題解決能力的被試參數(shù)和題目參數(shù)的統(tǒng)計(jì)模型(其中被試參數(shù)應(yīng)為類別變量), 再用所構(gòu)建的模型去分析個(gè)體解決該問題時(shí)的行為數(shù)據(jù), 進(jìn)而實(shí)現(xiàn)對個(gè)體問題解決能力的參數(shù)估計(jì)。

        目前, 虛擬測評中過程數(shù)據(jù)的主要作用還是為測量個(gè)體的問題解決能力提供信息, 仍遵循不可觀測的問題解決能力決定可觀測的過程數(shù)據(jù)這一基本假設(shè)。鑒于統(tǒng)計(jì)建模法可以基于模型預(yù)先構(gòu)建導(dǎo)致外顯行為的(理論)原因, 更適用于以結(jié)果解釋為目的應(yīng)用情境, 所以針對問題解決能力測量這一議題, 統(tǒng)計(jì)建模法仍將發(fā)揮主要作用。波普爾指出“不是經(jīng)驗(yàn)的重復(fù)產(chǎn)生心理的信念, 而是心理的信念產(chǎn)生經(jīng)驗(yàn)的重復(fù)” (成素梅, 榮小雪, 2003, p. 15), 雖然從已有經(jīng)驗(yàn)、觀測數(shù)據(jù)中可以歸納出一些有用的結(jié)論和概括, 但其也僅是提供了一些可能的說法??茖W(xué)發(fā)展的邏輯還須是從理論假設(shè)出發(fā), 用數(shù)據(jù)驗(yàn)證理論或者推翻理論, 即遵循著“假設(shè)檢驗(yàn)”的過程和“可證偽原則7可證偽原則是由波普爾提出, 其認(rèn)為科學(xué)的理論應(yīng)具有可證偽性。一個(gè)理論的可證偽性就是指該理論推導(dǎo)出的結(jié)論在邏輯上或在原則上有可能與一個(gè)或一組觀察陳述發(fā)生抵觸?!?。

        最后, 值得注意的是, 盡管我們強(qiáng)調(diào)基于過程數(shù)據(jù)的問題解決能力測量及數(shù)據(jù)分析方法, 但國內(nèi)外相關(guān)研究似乎并沒有否定根據(jù)傳統(tǒng)結(jié)果數(shù)據(jù)推斷個(gè)體問題解決能力的方式, 只不過利用過程數(shù)據(jù)可以更好地呈現(xiàn)出被試解決問題的過程, 有助于了解個(gè)體呈現(xiàn)不同作答結(jié)果的歷程, 有助于更準(zhǔn)確地推斷個(gè)體的問題解決能力。比如, 一氣呵成地解決特定問題和經(jīng)過反復(fù)退改地解決同一問題的兩位學(xué)生, 盡管他們的結(jié)果是一樣的, 但他們問題解決能力很可能是不一樣的(即似乎前者更高); 而“一氣呵成”和“反復(fù)退改”正是過程數(shù)據(jù)所呈現(xiàn)的, 單憑結(jié)果數(shù)據(jù)無法區(qū)分兩位學(xué)生的問題解決能力。實(shí)際上, 無論是統(tǒng)計(jì)建模法還是數(shù)據(jù)挖掘法, 都可以聯(lián)合分析或同時(shí)利用結(jié)果數(shù)據(jù)和過程數(shù)據(jù)。比如, 在統(tǒng)計(jì)建模法中, 心理計(jì)量聯(lián)合建模可以聯(lián)合分析題目作答精度這一結(jié)果數(shù)據(jù)和題目作答時(shí)間這一過程數(shù)據(jù); 在數(shù)據(jù)挖掘法中, 基于有監(jiān)督學(xué)習(xí)算法, 可以利用結(jié)果數(shù)據(jù)作為典型行為數(shù)據(jù)的標(biāo)簽(如, 滿分作答結(jié)果包含哪些必要的行為過程?相比于滿分作答結(jié)果, 得到部分作答結(jié)果又缺少了哪幾個(gè)關(guān)鍵行為過程?)去訓(xùn)練分類器; 而基于無監(jiān)督學(xué)習(xí)算法, 可以利用結(jié)果數(shù)據(jù)來檢驗(yàn)分類的有效性(如, 探索出的類別是否較好地分離出某個(gè)測驗(yàn)中的完成者和未完成者)。

        4 討論與展望

        本文對問題解決能力測量方式的發(fā)展以及虛擬測評中過程數(shù)據(jù)的分析方法進(jìn)行了梳理。測評方式的轉(zhuǎn)變和過程數(shù)據(jù)的分析對問題解決能力的研究有重要意義, 一方面為研究問題解決過程及其影響因素提供了技術(shù)的支持, 另一方面也有助于實(shí)現(xiàn)應(yīng)用過程數(shù)據(jù)對其他高階思維的測量。但目前在概念界定、數(shù)據(jù)采集和分析上仍有較大的發(fā)展空間, 未來研究者可以從非認(rèn)知因素帶來的影響、多模態(tài)數(shù)據(jù)的利用、問題解決能力的發(fā)展、其他高階思維能力的測量和問題解決能力概念及結(jié)構(gòu)的界定五個(gè)角度入手, 進(jìn)一步豐富有關(guān)問題解決能力的測評研究。

        4.1 非認(rèn)知因素對問題解決能力的影響

        李一茗和黎堅(jiān)(2020)探討了復(fù)雜情境中的問題解決能力的影響因素, 認(rèn)為問題解決能力不僅涉及到推理能力、工作記憶容量和加工速度等認(rèn)知加工能力, 還受到個(gè)體的元認(rèn)知調(diào)節(jié)、知識背景、動機(jī)和情緒等非認(rèn)知因素的影響。而現(xiàn)有的過程數(shù)據(jù)分析方法仍主要停留在對特定認(rèn)知加工過程的建模與分析上。將問題解決能力視為一個(gè)籠統(tǒng)的單維潛在特質(zhì)或僅關(guān)注對特定認(rèn)知加工過程的測量, 在測量中忽略了其他非認(rèn)知因素對問題解決能力的影響。像態(tài)度、情感、信念和一些能反應(yīng)人格特質(zhì)的非認(rèn)知因素, 被稱為非認(rèn)知能力(祖霽云, Kyllonen, 2019; 徐俊怡, 李中權(quán), 2021)。非認(rèn)知能力不僅影響著問題解決的過程, 也對個(gè)體學(xué)業(yè)和勞動力市場表現(xiàn)有著重要作用(何珺子, 王小軍, 2017)。如何擴(kuò)展現(xiàn)有數(shù)據(jù)分析方法, 納入對非認(rèn)知能力的測量與分析, 是全面了解個(gè)體, 提高個(gè)體問題解決能力的有效途徑。

        4.2 利用多模態(tài)數(shù)據(jù)測量問題解決能力

        當(dāng)前對過程數(shù)據(jù)的挖掘和分析主要集中在題目作答精度、作答時(shí)間和行為序列上。這些數(shù)據(jù)還不足以全面反映個(gè)體問題解決中的認(rèn)知及非認(rèn)知過程。實(shí)際上, 虛擬測評等其他計(jì)算機(jī)化測驗(yàn)的自動化特性使其能夠在個(gè)體解決問題過程中實(shí)時(shí)記錄不限于過程數(shù)據(jù)的多種類型數(shù)據(jù)(即多模態(tài)數(shù)據(jù))。比如, 除題目作答精度和題目作答時(shí)間外, 通過嵌入式傳感器(例如, 眼動儀)還可以同步記錄諸如眼動和神經(jīng)活動等生物計(jì)量數(shù)據(jù)(biometric data)。Jeon等人(2021)通過分析題目作答精度和大腦激活數(shù)據(jù), 測量了個(gè)體的潛在能力和大腦激活水平; Man和Harring (2020)通過分析題目作答精度、作答時(shí)間和眼動數(shù)據(jù), 測量了個(gè)體的潛在能力、潛在加工速度和潛在專注力水平; Bezirhan等人(2021)融合分析了題目作答精度、作答時(shí)間和重訪題目次數(shù)(revisit counts, 考生在首次答完某題后再次訪問該題的次數(shù)), 測量了個(gè)體的潛在能力、潛在加工速度和重訪題目傾向。另外, Zoanetti (2010)的研究中不僅記錄了被試解決問題時(shí)的操作信息, 同時(shí)也搜集了被試的口頭表述信息(例如, 被試在某一時(shí)刻說:“我不明白”)和外在行為數(shù)據(jù)(例如, 皺眉、嘆氣), 進(jìn)而區(qū)分了相似過程數(shù)據(jù)下的不同認(rèn)知過程。比如, 當(dāng)不同被試在問題表征階段花費(fèi)相似時(shí)間時(shí), 可結(jié)合口頭表述信息去判斷他們是在理解題目還是在構(gòu)思解決方案。

        在虛擬測評中, 由于多模態(tài)數(shù)據(jù)的采集幾乎是同時(shí)進(jìn)行的, 且它們提供的是有關(guān)被試在問題解決時(shí)的平行信息, 因此, 也有研究者將它們稱為平行數(shù)據(jù)(parallel data; Jeon et al., 2021), 比如, 被試正確作答某題目耗時(shí)30秒并投入20個(gè)視覺注視點(diǎn)。對多模態(tài)數(shù)據(jù)的融合分析, 為從更全面的視角理解個(gè)體的問題解決能力提供了可能性。未來, 隨著傳感器的可便攜性增加及成本下降, 多模態(tài)數(shù)據(jù)的采集與分析勢必會常態(tài)化, 非常值得心理與教育測量領(lǐng)域研究者的關(guān)注。

        4.3 對問題解決能力發(fā)展的測量

        測量和促進(jìn)個(gè)體能力的發(fā)展是心理學(xué)與教育學(xué)中需要解決的重要問題(Zhan & He, 2021), 對問題解決能力發(fā)展變化的研究事關(guān)教學(xué)設(shè)計(jì)和教學(xué)策略的制定與實(shí)施。然而, 當(dāng)前對問題解決能力的測量主要依賴于對橫斷過程數(shù)據(jù)的分析, 較少依賴于對縱向過程數(shù)據(jù)的分析。一方面是因?yàn)閷M斷過程數(shù)據(jù)分析尚未有較為統(tǒng)一的認(rèn)識和分析范式, 探討可分析縱向過程數(shù)據(jù)的方法可能還為時(shí)尚早; 另一方面是因?yàn)榭v向虛擬測評工具的開發(fā)難度更高。

        目前, 已有一些研究嘗試使用虛擬測評中的一些外顯指標(biāo)來評估個(gè)體問題解決能力的發(fā)展。比如, 張博等人(2014)基于游戲化測評使用由成功完成推箱子題目的數(shù)量來表示的認(rèn)知能力、由每題計(jì)劃時(shí)間與作答總時(shí)間的比值來表示的元認(rèn)知能力和由每題所用總步數(shù)來表示的認(rèn)知效率三個(gè)指標(biāo)對比研究了普通兒童和超常兒童的問題解決能力的發(fā)展。研究結(jié)果表明, 11~14歲之間, 超常兒童問題解決能力的發(fā)展遵循著高起點(diǎn), 先快后慢的規(guī)律; 普通兒童則起點(diǎn)較低, 發(fā)展先慢后快。隨著年齡的增長, 二者之間差異逐漸縮小。同時(shí), 該發(fā)展模式也體現(xiàn)在兩組兒童的認(rèn)知能力和元認(rèn)知能力兩個(gè)維度上, 但在認(rèn)知效率上, 二者之間的差異并沒有隨施測時(shí)間不同而發(fā)生顯著變化。但值得注意的是這類研究并沒有直接對問題解決能力進(jìn)行估計(jì), 進(jìn)而實(shí)現(xiàn)對不同時(shí)間點(diǎn)上估計(jì)值的發(fā)展的測量; 因此, 對問題解決能力發(fā)展的測量仍值得后續(xù)研究的關(guān)注。

        4.4 其他高階思維能力的測量

        如上文所述, 除問題解決能力外, 高階思維能力還包括批判性思維能力和創(chuàng)造性思維能力等, 其不僅影響著個(gè)體在學(xué)業(yè)或事業(yè)上的表現(xiàn), 也是當(dāng)代社會發(fā)展對人才的基本要求(鐘志賢, 2004; Brookhart, 2010; Carroll & Harris, 2020)。除問題解決能力外, 目前已有很多研究嘗試使用虛擬測評去測量諸如創(chuàng)造力、領(lǐng)導(dǎo)力等其他高階思維能力(Shute & Rahimi, 2020; Stanek & Sabat, 2019)。另外, 2022年OECD也計(jì)劃采用情景化測評方式來測量個(gè)體的創(chuàng)造力(OECD, 2019)。未來, 隨著測量方式及數(shù)據(jù)分析技術(shù)的不斷發(fā)展, 充分利用計(jì)算機(jī)(網(wǎng)絡(luò))技術(shù), 尤其是人工智能, 并結(jié)合便攜式和低成本的心理學(xué)實(shí)驗(yàn)儀器, 我們有理由相信可以在大規(guī)模測驗(yàn)中實(shí)現(xiàn)對高階思維能力的測量。

        4.5 問題解決能力概念及結(jié)構(gòu)的界定

        當(dāng)前國內(nèi)外對問題解決能力的主要研究基本都是圍繞OECD (2013)對問題解決能力的定義實(shí)施的。首先, 該定義并沒有局限于特定的任務(wù)情境; 因此, 該定義所述的問題解決能力是一種一般化能力或特質(zhì)。其次, 該定義將其所強(qiáng)調(diào)的認(rèn)識加工又進(jìn)一步細(xì)分為(1)探索和理解、(2)表征和構(gòu)想、(3)計(jì)劃和執(zhí)行和(4)監(jiān)測和反思; 同時(shí), 值得注意的是, 除認(rèn)知加工外, 該定義中還特別強(qiáng)調(diào)了個(gè)體參與問題解決的意愿。因此, 該定義所述的問題解決能力至少具有多維結(jié)構(gòu), 而至于是否滿足高階結(jié)構(gòu), 可能需要后續(xù)研究做實(shí)證驗(yàn)證或理論闡述。另外, 該定義所述的是個(gè)體問題解決能力, 目前已有研究開始探討協(xié)作問題解決(collaborative problem solving) (如, Unal & Cakir, 2021); 而協(xié)作問題解決能力與個(gè)體問題解決能力的概念及結(jié)構(gòu)有何區(qū)別仍值得后續(xù)研究做進(jìn)一步探討。最后, OECD (2013)對問題解決能力的定義是否具有跨時(shí)代穩(wěn)健性(即該定義是否會隨時(shí)代的發(fā)展產(chǎn)生變化)也值得后續(xù)研究者們的關(guān)注。

        成素梅, 榮小雪. (2003). 波普爾的證偽方法與非充分決定性論題.(1), 15–19+29.

        何珺子, 王小軍. (2017). 認(rèn)知能力和非認(rèn)知能力的教育回報(bào)率——基于國際成人能力測評項(xiàng)目的實(shí)證研究.(5), 66–74.

        洪永淼, 汪壽陽. (2021). 大數(shù)據(jù)、機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué): 挑戰(zhàn)與機(jī)遇.(1), 17–35.

        李一茗, 黎堅(jiān). (2020). 復(fù)雜問題解決能力的概念、影響因素及培養(yǎng)策略., (5), 36–48.

        劉紅云, 駱方. (2008). 多水平項(xiàng)目反應(yīng)理論模型在測驗(yàn)發(fā)展中的應(yīng)用.(1), 92–100.

        孫鑫, 黎堅(jiān), 符植煜. (2018). 利用游戲log-file預(yù)測學(xué)生推理能力和數(shù)學(xué)成績——機(jī)器學(xué)習(xí)的應(yīng)用.(7), 761–770.

        王光宏, 蔣平. (2004). 數(shù)據(jù)挖掘綜述.(2), 246–252.

        吳忭, 胡藝齡, 趙玥穎. (2019). 如何使用數(shù)據(jù): 回歸基于理解的深度學(xué)習(xí)和測評——訪國際知名學(xué)習(xí)科學(xué)專家戴維·謝弗.(1), 4–12.

        徐俊怡, 李中權(quán). (2021). 基于游戲的心理測評.(3), 394–403.

        袁建林, 劉紅云. (2017). 核心素養(yǎng)測量: 理論依據(jù)與實(shí)踐指向.(7), 21–36.

        袁建林, 劉紅云. (2020). 過程性測量:教育測量的新范式.(12), 1–9.

        詹沛達(dá). (2019). 計(jì)算機(jī)化多維測驗(yàn)中作答時(shí)間和作答精度數(shù)據(jù)的聯(lián)合分析.(1), 170–178.

        張博, 黎堅(jiān), 徐楚, 李一茗. (2014). 11~14歲超常兒童與普通兒童問題解決能力的發(fā)展比較.(12), 1823–1834.

        張生, 任巖, 駱方. (2019). 學(xué)生高階思維能力的評價(jià): 復(fù)雜問題解決的測量述評., 90–96.

        鐘志賢. (2004). 促進(jìn)學(xué)習(xí)者高階思維發(fā)展的教學(xué)設(shè)計(jì)假設(shè)., (12), 21–28.

        祖霽云, Patrick Kyllonen. (2019). 非認(rèn)知能力的重要性及其測量., (9), 22–31.

        Agard, C., & von Davier, A. (2018). The virtual world and reality of testing: Building virtual assessments. In H. Jiao & R. Lissitz (Eds.),(pp. 1–30). Charlotte, NC: Information Age Publishing.

        Autor, D., & Dorn, D. (2009). This job is "getting old": Measuring changes in job opportunities using occupational age structure.(2), 45–51.

        Baker, C., Saxe, R., & Tenenbaum, J. (2011).. Proceedings of the annual meeting of the cognitive science society, 33.

        Banfield, J., & Wilkerson, B. (2014). Increasing student intrinsic motivation and self-efficacy through gamification pedagogy.,(4), 291–298.

        Bergner, Y., Shu, Z., & von Davier, A. A. (2014). Visualization and confirmatory clustering of sequence data from a simulation- based assessment task.(pp. 177–184), London, UK.

        Bergner, Y., & von Davier, A. (2018). Process data in NAEP: Past, present, and future.(6), 706–732doi:10.3102/1076998618784700

        Bezirhan, U., Davier, M. V., & Grabovsky, I. (2021). Modeling item revisit behavior: The hierarchical speed–accuracy– revisits model.(2), 363–387doi:10.1177/0013164420950556

        Brookhart, S. M. (2010).. Alexandria, VA: ASCD.

        Carroll, K. A. & Harris, C. M. (2020). Using a repetitive instructional intervention to improve students' higher-order thinking skills.(2), 82–90.

        Chen, Y. (2020). A continuous-time dynamic choice measurement model for problem-solving process data.,(4), 1052–1075.

        de la Torre, J., & Douglas, J. A. (2004). Higher-order latent trait models for cognitive diagnosis.,(3), 333–353.

        Dicerbo, K. E. & Kidwai, K. (2013). Detecting player goals from game log files.,(3), 350–376.

        Diehl, M., Marsiske, M., Horgas, A., Rosenberg, A., Saczynski, J., & Willi, S. (2005). The revised observed tasks of daily living: A performance-based assessment of everyday problem solving in older adults.(3), 211–230.

        Diserens, D., Schwartz, M. W., Guenin, M., & Taylor, L. A. (1986). Measuring the problem-solving ability of students and residents by microcomputer.,(6), 461–466.

        Doerner, D. (1980). On the difficulties people have in dealing with complexity.,(1), 87–106.

        Fayyad, U., Piatetsky-shapiro, G., & Smyth, P. (1996). Knowledge discovery and data mining: Towards a unifying framework.,, 82–88.

        Fossey, W. A. (2017).. Unpublished doctoral dissertation, University of Maryland, College Park. URL https://drum.lib.umd.edu/bitstream/handle/ 1903/20363/Fossey_umd_0117E_18587.pdf?sequence=1

        Fox, J. P., & Marianti, S. (2016). Joint modeling of ability and differential speed using responses and response times.,(4), 540–553.

        Frensch, P. A., & Funke, J. (2002). Thinking and problem solving. In N. Cowan (Ed.).Oxford, UK: Eolss Publishers.

        Funke, J. (1983). Einige bemerkungen zu problemen der probleml?seforschung oder: Ist testintelligenz doch ein pr?diktor? [Some comments to problems of problem solving research, or: An intelligence test is a predictor, isn’t it?].,, 283–302.

        Greiff, S., Wüstenberg, S., & Avvisati, F. (2015). Computer- generated log-file analyses as a window into students' minds? A showcase study based on the PISA 2012 assessment of problem solving.,, 92–105.

        Greiff, S., Wüstenberg, S., & Funke, J. (2012). Dynamic problem solving: A new assessment perspective.,(3), 189–213.

        Greiff, S., Wüstenberg, S., Holt, D. V., Goldhammer, F., & Funke, J. (2013). Computer-based assessment of complex problem solving: Concept, implementation, and application.,(3), 407–421.

        Han, Z., He, Q., & von Davier, M. (2019). Predictive feature generation and selection using process data from PISA interactive problem-solving items: An application of random forests.,, 2461.

        Hao, J., Shu, Z., & von Davier, A. (2015). Analyzing process data from game/scenario-based tasks: An edit distance approach.(1), 33–50.

        Hao, J., Smith, L., Mislevy, R., von Davier, A., & Bauer, M. (2016).(Research Report No. RR-16-10). Princeton, NJ: Educational Testing Service.

        He, Q., Borgonovi, F., & Paccagnella, M. (2021). Leveraging process data to assess adults’ problem-solving skills: Using sequence mining to identify behavioral patterns across digital tasks.(17),104170.

        He, Q., & von Davier, M. (2016). Analyzing process data from problem-solving items with N-Grams: Insights from a computer-based large-scale assessment. In Y. Rosen, S. Ferrara, & M. Mosharraf (Eds.),(pp. 750?777). IGI Global. http://doi:10.4018/978-1-4666- 9441-5.ch029

        Jeon, M., Boeck, P. D., Luo, J., Li, X., & Lu, Z. L. (2021). Modeling within-item dependencies in parallel data on test responses and brain activation.,(1), 239–271.

        Jiao, H., Liao, D., & Zhan, P. (2019). Utilizing process data for cognitive diagnosis. In M. von Davier & Y. S. Lee (Eds.),(pp. 421–436). Cham: Springer International Publishing.

        Jiao, H., & Lissitz, R. (2018).. Charlotte, NC: Information Age Publishing.

        Johnson, R. B., & Christensen, L. (2014).(5thedition,pp.59–65). Thousand Oaks, CA: SAGE Publications.

        Li, J., Zhang, B., Du, H., Zhu, Z., & Li, Y. (2015). Metacognitive planning: Development and validation of an online measure.(1), 260–271.

        Liu, C., & Cheng, Y. (2018). An application of the support vector machine for attribute-by-attribute classification in cognitive diagnosis.(1), 58–72.

        Liu, H. Y., Liu, Y., & Li, M. (2018). Analysis of process data of PISA 2012 computer-based problem solving: Application of the modified multilevel mixture IRT model., 1372.

        Man, K. W., & Harring, J. R. (2020). Assessing preknowledgecheating via innovative measures: A multiple-group analysis of jointly modeling item responses, response times, and visual fixation counts.(3), 441–465.

        Man, K. W., Harring, J. R., Jiao, H., & Zhan, P. (2019). Joint modeling of compensatory multidimensional item responses and response times.(8), 639–654.

        Marshall, J. (1977). Assessment of problem-solving ability.(5), 329–334.

        Mayer, R.E. (1990). Problem solving. In M. W. Eysenck (Ed.),(pp. 284–288). Basil Blackwell, Oxford.

        Mislevy, R. J., Steinberg, L. S., & Almond, R. G. (2003). Focus article: On the structure of educational assessments.(1), 3–62.

        Molenaar, D., Bolsinova, M., & Vermunt, J. (2018). A semi‐parametric within‐subject mixture approach to the analyses of responses and response times.(2), 205–228.

        Molenaar, D., Oberski, D., Vermunt, J., & de Boeck, P. (2016). Hidden Markov item response theory models for responses and response times.(5), 606–626.

        NCES. (2014).. National Center for Education Statistics. Retrieved February 24, 2019, from http://nces.ed.gov/nationsreportcard/tel/wells_ item.aspx

        Novak, J. D. (1961). An approach to the interpretation and measurement of problem solving ability.(2), 122–131.

        OECD (2003).Paris: OECD Publishing.

        OECD (2013).. Paris: OECD Publishing.

        OECD (2014).. Paris: OECD Publishing.

        OECD (2016).Paris: PISA, OECD Publishing.

        OECD (2019).Paris: OECD Publishing.

        Omodei, M. M., & Wearing, A. J. (1995). The fire chief microworld generating program: An illustration of computer-simulated microworlds as an experimental paradigm for studying complex decision-making behavior.(3), 303–316.

        Qiao, X., & Jiao, H. (2018). Data mining techniques in analyzing process data: A didactic., 2231.

        Shu, Z., Bergner, Y., Zhu, M., Hao, J., von Davier, A. (2017). An item response theory analysis of problem-solving processes in scenario-based tasks.(1), 109–131.

        Shute, V., Ke, F., & Wang, L. (2017). Assessment and adaptation in games. In P. Wouters & H. van Oostendorp (Eds.),(pp. 59–78). New York, NY: Springer.

        Shute, V., & Moore, G. (2018). Consistency and validity in game-based stealth assessment. In H. Jiao & R. Lissitz (Eds.),(pp. 31–51). Charlotte, NC: Information Age Publishing.

        Shute, V. J., & Rahimi, S. (2020). Stealth assessment of creativity in a physics video game., 1–13.

        Soller, A., & Stevens, R. (2007). Applications of stochastic analyses for collaborative learning and cognitive assessment. In G. R. Hancock & K. M. Samuelsen (Eds.)(pp. 217–253). Information Age Publishing.

        Stanek, S. & Sabat, A. (2019). The use of IT tools in the assessment and development of leadership abilities.(85), 89–110.

        Ulitzsch, E., He, Q., Ulitzsch, V., Molter, H., Nichterlein, A., Niedermeier, R., & Pohl, S. (2021). Combining clickstream analyses and graph-modeled data clustering for identifying common response processes.(1), 190–214.

        Unal, E., & Cakir, H. (2021). The effect of technology- supported collaborative problem solving method on students’ achievement and engagement., 4127–4150.

        van der Linden, W. J. (2006). A lognormal model for response times on test items.(2), 181–204.

        van der Linden, W. J. (2007). A hierarchical framework for modeling speed and accuracy on test items.(3), 287–308.

        Wang, S. Y., Zhang, S. S., Douglas, J., & Culpepper, S. (2018). Using response times to assess learning progress: A joint model for responses and response times.(1), 45–58.

        Weir, K. (2018).URL https://www.apa.org/monitor/2018/11/cover-tech-tools.aspx

        Zhan, P., & He, K. (2021). A longitudinal diagnostic model withhierarchical learning trajectories.(3), 18–30https://doi.org/10.1111/ emip.12422

        Zhan, P., Jiao, H., & Liao, D. (2018). Cognitive diagnosis modelling incorporating item response times.(2), 262–286.

        Zhan, P., & Qiao, X. (2020, July 13).. https://doi.org/10.31234/ osf.io/wtyae

        Zhao, W., Shute, V., & Wang, L. (2015). Stealth assessment of problem-solving skills from gameplay., (15212), 1–11.

        Zoanetti, N. (2010). Interactive computer based assessment tasks: How problem-solving process data can inform instruction.(5), 585–606.

        圖A1 問題解決能力測試?yán)}(Novak, 1961)

        圖A2 植物大戰(zhàn)僵尸游戲截屏(Zhao et al., 2015)

        圖A3 能力模型和一些行為指標(biāo)之間的聯(lián)系(Zhao et al., 2015)

        圖A4 PISA 2012問題解決測試?yán)}

        The measurement of problem-solving competence using process data

        LIU Yaohui1, XU Huiying1, CHEN Qipeng1, ZHAN Peida1,2

        (1Department of Psychology, College of Teacher Education, Zhejiang Normal University, Jinhua 321004, China) (2Key Laboratory of Intelligent Education Technology and Application of Zhejiang Province, Zhejiang Normal University, Jinhua 321004, China)

        Problem-solving competence is an individual’s capacity to engage in cognitive processing to understand and resolve problem situations where a method of solution is not immediately obvious. The measurement of problem-solving competence requires the use of relatively more complex and real problem situations to induce the presentation of problem-solving behaviors. This brings challenges to both the measurement methods of problem-solving competence and the corresponding data analysis methods. Using virtual assessments to capture the process data in problem-solving and mining the potential information contained therein is a new trend in measuring problem-solving competence in psychometrics. To begin with, we reviewed the development of the measurement methods of problem-solving competence: from paper-and-pencil tests to virtual assessments. In addition, we summarized two types of process data analysis methods: data mining and statistical modeling. Finally, we look forward to possible future research directions from five perspectives: the influence of non-cognitive factors on problem-solving competence, the use of multimodal data to measure problem-solving competence, the measurement of the development of problem-solving competence, the measurement of other higher-order thinking competencies, and the definition of concept and structure of problem-solving competence.

        problem-solving competence, processing data, virtual assessment, computer-based assessment, higher-order thinking competence

        B841

        2021-07-08

        * 國家自然科學(xué)基金青年科學(xué)基金項(xiàng)目(31900795)和浙江省哲學(xué)社會科學(xué)規(guī)劃“之江青年理論與調(diào)研專項(xiàng)課題” (22ZJQN38YB)資助。

        詹沛達(dá), E-mail: pdzhan@gmail.com

        猜你喜歡
        測量能力
        消防安全四個(gè)能力
        幽默是一種能力
        把握四個(gè)“三” 測量變簡單
        滑動摩擦力的測量和計(jì)算
        大興學(xué)習(xí)之風(fēng) 提升履職能力
        滑動摩擦力的測量與計(jì)算
        你的換位思考能力如何
        測量的樂趣
        努力拓展無人機(jī)飛行能力
        無人機(jī)(2017年10期)2017-07-06 03:04:36
        測量
        人妻少妇无码中文幕久久| 妺妺窝人体色www看人体| 国产亚洲真人做受在线观看| 精品国产成人亚洲午夜福利| 欧美—iGAO视频网| 人妻精品久久一区二区三区 | 精品人妻av一区二区三区不卡| 日韩精品极品系列在线免费视频 | 国产精品99久久免费| 99精品国产自产在线观看 | 99re热视频这里只精品| 91性视频| 国产激情小视频在线观看的 | 色拍自拍亚洲综合图区| 国产欧美精品在线一区二区三区| 一区二区三区在线蜜桃| 青青草亚洲视频社区在线播放观看| 成人无码α片在线观看不卡| 国产成人77亚洲精品www| 亚洲国产线茬精品成av| 欧美激情在线不卡视频网站| 厕所极品偷拍一区二区三区视频 | 成人日韩av不卡在线观看| 国产一区资源在线播放| 亚洲av无一区二区三区久久| 女人与牲口性恔配视频免费| 国产区高清在线一区二区三区| 国产在线一区二区三区四区不卡| 中文字幕亚洲乱码熟女在线 | 免费无遮挡毛片中文字幕| 午夜无码熟熟妇丰满人妻| 国产丝袜美腿中文字幕| 人妻少妇精品视频三区二区一区| 性欧美牲交xxxxx视频欧美| 国产美女69视频免费观看| 日本av一级视频在线观看| 日韩人妻ol丝袜av一二区| 亚洲熟妇少妇任你躁在线观看| 欧美xxxx新一区二区三区| 国产丝袜美腿一区二区三区| 日本做受120秒免费视频|