魏廷江 倪琴 高榮 郝煜佳 白慶春
摘? 要: 介紹了知識追蹤(KT)的相關(guān)概念與任務(wù),梳理其發(fā)展脈絡(luò),綜述KT的原理、相關(guān)算法和數(shù)據(jù)集,分析了不同結(jié)構(gòu)的KT模型的優(yōu)缺點(diǎn).在此基礎(chǔ)上,對KT領(lǐng)域未來發(fā)展方向進(jìn)行了深入探討,提出了數(shù)據(jù)表征、認(rèn)知建模、模型可解釋性三個(gè)重要的發(fā)展方向,并作出了一定的展望.
關(guān)鍵詞: 知識追蹤(KT); 教育數(shù)據(jù)挖掘; 個(gè)性化學(xué)習(xí); 學(xué)習(xí)者建模
中圖分類號: TP 18??? 文獻(xiàn)標(biāo)志碼: A??? 文章編號: 1000-5137(2022)02-0171-09
WEI TingjiangNI QinGAO RongHAO YujiaBAI Qingchun
(1.College of Information, Mechanical and Electrical Engineering, Shanghai Normal University, Shanghai 201418, China;2.Shanghai Engineering Research Center of Open Distance Education, Shanghai Open University, Shanghai 200433, China)
In this paper, firstly common models and datasets in the field of knowledge tracing (KT) were organized and the development and progress of them were collated. Secondly, the correlative theory as well as principles and datasets were overviewed. The advantages and disadvantages of KT models with different structures were analyzed. Moreover, the future development directions of the KT field were discussed, and three important directions of data representation, cognitive modeling, and model interpretability were proposed respectively, and the prospect for the future was predicted.
knowledge tracing (KT); educational data mining; adaptive learning; learner model
0? 引言
在線教育使得學(xué)生能夠隨時(shí)隨地學(xué)習(xí)不同來源的課程,也為個(gè)性化學(xué)習(xí)、因材施教帶來新的機(jī)遇和挑戰(zhàn).對于學(xué)生而言,面對海量學(xué)習(xí)資源會遇到選擇困難、碎片化學(xué)習(xí)、學(xué)習(xí)進(jìn)度控制難等問題;教師對于學(xué)生的學(xué)習(xí)需求、學(xué)習(xí)效果難以進(jìn)行準(zhǔn)確評估.數(shù)據(jù)驅(qū)動下的知識追蹤(KT)模型通過大數(shù)據(jù)分析學(xué)習(xí)過程和學(xué)習(xí)行為,能夠精準(zhǔn)識別學(xué)習(xí)者的個(gè)性特征,動態(tài)監(jiān)控學(xué)習(xí)過程,實(shí)時(shí)預(yù)測學(xué)習(xí)趨勢,有效評價(jià)學(xué)習(xí)結(jié)果,給予學(xué)習(xí)者個(gè)性化的干預(yù)和自適應(yīng)的指導(dǎo).
KT算法將學(xué)生的知識掌握程度隨著時(shí)間的推移建模預(yù)測,從而能夠準(zhǔn)確地預(yù)測學(xué)生在未來互動中的表現(xiàn),據(jù)此有針對性地為學(xué)生訂制不同的學(xué)習(xí)路線,提升學(xué)習(xí)效率.學(xué)生通過在線學(xué)習(xí)平臺進(jìn)行學(xué)習(xí)交互,形成答題行為時(shí)間序列,KT算法通過對學(xué)習(xí)者和序列聯(lián)合建模,預(yù)測其對于新知識的認(rèn)知概率分布,進(jìn)一步推理出學(xué)習(xí)者的技能和認(rèn)知水平.
根據(jù)學(xué)生答題記錄評估學(xué)生的知識狀態(tài)是當(dāng)前KT建模領(lǐng)域重要的研究內(nèi)容.其核心思想是根據(jù)學(xué)生學(xué)習(xí)軌跡來自動追蹤學(xué)生的知識水平隨著時(shí)間變化的過程.早期KT技術(shù)主要依賴于概率模型,將知識的掌握程度預(yù)測看作“掌握/未掌握”的概率分布推理問題,如隱馬爾可夫模型(HMM)、貝葉斯KT(BKT)模型.HMM可以根據(jù)學(xué)習(xí)者歷史知識狀態(tài)預(yù)測隱變量的概率分布,并刻畫狀態(tài)之間的轉(zhuǎn)移情況.KT領(lǐng)域采用的深度學(xué)習(xí)方法最早出現(xiàn)在2015年,PIECH等提出了經(jīng)典的深度KT模型(DKT),其核心思想是基于學(xué)習(xí)者練習(xí)數(shù)據(jù)是典型的序列數(shù)據(jù)的特性,利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)可以相對有效地捕捉到時(shí)間序列前后的關(guān)聯(lián)性.隨著相關(guān)研究的進(jìn)展,在KT領(lǐng)域,注意力機(jī)制的方法也逐漸被引入神經(jīng)網(wǎng)絡(luò)中,并在性能和可解釋性方面取得了突破.
本文作者主要綜述了采用傳統(tǒng)方法和深度學(xué)習(xí)方法對KT建模方面的研究成果,通過討論上述模型的優(yōu)劣,對KT領(lǐng)域的研究作出了展望.具體來說:1) 對KT領(lǐng)域目前主要的問題進(jìn)行了梳理,全面總結(jié)了KT領(lǐng)域當(dāng)前的研究進(jìn)展;2) 深入剖析了目前主流KT模型,從問題表征、因素關(guān)系表示、認(rèn)知和遺忘機(jī)制方面闡述KT的過程;3) 通過分析和對比主流KT模型,在數(shù)據(jù)表征、認(rèn)知遺忘、可解釋性方面展望了未來研究方向.
1? KT問題
2? 傳統(tǒng)KT方法
傳統(tǒng)KT方法主要基于概率模型,追蹤的過程可以劃分為基于BKT模型的方法和基于因素模型的方法.基于BKT模型的方法主要關(guān)注于學(xué)習(xí)者交互序列預(yù)測,而因素分析模型更加偏重于解釋KT過程中所涉及的各種學(xué)習(xí)因素.
基于模型的方法
BKT模型的目標(biāo)是將學(xué)生的表現(xiàn)(可觀察的變量)映射到對知識水平(不可觀察或潛在變量)的估計(jì),標(biāo)準(zhǔn)BKT模型建模過程中將知識點(diǎn)設(shè)置為“永不忘記”,并且假設(shè)一個(gè)題目只對應(yīng)一個(gè)知識點(diǎn).貝葉斯KT模型如圖1所示.
貝葉斯KT模型具有簡單易用、可解釋性強(qiáng)的優(yōu)勢,并且也是KT領(lǐng)域的經(jīng)典方法.但是,貝葉斯KT模型并未考慮到不同學(xué)生的初始知識水平存在差異的情況,缺乏對于題目難度的建模與評估.另一方面,模型假定學(xué)生不存在遺忘的情況并不符合實(shí)際認(rèn)知規(guī)律.除此之外,使用二元組表示知識狀態(tài)并不符合實(shí)際認(rèn)知狀態(tài)情況,并且由于隱藏狀態(tài)和練習(xí)做題之間的映射關(guān)系較模糊,很難充分預(yù)測每個(gè)練習(xí)和具體知識概念的關(guān)系.
因素分析方法
因素分析方法是通過對學(xué)習(xí)者知識水平中的細(xì)粒度影響因子建模,預(yù)測答對的概率.CEN等認(rèn)為一個(gè)好的認(rèn)知模型應(yīng)該能夠捕捉到課程中的細(xì)粒度知識點(diǎn),提供合適的反饋和提示,選擇難度與學(xué)生個(gè)人相匹配的問題,最終提高學(xué)生的學(xué)習(xí)水平.CEN等提出了學(xué)習(xí)因素分析(LFA)相關(guān)模型,該模型的主要目的是從學(xué)生的學(xué)習(xí)數(shù)據(jù)中,尋找一個(gè)能夠量化因素的認(rèn)知模型.LESZCZENSKI認(rèn)為LFA是評估和比較許多潛在的學(xué)習(xí)認(rèn)知模式的一種通用解決方案,并擴(kuò)展了其在大型數(shù)據(jù)集上的應(yīng)用.LFA繼承和發(fā)展了心理測量學(xué)中用于評估認(rèn)知的矩陣,并擴(kuò)展了學(xué)習(xí)曲線分析理論.LFA模型通過對認(rèn)知模型空間進(jìn)行啟發(fā)式搜索,使研究者可以評估一套知識點(diǎn)的不同認(rèn)知表征方式,即同一組知識點(diǎn)會在不同學(xué)生身上表現(xiàn)出不同的因素依賴.傳統(tǒng)上基于邏輯回歸的LFA模型可以表示為:
為了探尋學(xué)習(xí)者數(shù)據(jù)中的時(shí)間序列特征,CEN等進(jìn)一步提出了加性因素模型(AFM)模型,AFM模型可以應(yīng)對KT過程中出現(xiàn)多個(gè)知識點(diǎn)的情況,可以連續(xù)漸進(jìn)式地追蹤學(xué)習(xí)者的學(xué)習(xí)情況,能夠設(shè)計(jì)適合學(xué)習(xí)者的知識點(diǎn)難度系數(shù)和學(xué)習(xí)速率.PAVLIK等對AFM模型進(jìn)行進(jìn)一步的擴(kuò)展,提出了績效因素分析(PFA)模型,PFA模型將學(xué)習(xí)者學(xué)習(xí)過程中的交互過程分為積極和消極兩個(gè)方面,AFM模型可被看作是PFA模型的一種特例.
因素分析方法在KT領(lǐng)域表現(xiàn)出了極強(qiáng)的可解釋性,能夠處理多種學(xué)習(xí)者特征.但大規(guī)模在線教育數(shù)據(jù)中數(shù)據(jù)維度太多,特征編碼和額外信息來源較為復(fù)雜,模型擬合難度也較高,相較于深度模型來說,潛力有限,無法做到真正的大規(guī)模、自適應(yīng)且動態(tài)地追蹤.
3? KT過程分析
問題表征
3.1.1 知識關(guān)系
領(lǐng)域知識模型對應(yīng)用領(lǐng)域的組成元素及其結(jié)構(gòu)進(jìn)行描述,表示內(nèi)部各組成元素及其之間的相互關(guān)系,其組成主要包括語義網(wǎng)絡(luò)、層次結(jié)構(gòu)、領(lǐng)域本體、知識圖譜等技術(shù).知識圖譜是由Google在2012年為改善搜索引擎而提出的一個(gè)新的概念,可以將其簡單理解為多關(guān)系圖.在領(lǐng)域表示學(xué)習(xí)方面,目前的絕大多數(shù)研究都基于關(guān)聯(lián)主義學(xué)習(xí)理論,把精力聚焦于對通用知識圖譜的構(gòu)建上.
知識點(diǎn)具有天然的圖關(guān)系屬性,近年來利用深度學(xué)習(xí)處理圖結(jié)構(gòu)數(shù)據(jù)的圖神經(jīng)網(wǎng)絡(luò),受到了廣泛關(guān)注.NAKAGAWA等提出無預(yù)先知識圖結(jié)構(gòu)的情況下,構(gòu)建知識圖譜并進(jìn)行KT的方法,并且該方法基于圖結(jié)構(gòu),提高了模型預(yù)測的可解釋性.TONG等引入了問題模式的概念,構(gòu)造了一個(gè)分層的練習(xí)圖,可以對學(xué)習(xí)依賴關(guān)系進(jìn)行建模,并采用兩種注意機(jī)制突出學(xué)習(xí)者的重要?dú)v史狀態(tài).SCHLICHTKRULL等提出了基于關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)(CNN)的知識圖譜構(gòu)建方法.LI等在R-GCN的基礎(chǔ)上,利用學(xué)生互動過程,構(gòu)建了“學(xué)生—互動—問題”網(wǎng)絡(luò),提出了R2GCN模型,適用于異構(gòu)情況下的網(wǎng)絡(luò)學(xué)習(xí).YANG等提出了一種端到端的DKT框架,能夠利用“高階問題—技能”關(guān)系,緩解數(shù)據(jù)稀疏性和多知識點(diǎn)問題.
從認(rèn)知維度出發(fā)構(gòu)建認(rèn)知圖譜,更能理解學(xué)習(xí)者學(xué)習(xí)過程,從而在認(rèn)知層面對學(xué)習(xí)者進(jìn)行建模.但是通過分析研究發(fā)現(xiàn),以上大多數(shù)研究都集中在對表層學(xué)習(xí)概念和關(guān)系鏈接的表征上,缺乏關(guān)于實(shí)體重要性、隱性知識鏈接、隱性知識與顯性知識相互作用對學(xué)習(xí)能力的影響等方面的研究,并且對于自動構(gòu)建認(rèn)知圖譜缺乏相關(guān)的研究,還無法真正實(shí)現(xiàn)對學(xué)習(xí)者認(rèn)知狀態(tài)的識別.
3.1.2 因素關(guān)系處理
深度學(xué)習(xí)技術(shù)逐步應(yīng)用到了KT領(lǐng)域,IRT模型也被重新改造,以適應(yīng)深度學(xué)習(xí)方式,通過融入學(xué)生能力狀態(tài),提升網(wǎng)絡(luò)性能.典型的實(shí)例有Deep-IRT,它是IRT模型與DKVMN模型的結(jié)合.HUANG等提出知識熟練度追蹤(KPT)模型和練習(xí)關(guān)聯(lián)的知識熟練度(EKPT)模型,應(yīng)用于知識估計(jì)、分?jǐn)?shù)預(yù)測和診斷結(jié)果可視化三個(gè)重要任務(wù).VIE等綜合IRT,AFM,PFA等模型,提出了知識追蹤機(jī)(KTMs)框架,KTMs利用所有特征的稀疏權(quán)值集,對學(xué)習(xí)者答題結(jié)果的概率進(jìn)行建模.
IRT模型特別是其衍生出的MIRT模型,存在的較大問題是模型有效訓(xùn)練難度高,所以在實(shí)際中并不常用.從IRT到AFM以及PFA模型的演化過程,實(shí)質(zhì)上是在逐步將學(xué)習(xí)者數(shù)據(jù)中的各種特征納入分析的過程,但是以因素分析為基礎(chǔ)的特征分析模型對于動態(tài)數(shù)據(jù)建模能力相對較弱,無法跟蹤學(xué)生的認(rèn)知狀態(tài),對于大規(guī)模自適應(yīng)學(xué)習(xí)缺乏足夠的技術(shù)支持.
3.1.3 學(xué)習(xí)者認(rèn)知機(jī)制和遺忘機(jī)制
目前KT領(lǐng)域絕大多數(shù)模型都會關(guān)注到學(xué)習(xí)者的認(rèn)知過程和知識遺忘過程,對這兩個(gè)維度高效建模是進(jìn)行有效認(rèn)知診斷的關(guān)鍵.WANG等提出了一種通用的神經(jīng)認(rèn)知診斷框架,摒棄人工特征,將神經(jīng)網(wǎng)絡(luò)集成到復(fù)雜的非線性交互模型中,解決認(rèn)知診斷問題,并且結(jié)合CNN,提出了Neural CDM+模型,通過自動提取系統(tǒng)中的知識點(diǎn)信息,補(bǔ)充知識點(diǎn)相關(guān)度矩陣,避免了主觀性甚至錯(cuò)誤.
關(guān)于記憶研究方面,最為經(jīng)典的是艾賓浩斯遺忘曲線,心理學(xué)家赫爾曼·艾賓浩斯通過一系列的測量實(shí)驗(yàn)總結(jié)了遺忘規(guī)律,近似表示為指數(shù)函數(shù),但艾賓浩斯曲線是建立在經(jīng)驗(yàn)之上的,并且測量的范圍相對寬泛.MURRE等通過數(shù)學(xué)證明了如果學(xué)習(xí)率的分布遵循伽瑪分布、均勻分布或半正態(tài)函數(shù),冪函數(shù)為指數(shù)函數(shù)的平均結(jié)果,即在大規(guī)模的知識點(diǎn)學(xué)習(xí)過程中,學(xué)習(xí)過程的整體遺忘性規(guī)律可以被認(rèn)為遵循冪函數(shù)分布.
DKT模型使用RNN一定程度上實(shí)現(xiàn)了對記憶過程模擬,但是仍然沒有真正意義上模擬人類思維習(xí)慣.LI等提出的學(xué)習(xí)與遺忘追蹤(LFKT)模型,在RNN的基礎(chǔ)上成功模擬了一定程度的思維遺忘機(jī)制;DKVMN模型通過類似于計(jì)算機(jī)內(nèi)存管理的方式,建立知識記憶遺忘矩陣,在模型可解釋性上取得了很大的進(jìn)步;GHOSH等提出的模型不僅在問題細(xì)分方面取得了進(jìn)步,還在基于Transformer的模型框架上引入了注意力衰減機(jī)制,模擬全局遺忘行為,從而取得了較好的模型效果.總的來說,KT問題不能簡單地對學(xué)習(xí)者數(shù)據(jù)進(jìn)行擬合,人的認(rèn)知及遺忘過程是研究學(xué)習(xí)者知識掌握過程的關(guān)鍵因素.
3.2.1 基于RNN的KT
RNN是一種用來分析時(shí)間序列模型的網(wǎng)絡(luò),其最大優(yōu)勢在于可以記憶前期輸入的相關(guān)信息,并利用其對當(dāng)前問題進(jìn)行判斷和輸出.DKT是一種利用RNN的KT方法.雖然BKT方法可以追蹤知識掌握程度,并且PFA等模型的性能表現(xiàn)更加優(yōu)秀,但DKT可自動提取練習(xí)標(biāo)簽之間的關(guān)系并且追蹤學(xué)習(xí)過程中的時(shí)間信息,其性能和實(shí)驗(yàn)結(jié)果明顯優(yōu)于之前的方法.
基于RNN的模型中,從學(xué)生劃分方面,MINN等提出了一種新的KT模型——基于動態(tài)學(xué)生分類的DKT(DKT-DSC),通過在每個(gè)時(shí)間間隔內(nèi)將學(xué)生分組,預(yù)測學(xué)生的學(xué)習(xí)效果;YEUNG等在2017 ASSISTments Data Mining競賽中采用DKT進(jìn)行知識狀態(tài)預(yù)測,證明了DKT模型在實(shí)際工作中的有效性.在習(xí)題方面,SU等通過追蹤學(xué)生的練習(xí)記錄和相應(yīng)練習(xí)的文本內(nèi)容,提出了一個(gè)通用的練習(xí)增強(qiáng)循環(huán)神經(jīng)網(wǎng)絡(luò)(EERNN)框架,根據(jù)其知識水平預(yù)測成績.整體來講,基于RNN結(jié)構(gòu)的追蹤模型在性能和可用性方面大幅度超越了傳統(tǒng)模型,但是在解釋性上略顯不足.
3.2.2 基于注意力機(jī)制的DKT
關(guān)于注意力機(jī)制的研究一直在進(jìn)行.PANDEY等認(rèn)為學(xué)習(xí)者完成當(dāng)前練習(xí)的過程中,必然伴隨著對過去相關(guān)練習(xí)交互的回憶,通過注意力機(jī)制,可以在過去的交互序列中尋找到與當(dāng)前問題相關(guān)的重點(diǎn)信息,從而做出更為準(zhǔn)確的預(yù)測,并且證明了基于Transformer的模型比基于RNN的模型在運(yùn)算速度上快了一個(gè)數(shù)量級.
基于Transformer的KT模型主要難點(diǎn)在于構(gòu)造合適的Query,Key和Value值,以及選擇適合的注意力實(shí)現(xiàn)方法.CHOI 等將練習(xí)序列和回答序列分別進(jìn)行編碼,從而尋找到了更為合適的Query,Key和Value值.SHIN等將經(jīng)過時(shí)間、滯后時(shí)間兩個(gè)特征編碼與學(xué)生答題響應(yīng)的編碼進(jìn)行結(jié)合,從而增強(qiáng)了模型的預(yù)測精度.
3.2.3 基于Hawkes過程的DKT
大多數(shù)關(guān)于DKT的研究主要集中在時(shí)間特征和全局遺忘衰減上,對于不同知識點(diǎn)的時(shí)間交叉效應(yīng)研究相對較少.MEI等在2017年提出可以利用Hawkes過程對長短期記憶(LSTM)節(jié)點(diǎn)的時(shí)間效應(yīng)(遺忘效應(yīng))進(jìn)行衰減處理.KT領(lǐng)域的學(xué)習(xí)者交互過程可以被看作是一系列的連續(xù)事件流,但是泊松過程假定事件相互獨(dú)立,并不符合多知識點(diǎn)狀態(tài)下學(xué)習(xí)者交互的邏輯.Hawkes過程則假設(shè)過去事件會在一定程度上提高未來事件發(fā)生的概率,并且這種影響會隨著時(shí)間指數(shù)衰減,這種思想比較符合認(rèn)知遺忘規(guī)律下的學(xué)習(xí)者能力.WANG等在DKT領(lǐng)域引入Hawkes Process的模型,深入研究了不同知識點(diǎn)之間的時(shí)間交叉效應(yīng),并且提高了深度模型的可解釋性,從而使得基于KT模型反饋教學(xué)成為可能.HawkesKT的強(qiáng)度便于可視化,可為教育專家提供參考和完善意見.另外,由于模型本身無復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),在訓(xùn)練效率和參數(shù)解釋方面能體現(xiàn)顯著的優(yōu)勢.
DKT技術(shù)有效推動大規(guī)模在線動態(tài)追蹤學(xué)習(xí)者能力的研究進(jìn)展,并且由于深度模型本身具有高度的擬合能力,使得深度模型在大規(guī)模數(shù)據(jù)集上表現(xiàn)出了比傳統(tǒng)模型更好的性能和準(zhǔn)確度,大幅度提升了KT模型的可用性.但目前KT領(lǐng)域的研究不僅僅追求模型精確度,對于模型的可解釋性、泛化能力也提出了更高的要求.DKT技術(shù)雖然對比早期技術(shù)有明顯的進(jìn)步,但是缺乏對于學(xué)習(xí)者記憶能力、學(xué)習(xí)風(fēng)格、認(rèn)知能力等的進(jìn)一步探索,并且未全面考量學(xué)習(xí)者認(rèn)知狀態(tài)在復(fù)雜在線教育環(huán)境中對于KT的影響.
3.2.4 主要深度模型對比
從傳統(tǒng)基于隱馬爾可夫過程的KT到DKT,KT領(lǐng)域的研究經(jīng)歷了巨大的變革,本節(jié)將對KT領(lǐng)域有代表性的深度模型進(jìn)行對比分析.
從模型輸入方面來看,基于RNN的DKT模型普遍使用學(xué)習(xí)者編號、習(xí)題號
和知識點(diǎn)
編號作為模型的輸入.以Transformer結(jié)構(gòu)為基礎(chǔ)的模型則偏向于向輸入中添加知識點(diǎn)內(nèi)容、學(xué)習(xí)者交互序列等內(nèi)容.大多數(shù)基于注意力機(jī)制的模型通過尋找學(xué)習(xí)者與問題交互過程、知識點(diǎn)關(guān)系等的內(nèi)在注意力關(guān)聯(lián)提升模型性能.而基于Hawkes Process的KT模型在輸入方面更關(guān)注時(shí)間序列和交互序列,通過研究時(shí)間交叉效應(yīng),在記憶模擬方面取得進(jìn)展.
模型輸出方面,目前KT模型不僅要求模型輸出成績預(yù)測,還對模型可解釋性輸出提出了更高的要求,DKT模型并未做出突破性進(jìn)展.DKVMN模型作為對DKT模型的擴(kuò)展,在可解釋性方面做出了突破,可以觀察到練習(xí)題所需要的技能標(biāo)簽.以Transformer結(jié)構(gòu)為基礎(chǔ)的KT模型得益于注意力機(jī)制,可以通過可視化注意力表示出結(jié)構(gòu)性的反饋意見,從而為學(xué)習(xí)者提供有效的幫助.而HawkesKT的核心出發(fā)點(diǎn)參數(shù)是高度可解釋的,通過對模型參數(shù)的可視化,還可以在大量技能之間找到關(guān)聯(lián),適用于在線和傳統(tǒng)教育場景.記憶衰減處理方式是KT的核心問題之一.基于LSTM模型的KT模型主要依賴于網(wǎng)絡(luò)結(jié)構(gòu),保持和遺忘所提取的輸入數(shù)據(jù)部分特征,擬合學(xué)生學(xué)習(xí)過程,從而做出預(yù)測,但是通過門控方式實(shí)現(xiàn)的記憶留存并不符合學(xué)習(xí)者實(shí)際記憶過程.DKVMN以記憶增強(qiáng)網(wǎng)絡(luò)為基礎(chǔ),通過結(jié)構(gòu)化模型模擬邏輯流控制,以類似計(jì)算機(jī)內(nèi)存管理技術(shù)的方式實(shí)現(xiàn)記憶留存,但是這種模式過于機(jī)械化,并且對于不同學(xué)習(xí)者的學(xué)習(xí)速率無法進(jìn)行很好的量化.基于注意力機(jī)制的模型逐步關(guān)注記憶力衰減機(jī)制在KT任務(wù)中的作用,但是絕大多數(shù)模型的工作都集中在整體記憶衰減方面,缺乏對知識點(diǎn)尺度甚至問題尺度上記憶過程的探索.HawkesKT方法在知識點(diǎn)尺度上的交叉效應(yīng)方面取得了突破,但是其對記憶衰減的模擬上依然以指數(shù)分布曲線為主.
4? 分析與展望
本文作者對比討論了目前主流的KT模型,分析了主流模型的優(yōu)缺點(diǎn).目前的研究主要針對知識點(diǎn)與題目間的關(guān)系進(jìn)行建模,很少有研究從模型效果評價(jià)指標(biāo)、學(xué)習(xí)潛力預(yù)測、深度記憶過程模擬等方面進(jìn)行知識狀態(tài)追蹤和預(yù)測,同時(shí)也較少有對多知識點(diǎn)關(guān)系建模方法進(jìn)行知識狀態(tài)追蹤的研究.通過分析KT領(lǐng)域目前主流的模型,梳理出KT領(lǐng)域未來的發(fā)展方向,從數(shù)據(jù)表征、認(rèn)知建模、建模方法、解釋及反饋方面對KT領(lǐng)域進(jìn)行展望.
1) 數(shù)據(jù)處理及數(shù)據(jù)表征.KT模型在運(yùn)用輸入數(shù)據(jù)方面越來越需要預(yù)處理、預(yù)訓(xùn)練操作.預(yù)訓(xùn)練模型在序列任務(wù)上表現(xiàn)出了良好的性能,采用可解釋性較強(qiáng)的算法預(yù)處理輸入數(shù)據(jù)變得越來越重要.比如使用Rasch編碼預(yù)處理輸入數(shù)據(jù)后,再進(jìn)行注意力運(yùn)算和模型預(yù)測,在模型性能和可解釋性方面都取得了很好的效果.在數(shù)據(jù)特征方面,引入學(xué)習(xí)者生物特征、更加豐富的習(xí)題特征都是未來重要的突破方向,KT模型應(yīng)該向更高維度、更普適、更泛化的方向發(fā)展,如何對學(xué)習(xí)者的非結(jié)構(gòu)性學(xué)習(xí)數(shù)據(jù)進(jìn)行追蹤也是重要的發(fā)展方向.
2) 認(rèn)知建模.認(rèn)知診斷和KT分別應(yīng)用于學(xué)習(xí)者靜態(tài)數(shù)據(jù)分析和動態(tài)數(shù)據(jù)分析,但KT模型內(nèi)不應(yīng)缺乏對學(xué)習(xí)者認(rèn)知能力的建模.對于問題維度、知識點(diǎn)維度的建模不足以擬合學(xué)習(xí)者的知識狀態(tài)變化,應(yīng)在此基礎(chǔ)上進(jìn)一步對認(rèn)知維度進(jìn)行建模,從而在更高的維度上追蹤學(xué)習(xí)者的狀態(tài)變化情況.
3) 模型方法及可解釋性.自從DKT被提出以來,KT領(lǐng)域內(nèi)的模型基本以深度模型為主,但越來越多的工作表明DKT無法做到真正的動態(tài)自適應(yīng)KT.基于RNN的模型在數(shù)據(jù)擬合能力上逐步被以注意力機(jī)制為核心的Transformer類模型超越,未來KT領(lǐng)域建模方法應(yīng)該在注意力方向、圖譜方向進(jìn)一步發(fā)展.人腦記憶的形成過程中,人自身的注意力是重要的一環(huán),這也是基于注意力機(jī)制模型結(jié)合遺忘建模取得不錯(cuò)效果的關(guān)鍵原因.知識圖譜作為非結(jié)構(gòu)化知識表征的重要手段,在KT領(lǐng)域有更進(jìn)一步的潛力,并且對于認(rèn)知能力研究也可以加入圖譜技術(shù),從而在可解釋性KT方向取得突破.
5? 總結(jié)
自新冠疫情爆發(fā)以來,在線教育行業(yè)需求愈發(fā)旺盛,對海量教育數(shù)據(jù)的學(xué)習(xí)者數(shù)據(jù)分析變得愈發(fā)重要,從數(shù)據(jù)中追蹤學(xué)習(xí)者認(rèn)知能力、知識水平、學(xué)習(xí)狀態(tài)、心理變化等是自適應(yīng)式、動態(tài)反饋式學(xué)習(xí)環(huán)境構(gòu)建的基礎(chǔ)性任務(wù).
KT技術(shù)通過分析海量學(xué)習(xí)者的學(xué)習(xí)數(shù)據(jù),能為學(xué)習(xí)者開發(fā)個(gè)性化學(xué)習(xí)方式,提供準(zhǔn)確學(xué)習(xí)行為評估.本文作者梳理了KT領(lǐng)域的經(jīng)典模型,分別從傳統(tǒng)KT理論到DKT模型兩個(gè)大方面進(jìn)行剖析,并以數(shù)據(jù)處理、學(xué)習(xí)者內(nèi)在因素、模型可解釋性及可反饋性方面進(jìn)行詳細(xì)梳理和分析,對KT未來方向進(jìn)行了探究.
參考文獻(xiàn):
[1]? HUO Y, WONG D F, NI L M, et al. Knowledge modeling via contextualized representations for LSTM?based personalized exercise recommendation [J]. Information Sciences,2020,523:266-278.
[2]? JIANG Q, ZHAO W, LI S, et al. Research on the mining of precise personalized learning path in age of big data: analysis of group learning behaviors based on AprioriAll [J]. e?Education Research,2018,39(2):45-52.
[3]? PIECH C, SPENCER J, HUANG J, et al. Deep knowledge tracing [J]. Computer Science,2015,3(3):19-23.
[4]? YE Y W, LI F M, LIU Q Q, et al. Incorporating the variables of forgetting and data volume into knowledge tracing model: how does it impact prediction accuracy? [J]. Distance Education in China,2019(8):20-26.
[5]? ZHAO J, BHATT S, THILLE C, et al. Interpretable personalized knowledge tracing and next learning activity recommendation [C/OL]// Proceedings of the Seventh ACM Conference on Learning@Scale. New York: Association for Computing Machinery,2020:325-328[2022-01-15]. https://doi.org/10.1145/3386527.3406739.
[6]? VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook: Curran Associates,2017:6000-6010.
[7]? KONG W L, HANG S Y, ZHAO S L. Construction of adaptive learning path supported by artificial intelligence [J]. Modern Distance Education Research,2020,32(3):94-103
[8]? CHOI Y, LEE Y, SHIN D, et al. Ednet: a large?scale hierarchical dataset in education [J/OL]. [2022-01-08]. http://arxiv.org/abs/1912.03072.
[9]? MANRIQUE R F, CAMILO E L G, LEON E. Student modeling via Bayesian knowledge tracing: a case study [C]//Computing Congress (CCC), 2014 9th Colombian. [S.l.:s.n.],2014:1-6.
[10] CEN H, KOEDINGER K, JUNKER B. Learning factors analysis?a general method for cognitive model evaluation and improvement [C]// International Conference on Intelligent Tutoring Systems. Taiwan: Springer,2006:164-175.
[11] LESZCZENSKI J M. Learning factors analysis learns to read [D]. Pittsburgh: Carnegie Mellon University,2007.
[12] PAVLIK P I, CEN H, KOEDINGER K. Performance factors analysis: a new alternative to knowledge tracing [C]//Proceedings of the 2009 conference on Artificial Intelligence in Education. Amsterdam: ACM,2009:531-538.
[13] MA X C, ZHONG S C, XU D. Research on support model and implementation mechanism of personalized adaptive learning system from the perspective of big data [J]. China Educational Technology,2017(363):97-102.
[14] GORI M, MONFARDINI G, SCARSELLI F. A new model for learning in graph domains [C]// 2005 IEEE International Joint Conference on Neural Networks. Montreal: IEEE,2005:729-734.
[15] NAKAGAWA H, IWASAWA Y, MATSUO Y. Graph?based knowledge tracing: modeling student proficiency using graph neural network [C]// IEEE/WIC/ACM International Conference on Web Intelligence. Thessaloniki: IEEE,2019: 156-163.
[16] TONG H, WANG Z, LIU Q, et al. HGKT: introducing hierarchical exercise graph for knowledge tracing [J/OL]. [2022-01-10].https:∥arxiv.org/abs/2006.16915.
[17] SCHLICHTKRULL M, KIPF T N, BLOEM P, et al. Modeling relational data with graph convolutional networks [C]//GANGEMI A, NAVIGLI R, VIDAL M E, et al. The Semantic Web. Cham: Springer International Publishing,2018: 593-607.
[18] LI H, WEI H, WANG Y, et al. Peer?inspired student performance prediction in interactive online question pools with graph neural network [C/OL]// CIKM’20: Proceedings of the 29th ACM International Conference on Information & Knowledge Management. New York: Association for Computing Machinery,2020:2589-2596[2022-01-15]. https://doi.org/10.1145/3340531.3412733.
[19] YANG Y, SHEN J, QU Y, et al. Gikt: a graph?based interaction model for knowledge tracing [C]// HUTTER F, KERSTING K, LIJFFIJT J, et al. Machine learning and knowledge discovery in databases. Cham: Springer International Publishing,2021:299-315.
[20] GHOSH A, HEFFERNAN N, LAN A S. Context-aware attentive knowledge tracing [C/OL]// Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: Association for Computing Machinery,2020:2330-2339[2022-01-15]. https://doi.org/10.1145/3394486.3403282.
[21] HARVEY R J, HAMMER A L. Item response theory [J]. Counseling Psychologist,1999,27(3):353-383.
[22] HOLSTER T A, LAKE J. Guessing and the Rasch model [J/OL]. Language Assessment Quarterly,2016,13(2):124-141[2022-01-15].https://doi.org/10.1080/15434303.2016.1160096.
[23] YEUNG C K. Deep?IRT: make deep learning based knowledge tracing explainable using item response theory [J/OL]. [2022-01-15]. https:∥arxiv.org/abs/190411738.
[24] ZHANG J, SHI X, KING I, et al. Dynamic key?value memory networks for knowledge tracing [C]// International Conference on World Wide Web. Geneva: Association for Computing Machinery,2017:765-774.
[25] HUANG Z, LIU Q, CHEN Y, et al. Learning or forgetting?A dynamic approach for tracking the knowledge proficiency of students [J]. ACM Transactions on Information Systems (TOIS),2020,38(2):1-33.
[26] VIE J J, KASHIMA H. Knowledge tracing machines: factorization machines for knowledge tracing [J/OL]. Proceedings of the AAAI Conference on Artificial Intelligence,2019,33(1):750-757[2022-01-15]. https://ojs.aaai.org/index.php/AAAI/article/view/3853.DOI:10.1609/aaai.v33i01.3301750.
[27] WANG F, LIU Q, CHEN E, et al. Neural cognitive diagnosis for intelligent education systems [J/OL]. Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(4):6153-6161[2022-01-15]. https://ojs.aaai.org/index.php/AAAI/article/view/6080.DOI:10.1609/aaai.v34i04.6080.
[28] MURRE J, CHESSA A G. Power laws from individual differences in learning and forgetting: mathematical analyses [J]. Psy?chonomic Bulletin and Review,2011,18(3):592-597.
[29] LINDSEY R V, SHROYER J D, PASHLER H, et al. Improving students’ long?term knowledge retention through personalized review [J/OL]. Psychological Science,2014,25(3):639-647[2022-01-15]. https://doi.org/10.1177/0956797613504302.
[30] LI Z, ZHOU D D, WANG Y. Research of educational knowledge graph from the perspective of “Artificial Intelligence+”: connotation, technical framework and application [J]. Journal of Distance Education,2019,37(4): 42-53.
[31] MINN S, YU Y, DESMARAIS M C, et al. Deep knowledge tracing and dynamic student classification for knowledge tracing [C/OL]// 2018 IEEE International Conference on Data Mining (ICDM). 2018:1182-1187.DOI:10.1109/ICDM.2018.00156.
[32] YEUNG C, LIN Z Z, YANG K, et al. Incorporating features learned by an enhanced deep knowledge tracing model for stem/non-stem job prediction [J]. International Journal of Artificial Intelligence in Education,2019,29(3):317-341.
[33] SU Y, LIU Q, LIU Q, et al. Exercise?enhanced sequential modeling for student performance prediction [J/OL]. Proceedings of the AAAI Conference on Artificial Intelligence,2018,32(1):2435-2443[2022-01-15]. https://ojs.aaai.org/index.php/AAAI/article/view/11864.
[34] PANDEY S, KARYPIS G. A self?attentive model for knowledge tracing [C]// International Conference on Education Data Mining. Montreal: Word Press,2019:1-6.
[35] CHOI Y, LEE Y, CHO J, et al. Towards an appropriate query, key, and value computation for knowledge tracing [C]//Proceedings of the Seventh ACM Conference on Learning@Scale. New York: Association for Computing Machinery, 2020:341-344.
[36] SHIN D, SHIM Y, YU H, et al. Saint+: integrating temporal features for EdNet correctness prediction [C/OL]// 11th International Learning Analytics and Knowledge Conference. New York: Association for Computing Machinery,2021:490-496[2022-01-15]. https://doi.org/10.1145/3448139.3448188.
[37] MEI H, EISNER J. The neural Hawkes process: a neurally self?modulating multivariate point process [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook: Curran Associates,2017:6757-6767.
[38] WANG C, MA W, ZHANG M, et al. Temporal cross?effects in knowledge tracing [C/OL]// Proceedings of the 14th ACM International Conference on Web Search and Data Mining. New York: Association for Computing Machinery, 2021:517-525[2022-01-15]. https://doi.org/10.1145/3437963.3441802.
(責(zé)任編輯:包震宇,郁慧)