摘 要:現(xiàn)有知識追蹤模型大多以概念為中心評估學(xué)生的未來表現(xiàn),忽略了包含相同概念的練習(xí)之間的差異,從而影響模型的預(yù)測準確性。此外,在構(gòu)建學(xué)生知識狀態(tài)過程中,現(xiàn)有模型未能充分利用學(xué)生在答題過程中的學(xué)習(xí)遺忘特征,導(dǎo)致對學(xué)生知識狀態(tài)的刻畫不夠精確。針對以上問題,提出了一種練習(xí)嵌入和學(xué)習(xí)遺忘特征增強的知識追蹤模型(exercise embeddings and learning-forgetting features boosted knowledge tracing,ELFBKT)。該模型利用練習(xí)概念二部圖中的顯性關(guān)系,深入計算二部圖中的隱性關(guān)系,構(gòu)建了一個練習(xí)概念異構(gòu)關(guān)系圖。為充分利用異構(gòu)圖中的豐富關(guān)系信息,ELFBKT模型引入了關(guān)系圖卷積網(wǎng)絡(luò)。通過該網(wǎng)絡(luò)的處理,模型能夠增強練習(xí)嵌入的質(zhì)量,并以練習(xí)為中心更準確地預(yù)測學(xué)生的未來表現(xiàn)。此外,ELFBKT充分利用多種學(xué)習(xí)遺忘特征,構(gòu)建了兩個門控機制,分別針對學(xué)生的學(xué)習(xí)行為和遺忘行為進行建模,更精確地刻畫學(xué)生的知識狀態(tài)。在兩個真實世界數(shù)據(jù)集上進行實驗,結(jié)果表明ELFBKT在知識追蹤任務(wù)上的性能優(yōu)于其他模型。
關(guān)鍵詞:知識追蹤;練習(xí)嵌入;學(xué)習(xí)和遺忘;關(guān)系圖卷積網(wǎng)絡(luò)
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2024)11-009-3265-07
doi:10.19734/j.issn.1001-3695.2024.04.0093
Exercise embeddings and learning-forgetting features boosted knowledge tracing
Zhang Wei, Li Zhixin?, Gong Zhongwei, Luo Peihua, Song Lingling
(Faculty of Artificial Intelligence Education, Central China Normal University, Wuhan 430079, China)
Abstract:Most existing KT models evaluate students’ future performance centered on concepts, overlooking the differences between exercises containing the same concepts, thus affecting the models’ prediction accuracy. Moreover, in constructing the students’ knowledge state, existing models fail to fully utilize the learning-forgetting features of students during the answering process, leading to an inaccurate modeling of students’ knowledge states. To address these issues, this paper proposed an exercise embeddings and learning-forgetting features boosted knowledge tracing model. The model utilized the explicit relationships in the exercise-concept bipartite graph to calculate the implicit relationships within the graph, constructing an exercise-concept relationship heterogeneous graph. To make full use of the rich relationship information in the heterogeneous graph, ELFBKT introduced a relational graph convolutional network (RGCN). Through the processing of RGCN, the model enhanced the quality of exercise embeddings and predicted students’ future performance more accurately with an exercise-centric approach. Furthermore, ELFBKT fully utilized various learning-forgetting features to construct two gating-controlled mechanisms, modeling the students’ learning and forgetting behaviors respectively, to more accurately model the students’ knowledge states. Experiments on two real-world datasets show that ELFBKT outperforms other models in KT tasks.
Key words:knowledge tracing(KT); exercise embedding; learning and forgetting; relational graph convolutional network
0 引言
智能導(dǎo)學(xué)系統(tǒng)(intelligent tutoring systems,ITS)為學(xué)生提供了大量的在線課程和練習(xí),以輔助學(xué)生個性化學(xué)習(xí)。ITS可以完整地保存學(xué)生的學(xué)習(xí)記錄,對學(xué)生知識掌握情況進行評估。知識追蹤是ITS的重要組成部分,通過分析學(xué)生歷史答題記錄評估其知識狀態(tài),預(yù)測學(xué)生未來答題表現(xiàn)。
目前,知識追蹤(KT)模型可分為基于傳統(tǒng)方法和基于深度學(xué)習(xí)方法的KT模型。貝葉斯知識追蹤 (Bayesian knowledge tracing,BKT) 作為典型的基于傳統(tǒng)方法的KT模型,使用一組二元變量表示學(xué)生的潛在知識狀態(tài)[1]。然而,BKT模型假設(shè)學(xué)生一旦掌握某個概念之后將不再遺忘,這與實際情況不符。深度知識追蹤(deep knowledge tracing,DKT)作為經(jīng)典的基于深度學(xué)習(xí)的KT模型[2],利用LSTM建模學(xué)生的知識狀態(tài),相比于BKT預(yù)測效果更好,對知識狀態(tài)的刻畫更加準確,但仍然存在著可解釋性差、長期依賴和學(xué)習(xí)特征少等問題[3]。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,出現(xiàn)了許多KT模型,眾多學(xué)者針對知識追蹤存在的問題進行了改進[4~6]。但是,這些模型仍以概念為中心預(yù)測學(xué)生的未來表現(xiàn),建模過程中也并未考慮學(xué)生答題過程中豐富的學(xué)習(xí)遺忘特征。
研究顯示,KT模型以練習(xí)為中心進行預(yù)測有助于提升預(yù)測準確性[7]。由于學(xué)生和練習(xí)的交互比較稀疏[8,9],導(dǎo)致現(xiàn)有KT模型[2,4,10]大多通過評估學(xué)生對練習(xí)所包含概念的掌握情況以預(yù)測學(xué)生未來答題表現(xiàn)。這種以概念為中心的評估方式忽視了包含相同概念練習(xí)間的差異,導(dǎo)致無法準確反映出學(xué)生對特定練習(xí)的掌握情況。由于數(shù)據(jù)集中練習(xí)數(shù)量眾多,直接使用練習(xí)編號作為模型的輸入會產(chǎn)生嵌入稀疏性問題[8],不利于模型訓(xùn)練。GIKT[11]利用GCN[12]將練習(xí)概念之間的顯性關(guān)系融入練習(xí)嵌入中,緩解了練習(xí)嵌入的稀疏性,成功以練習(xí)為中心預(yù)測學(xué)生未來表現(xiàn)。但是,GIKT建模過程中只考慮練習(xí)和概念之間的顯性關(guān)系,忽略了練習(xí)與練習(xí)、概念與概念之間的隱性關(guān)系。充分利用練習(xí)或概念之間的隱性關(guān)系有助于KT模型進行預(yù)測[13]。因此,本文將充分考慮隱性關(guān)系和原有顯性關(guān)系,并將其融入練習(xí)嵌入中。由于考慮了多關(guān)系信息,而傳統(tǒng)GCN處理圖結(jié)構(gòu)數(shù)據(jù)時并未區(qū)分關(guān)系的多樣性,本文將引入關(guān)系圖卷積網(wǎng)絡(luò)(relational graph convolutional network,RGCN)[14]。RGCN對傳統(tǒng) GCN 進行了改進,在多關(guān)系特征提取方面具有良好的性能。RGCN考慮了圖中邊的不同類型,相比于GCN可以更好地處理多關(guān)系圖數(shù)據(jù)。因此,本文將利用RGCN聚合多種關(guān)系信息用于獲取高質(zhì)量的練習(xí)嵌入。
在獲取高質(zhì)量練習(xí)嵌入后,模型接下來的目標是得到學(xué)生的知識狀態(tài)。對此,現(xiàn)有知識追蹤模型沒有充分利用學(xué)習(xí)遺忘特征明確建模學(xué)生的學(xué)習(xí)和遺忘行為。遺忘曲線理論[15]指出,遺忘會導(dǎo)致學(xué)生知識狀態(tài)衰退。學(xué)生的答題次數(shù)、答題時間、答題時間間隔等答題行為信息都會對遺忘產(chǎn)生影響。學(xué)習(xí)曲線理論[16]也指出,學(xué)生對某一概念學(xué)習(xí)的次數(shù)越多、學(xué)習(xí)時間越長,學(xué)生將更容易掌握該概念并答對練習(xí)。與此同時,不同知識背景的學(xué)生學(xué)習(xí)和遺忘情況也會有所不同[17]。由此可以得出,學(xué)生的答題行為信息和知識背景與學(xué)習(xí)和遺忘行為息息相關(guān),是重要的學(xué)習(xí)遺忘特征。在構(gòu)建KT模型的過程中,充分利用特征信息,可以有效提升模型預(yù)測準確性[18]。DKT+forget[10]簡單整合三組學(xué)習(xí)遺忘特征擴展DKT模型,但卻并沒有對學(xué)生的學(xué)習(xí)和遺忘行為進行明確建模。GFLDKT[19]明確建模學(xué)生的學(xué)習(xí)和遺忘過程,但沒有考慮學(xué)習(xí)遺忘特征。本文將充分利用多種學(xué)習(xí)遺忘特征,精準建模學(xué)生的學(xué)習(xí)過程和遺忘過程,更加準確地刻畫學(xué)生的知識狀態(tài)。
針對以上問題,本文提出一種增強練習(xí)嵌入和學(xué)習(xí)遺忘特征的知識追蹤模型(ELFBKT)。本文利用顯性關(guān)系和隱性關(guān)系構(gòu)建了一個練習(xí)概念異構(gòu)關(guān)系圖,并利用RGCN將異構(gòu)圖中的關(guān)系信息融入練習(xí)嵌入中,提升練習(xí)嵌入的質(zhì)量。針對知識追蹤建模過程中沒有充分利用學(xué)習(xí)遺忘特征的問題,本文利用多種學(xué)習(xí)遺忘特征構(gòu)建了一個學(xué)習(xí)門控機制和一個遺忘門控機制。學(xué)習(xí)門控機制用于建模學(xué)生學(xué)習(xí)進步獲得的提升,遺忘門控機制用于建模學(xué)生因遺忘導(dǎo)致知識狀態(tài)衰減。
本文的具體貢獻如下:
a)充分利用練習(xí)概念二部圖原有的顯性關(guān)系,計算出兩個隱性關(guān)系矩陣,建立了包含兩種節(jié)點及三種關(guān)系的練習(xí)概念異構(gòu)關(guān)系圖,通過使用RGCN,成功地利用異構(gòu)圖中豐富的關(guān)系信息,有效提升了練習(xí)嵌入的表示能力,幫助模型以練習(xí)為中心預(yù)測學(xué)生未來表現(xiàn);
b)充分利用五種學(xué)習(xí)遺忘特征,并以此為基礎(chǔ)構(gòu)建了兩個精準的門控機制,分別用于建模學(xué)生的學(xué)習(xí)和遺忘過程。通過建模學(xué)習(xí)和遺忘對學(xué)生知識狀態(tài)產(chǎn)生的積極與消極影響,模型能夠精確地追蹤學(xué)生知識狀態(tài)的變化;
c)在兩個真實數(shù)據(jù)集上進行了大量實驗,以評估ELFBKT模型的有效性,結(jié)果表明ELFBKT優(yōu)于其他知識追蹤模型。此外,消融實驗證明了所提模型包含的各個模塊的有效性。
1 相關(guān)工作
本章將從兩個方面簡要介紹知識追蹤的相關(guān)工作:a) 基于圖的知識追蹤模型,利用圖神經(jīng)網(wǎng)絡(luò)處理KT任務(wù)中各類圖結(jié)構(gòu)數(shù)據(jù)的KT模型;b)基于學(xué)習(xí)和遺忘的知識追蹤模型,建模過程中考慮了學(xué)習(xí)和遺忘行為的KT模型。此外,本章還詳細介紹本文模型與現(xiàn)有相關(guān)工作的不同之處。
1.1 基于圖的知識追蹤模型
當前許多研究集中在如何將圖結(jié)構(gòu)中的信息應(yīng)用于知識追蹤任務(wù)中。GKT[6]構(gòu)建了一個概念關(guān)系圖,將概念中的圖結(jié)構(gòu)特性作為關(guān)系歸納偏置納入知識追蹤模型以提高模型的可解釋性。SKT[20]通過考慮概念之間相似性、先決條件等多種關(guān)系信息,增強了模型的可解釋性。CRKT[21]考慮概念之間的相關(guān)性,提取概念的外延信息,并結(jié)合概念的內(nèi)延信息預(yù)測學(xué)生未來表現(xiàn),獲得了更好的效果和效率。DHKT[9]利用練習(xí)和概念之間的關(guān)系增強練習(xí)表示,提升了DKT的預(yù)測表現(xiàn)。GIKT[11]使用GCN將練習(xí)信息和高階練習(xí)概念相關(guān)性結(jié)合起來,緩解了數(shù)據(jù)稀疏性問題。PEBG[22]考慮練習(xí)和概念之間的直接關(guān)系和潛在關(guān)系,并使用預(yù)訓(xùn)練方法將這些關(guān)系信息融合到練習(xí)嵌入中,利用了更多的關(guān)系信息緩解數(shù)據(jù)稀疏性問題。此外,部分模型利用練習(xí)和概念以外的信息建立異構(gòu)圖,緩解數(shù)據(jù)稀疏性問題。例如,SGKT[23]構(gòu)建了包含學(xué)生、練習(xí)、概念三種節(jié)點的異構(gòu)圖,使用GCN提取節(jié)點之間的關(guān)系信息,生成練習(xí)嵌入和概念嵌入。HHSKT[24]構(gòu)建了包含練習(xí)內(nèi)容、概念和難度的異構(gòu)圖,利用層次聚合方法獲取不同練習(xí)節(jié)點的表示。
1.2 基于學(xué)習(xí)和遺忘的知識追蹤模型
學(xué)習(xí)曲線理論[16]認為學(xué)生可以在答題過程中收獲知識。艾賓浩斯遺忘曲線理論[15]認為學(xué)生的記憶會隨著時間流逝逐步下降。學(xué)生在學(xué)習(xí)過程中會因為時間流逝而導(dǎo)致知識點的遺忘,進而導(dǎo)致知識狀態(tài)的衰退。在知識追蹤中,部分研究人員對學(xué)生的學(xué)習(xí)和遺忘行為進行建模,增強了模型的預(yù)測效果。DKT+forget[10]在DKT的基礎(chǔ)上進行了改進,整合了三個與學(xué)習(xí)遺忘相關(guān)的特征:重復(fù)時間間隔、序列時間間隔、學(xué)生回答包含相同概念的練習(xí)次數(shù),考慮學(xué)生在整個答題序列中的互動,對學(xué)生的遺忘行為進行建模,獲得了更好的預(yù)測性能。F-TCKT[25]融合了三個遺忘相關(guān)的因素:學(xué)習(xí)相同概念的時間間隔、學(xué)習(xí)的時間間隔、相同概念的學(xué)習(xí)次數(shù),并利用時間卷積網(wǎng)絡(luò)和注意力機制預(yù)測學(xué)生未來表現(xiàn)。LFKT[26]考慮四個與學(xué)習(xí)遺忘相關(guān)的因素:學(xué)生重復(fù)學(xué)習(xí)概念間隔時間、重復(fù)學(xué)習(xí)概念次數(shù)、順序?qū)W習(xí)間隔時間和學(xué)生對于概念的掌握程度,設(shè)計一個基于記憶網(wǎng)絡(luò)的知識追蹤模型,建模學(xué)生因遺忘而導(dǎo)致的知識狀態(tài)的變化。LPKT[27]結(jié)合學(xué)習(xí)曲線和遺忘曲線理論對學(xué)生的學(xué)習(xí)過程進行了建模,通過監(jiān)測學(xué)生的學(xué)習(xí)和遺忘行為,追蹤學(xué)生知識狀態(tài)的變化。GFLDKT[18]結(jié)合教育心理學(xué)理論,分別設(shè)計了兩個門控機制,建模學(xué)生學(xué)習(xí)過程中的學(xué)習(xí)和遺忘行為,并考慮了學(xué)生背景差異對學(xué)習(xí)和遺忘的影響。CAKT[28]和CECAKT[29]對學(xué)習(xí)曲線理論進行了建模,分別使用三維卷積神經(jīng)網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò)建模學(xué)生近期對概念的學(xué)習(xí)經(jīng)驗,將學(xué)生的學(xué)習(xí)經(jīng)驗和知識狀態(tài)進行結(jié)合,預(yù)測學(xué)生未來的表現(xiàn)。RKT[30]使用時間衰減核函數(shù)建模學(xué)生的遺忘行為,通過考慮遺忘行為和上下文信息,預(yù)測學(xué)生的未來表現(xiàn)。
1.3 與現(xiàn)有工作的不同
如上所述,現(xiàn)有基于圖的知識追蹤模型利用練習(xí)和概念之間的部分關(guān)系信息進行建模,但這些模型沒有全面考慮練習(xí)與概念之間的顯性關(guān)系以及練習(xí)與練習(xí)、概念與概念之間的隱性關(guān)系。例如,GKT和SKT忽略了練習(xí)和概念之間的顯性關(guān)系, GIKT忽略了練習(xí)之間的隱性關(guān)系。其次,盡管這些KT模型[10,25,26]建模過程中考慮了部分學(xué)習(xí)遺忘特征,但它們沒有充分利用這些特征建模學(xué)生的學(xué)習(xí)和遺忘行為對知識狀態(tài)的具體影響。
相較于現(xiàn)有方法,本文的不同之處在于使用異構(gòu)圖表示練習(xí)與概念之間的顯性關(guān)系以及練習(xí)與練習(xí)之間、概念與概念之間的隱性關(guān)系,利用RGCN處理多關(guān)系數(shù)據(jù)的優(yōu)勢,將更多關(guān)系信息用于獲取練習(xí)嵌入。相比于其他模型[11,23,27],通過RGCN獲取的練習(xí)嵌入質(zhì)量更高。同時,本文充分利用學(xué)生答題過程中豐富的學(xué)習(xí)遺忘特征,分別建模學(xué)習(xí)和遺忘行為對知識狀態(tài)的積極和消極作用。
2 問題定義
2.1 知識追蹤任務(wù)
設(shè)置學(xué)生集合S={s1,s2,…,si,…,sn},共有n個學(xué)生,練習(xí)集合E={e1,e2,…,ei,…,em},共有m個練習(xí),概念集合C={c1,c2,…,ci,…,ck},共有k個概念。在KT任務(wù)中,學(xué)生將從E中先后選取部分練習(xí)進行回答,學(xué)生的回答序列用X={x1,x2,…,xi,…,xt}表示,xi={ei,ai}表示一次回答,其中ei 表示學(xué)生回答的練習(xí),ai表示對練習(xí)的回答結(jié)果,ai∈{0,1},ai=1表示學(xué)生正確回答練習(xí),否則ai=0。給定一個練習(xí)回答序列X和新練習(xí)et+1,KT的目標是預(yù)測學(xué)生正確回答練習(xí)的概率p(at+1=1|X,et+1)。
2.2 練習(xí)概念異構(gòu)關(guān)系圖
一般而言,一個練習(xí)可能包含多個概念,一個概念也可能被多個練習(xí)所考察,可將這種練習(xí)概念關(guān)系表示為二部圖。通常情況下,二部圖包含顯性關(guān)系和隱性關(guān)系兩種[31]。具體來說,每個練習(xí)ei包含一個或多個概念{c1,c2,…,cni},每一個概念ci也被一個或多個練習(xí){e1,e2,…,enj}所考察。其中ni表示練習(xí)ei包含的概念數(shù);nj表示考察概念ci的練習(xí)數(shù)。這樣的關(guān)系為顯性練習(xí)概念關(guān)系,知識追蹤任務(wù)中一般用矩陣Q進行表示。與此同時,練習(xí)和練習(xí)之間以及概念和概念之間也存在著關(guān)系。如果兩個練習(xí)ei與ej重復(fù)考察了一個或多個概念{c1ij,c2ij,…,cnij},則說明練習(xí)ei與ej之間存在著隱性關(guān)系。nij表示練習(xí)ei與ej共同考察的概念數(shù)目。如果兩個概念ci與cj同時被一個或多個練習(xí)所考察,則這兩個概念之間也存在著隱性關(guān)系。由于練習(xí)與概念、練習(xí)與練習(xí)、概念與概念之間均存在關(guān)系,可以將其表示為如圖1所示的一個具有兩種節(jié)點和三種關(guān)系的練習(xí)概念異構(gòu)關(guān)系圖G=(V,E,R),V表示節(jié)點集合包含練習(xí)集合S和概念集合C,E表示關(guān)系類型,r∈R表示是否存在關(guān)系。
2.3 學(xué)習(xí)遺忘特征嵌入
學(xué)生可以通過學(xué)習(xí)不斷增強對知識的掌握,與此同時,學(xué)習(xí)過程的遺忘也是不可避免的。學(xué)生學(xué)習(xí)次數(shù)越多、學(xué)習(xí)時間越長,對知識印象也越深刻,遺忘的程度也會相應(yīng)減弱。學(xué)生學(xué)習(xí)間隔時間越長,將會更容易忘記所學(xué)的知識。同時,學(xué)生在不同的知識狀態(tài)下對知識的學(xué)習(xí)和遺忘情況也會有所不同。因此,為更好地建模學(xué)生的學(xué)習(xí)和遺忘行為,本文考慮五種學(xué)習(xí)遺忘特征:
a)答題時間(at),學(xué)生回答練習(xí)消耗的時間;
b)答題時間間隔(it),學(xué)生兩次答題間隔的時間;
c)學(xué)習(xí)概念間隔時間(ct),學(xué)生兩次回答具有相同概念的練習(xí)的間隔時間;
d)學(xué)習(xí)概念次數(shù)(co),學(xué)生回答包含相同概念的練習(xí)次數(shù);
e)學(xué)生知識背景(h),學(xué)生對各個知識概念的掌握情況。
學(xué)習(xí)遺忘行為綜合特征嵌入:本文綜合考慮了學(xué)生的答題間隔時間、學(xué)習(xí)概念間隔時間、學(xué)習(xí)概念次數(shù)三組信息建模學(xué)生的學(xué)習(xí)遺忘行為綜合特征,將這三組特征信息進行了連接并輸入MLP中形成了學(xué)習(xí)遺忘行為綜合特征信息。模型中將利用該特征信息建模學(xué)生的學(xué)習(xí)和遺忘行為。
lft=WT2[ctt⊕itt⊕cot]+b2(2)
3 ELFBKT模型
ELFBKT模型結(jié)構(gòu)如圖2所示。
模型由關(guān)系特征提取模塊、學(xué)習(xí)模塊、遺忘模塊和預(yù)測模塊四個部分組成。關(guān)系特征提取模塊使用RGCN聚合異構(gòu)圖中的多種關(guān)系信息增強練習(xí)嵌入。學(xué)習(xí)模塊用于計算學(xué)生的學(xué)習(xí)遺忘特征對學(xué)生知識掌握情況帶來的提升效果。遺忘模塊用于處理學(xué)習(xí)遺忘特征對學(xué)生知識掌握情況帶來的負面影響。模型經(jīng)過學(xué)習(xí)模塊和遺忘模塊后,得到學(xué)生最終的知識狀態(tài)。最后,預(yù)測模塊通過學(xué)生的知識狀態(tài)和下一個練習(xí)嵌入計算學(xué)生正確回答該練習(xí)的概率。
3.1 關(guān)系特征提取模塊
對于矩陣P和U,首先構(gòu)建練習(xí)ei的鄰居集合Nei={cj|Qij=1},概念cj的鄰居集合Ncj={ei|Qij=1}。練習(xí)和練習(xí)關(guān)系矩陣P可以表示為
與之相似,可以把概念和概念的關(guān)系矩陣U表示為
為建模學(xué)生對特定問題的掌握情況,在三個關(guān)系矩陣建立完畢之后,使用RGCN來處理這些關(guān)系,最終生成融合多種關(guān)系特征的練習(xí)嵌入。RGCN中可以設(shè)置多個圖卷積層用于更新節(jié)點的信息,并且每一層的節(jié)點都可以通過自身和鄰居節(jié)點的狀態(tài)來更新。節(jié)點之間不同的關(guān)系將會分別進行處理。將概念關(guān)系異構(gòu)圖中的節(jié)點設(shè)置為Vi,則第l+1層RGCN的公式可表示為
3.2 學(xué)習(xí)模塊
學(xué)生的知識狀態(tài)會隨著學(xué)生答題過程動態(tài)變化。對此,本文設(shè)計了一個學(xué)習(xí)門控機制建模學(xué)生的答題過程對知識狀態(tài)產(chǎn)生的增益效果。該門控機制考慮學(xué)生兩次答題表現(xiàn)的差異和學(xué)習(xí)遺忘特征建模學(xué)習(xí)過程的收獲。對此,本文將當前時刻的答題嵌入ant、上一時刻的答題嵌入ant-1、學(xué)習(xí)遺忘行為綜合特征lft以及學(xué)生上一時刻當前習(xí)題相關(guān)知識概念的知識狀態(tài)ht-1進行連接,用于建模學(xué)生最終的學(xué)習(xí)收獲lgt。
lgt=tanh(WT2[ant-1⊕lft⊕ant⊕ht-1]+b2)(6)
學(xué)生通過答題獲取新知識后,需要進行深度理解和吸收,才能夠真正掌握這些知識,進而提升知識狀態(tài)。針對學(xué)生將學(xué)習(xí)收獲轉(zhuǎn)變?yōu)橹R狀態(tài)提升的過程,本文設(shè)計了一個知識收獲門Γlt用于建模學(xué)生將學(xué)習(xí)收獲轉(zhuǎn)換為知識增長的能力。由于學(xué)生上一時刻當前習(xí)題相關(guān)知識概念的知識狀態(tài)ht-1和學(xué)習(xí)遺忘行為綜合特征lft也會對學(xué)生學(xué)習(xí)收獲的轉(zhuǎn)換產(chǎn)生影響,所以知識收獲門中加入了這兩個因素綜合考慮學(xué)生的知識狀態(tài)增長。
Γlt=σ(WT3[ant-1⊕lft⊕ant⊕ht-1]+b3)(7)
學(xué)生在答題之后的知識增長由學(xué)生的學(xué)習(xí)收獲和知識增長能力共同決定。因此,本文將學(xué)習(xí)收獲lgt和知識收獲門Γlt相乘,獲得學(xué)生實際的知識增長LGt。
LGt=Γlt·lgt(8)
為了把知識增長擴展到其他知識概念,將LGt與qet相乘得到整體學(xué)習(xí)收獲LGt。
LGt=qet·LGt(9)
3.3 遺忘模塊
遺忘在學(xué)生的學(xué)習(xí)過程中是不可避免的[32],學(xué)生獲得的知識會隨著時間流逝而產(chǎn)生衰減。學(xué)生學(xué)習(xí)次數(shù)越多、學(xué)習(xí)時間越長,對知識印象也越深刻,遺忘的程度也會相應(yīng)減弱。因此,本文綜合考慮學(xué)生的知識背景ht-1、學(xué)習(xí)遺忘行為綜合特征lft以及學(xué)生的學(xué)習(xí)收獲LGt,建模因遺忘導(dǎo)致的學(xué)生知識狀態(tài)的衰減程度Γft
Γft=σ(WT4[ht-1⊕LGt⊕lft])+b4)(10)
學(xué)生知識狀態(tài)的變化與學(xué)生的學(xué)習(xí)行為和遺忘行為息息相關(guān)。因此,本文同時利用學(xué)習(xí)過程產(chǎn)生的知識增長和遺忘導(dǎo)致的知識衰減共同建模學(xué)生的知識狀態(tài)變化。本文使用知識衰減Γft乘上一時刻知識狀態(tài)ht-1計算出遺忘帶來的影響,使用學(xué)習(xí)模塊中得到的整體學(xué)習(xí)收獲LGt減去遺忘帶來的影響,得到學(xué)生知識狀態(tài)變化pt。
pt=LGt-Γftht-1(11)
最后,用知識狀態(tài)變化pt和學(xué)生的知識背景ht-1相加計算出學(xué)生當前的知識狀態(tài)ht。
ht=pt+ht-1(12)
3.4 預(yù)測模塊
在預(yù)測模塊中,考慮到學(xué)生是否答對練習(xí)與練習(xí)本身的特征和學(xué)生是否掌握該練習(xí)所涵蓋的概念相關(guān),本文根據(jù)學(xué)生對練習(xí)所考察概念的掌握情況以及練習(xí)嵌入,計算出最終正確回答的概率值yt+1。為獲取學(xué)生對練習(xí)所包含概念的掌握情況,本文使用知識狀態(tài)ht與矩陣Q中該練習(xí)對應(yīng)的概念向量相乘得出概念相關(guān)知識狀態(tài)。
ht=qet+1·ht(13)
本文使用相關(guān)知識狀態(tài)ht與練習(xí)嵌入et+1進行連接,同時考慮練習(xí)本身的嵌入信息和學(xué)生對相關(guān)概念的掌握情況,計算出最終回答正確的概率。
yt+1=σ∑(WT5[et+1⊕ht]+b5)dk(14)
為學(xué)習(xí)到ELFBKT模型中所有參數(shù),本文利用預(yù)測結(jié)果與實際答案at之間的交叉熵損失函數(shù)對模型進行優(yōu)化:
L(θ)=-∑Tt=1(atlog yt+(1-at)log(1-yt))+λθ‖θ‖2(15)
其中:θ代表模型的所有參數(shù);λθ是正則化超參數(shù)。
3.5 實現(xiàn)方法
ELFBKT模型將練習(xí)、概念、學(xué)生的回答結(jié)果、學(xué)習(xí)遺忘特征、練習(xí)概念顯性關(guān)系等作為輸入,以當前時刻練習(xí)的預(yù)測結(jié)果作為輸出,具體實驗步驟如下:
a)構(gòu)建練習(xí)概念異構(gòu)關(guān)系圖。利用數(shù)據(jù)集中練習(xí)概念之間的顯性關(guān)系,計算練習(xí)與練習(xí)之間、概念與概念之間的隱性關(guān)系,得到一個包含2種節(jié)點和3種關(guān)系的練習(xí)概念異構(gòu)關(guān)系圖G=(V,E,R)。
b)獲取練習(xí)嵌入向量。對數(shù)據(jù)集中的練習(xí)和概念進行編碼,映射成原始嵌入向量,將編碼后的練習(xí)嵌入、概念嵌入以及練習(xí)概念異構(gòu)關(guān)系圖輸入RGCN網(wǎng)絡(luò),獲取融合多種關(guān)系特征的練習(xí)嵌入et。
c)建模學(xué)習(xí)和遺忘對知識狀態(tài)的影響。利用學(xué)生兩次答題表現(xiàn)的差異以及學(xué)生的學(xué)習(xí)遺忘特征,通過式(6)~(8)計算出學(xué)生的學(xué)習(xí)收獲LGt。利用學(xué)生的知識背景、學(xué)習(xí)遺忘特征、學(xué)習(xí)收獲,通過式(10)計算因遺忘導(dǎo)致的知識狀態(tài)衰減程度Γft。
d)建模知識狀態(tài)。利用學(xué)生學(xué)習(xí)收獲和知識狀態(tài)衰減程度,結(jié)合上一時刻知識狀態(tài),通過式(11)(12)計算出當前時刻學(xué)生的知識狀態(tài)ht。
e)預(yù)測結(jié)果。通過式(13)將知識狀態(tài)轉(zhuǎn)換成概念相關(guān)知識狀態(tài),將相關(guān)知識狀態(tài)ht與練習(xí)嵌入et+1進行連接,通過式(14)計算預(yù)測結(jié)果yt+1。
4 實驗
本文通過在兩個真實在線教育數(shù)據(jù)集 ASSISTments2012和ASSISTments2017上進行實驗,通過對比ELFBKT和現(xiàn)有的知識追蹤模型的預(yù)測性能,以驗證ELFBKT在知識追蹤任務(wù)中的有效性。
4.1 數(shù)據(jù)集和評價指標
為證明ELFBKT的有效性,本文在KT領(lǐng)域廣泛使用的兩個數(shù)據(jù)集上進行實驗,數(shù)據(jù)集的詳細統(tǒng)計數(shù)據(jù)如表1所示。
ASSISTments2012:該數(shù)據(jù)集由ASSISTments在線教育平臺在2012年收集完成[33]。該數(shù)據(jù)集中短序列較多,對此,本文對數(shù)據(jù)集進行了預(yù)處理,刪除了其中學(xué)習(xí)記錄小于5的學(xué)生信息。預(yù)處理后數(shù)據(jù)集包含28 834名學(xué)生,50 988個練習(xí),198個概念。
b)ASSISTments2017:該數(shù)據(jù)集來源于2017ASSISTments數(shù)據(jù)挖掘競賽[34],相比于ASSISTments2012學(xué)生的平均學(xué)習(xí)記錄數(shù)量更多。數(shù)據(jù)集包含1 709名學(xué)生、3 162個練習(xí)、102個概念。
評價指標:本文使用AUC(area under the curve)和ACC(accuracy)評價模型的預(yù)測性能。AUC的取值為[0,1],AUC的值為0.5,表明模型的預(yù)測是隨機猜測的結(jié)果。AUC的值越接近1,表明模型預(yù)測的準確率越高。ACC表示預(yù)測正確結(jié)果占全部預(yù)測結(jié)果的百分比,ACC值越高,說明模型的預(yù)測性能越好。
4.2 訓(xùn)練細節(jié)
在ELFBKT中,RGCN中設(shè)置邊類型為3種,RGCN輸入特征維度和輸出特征維度分別設(shè)置為256。實驗中學(xué)生回答da設(shè)置為50,練習(xí)嵌入de設(shè)置為256,dk設(shè)置為256,學(xué)習(xí)率設(shè)置為0.001,批處理大小為64,為防止過擬合設(shè)置dropout為0.4。實驗中采用了Adam優(yōu)化器[35]。為緩解梯度消失和梯度爆炸,模型所使用的神經(jīng)網(wǎng)絡(luò)中的權(quán)重使用Xavier[36]初始化。
為了更加準確地評估模型性能,實驗采用了5倍交叉驗證的方法,將20%的數(shù)據(jù)用于測試,剩余80%的數(shù)據(jù)按8∶2的比例分成訓(xùn)練集和驗證集。由于兩個數(shù)據(jù)集中學(xué)生的平均學(xué)習(xí)序列長度不同,所以在ASSISTments2017中設(shè)置序列大小為500,ASSISTments2012中設(shè)置序列大小為100。
4.3 對比模型
為評估ELFBKT模型的性能,本文選用了五種對比模型。這些模型的具體情況如下:
a)DKT[2]。該模型是深度學(xué)習(xí)技術(shù)首次應(yīng)用到知識追蹤領(lǐng)域,使用LSTM進行建模,相比傳統(tǒng)方法具備更好的預(yù)測性能。
b)DKVMN[4]。該模型記憶網(wǎng)絡(luò)和知識追蹤模型進行了結(jié)合,使用鍵值記憶網(wǎng)絡(luò)存儲和更新知識概念和學(xué)生對知識概念的掌握情況,提升了知識追蹤的可解釋性
c)DKT+forget[10]。該模型將三種遺忘相關(guān)特征與DKT進行了結(jié)合,擴展了DKT模型。
d)GIKT[11]。該模型使用GCN將練習(xí)信息和高階練習(xí)概念關(guān)系信息進行結(jié)合,并利用LSTM更新學(xué)生的知識狀態(tài)。
e)LPKT[27]。該模型利用學(xué)習(xí)過程和學(xué)生知識狀態(tài)變化的一致性,通過建模學(xué)生學(xué)習(xí)過程,提升知識追蹤任務(wù)的準確性。
4.4 實驗結(jié)果
將ELFBKT和五個對比模型在兩個數(shù)據(jù)集上的結(jié)果進行了對比,實驗結(jié)果如表2和圖3所示。
從表2和圖3中可以得知,ELFBKT模型在ASSISTments2012和ASSISTments2017兩個數(shù)據(jù)集上AUC為0.781、0.801,ACC為0.758、0.740,均為所有模型中最佳,證明了ELFBKT的有效性。
具體來說,ELFBKT、GIKT和LPKT三個模型在兩個數(shù)據(jù)集上的預(yù)測效果均顯著優(yōu)于DKT、DKVMN、DKT+forget。ELFBKT、GIKT和LPKT和三個模型都是以練習(xí)為中心進行預(yù)測,相比于以概念為中心進行預(yù)測的模型DKT、DKVMN和DKT+forget,展現(xiàn)出更優(yōu)的性能。這說明以練習(xí)為中心的模型能更好地區(qū)分包含相同概念的不同練習(xí)之間的差異,從而更準確地預(yù)測學(xué)生的未來表現(xiàn),相較于以概念為中心的模型具有優(yōu)勢。在三個以練習(xí)為中心進行預(yù)測的模型中,ELFBKT和LPKT相較于GIKT表現(xiàn)更佳,其主要原因是ELFBKT和LPKT對學(xué)生的學(xué)習(xí)和遺忘行為進行了建模。
ELFBKT與次優(yōu)模型LPKT相比,在兩個數(shù)據(jù)集上AUC提升0.7%、0.8%,ACC提升0.3%、0.2%。這一性能提升的原因主要有兩點:a)ELFBKT在以練習(xí)為中心進行建模的過程中,考慮練習(xí)和概念之間的顯性關(guān)系與隱性關(guān)系,利用包含多種關(guān)系信息的高質(zhì)量練習(xí)嵌入幫助模型進行預(yù)測,相比之下,LPKT模型僅將練習(xí)編號作為輸入,其練習(xí)嵌入的質(zhì)量相對較低,無法充分反映練習(xí)之間的復(fù)雜關(guān)系,這在一定程度上限制了其預(yù)測性能;b)ELFBKT模型在建模學(xué)生學(xué)習(xí)和遺忘的過程中考慮了更多的學(xué)習(xí)遺忘特征,LPKT模型利用的特征信息相對較少,對知識狀態(tài)的刻畫不夠準確。綜上所述,ELFBKT模型通過深入挖掘練習(xí)與概念之間的關(guān)系以及考慮更多的學(xué)習(xí)遺忘特征,相比于次優(yōu)模型獲得了更好的效果。
4.5 消融實驗
為詳細驗證ELFBKT各部分有效性,本節(jié)對ELFBKT各部分有效性進行了深入的消融實驗。具體來說,本節(jié)進一步研究了ELFBKT中關(guān)系特征提取模塊、學(xué)習(xí)模塊和遺忘模塊三個主要部分的有效性。實驗結(jié)果如表3和圖4所示。表3和圖4中,ELFBKT-NR、ELFBKT-NL和ELFBKT-NF分別表示ELFBKT的三個變體。
a)ELFBKT-NR表示ELFBKT去掉了關(guān)系特征提取模塊,沒有將練習(xí)-概念異構(gòu)圖中的關(guān)系信息融合到練習(xí)嵌入中。
b)ELFBKT-NF表示ELFBKT去掉遺忘門,即沒有對因遺忘導(dǎo)致的知識狀態(tài)衰減進行建模。公式上,將學(xué)習(xí)門式(9)中計算得出的結(jié)果LGt,直接替代預(yù)測門中式(3)中ht輸入預(yù)測門中進行預(yù)測。
c)ELFBKT-NL表示沒有使用學(xué)生在兩次答題過程中的差異建模學(xué)生學(xué)習(xí)收獲的過程,僅使用當前時刻的答題嵌入建模學(xué)生的學(xué)習(xí)情況。公式上,將式(6)(7)替換為
lgt=tanh(WT2[lft⊕ant⊕ht-1]+b2)(16)
Γlt=σ(WT3[lft⊕ant⊕ht-1]+b3)(17)
即去掉了公式中的ant-1,線性層維度也將進行對應(yīng)的改變。
表3和圖4中ELFBKT-NR的結(jié)果顯示,去除了關(guān)系特征提取模塊之后,模型的AUC下降了至少1%,ACC下降了至少0.7%。其中關(guān)系特征提取模塊在ASSISTments2012上的提升更大,因為該數(shù)據(jù)集中練習(xí)和概念數(shù)量較多,關(guān)系特征提取模塊可以更好地提取異構(gòu)圖中的多種關(guān)系信息。以上結(jié)果表明,關(guān)系特征提取模塊將練習(xí)概念異構(gòu)圖中的各類關(guān)系信息加入到問題嵌入中,成功幫助模型建模學(xué)生對特定練習(xí)的掌握情況,提升了模型的預(yù)測性能。
表3和圖4中ELFBKT-NF的結(jié)果顯示,如果模型忽略學(xué)生的遺忘行為,即去掉遺忘門,會導(dǎo)致模AUC、ACC值在ASSISTments2017上分別下降2.3%、2%左右,在ASSISTments2012上分別下降2.9%、1.5%左右。實驗結(jié)果表明,對學(xué)生的遺忘進行建模可以有效提升ELFBKT的性能,即知識追蹤任務(wù)中考慮學(xué)生的遺忘行為是非常重要的。
表3和圖4中ELFBKT-NL的結(jié)果顯示,僅使用學(xué)生當前時刻答題嵌入進行建模會導(dǎo)致模型性能下降。這說明考慮學(xué)生兩次答題過程中的學(xué)習(xí)情況差異,進而得出學(xué)生的學(xué)習(xí)進步,相較于僅考慮學(xué)生當前時刻的學(xué)習(xí)情況,可以更好地建模學(xué)生的知識狀態(tài)變化,提升模型的預(yù)測性能。
綜上所述,本節(jié)的消融實驗驗證了學(xué)習(xí)、遺忘以及關(guān)系特征提取三個模塊在ELFBKT中的有效性。
4.6 超參數(shù)分析
本節(jié)討論不同的超參數(shù)在ASSISTments2017上對AUC結(jié)果的影響。ELFBKT中將練習(xí)概念異構(gòu)圖中的關(guān)系信息加入到了練習(xí)嵌入之中,建模學(xué)生對特定練習(xí)的掌握情況。因此與練習(xí)嵌入相關(guān)的維度信息的選用非常重要。本文選擇了練習(xí)嵌入維度de、RGCN網(wǎng)絡(luò)輸入特征維度dk和dropout rate三個超參數(shù)進行敏感性分析。實驗結(jié)果如圖5、6所示。
a)超參數(shù)dk與de。RGCN需要使用練習(xí)嵌入向量作為輸入特征,dk與de的值需保持一致,因此將這兩個參數(shù)放在一起進行討論。從實驗的結(jié)果可以看出,當練習(xí)的嵌入維度de以及RGCN網(wǎng)絡(luò)的輸入特征維度dk從32維增長到256維時,模型的AUC效果有所增長,并在維度設(shè)置為256時取得了最好的結(jié)果。這說明隨著嵌入維度的增加,練習(xí)嵌入中可以編碼更多的信息,加強模型的預(yù)測性能。但是如果嵌入的維度過大,會產(chǎn)生練習(xí)嵌入稀疏性問題,造成模型的性能下降。
b)超參數(shù)dropout。本文選擇了四組不同的dropout rate進行測試,實驗結(jié)果顯示,dropout rate設(shè)置為0.4時模型的AUC效果最好,當dropout過大時,網(wǎng)絡(luò)產(chǎn)生的欠擬合效應(yīng)導(dǎo)致模型的預(yù)測效果發(fā)生了下降。當嵌入維度為256,dropout rate為0.4時,模型產(chǎn)生了最好的預(yù)測效果。
5 結(jié)束語
本文提出了一種增強練習(xí)嵌入和學(xué)習(xí)遺忘特征的知識追蹤模型ELFBKT。該模型使用關(guān)系圖卷積網(wǎng)絡(luò)將練習(xí)概念異構(gòu)圖中的關(guān)系信息融合到練習(xí)嵌入中,以練習(xí)為中心評估學(xué)生的未來表現(xiàn)。此外,本文結(jié)合教育心理學(xué)理論,利用多種學(xué)習(xí)遺忘特征設(shè)計學(xué)習(xí)模塊和遺忘模塊分別建模學(xué)生答題過程中因?qū)W習(xí)產(chǎn)生知識狀態(tài)增長和因遺忘導(dǎo)致的知識狀態(tài)衰減,更加精準地刻畫了學(xué)生的知識狀態(tài)。最后,在兩個真實世界數(shù)據(jù)集實驗結(jié)果表明,ELFBKT達到了更好的效果。
在真實的教育場景中,根據(jù)學(xué)生知識狀態(tài)進行查漏補缺是非常重要的。知識追蹤可以評估學(xué)生知識狀態(tài),幫助教育工作者進行教育教學(xué)。未來將進一步細化練習(xí)概念之間的各項關(guān)系信息,利用更加豐富的關(guān)系信息和難度特征對練習(xí)嵌入進行建模。此外,本文雖然考慮多種學(xué)習(xí)遺忘特征對學(xué)生知識狀態(tài)的影響,但并未區(qū)分不同特征與知識狀態(tài)之間的相關(guān)性強弱,未來還需進一步探索。
參考文獻:
[1]Corbett A T, Anderson J R. Knowledge tracing: modeling the acquisition of procedural knowledge[J]. User Modeling and User-Adapted Interaction, 1994, 4: 253-278.
[2]Piech C, Bassen J, Huang J, et al. Deep knowledge tracing[C]// Proc of the 28th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 505-513.
[3]Song Xiangyu, Li Jianxin, Cai Taotao, et al. A survey on deep lear-ning based knowledge tracing[J]. Knowledge-Based Systems, 2022, 258: 110036.
[4]Zhang Jianni, Shi Xingjian, King I, et al. Dynamic key-value memory networks for knowledge tracing[C]// Proc of the 26th International Conference on World Wide Web. [S.l.]: International World Wide Web Conferences Steering Committee, 2017: 765-774.
[5]Pandey S, Karypis G. A self-attentive model for knowledge tracing[C]// Proc of the 12th International Conference on Educational Data Mining. [S.l.]: International Educational Data Mining Society, 2019: 384-389.
[6]Nakagawa H, Iwasawa Y, Matsuo Y. Graph-based knowledge tra-cing: modeling student proficiency using graph neural network[C]// Proc of IEEE/WIC/ACM International Conference on Web Intelligence. Piscataway, NJ: IEEE Press, 2019: 156-163.
[7]Sonkar S, Waters A E, Lan A S, et al. qDKT: question-centric deep knowledge tracing[C]// Proc of the 13th International Conference on Educational Data Mining. 2020: 677-681.
[8]Gan Wenbin, Sun Yuan, Sun Yi. Knowledge structure enhanced graph representation learning model for attentive knowledge tracing[J]. International Journal of Intelligent Systems, 2022, 37(3): 2012-2045.
[9]Wang Tianqi, Ma Fenglong, Gao Jing. Deep hierarchical knowledge tracing[C]// Proc of the 12th International Conference on Educatio-nal Data Mining. [S.l.]: International Educational Data Mining Society, 2019: 671-674.
[10]Nagatani K, Zhang Qian, Sato M, et al. Augmenting knowledge tra-cing by considering forgetting behavior[C]// Proc of World Wide Web Conference. New York: ACM Press, 2019: 3101-3107.
[11]Yang Yang, Shen Jian, Qu Yunfei, et al. GIKT: a graph-based interaction model for knowledge tracing[C]// Proc of European Confe-rence on Machine Learning and Knowledge Discovery in Databases. Cham: Springer, 2021: 299-315.
[12]Kipf T N, Welling M. Semi-supervised classification with graph con-volutional networks [EB/OL]. (2017-02-22). https://arxiv.org/abs/1609.02907.
[13]Xu Jia, Huang Xinyue, Xiao Teng, et al. Improving knowledge tracing via a heterogeneous information network enhanced by student interactions[J]. Expert Systems with Applications, 2023, 232: 120853.
[14]Schlichtkrull M, Kipf T N, Bloem P, et al. Modeling relational data with graph convolutional networks[C]// Proc of the 15th Extended Semantic Web Conference. Cham: Springer, 2018: 593-607.
[15]Averell L, Heathcote A. The form of the forgetting curve and the fate of memories[J]. Journal of Mathematical Psychology, 2011, 55(1): 25-35.
[16]Anzanello M J, Fogliatto F S. Learning curve models and applications: literature review and research directions[J]. International Journal of Industrial Ergonomics, 2011, 41(5): 573-583.
[17]王璨, 劉朝暉, 王蓓, 等. TCN-KT: 個人基礎(chǔ)與遺忘融合的時間卷積知識追蹤模型[J]. 計算機應(yīng)用研究, 2022, 39(5): 1496-1500. (Wang Can, Liu Zhaohui, Wang Bei, et al. TCN-KT: temporal convolutional knowledge tracking model based on fusion of personal basis and forgetting[J]. Application Research of Computers, 2022, 39(5): 1496-1500.)
[18]Shun Xia, Zhao Xu, Li Bo, et al. Dynamic key-value memory networks with rich features for knowledge tracing[J]. IEEE Trans on Cybernetics, 2022, 52(8): 8239-8245.
[19]Zhao Weizhong, Xia Jun, Jiang Xingpeng, et al. A novel framework for deep knowledge tracing via gating-controlled forgetting and learning mechanisms[J]. Information Processing amp; Management, 2023, 60(1): 103114.
[20]Tong Shiwei, Liu Qi, Huang Wei, et al. Structure-based knowledge tracing: an influence propagation view [C]// Proc of IEEE International Conference on Data Mining. Piscataway, NJ: IEEE Press, 2020: 541-550.
[21]張凱, 劉月, 覃正楚, 等. 概念表示增強的知識追蹤模型[J]. 計算機應(yīng)用研究, 2022, 39(11): 3309-3314. (Zhang Kai, Liu Yue, Qin Zhengchu, et al. Concept representation enhanced know-ledge tracing[J]. Application Research of Computers, 2022, 39(11): 3309-3314.)
[22]Liu Yunfei, Yang Yang, Chen Xianyu, et al. Improving knowledge tracing via pre-training question embeddings[C]// Proc of the 29th International Conference on International Joint Conferences on Artificial Intelligence. New York: ACM Press, 2021: 1577-1583.
[23]Wu Zhengyang, Huang Li, Huang Qionghao, et al. SGKT: session graph-based knowledge tracing for student performance prediction[J]. Expert Systems with Applications, 2022, 206: 117681.
[24]Ni Qin, Wei Tingjiang, Zhao Jiabao, et al. HHSKT: a learner-question interactions based heterogeneous graph neural network model for knowledge tracing[J]. Expert Systems with Applications, 2023, 215: 119334.
[25]張鵬, 文磊. F-TCKT: 融合遺忘因素的深度時序卷積知識追蹤模型[J]. 計算機應(yīng)用研究, 2023, 40(4): 1070-1074. (Zhang Peng, Wen Lei. F-TCKT: deep temporal convolutional knowledge tracking model with forgetting factors[J]. Application Research of Computers, 2023, 40(4): 1070-1074.)
[26]李曉光, 魏思齊, 張昕, 等. LFKT: 學(xué)習(xí)與遺忘融合的深度知識追蹤模型[J]. 軟件學(xué)報, 2021, 32(3): 818-830. (Li Xiaoguang, Wei Siqi, Zhang Xin, et al. LFKT: deep knowledge tracing model with learning and forgetting behavior merging[J]. Journal of Software, 2021, 32(3): 818-830.)
[27]Shen Shuanghong, Chen Enhong, Liu Qi, et al. Monitoring student progress for learning process-consistent knowledge tracing[J]. IEEE Trans on Knowledge and Data Engineering, 2023, 35(8): 8213-8227.
[28]Yang Shanghui, Liu Xin, Su Hang, et al. Deep knowledge tracing with learning curves[C]// Proc of IEEE International Conference on Data Mining Workshops. Piscataway, NJ: IEEE Press, 2022: 282-291.
[29]Su Hong, Liu Xin, Yang Shanghui, et al. Deep knowledge tracing with learning curves [J]. Frontiers in Psychology, 2023, 14: 1150329.
[30]Pandey S, Srivastava J. RKT: Relation-aware self-attention for knowledge tracing[C]// Proc of the 29th ACM International Confe-rence on Information amp; Knowledge Management. New York: ACM Press, 2020: 1205-1214.
[31]Gao Ming, Chen Leihui, He Xiangnan, et al. BiNE: bipartite network embedding[C]// Proc of the 41st International ACM SIGIR Conference on Research amp; Development in Information Retrieval. New York: ACM Press, 2018: 715-724.
[32]Markovitch S, Scott P D. The role of forgetting in learning[C]// Proc of the 5th International Conference on Machine Learning. San Francisco, CA: Morgan Kaufmann Publishers Inc., 1988: 459-465.
[33]Patikorn T, Baker R S, Heffernan N T. ASSISTments longitudinal data mining competition special issue: a preface[J]. Journal of Edu-cational Data Mining, 2020, 12(2): 1-9.
[34]Feng Mingyu, Heffernan N, Koedinger K. Addressing the assessment challenge with an online system that tutors as it assesses[J]. User Modeling and User-Adapted Interaction, 2009, 19(3): 243-266.
[35]Kingma D P, Ba J. Adam: a method for stochastic optimization [EB/OL]. (2017-01-30). https://arxiv.org/abs/1412.6980.
[36]Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]// Proc of the 13th International Conference on Artificial Intelligence and Statistics. [S.l.]: PMLR, 2010: 249-256.