知識點表征強化的知識追蹤模型

2025-03-09 00:00:00張凱張慧玲王澤琛王雪方洋洋

計算機應用研究 2025年1期

摘要：知識追蹤模型主要使用監(jiān)督學習范式建模給定題目信息條件下的作答結(jié)果概率分布，無法根據(jù)新的題目信息即時調(diào)整模型，最終影響了預測效果。針對這一問題，融合強化學習范式，提出知識點表征強化的知識追蹤模型，主要包括基礎(chǔ)網(wǎng)絡(luò)、價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)三個部分?；A(chǔ)網(wǎng)絡(luò)建模題目與知識點表征，價值網(wǎng)絡(luò)計算題目價值及時間差分誤差，策略網(wǎng)絡(luò)優(yōu)化預測結(jié)果。通過五個基線模型在三個數(shù)據(jù)集上的實驗表明，該模型在AUC和ACC上表現(xiàn)優(yōu)異，特別是在ASSISTments2009數(shù)據(jù)集上，AUC提升6.83%～14.34%，ACC提升11.39%～19.74%。進一步地，該模型表示質(zhì)量較基線模型提高2.59%，還通過消融實驗驗證了強化學習框架的有效性。最后，將所提模型應用于三門真實課程的學習行為數(shù)據(jù)以預測學習者的表現(xiàn)，與基線模型的對比結(jié)果說明了所提模型在實際場景中的可用性。

關(guān)鍵詞：知識追蹤；知識點；圖神經(jīng)網(wǎng)絡(luò)；強化學習

中圖分類號：TP183"" 文獻標志碼：A"" 文章編號：1001-3695（2025）01-012-0086-07

doi： 10.19734/j.issn.1001-3695.2024.06.0196

Knowledge tracing via reinforcement of concept representation

Abstract： Knowledge tracing models mainly use supervised learning paradigm to model the probability distribution of answers given the question information， which cannot adjust the model immediately based on new question information， ultimately affecting the prediction performance. To address this issue， this paper proposed a knowledge tracing model with enhanced knowledge representation by integrating reinforcement learning paradigm， which mainly consisted of three parts： a basic network， a value network， and a policy network. The basic network modeled the representation of questions and knowledge points， the value network calculated the value of questions and the temporal difference error， and the policy network optimized the prediction results. Experiments conducted with five baseline models on three datasets demonstrate that the proposed model excels in terms of AUC and ACC， especially on the ASSISTments2009 dataset， where AUC is improved by 6.83%～14.34% and ACC by 11.39%～19.74%. Furthermore， the quality of model representation is improved by 2.59% compared to baseline mo-dels， and ablation experiments confirm the effectiveness of the reinforcement learning framework. Finally， applying the proposed model to learning behavior data from three real courses shows its practical usability， as evidenced by its performance compared to baseline models.

Key words：knowledge tracing; knowledge point; graph neural network; reinforcement learning

0 引言

知識追蹤模型一般作為智能導學系統(tǒng)或教育大模型的組成部分，根據(jù)給出的擬作答的題目，建模給定題目信息條件下學習者作答結(jié)果的條件概率分布，從分布中采樣來預測學習者的未來表現(xiàn)。智能導學主要向?qū)W習者提供題目，并收集學習者的實時交互數(shù)據(jù)。知識追蹤主要利用上述交互數(shù)據(jù)建模學習者的知識狀態(tài)，并向智能導學反饋學習者未來的學習表現(xiàn)。這種緊密的互動機制使得智能導學系統(tǒng)能夠為知識追蹤模型提供持續(xù)更新的訓練數(shù)據(jù)，而知識追蹤模型的預測結(jié)果又可以反過來為智能導學系統(tǒng)的決策提供支持，例如個性化教學資源的生成，從而顯著提升教學效果。

在深度應用的智慧學習環(huán)境中，如國家智慧教育公共服務平臺、學堂在線、edX、Coursera等，以及在備受關(guān)注的教育大模型中，如EmoGPT、MathGPT、Khanmigo等，知識追蹤模型均承擔判斷學習者知識狀態(tài)、預測學習者未來表現(xiàn)的作用，并為下游任務，如個性化教學資源生成和推薦等功能，提供有效的支撐和依據(jù)［1～6］。

當前的知識追蹤研究發(fā)展勢頭總體較好，但仍然存在若干問題與挑戰(zhàn)。其中，當前研究普遍利用監(jiān)督學習范式訓練知識追蹤模型。嚴格來說，該范式得到的條件概率分布來源于訓練數(shù)據(jù)中的題目信息，忽視了訓練數(shù)據(jù)之外，知識追蹤模型與智能導學系統(tǒng)或教育大模型實時交互期間的題目信息的動態(tài)變化。而知識追蹤模型使用訓練數(shù)據(jù)范圍內(nèi)建模的概率分布，預測實時交互期間的學習者未來表現(xiàn)，由于題目數(shù)據(jù)無法保證滿足獨立同分布假設(shè)，所以這種預測的效果受到了較大的制約。

針對上述問題，本文提出了一個知識點表征強化的知識追蹤模型（knowledge tracing via reinforcement of concept representation， KT-RCR），將強化學習范式引入知識追蹤，將智能導學作為強化學習中的環(huán)境，將智能導學提供的題目作為環(huán)境的狀態(tài)，將知識追蹤作為強化學習中的智能體，將知識追蹤的預測結(jié)果與學習者實際表現(xiàn)的一致性作為獎勵。建模知識追蹤模型與智能導學系統(tǒng)的實時交互，根據(jù)智能導學系統(tǒng)給出的每一時間步的獎勵，完成對給定題目信息條件下作答結(jié)果概率分布的動態(tài)建模，優(yōu)化各個時間步的預測結(jié)果。通過引入強化學習，KT-RCR模型能夠根據(jù)智能導學系統(tǒng)在每個時間步的獎勵，動態(tài)調(diào)整和優(yōu)化知識狀態(tài)表示，從而更好地應對題目數(shù)據(jù)的動態(tài)變化和非獨立同分布問題，提高知識追蹤的預測準確性。

本文主要的創(chuàng)新有：

a）利用強化學習框架，建模知識追蹤模型與智能導學系統(tǒng)的交互過程，根據(jù)智能導學系統(tǒng)在每個時間步的獎勵，優(yōu)化知識追蹤模型，提高知識追蹤的預測準確性；

b）搭建適配強化學習范式的智能導學系統(tǒng)，通過對比實驗驗證強化學習在知識追蹤模型中的有效性和魯棒性。通過將模型應用于實際教學環(huán)境預測學習者的表現(xiàn)，進一步展示了提出模型的可用性。

1 相關(guān)工作

知識追蹤模型建模了給定題目信息條件下學習者作答結(jié)果的條件概率分布。具體地，根據(jù)所用的模型，當前的研究可分為使用循環(huán)網(wǎng)絡(luò)、使用注意力機制和使用圖神經(jīng)網(wǎng)絡(luò)三類。

1.1 使用循環(huán)網(wǎng)絡(luò)建模作答結(jié)果的條件概率

這類研究一般首先對題目進行表示，再將上述表示按時間順序先后輸入循環(huán)網(wǎng)絡(luò)，將歷史信息融入當前時刻的題目表示，建模給定當前時刻題目信息的條件下作答結(jié)果的條件概率分布，最終采樣得到學習者的未來表現(xiàn)預測。這類研究的主要特點在于利用知識點、學習行為等不同信息增強對題目的表征。

這方面的具體工作主要包括，DKT模型［7］是使用深度模型建模知識追蹤的開創(chuàng)性工作，基于循環(huán)網(wǎng)絡(luò)架構(gòu)將歷史題目信息融入當前題目表征，未加入其他信息。DKVMN［8］建立鍵值矩陣存儲全局知識點及其狀態(tài)，將題目映射為全局知識點狀態(tài)的權(quán)重表示，從而建模作答結(jié)果的條件概率。KTSA-BiGRU［9］和DKP［10］通過雙向循環(huán)網(wǎng)絡(luò)捕獲歷史答題序列特征，增強當前題目的表征。DKTDM［11］使用若干學習行為的特征增強題目表征。KTCR［12］使用Q矩陣將題目映射為知識點，再將正確率等上下文信息融入知識點的表示，實現(xiàn)對題目信息的增強。EKT［13］提取題目的語義特征，與知識點表征矩陣，更加充分地表示題目中包含的知識點。LFKT［14］使用注意力機制建模題目中的知識點表示，又加入了遺忘機制作用各個知識點，增強題目的表征。KTR［15］使用可靠性增強題目的表示。FKA-DKT［16］建模能力向量與知識向量融合，增強題目表征。這類研究在增強題目表征的基礎(chǔ)上，利用循環(huán)網(wǎng)絡(luò)，使用歷史信息增強當前信息，從而預測給定題目信息條件下學習者作答結(jié)果的條件概率分布。

1.2 使用注意力機制建模作答結(jié)果的條件概率

這類研究一般首先建立題目與知識點的關(guān)系，利用知識點來表示題目，再對全局知識點施加注意力機制，將全局知識點信息根據(jù)權(quán)重系數(shù)融入當前時刻的題目表示，建模給定當前時刻題目信息的條件下作答結(jié)果的條件概率分布，最終采樣得到學習者的未來表現(xiàn)預測。

這方面的具體工作主要包括，SAKT［17］首次將自注意力機制引入解決題目數(shù)據(jù)稀疏的問題。TCKT［18］使用因果注意力機制增強表示目標知識點，以獲取知識點的一致性表示，表示當前題目。RFKT［19］使用相關(guān)性表示知識點，使用注意力機制建模知識點的演化過程，來對題目進行增強表征。MCAKT［20］使用Transformer架構(gòu)建模目標知識點，其中的多頭注意力和位置編碼減少了歷史知識點對目標知識點建模表示的長期依賴問題，更加精確地表示題目。SAINT［21］使用Transformer架構(gòu)將題目與作答結(jié)果分別作為編碼器和解碼器的輸入，能夠捕獲復雜的題目與作答結(jié)果的關(guān)系。這類研究利用注意力機制，使用加權(quán)的全局信息增強表示當前題目，從而預測給定當前題目信息條件下學習者作答結(jié)果的條件概率分布。

1.3 使用圖神經(jīng)網(wǎng)絡(luò)建模作答結(jié)果的條件概率

這類研究的主要特點在于將題目分解為若干知識點，通過圖神經(jīng)網(wǎng)絡(luò)對知識點的更新來增強題目的表征，最終獲取給定題目信息條件下作答結(jié)果的條件概率。

QFEKT［22］將題目信息映射為若干知識點，通過圖卷積神經(jīng)網(wǎng)絡(luò)（GCN）結(jié)合對比學習的方式聚合目標知識點的鄰居信息，從而增強題目表示。Bi-CLKT［23］在知識點級別和圖級別分別應用GCN，再通過對比學習來增強知識點的表示。DGMN［24］使用矩陣存儲知識點表示，建立了潛在概念圖表示知識點之間的關(guān)系，使用圖卷積網(wǎng)絡(luò)捕捉知識點之間的關(guān)系。GAKT-IRT模型［25］在此基礎(chǔ)上作出了改進，引入了圖注意力機制（GAT），在GCN的基礎(chǔ)了引入了注意力機制，能夠注意到鄰居節(jié)點對中心節(jié)點的影響程度，并為鄰居節(jié)點分配不同的權(quán)重。SPKT［26］基于GAT網(wǎng)絡(luò)，采用多頭注意力機制聚合異質(zhì)節(jié)點的鄰域信息，并通過全連接網(wǎng)絡(luò)將異質(zhì)鄰居特征與中心節(jié)點屬性相融合，以此來表征知識點。TSKT［27］使用GAT網(wǎng)絡(luò)，結(jié)合了時間信息和空間信息來表征知識點。GKT模型［28］使用圖結(jié)構(gòu)表示知識點，并利用神經(jīng)網(wǎng)絡(luò)聚合和更新操作建模知識點的表示，GIKT［29］、GKT-FM［30］使用了同樣的方法。DKTMR［31］通過圖生成對抗網(wǎng)絡(luò)實現(xiàn)了對知識點的多關(guān)系表征。GAKT［32］建立題目與知識點組成的二分圖，使用GAT更新知識點的表示。DGEKT［33］利用超圖和有向圖的雙圖結(jié)構(gòu)捕獲題目與知識點的關(guān)聯(lián)關(guān)系，增強題目與知識點的表示。這類研究利用圖神經(jīng)網(wǎng)絡(luò)，使用鄰域信息增強當前知識點的表示，通過匯聚相關(guān)知識點得到當前題目的增強表示，從而建模作答結(jié)果在當前題目條件下的概率分布。

上述研究從多種角度建模給定題目條件下的作答結(jié)果概率分布，取得了較好的結(jié)果。然而它們受限于監(jiān)督學習范式，訓練得到的條件概率已固定，無法根據(jù)實時交互進行自適應調(diào)整。為了解決這一問題，提出模型利用強化學習框架，增強建模的條件概率分布的自適應性。

2 知識點表征強化的知識追蹤模型

2.1 模型提出的思想

當前研究一般默認知識追蹤模型與智能導學系統(tǒng)互相交互，智能導學系統(tǒng)為知識追蹤模型提供諸如當前時刻練習題目、歷史練習題目及作答結(jié)果等各類數(shù)據(jù)。知識追蹤模型基于這些數(shù)據(jù)，使用多種方法增強知識點的表示，從而建模作答結(jié)果在題目信息約束下的概率分布，已取得了較好的結(jié)果。然而，在與智能導學系統(tǒng)的交互方面，現(xiàn)存模型在自適應題目數(shù)據(jù)分布的動態(tài)變化方面仍然存在較大挑戰(zhàn)。具體地，目前的知識追蹤模型在完成訓練后就建模了靜態(tài)的分布，當題目信息發(fā)生動態(tài)變化時，模型的預測效果必然下降。

為了使知識追蹤模型具備建模動態(tài)概率分布的能力，利用強化學習范式，假設(shè)智能導學系統(tǒng)為知識追蹤模型所在的環(huán)境，智能導學系統(tǒng)提供的各類數(shù)據(jù)為狀態(tài)，提出的知識點表征強化的知識追蹤模型KT-RCR為智能體， KT-RCR給出的動作是預測學習者會作答正確還是錯誤。智能導學系統(tǒng)根據(jù)KT-RCR的動作對其進行獎勵，驅(qū)動KT-RCR調(diào)整動作以預測得更加準確，得到更大的獎勵。

2.2 問題的提出

智能導學系統(tǒng)為知識追蹤模型提供學習者練習的題目，具體定義如下：

智能導學系統(tǒng)根據(jù)KT-RCR的預測結(jié)果與學習者實際答題結(jié)果的一致性給出獎勵，兩者相同時獎勵值為1，兩者不同時獎勵值為0。具體地，t時刻的獎勵值記為Rt，如下：

其中：yt是t時刻真實的學習者作答結(jié)果，yt∈{0，1}，0表示學習者作答錯誤，1表示學習者作答正確。設(shè)置折扣系數(shù)γ∈［0，1］。在折扣系數(shù)γ作用下，從當前時刻開始，未來折扣獎勵之和，記為折扣回報Gt，如下：

其中：Gt表示從t時刻開始的未來折扣獎勵之和。

策略網(wǎng)絡(luò)記為π（a|s;θ），在已知當前狀態(tài)st條件下，根據(jù)時間差分誤差δt，優(yōu)化知識追蹤模型的動作輸出，使得預測的學習者動作趨向環(huán)境給出的獎勵最大值。

本文模型的目標是，策略網(wǎng)絡(luò)基于狀態(tài)st作出動作，即預測學習者會作答正確或錯誤；得到智能導學系統(tǒng)的獎勵Rt和下一時刻的狀態(tài)st+1；根據(jù)價值網(wǎng)絡(luò)計算出TD誤差δt；策略網(wǎng)絡(luò)根據(jù)TD誤差判斷動作的優(yōu)劣并優(yōu)化參數(shù)改進自身，使預測的學習者作答表現(xiàn)與真實的學習者表現(xiàn)一致性更好，即下一時刻預測的學習者作答表現(xiàn)得到的獎勵更大，如下：

θt+1=θt－β×δt×Δθlnπ（at|st;θt）（4）

其中：β為策略網(wǎng)絡(luò)的學習率；π（at|st;θt）也可視為知識追蹤模型建模給出當前題目條件下學習者作答結(jié)果的概率分布；θt、θt+1則表示相鄰時間步上述分布的動態(tài)變化。這也是提出的模型自適應建模條件概率分布動態(tài)變化的過程。

2.3 模型架構(gòu)

模型框架如圖1所示。

提出的模型主要包括三個網(wǎng)絡(luò)，協(xié)同完成與智能導學系統(tǒng)的交互：a）基礎(chǔ)網(wǎng)絡(luò)，由策略網(wǎng)絡(luò)與價值網(wǎng)絡(luò)共享，該網(wǎng)絡(luò)在建立學習者知識點表示圖的基礎(chǔ)上，接收智能導學系統(tǒng)給出的狀態(tài)信息st=qt，建模狀態(tài)對知識點表示圖的作用和影響，在知識點表示圖上經(jīng)過信息傳遞、信息聚合、迭代傳播和圖嵌入等步驟，得到學習者的知識表示嵌入向量；b）價值網(wǎng)絡(luò)，以知識點表示圖的嵌入向量和環(huán)境給出的當前獎勵Rt為輸入，使該網(wǎng)絡(luò)獲得的狀態(tài)值逐步收斂于環(huán)境給出的獎勵，并向策略網(wǎng)絡(luò)輸出狀態(tài)價值的TD誤差；c）策略網(wǎng)絡(luò)，以知識表示圖的嵌入向量和當前狀態(tài)價值的TD誤差為輸入，經(jīng)過全連接和softmax激活函數(shù)，輸出知識追蹤模型的動作概率。

2.4 基礎(chǔ)網(wǎng)絡(luò)

2.4.1 知識點表示圖

2.4.2 知識點表示圖的嵌入

a）題目增強。學習者練習題目qt的過程中，其知識點表示圖會受到題目的作用發(fā)生演化。使用注意力機制建模上述過程，具體如下：

其中：Euclid Math OneNApz是目標知識點z的鄰居知識點集合；h（l）z′是知識點z′在第l層的表示；h（l）z是目標知識點z在第l層的表示；MSG（·，·）是信息傳遞函數(shù)，這里可以選擇MLP等。

c）信息聚合。目標知識點z聚合表示如下：

h（l+1）z=AGG（h（l）z，m（l+1）z）（8）

其中：m（l+1）z是目標知識點z的鄰居傳遞來的信息；h（l）z是目標知識點z本身的表示；h（l+1）z是知識點z在l+1層的表示；AGG（·，·）可以選擇均值、求和等函數(shù)。

d）迭代傳播。L輪迭代傳播后，最終目標知識點z的表示經(jīng)過一個池化函數(shù)R0得到蘊涵子圖的表示：

hz=R0（{h（L）z|z∈C}）（9）

其中：h（L）z為目標知識點z在最終層的表示；R0是readout函數(shù)，可以選擇均值、求和等函數(shù)。

e）圖嵌入。經(jīng)過一個讀出函數(shù)匯聚全體知識點表示，如下：

2.5 價值網(wǎng)絡(luò)

其中：MLP1（·）代表全連接層。

2.6 策略網(wǎng)絡(luò)

2.7 模型訓練算法

算法1 KT-RCR模型訓練算法

3 實驗結(jié)果與分析

為了全面評估KT-RCR的表現(xiàn)，選取DKT［7］、DKVMN［8］、SAINT［21］、GKT［28］和DKTMR［31］五個基線模型，在三個真實數(shù)據(jù)集上進行實驗。本章首先介紹實驗步驟，隨后將KT-RCR與基線模型在AUC和ACC等評價指標上進行對比。此外，本文還進行了表示質(zhì)量、消融等實驗，最后展示了提出的模型在真實教學環(huán)境中的應用效果。

3.1 實驗步驟

a）基礎(chǔ)網(wǎng)絡(luò)嵌入知識點表示圖。根據(jù)智能導學系統(tǒng)當前的狀態(tài)st=qt，對知識點表示圖進行增強表示，經(jīng)過信息的傳遞、聚合、傳播、嵌入得到知識點表示圖的向量表示。具體實驗過程參見2.4節(jié)。

d）迭代循環(huán)。將st+1=qt+1輸入步驟a）的基礎(chǔ)網(wǎng)絡(luò)開始下一輪強化學習過程。

3.2 數(shù)據(jù)集

為了評估KT-RCR的效果，選取了三個在知識追蹤領(lǐng)域中廣泛使用的數(shù)據(jù)集進行實驗，數(shù)據(jù)集的基本信息如下：

a）ASSISTments2009 （ASSIST09）［34］。該數(shù)據(jù)集是在線教育平臺ASSISTments于2009年到2010年期間收集的。最初因其存在重復數(shù)據(jù)項的問題，在進行了若干清理工作后發(fā)布了更新版本，本實驗使用更新版數(shù)據(jù)集。

b）Junyi Academy （Junyi）［35］。該數(shù)據(jù)集是2015年Junyi Academy的學習行為交互日志，包含了25萬名學習者的超過2 500萬交互記錄。

c）EdNet （EdNet）［36］。該數(shù)據(jù)集是Santa人工智能輔導服務收集的大型學生行為數(shù)據(jù)集，包括約78萬名以上的學習者，1.3億次以上的學習交互數(shù)據(jù)，是迄今為止面向公眾發(fā)布的最大的學習行為數(shù)據(jù)集。

3.3 基線模型

本文選取了五個基線模型與KT-RCR進行比較，其基本信息及選擇原因如下：

a）DKT［7］。該模型是深度模型在知識追蹤領(lǐng)域的首次應用，它使用只包含一個知識點的題目作為輸入，利用循環(huán)神經(jīng)網(wǎng)絡(luò)得到題目的表示向量。該向量蘊涵了歷史所有題目的信息，但受限于循環(huán)神經(jīng)網(wǎng)絡(luò)建模長期依賴不足的問題，題目的表示向量實際僅蘊涵了歷史題目中較為接近的若干題目的信息。

b）DKVMN［8］。該模型通過鍵值存儲機制，在知識點的全局范圍內(nèi)更新學習者的知識點表示，目標知識點可以融入全局所有知識點的信息。

c）SAINT［21］。使用Transformer架構(gòu)，將題目信息作為編碼器的輸入，將作答結(jié)果作為解碼器的輸出，能夠更好地建模題目與作答結(jié)果的關(guān)系。

d）GKT［28］。該模型使用圖神經(jīng)網(wǎng)絡(luò)建模知識點之間的結(jié)構(gòu)關(guān)系，經(jīng)過聚合更新等操作迭代表示目標知識點。

e）DKTMR［31］。該模型在GKT基礎(chǔ)上更進一步，建模知識點之間的多種關(guān)系及其各自對應的知識點關(guān)系圖，融合多個知識點關(guān)系圖得到目標知識點的表示。

上述模型中，DKT、DKVMN是使用循環(huán)網(wǎng)絡(luò)的代表性工作，SAINT是使用注意力機制的代表性工作，GKT和DKTMR是使用圖神經(jīng)網(wǎng)絡(luò)的代表性工作。

3.4 性能對比實驗

為了驗證KT-RCR的有效性，與DKT、DKVMN、SAINT、GKT、DKTMR進行AUC和ACC的值對比。其中，AUC指標通過計算ROC（receiver operating characteristic）曲線下面的面積來評估模型的性能。它代表了模型在預測過程中，將真實答對（預測答對且實際答對）的樣本排在虛假答對（預測答對但實際答錯）樣本之前的概率。AUC的取值在［0.5， 1］，其中0.5表示隨機猜測的性能，而1表示預測正確。AUC值越大，說明模型的預測性能越好，反之則預測性能越差。ACC指標用于衡量模型預測正確的樣本占比。它計算的是模型預測正確的樣本數(shù)（包括預測答對、實際答對與預測答錯、實際答錯的樣本數(shù)之和）占總樣本數(shù)的比值。準確率的值域在［0， 1］，其中0表示所有預測都錯誤，而1表示所有預測都正確。ACC的值越大，說明模型預測正確的概率越高，性能越好。通過這兩個評價指標的綜合考量，本文能夠全面評估KT-RCR在預測任務上的性能，并與基線模型進行對比分析，從而驗證KT-RCR的有效性。

圖2是KT-RCR與五個基線模型在三個真實數(shù)據(jù)集上的AUC結(jié)果對比。其中，橫坐標為實驗選用的數(shù)據(jù)集，縱坐標為對應的AUC的取值。

圖3是在三個數(shù)據(jù)集上，KT-RCR與五個基線模型預測結(jié)果的ACC指標對比。其中，橫坐標為實驗選用的數(shù)據(jù)集，縱坐標為對應的ACC的取值。

根據(jù)圖2展示的AUC實驗結(jié)果，可以觀察到KT-RCR在三個數(shù)據(jù)集上的AUC均表現(xiàn)出優(yōu)勢。與第二名DKTMR相比，KT-RCR在三個數(shù)據(jù)集中分別提高了6.8%、0.9%和0.6%。類似地，圖3也展示出KT-RCR較好的ACC表現(xiàn)，相較于第二名DKTMR，在三個數(shù)據(jù)集中分別提高了11.3%、2.3%和3.8%。

這一結(jié)果的可能原因分析如下：DKTMR在計算知識點表示時，通過多種類型的知識點關(guān)系從各個角度匯聚了更加充分的鄰域表示，在一定程度上使目標知識點的表示更為充分，而GKT僅建模了知識點之間的單一關(guān)系，所以在表現(xiàn)上稍遜一籌。DKT、DKVMN、SAINT從全局范圍內(nèi)匯聚信息，表面上看似乎可以聚合更多信息，然而由于長尾效應，絕大部分知識點與目標知識點之間的相似度不高，聚合它們的信息會對目標知識點的表示形成干擾?；谏鲜鼍酆先趾袜徲蚍秶难芯浚疚腒T-RCR更進一步，使用強化學習范式，使得提出的模型可以動態(tài)建模題目數(shù)據(jù)分布的變化，得到更好的預測結(jié)果，證實了提出模型的有效性。

3.5 表示質(zhì)量對比實驗

知識點表示圖的嵌入向量蘊涵了學習者的知識狀態(tài)，該向量對學習者知識狀態(tài)表示的質(zhì)量高低可以使用其與實際作答題目情況之間的一致性（degree of agreement， DOA）來衡量，其定義如下：

從表1可以看出， KT-RCR在三個數(shù)據(jù)集上的表示質(zhì)量均取得了較好值，這表明了KT-RCR使用強化學習范式動態(tài)建模的學習者知識點表示圖向量能夠更真實和準確地反映學習者的知識掌握情況；其次，DKTMR的表現(xiàn)僅次于KT-RCR，分析原因可能是DKTMR在表示目標知識點時建模了知識點之間的多種關(guān)系，對目標知識點的表示更加充分。

3.6 消融實驗

本研究假設(shè)為：使用強化學習范式能夠動態(tài)建模題目數(shù)據(jù)的分布，提升知識追蹤模型預測性能。為了驗證該假設(shè)的準確性，以數(shù)據(jù)集ASSIST09為例，設(shè)計了消融實驗，對比是否使用強化學習框架對知識追蹤模型預測結(jié)果的影響。首先，在提出模型中刪除智能導學系統(tǒng)作為環(huán)境的反饋模塊和價值網(wǎng)絡(luò)，只使用基礎(chǔ)網(wǎng)絡(luò)和策略網(wǎng)絡(luò)，使用監(jiān)督學習范式訓練上述基礎(chǔ)和策略兩個網(wǎng)絡(luò)，把該模型記為KT-CR。與提出的強化學習框架下的KT-RCR作對比，以AUC、ACC和DOA為評價指標，在數(shù)據(jù)集ASSIST09上進行相關(guān)實驗，結(jié)果如表2所示。

從表2可以看出，在ASSIST09數(shù)據(jù)集中，KT-RCR的AUC、ACC和DOA均取得了最好的結(jié)果，并且未使用強化學習的KT-CR性能數(shù)據(jù)下降幅度較大，其中AUC和ACC數(shù)據(jù)與GKT相當。分析其原因可能是：KT-CR對目標知識點的表征方法與GKT區(qū)別不大，都是經(jīng)過若干圖神經(jīng)網(wǎng)絡(luò)的缺省操作獲取更新目標知識點。另一方面，KT-RCR是對KT-CR增強了強化學習范式的模型，其性能就得到了較大幅度的提升，也可以說明強化學習框架對知識追蹤模型提高預測性能的有效性。

3.7 模型的應用

為了驗證提出模型在實際教學場景中的有效性，將其整合融入到本文第一作者指導研究生團隊開發(fā)的學習數(shù)據(jù)與認知模型雙驅(qū)的跨模態(tài)多尺度自適應智能導學環(huán)境（CMA-ITE）（圖4）。該環(huán)境集成了包括本文選擇的基線模型在內(nèi)的多個知識追蹤代表模型。通過與KT-RCR的對比，能夠全面評估該模型在引入強化學習框架方面的優(yōu)勢。

具體完成本次實驗的數(shù)據(jù)包括2022—2023學年第二學期本文第一作者講授的《人工智能》課程中76名學生的學習行為數(shù)據(jù)、《機器學習》課程中63名學生的學習行為數(shù)據(jù)，以及2023—2024第二學期講授的《人工智能》課程中76名學生的學習行為數(shù)據(jù)，對隱私信息進行脫敏處理，保存若干次作業(yè)的答題記錄。具體實驗步驟參見3.1節(jié)，再將數(shù)據(jù)的80%用作訓練集，20%用作測試集，計算五個基線模型和提出模型的平均預測準確率，結(jié)果如表3所示。

從表3可以看出，整體的實際應用結(jié)果大致可分為兩類，GKT、DKTMR、KT-RCR使用鄰域知識點建模目標知識點作用的模型，總體上表現(xiàn)優(yōu)于DKT、DKVMN、SAINT這一類使用全局知識點建模目標知識點表征的模型，其ACC值最少提高了4.6%。進一步地，相較于只使用圖神經(jīng)網(wǎng)絡(luò)建模知識點關(guān)系的模型，KT-RCR使用強化學習范式，更加準確地刻畫了題目數(shù)據(jù)的動態(tài)分布，得到了更好的預測結(jié)果。實驗結(jié)果表明，提出模型ACC值比GKT和DKTMR分別提高了5.9%和2.6%。上述實際環(huán)境中的對比結(jié)果能夠證明KT-RCR對實際學習情況的建模更加準確，通過實際學習環(huán)境驗證了該模型的有效性。

綜上所述，通過在CMA-ITE中的應用，KT-RCR不僅提升了對學習者學習表現(xiàn)預測的準確性，還展示了其在實際教學環(huán)境中的有效性。這一成果將強化學習范式引入知識追蹤領(lǐng)域，也為智能導學系統(tǒng)的開發(fā)提供了新的思路。

3.8 KT-RCR與智能導學系統(tǒng)交互過程

為了驗證KT-RCR在與CMA-ITE交互過程中的效果，隨機記錄了KT-RCR與CMA-ITE交互時連續(xù)10個時間步的學習數(shù)據(jù)。在每個時間步上，記錄以下信息：基礎(chǔ)網(wǎng)絡(luò)輸出、價值網(wǎng)絡(luò)輸出、策略網(wǎng)絡(luò)輸出值、學習者作答結(jié)果、獎勵。只有當策略網(wǎng)絡(luò)輸出值與學習者作答結(jié)果輸出值一致時，獲得獎勵（Rt=1），否則獲得獎勵（Rt=0）。

通過分析表4，可以看出KT-RCR在交互過程中對基礎(chǔ)網(wǎng)絡(luò)輸出的動態(tài)調(diào)整，這些輸出值實際上反映了學習者的知識狀態(tài)。在時間步1，基礎(chǔ)網(wǎng)絡(luò)輸出為0.85，價值網(wǎng)絡(luò)輸出為0.13，策略網(wǎng)絡(luò)預測學習者答題結(jié)果為“錯誤”（輸出值為0），實際結(jié)果也是“錯誤”，因此模型獲得了獎勵（Rt=1）。進入時間步2，基礎(chǔ)網(wǎng)絡(luò)輸出下降至0.57，價值網(wǎng)絡(luò)輸出為0.74，策略網(wǎng)絡(luò)預測“錯誤”（輸出值為0），但實際結(jié)果為“正確”，因此模型未獲得獎勵（Rt=0）。在時間步3，基礎(chǔ)網(wǎng)絡(luò)輸出提升至0.83，價值網(wǎng)絡(luò)輸出為0.09，策略網(wǎng)絡(luò)正確預測學習者答題結(jié)果為“正確”（輸出值為1），實際結(jié)果也為“正確”，模型獲得獎勵（Rt=1）。其他時間步中，基礎(chǔ)網(wǎng)絡(luò)輸出值有所波動，策略網(wǎng)絡(luò)對學習者答題結(jié)果的預測與實際結(jié)果大多一致，模型相應獲得或未獲得獎勵。

這一系列變化表明，KT-RCR會根據(jù)CMA-ITE提供的獎勵，對價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)進行不斷調(diào)整，從而作用到學習者的知識狀態(tài)。具體地，CMA-ITE提供的獎勵直接影響價值網(wǎng)絡(luò)的輸出，通過計算TD誤差為策略網(wǎng)絡(luò)提供反饋：當TD誤差較大時（如時間步2的0.74），說明預測結(jié)果與實際結(jié)果之間存在較大偏差，此時策略網(wǎng)絡(luò)會進行對應的調(diào)整；而當TD誤差較小時（如時間步3的0.09和時間步10的0.05），說明預測結(jié)果較為準確，策略網(wǎng)絡(luò)則進行微調(diào)。這表明KT-RCR能夠與CMA-ITE進行有效的交互，并根據(jù)CMA-ITE給出的反饋進行調(diào)整，從而不斷優(yōu)化模型性能。

4 結(jié)束語

本文利用強化學習框架，提出了一個知識點表征強化的知識追蹤模型KT-RCR，能夠根據(jù)智能導學系統(tǒng)給出的題目，即時建模作答結(jié)果的動態(tài)分布，并將預測的學習者的未來表現(xiàn)作為動作反饋給智能導學系統(tǒng)，再得到系統(tǒng)給出的獎勵，從而優(yōu)化下一時間步的動作。KT-RCR包括基礎(chǔ)網(wǎng)絡(luò)、價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)三個核心網(wǎng)絡(luò)。其中基礎(chǔ)網(wǎng)絡(luò)先將學習者的知識點表示圖與題目融合，在以目標知識點鄰域范圍內(nèi)的知識點為對象，更新目標知識點的表示，最終得到知識點表示圖的嵌入向量；價值網(wǎng)絡(luò)輸入智能導學系統(tǒng)給出的題目，以基礎(chǔ)網(wǎng)絡(luò)得到的知識點表示圖向量為基礎(chǔ)，判斷題目的價值；策略網(wǎng)絡(luò)根據(jù)智能導學系統(tǒng)給出的題目，與借助價值網(wǎng)絡(luò)得到的TD誤差，預測學習者可能的動作。在實驗方面，與五個基線模型在三個真實數(shù)據(jù)集上進行對比，結(jié)果表明了KT-RCR的有效性和出色性能。同時使用消融實驗驗證了強化學習框架的有效性，還展示了提出模型在實際教學數(shù)據(jù)中的優(yōu)越表現(xiàn)。未來將進一步深入研究使用強化學習范式在知識追蹤模型研究方面的優(yōu)勢。

參考文獻：

［1］王宇，朱夢霞，楊尚輝，等. 深度知識追蹤模型綜述和性能比較［J］. 軟件學報， 2023， 34（3）： 1365-1395. （Wang Yu， Zhu Mengxia， Yang Shanghui， et al. Review and performance comparison of deep knowledge tracing models［J］. Journal of Software， 2023， 34（3）： 1365-1395.）

［2］劉鐵園，陳威，常亮，等. 基于深度學習的知識追蹤研究進展［J］. 計算機研究與發(fā)展， 2021， 59（1）： 81-104. （Liu Tieyuan， Chen Wei， Chang Liang， et al. Research advances in the knowledge tracing based on deep learning［J］. Journal of Computer Research and Development， 2021， 59（1）： 81-104.）

［3］陳之彧，單志龍. 知識追蹤研究進展［J］. 計算機科學， 2022， 49（10）： 83-95. （Chen Zhiyu， Shan Zhilong. Research advances in knowledge tracing［J］. Computer Science， 2022， 49（10）： 83-95.）

［4］梁琨，任依夢，尚余虎，等. 深度學習驅(qū)動的知識追蹤研究進展綜述［J］. 計算機工程與應用， 2021， 57（21）： 41-58. （Liang Kun， Ren Yimeng， Shang Yuhu， et al. Review of knowledge tracing preprocessing based on deep learning［J］. Computer Engineering and Applications， 2021， 57（21）： 41-58.）

［5］Abdelrahman G， Wang Qing， Nunes B. Knowledge tracing： a survey［J］. ACM Computing Surveys， 2023， 55（11）： 1-37.

［6］Shen Shuanghong， Liu Qi， Huang Zhenya， et al. A survey of know-ledge tracing： models， variants， and applications ［J］. IEEE Trans on Learning Technologies， 2024， 17： 1898-1919.

［7］Piech C， Bassen J， Huang J， et al. Deep knowledge tracing［C］// Proc of the 29th Annual Conference on Neural Information Processing Systems. Cambridge， MA： MIT Press， 2015： 505-513.

［8］Zhang Jiani， Shi Xingjian， King I， et al. Dynamic key-value memory networks for knowledge tracing［C］// Proc of the 26th International Conference on World Wide Web. New York： ACM Press， 2017： 765-774.

［9］李浩君，方璇，戴海容. 基于自注意力機制和雙向GRU神經(jīng)網(wǎng)絡(luò)的深度知識追蹤優(yōu)化模型［J］. 計算機應用研究， 2022， 39（3）： 732-738. （Li Haojun， Fang Xuan， Dai Hairong. Deep know-ledge tracking optimization model based on self-attention mechanism and bidirectional GRU neural network［J］. Application Research of Computers， 2022， 39（3）： 732-738.）

［10］王士進，吳金澤，張浩天，等. 可信的端到端深度學生知識畫像建模方法［J］. 計算機研究與發(fā)展， 2023， 60（8）： 1822-1833. （Wang Shijin， Wu Jinze， Zhang Haotian， et al. Trustworthy end-to-end deep student knowledge portrait modelling method［J］. Journal of Computer Research and Development， 2023， 60（8）： 1822-1833.）

［11］周東岱，董曉曉，顧恒年，等. 基于雙流結(jié)構(gòu)和多知識點映射結(jié)構(gòu)改進的深度知識追蹤模型［J］. 現(xiàn)代教育技術(shù)， 2022， 32（8）： 111-118. （Zhou Dongdai， Dong Xiaoxiao， Gu Hengnian， et al. An improved deep knowledge tracing model based on two-stream structure and multi-knowledge point mapping structure［J］. Modern Educational Technology， 2022， 32（8）： 111-118.）

［12］王文濤，馬慧芳，舒躍育，等. 基于上下文表示的知識追蹤方法［J］. 計算機工程與科學， 2022， 44（9）： 1693-1701. （Wang Wentao， Ma Huifang， Shu Yueyu， et al. Knowledge tracing based on contextualized representation［J］. Computer Engineering amp; Science， 2022， 44（9）： 1693-1701.）

［13］Liu Qi， Huang Zhenya， Yin Yu， et al. EKT： exercise-aware know-ledge tracing for student performance prediction［J］. IEEE Trans on Knowledge and Data Engineering， 2019， 33（1）： 100-115.

［14］李曉光，魏思齊，張昕，等. LFKT：學習與遺忘融合的深度知識追蹤模型［J］. 軟件學報， 2021， 32（3）： 818-830. （Li Xiao-guang， Wei Siqi， Zhang Xin， et al. LFKT： deep knowledge tracing model with learning and forgetting behavior merging［J］. Journal of Software， 2021， 32（3）： 818-830.）

［15］趙琰，馬慧芳，王文濤，等. 可靠響應表示增強的知識追蹤方法［J］. 計算機工程與科學， 2024， 46（3）： 535-544. （Zhao Yan， Ma Huifang， Wang Wentao， et al. Reliable response representation enhanced knowledge tracing method［J］. Computer Engineering amp; Science， 2024， 46（3）： 535-544.）

［16］陳成，董永權(quán)，賈瑞，等. FKA-DKT：融合知識與能力的深度知識追蹤模型［J］. 南京師大學報：自然科學版， 2024， 47（2）： 129-139. （Chen Cheng， Dong Yongquan， Jia Rui， et al. FKA-DKT： deep knowledge tracing model based on the fusion of knowledge and ability［J］. Journal of Nanjing University： Natural Science， 2024， 47（2）： 129-139.）

［17］Pandey S， Karypis G. A self-attentive model for knowledge tracing［C］// Proc of the 12th International Conference on Educational Data Mining. ［S.l.］： International Educational Data Mining Society， 2019： 384-389.

［18］Huang Changqin， Wei Hangjie， Huang Qionghao， et al. Learning consistent representations with temporal and causal enhancement for knowledge tracing［J］. Expert Systems with Applications， 2024， 245： 123128.

［19］賈瑞，董永權(quán)，劉源，等. 知識點相關(guān)性與遺忘程度融合的深度知識追蹤模型［J/OL］. 計算機研究與發(fā)展. （2024-02-19）. http：//kns.cnki.net/kcms/detail/11.1777.TP.20240219.1356.018.html. （Jia Rui， Dong Yongquan， Liu Yuan， et al. Deep knowledge tracing model with the integration of skills relation and forgetting degree［J/OL］. Journal of Computer Research and Development. （2024-02-19）. http：//kns.cnki.net/kcms/detail/11.1777.TP.20240219.1356.018.html.）

［20］琚生根，康睿，趙容梅，等. 多知識點融合嵌入的深度知識追蹤模型［J］. 軟件學報， 2022， 34（11）： 5126-5142. （Ju Shenggen， Kang Rui， Zhao Rongmei， et al. Deep knowledge tracing model based on embedding of fused multiple concepts［J］. Journal of Software， 2022， 34（11）： 5126-5142.）

［21］Choi Y， Lee Y， Cho J， et al. Towards an appropriate query， key， and value computation for knowledge tracing ［C］// Proc of the 7th ACM Conference on Learning@ Scale. New York： ACM Press， 2020： 341-344.

［22］許智宏，張惠斌，董永峰，等. 問題特征增強的知識追蹤模型［J］. 計算機科學與探索， 2024， 18（9）： 2466-2475. （Xu Zhihong， Zhang Huibin， Dong Yongfeng， et al. Question feature enhanced knowledge tracing model［J］. Journal of Frontiers of Computer Science and Technology， 2024， 18（9）： 2466-2475.）

［23］Song Xiangyu， Li Jianxin， Lei Qi， et al. Bi-CLKT： bi-graph contrastive learning based knowledge tracing［J］. Knowledge-Based Systems， 2022， 241： 108274.

［24］Abdelrahman G， Wang Qing. Deep graph memory networks for forgetting-robust knowledge tracing［J］. IEEE Trans on Knowledge and Data Engineering， 2023， 35（8）： 7844-7855.

［25］董永峰，黃港，薛婉若，等. 融合IRT的圖注意力深度知識追蹤模型［J］. 計算機科學， 2023， 50（3）： 173-180. （Dong Yongfeng， Huang Gang， Xue Wanruo， et al. Graph attention deep knowledge tracing model integrated with IRT［J］. Computer Science， 2023， 50（3）： 173-180.）

［26］閆秋艷，司雨晴，袁冠，等. 基于學生-問題關(guān)聯(lián)的異構(gòu)圖知識追蹤模型［J］. 電子學報， 2023， 51（12）： 3549-3556. （Yan Qiu-yan， Si Yuqing， Yuan Guan， et al. Student-problem association based heterogeneous graph knowledge tracing model［J］. Acta Electronica Sinica， 2023， 51（12）： 3549-3556.）

［27］張凱，付姿姿，覃正楚. 時空相關(guān)性融合表征的知識追蹤模型［J］. 計算機應用研究， 2024， 41（5）： 1381-1387. （Zhang Kai， Fu Zizi， Qin Zhengchu. Knowledge tracing model of temporal and spatial correlation fusion［J］. Application Research of Compu-ters， 2024， 41（5）： 1381-1387.）

［28］Nakagawa H， Iwasawa Y， Matsuo Y. Graph-based knowledge tra-cing： modeling student proficiency using graph neural network［C］// Proc of IEEE/WIC/ACM International Conference on Web Intelligence. New York： ACM Press， 2019： 156-163.

［29］Yang Yang， Shen Jian， Qu Yanru， et al. GIKT： a graph-based interaction model for knowledge tracing［C］// Proc of European Confe-rence on Machine Learning and Knowledge Discovery in Database. Cham： Spring， 2021： 299-315.

［30］鄭浩東，馬華，謝穎超，等. 融合遺忘因素與記憶門的圖神經(jīng)網(wǎng)絡(luò)知識追蹤模型［J］. 計算機應用， 2023， 43（9）： 2747-2752. （Zheng Haodong， Ma Hua， Xie Yingchao， et al. Knowledge tracing model based on graph neural network blending with forgetting factors and memory gate［J］. Journal of Computer Applications， 2023， 43（9）： 2747-2752.）

［31］Duan Zhiyi， Dong Xiaoxiao， Gu Hengnian， et al. Towards more accurate and interpretable model： fusing multiple knowledge relations into deep knowledge tracing［J］. Expert Systems with Applications， 2024， 243： 122573.

［32］Qin Changjiu， Hu Wenxin， Du Fangrui， et al. Graph attention-enhanced knowledge tracing： unveiling exercise variability and long-term dependencies［C］// Proc of the 12th International Conference on Information and Education Technology. Piscataway， NJ： IEEE Press， 2024： 482-488.

［33］Cui Chaoran， Yao Yumo， Zhang Chunyun， et al. DGEKT： a dual graph ensemble learning method for knowledge tracing［J］. ACM Trans on Information Systems， 2024， 42（3）： 1-24.

［34］Feng Mingyu， Heffernan N， Koedinger K. Addressing the assessment challenge with an online system that tutors as it assesses［J］. User Modeling and User-Adapted Interaction， 2009， 19（3）： 243-266.

［35］Chang H S， Hsu H J， Chen KT. Modeling exercise relationship sin e-learning： a unified approach［C］// Proc of the 8th International Conference on Educational Data Mining. 2015： 532-535.

［36］Choi Y， Lee Y， Shin D， et al. EdNet： a large-scale hierarchical dataset in education［C］// Proc of the 21st International Conference on Artificial Intelligence in Education. Cham： Springer， 2020： 69-73.

計算機應用研究2025年1期

計算機應用研究的其它文章: 小數(shù)據(jù)集上基于語義的局部注意視覺Transformer方法; 一種基于旋轉(zhuǎn)-平移解耦優(yōu)化的在線稠密重建算法; 單目RGB穿衣人體的手部精細化重建; 基于視角統(tǒng)一的手姿態(tài)估計優(yōu)化方法; 基于互相關(guān)和旋轉(zhuǎn)約束的視覺慣性里程計在線時間校準算法; 適用于智能醫(yī)療的匿名基于身份的認證密鑰協(xié)商協(xié)議

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

知識點表征強化的知識追蹤模型