李建偉 武佳惠 姬艷麗
面向自適應(yīng)學(xué)習(xí)的個性化學(xué)習(xí)路徑推薦*
李建偉1,2武佳惠1姬艷麗1
(1.北京郵電大學(xué) 網(wǎng)絡(luò)教育學(xué)院,北京 100088;2.北京郵電大學(xué) 網(wǎng)絡(luò)系統(tǒng)與網(wǎng)絡(luò)文化北京市重點(diǎn)實(shí)驗(yàn)室,北京 100876)
根據(jù)學(xué)習(xí)者的學(xué)習(xí)記錄和學(xué)習(xí)任務(wù)進(jìn)行學(xué)習(xí)路徑推薦,是實(shí)現(xiàn)自適應(yīng)學(xué)習(xí)的關(guān)鍵技術(shù)。文章首先將個性化學(xué)習(xí)路徑推薦模型歸為八類,并對每類模型進(jìn)行詳細(xì)分析,總結(jié)出這些模型普遍存在的問題,認(rèn)為這些問題嚴(yán)重影響了自適應(yīng)個性化學(xué)習(xí)的應(yīng)用效果。之后,文章提出一種從課程、學(xué)習(xí)任務(wù)兩個維度進(jìn)行學(xué)習(xí)路徑推薦的個性化學(xué)習(xí)路徑推薦模型,其融合了知識圖譜、深度知識跟蹤和強(qiáng)化學(xué)習(xí)三種智能技術(shù),能有效解決上述問題。最后,文章通過對學(xué)習(xí)任務(wù)內(nèi)學(xué)習(xí)路徑推薦模型進(jìn)行對比實(shí)驗(yàn)及其相關(guān)數(shù)據(jù)分析,發(fā)現(xiàn)該模型能有效提高學(xué)習(xí)效果和學(xué)習(xí)效率,其推薦性能也優(yōu)于目前主流的推薦模型。文章的研究成果對自適應(yīng)學(xué)習(xí)的實(shí)現(xiàn)具有重要應(yīng)用價值,并為教育領(lǐng)域個性化學(xué)習(xí)路徑推薦的理論與技術(shù)研究提供了重要參考。
自適應(yīng)學(xué)習(xí);學(xué)習(xí)路徑推薦;知識圖譜;深度知識跟蹤;強(qiáng)化學(xué)習(xí)
2018年,教育部印發(fā)《教育信息化2.0行動計劃》,強(qiáng)調(diào)大力推進(jìn)智能教育,開展以學(xué)習(xí)者為中心的智能化教學(xué)支持環(huán)境建設(shè)[1]。2021年,《教育部等六部門關(guān)于推進(jìn)教育新型基礎(chǔ)設(shè)施建設(shè)構(gòu)建高質(zhì)量教育支撐體系的指導(dǎo)意見》發(fā)布,提出開發(fā)基于大數(shù)據(jù)的智能診斷、資源推送、學(xué)習(xí)輔導(dǎo)等應(yīng)用,促進(jìn)學(xué)生個性化發(fā)展[2]。從近年來國家發(fā)布的一系列教育信息化政策可知,“人工智能+教育”已成為我國教育創(chuàng)新發(fā)展的重要戰(zhàn)略,而將人工智能技術(shù)應(yīng)用于教育的自適應(yīng)技術(shù)業(yè)已成為研究的熱點(diǎn)。在2015~2020年間發(fā)布的《地平線報告》中,自適應(yīng)技術(shù)是出現(xiàn)頻率最高的關(guān)鍵性技術(shù)[3]。自適應(yīng)技術(shù)支持的自適應(yīng)學(xué)習(xí)是針對學(xué)生學(xué)習(xí)過程中產(chǎn)生的知識狀態(tài)、互動參與、練習(xí)交互等數(shù)據(jù),調(diào)整對學(xué)習(xí)內(nèi)容的推薦,改變學(xué)習(xí)路徑,提供千人千面的個性化教學(xué)和輔導(dǎo),而個性化學(xué)習(xí)路徑推薦是實(shí)現(xiàn)自適應(yīng)學(xué)習(xí)的關(guān)鍵。
目前,在個性化學(xué)習(xí)路徑推薦領(lǐng)域,有大量國內(nèi)外學(xué)者進(jìn)行了理論與實(shí)踐研究,從不同視角構(gòu)建了個性化學(xué)習(xí)路徑推薦模型,并已取得初步成效。通過對相關(guān)文獻(xiàn)及目前的自適應(yīng)學(xué)習(xí)平臺進(jìn)行全面分析,按照模型使用的推薦算法,可將個性化學(xué)習(xí)路徑推薦模型歸為八類:
本模型應(yīng)用的算法主要包括遺傳算法、蟻群算法、粒子群算法等。例如,Dwivedi等[4]利用改進(jìn)的變長遺傳算法構(gòu)建推薦模型,有針對性地推送符合學(xué)習(xí)者特征的學(xué)習(xí)資源??拙S梁等[5]將改進(jìn)的蟻群算法應(yīng)用于學(xué)習(xí)者即將開展的活動序列設(shè)計。De-Marcos等[6]構(gòu)建了改進(jìn)二進(jìn)制粒子群算法的推薦模型,并通過實(shí)驗(yàn)驗(yàn)證了這種模型的有效性和精確度。整體來說,本模型推薦效果一般,主要的應(yīng)用平臺有松鼠AI、猿題庫等。
本模型應(yīng)用的算法主要包括AprioriAll算法、決策樹算法、概率圖模型等。例如,姜強(qiáng)等[7]基于AprioriAll算法構(gòu)建推薦模型,挖掘?qū)W習(xí)偏好、知識水平相近的學(xué)習(xí)者群體,推薦個性化學(xué)習(xí)活動序列。Fu等[8]采用決策樹算法構(gòu)建推薦模型,通過預(yù)判學(xué)習(xí)者認(rèn)知差異,為學(xué)習(xí)者推薦不同活動序列。崔煒等[9]通過概率圖模型獲取學(xué)習(xí)者對鄰近知識點(diǎn)的掌握度,進(jìn)而推薦知識點(diǎn)序列。整體來說,本模型推薦效果一般,主要的應(yīng)用平臺有Knewton、ALEKS、松鼠AI等。
本模型應(yīng)用的算法主要包括基于本體的推理算法和基于情境感知的推理算法。例如,Tarus等[10]通過建立學(xué)科領(lǐng)域本體和學(xué)習(xí)情境本體,基于本體的推理算法搭建了適應(yīng)性學(xué)習(xí)路徑推薦系統(tǒng)。黃志芳等[11]建立了學(xué)習(xí)情境本體模型和學(xué)科領(lǐng)域本體庫,并基于情境感知的推理算法構(gòu)建了適應(yīng)性學(xué)習(xí)路徑推薦模型。整體來說,本模型推薦效果一般,主要的應(yīng)用平臺有智學(xué)網(wǎng)、Realizelt、Declara等。
本模型應(yīng)用的算法主要包括基于向量空間模型的余弦相似度算法。例如,Ghauth等[12]通過基于向量空間模型的余弦相似度算法和優(yōu)秀學(xué)習(xí)者的學(xué)習(xí)資源評分指標(biāo)為學(xué)習(xí)資源建模,進(jìn)而為學(xué)習(xí)者推薦與過往學(xué)習(xí)喜好類似的學(xué)習(xí)資源。整體來說,本模型推薦效果一般,目前沒有自適應(yīng)平臺應(yīng)用本模型。
本模型應(yīng)用的算法主要包括基于用戶、基于項(xiàng)目、基于模型的協(xié)同過濾。例如,趙學(xué)孔等[13]從認(rèn)知水平、學(xué)習(xí)路徑兩個維度構(gòu)建學(xué)習(xí)者模型,使用皮爾遜相關(guān)系數(shù)算法篩選相似的鄰近區(qū)用戶群,為學(xué)習(xí)者推薦個性化學(xué)習(xí)資源。丁永剛等[14]提出了基于社交網(wǎng)絡(luò)的資源推薦模型,將學(xué)習(xí)群體或?qū)W習(xí)伙伴對學(xué)習(xí)資源的評分作為資源推薦的依據(jù)。陳壯[15]使用聚類算法劃分具有較高學(xué)習(xí)特征相似度的學(xué)習(xí)者,并尋找相似學(xué)習(xí)者的學(xué)習(xí)路徑作為推薦路徑。整體來說,本模型推薦效果良好,主要的應(yīng)用平臺有Knewton、松鼠AI等。
本模型應(yīng)用的算法主要包括“人工神經(jīng)網(wǎng)絡(luò)算法+基于模型協(xié)同過濾算法+蟻群算法”“基于用戶協(xié)同過濾+序列模式挖掘算法”等算法組合。例如,申云鳳等[16]利用人工神經(jīng)網(wǎng)絡(luò)算法構(gòu)建相似用戶模型,通過網(wǎng)格聚類算法實(shí)現(xiàn)協(xié)同過濾,采用蟻群算法優(yōu)化推薦學(xué)習(xí)路徑。Salehi等[17]提出一種基于序列模式挖掘和基于用戶協(xié)同過濾的模型,為學(xué)習(xí)者推薦個性化學(xué)習(xí)資源。整體來說,本模型推薦效果良好,主要的應(yīng)用平臺有松鼠AI。
本模型應(yīng)用的算法主要包括受限玻爾茲曼機(jī)和門控循環(huán)單元。例如,Ruslan等[18]首次提出使用受限玻爾茲曼機(jī)來構(gòu)建推薦模型,用于求解Netflix競賽中的推薦問題。Hidasi等[19]提出一種基于遞歸神經(jīng)網(wǎng)絡(luò)的推薦模型,此模型采用門控循環(huán)單元,輸入學(xué)習(xí)會話的順序,然后輸出下一步要學(xué)習(xí)的學(xué)習(xí)項(xiàng)目的概率分布。整體來說,本該模型推薦效果良好,目前沒有自適應(yīng)平臺應(yīng)用本模型。
本模型應(yīng)用的算法主要包括Deep Q-learning和Actor-Critic。例如,Tan等[20]通過Deep Q-learning算法構(gòu)建推薦模型,為學(xué)習(xí)者推薦知識點(diǎn)序列,并以最大化學(xué)習(xí)效率為推薦目標(biāo)。Liu等[21]利用深度知識跟蹤、認(rèn)知導(dǎo)航和Actor-Critic算法構(gòu)建推薦模型,為學(xué)習(xí)者推薦個性化知識點(diǎn)序列。整體來說,本模型推薦效果優(yōu)秀,主要的應(yīng)用平臺有智學(xué)網(wǎng)。
綜上所述,伴隨著推薦系統(tǒng)在電商、娛樂、信息流等領(lǐng)域的大規(guī)模應(yīng)用,個性化學(xué)習(xí)路徑推薦在最近十年一直是教育領(lǐng)域的研究熱點(diǎn),使用的技術(shù)也越來越智能。但是,目前教育領(lǐng)域已有的推薦模型普遍存在三個主要問題:①在推薦目標(biāo)方面,多數(shù)研究照搬電商、娛樂等領(lǐng)域的推薦模型,而忽視了學(xué)習(xí)場景與這些業(yè)務(wù)場景在推薦目標(biāo)上具有本質(zhì)上的不同——前者以學(xué)習(xí)效果或效率為目標(biāo),后者以用戶偏好為目標(biāo);②在推薦性能的評價方面,傳統(tǒng)推薦模型一般采用經(jīng)典的評測指標(biāo)如查準(zhǔn)率(Precision)、召回率(Recall)、F1-Score、AUC(Area Under Curve)等,而個性化學(xué)習(xí)路徑推薦采用學(xué)習(xí)效果和學(xué)習(xí)效率作為評價指標(biāo)——目前,學(xué)習(xí)效果和學(xué)習(xí)效率的量化問題仍是具有挑戰(zhàn)性的難題;③在推薦內(nèi)容方面,多數(shù)研究推薦學(xué)習(xí)資源、學(xué)習(xí)活動、知識點(diǎn)序列三種內(nèi)容中的一種或兩種,而無法全面覆蓋這三種推薦內(nèi)容。針對以上三個問題,本研究團(tuán)隊(duì)提出基于深度知識跟蹤與強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑優(yōu)化方法[22],在此基礎(chǔ)上構(gòu)建一種融合知識圖譜、深度知識跟蹤、強(qiáng)化學(xué)習(xí)三種智能技術(shù)的個性化學(xué)習(xí)路徑推薦模型,為上述三個問題的解決提供了一種全新的方案。
在自適應(yīng)學(xué)習(xí)中,一門課程包括多個學(xué)習(xí)任務(wù),學(xué)習(xí)任務(wù)是基本的學(xué)習(xí)單元。課程的學(xué)習(xí)路徑由多個學(xué)習(xí)任務(wù)組成,課程內(nèi)學(xué)習(xí)路徑推薦是基于課程知識圖譜和學(xué)習(xí)者學(xué)習(xí)記錄,為課程內(nèi)的學(xué)習(xí)任務(wù)規(guī)劃一個學(xué)習(xí)序列,學(xué)習(xí)者沿著該序列以最快速度掌握所有的學(xué)習(xí)任務(wù)。學(xué)習(xí)任務(wù)的學(xué)習(xí)路徑由多個學(xué)習(xí)項(xiàng)目(如練習(xí)、資源、討論等)組成,學(xué)習(xí)任務(wù)內(nèi)學(xué)習(xí)路徑推薦是基于學(xué)習(xí)任務(wù)的學(xué)習(xí)目標(biāo)和學(xué)習(xí)者學(xué)習(xí)記錄,為學(xué)習(xí)任務(wù)中的學(xué)習(xí)項(xiàng)目規(guī)劃一個學(xué)習(xí)序列,學(xué)習(xí)者沿著該序列以最快速度達(dá)到學(xué)習(xí)任務(wù)要實(shí)現(xiàn)的學(xué)習(xí)目標(biāo)。因此,本研究提出的個性化學(xué)習(xí)路徑推薦模型由課程內(nèi)學(xué)習(xí)路徑推薦模型和學(xué)習(xí)任務(wù)內(nèi)學(xué)習(xí)路徑推薦模型組成。
課程內(nèi)學(xué)習(xí)路徑推薦模型通過課程知識圖譜確定學(xué)習(xí)任務(wù)的先修后繼關(guān)系,使用深度知識追蹤(Deep Knowledge Tracing,DKT)模型確定學(xué)習(xí)任務(wù)的難易程度,按照先易后難的教學(xué)原則推薦學(xué)習(xí)任務(wù)。課程內(nèi)學(xué)習(xí)路徑推薦模型的設(shè)計如圖1所示,具體包含以下環(huán)節(jié):
①學(xué)習(xí)者開始學(xué)習(xí)一門課程前,將課程中所有學(xué)習(xí)任務(wù)的目標(biāo)知識點(diǎn)映射到課程知識圖譜,如圖2所示。其中,K6是離散知識點(diǎn),K1是根知識點(diǎn)。K1是學(xué)習(xí)K5前需要掌握的知識,因此K1是K5的先修知識點(diǎn)。同理,K2、K3是K4的先修知識點(diǎn)。待選知識點(diǎn)集合由未學(xué)的離散知識點(diǎn)和根知識點(diǎn)構(gòu)成。
②將學(xué)習(xí)者的學(xué)習(xí)記錄進(jìn)行one-hot編碼后輸入DKT模型,預(yù)測待選知識點(diǎn)的掌握水平。
③向?qū)W習(xí)者推薦掌握水平最高的知識點(diǎn)K。需要注意的是,如果學(xué)習(xí)者屬于“冷啟動”,即還未產(chǎn)生任何學(xué)習(xí)記錄,DKT將無法進(jìn)行預(yù)測,此時可以采用隨機(jī)抽取的方式推薦知識點(diǎn)K。
④使用學(xué)習(xí)任務(wù)內(nèi)學(xué)習(xí)路徑推薦模型,為學(xué)習(xí)者推薦知識點(diǎn)K的學(xué)習(xí)項(xiàng)目。
⑤知識點(diǎn)K通過后,判斷K是否存在后繼知識點(diǎn),即K是否為某一知識點(diǎn)的先修內(nèi)容,若是,則進(jìn)入環(huán)節(jié)⑥;若否,則將K從待選知識點(diǎn)集合移出,然后進(jìn)入環(huán)節(jié)⑦。
⑥將知識點(diǎn)K的后繼知識點(diǎn)加入待選知識點(diǎn)集合,并將K從待選知識點(diǎn)集合移出。
⑦判斷待選知識點(diǎn)集合是否為空,若是,則終止循環(huán);若否,則返回至環(huán)節(jié)②,繼續(xù)推薦。
圖1 課程內(nèi)學(xué)習(xí)路徑推薦模型的設(shè)計
圖2 課程知識圖譜
圖3 學(xué)習(xí)任務(wù)內(nèi)學(xué)習(xí)路徑推薦模型的設(shè)計
學(xué)習(xí)任務(wù)內(nèi)學(xué)習(xí)路徑推薦(Learning Path Recommendation within Learning Task,LPRLT)模型基于強(qiáng)化學(xué)習(xí)的Q-Learning算法構(gòu)建,其設(shè)計如圖3所示,具體包含以下環(huán)節(jié):
LPRLT模型通過建立Q-table,來計算智能體做出不同行為的獎勵。Q(s, a)表示在s狀態(tài)下智能體做出a行為得到的獎勵,智能體將Q(s, a)的值作為下一行為的選擇依據(jù)。矩陣Q如公式(2)所示,其中行表示狀態(tài)、列表示動作,元素Q(s, a)表示學(xué)習(xí)者在狀態(tài)s下選擇動作a能夠獲得收益的期望。
②LPRLT模型的訓(xùn)練是通過獲取不同環(huán)境下對智能體行為的獎勵來更新參數(shù)。在這一過程中,狀態(tài)和智能體的行為不斷變化,智能體從某一初始狀態(tài)到目標(biāo)狀態(tài)中所表現(xiàn)的行為可以看作是一個回合,一個回合完成后進(jìn)入下一回合。在狀態(tài)s下,選擇行為a的規(guī)則如下:判斷s狀態(tài)下未表現(xiàn)的行為的Q值集合是否全為0,若全為0,則隨機(jī)選擇一種行為;否則,則90%的概率是選擇Q值最大的行為,10%的概率是隨機(jī)選擇一種行為。
③當(dāng)LPRLT模型訓(xùn)練結(jié)束,輸出訓(xùn)練結(jié)果Q-Table,用于學(xué)習(xí)任務(wù)內(nèi)學(xué)習(xí)項(xiàng)目個性化推薦。
課程內(nèi)學(xué)習(xí)路徑推薦模型的推薦性能,由學(xué)習(xí)任務(wù)推薦策略和學(xué)習(xí)任務(wù)內(nèi)學(xué)習(xí)路徑推薦模型的性能決定。由于學(xué)習(xí)任務(wù)推薦策略是根據(jù)知識點(diǎn)的先修后繼關(guān)系、按照先易后難的順序進(jìn)行推薦,此策略在理論上已經(jīng)最優(yōu),無需實(shí)驗(yàn)驗(yàn)證,因此學(xué)習(xí)任務(wù)內(nèi)學(xué)習(xí)路徑推薦模型的推薦性能就顯得至關(guān)重要了。本實(shí)驗(yàn)設(shè)計的目的,便是驗(yàn)證學(xué)習(xí)任務(wù)內(nèi)學(xué)習(xí)路徑推薦模型的性能。
推薦系統(tǒng)常用的實(shí)驗(yàn)方法主要有離線仿真實(shí)驗(yàn)法和在線AB測試法。其中,離線仿真實(shí)驗(yàn)法在大量不同算法的實(shí)驗(yàn)中效率優(yōu)勢顯著,所以適合在學(xué)術(shù)研究中應(yīng)用。
目前,對學(xué)習(xí)效果和學(xué)習(xí)效率的量化仍然是一個挑戰(zhàn)。Knewton通過學(xué)習(xí)任務(wù)的測試成績對學(xué)習(xí)效果進(jìn)行量化評價,通過完成學(xué)習(xí)目標(biāo)需要的學(xué)習(xí)項(xiàng)目數(shù)量對學(xué)習(xí)效率進(jìn)行量化評價。此外,有研究通過知識掌握水平的提升(即E)對學(xué)習(xí)效果進(jìn)行量化評價[23][24]。E的計算如公式(4)所示,其中E表示學(xué)習(xí)者對知識的初始掌握水平值,E表示學(xué)習(xí)者對知識的最終掌握水平值,E表示學(xué)習(xí)者對知識的最高掌握水平值。
本研究使用離線仿真實(shí)驗(yàn)法,采用知識掌握水平的提升E作為學(xué)習(xí)效果的量化評價指標(biāo),采用完成學(xué)習(xí)目標(biāo)需要的學(xué)習(xí)項(xiàng)目數(shù)量作為學(xué)習(xí)效率量化評價指標(biāo);同時,采用推薦算法常用的查準(zhǔn)率(Precision)、召回率(Recall)、F1-Score、AUC作為推薦性能的評價指標(biāo)。
為驗(yàn)證學(xué)習(xí)任務(wù)內(nèi)學(xué)習(xí)路徑推薦模型的有效性,本實(shí)驗(yàn)選擇真實(shí)在線學(xué)習(xí)數(shù)據(jù)訓(xùn)練DKT模型,數(shù)據(jù)來源于本研究團(tuán)隊(duì)自主研發(fā)的英語自適應(yīng)學(xué)習(xí)平臺上的“公共英語”課程。數(shù)據(jù)集含有17179個學(xué)習(xí)者完成23個語法學(xué)習(xí)任務(wù)時產(chǎn)生的學(xué)習(xí)記錄,其按照8:1:1的比例切分,分別用于DKT模型的訓(xùn)練、驗(yàn)證和測試。實(shí)驗(yàn)的學(xué)習(xí)任務(wù)選取知識點(diǎn)“副詞用法”,其先修知識點(diǎn)是“形容詞用法”“動詞用法”;學(xué)習(xí)任務(wù)共計40個學(xué)習(xí)項(xiàng)目,包括副詞25個、形容詞7個、動詞8個。
本實(shí)驗(yàn)使用的學(xué)習(xí)效果和學(xué)習(xí)效率這兩個評價指標(biāo)容易受多種因素的影響,故需要對實(shí)驗(yàn)環(huán)境進(jìn)行設(shè)計,排除或控制無關(guān)因素對實(shí)驗(yàn)過程和結(jié)果的干擾。
(1)學(xué)習(xí)效果評價實(shí)驗(yàn)環(huán)境設(shè)計
由于已有的學(xué)習(xí)者真實(shí)學(xué)習(xí)數(shù)據(jù)只代表其在一條學(xué)習(xí)路徑上的學(xué)習(xí)過程,且無法判斷這條學(xué)習(xí)路徑是否最優(yōu),所以真實(shí)數(shù)據(jù)不能作為觀察值用于模型評價,無法像一般推薦系統(tǒng)(如商品、電影等推薦系統(tǒng))通過真實(shí)存在的觀察值和模型預(yù)測值進(jìn)行性能評價。此外,一個學(xué)習(xí)者在現(xiàn)實(shí)中只能產(chǎn)生一條學(xué)習(xí)路徑的有效學(xué)習(xí)數(shù)據(jù),而無法產(chǎn)生多條學(xué)習(xí)路徑的有效學(xué)習(xí)數(shù)據(jù)。所以,本實(shí)驗(yàn)通過構(gòu)造模擬器去生成數(shù)據(jù),用于模型的學(xué)習(xí)效果評價。模擬器的主要作用是模擬學(xué)習(xí)者對模型推薦的學(xué)習(xí)項(xiàng)目做出掌握或未掌握的決策,從而產(chǎn)生學(xué)習(xí)記錄數(shù)據(jù)。
受Liu等[25]、Chen等[26]的研究成果啟發(fā),本實(shí)驗(yàn)采用三參數(shù)的項(xiàng)目反應(yīng)理論(Item Response Theory,IRT)模型作為模擬器。本實(shí)驗(yàn)基于IRT模型隨機(jī)產(chǎn)生2000個虛擬學(xué)習(xí)者,每個學(xué)習(xí)者隨機(jī)生成三個初始能力值。其中,目標(biāo)知識點(diǎn)的能力值從區(qū)間[-3, 3]中隨機(jī)產(chǎn)生,其他兩個先修知識點(diǎn)的能力值從區(qū)間[3, 4]中隨機(jī)產(chǎn)生,表示學(xué)習(xí)者在已掌握兩個先修知識點(diǎn)的前提下開始學(xué)習(xí)目標(biāo)知識點(diǎn)。
(2)學(xué)習(xí)效率評價實(shí)驗(yàn)環(huán)境設(shè)計
由于IRT模型是在假設(shè)受測者能力值不變的情況下建立的,所以基于IRT模型的模擬器與現(xiàn)實(shí)中的學(xué)習(xí)者有一定差距,不能真正代表學(xué)習(xí)者。如果使用模擬器對學(xué)習(xí)任務(wù)中的學(xué)習(xí)項(xiàng)目做出掌握或未掌握的決策,必然會影響完成學(xué)習(xí)目標(biāo)需要的學(xué)習(xí)項(xiàng)目數(shù)量,這將無法保證實(shí)驗(yàn)結(jié)果的正確性。為排除模擬器對實(shí)驗(yàn)結(jié)果的干擾,本實(shí)驗(yàn)設(shè)計了一種理想的學(xué)習(xí)場景,即在任何學(xué)習(xí)路徑中學(xué)習(xí)者對推薦的全部學(xué)習(xí)項(xiàng)目都能做出“掌握”的決策。雖然實(shí)驗(yàn)環(huán)境與真實(shí)的學(xué)習(xí)場景有一定差距,但此環(huán)境有助于有效評價學(xué)習(xí)者在不同學(xué)習(xí)路徑上的學(xué)習(xí)效率。
依托實(shí)驗(yàn)設(shè)計,本研究選取多種主流推薦模型作為對比模型,對學(xué)習(xí)任務(wù)內(nèi)學(xué)習(xí)路徑推薦模型的推薦性能進(jìn)行對比實(shí)驗(yàn),具體的實(shí)驗(yàn)分析與結(jié)果如下:
本實(shí)驗(yàn)選取KNN、GRU4Rec、Random三種推薦模型作為對比模型,選取的學(xué)習(xí)任務(wù)為“副詞用法”,所有模型推薦的學(xué)習(xí)路徑長度固定為15個學(xué)習(xí)項(xiàng)目。其中,KNN是一種基于用戶的協(xié)同過濾推薦模型[27],通過比較學(xué)習(xí)任務(wù)中學(xué)習(xí)路徑的余弦距離,從用戶群中篩選相似性用戶作為當(dāng)前用戶的鄰居,并為新用戶推薦下一步的學(xué)習(xí)項(xiàng)目;但是,此模型未使用知識圖譜和知識水平跟蹤,所以學(xué)習(xí)任務(wù)只包括目標(biāo)知識點(diǎn),而不包括先修知識點(diǎn)。GRU4Rec是一種基于遞歸神經(jīng)網(wǎng)絡(luò)的推薦模型[28],采用門控循環(huán)單元(GRU),輸入是學(xué)習(xí)任務(wù)中學(xué)習(xí)路徑的順序,而輸出是下一步出現(xiàn)的學(xué)習(xí)項(xiàng)目概率分布;但是,此模型也未使用知識圖譜和知識水平跟蹤,所以學(xué)習(xí)任務(wù)只包括目標(biāo)知識點(diǎn),而不包括先修知識點(diǎn)。Random是一種隨機(jī)推薦模型,推薦項(xiàng)目采用簡單隨機(jī)抽樣方法從學(xué)習(xí)任務(wù)的學(xué)習(xí)項(xiàng)目中隨機(jī)選??;此模型雖然使用了知識圖譜,但未使用知識水平跟蹤,所以學(xué)習(xí)任務(wù)包括目標(biāo)知識點(diǎn)和先修知識點(diǎn)。
不同推薦模型的學(xué)習(xí)效果評價指標(biāo)E比較結(jié)果如表1所示,其中E分別采用IRT模型、DKT模型計算學(xué)習(xí)者在學(xué)習(xí)任務(wù)中目標(biāo)知識點(diǎn)的初始掌握水平和最終掌握水平。表1顯示,LPRLT模型對學(xué)習(xí)效果的提升幅度最大,KNN、GRU4Rec兩種模型由于沒有使用知識圖譜和知識水平跟蹤,僅根據(jù)學(xué)習(xí)者的興趣偏好推薦學(xué)習(xí)項(xiàng)目,其推薦的學(xué)習(xí)路徑對學(xué)習(xí)效果幾乎沒有提升。Random模型由于使用了知識圖譜,故其推薦效果優(yōu)于KNN模型和GRU4Rec模型,僅次于LPRLT模型。實(shí)驗(yàn)結(jié)果充分說明了學(xué)習(xí)路徑推薦與一般的路徑推薦有本質(zhì)上的不同,知識圖譜、知識水平跟蹤和推薦算法對學(xué)習(xí)效果均有較大影響。
表1 不同推薦模型的學(xué)習(xí)效果評價指標(biāo)Eφ比較結(jié)果
本實(shí)驗(yàn)選擇Random模型作為對比模型,選取的學(xué)習(xí)任務(wù)為“副詞用法”,隨機(jī)生成一位虛擬學(xué)習(xí)者。該虛擬學(xué)習(xí)者對“副詞用法”的初始掌握水平是0.4885,學(xué)習(xí)目標(biāo)是“副詞用法”的掌握水平要大于0.9。具體的實(shí)驗(yàn)步驟如下:
①使用LPRLT模型為該學(xué)習(xí)者推薦一條學(xué)習(xí)路徑,路徑中包括8個學(xué)習(xí)項(xiàng)目,對目標(biāo)知識點(diǎn)的掌握水平達(dá)到0.9017。
②使用Random模型為該學(xué)習(xí)者隨機(jī)推薦多條學(xué)習(xí)路徑,使用簡單隨機(jī)抽樣法抽取在每條路徑的學(xué)習(xí)項(xiàng)目。
③采用學(xué)習(xí)路徑中的學(xué)習(xí)項(xiàng)目數(shù)量(即學(xué)習(xí)路徑長度)作為學(xué)習(xí)效率的量化評價指標(biāo),為方便評價,設(shè)計了學(xué)習(xí)路徑推薦概率。學(xué)習(xí)路徑A的推薦概率的計算如公式(5)所示,其中事件A分別表示學(xué)習(xí)項(xiàng)目數(shù)大于、等于、小于8的學(xué)習(xí)路徑,m表示A中包含的結(jié)果數(shù),n表示可能出現(xiàn)的結(jié)果總數(shù)。
圖4 Random模型的學(xué)習(xí)路徑推薦概率圖
Random模型的學(xué)習(xí)路徑推薦概率如圖4所示,可以看出:通過對Random模型進(jìn)行1000次、5000次和10000次的隨機(jī)試驗(yàn),值逐漸趨于穩(wěn)定,Random模型推薦的所有學(xué)習(xí)路徑中有4.99%優(yōu)于LPRLT模型、39.83%等于LPRLT模型、51.58%劣于LPRLT模型。其中,在優(yōu)于LPRLT模型的499條學(xué)習(xí)路徑中,學(xué)習(xí)路徑長度全部為7;在劣于LPRLT模型的5158條學(xué)習(xí)路徑中,學(xué)習(xí)路徑長度為9的有3784條,學(xué)習(xí)路徑長度為10的有1458條,學(xué)習(xí)路徑長度為11的有248條,學(xué)習(xí)路徑長度為12的有28條??偟膩碚f,LPRLT模型推薦的學(xué)習(xí)路徑95.01%優(yōu)于或等于Random模型。
從上述分析可知,LPRLT模型推薦的學(xué)習(xí)路徑并未100%優(yōu)于或等于Random模型,原因主要在于模型訓(xùn)練時,考慮到模型的訓(xùn)練時間不要過長,且訓(xùn)練出的Q-table也不要太大,故設(shè)置了算法收斂條件。實(shí)驗(yàn)證明,如果提高算法收斂條件,則推薦性能也會隨之提高。
④使用均方根誤差指標(biāo)(Root Mean Square Error,RMSE),評測兩個模型推薦的學(xué)習(xí)路徑與最優(yōu)學(xué)習(xí)路徑的學(xué)習(xí)路徑長度偏差值。在本實(shí)驗(yàn)中,最優(yōu)學(xué)習(xí)路徑長度為7,RMSE值越低,代表模型的性能越好。實(shí)驗(yàn)結(jié)果表明,LPRLT模型與最優(yōu)學(xué)習(xí)路徑的RSME值為1,Random模型與最優(yōu)學(xué)習(xí)路徑的RSME值為1.9212,可見LPRLT模型的性能明顯優(yōu)于Random模型。
本實(shí)驗(yàn)的環(huán)境與學(xué)習(xí)效果評價相同:實(shí)驗(yàn)選取KNN、GRU4Rec、Random三種推薦模型作為對比模型,選取的學(xué)習(xí)任務(wù)為“副詞用法”,所有模型推薦的學(xué)習(xí)路徑長度固定為15個學(xué)習(xí)項(xiàng)目。對于一個學(xué)習(xí)項(xiàng)目來說,推薦結(jié)束后可能有四種結(jié)果:①模型推薦給學(xué)習(xí)者且學(xué)習(xí)者掌握了此學(xué)習(xí)項(xiàng)目;②模型推薦給學(xué)習(xí)者但學(xué)習(xí)者未掌握此學(xué)習(xí)項(xiàng)目;③學(xué)習(xí)者掌握了此學(xué)習(xí)項(xiàng)目但是模型未推薦;④學(xué)習(xí)者未掌握此學(xué)習(xí)項(xiàng)目且模型未推薦。本實(shí)驗(yàn)選取查準(zhǔn)率(Precision)、召回率(Recall)、F1-Score、AUC四種常用的推薦算法評價指標(biāo)來評價不同模型的推薦性能,結(jié)果如表2所示。表2顯示,與其他三個模型相比,LPRLT模型的查準(zhǔn)率、召回率、F1-Score、AUC的數(shù)值最高,其推薦性能最優(yōu);Random模型由于使用了知識圖譜,故其查準(zhǔn)率、召回率、F1-Score的數(shù)值高于KNN模型和GRU4Rec模型,但其AUC的數(shù)值最低。總的來說,LPRLT模型的推薦性能最優(yōu),隨后依次是GRU4Rec模型、KNN模型、Random模型。
表2 不同模型的推薦性能評價指標(biāo)比較
本研究提出一種智能的個性化路徑推薦模型,其融合了知識圖譜、深度知識跟蹤、強(qiáng)化學(xué)習(xí)三種智能技術(shù)。與已有的推薦模型相比,個性化路徑推薦模型的創(chuàng)新之處主要體現(xiàn)為:①此模型可以推薦知識點(diǎn)序列、學(xué)習(xí)資源和學(xué)習(xí)活動三種內(nèi)容,有效解決了目前推薦模型的推薦內(nèi)容比較單一的問題。②在模型構(gòu)建的過程中,充分考慮了學(xué)習(xí)效果和學(xué)習(xí)效率這兩個影響因素,有效解決了目前推薦模型不能以學(xué)習(xí)效果和學(xué)習(xí)效率為推薦目標(biāo)的問題。例如,在學(xué)習(xí)任務(wù)內(nèi)學(xué)習(xí)路徑推薦模型中,設(shè)計動作集合時,不僅選擇有目標(biāo)知識點(diǎn)的學(xué)習(xí)項(xiàng)目,還考慮有先修知識點(diǎn)的學(xué)習(xí)項(xiàng)目,充分考慮了知識結(jié)構(gòu)對學(xué)習(xí)效果的影響;設(shè)計獎勵時,學(xué)習(xí)者在某個狀態(tài)下完成學(xué)習(xí)項(xiàng)目后,狀態(tài)轉(zhuǎn)移到了下一個狀態(tài)值,若狀態(tài)值大于等于設(shè)定的目標(biāo)狀態(tài)值,則賦予獎勵值,否則沒有獎勵值——這種設(shè)計使模型對學(xué)習(xí)效果和學(xué)習(xí)效率具有目標(biāo)導(dǎo)向作用。③通過實(shí)驗(yàn)環(huán)境設(shè)計,有效控制了影響學(xué)習(xí)效果和學(xué)習(xí)效率量化的因素,解決了目前推薦模型只能采用常用評價指標(biāo)(如查準(zhǔn)率、召回率等),而不能采用學(xué)習(xí)效果和學(xué)習(xí)效率作為評價指標(biāo)的難題。實(shí)驗(yàn)結(jié)果表明,學(xué)習(xí)任務(wù)內(nèi)學(xué)習(xí)路徑推薦模型對學(xué)習(xí)效果的提升幅度比KNN、GRU4Rec和Random模型更高,推薦性能也更優(yōu);且與Random模型相比,其學(xué)習(xí)效率更高。本研究為面向自適應(yīng)學(xué)習(xí)的個性化學(xué)習(xí)路徑推薦提供了一種新的解決方案,解決了自適應(yīng)個性化學(xué)習(xí)中的關(guān)鍵問題,促進(jìn)了自適應(yīng)學(xué)習(xí)的研究與發(fā)展。
[1]教育部.教育信息化2.0行動計劃[OL].
[2]教育部等六部門.教育部等六部門關(guān)于推進(jìn)教育新型基礎(chǔ)設(shè)施建設(shè)構(gòu)建高質(zhì)量教育支撐體系的指導(dǎo)意見[OL].
[3]金慧,王夢鈺,王陳欣.促進(jìn)教育創(chuàng)新的關(guān)鍵技術(shù)與應(yīng)用實(shí)踐——2015-2020《地平線報告》的分析與比較[J].遠(yuǎn)程教育雜志,2020,(3):25-37.
[4]Dwivedi P, Kant V, Bharadwaj K K. Learning path recommendation based on modified variable length genetic algorithm[J]. Education and Information Technologies, 2018,(2):819-836.
[5]孔維梁,韓淑云,張昭理.人工智能支持下自適應(yīng)學(xué)習(xí)路徑構(gòu)建[J].現(xiàn)代遠(yuǎn)程教育研究,2020,(3):94-103.
[6]De-Marcos L, Martínez J J, Gutiérrez J A. Particle swams for competency-based curriculum sequencing[A]. Emerging Technologies and Information Systems for the Knowledge Society[C]. Berlin: Springer, 2008:243-252.
[7]姜強(qiáng),趙蔚,李松,等.大數(shù)據(jù)背景下的精準(zhǔn)個性化學(xué)習(xí)路徑挖掘研究——基于AprioriAll的群體行為分析[J].電化教育研究,2018,(2):45-52.
[8]Fu L C, Yeh Y C, Hsin H Y, et al. Data mining for providing a personalized learning path in creativity: An application of decision trees[J]. Computers & Education, 2013,68:199-210.
[9]崔煒,薛鎮(zhèn).松鼠AI智適應(yīng)學(xué)習(xí)系統(tǒng)[J].機(jī)器人產(chǎn)業(yè),2019,(4):84-94.
[10]Tarus J K, Niu Z, Mustafa G. Knowledge-based recommendation: A review of ontology-based recommender systems for e-learning[J]. Artificial Intelligence Review, 2018,(1):21-48.
[11]黃志芳,趙呈領(lǐng),黃祥玉,等.基于情境感知的適應(yīng)性學(xué)習(xí)路徑推薦研究[J].電化教育研究,2015,(5):77-84.
[12]Ghauth K I, Abdullah N A. Learning materials recommendation using good learners’ ratings and content-based filtering[J]. Educational Technology Research and Development, 2010,(6):711-727.
[13]趙學(xué)孔,徐曉東,龍世榮.協(xié)同推薦:一種個性化學(xué)習(xí)路徑生成的新視角[J].中國遠(yuǎn)程教育,2017,(5):24-34.
[14]丁永剛,張馨,桑秋俠,等.融合學(xué)習(xí)者社交網(wǎng)絡(luò)的協(xié)同過濾學(xué)習(xí)資源推薦[J].現(xiàn)代教育技術(shù),2016,(2):108-114.
[15]陳壯.在線學(xué)習(xí)路徑推薦算法研究[D].武漢:華中師范大學(xué),2020:27-29.
[16]申云鳳.基于多重智能算法的個性化學(xué)習(xí)路徑推薦模型[J].中國電化教育,2019,(11):66-72.
[17]Salehi M, Kamalabadi I N, Ghoushchi M B G. Personalized recommendation of learning material using sequential pattern mining and attribute based collaborative filtering[J]. Education and Information Technologies, 2014,(4):713-735.
[18]Ruslan S, Andriy M, Geoffrey H. Resticted Boltzmann machines for collaborative filtering[A]. Proceedings of the 24th International Conference on Machine Leaning[C]. USA: ACM, 2007:791-798.
[19][28]Hidasi B, Karatzoglou A, Baltrunas L, et al. Session-based recommendations with recurrent neural networks[A]. 4th International Conference on Learning Representations, ICLR 2016-Conference Track Proceedings[C]. Puerto Rico: ICLR, 2016:291-300.
[20]Tan C, Han R, Ye R, et al. Adaptive learning recommendation strategy based on deep Q-learning[J]. Applied Psychological Measurement, 2020,(4):251-266.
[21][23][25]Liu Q, Tong S, Liu C, et al. Exploiting cognitive structure for adaptive learning[A]. Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining[C]. Anchorage: ACM, 2019:627-635.
[22]李建偉,李領(lǐng)康,于玉杰.一種基于深度知識跟蹤與強(qiáng)化學(xué)習(xí)的學(xué)習(xí)路徑優(yōu)化方法[P].中國專利:113268611A,2021-8-17.
[24][26]Chen Y, Li X, Liu J, et al. Recommendation system for adaptive learning[J]. Applied Psychological Measurement, 2018,(1):24-41.
[27]Cover T, Hart P. Nearest neighbor pattern classification[J]. IEEE Transactions on Information Theory, 2003,(1):21-27.
Personalized Learning Path Recommendation Oriented to Adaptive Learning
LI Jian-wei1,2WU Jia-hui1JI Yan-li1
Learning path recommendation based on learners’ learning records and learning tasks is the key technology to realize adaptive learning. Firstly, this paper classified personalized learning path recommendation models into eight categories, and analyzed each category of models in detail, summarized the common problems of these models, and believed that these problems seriously affect the application effect of adaptive personalized learning. Then, the personalized learning path recommendation model for learning path recommendation was proposed from two dimensions of curricula and learning tasks, which integrated three intelligent technologies of knowledge map, deep knowledge tracking and reinforcement learning and could effectively solve the above problems. Finally, through comparative experiments and relevant data analysis on the learning path recommendation model within learning task, it was found that this model can effectively improve the learning effect and learning efficiency, and its recommendation performance was also better than the current mainstream recommendation model. The research results of this paper had important application value for the realization of adaptive learning, and provided important reference for the theoretical and technical research of personalized learning path recommendation in the education field.
adaptive learning; learning path recommendation; knowledge map; deep knowledge tracking; reinforcement learning
G40-057
A
1009—8097(2023)01—0108—10
10.3969/j.issn.1009-8097.2023.01.012
本文為網(wǎng)絡(luò)系統(tǒng)與網(wǎng)絡(luò)文化北京市重點(diǎn)實(shí)驗(yàn)室主任基金項(xiàng)目“基于深度學(xué)習(xí)的個性化學(xué)習(xí)內(nèi)容推薦模型研究”(項(xiàng)目編號:NSNC-2020 A05)、北京郵電大學(xué)研究生教育教學(xué)改革項(xiàng)目“研究生課程思政教學(xué)模式研究與實(shí)踐”(項(xiàng)目編號:2022Y004)的階段性研究成果。
李建偉,北京郵電大學(xué)網(wǎng)絡(luò)教育學(xué)院副教授,北京郵電大學(xué)網(wǎng)絡(luò)系統(tǒng)與網(wǎng)絡(luò)文化北京市重點(diǎn)實(shí)驗(yàn)室副研究員,碩士,研究方向?yàn)橹悄芙逃夹g(shù)與應(yīng)用,郵箱為lijianwei@bupt.edu.cn。
2022年6月7日
編輯:小米