邵文倩
關鍵詞:學習資源;深度學習;推薦算法;卷積神經(jīng)網(wǎng)絡;個性化推薦
0引言
隨著互聯(lián)網(wǎng)技術在教育領域的深入應用,學習者可足不出戶通過學習在線平臺獲得感興趣的學習資源。圖1顯示了我國在線教育行業(yè)市場規(guī)模及增速,可見在線學習教育發(fā)展迅速。然而,在線學習資源的不斷增加既給個性化學習帶來了機遇,也帶來了挑戰(zhàn)。面對豐富的學習資源,學習者很容易陷入選擇困難,難以迅速找到最符合自身特質(zhì)的學習資料。這種情況使得為學習者從眾多數(shù)據(jù)中篩選有意義的信息成為在線學習領域亟須解決的難題。因此,為學習者提供個性化的學習資源推薦服務,也成為各大在線學習平臺競相追求的創(chuàng)新與挑戰(zhàn)。
傳統(tǒng)的學習資源個性化推薦方法主要包括基于內(nèi)容的推薦方法和協(xié)同過濾推薦方法等。梁婷婷等人針對文本處理中普遍存在的多義詞與同義詞問題,提出了一種基于內(nèi)容過濾和改進的PageRank算法進行學習資源的推薦[1]。此外,丁永剛等學者針對學習資源推薦的問題,創(chuàng)新性地提出了一種基于學習者社交網(wǎng)絡信息的協(xié)同過濾推薦方法。該方法深入挖掘了學習者與其好友之間的信任關系,從而預測新學習者對特定學習資源的評分[2]。朱明提出了一種教學資源協(xié)同過濾推薦方法,通過聚類算法對用戶進行聚類以提高可擴展性[3]。
隨著人工智能技術的迅猛發(fā)展和廣泛應用,深度學習技術已經(jīng)滲透到個性化推薦領域,并為其帶來了顛覆性的變革。在線學習平臺作為數(shù)字教育的重要組成部分,積累了海量的可用數(shù)據(jù),為構建基于深度學習的個性化在線學習資源推薦算法提供了數(shù)據(jù)基礎。在此背景下,Batouche等人創(chuàng)新性地提出了一種基于無監(jiān)督機器學習的教學資源推薦方法,并通過改進的人工神經(jīng)網(wǎng)絡取得了令人滿意的推薦效果[4]。
程美娟采用深度學習方法進行個性化推薦,推薦過程中結合了區(qū)塊鏈技術來提高推薦系統(tǒng)中數(shù)據(jù)的安全性,有效提升推薦系統(tǒng)的性能[5]。趙蔚提出了一個融合知識推薦技術與本體技術的個性化資源推薦策略,使得學習資源推薦更為高效[6]。文孟飛提出了一種將支持向量機與深度學習相結合的方法,顯著提高了教學視頻資源的利用率和獲取率,從而優(yōu)化了在線學習體驗[7]。此外,Tarus設計了混合知識推薦系統(tǒng),將知識本體與序列模式挖掘相結合,為在線學習者提供個性化的資源推薦[8]。
現(xiàn)有部分研究將深度學習技術應用至學習資源領域,提供重要參考價值,但仍有可提升之處,例如更為細化地推薦學習資源,考慮學習者的各種學習興趣,不局限于某一興趣點。
1基于深度學習的個性化學習資源推薦算法
個性化學習資源推薦算法以在線學習平臺為背景,依托卷積神經(jīng)網(wǎng)絡模型框架,提出了S-CNN模型,旨在降低學習者在線學習時尋找自身感興趣學習資源的難度。如圖2所示,該推薦方法包含訓練過程與推薦過程。訓練過程包括數(shù)據(jù)集清洗、學習者特征處理、學習資源特征處理等流程;推薦過程主要通過評分指標與特征標簽將用戶對不同學習資源的評分劃分等級,綜合顯性評分和隱性評分為學習者實現(xiàn)個性化推薦。
1.1S-CNN模型
在處理具有特定結構的數(shù)據(jù)時,卷積神經(jīng)網(wǎng)絡發(fā)揮了核心作用。它主要依賴于卷積和池化這兩種操作,尤其在圖像等二維網(wǎng)格數(shù)據(jù)以及自然語言這種一維詞序列的處理中表現(xiàn)出色。卷積神經(jīng)網(wǎng)絡應用在學習資源個性化推薦中,不僅擅長提取學習者與學習資源的局部特征,還能將這些特征進行抽象組合,從而生成更高級別的特征表示。由于數(shù)據(jù)集中存在大量不同類別的學習者賬號和學習資源編號,使得無法使用傳統(tǒng)的一位有效編碼方式,該簡單編碼方式在控制神經(jīng)網(wǎng)絡輸入維度方面顯得捉襟見肘。鑒于此,在構建網(wǎng)絡時,于首層引入了嵌入層技術,通過嵌入矩陣,將學習者賬號和學習資源編號這類離散數(shù)據(jù)轉化為連續(xù)的低維向量,而這些向量正是以學習者賬號和資源編號為索引從嵌入矩陣中獲取的。
首先,在生成學習者特征時,嵌入層的輸入信息為每個學習者賬號及其對應的特征標簽。具體來說,這些信息被映射為一個向量表示,能夠充分捕捉學習者的喜好與特征。然后,這些向量被傳遞至全連接層,進行更深層次的特征提取。為了生成學習資源特征,同樣采取了這樣的策略,每個學習資源編號及其關聯(lián)的特征標簽被輸入到嵌入層中。鑒于學習資源可能具有多個標簽,因此采用求和的方式來處理這些標簽在嵌入矩陣中的表示。這樣,能夠?qū)⑦@些多元標簽信息有效地融合為一個向量。
S-CNN模型如圖3所示,其中,在處理學習資源名稱時,采用文本卷積神經(jīng)網(wǎng)絡(TextCNN)技術。該技術通過詞嵌入層將名稱中的每個字符映射為嵌入向量,這些向量組合成嵌入矩陣。隨后,卷積層對嵌入矩陣執(zhí)行卷積運算,以捕獲文本的局部特征。池化層進一步提煉這些特征,降低數(shù)據(jù)維度,得到學習資源名稱的最終特征。值得注意的是,本文所指的學習資源意為以課程為中心,相關的課程視頻、試題庫、討論組等,因此在對學習資源進行標簽提取時,同一課程相關的學習資源共用整體課程概述信息。
1.2特征標簽與評分體系
本文使用隱性評分與顯性評分相結合構成評分體系。其中,顯性評分指用戶在學習平臺上對學習資源進行的打分,而隱性評分是通過數(shù)據(jù)篩選和計算得出的實際評分,呈現(xiàn)為學習資源評分矩陣,提供了對學習資源質(zhì)量更全面的評估。
在對數(shù)據(jù)集進行深入分析后,發(fā)現(xiàn)了影響學習者對課程評分的兩個關鍵因素。首要的是學習資源觀看時間,這一因素顯著反映了用戶的偏好程度[9]。為確保公正性和準確性,觀看時間進行了歸一化處理,最終將其表示為特定學習資源觀看時間與總學習時間的比值。此外,觀看頻率也被證實是一個不可忽視的影響因素,它在一定程度上揭示了學習者對特定學習資源的興趣水平。
該推薦算法利用學習資源的觀看頻率和學習者觀看學習資源時間作為評分的主要衡量標準。其中,Sij指的是學習者i對學習資源j的實際觀看時間,而觀看頻率ω則反映了學習者重復訪問同一資源的頻次。隱性評分公式詳見式(1),根據(jù)學習者i平均觀看時長Sh與學習資源j時長Tj的比例aij,將學習用戶對不同學習資源的評分劃分為十個等級。bj為在線學習平臺中學習資源j獲得的評分,f(i,j)為學習者i對學習資源j的評分,其中綜合評分是顯性評分與隱性評分的平均值,綜合評分公式詳見式(2)。
1.3模型訓練
卷積操作在獲取文本向量特征中扮演著關鍵角色,這一操作的性能與多個因素有關,包括卷積窗口大小h、卷積窗口個數(shù)T、學習速率α、卷積步長λ[10]。詳細的文本卷積如式(3)-式(5)所示:
深入挖掘了用戶學習信息中的有效信息后,數(shù)據(jù)中共包含1317個學習資源,需要構建1317個學習資源編號的匹配索引,來確保embedding函數(shù)能夠與嵌入矩陣的索引精確對應。在此基礎上,嵌入層矩陣R進一步與學習資源名稱矩陣相結合,該矩陣的維度被設定為1317×32。在這個擴展的矩陣中,每個元素都表示了某個學習資源名稱中特定字符的特征向量。其中,Yij表示第i個學習資源名稱中第j個字符的特征向量,連續(xù)應用卷積窗口i到i+j,得到新的特征向量。矩陣E為卷積核函數(shù)矩陣,其維度依賴于學習資源數(shù)k和卷積窗口w。矩陣X是矩陣R與矩陣E進行卷積計算后的結果,這樣的處理方式有助于捕捉學習資源名稱中的局部特征和全局特征,從而為后續(xù)的學習任務提供更豐富的特征表示,其中,Hij代表第i個學習資源通過j次卷積得到的向量。
2實驗結果及分析
2.1實驗數(shù)據(jù)采集
為了驗證基于卷積神經(jīng)網(wǎng)絡的學習資源推薦算法的有效性,筆者使用了爬蟲程序爬取某在線學習網(wǎng)站中的免費課程及用戶相關數(shù)據(jù)。經(jīng)過清洗后,數(shù)據(jù)集包括728門課程,1317條課程相關學習資源簡介,以及2139名有學習記錄的用戶。具體信息如表1所示。這里的“學習資源簡介”指的是以課程為中心的內(nèi)容,包括課程視頻簡介、試題庫簡介、討論組簡介等。而某一學習資源簡介不僅包含自身的簡介信息,還包括該資源所屬課程的概述簡介。
2.2數(shù)據(jù)預處理與實驗設計
為了確保學習者觀看歷史數(shù)據(jù)質(zhì)量的優(yōu)越性,需要對課程資源的觀看歷史數(shù)據(jù)進行詳盡的預處理。經(jīng)過分析后發(fā)現(xiàn),大約有21%的觀看時長不足兩分鐘,而觀看時長在2到20分鐘之間的數(shù)據(jù)則占據(jù)了最大比例。短暫的觀看可能是由于學習者誤觸或者對該學習資源不感興趣,因此我們保留超過2分鐘的學習歷史記錄。
在實驗模型的驗證階段,采用了留一法交叉驗證(Leave-One-OutCross-Validation)的策略。具體而言,假設數(shù)據(jù)集中有N個樣本數(shù)據(jù),我們逐一將這些樣本挑選出來作為測試集,而其余的N-1個樣本則作為訓練集。這樣能夠確保每個樣本都有被單獨測試和評估的機會,從而為模型提供更準確、更可靠的性能評估結果。
2.3實驗結果及分析
本次實驗模型的訓練建立在TensorFlow開源框架之上,通過神經(jīng)網(wǎng)絡對學習者信息和課程信息進行深入特征提取,獲得了兩組關鍵特征[11],并傳輸至全連接層中。為了提高模型的預測精度,采用均方根誤差作為損失函數(shù)來計算預測值與實際評分之間的差距。同時,利用隨機梯度下降法對網(wǎng)絡中的參數(shù)進行迭代更新,逐步優(yōu)化模型的性能。
文章中模型損失函數(shù)采用隨機梯度下降法進行迭代優(yōu)化。為了比較不同推薦算法的性能,當推薦數(shù)N分別為5、10、15和20時,計算SVD(SingularValueDecomposition)、協(xié)同過濾、LSTM(LongShort-TermMemory)和S-CNN四種方法的查準率、召回率和F1值進行對比。其中,SGD學習速率設置為0.001、0.005、0.01之間隨機選擇,以尋找最佳的學習速度[11]。
如圖4所示,在推薦學習資源數(shù)目N較少時,協(xié)同過濾方法、LSTM方法和S-CNN方法都具有較高的查準率,隨著N的增加,SVD方法也能取得較好的效果。在召回率指標上,LSTM方法和S-CNN方法表現(xiàn)突出。從F1值的分析來看,在N=15和N=20時,本文提出的S-CNN方法可以獲得比較好的效果。
3結束語
當前的研究大多偏向于推薦在線學習平臺中的課程,而較少探究課程資源相關的學習內(nèi)容。本文提出的推薦方法不僅成功地解決了稀疏數(shù)據(jù)造成的信息不足問題,而且還深入探索并充分利用了高維數(shù)據(jù)中的潛在特征。該方法能夠精準地獲取學習者的特征標簽和課程資源的標簽,并在卷積神經(jīng)網(wǎng)絡模型中進行有效訓練。通過巧妙地結合隱性評分和顯性評分,可以獲取學習者的潛在興趣和偏好信息。因此,基于這種方法,在線學習平臺和教育者可以更精確地規(guī)劃和設計個性化的學習資源推薦策略,從而更好地滿足每位學習者的獨特需求。