任鑫偉, 江先亮
面向MOOC平臺的課程推薦研究綜述
任鑫偉, 江先亮*
(寧波大學(xué) 信息科學(xué)與工程學(xué)院, 浙江 寧波 315211)
隨著互聯(lián)網(wǎng)技術(shù)和在線教育的飛速發(fā)展, 目前我國已出現(xiàn)大量線上教育平臺, 但這些在線教育平臺相互間信息不能共享, 導(dǎo)致課程信息冗余過載, 用戶選擇困難. 本文綜述了近年來課程推薦方面的研究進(jìn)展, 首先介紹了課程推薦中的相關(guān)概念并給出了系統(tǒng)框架; 然后圍繞課程建模、用戶建模、核心算法3個方面進(jìn)行探討, 重點綜述了5類算法: 內(nèi)容推薦、協(xié)同過濾、混合推薦、深度學(xué)習(xí)推薦和多模態(tài)融合推薦, 并分析了數(shù)據(jù)集、實驗方法和評價指標(biāo); 最后對個性化課程推薦技術(shù)進(jìn)行了總結(jié)和展望.
深度學(xué)習(xí); 推薦系統(tǒng); 課程推薦; 課程建模; 用戶建模
互聯(lián)網(wǎng)和云計算技術(shù)的發(fā)展, 推動了傳統(tǒng)教育方式的變革, 學(xué)生能夠通過線上網(wǎng)絡(luò)平臺選擇感興趣的課程. MOOC平臺[1]不僅能夠提供有質(zhì)量的教學(xué)課程、完整的課程體系和配套習(xí)題作業(yè), 同時具有課程免費、內(nèi)容豐富以及選擇靈活等優(yōu)點. 但平臺的增加導(dǎo)致“信息過載”, 給學(xué)習(xí)者選擇合適課程帶來困難. 因此, 如何能夠在海量數(shù)據(jù)中快速找到用戶感興趣的課程, 從而促進(jìn)知識的精準(zhǔn)傳播顯得尤為重要.
本文系統(tǒng)介紹了面向MOOC平臺課程推薦的有關(guān)概念和系統(tǒng)框架, 并圍繞課程建模、用戶建模和推薦核心算法進(jìn)行綜述, 列出常用數(shù)據(jù)集、實驗方法和評估指標(biāo), 對個性化課程推薦技術(shù)進(jìn)行了總結(jié)和展望.
隨著教育模式需求的變化和在線教育平臺的發(fā)展, 推薦系統(tǒng)在課程推薦領(lǐng)域也得到了充分應(yīng)用. 課程的穩(wěn)定性、流行性、目標(biāo)性使得課程推薦有別于電影、音樂、新聞推薦. 因此, 首先對有關(guān)課程推薦概念進(jìn)行界定.
課程特征: 課程推薦中的特征主要來自課程描述、人口統(tǒng)計學(xué)信息、評分矩陣. 其中課程描述主要包括課程介紹、視頻、圖片; 用戶人口統(tǒng)計學(xué)信息主要包括年齡、喜好、性別、專業(yè); 用戶評分矩陣主要包括用戶對課程的評分.
候選課程: 指近5年發(fā)布的且學(xué)習(xí)者沒有觀看的課程. 由于平臺上存有年限久遠(yuǎn)課程, 這部分課程不考慮在候選課程中.
推薦課程: 用戶使用PC端或APP端瀏覽推薦列表中的課程, 通過在候選推薦課程中提取前值或設(shè)置的評分閾值得到.
圖1 系統(tǒng)框架
隨著教育平臺中上傳的課程數(shù)和用戶數(shù)日益增多, 平臺出現(xiàn)的主要問題有: (1)海量數(shù)據(jù)展示在用戶面前, 需要合適的推薦系統(tǒng)向用戶推薦感興趣的課程; (2)用戶在平臺使用初期, 由于沒有可利用的有效信息容易產(chǎn)生冷啟動問題[2]; (3)用戶在使用課程時并不是每門課程都會進(jìn)行評論, 容易產(chǎn)生稀疏的評分矩陣[3]. 因此, 課程推薦系統(tǒng)面臨諸多挑戰(zhàn). 本文綜述了個性化課程推薦系統(tǒng)框架(圖1), 主要包括課程建模、用戶建模以及推薦系統(tǒng)核心算法.
課程推薦需要獲取大量信息, 實際從平臺中獲取的信息是非結(jié)構(gòu)化文本. 因此, 需要將非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化文本.
2.1.1 模型表示
課程文本具有靜態(tài)和動態(tài)特性. 靜態(tài)特性主要包括課程類別、主題分布、課程標(biāo)簽等; 動態(tài)特性主要包括課程評分、觀看量、持續(xù)性等[4]. 在基于內(nèi)容推薦中, 文獻(xiàn)[5]描述了一種自動個性化的推薦方法, 旨在為主動學(xué)習(xí)者提供在線自動推薦而不需要學(xué)習(xí)者明確反饋, 主要通過加載離線模塊和在線模塊進(jìn)行課程表示. 文獻(xiàn)[6]通過挖掘?qū)W生在單個會話中的習(xí)慣行為, 將學(xué)習(xí)過程建模為活動序列的分布, 并采用N-gram主題模式進(jìn)行表示. 文獻(xiàn)[7]使用多個屬性表示學(xué)習(xí)者偏好, 以減少數(shù)據(jù)稀疏性和冷啟動問題, 增加生態(tài)注釋列表的多樣性.
在基于協(xié)同過濾中, 文獻(xiàn)[8]提出網(wǎng)絡(luò)學(xué)習(xí)推薦系統(tǒng)框架, 通過同伴學(xué)習(xí)和社會學(xué)習(xí)鼓勵學(xué)習(xí)者相互合作, 利用優(yōu)秀學(xué)習(xí)者的學(xué)習(xí)材料進(jìn)行表示. 文獻(xiàn)[9]介紹了一種基于關(guān)聯(lián)規(guī)則挖掘的協(xié)作式教育數(shù)據(jù)挖掘工具, 讓具有相似課程的教師共享和發(fā)現(xiàn)預(yù)測課程.
在基于混合推薦方法中, 文獻(xiàn)[10]在學(xué)生的顯示反饋數(shù)據(jù)中利用最大似然預(yù)估學(xué)習(xí)者的能力, 并為課程材料確定適當(dāng)?shù)碾y度水平, 最后利用單參數(shù)特征函數(shù)對課程教材進(jìn)行建模表示. 文獻(xiàn)[11]通過2個模塊進(jìn)行課程表示, 第1個采用學(xué)習(xí)者偏好樹(LPT)模塊引入了課程偏好, 第2個采用最近鄰協(xié)同過濾(NNCF)模塊中遺傳算法的染色體來自學(xué)習(xí)者的隱含屬性權(quán)重, 并結(jié)合歷史評分對權(quán)重優(yōu)化. 文獻(xiàn)[12]利用顯式屬性推薦器和隱式屬性推薦器進(jìn)行課程表示. 文獻(xiàn)[13]將序列模式挖掘和多維屬性協(xié)同過濾相結(jié)合進(jìn)行表示. 針對數(shù)據(jù)稀疏和冷啟動問題, 有學(xué)者采用混合推薦方法提出了Entreec[14]、程序設(shè)計[15]、序列模式挖掘[16]等更好模型來表示課程. 綜上3種算法, 當(dāng)前傳統(tǒng)推薦算法在課程模型的表示中大多利用學(xué)習(xí)者的偏好和關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)信息, 忽略了課程本身的文本信息和課程的視頻信息. 在混合推薦中多采用協(xié)同過濾和基于內(nèi)容推薦的模型融合, 但沒有考慮課程的圖片特征和用戶的評論矩陣信息.
在基于深度學(xué)習(xí)的課程推薦方法中, 文獻(xiàn)[17]提出利用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)從教育系統(tǒng)存儲的日志數(shù)據(jù)中預(yù)測學(xué)生期末成績的方法. 文獻(xiàn)[18]提出了一種新的全路徑學(xué)習(xí)推薦模型, 該模型通過學(xué)習(xí)者的特征相似度度量, 利用長短時記憶模型(LSTM)預(yù)測學(xué)習(xí)者的學(xué)習(xí)路徑. 文獻(xiàn)[19]采用的模型則考慮用戶和課程信息之間的相互作用關(guān)系. 文獻(xiàn)[20]提出貝葉斯個性化排名網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)模型(BPRN), 通過該模型進(jìn)行課程表示.
當(dāng)前的深度學(xué)習(xí)應(yīng)用在課程推薦領(lǐng)域中, 注重對模型的改進(jìn)和提升, 但通常只考慮一種模態(tài)信息, 沒有從課程本身的文本、圖片和視頻信息中挖掘數(shù)據(jù)特征作為課程推薦建模表示(表1).
表1 課程推薦建模表示
2.1.2 課程分類
用戶對課程感興趣程度多基于課程主題, 而課程主題又基于課程類別, 合理地對課程進(jìn)行分類能夠提高推薦效率. 文獻(xiàn)[22]在現(xiàn)有分類基礎(chǔ)上, 提出了一套區(qū)分、描述和分類學(xué)習(xí)活動的維度, 根據(jù)Blooms分類法進(jìn)行分類. 文獻(xiàn)[23]提出獲取用戶信息的多模態(tài)深度架構(gòu), 利用LSTM和多個深度神經(jīng)網(wǎng)絡(luò)相結(jié)合提取用戶豐富的潛在表示, 有助于文本的分類任務(wù). 文獻(xiàn)[24]實現(xiàn)了用于評估和混淆分類器的深層神經(jīng)網(wǎng)絡(luò), 通過分類生成一組針對學(xué)生問題的排序視頻. 因此, 課程的有效分類有利于快速定位用戶興趣課程.
2.1.3 課程推薦列表
為了提高平臺對用戶課程推薦的精確性, 應(yīng)從平臺上篩選出候選推薦課程, 主要包括計算相似課程、熱門課程和長尾課程.
對同一類別課程(關(guān)聯(lián)度密切[2]、相似度高[25]), 通過選擇前的方法選擇個作為候選推薦課程, 而其他作為相關(guān)課程. 因為推薦模塊的顯示空間有限, 應(yīng)該在保證推薦質(zhì)量的前提下確保推薦的多樣性.
用戶在與平臺進(jìn)行交互的同時會產(chǎn)生顯性數(shù)據(jù)[2]和隱性數(shù)據(jù)[12].
2.2.1 反饋方式
用戶對課程的反饋方式分為顯性反饋和隱性反饋. (1)顯性反饋主要包括學(xué)習(xí)者行為和學(xué)習(xí)者評分矩陣. MOOC平臺在“一分鐘獲得個性化課程推薦模塊”中通過獲取學(xué)習(xí)者行為的顯性信息, 向用戶推薦感興趣的課程類中的熱門課程. 網(wǎng)易云課程則通過初始化頁面獲取學(xué)習(xí)者的顯性反饋, 讓其選擇感興趣的主題. 人口統(tǒng)計學(xué)信息[26]往往也是提供推薦的重要依據(jù), 如用戶的年齡、年級、所屬學(xué)科類別等. 利用用戶的評分矩陣能夠更好地挖掘用戶潛在偏好, 提升推薦的準(zhǔn)確性. 在實踐情況中導(dǎo)致評分矩陣的稀疏性很高, 對此提出了基于輔助信息、項目和用戶信息的神經(jīng)網(wǎng)絡(luò)模型(IUNEU)[19]、異構(gòu)信息網(wǎng)絡(luò)(HIN)[27]、基于Wide & Deep和Elmo模型的在線學(xué)習(xí)資源推薦[28]等方法, 有效緩解了數(shù)據(jù)的稀疏問題. (2)隱性反饋在多數(shù)情況下, 平臺并不能完全獲取用戶喜好, 一方面用戶不愿意提供準(zhǔn)確喜好, 另一方面用戶也不愿花時間去維護(hù)個人喜好. 因此, 獲取平臺中用戶隱性反饋數(shù)據(jù)尤為重要. 當(dāng)前常用的隱性反饋屬性有: 課程排名序列[20]、社交網(wǎng)絡(luò)[29-30]等. 學(xué)者通常將學(xué)習(xí)者的隱性反饋轉(zhuǎn)化為對課程的評分矩陣. 如Bobadilla等[2]、Ghauth等[8]、Salehi等[12]都將課程評分作為推薦模型建立的重要指標(biāo).
當(dāng)前研究注重的是課程的單個隱性反饋數(shù)據(jù), 缺乏對多種隱性反饋數(shù)據(jù)的匯總, 因此可以考慮用戶觀看過的課程視頻時長、暫定次數(shù)、播放次數(shù)等數(shù)據(jù)(表2), 作為用戶建模中顯性反饋和隱性反饋的具體表示.
表2 顯性反饋與隱性反饋的具體表示
2.2.2 用戶模型
從用戶角度出發(fā), 用戶的興趣分為長期興趣和短期興趣. 長期興趣能夠反映用戶的真實興趣, 短期興趣常與當(dāng)前熱門課程相關(guān). 通過得到用戶短期的課程興趣模型, 能夠快速反映用戶興趣的變化趨勢. 常用的模型有N-gram模型[6]、深度置信網(wǎng)絡(luò)DBN模型[21]以及協(xié)同過濾模型[31]等.
推薦系統(tǒng)排序模型在推薦系統(tǒng)中占據(jù)絕對的核心地位. 傳統(tǒng)推薦算法分為: 基于內(nèi)容、協(xié)同過濾和混合推薦[32]. 目前熱門的是結(jié)合深度學(xué)習(xí)和多模態(tài)技術(shù)實現(xiàn)的推薦系統(tǒng)(圖2).
圖2 推薦算法分類
2.3.1 基于內(nèi)容推薦
基于內(nèi)容推薦可以分為相似度計算和分類問題. 對于學(xué)習(xí)者相關(guān)信息, 如年齡、性別、偏好等; 對于課程內(nèi)容相關(guān)信息, 如課程文本描述、點贊、收藏、點擊次數(shù)、購買等. 文獻(xiàn)[33]設(shè)計的系統(tǒng)考慮了學(xué)習(xí)者的知識背景、個人期望、學(xué)習(xí)心情、學(xué)習(xí)動機和學(xué)習(xí)風(fēng)格等特征.
相似度計算: 文獻(xiàn)[34]通過計算用戶興趣特征和候選課程向量之間的相似度進(jìn)行推薦. 文獻(xiàn)[35]提出了面向MOOC數(shù)據(jù)集的改進(jìn)皮爾遜相關(guān)系數(shù)方法. 分類問題: 常用機器學(xué)習(xí)方法, 如-means、邏輯回歸、徑向基等訓(xùn)練模型. 如Li等[20]利用了貝葉斯分類器; Ange等[23]利用了混淆分類器.
目前基于內(nèi)容的課程推薦方法的主要優(yōu)點有: (1)不考慮數(shù)據(jù)稀疏; (2)推薦內(nèi)容取決用戶喜好[36]. 主要缺點有: (1)要求特征內(nèi)容有良好的結(jié)構(gòu)性; (2)只考慮用戶本身的喜好, 忽視了其他用戶的情況.
2.3.2 協(xié)同過濾推薦
協(xié)同過濾分為基于用戶的協(xié)同過濾(UserCF)和基于物品的協(xié)同過濾(ItemCF)[37].
基于用戶的協(xié)同過濾是根據(jù)用戶相似度進(jìn)行推薦, 使其具備更強的社交特性, 用戶能夠得知與自己興趣相投用戶的課程, 即使這個興趣點以前不在自己的興趣范圍內(nèi). 文獻(xiàn)[38]提出基于用戶的協(xié)同過濾, 該系統(tǒng)首先通過收集用戶行為日志并進(jìn)行分析, 形成用戶興趣模型向量; 其次為系統(tǒng)中的每一個資源創(chuàng)建標(biāo)簽, 并在用戶使用過程中收集該資源的用戶得分; 最后根據(jù)用戶興趣模型和資源特性, 結(jié)合個性化推薦算法, 將滿足用戶需求的資源推薦給目標(biāo)用戶.
為了進(jìn)一步提高基于UserCF的推薦性能, 有學(xué)者提出了DBN模型[21]、NNCF模型[11]、基于技能的用戶模型[39]. 這些模型能夠提高推薦新信息的能力, 時效性和可解釋性強, 但是不能適用多用戶的場景.
基于物品的協(xié)同過濾, 首先計算課程之間的相似矩陣, 然后找到用戶的歷史正反饋課程的相似課程進(jìn)行進(jìn)一步排序和推薦. 文獻(xiàn)[31]提出了一種MOOC課程推薦的多層Bucketing的推薦模型(MLBR)方法, 該模型首先將學(xué)習(xí)者的向量轉(zhuǎn)化成相同維度, 并將其分散到包含相似學(xué)習(xí)者的桶中, 這些桶中有更多共同的課程.
總之, 協(xié)同過濾與基于內(nèi)容的推薦算法相比, 優(yōu)勢在于能夠充分考慮相似學(xué)習(xí)者或課程屬性, 不需要考慮課程本身的內(nèi)容屬性. 但仍存在一些問題, 主要有: (1)數(shù)據(jù)稀疏, 從實際情況可知, 當(dāng)前用戶對課程評價很少, 導(dǎo)致了數(shù)據(jù)稀疏問題; (2)冷啟動問題, 平臺初期沒有用戶使用數(shù)據(jù), 且新課程上傳后也會遇到此問題, 因為沒有收集到任何一個用戶對其瀏覽、點擊或者收藏等行為, 也就無法對課程進(jìn)行推薦; (3)可擴展性問題, 傳統(tǒng)的協(xié)同過濾處理小數(shù)據(jù)集是有效的, 但當(dāng)數(shù)據(jù)集的量增加時, 推薦系統(tǒng)的準(zhǔn)確性會下降.
2.3.3 混合推薦
由于前2種算法都存在相應(yīng)的缺點, 因此當(dāng)前系統(tǒng)大多數(shù)采用混合推薦方法, 主要是結(jié)合不同算法和模型的優(yōu)點. 如文獻(xiàn)[14]將混合推薦組合策略分為: 加權(quán)、切換、分區(qū)、分層、瀑布式、特征混合和特征增強, 并介紹了基于知識和協(xié)同過濾的混合推薦系統(tǒng). 文獻(xiàn)[40]將混合推薦方式分為: 整體式、并行式和流水線式, 首先利用人工神經(jīng)網(wǎng)絡(luò)對學(xué)習(xí)者的類型進(jìn)行分類, 用戶可以根據(jù)學(xué)習(xí)者的意見獲得課程推薦, 然后當(dāng)相關(guān)的興趣小組建立后, 利用數(shù)據(jù)挖掘技術(shù)引出最佳學(xué)習(xí)路徑. 文獻(xiàn)[41]則提出利用一個搜索引擎和混合推薦的數(shù)字教育資源模型.
目前, 混合推薦能夠在一定程度上提高推薦性能, 其主要缺陷在于模型的計算量增大, 推薦性能依賴歷史數(shù)據(jù)的質(zhì)量和多取決于混合之前的模型性能. 因此, 在計算模型之前可以考慮進(jìn)行算法思路的合并, 提前召回好的結(jié)果.
2.3.4 基于深度學(xué)習(xí)的推薦
隨著深度學(xué)習(xí)推薦技術(shù)變得流行, 將其應(yīng)用于學(xué)習(xí)資源推薦領(lǐng)域, 可以分為基于卷積神經(jīng)網(wǎng)絡(luò)的個性化學(xué)習(xí)推薦和基于遞歸神經(jīng)網(wǎng)絡(luò)的個性化學(xué)習(xí)推薦(圖3).
圖3 基于深度學(xué)習(xí)的課程推薦系統(tǒng)
(1)基于卷積神經(jīng)網(wǎng)絡(luò)的個性化學(xué)習(xí)推薦. 首先將學(xué)習(xí)者的學(xué)習(xí)行為和學(xué)習(xí)歷史表示為特征向量; 然后利用注意力機制根據(jù)估計值與用戶給神經(jīng)網(wǎng)絡(luò)的實際值之間的差異改進(jìn)相關(guān)性估計; 最后通過訓(xùn)練模型向?qū)W習(xí)者推薦課程.
表3 課程推薦系統(tǒng)核心算法對比
(2)基于遞歸神經(jīng)網(wǎng)絡(luò)的個性化學(xué)習(xí)推薦. 文獻(xiàn)[18]利用LSTM模型來預(yù)測學(xué)習(xí)路徑和成績. 由于RNN模型的特殊性, 適于處理時間序列數(shù)據(jù), 其中LSTM模型是RNN模型的重要擴展之一, 并充分利用了聚類技術(shù)和LSTM神經(jīng)網(wǎng)絡(luò), 能夠有效處理長時間序列數(shù)據(jù)[42].
常用的課程推薦的深度學(xué)習(xí)模型有: LSTM模型[23]、IUNEU模型[19]. 文獻(xiàn)[43]將深度學(xué)習(xí)模型用于提取學(xué)生隱藏情感和對教育的看法; 文獻(xiàn)[44]設(shè)計了一個基于深度學(xué)習(xí)模型, 該框架能夠提取多模式的課程特征, 如利用課程名稱、課程音頻、課程評論等不同類型的課程, 對在線學(xué)習(xí)平臺進(jìn)行適當(dāng)?shù)耐扑].
目前, 傳統(tǒng)推薦方法的缺點在于: 基于內(nèi)容和協(xié)同過濾都采用淺層模型進(jìn)行預(yù)測, 很難有效學(xué)習(xí)到深層次的用戶和課程之間的交互信息. 但是利用深度學(xué)習(xí)模型能夠挖掘數(shù)據(jù)中潛藏模型, 且學(xué)習(xí)模型結(jié)構(gòu)靈活.
2.3.5 基于深度學(xué)習(xí)的多模態(tài)融合推薦
隨著深度學(xué)習(xí)在圖像識別、情感分析等領(lǐng)域的大量應(yīng)用, 研究者為了使機器能夠獲取更全面的信息, 逐漸將多領(lǐng)域數(shù)據(jù)融合, 實現(xiàn)異質(zhì)信息之間的互補. 如在跨模態(tài)嵌入中將圖像、視頻和文本3種信息進(jìn)行融合[45]. 文獻(xiàn)[46]提出眼動跟蹤器和腦電測量的多模態(tài)反應(yīng)同步測量系統(tǒng), 通過眼睛跟蹤器可以從學(xué)習(xí)者關(guān)注的地方獲取信息, 腦信號可以提供估計學(xué)習(xí)中精神狀態(tài)的線索. 文獻(xiàn)[47]利用在線學(xué)習(xí)系統(tǒng)從心理、生理和行為3個維度收集多模態(tài)行為數(shù)據(jù), 從而更全面地評價整體情況.
多模態(tài)融合能為模型決策提供更多信息, 從而提高了決策總體結(jié)果的準(zhǔn)確率和精準(zhǔn)率, 其難點在于處理異質(zhì)信息、融合方法的選擇以及模態(tài)對齊方式的調(diào)整, 詳見表3.
HarvardX & MITx數(shù)據(jù)集[47]由哈佛大學(xué)和麻省理工學(xué)院聯(lián)合研究團(tuán)隊收集. 數(shù)據(jù)集收集了自2012年至2014年課程參與者的人口統(tǒng)計和歷史軌跡信息, 主要包含290門課程, 24.5萬張證書, 450萬參與者和2800萬學(xué)時. 文獻(xiàn)[48]利用該數(shù)據(jù)集將學(xué)習(xí)者的活動日志分為主動學(xué)習(xí)者和被動學(xué)習(xí)者兩類, 將課程的預(yù)測準(zhǔn)確率提高至92%.
CourseTalk數(shù)據(jù)集[31](https://www.coursetalk.com/)是一個在線課程類的點評網(wǎng)站, 用戶能對感興趣的課程進(jìn)行操作. 目前已收集了Udacity、Coursera和edx等平臺的課程數(shù)據(jù)集. 文獻(xiàn)[31]利用的數(shù)據(jù)主要包括: 4612名學(xué)習(xí)者、304門課程和10萬名注冊學(xué)員.
Moocposts數(shù)據(jù)集[22](https://datastage.Stanford. edu/StanfordMoocPosts/)包含來自斯坦福大學(xué)11門公共在線課程的29604份匿名學(xué)習(xí)者論壇帖子, 該數(shù)據(jù)集的目的是作為測試處理論壇帖子的計算算法基礎(chǔ).
Futurelearn數(shù)據(jù)集[26](www.futurelearn.com)是提供免費學(xué)習(xí)的歐洲在線學(xué)習(xí)信息系統(tǒng), 類似于美國Coursera平臺, 現(xiàn)有超過800萬名學(xué)習(xí)者. 通過Warwick大學(xué)提供的課程數(shù)據(jù)集涉及2013~2017年不同領(lǐng)域的課程.
由于課程推薦數(shù)據(jù)集并不是全部開源, 因此在實驗中學(xué)者都是根據(jù)自身的情況進(jìn)行爬取, 構(gòu)建自身所需數(shù)據(jù)集. 文獻(xiàn)[28]自主爬取了西南大學(xué)2016年12月至2018年6月數(shù)據(jù), 包括488名學(xué)生和25226個文本特征, 詳見表4.
表4 常用課程推薦的數(shù)據(jù)集
常用實驗方法主要有用戶調(diào)查以及離線和在線實驗. 文獻(xiàn)[5,32,48]采用離線和在線實驗相結(jié)合完成; 文獻(xiàn)[21,49]采用全部在線實驗完成; 文獻(xiàn)[50]采用用戶反饋和在線實驗相結(jié)合完成.
常用的推薦指標(biāo)有: 準(zhǔn)確率、召回率、非模型評價打分(F-score)、均方根絕對誤差(RMSE)、歸一化折損累積增益(NDCG)[51]. 文獻(xiàn)[19]使用了命中率和NDCG; 文獻(xiàn)[26]使用了準(zhǔn)確率、召回率和F-score. 本文給出現(xiàn)階段使用最多的RMSE、覆蓋率、NDCG指標(biāo)的具體計算公式. 文獻(xiàn)[48]使用了曲線下面積(AUC)、精確率和召回率的調(diào)和平均值(F1)以及準(zhǔn)確率.
(1)均方根絕對誤差代表樣本離散程度, 其計算公式為:
(2)覆蓋率描述對課程長尾的發(fā)掘能力, 常用的是信息熵, 其計算公式為:
(3)歸一化折損累積增益常用作排序結(jié)果評價, 其計算公式為:
由于MOOC平臺在我國起步較晚, 國內(nèi)研究者將推薦系統(tǒng)引用于在線教育課程推薦領(lǐng)域滯后國外. 因此, 本文通過對推薦系統(tǒng)在課程推薦領(lǐng)域中課程建模、用戶建模和推薦核心算法的綜述, 提出了關(guān)于課程推薦領(lǐng)域需要進(jìn)行的研究有: 改進(jìn)課程的建模方式、提高用戶的建模性能、與深度學(xué)習(xí)相結(jié)合以及與多模態(tài)信息結(jié)合. 目前課程推薦研究的不足主要集中在: (1)課程建模方式忽略了隱性反饋數(shù)據(jù); (2)用戶建模方式缺乏對用戶的細(xì)粒度刻畫; (3)傳統(tǒng)推薦算法已不能滿足當(dāng)前大數(shù)據(jù)時代的課程推薦領(lǐng)域; (4)缺乏對課程多模態(tài)信息融合. 基于上述不足, 未來可以從以下4個方面展開研究:
(1)改進(jìn)課程建模方式. 課程信息的靜態(tài)特性容易獲取, 但動態(tài)特性更能代表學(xué)習(xí)者對課程的喜好程度. 推薦系統(tǒng)在對課程進(jìn)行推薦時容易出現(xiàn)推薦熱門課程, 忽視長尾課程的現(xiàn)象, 但實際中學(xué)習(xí)者的需求正好是那些長尾課程. 因此, 在線教育平臺提高發(fā)掘長尾課程的能力面臨挑戰(zhàn).
(2)改進(jìn)用戶建模方式. 通常用戶的顯性信息容易獲取, 但用戶的隱性反饋數(shù)據(jù)更能構(gòu)建豐富的用戶畫像. 例如將在線課程視頻的時長、次數(shù)、快進(jìn)和快退作為隱性反饋數(shù)據(jù). 因此, 有效發(fā)掘?qū)W習(xí)者的隱性反饋數(shù)據(jù), 將提高推薦系統(tǒng)的準(zhǔn)確率.
(3)與深度學(xué)習(xí)相結(jié)合. 傳統(tǒng)推薦算法已不能很好地適用當(dāng)前大數(shù)據(jù)背景平臺. 因此, 將深度學(xué)習(xí)引入課程推薦系統(tǒng)領(lǐng)域, 優(yōu)化冷啟動和數(shù)據(jù)稀疏問題值得研究. 傳統(tǒng)的推薦模型通常簡單、可解釋性強, 但深度學(xué)習(xí)模型能挖掘深層次特征.
(4)與多模態(tài)信息結(jié)合. 將深度學(xué)習(xí)進(jìn)一步發(fā)展, 不斷推動多模態(tài)機器學(xué)習(xí)的進(jìn)步[52]. 在MOOC平臺中能夠?qū)⒄n程的描述信息、圖片信息、視頻信息進(jìn)行融合, 發(fā)掘融合信息的深度特征, 并將多模態(tài)技術(shù)融入課程推薦系統(tǒng)領(lǐng)域.
[1] 朱柳青. 基于深度學(xué)習(xí)的課程推薦與學(xué)習(xí)預(yù)測模型研究[D]. 杭州: 浙江工商大學(xué), 2018.
[2] Bobadilla J, Ortega F, Hernando A, et al. A collaborative filtering approach to mitigate the new user cold start problem[J]. Knowledge-Based Systems, 2012, 26:225- 238.
[3] Patra B K, Launonen R, Ollikainen V, et al. A new similarity measure using Bhattacharyya coefficient for collaborative filtering in sparse data[J]. Knowledge- Based Systems, 2015, 82:163-177.
[4] 王紹卿, 李鑫鑫, 孫福振, 等. 個性化新聞推薦技術(shù)研究綜述[J]. 計算機科學(xué)與探索, 2020, 14(1):18-29.
[5] Khribi M K, Jemni M, Nasraoui O. Automatic recommendations for E-learning personalization based on web usage mining techniques and information retrieval [C]//2008 Eighth IEEE International Conference on Advanced Learning Technologies, 2008:241-245.
[6] Wen M, Rosé C P. Identifying latent study habits by mining learner behavior patterns in massive open online courses[C]//Proceedings of the 23rd ACM International Conference on Information and Knowledge Management, 2014:1983-1986.
[7] Sengottuvelan P, Gopalakrishnan T, Lokesh Kumar R, et al. A recommendation system for personal learning environments based on learner clicks[J]. International Journal of Applied Engineering Research, 2015, 10: 15316-15321.
[8] Ghauth K I, Abdullah N A. Learning materials recommendation using good learners’ ratings and content- based filtering[J]. Educational Technology Research Development, 2010, 58(6):711-727.
[9] Aher S B, Lobo L. Mining association rule in classified data for course recommender system in e-learning[J]. International Journal of Computer Applications, 2012, 39(7):1-7.
[10] Chen C M, Lee H M, Chen Y H. Personalized e-learning system using item response theory[J]. Computers & Education, 2005, 44(3):237-255.
[11] Salehi M, Kamalabadi I N, Ghoushchi M B G. An effective recommendation framework for personal learning environments using a learner preference tree and a GA[J]. IEEE Transactions on Learning Technologies, 2013, 6(4):350-363.
[12] Salehi M, Pourzaferani M, Razavi S A. Hybrid attribute- based recommender system for learning material using genetic algorithm and a multidimensional information model[J]. Egyptian Informatics Journal, 2013, 14(1):67- 78.
[13] Salehi M, Kamalabadi I N, Ghoushchi M B G. Personalized recommendation of learning material using sequential pattern mining and attribute based collaborative filtering[J]. Education and Information Technologies, 2014, 19(4):713-735.
[14] Burke R. Hybrid recommender systems: Survey and experiments[J]. User Modeling and User-Adapted Inter- action, 2002, 12(4):331-370.
[15] Kla?nja-Mili?evi? A, Vesin B, Ivanovi? M, et al. E- learning personalization based on hybrid recommendation strategy and learning style identification[J]. Computers & Education, 2011, 56(3):885-899.
[16] Chen W, Niu Z, Zhao X, et al. A hybrid recommendation algorithm adapted in e-learning environments[J]. World Wide Web, 2014, 17(2):271-284.
[17] Okubo F, Yamashita T, Shimada A, et al. A neural network approach for students’ performance prediction [C]//Proceedings of the Seventh International Learning Analytics & Knowledge Conference, 2017:598-599.
[18] Zhou Y W, Huang C Q, Hu Q T, et al. Personalized learning full-path recommendation model based on LSTM neural networks[J]. Information Sciences, 2018, 444:135-152.
[19] 厲小軍, 柳虹, 施寒瀟, 等. 基于深度學(xué)習(xí)的課程推薦模型[J]. 浙江大學(xué)學(xué)報(工學(xué)版), 2019, 53(11):2139- 2145; 2162.
[20] Li X, Li X, Tang J T, et al. Improving deep item-based collaborative filtering with Bayesian personalized ranking for MOOC course recommendation[C]//Knowledge Science, Engineering and Management, 2020:247-258.
[21] Zhang H, Yang H, Huang T, et al. DBNCF: Personalized courses recommendation system based on DBN in MOOC environment[C]//2017 International Symposium on Educational Technology (ISET), 2017:106-108.
[22] Harrathi M, Touzani N, Braham R. Toward a personalized recommender system for learning activities in the context of MOOCs[C]//Intelligent Interactive Multimedia Systems and Services, 2017:575-583.
[23] Ange T, Roger N, Aude D, et al. Semi-supervised multimodal deep learning model for polarity detection in arguments[C]//2018 International Joint Conference on Neural Networks (IJCNN), 2018:1-8.
[24] Trirat P, Noree S, Yi M Y. IntelliMOOC: Intelligent online learning framework for MOOC platforms[C]// Proceedings of the 13th International Conference on Educational Data Mining (EDM 2020), 2020:682-685.
[25] Obeidat R, Duwairi R, Al-Aiad A. A collaborative recommendation system for online courses recommendations [C]//2019 International Conference on Deep Learning and Machine Learning in Emerging Applications (Deep-ML), 2019:49-54.
[26] Aljohani T, Cristea A I. Predicting learners’ demographics characteristics: Deep learning ensemble architecture for learners’ characteristics prediction in MOOCs[C]// Proceedings of the 2019 4th International Conference on Information and Education Innovations, 2019:23-27.
[27] Gong J B, Wang S, Wang J L, et al. Attentional graph convolutional networks for knowledge concept re- commendation in MOOCs in a heterogeneous view[C]// Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval, 2020:79-88.
[28] Liu J, Zhang H, Liu Z H. Research on online learning resource recommendation method based on wide & deep and elmo model[J]. Journal of Physics: Conference Series, 2020, 1437:012015.
[29] Dias A, Wives L K. Recommender system for learning objects based in the fusion of social signals, interests, and preferences of learner users in ubiquitous e-learning systems[J]. Personal and Ubiquitous Computing, 2019, 23(2):249-268.
[30] Labarthe H, Bouchet F, Bachelet R, et al. Does a peer recommender foster students’ engagement in MOOCs[J]. International Educational Data Mining Society, 2016, 13(1):418-423.
[31] Pang Y, Jin Y, Zhang Y, et al. Collaborative filtering recommendation for MOOC application[J]. Computer Applications in Engineering Education, 2017, 25(1):120- 128.
[32] 李楊. 機器學(xué)習(xí)排序模型在個性化推薦系統(tǒng)中的應(yīng)用研究[D]. 北京: 北京郵電大學(xué), 2018.
[33] Fu D, Liu Q T, Zhang S, et al. The undergraduate- oriented framework of MOOCs recommender system [C]//2015 International Symposium on Educational Technology (ISET), 2015:115-119.
[34] 閔建. 基于簽到數(shù)據(jù)的餐廳推薦技術(shù)研究[D]. 杭州: 杭州電子科技大學(xué), 2016.
[35] Qi L. A course recommender system of MOOC based on collaborative filtering algorithm with improved pearson correlation coefficient[D]. 武漢: 華中師范大學(xué), 2019.
[36] 孟俊. 融合深度學(xué)習(xí)的課程推薦方法研究[D]. 南昌: 江西師范大學(xué), 2019.
[37] 徐琳. 基于本體的旅游信息推薦[D]. 哈爾濱: 哈爾濱工程大學(xué), 2016.
[38] Zhao X, Liu B Y. Application of personalized re- commendation technology in MOOC system[C]//2020 International Conference on Intelligent Transportation, Big Data & Smart City (ICITBS), 2020:720-723.
[39] Piao G Y, Breslin J G. Analyzing MOOC entries of professionals on LinkedIn for user modeling and personalized MOOC recommendations[C]//Proceedings of the 2016 Conference on User Modeling Adaptation and Personalization, 2016:291-292.
[40] Jannach D, Zanker M, Felfernig A, et al. Recommender Systems[M]. Cambridge: Cambridge University Press, 2009.
[41] Slimani H, Hamal O, El faddouli N E, et al. The hybrid recommendation of digital educational resources in a distance learning environment: The case of MOOC[C]// Proceedings of the 13th International Conference on Intelligent Systems: Theories and Applications, 2020:1-9.
[42] 童俊滔. 基于神經(jīng)網(wǎng)絡(luò)的歌詞生成系統(tǒng)設(shè)計與實現(xiàn)[D]. 成都: 成都理工大學(xué), 2018.
[43] Sultana J, Usha Rani M, Farquad M A H. Deep learning based recommender system using sentiment analysis to reform Indian education[C]//Advances in Computational and Bio-Engineering, 2020:143-150.
[44] Xu W, Zhou Y H. Course video recommendation with multimodal information in online learning platforms: A deep learning framework[J]. British Journal of Educational Technology, 2020, 51(5):1734-1747.
[45] Pan Y W, Mei T, Yao T, et al. Jointly modeling embedding and translation to bridge video and language [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016:4594-4602.
[46] Tamura K, Lu M, Konomi S, et al. Integrating multimodal learning analytics and inclusive learning support systems for people of all ages[C]//Cross-Cultural Design Culture and Society, 2019:469-481.
[47] Wang L Y, He Y F. Online Learning Engagement Assessment Based on Multimodal Behavioral Data[J]. Transactions on Edutainment, 2020, XVI:256-265.
[48] Jain H, Anika. Applying data mining techniques for generating MOOCs recommendations on the basis of learners online activity[C]//2018 IEEE 6th International Conference on MOOCs: Innovation and Technology in Education, 2018:6-13.
[49] Rabahallah K, Mahdaoui L, Azouaou F. MOOCs recommender system using ontology and memory-based collaborative filtering[C]//Proceedings of the 20th Inter- national Conference on Enterprise Information Systems, 2018:635-641.
[50] Zaiane O R. Building a recommender agent for e-learning systems[C]//International Conference on Computers in Education, 2002:55-59.
[51] 劉喬. 基于時間加權(quán)與評分預(yù)測的協(xié)同過濾推薦算法研究[D]. 貴陽: 貴州師范大學(xué), 2016.
[52] 劉建偉, 丁熙浩, 羅雄麟. 多模態(tài)深度學(xué)習(xí)綜述[J]. 計算機應(yīng)用研究, 2020, 37(6):1601-1614.
Course recommendation for MOOC platform: A review
REN Xinwei, JIANG Xianliang*
( Faculty of Electrical Engineering and Computer Science, Ningbo University, Ningbo 315211, China )
With the rapid development of internet technology and online learning, a number of online education platforms have emerged across China. However, these online education platforms cannot share information with each other, which leads to redundancy and overload of curriculum information and difficulties for users to choose. This article reviews the research progress of course recommendation in recent years. First, the related concepts in course recommendation are introduced and the system framework is given. Then the three aspects of course modelling is discussed, including user modelling, and the core algorithm of the recommendation system, etc. Five types of algorithm are presented: the first three categories are content recommendation, collaborative filtering and hybrid recommendation; while the rest two are deep learning recommendation and multi-modal fusion recommendation, and the data set. In the end, the experimental methods and evaluation indicators are summarized, and the personalized course recommendation technology has also been projected.
deep learning; recommendation system; course recommendation; course modeling; user modeling
TP391.3; G423
A
1001-5132(2022)01-0048-09
2021?02?02.
寧波大學(xué)學(xué)報(理工版)網(wǎng)址: http://journallg.nbu.edu.cn/
浙江省高等教育教學(xué)改革研究項目(JG20180070); 寧波大學(xué)教學(xué)研究項目(JYXMXZD2021024, JYXMXZD202019).
任鑫偉(1993-), 男, 陜西寶雞人, 在讀碩士研究生, 主要研究方向: 推薦系統(tǒng). E-mail: akon_ren@163.com
江先亮(1986-), 男, 安徽黃山人, 博士/講師, 主要研究方向: 智能網(wǎng)絡(luò)系統(tǒng)及智慧教育. E-mail: jiangxianliang@nbu.edu.cn
(責(zé)任編輯 史小麗)