肖佳
【摘? 要】 為解決課程推薦領(lǐng)域存在的數(shù)據(jù)稀疏性高、啟動慢問題,保證推薦結(jié)果的精確性和高效性,文章改進(jìn)基于知識圖譜的多任務(wù)特征推薦模型的基礎(chǔ)上,提出一種帶有知識感知圖神經(jīng)網(wǎng)絡(luò)推薦算法,從而達(dá)到精確獲取學(xué)生潛在興趣的目的。文章以“慕課平臺(MOOC)”為案例,結(jié)合所采集的藝術(shù)類、計算機(jī)類學(xué)生課程交互數(shù)據(jù)和課程屬性,分別使用18235條交互數(shù)據(jù)和44700條課程屬性,對帶有知識感知圖神經(jīng)網(wǎng)絡(luò)推薦算法性能進(jìn)行驗(yàn)證。結(jié)果表明:帶有知識感知圖神經(jīng)網(wǎng)絡(luò)推薦算法的曲線下面積、準(zhǔn)確率分別達(dá)到82.3%、78.2%,比奇異值分解模型提升了15%。所以,知識圖譜在提升課程推薦性能方面發(fā)揮出重要作用,可以有效解決課程推薦數(shù)據(jù)稀疏性問題,完全符合實(shí)際應(yīng)用需求。
【關(guān)鍵詞】 知識圖譜;精準(zhǔn)課程;推薦算法;神經(jīng)網(wǎng)絡(luò)
在互聯(lián)網(wǎng)時代背景下,網(wǎng)絡(luò)課程資源變得越來越龐大化、多樣化。在這樣的情形下,學(xué)習(xí)者無法從海量的網(wǎng)絡(luò)課程資源中精確獲取所需要的學(xué)習(xí)資源,降低學(xué)習(xí)者的學(xué)習(xí)性和主動性。而基于知識圖譜的課程推薦算法的運(yùn)用,可以有效地解決以上問題,這是由于知識圖譜憑借著自身獨(dú)特存儲結(jié)構(gòu),可以實(shí)現(xiàn)對個性化課程資源的精確化、實(shí)時化推薦。文章結(jié)合課程資源數(shù)據(jù),構(gòu)建相應(yīng)的知識圖譜,并提出一種新型、先進(jìn)的帶有知識感知圖神經(jīng)網(wǎng)絡(luò)推薦算法,以期提高知識圖譜推薦性能。
一、面向課程推薦的知識圖譜構(gòu)建
(一)課程領(lǐng)域知識圖譜的構(gòu)建
在精準(zhǔn)構(gòu)建課程知識圖譜期間,需要對知識圖譜數(shù)據(jù)模型進(jìn)行自頂而下的設(shè)計,然后,利用所設(shè)計好的知識圖譜模型,有效填充和完善相關(guān)知識數(shù)據(jù),此時,課程領(lǐng)域知識圖譜構(gòu)建完成。該知識圖譜具體構(gòu)建步驟如下:1. 根據(jù)所確定好的課程數(shù)據(jù)源,完成對課程領(lǐng)域本體模型的構(gòu)建;2. 通過對課程數(shù)據(jù)源進(jìn)行精確化搜索,可以快速查找和提取相關(guān)實(shí)體信息;3. 借助圖數(shù)據(jù)庫,統(tǒng)一化存儲所提取到的實(shí)體信息,從而達(dá)到豐富知識圖譜的目的;4.對所構(gòu)建好的課程領(lǐng)域知識圖譜進(jìn)行向量化表示,從而起到有效融合推薦模型和知識圖譜的作用。
(二)課程領(lǐng)域本體建模
在構(gòu)建知識圖譜期間,技術(shù)人員要重視課程領(lǐng)域本體建模這一環(huán)節(jié),通過進(jìn)行課程領(lǐng)域本體建模,可以促使課程相關(guān)專業(yè)術(shù)語變得更加科學(xué)化、準(zhǔn)確化,為后期構(gòu)建知識圖譜創(chuàng)造了良好的條件。在進(jìn)行本體建模期間,需要采用圖文并茂的方式,形象化、生動化表示課程信息,確保各種課程相關(guān)信息之間建立良好的連接關(guān)系。本體建模具體操作步驟如下:首先,確定本體建模目的。為保證課程領(lǐng)域本體建模的有效性和可靠性,需要對課程資源相關(guān)概念進(jìn)行抽象化處理,并利用課程本體,對所提取的知識模塊進(jìn)行不斷的優(yōu)化和填充,保證課程知識圖譜構(gòu)建質(zhì)量和效率。其次,收集課程數(shù)據(jù)信息。借助某在線IT技能網(wǎng)站,可以抓取所需要的課程資源數(shù)據(jù)。該網(wǎng)站為學(xué)習(xí)者提供多樣化專業(yè)課程資源。其課程形式除了涉及傳統(tǒng)視頻課程形式外,還用到在線編碼的實(shí)驗(yàn)課程形式。在爬蟲技術(shù)的應(yīng)用背景下,可以實(shí)時抓取課程簡介、課程種類、課程方向、課程作者等關(guān)鍵字段進(jìn)行實(shí)時抓取。最后,分類課程領(lǐng)域?qū)嶓w概念。結(jié)合學(xué)習(xí)者對課程信息的興趣點(diǎn),根據(jù)學(xué)習(xí)者與課程之間的匹配程度,進(jìn)行精確推薦。課程領(lǐng)域?qū)嶓w概念可以劃分為課程方向、課程種類、課程形式等多種類型,并對不同分類的課程概念進(jìn)行屬性定義。
(三)課程領(lǐng)域知識抽取
在抽取課程領(lǐng)域知識時,主要涉及以下兩種抽取方式:1. 實(shí)體抽取。在進(jìn)行實(shí)體抽取期間,需要結(jié)合課程標(biāo)題,查詢和抽取重要的知識關(guān)鍵詞。在課程領(lǐng)域知識圖譜中,所抽取的詞匯主要包含深度學(xué)習(xí)、數(shù)據(jù)結(jié)構(gòu)、圖像處理等多種專業(yè)詞匯。2. 關(guān)系抽取。結(jié)合課程本體屬性,從大量的課程數(shù)據(jù)源中抽取類型、形式、屬于、作者、包含等多重關(guān)系。
(四)知識圖譜存儲與可視化
應(yīng)用所構(gòu)建好的課程領(lǐng)域本體模型抽取所需要的實(shí)體信息,并對這些實(shí)體信息進(jìn)行安全化存儲。知識圖譜具有功能強(qiáng)大、安全可靠、結(jié)構(gòu)復(fù)雜等特點(diǎn),如果運(yùn)用MySQL關(guān)系型數(shù)據(jù)庫,對知識圖譜相關(guān)數(shù)據(jù)進(jìn)行存儲,會降低其存儲性能,導(dǎo)致數(shù)據(jù)查詢過慢,而Neo4j圖形數(shù)據(jù)庫的出現(xiàn)和應(yīng)用可以有效解決以上問題。該數(shù)據(jù)庫在存儲數(shù)據(jù)期間主要用到屬性圖模型。在Neo4j圖形數(shù)據(jù)庫內(nèi)含有節(jié)點(diǎn)和關(guān)系兩種數(shù)據(jù),借助關(guān)系,可以將多個節(jié)點(diǎn)進(jìn)行有效連接,以三元組的方式,向Neo4j圖形數(shù)據(jù)庫中存儲所獲取到的知識實(shí)體和關(guān)系。
(五)知識圖譜嵌入
當(dāng)課程領(lǐng)域知識圖譜構(gòu)建完成后,仍然需要采用文本數(shù)據(jù)形式真實(shí)有效地呈現(xiàn)知識圖譜中的實(shí)體和關(guān)系等相關(guān)信息,此時,利用知識嵌入網(wǎng)絡(luò),對知識圖譜中的實(shí)體和關(guān)系相關(guān)信息進(jìn)行向量化處理,確保各個概念實(shí)體之間形成一一對應(yīng)的關(guān)系,使其統(tǒng)一映射到相應(yīng)的低緯向量空間中。
二、基于知識圖譜的多任務(wù)特征推薦模型建立
為突破傳統(tǒng)課程推薦算法的局限性,文章建立基于知識圖譜的多任務(wù)特征推薦模型,該模型將知識圖譜作為推薦輔助性任務(wù),各個任務(wù)之間緊密聯(lián)系,這是由于單個課程與知識圖譜的多個實(shí)體之間存在一定的關(guān)聯(lián)度,因此,單個課程結(jié)構(gòu)與其實(shí)體結(jié)構(gòu)比較類似。在進(jìn)行基于知識圖譜的多任務(wù)特征推薦模型構(gòu)建時,要添加交叉壓縮單元,借助該單元,明確單個課程與多個實(shí)體特征之間的高階交互關(guān)系,并對多個任務(wù)交叉知識轉(zhuǎn)移能力進(jìn)行有效調(diào)整和控制。在交叉壓縮單元的應(yīng)用背景下,可以相互補(bǔ)充單個課程與多個實(shí)體表征,防止多個任務(wù)出現(xiàn)噪聲問題,使得不同任務(wù)之間表現(xiàn)出較高的泛化能力。該推薦模型主要是由以下三個模塊組成:1. 推薦模塊。該模塊中的輸入量是課程向量和學(xué)習(xí)者向量;輸出量是學(xué)習(xí)者的課程選課率。在推薦模塊中,所用到的低階部分直接應(yīng)用于多層感知器中,從而達(dá)到有效及時處理和篩選學(xué)習(xí)者的特征信息。另外,在交叉壓縮單元的應(yīng)用背景下,可以統(tǒng)一化處理課程部分內(nèi)容,并自動返回相應(yīng)的課程特征信息,最后,將學(xué)習(xí)者特征與課程特征進(jìn)行拼接,利用函數(shù),計算和輸出相應(yīng)的選課預(yù)測值。2. 知識圖譜嵌入模塊。知識圖譜嵌入模塊主要是指采用直接嵌入的方式,將實(shí)體和關(guān)系統(tǒng)一設(shè)置到某一向量空間中,并保留原有結(jié)構(gòu)不變。3. 交叉壓縮單元。借助該模塊,可以實(shí)現(xiàn)對單個課程與多個實(shí)體之間特征交互關(guān)系的有效模擬。在課程推薦模塊中,其課程和知識圖譜嵌入模塊中實(shí)體之間存在一對一的關(guān)系,借助交叉壓縮單元,可以對中間層進(jìn)行有效的連接。
三、基于知識圖譜的多任務(wù)特征推薦模型算法優(yōu)化
首先,要淘汰和摒棄推薦模塊中的協(xié)同過濾算法,運(yùn)用優(yōu)化后的算法,保證維度變換效果,以達(dá)到高效化壓縮數(shù)據(jù)的目的。其次,利用優(yōu)化后的算法,對所需要的低階特征進(jìn)行獲取,并借助深度網(wǎng)絡(luò),獲取相應(yīng)的高階特征,然后,采用集成處理的方式,將設(shè)計好的圖卷積神經(jīng)網(wǎng)絡(luò)框架直接引入知識圖譜中,從而形成一種新型、先進(jìn)的帶有知識感知圖神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)可以精確化表示和學(xué)習(xí)知識圖譜中的各個節(jié)點(diǎn)。最后,配合使用交叉壓縮單元和深層網(wǎng)絡(luò),構(gòu)建壓縮矩陣模型,從而實(shí)現(xiàn)對高維特征的精確化提取??傊?,文章所提出的帶有知識感知圖神經(jīng)網(wǎng)絡(luò)推薦算法,可以實(shí)現(xiàn)對學(xué)生課程資源的精確化推薦,在知識圖譜中,借助該推薦算法,可以實(shí)時獲取不同實(shí)體之間的高階連接關(guān)系,并有效表示出各個課程實(shí)體,聚合處理課程實(shí)體鄰域節(jié)點(diǎn),從而達(dá)到實(shí)現(xiàn)一次迭代的目的。
四、實(shí)驗(yàn)對比與分析
在進(jìn)行對比實(shí)驗(yàn)時,為有效地驗(yàn)證文章推薦算法的有效性和可靠性,文章選用了MOOC平臺中的藝術(shù)類、計算機(jī)類學(xué)生課程交互數(shù)據(jù)和課程屬性等數(shù)據(jù)集,其中,藝術(shù)類數(shù)據(jù)集含有110門課程信息以及15915位學(xué)生對110門課程的評分;計算機(jī)類數(shù)據(jù)集主要包含298門課程信息以及9023位學(xué)生對298門課程的評分,為解決交互矩陣的稀疏性問題,將計算機(jī)類數(shù)據(jù)集中學(xué)生交互次數(shù)設(shè)置在5以上。數(shù)據(jù)集基本統(tǒng)計信息如表1所示。
為驗(yàn)證文章提出的課程推薦算法的有效性,需要將其與奇異值分解推薦模型、基于特征的分解推薦模型、融合通道的深度推薦模型三種傳統(tǒng)推薦模型進(jìn)行比較和分析。文章將ROC曲線下面積、準(zhǔn)確率設(shè)置為推薦算法性能評價指標(biāo),有效地評價和衡量各個算法性能。其中,推薦模型準(zhǔn)確率(ACC)計算公式如下:
式中TP、TN、FP、FN分別代表課程樣本被正確推薦給學(xué)生者的數(shù)量、不屬于推薦課程的樣本沒有推薦給學(xué)生的課程數(shù)量、不屬于正確推薦課程樣本被錯誤推薦給學(xué)生者的數(shù)量、屬于推薦課程的樣本沒有推薦給學(xué)生的課程數(shù)量。
在帶有知識感知圖神經(jīng)網(wǎng)絡(luò)推薦模型中,結(jié)合驗(yàn)證集,完成對學(xué)生課程評分矩陣的構(gòu)建,該矩陣屬于稀疏矩陣,測試集、驗(yàn)證集、訓(xùn)練集三者之間比例為1:1:3,單個實(shí)驗(yàn)重復(fù)操作四遍,然后,對各個推薦模型的評價性能進(jìn)行計算。運(yùn)用點(diǎn)擊率預(yù)測法,對推薦性能進(jìn)行評估,在整個測試集中各個交互實(shí)例中,運(yùn)用訓(xùn)練后的推薦模型進(jìn)行處理,并將預(yù)測點(diǎn)擊概率輸出和呈現(xiàn)在測試人員面前。最后,借助曲線下面積、準(zhǔn)確率,對最終預(yù)測結(jié)果進(jìn)行評估。課程點(diǎn)擊預(yù)測概率如表2所示,從數(shù)據(jù)可以看出,文章所提出的帶有知識感知圖神經(jīng)網(wǎng)絡(luò)推薦算法所獲得的曲線下面積、準(zhǔn)確率相對較高,遠(yuǎn)遠(yuǎn)超過其他傳統(tǒng)推薦模型,因此,文章推薦算法具有較高的有效性和可靠性,可以實(shí)現(xiàn)課程資源的精確化推薦。
五、結(jié)語
綜上所述,在進(jìn)行課程推薦時,運(yùn)用知識圖譜完成對知識抽取、表示和存儲,并在構(gòu)建和優(yōu)化基于知識圖譜的多任務(wù)特征推薦模型的基礎(chǔ)上,提出一種帶有知識感知圖神經(jīng)網(wǎng)絡(luò)推薦算法。該推薦算法借助聚集鄰域信息,有效地提取和獲取用戶潛在興趣。結(jié)合藝術(shù)類、計算機(jī)類學(xué)生課程交互數(shù)據(jù)和課程屬性實(shí)驗(yàn)結(jié)果,不難發(fā)現(xiàn),文章所提出的推薦算法明顯優(yōu)于其他傳統(tǒng)推薦算法,可以提高課程資源推薦結(jié)果的精確性和高效性,為教育領(lǐng)域的發(fā)展提供新的思路和方法,給學(xué)生提供個性化的課程推薦,避免學(xué)生盲目地選擇不適宜于自身發(fā)展方向的課程,從而提高教學(xué)資源的利用率和選課管理系統(tǒng)的運(yùn)行效率。總之,文章所提出的帶有知識感知圖神經(jīng)網(wǎng)絡(luò)推薦算法具有較高的有效性和可靠性,可滿足學(xué)習(xí)者查詢和調(diào)用個性化課程資源應(yīng)用需求,有效地提高學(xué)習(xí)者的學(xué)習(xí)效率和效果。