聶黎生
(江蘇師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221116)
隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,良好的交互技術(shù)和豐富的在線(xiàn)資源使學(xué)習(xí)變得更加便捷、自由、開(kāi)放,徹底改變了傳統(tǒng)的學(xué)習(xí)方式,實(shí)現(xiàn)了教育領(lǐng)域的顛覆性創(chuàng)新。不同的學(xué)習(xí)者知識(shí)結(jié)構(gòu)、知識(shí)能力、學(xué)習(xí)能力和興趣偏好千差萬(wàn)別。通過(guò)挖掘?qū)W習(xí)者的學(xué)習(xí)偏好,在線(xiàn)學(xué)習(xí)系統(tǒng)可以準(zhǔn)確推薦符合學(xué)習(xí)者學(xué)習(xí)需求的個(gè)性化學(xué)習(xí)資源,從而為其提供及時(shí)的資源推薦服務(wù)[1-2]。為了提高學(xué)習(xí)資源個(gè)性化推薦精度,眾多學(xué)者進(jìn)行了深入研究。文獻(xiàn)[3]分析在線(xiàn)學(xué)習(xí)的行為特征,挖掘?qū)W習(xí)者的性格特征與學(xué)習(xí)效率的關(guān)系,實(shí)現(xiàn)個(gè)性化學(xué)習(xí)方法推薦。文獻(xiàn)[4-5]認(rèn)為用戶(hù)之間的相似關(guān)系對(duì)于發(fā)現(xiàn)利益重疊的群體至關(guān)重要,可以產(chǎn)生多重相似關(guān)系和利益集群的形成?;诖碎_(kāi)發(fā)了一種層次興趣重疊檢測(cè)方法,并提出了個(gè)性化推薦模式。文獻(xiàn)[6-7]通過(guò)利用知識(shí)圖譜構(gòu)建知識(shí)點(diǎn)體系,提出了知識(shí)表示-協(xié)同過(guò)濾相結(jié)合的方式推薦有效資源,解決在線(xiàn)學(xué)習(xí)導(dǎo)航問(wèn)題。文獻(xiàn)[8]采用聚類(lèi)算法將具有相同興趣的用戶(hù)聚集到同一個(gè)集群中為用戶(hù)推薦可能喜歡的項(xiàng)目,從而提高推薦效率和精度。文獻(xiàn)[9]基于本體和順序模式挖掘的混合知識(shí)對(duì)電子資源進(jìn)行有效推薦。文獻(xiàn)[10]則將地理位置近鄰的用戶(hù)具有更為相似的訪(fǎng)問(wèn)服務(wù)作為預(yù)測(cè)依據(jù)。文中基于學(xué)習(xí)者的學(xué)習(xí)行為和興趣偏好,采用改進(jìn)的協(xié)同過(guò)濾個(gè)性化推薦算法,從學(xué)習(xí)者自主學(xué)習(xí)的角度實(shí)現(xiàn)學(xué)習(xí)資源個(gè)性化推薦,有效緩解傳統(tǒng)協(xié)同過(guò)濾推薦算法存在的冷啟動(dòng)和矩陣稀疏性等問(wèn)題。
數(shù)字化時(shí)代在線(xiàn)學(xué)習(xí)產(chǎn)生的行為數(shù)據(jù)凸顯重要,通過(guò)挖掘其背后隱含的重要信息,能夠得到更加豐富的內(nèi)容甚至超出人們的期望。文中基于“學(xué)習(xí)者-資源”二元網(wǎng)絡(luò),依據(jù)學(xué)習(xí)者在線(xiàn)學(xué)習(xí)生成的學(xué)習(xí)行為,以協(xié)同過(guò)濾技術(shù)算法為核心,構(gòu)建學(xué)習(xí)資源個(gè)性化推薦系統(tǒng)模型,如圖1所示。該模型的關(guān)鍵是通過(guò)個(gè)性化主動(dòng)推薦服務(wù),實(shí)現(xiàn)推送符合學(xué)習(xí)者本身知識(shí)水平和學(xué)習(xí)偏好的學(xué)習(xí)資源,達(dá)到與原有知識(shí)主動(dòng)、快速的銜接,提高學(xué)習(xí)者的學(xué)習(xí)效率。
圖1 個(gè)性化資源推薦系統(tǒng)模型
學(xué)習(xí)行為是個(gè)性化推薦系統(tǒng)的依據(jù)。學(xué)習(xí)者在線(xiàn)學(xué)習(xí)過(guò)程中會(huì)產(chǎn)生大量的學(xué)習(xí)行為直接或間接地反映了學(xué)習(xí)者的學(xué)習(xí)偏好。通過(guò)收集和記錄學(xué)習(xí)者的學(xué)習(xí)行為,進(jìn)一步挖掘?qū)W習(xí)過(guò)程中產(chǎn)生的瀏覽、收藏、分享、評(píng)論等學(xué)習(xí)行為數(shù)據(jù)進(jìn)行量化分析處理,并建立學(xué)習(xí)者行為模型,清楚地了解學(xué)習(xí)者的學(xué)習(xí)偏好。
學(xué)習(xí)資源是個(gè)性化推薦系統(tǒng)的基礎(chǔ)。學(xué)習(xí)資源庫(kù)支持文本、音頻和視頻等多種媒體類(lèi)型,為學(xué)習(xí)者提供全面、完善且有助于提高認(rèn)知水平的學(xué)習(xí)資源。為了方便對(duì)學(xué)習(xí)資源內(nèi)容進(jìn)行分類(lèi),實(shí)現(xiàn)資源的統(tǒng)一管理和高度共享,學(xué)習(xí)資源庫(kù)將所有資源都加入了知識(shí)點(diǎn)屬性標(biāo)簽。
協(xié)同過(guò)濾是個(gè)性化推薦系統(tǒng)的核心。文中通過(guò)挖掘和分析學(xué)習(xí)者的歷史學(xué)習(xí)行為,準(zhǔn)確預(yù)測(cè)學(xué)習(xí)者潛在的學(xué)習(xí)偏好,進(jìn)而向其推送適合的學(xué)習(xí)資源,實(shí)現(xiàn)個(gè)性化推薦服務(wù),優(yōu)化學(xué)習(xí)者的學(xué)習(xí)體驗(yàn)。傳統(tǒng)的協(xié)同過(guò)濾推薦算法存在冷啟動(dòng)和矩陣稀疏性等問(wèn)題,其過(guò)分依賴(lài)學(xué)習(xí)者對(duì)資源的評(píng)分導(dǎo)致推薦結(jié)果精度受到影響。文中將學(xué)習(xí)行為融入到協(xié)同過(guò)濾算法并對(duì)其做出改進(jìn),在矩陣初始化時(shí),如果學(xué)習(xí)者對(duì)某學(xué)習(xí)資源評(píng)價(jià)較少,則挖掘?qū)W習(xí)者對(duì)資源的其他行為并且將學(xué)習(xí)者行為模型數(shù)字化為學(xué)習(xí)權(quán)重加入到相似性計(jì)算中,有效地緩解矩陣的稀疏性問(wèn)題,使推薦精度大幅提高。
學(xué)習(xí)者模型構(gòu)建過(guò)程其實(shí)質(zhì)就是學(xué)習(xí)者-學(xué)習(xí)資源評(píng)分矩陣的形成過(guò)程,在推薦過(guò)程中若計(jì)算出的矩陣過(guò)于稀疏,該算法通過(guò)挖掘?qū)W習(xí)者隱式學(xué)習(xí)行為并融入到推薦系統(tǒng),避免矩陣稀疏對(duì)推薦結(jié)果造成的不利影響。通過(guò)充分利用與其相似學(xué)習(xí)者信息進(jìn)行學(xué)習(xí)者聚類(lèi)分析,基于相似學(xué)習(xí)者的學(xué)習(xí)偏好預(yù)測(cè)目標(biāo)學(xué)習(xí)者的學(xué)習(xí)需求,實(shí)現(xiàn)學(xué)習(xí)資源個(gè)性化推薦,提高學(xué)習(xí)效率。
系統(tǒng)采用知識(shí)結(jié)構(gòu)對(duì)學(xué)習(xí)資源建立知識(shí)體系。首先將學(xué)習(xí)者對(duì)學(xué)習(xí)資源的評(píng)價(jià)轉(zhuǎn)化為n*m階矩陣:
(1)
該矩陣由n個(gè)學(xué)習(xí)者參與對(duì)m個(gè)學(xué)習(xí)資源的評(píng)分構(gòu)成,式中Rij(i∈[1,n],j∈[1,m])代表了學(xué)習(xí)者i對(duì)學(xué)習(xí)資源j的評(píng)分。
一方面由于學(xué)習(xí)者之間選擇的差異性,導(dǎo)致學(xué)習(xí)者的評(píng)分差別非常大;另一方面學(xué)習(xí)資源和學(xué)習(xí)者數(shù)量的增長(zhǎng),必然存在有些學(xué)習(xí)資源沒(méi)有經(jīng)過(guò)學(xué)習(xí)者的評(píng)價(jià),同時(shí)由于系統(tǒng)無(wú)法獲取新進(jìn)入學(xué)習(xí)者的學(xué)習(xí)偏好,從而導(dǎo)致新增的學(xué)習(xí)者和學(xué)習(xí)資源無(wú)法獲得推薦。為了緩解上述數(shù)據(jù)稀疏性和冷啟動(dòng)帶來(lái)的問(wèn)題,可以為矩陣稀疏性設(shè)置一個(gè)臨界閾值x,并通過(guò)式(2)初步判別矩陣是否稀疏:
(2)
其中,NumEval為學(xué)習(xí)者對(duì)學(xué)習(xí)資源的評(píng)價(jià)數(shù)量,NumLearner、NumRes分別為學(xué)習(xí)者和學(xué)習(xí)資源數(shù)量。當(dāng)Sparsity S(Learner)=1*B+2*F+3*S+5*C (3) 其中,對(duì)不同行為賦予的分?jǐn)?shù)為1,2,3,5,但這個(gè)值應(yīng)該不斷調(diào)整。當(dāng)學(xué)習(xí)者數(shù)量少的時(shí)候,各項(xiàng)事件都小,此時(shí)需要提高每個(gè)事件的行為分值來(lái)提升學(xué)習(xí)者行為的影響力[11];當(dāng)學(xué)習(xí)者規(guī)模變大時(shí),行為分值也應(yīng)該逐漸降低??紤]到學(xué)習(xí)者數(shù)量的動(dòng)態(tài)變化,采用自適應(yīng)調(diào)整行為權(quán)重得分φ: (4) 其中,S(Learner)i表示第i個(gè)學(xué)習(xí)者行為得分,n表示學(xué)習(xí)者總數(shù)。這樣就保證了在學(xué)習(xí)者規(guī)模的動(dòng)態(tài)變化情況下仍能產(chǎn)生基本穩(wěn)定的行為得分,然后將格式化學(xué)習(xí)者權(quán)重值φ,添加到評(píng)價(jià)矩陣中。 在協(xié)同過(guò)濾算法中,最近鄰居表示是最為關(guān)鍵的一步,決定著學(xué)習(xí)資源個(gè)性化推薦的精度。依據(jù)學(xué)習(xí)者之間相似度的計(jì)算值,發(fā)現(xiàn)相似度較高的目標(biāo)學(xué)習(xí)者并且根據(jù)其學(xué)習(xí)行為信息,預(yù)測(cè)與學(xué)習(xí)者興趣偏好相匹配的學(xué)習(xí)資源并推薦[12]。根據(jù)式1,取出n個(gè)學(xué)習(xí)者對(duì)m個(gè)學(xué)習(xí)資源的評(píng)分,計(jì)算學(xué)習(xí)者之間的相似度。由于不同評(píng)價(jià)算法之間存在差異性,為了降低學(xué)習(xí)者主觀性評(píng)分對(duì)研究結(jié)果的不利影響,通過(guò)對(duì)余弦相似度算法進(jìn)行修正,在相似度計(jì)算時(shí)將每個(gè)資源的評(píng)分減去該學(xué)習(xí)者對(duì)所有資源的平均評(píng)分[13]。該算法將學(xué)習(xí)者對(duì)資源的評(píng)分看作是m維的向量,假設(shè)i和j分別代表兩個(gè)不同的學(xué)習(xí)者,采用修正后余弦相似度算法計(jì)算兩者間的相似度Sim(i,j)。具體計(jì)算方法為: (5) 文中對(duì)式(5)相似性計(jì)算方法進(jìn)行了改進(jìn),將計(jì)算的學(xué)習(xí)行為權(quán)重φ融入到相似性計(jì)算中。改進(jìn)后的計(jì)算方法為: Sim(i,j)= (6) 相似度計(jì)算完成后,按照目標(biāo)學(xué)習(xí)者a和其他學(xué)習(xí)者的相似度,選擇相似度最為接近的n個(gè)學(xué)習(xí)者構(gòu)成待推薦近鄰集Z={Ld,d∈[1,n]}。余弦值越接近1,表明兩個(gè)向量越相似;反之越接近0,表明兩個(gè)向量越不相似。 根據(jù)式(6),基于生成的目標(biāo)學(xué)習(xí)者a的近鄰集,在包含學(xué)習(xí)者a的全部學(xué)習(xí)者評(píng)分集合中除去目標(biāo)學(xué)習(xí)者的所有已評(píng)分學(xué)習(xí)資源,可得目標(biāo)學(xué)習(xí)者的待預(yù)測(cè)評(píng)分資源Sa。計(jì)算目標(biāo)學(xué)習(xí)者a對(duì)每一學(xué)習(xí)資源t∈Sa的預(yù)測(cè)評(píng)分,降序排序選取評(píng)分最高的前N項(xiàng)作為T(mén)op-N推薦給目標(biāo)學(xué)習(xí)者。由于不同學(xué)習(xí)者評(píng)價(jià)存在差異性,推薦結(jié)果采用以下方式: (7) 為驗(yàn)證文中個(gè)性化推薦方法的有效性,實(shí)驗(yàn)數(shù)據(jù)集來(lái)源于“LiveCourse在線(xiàn)課程平臺(tái)”,利用MySQL數(shù)據(jù)庫(kù)存儲(chǔ)領(lǐng)域?qū)<覍?duì)課程學(xué)習(xí)資源標(biāo)注了90個(gè)知識(shí)點(diǎn)以及知識(shí)點(diǎn)之間的關(guān)聯(lián)關(guān)系和相應(yīng)的學(xué)習(xí)資源。數(shù)據(jù)集由65名學(xué)習(xí)者在4個(gè)月內(nèi)對(duì)900個(gè)學(xué)習(xí)資源,包含138個(gè)視頻、287個(gè)幻燈片、475個(gè)文本資源的21 738條學(xué)習(xí)行為數(shù)據(jù)構(gòu)成。實(shí)驗(yàn)主要提取瀏覽(B)、收藏(F)、分享(S)、評(píng)論(C)這四種學(xué)習(xí)行為數(shù)據(jù),按照1∶4分成訓(xùn)練集和測(cè)試集兩部分。 依據(jù)學(xué)習(xí)者在訓(xùn)練集中的學(xué)習(xí)行為,通過(guò)文中算法與基于矩陣分解的協(xié)同過(guò)濾算法(probabilistic matrix factorization,PMF)、基于卷積神經(jīng)網(wǎng)絡(luò)的推薦算法(convolutional neural networks,CNN)分別向?qū)W習(xí)者推薦學(xué)習(xí)資源,評(píng)估算法的性能。精確率和召回率通常用來(lái)反映推薦算法性能,精確率反映推薦的精度,召回率衡量推薦系統(tǒng)的查全率。但也有可能出現(xiàn)推薦系統(tǒng)具有較高的精確率而召回率卻很低的矛盾狀況,因此單一的指標(biāo)不能較為全面地評(píng)價(jià)推薦算法的好壞[14]。為了平衡二者之間的影響,通過(guò)引入了綜合評(píng)價(jià)指標(biāo)F-Measure和MAE評(píng)價(jià)各算法性能。F-measure值越高表明實(shí)驗(yàn)結(jié)果越好,其計(jì)算公式如下: (8) 平均絕對(duì)誤差(MAE)用于計(jì)算預(yù)測(cè)評(píng)分和實(shí)際評(píng)分之間的差異,是評(píng)判推薦系統(tǒng)結(jié)果精準(zhǔn)與否的重要指標(biāo)。推薦算法中,設(shè)置預(yù)測(cè)推薦結(jié)果為二元值1或0,分別代表推薦資源和學(xué)習(xí)者習(xí)知識(shí)點(diǎn)是否一致。其計(jì)算公式如下: (9) 其中,N表示推薦的學(xué)習(xí)資源數(shù)量,Pu,i表示學(xué)習(xí)者已學(xué)習(xí)的資源,此處Pu,i的值為1,ru,i表示推薦結(jié)果是否準(zhǔn)確的指標(biāo)值,如果推薦結(jié)果和學(xué)習(xí)者學(xué)習(xí)的知識(shí)點(diǎn)一致,則ru,i的值為1,否則ru,i的值為0。因此,MAE值越小表示算法推薦精度越高,反之則表示推薦精度越低。 實(shí)驗(yàn)分別選取推薦資源數(shù)量12,24,36,48,60驗(yàn)證不同算法的性能,通過(guò)圖2可以看出文中算法F-measure值高于其他兩種算法,具有明顯的優(yōu)勢(shì),表明推薦結(jié)果較好;在推薦資源數(shù)量M為36左右時(shí),可以得到較高的推薦精度,學(xué)習(xí)資源個(gè)性化推薦結(jié)果更加符合學(xué)生的實(shí)際需求。M值的選取對(duì)于推薦系統(tǒng)精度比較重要,但是推薦結(jié)果的精度對(duì)M值也不是非常敏感,二者之間不成線(xiàn)性關(guān)系,只要選擇合適的范圍就可以獲得較高的推薦精度。 圖2 不同算法F-Measure值對(duì)比 圖3顯示了近鄰集數(shù)量分別為10,20,30,40,50,推薦學(xué)習(xí)資源數(shù)量為36的情況下不同算法的MAE值,測(cè)試結(jié)果表明文中算法的MAE值在不同近鄰集數(shù)量下都明顯低于其他算法,說(shuō)明文中算法推薦質(zhì)量最高,推薦結(jié)果符合目標(biāo)學(xué)習(xí)者的學(xué)習(xí)偏好。隨著近鄰集數(shù)量的增加、數(shù)據(jù)的稀疏性降低,算法收斂的速度加快[15],MAE值逐漸降低最后趨于穩(wěn)定。實(shí)驗(yàn)結(jié)果中Top-N的N值為選取的學(xué)習(xí)者相似度較大的N個(gè)學(xué)習(xí)者作為近鄰集,非最終推薦列表的Top-N。 圖3 不同算法MAE值對(duì)比 針對(duì)如何提高學(xué)習(xí)資源個(gè)性化推薦的精度與效率問(wèn)題,通過(guò)構(gòu)建學(xué)習(xí)者-學(xué)習(xí)資源的評(píng)分矩陣,綜合考慮學(xué)習(xí)者的學(xué)習(xí)行為,采用改進(jìn)的相似度算法實(shí)現(xiàn)學(xué)習(xí)資源的個(gè)性化推薦。實(shí)驗(yàn)結(jié)果表明該方法優(yōu)化了學(xué)習(xí)資源個(gè)性化推薦過(guò)程,推薦結(jié)果精度更高,效果更好。未來(lái)將挖掘更多能反映學(xué)習(xí)偏好的行為數(shù)據(jù),以改進(jìn)和完善推薦模型,促進(jìn)學(xué)習(xí)系統(tǒng)提供更加精準(zhǔn)的個(gè)性化服務(wù),并將其推廣應(yīng)用到其他資源推薦領(lǐng)域。2.3 學(xué)習(xí)者近鄰集生成
2.4 生成推薦結(jié)果
3 評(píng)價(jià)指標(biāo)及結(jié)果分析
3.1 實(shí)驗(yàn)數(shù)據(jù)
3.2 評(píng)價(jià)指標(biāo)
3.3 結(jié)果分析
4 結(jié)束語(yǔ)