楊冰清
(阜陽師范大學(xué)信息工程學(xué)院,安徽阜陽 236041)
在網(wǎng)絡(luò)上的學(xué)習(xí)資源眾多,面對海量的課程資源,學(xué)生往往會難以抉擇,不知道自己應(yīng)該學(xué)習(xí)哪一門課程,這就是“信息過載”問題[1]。如果不能解決這個(gè)問題,學(xué)生就會在這個(gè)過程中陷入迷茫和急躁,對學(xué)習(xí)失去興趣[2-3]。通過構(gòu)建協(xié)同過濾推薦模型實(shí)現(xiàn)為學(xué)生個(gè)性化、定制化推薦課程資源,并基于協(xié)同過濾模型的冷啟動和數(shù)據(jù)稀疏性的缺點(diǎn),提出以遺傳算法和K-means 算法對協(xié)同過濾模型進(jìn)行優(yōu)化改進(jìn)。研究結(jié)果表明,改進(jìn)的協(xié)同過濾推薦模型能夠很好地為學(xué)生個(gè)性化,定制化推薦課程資源,能有效提升學(xué)生的學(xué)習(xí)興趣和學(xué)習(xí)效率。
計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的飛速發(fā)展吸引到了教育工作者的注意,網(wǎng)絡(luò)與教育結(jié)合孕育出的網(wǎng)絡(luò)學(xué)習(xí)慢慢興起,在疫情期間更是成為了最重要的教學(xué)方式[4]。但學(xué)生難以從中找到自己的需求課程資源,常常面臨著“信息過載”的問題。相關(guān)學(xué)者提出了個(gè)性化推薦模型,根據(jù)學(xué)生的信息和興趣為學(xué)生個(gè)性化推薦課程資源,以此解決“信息過載”問題。目前比較常見的個(gè)性化推薦模型以基于關(guān)聯(lián)規(guī)則的推薦模型為主,其工作流程如圖1所示。
圖1 基于關(guān)聯(lián)規(guī)則的個(gè)性化推薦模型工作流程
基于關(guān)聯(lián)規(guī)則的個(gè)性化推薦模型需要大量的數(shù)據(jù)才能進(jìn)行分析,且關(guān)聯(lián)規(guī)則生成較為困難,準(zhǔn)確度也較低,無法真正做到個(gè)性化推薦[5]。因此,需要根據(jù)協(xié)同過濾個(gè)性化推薦模型構(gòu)建推薦系統(tǒng),以達(dá)到為學(xué)生個(gè)性化推薦課程資源的目的,如圖2所示。
圖2 基于協(xié)同過濾算法的個(gè)性化課程資源推薦系統(tǒng)
根據(jù)學(xué)生用戶對課程資源的感興趣程度來給予課程資源不同的分值,分值以整數(shù)數(shù)字0~5來表示。分值越高,就代表學(xué)生用戶對此課程資源的興趣越大,學(xué)生用戶對該課程的相似課程的期望值越大;分值越低,就代表學(xué)生用戶對此課程的興趣越小,學(xué)生用戶的期望值就越??;當(dāng)分值為0 時(shí),則代表學(xué)生用戶尚未對此課程資源進(jìn)行打分。學(xué)生-課程評分矩陣如公式(1)所示。
公式(1)的學(xué)生-課程評分矩陣中,m表示用戶數(shù)量,n則表示課程數(shù)量,rmn表示第m個(gè)學(xué)生用戶對第n個(gè)課程的打分分值。為方便數(shù)據(jù)收集和計(jì)算,用二元變量(0,1)表達(dá)矩陣中的分值屬性,二元變量中的0表示學(xué)生用戶不喜歡此課程,而1表示學(xué)生用戶喜歡此課程。根據(jù)學(xué)生-課程評分矩陣能夠找到目標(biāo)學(xué)生用戶的鄰居集合。學(xué)生用戶與鄰居集合之間的相似度是推薦課程準(zhǔn)確與否的關(guān)鍵,因此需要對用戶之間的相似度進(jìn)行計(jì)算。將用戶對課程資源的打分分值看作是一個(gè)空間向量,則有余弦相似性(Cosine)如公式(2)所示。
公式(2)中,sim(i,j)表示用戶i與用戶j兩者之間的相似度分別表示用戶i與用戶j對某課程的打分分值。若采用皮爾森相關(guān)系數(shù)計(jì)算用戶之間的相似度,假設(shè)用戶i和用戶j對相同的課程資源集合進(jìn)行過打分,則兩者之間的相似度如公式(3)所示。
公式(4)中,NNi表示用戶i的鄰居集合,Pi,u表示用戶i對課程資源u的預(yù)測打分分值。
協(xié)同過濾推薦模型能夠?yàn)閷W(xué)生用戶實(shí)現(xiàn)個(gè)性化課程推薦,但模型存在冷啟動問題和數(shù)據(jù)稀疏性的問題[6]。其中冷啟動問題又分為新學(xué)生用戶問題和新課程資源問題,新學(xué)生用戶問題在于一個(gè)新注冊的學(xué)生尚未對課程資源進(jìn)行評價(jià)和打分,也沒有相應(yīng)的歷史瀏覽記錄,協(xié)同過濾推薦模型無法對該學(xué)生用戶的感興趣課程資源進(jìn)行預(yù)測,也就無法為學(xué)生推薦學(xué)生可能感興趣的課程資源[7]。
而數(shù)據(jù)稀疏性問題則容易讓協(xié)同過濾推薦模型的推薦質(zhì)量和推薦效果下降。協(xié)同過濾推薦模型較為依賴學(xué)生對課程資源的打分來,判斷學(xué)生對課程資源的感興趣程度,并由此為學(xué)生推薦相應(yīng)的課程資源。當(dāng)學(xué)生對課程資源的評價(jià)和打分的數(shù)目較少時(shí),協(xié)同過濾推薦模型的推薦準(zhǔn)確性就無法得到保障,且隨著學(xué)生用戶數(shù)量以及課程資源數(shù)量的不斷上升,數(shù)據(jù)稀疏性的問題也會不斷擴(kuò)大,學(xué)生-課程評分矩陣也會變得更加稀疏[8]。因此,還需要對協(xié)同過濾推薦模型進(jìn)行優(yōu)化,才能更好地為學(xué)生用戶個(gè)性化推薦課程資源。
K均值聚類(K-means clustering algorithm)是一種常用的劃分聚類方法,其原理為以某個(gè)數(shù)據(jù)集中的隨機(jī)K個(gè)對象作為聚類中心,且數(shù)據(jù)集中的其他數(shù)據(jù)對象會根據(jù)與這K個(gè)數(shù)據(jù)對象的距離,自動與最近的聚類中心歸為一個(gè)類;再對這些類進(jìn)行迭代,使數(shù)據(jù)對象在類中移動并根據(jù)類中數(shù)據(jù)的更新計(jì)算平均值,并重新分配數(shù)據(jù)對象,從而對類進(jìn)行改進(jìn),直到達(dá)到最大迭代次數(shù)或不再有新的聚類產(chǎn)生[9]。
K-means 聚類算法的缺點(diǎn)在于過于依賴初始聚類中心,且容易陷入局部最優(yōu),因此采用遺傳算法(Genetic Algorithm,GA)對其優(yōu)化,使GA-K-means算法能夠收斂到最佳聚類[10]。遺傳算法優(yōu)化Kmeans算法的步驟為,首先用染色體二進(jìn)制字符串表示學(xué)生用戶的屬性,根據(jù)遺傳算法生成隨機(jī)的初始種群,用以搜索全局最優(yōu);其次,利用適應(yīng)度函數(shù)判斷K-means算法的聚類結(jié)果是否為全局最優(yōu)結(jié)果;最后,遺傳算法進(jìn)行交叉、變異等遺傳操作,迭代更新初始聚類種子,并重復(fù)執(zhí)行適應(yīng)度函數(shù)判斷和遺傳操作,直到滿足條件為止。適應(yīng)度函數(shù)如公式(5)所示。
公式(5)中,p為n維空間中的一個(gè)表示用戶的點(diǎn),ma則表示K-means 算法生成的聚類中心,k表示K-means 算法生成的聚類中心的數(shù)量,ca表示最優(yōu)聚類中心的數(shù)量。采用遺傳K-means 算法優(yōu)化后的協(xié)同過濾個(gè)性化推薦模型工作流程如圖3所示。
采用遺傳K-means 算法優(yōu)化后的協(xié)同過濾個(gè)性化推薦模型能夠根據(jù)學(xué)生注冊時(shí)的初始屬性,如年齡、年級、專業(yè)、性別等為目標(biāo)學(xué)生用戶找到合適的鄰居集合,目標(biāo)學(xué)生即使是剛注冊且未對任何課程資源打分,協(xié)同過濾個(gè)性化推薦模型也能為目標(biāo)學(xué)生用戶推薦其所需要的課程資源,能夠更好地為學(xué)生服務(wù),提高學(xué)生的學(xué)習(xí)興趣。
推薦精度評價(jià)個(gè)性化推薦模型性能的一個(gè)重要指標(biāo),只有推薦精度足夠高,個(gè)性化推薦模型才能真正達(dá)到為學(xué)生個(gè)性化推薦課程資源的目的。為了驗(yàn)證GA-K-means 算法對協(xié)同過濾推薦模型的優(yōu)化效果,以平均絕對偏差(Mean Absolute Error,MAE)作為評價(jià)標(biāo)準(zhǔn),即計(jì)算協(xié)同過濾個(gè)性化推薦模型預(yù)測學(xué)生對課程資源的評分與實(shí)際上學(xué)生對課程資源的評分的差值,從而評價(jià)模型的預(yù)測準(zhǔn)確性。MAE 差值越小,則模型的預(yù)測準(zhǔn)確性越高,模型的個(gè)性化推薦效果也就越好。分別構(gòu)建未優(yōu)化的協(xié)同過濾推薦模型與遺傳K-means 算法優(yōu)化后的協(xié)同過濾推薦模型,并以相同的學(xué)生數(shù)據(jù)對其進(jìn)行測試,分別取最近鄰居數(shù)5~30,鄰居數(shù)間隔為5,測試結(jié)果如圖4所示。
圖4 優(yōu)化前后的協(xié)同過濾推薦模型推薦精度對比
從圖4中可以看出,兩個(gè)模型都是隨著最近鄰居數(shù)的增加,MAE 值在逐漸減小,說明最近鄰居數(shù)越多,模型的預(yù)測學(xué)生評分與真實(shí)學(xué)生評分的結(jié)果越接近,模型的推薦效果越好。未經(jīng)遺傳K-means算法優(yōu)化的協(xié)同過濾推薦模型在最近鄰居數(shù)為5 時(shí)的MAE 值為0.88,而優(yōu)化后的協(xié)同過濾推薦模型在最近鄰居數(shù)為5 時(shí)的MAE 值為0.84,比未優(yōu)化的模型低0.04;在最近鄰居數(shù)為30 時(shí),未優(yōu)化的協(xié)同過濾推薦模型的MAE 值為0.82,而優(yōu)化后的協(xié)同過濾推薦模型MAE 值為0.77,兩者相差0.05;此外,優(yōu)化后的協(xié)同過濾推薦模型的圖像一直在未優(yōu)化的協(xié)同過濾推薦模型下方,在最近鄰居數(shù)相同的情況下,優(yōu)化后的模型的MAE 值小于未優(yōu)化的模型,說明優(yōu)化后的協(xié)同過濾推薦模型推薦精度比未優(yōu)化的模型更高,推薦效果更好。
分別構(gòu)建未優(yōu)化的協(xié)同過濾推薦模型、遺傳Kmeans 算法優(yōu)化過的協(xié)同過濾推薦模型、基于數(shù)據(jù)挖掘的推薦模型以及基于狄利克雷分配模型(Latent Dirichlet Allocation,LDA)的推薦模型,設(shè)置課程資源的個(gè)數(shù)為5~30 個(gè),并分別進(jìn)行10 次測試,測試結(jié)果取10 次測試結(jié)果的平均值。四種推薦模型的推薦準(zhǔn)確率隨推薦課程資源個(gè)數(shù)的變化如圖5所示。
圖5 各個(gè)推薦模型隨推薦課程資源個(gè)數(shù)的推薦準(zhǔn)確率變化
從圖5中可以看出,各個(gè)推薦模型大致隨著推薦課程資源的數(shù)量越多,推薦的準(zhǔn)確率就越低。其中,基于LDA 模型的推薦模型準(zhǔn)確率最低,GA-K-means算法優(yōu)化后的協(xié)同過濾推薦模型的推薦準(zhǔn)確率最高。在推薦課程資源個(gè)數(shù)為5時(shí),優(yōu)化協(xié)同過濾推薦模型的推薦準(zhǔn)確率為52%,比基于LDA 模型的推薦模型高25%,比基于數(shù)據(jù)挖掘的推薦模型高18%,比未優(yōu)化的協(xié)同過濾推薦模型高11%;在推薦課程資源個(gè)數(shù)為30 時(shí),優(yōu)化協(xié)同過濾推薦模型的推薦準(zhǔn)確率為42.5%,比基于LDA 模型的推薦模型高28.6%,比基于數(shù)據(jù)挖掘的推薦模型高14.5%,比未優(yōu)化的協(xié)同過濾推薦模型高17.5%。
為了更加清晰直觀地了解改進(jìn)協(xié)同過濾個(gè)性化推薦模型對學(xué)生起到的幫助作用,基于模型搭建個(gè)性化課程資源推薦系統(tǒng),讓某高校大二年級的5個(gè)專業(yè)的學(xué)生進(jìn)行試用一周,一周后對這些學(xué)生進(jìn)行問卷調(diào)查,詢問學(xué)生覺得個(gè)性化課程資源推薦系統(tǒng)是否能夠有效幫助他們找到感興趣的課程資源,得到學(xué)生對個(gè)性化推薦系統(tǒng)的認(rèn)可程度。調(diào)查共回收500份有效問卷,調(diào)查結(jié)果如表1所示。
表1 調(diào)查問卷結(jié)果
從表1 中可以直觀地看到,覺得個(gè)性化課程資源推薦系統(tǒng)能非常有效地推薦感興趣的課程的學(xué)生有180 人,占比為36%;覺得個(gè)性化課程資源推薦系統(tǒng)能比較有效地推薦感興趣的課程的學(xué)生有260人,占比為52%;覺得個(gè)性化課程資源推薦系統(tǒng)能有一點(diǎn)效果的學(xué)生有50 人,占比為10%;覺得個(gè)性化課程資源推薦系統(tǒng)沒有效果的學(xué)生有10 人,占比為2%。綜上所述,覺得個(gè)性化課程資源推薦系統(tǒng)有效的學(xué)生占98%,覺得個(gè)性化課程資源推薦系統(tǒng)無效的僅占2%,說明協(xié)同過濾個(gè)性化推薦模型能很好地為學(xué)生推薦課程資源,提高學(xué)生的學(xué)習(xí)興趣和學(xué)習(xí)效率。
科技的進(jìn)步,互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)與教育結(jié)合的已成必然,網(wǎng)絡(luò)教學(xué)的教學(xué)模式也逐漸成為主流教學(xué)模式之一。采用GA-K-means 算法優(yōu)化協(xié)同過濾模型,構(gòu)建出改進(jìn)的協(xié)同過濾個(gè)性化推薦模型,為學(xué)生定制化推薦課程資源。研究結(jié)果表明,優(yōu)化后的協(xié)同過濾推薦模型在最近鄰居數(shù)為5 時(shí)的MAE值為0.84,比未優(yōu)化的模型低0.04;在最近鄰居數(shù)為30 時(shí),優(yōu)化后的協(xié)同過濾推薦模型MAE 值為0.77,比優(yōu)化前低0.05;在推薦課程資源個(gè)數(shù)為5 時(shí),優(yōu)化協(xié)同過濾推薦模型的推薦準(zhǔn)確率為52%,比其他模型都要高得多;問卷調(diào)查顯示覺得個(gè)性化課程資源推薦系統(tǒng)有效的學(xué)生占98%,覺得無效的僅占2%。以上結(jié)果表明,經(jīng)GA-K-means 算法優(yōu)化后的協(xié)同過濾推薦模型能準(zhǔn)確地推薦學(xué)生感興趣的課程資源,能夠提升學(xué)生的學(xué)習(xí)效率,也能一定程度上為網(wǎng)絡(luò)學(xué)習(xí)的教學(xué)方式提供一定思路。但在課程特征和學(xué)生特征這兩項(xiàng)重要屬性上并未進(jìn)行深入探索,還需要以后更進(jìn)一步研究。