趙旭 呂鶴軒
摘? 要:隨著我國(guó)教育信息化、數(shù)字化概念的提出,教育信息化資源以極快的速度大量涌現(xiàn),導(dǎo)致信息呈現(xiàn)爆炸式增長(zhǎng),用戶(hù)在面臨海量信息時(shí),需要花費(fèi)大量的時(shí)間和精力去篩選所需的資源。本文針對(duì)此現(xiàn)狀提出基于個(gè)性化推薦技術(shù)實(shí)現(xiàn)微課程視頻的篩選方案。通過(guò)本系統(tǒng)可以為用戶(hù)提供有針對(duì)性的、符合用戶(hù)興趣的相關(guān)資源,從而使用戶(hù)獲取信息的方式發(fā)生翻轉(zhuǎn),從以往的主動(dòng)獲取變?yōu)楸粍?dòng)的接收,并保證用戶(hù)接收的資源對(duì)其而言?xún)r(jià)值最高。
關(guān)鍵詞:推薦系統(tǒng);協(xié)同過(guò)濾算法;用戶(hù)興趣模型;資源評(píng)價(jià)機(jī)制
中圖分類(lèi)號(hào):TP391? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Application of Personalized Recommendation Technology in Micro-Course System
ZHAO Xu,LV Hexuan
(Dalian Neusoft University of Information,Dalian 116023,China)
Abstract:With the development of educational informatization and digitization in China,the reform of education informatization has made positive progress,but it has also led to explosive growth of information.Users need to spend a lot of time and energy to screen out the resources they need in the massive information.In view of this situation,this paper proposes a corresponding solution to realize video filtering of micro-course based on personalized recommendation technology.Through this system,users can be provided with targeted and relevant resources in line with their interest,so as to change the way users obtain information from the previous active acquisition to passive reception,and ensure that the resources received by users are of the highest value for them.
Keywords:recommendation system;cooperative filtering algorithm;user interest model;resource evaluation mechanism
1? ?引言(Introduction)
互聯(lián)網(wǎng)的發(fā)展帶動(dòng)了教育的信息化發(fā)展,但是我們一方面享受這海量資源帶來(lái)的便利,另一方面也承受著信息爆炸帶來(lái)的搜索迷霧問(wèn)題。那么如何在眾多資源中快速、準(zhǔn)確地找到自身所需的信息,進(jìn)而發(fā)揮出網(wǎng)絡(luò)資源的效用,從而最終服務(wù)于用戶(hù)、便利人們的生活是當(dāng)下互聯(lián)網(wǎng)領(lǐng)域的重點(diǎn)關(guān)注與研究課題,由此越來(lái)越多的個(gè)性化推薦技術(shù),以及推薦系統(tǒng)應(yīng)運(yùn)而生。
本文針對(duì)教育領(lǐng)域的微課系統(tǒng)[1],利用個(gè)性化推薦技術(shù)可以實(shí)現(xiàn)為學(xué)生、教師提供有針對(duì)性的、符合用戶(hù)興趣的相關(guān)資源,使用戶(hù)獲取信息的方式發(fā)生變革,從以往的主動(dòng)獲取變?yōu)楸粍?dòng)的接收,并且接收的信息對(duì)其最為有用。本文研究的核心主要包括三方面內(nèi)容[2]:創(chuàng)建用戶(hù)興趣模型:挖掘、表示以及更新用戶(hù)興趣項(xiàng);創(chuàng)建視頻資源評(píng)價(jià)體系;結(jié)合個(gè)性化推薦算法將用戶(hù)興趣與資源特征進(jìn)行合理匹配,從而完成推薦。
2? ?用戶(hù)興趣模型(User interest model)
用戶(hù)興趣模型[3]是整個(gè)系統(tǒng)的數(shù)據(jù)基礎(chǔ),為后續(xù)的推薦功能提供依據(jù)和支撐,因此在收集用戶(hù)數(shù)據(jù)時(shí),要盡量保證能夠較為全方位、無(wú)差錯(cuò)的數(shù)據(jù)收集,良好的用戶(hù)興趣收集機(jī)制將直接影響到系統(tǒng)的推薦質(zhì)量,進(jìn)而直接決定用戶(hù)在使用系統(tǒng)時(shí)的直觀感受。
2.1? ?用戶(hù)興趣收集
在本文的研究中,主要通過(guò)顯式收集和隱式收集兩種方式來(lái)收集用戶(hù)數(shù)據(jù)[4]。
(1)顯式收集
顯式收集方式主要包括收集用戶(hù)自然屬性數(shù)據(jù)以及用戶(hù)評(píng)價(jià)反饋數(shù)據(jù)。其中,用戶(hù)自然屬性數(shù)據(jù)包括用戶(hù)所屬年級(jí)、課程等,這部分?jǐn)?shù)據(jù)的主要功能是用戶(hù)首次使用本系統(tǒng)時(shí),在系統(tǒng)中無(wú)任何用戶(hù)的個(gè)人信息記錄,系統(tǒng)可以根據(jù)用戶(hù)自然屬性作為用戶(hù)初始興趣加入用戶(hù)興趣模型中,從而一定程度上避免“冷啟動(dòng)”[5]問(wèn)題;用戶(hù)評(píng)價(jià)反饋數(shù)據(jù)是用戶(hù)在使用系統(tǒng)時(shí),主動(dòng)向系統(tǒng)提交他們對(duì)資源的評(píng)價(jià)。
(2)隱式收集
隱式收集的行為主體為系統(tǒng)本身,系統(tǒng)通過(guò)技術(shù)手段記錄用戶(hù)的操作記錄,從本系統(tǒng)自身特點(diǎn)出發(fā),本文中采集用戶(hù)的搜索、瀏覽、下載、觀看等行為記錄作為隱式收集的主要收集數(shù)據(jù)。采用這種方式的好處是收集過(guò)程中,不要用戶(hù)刻意配合參與,所有的收集行為均發(fā)生在服務(wù)器端,不會(huì)給用戶(hù)帶來(lái)任何的使用負(fù)擔(dān)。
通過(guò)上述分析,需要尋找一種表達(dá)機(jī)制,不但能夠準(zhǔn)確的記錄、表達(dá)用戶(hù)行為,同時(shí)還要方便系統(tǒng)對(duì)行為數(shù)據(jù)進(jìn)行分析、計(jì)算及統(tǒng)計(jì),通過(guò)調(diào)研,本文采用日志文件的方式記錄表達(dá)用戶(hù)行為。
2.2? ?用戶(hù)興趣表示
針對(duì)系統(tǒng)記錄的日志文件,我們需要過(guò)濾掉噪音信息:即本系統(tǒng)不關(guān)注的、對(duì)生成用戶(hù)興趣沒(méi)有任何作用的信息,同時(shí)盡最大可能提取出對(duì)采集用戶(hù)興趣發(fā)揮作用的數(shù)據(jù),最終生成用戶(hù)的興趣數(shù)據(jù)。關(guān)于采集的用戶(hù)興趣數(shù)據(jù),我們更多關(guān)注的是用戶(hù)對(duì)哪一類(lèi)數(shù)據(jù)感興趣以及對(duì)該類(lèi)數(shù)據(jù)的興趣程度,結(jié)合該特點(diǎn),本文中采用向量空間模型(VSM)[6]表示法建立和表達(dá)用戶(hù)興趣。并將用戶(hù)興趣模型方法的表示可以表示為以下形式:{(tag1,w1),(tag2,w2),…,(tagi,wi),…,
(tagn,wn)}。其中,tagi(i∈{1,2,3,…,n})是系統(tǒng)根據(jù)收集到的用戶(hù)行為記錄進(jìn)行清洗、過(guò)濾后得到的用戶(hù)興趣項(xiàng),wi(i∈{1,2,3,…,n})則代表用戶(hù)對(duì)tagi的感興趣程度。
同時(shí),需要特殊強(qiáng)調(diào)的是冷啟動(dòng)的問(wèn)題,本文針對(duì)第一次使用系統(tǒng)的用戶(hù),會(huì)將注冊(cè)用戶(hù)的自然屬性作為其默認(rèn)的初始興趣項(xiàng),并為其賦予初始興趣權(quán)重值,進(jìn)而解決了系統(tǒng)冷啟動(dòng)時(shí)用戶(hù)興趣模型數(shù)據(jù)為空的問(wèn)題。
模型中的興趣項(xiàng)權(quán)重的計(jì)算,本文采用TF-IDF方法[7]進(jìn)行計(jì)算。TF-IDF的原始計(jì)算公式如下:
(1)
其中,wij表示特征項(xiàng)ti在文本Dj中的權(quán)重,tfij為特征項(xiàng)ti在當(dāng)前文檔中出現(xiàn)的頻次,N為是訓(xùn)練項(xiàng)目集合中包含的文檔數(shù)目,ni是訓(xùn)練項(xiàng)目集合中包含特征項(xiàng)ti的文檔總數(shù)。
通過(guò)對(duì)公式進(jìn)行分析,我們可以發(fā)現(xiàn)用戶(hù)興趣的權(quán)重值的取值區(qū)間為[0,1],權(quán)重值的大小與用戶(hù)對(duì)該興趣項(xiàng)的關(guān)注程度高低成正比關(guān)系,因此更加證實(shí)該方法對(duì)于本文切實(shí)可行。
2.3? ?用戶(hù)興趣更新
心理學(xué)的相關(guān)研究發(fā)現(xiàn)[8],人類(lèi)大腦中對(duì)于某段記憶的深刻程度與該段記憶生成的時(shí)間、該段記憶被調(diào)取的頻率都有著不可分割的關(guān)系,間隔時(shí)間越長(zhǎng)、記憶被調(diào)取的頻率越低,該段記憶越容易被遺忘,與此同時(shí),新的記憶也不斷地生成并存儲(chǔ)與我們的大腦之中,因此,在創(chuàng)建用戶(hù)興趣模型時(shí),也要考慮人類(lèi)的這種記憶的逐漸遺忘、不斷生成的特點(diǎn),對(duì)用戶(hù)的興趣模型數(shù)據(jù)進(jìn)行更新。
在本文中,我們側(cè)重的是對(duì)于調(diào)用記憶的間隔時(shí)間這一記憶影響因素對(duì)興趣項(xiàng)權(quán)重值的影響,利用的是用戶(hù)對(duì)該興趣項(xiàng)的最后一次訪(fǎng)問(wèn)時(shí)間與當(dāng)前時(shí)間的時(shí)間間隔這一數(shù)據(jù),將用戶(hù)原有興趣項(xiàng)的權(quán)重值按如下公式進(jìn)行衰減處理:
(2)
其中,oldWeight、newWeight分別是記憶衰退前、后的興趣項(xiàng)權(quán)重值,Dvalue是針對(duì)該興趣的訪(fǎng)問(wèn)時(shí)間差,Date為時(shí)間調(diào)節(jié)因子。通過(guò)公式可以發(fā)現(xiàn),當(dāng)訪(fǎng)問(wèn)時(shí)間差Dvalue逐漸接近Date時(shí),用戶(hù)對(duì)該興趣項(xiàng)的權(quán)重值逐漸降低。
3? 微課資源評(píng)價(jià)機(jī)制(Evaluation mechanism for micro-course resources)
本文的目標(biāo)是系統(tǒng)不但能夠?yàn)橛脩?hù)生成較為準(zhǔn)確的推薦,并且推薦的微課質(zhì)量為同類(lèi)型中質(zhì)量較高、普遍好評(píng)的資源,因此本文需要有一套合理的機(jī)制能夠?qū)ξ⒄n質(zhì)量的高低進(jìn)行評(píng)價(jià),而質(zhì)量的高低最有發(fā)言權(quán)的則是系統(tǒng)的使用用戶(hù),因此本文根據(jù)用戶(hù)的反饋來(lái)對(duì)資源質(zhì)量做出評(píng)價(jià),用戶(hù)的反饋行為仍然可以分為顯式反饋和隱式反饋兩種形式,分別對(duì)應(yīng)著用戶(hù)評(píng)分的兩種形式。
用戶(hù)顯式評(píng)分:用戶(hù)主動(dòng)、直接對(duì)視頻資源進(jìn)行的打分行為對(duì)應(yīng)的評(píng)分值。本文選用5分制評(píng)分機(jī)制,定義為r1。
用戶(hù)隱式評(píng)分:隱式評(píng)分仍然不需要用戶(hù)的主觀參與,一方面這種收集方式對(duì)用戶(hù)的使用不產(chǎn)生任何負(fù)面影響,另一方面這種采集方式采集到的數(shù)據(jù)相對(duì)客觀,系統(tǒng)會(huì)自動(dòng)地對(duì)用戶(hù)的觀看視頻時(shí)長(zhǎng)進(jìn)行記錄,最終通過(guò)用戶(hù)觀看視頻時(shí)長(zhǎng)與視頻總時(shí)長(zhǎng)的比值p來(lái)反映其對(duì)視頻的滿(mǎn)意程度,計(jì)算公式為:
(3)
其中,t為觀眾觀看微課視頻的實(shí)際時(shí)長(zhǎng),Ttotal代表所看微課視頻的總時(shí)長(zhǎng)。隱式評(píng)分同樣采用五分制的評(píng)分制度,則將觀眾對(duì)某視頻的隱式評(píng)分r2定義為:
(4)
綜上,在獲取到顯式評(píng)分和隱式評(píng)分后,我們采用兩種評(píng)分的平均值作為視頻的最終總體評(píng)分,計(jì)算公式如下:
(5)
4 基于用戶(hù)的協(xié)同過(guò)濾算法(User-based collaborative filtering algorithm)
4.1? ?算法思想
基于用戶(hù)的協(xié)同過(guò)濾算法(User-CF)[9]就是以相似用戶(hù)為切入點(diǎn)作為推薦依據(jù),將相似用戶(hù)感興趣的資源推薦給目標(biāo)用戶(hù)。因此,根據(jù)算法的思想,其實(shí)現(xiàn)主要分為尋找相似用戶(hù)、用戶(hù)興趣度計(jì)算、生成推薦三個(gè)核心步驟。
4.2? ?用戶(hù)相似度計(jì)算
如何與目標(biāo)用戶(hù)需求接近的用戶(hù)是本算法需要解決的第一個(gè)問(wèn)題。本文中,因?yàn)橛脩?hù)興趣模型我們采用了向量的表示方式,因此可以計(jì)算向量間的夾角余弦值[10],計(jì)算公式分別如下:
(6)
其中,a、b分別為用戶(hù)u1和用戶(hù)u2的評(píng)分向量,r1i和r2i分別表示用戶(hù)u1和用戶(hù)u2對(duì)視頻i的評(píng)分值。本文研究的研究是利用向量空間模型為計(jì)算依據(jù),同時(shí)結(jié)合基于用戶(hù)的協(xié)同過(guò)濾算法,利用上文提到的余弦相似度的計(jì)算方法對(duì)用戶(hù)間的相似度進(jìn)行計(jì)算,針對(duì)用戶(hù)u和用戶(hù)v,計(jì)算二者的相似度,那么相似公式表達(dá)為:
(7)
其中,tag(u)和tag(v)表示用戶(hù)u和用戶(hù)v的興趣集合。通過(guò)該方法,系統(tǒng)可以得到與目標(biāo)用戶(hù)相似度最大的前k個(gè)用戶(hù)集合,設(shè)為S(u,K)={u1,u2,…,uk}。
4.3? ?用戶(hù)興趣度計(jì)算
目標(biāo)用戶(hù)最近鄰居集合S(u,K),然后利用集合中每個(gè)用戶(hù)與目標(biāo)用戶(hù)的相似度,預(yù)測(cè)目標(biāo)用戶(hù)對(duì)沒(méi)有過(guò)有效行為視頻的興趣大小,預(yù)測(cè)公式如下:
(8)
其中,S(u,K)表示和用戶(hù)u的K個(gè)最近鄰居集合,U(j)表示對(duì)tagj有興趣的用戶(hù)集合,用戶(hù)v是在用戶(hù)u的最近鄰居中對(duì)tagj感興趣的用戶(hù)。simuv是用戶(hù)u和用戶(hù)v的興趣相似度,bvj表示用戶(hù)v對(duì)tagj的興趣權(quán)重。
最終選取用戶(hù)興趣集合中興趣值最大的M個(gè)興趣,我們將其定義為Im={I1,I2,…,Im}。
4.4? ?生成推薦
通過(guò)上文中得到的用戶(hù)興趣項(xiàng)結(jié)合,進(jìn)而可以在系統(tǒng)中查找到與興趣項(xiàng)想匹配的相關(guān)微課集合作為待推薦資源,不過(guò)在待推薦結(jié)果最終呈現(xiàn)給用戶(hù)之前,根據(jù)用戶(hù)的常規(guī)使用習(xí)慣,我們將用戶(hù)最有可能關(guān)注的視頻資源放置在排位靠前的位置進(jìn)行顯示,因此需要對(duì)帶推薦微課資源的排序進(jìn)行設(shè)計(jì),我們主要考慮兩方面因素:用戶(hù)興趣值和視頻評(píng)價(jià),微課資源排序權(quán)重計(jì)算公式如下:
wv=p(u,j)×α+R×β,其中α+β=1? ? ? ? (9)
式(9)中,p(u,j)是表示用戶(hù)對(duì)該類(lèi)微課的關(guān)注程度,R是該微課的評(píng)分值,α和β則分別表示用戶(hù)關(guān)注程度以及視頻評(píng)價(jià)對(duì)排序的影響因子。通過(guò)計(jì)算待推薦微課的wv數(shù)值,對(duì)所有帶推薦微課資源按照wv的值進(jìn)行降序排序形成最終推薦微課資源,因此最終呈現(xiàn)給用戶(hù)的將是用戶(hù)感興趣且評(píng)價(jià)較高的視頻資源。
5? ?實(shí)驗(yàn)結(jié)果(Experiment results)
5.1? ?實(shí)驗(yàn)數(shù)據(jù)收集
實(shí)驗(yàn)時(shí),邀請(qǐng)100位人員進(jìn)行模擬真實(shí)用戶(hù)測(cè)試,實(shí)驗(yàn)通過(guò)收集測(cè)試人員的操作行為數(shù)據(jù)形成log日志,截取2M的用戶(hù)行為操作數(shù)據(jù)對(duì)其進(jìn)行分析提取,并分別收集用戶(hù)對(duì)系統(tǒng)推薦的前三個(gè)視頻、前五個(gè)視頻以及前十個(gè)視頻的滿(mǎn)意程度,并形成調(diào)查問(wèn)卷,進(jìn)而得出實(shí)驗(yàn)結(jié)果數(shù)據(jù)。
5.2? ?實(shí)驗(yàn)結(jié)果
通過(guò)對(duì)調(diào)查問(wèn)卷進(jìn)行統(tǒng)計(jì),得出測(cè)試用戶(hù)對(duì)推薦視頻資源的滿(mǎn)意度統(tǒng)計(jì)數(shù)據(jù)如表1所示。
通過(guò)上述實(shí)驗(yàn)結(jié)果數(shù)據(jù),發(fā)現(xiàn)推薦結(jié)果能夠滿(mǎn)足大部分用戶(hù)的期望和使用需要。在前十個(gè)微課視頻推薦中,因?yàn)榛ヂ?lián)網(wǎng)用戶(hù)的使用習(xí)慣,大部分用戶(hù)在使用時(shí),主要停留在前五條數(shù)據(jù)中,而不會(huì)花費(fèi)過(guò)多精力逐個(gè)瀏覽全部結(jié)果,導(dǎo)致不予評(píng)論人數(shù)增多,進(jìn)而拉低了用戶(hù)的滿(mǎn)意程度。
6? ?結(jié)論(Conclusion)
本文將推薦技術(shù)應(yīng)用到教育領(lǐng)域的微課系統(tǒng)中,通過(guò)采集用戶(hù)興趣、生成資源評(píng)分,最終將基于用戶(hù)的推薦算法作橋梁將用戶(hù)興趣與微課視頻資源鏈接起來(lái),將用戶(hù)主動(dòng)搜索變?yōu)楸粍?dòng)接收信息,進(jìn)而完成了個(gè)性化的推薦過(guò)程。
參考文獻(xiàn)(References)
[1] Yiu-Kai Ng,Jane Linn.CrsRecs:A Personalized Course Recommendation System for College Students[A].Proceedings of 2017 8th International Conference Information,Intelligence,System&Applications[C].Larnaca:IEEE,2017:1-6.
[2] 冷亞軍,黎忠雪.個(gè)性化推薦及其相關(guān)技術(shù)分析[J].內(nèi)蒙古科技與經(jīng)濟(jì),2019(5):58-60.
[3] Gong Yuyun,Zhang Qi.Hashtag Recommendation Using Attention-BasedConvolutional Neural Network[A].Proceeding of the 25th International Joint Conference on Artificial Intelligence[C].Palo Alto:AAAI Press,2016:2782-2788.
[4] 項(xiàng)亮.推薦系統(tǒng)實(shí)踐[M].北京:人民郵電出版社,2012.
[5] Rashid A M,Albert I,Cosley D,et al.Getting to know you:learning new user preferences inrecommender systems[C].Proceedings of the 7th international conference on Intelligent user interfaces.ACM,2002:127-134.
[6] 鄧娟,陳西曲.基于用戶(hù)興趣變化的協(xié)同過(guò)濾推薦算法[J].武漢工業(yè)學(xué)院學(xué)報(bào),2013,32(4):48-51.
[7] 郭俊霞,徐文生,盧罡.基于用戶(hù)瀏覽軌跡的商品推薦[J].計(jì)算機(jī)科學(xué),2016,43(12):223-228.
[8] DING Y,LI X.Time weight collaborative filtering[C].Proceedings of the 14th ACM International Conference on Information and Knowledge Management.ACM,2005:485-492.
[9] Resnick P,Iacovou N,Suchak M,et al.GroupLens:an open architecture for collaborative filtering of netnews[J].Proceedings of the 1994 ACM Conference on Computer Supported Cooperative Work:Chapel Hill,1994:175-186.
[10]? Breese J S,Heckerman D,Kadie C.Empirical Analysis of Predictive Algorithms for Collaborative Filtering[C].Fourteenth Conference on Uncertainty in Artificial Intelligence,1998:43-52.
作者簡(jiǎn)介:
趙? 旭(1989-),女,碩士,講師.研究領(lǐng)域:數(shù)據(jù)挖掘,算法.
呂鶴軒(1996-),男,本科生.研究領(lǐng)域:數(shù)據(jù)挖掘,算法.