趙 鑫
(遼寧行政學院,沈陽 110161)
個性化推薦算法設計研究
趙 鑫
(遼寧行政學院,沈陽 110161)
全球信息總量瘋狂增長,信息超載問題越來越嚴重。個性化推薦系統(tǒng)能夠有效解決當前信息過載的問題,因此,個性化推薦算法設計研究具有重要意義。本文主要以個性化推薦系統(tǒng)的概念為出發(fā)點,對個性化推薦算法分類進行分析,最后闡述了個性化推薦算法常用的數(shù)據集。
個性化;推薦算法;協(xié)同過濾
由于網絡數(shù)據正在快速的發(fā)展,人們能夠接觸到的海量的信息,例如,擁有數(shù)百萬種獨特商品的亞馬遜,在Google Music曲庫中,有上千萬首歌曲,淘寶在線商品數(shù)量達到8億件以上,騰訊微信用戶以及新浪微博用戶都超過5億以上,這些用戶很難在海量的信息中找到自己喜歡的信息,也就是所謂的“信息過載(information overload) ”的問題,而推薦系統(tǒng)和搜索引擎是解決此問題的關鍵技術,和搜索引擎相比較,用戶更喜歡使用個性化的推薦系統(tǒng),這是由于個性化推薦系統(tǒng)能夠主動的對用戶瀏覽過的日志、注冊的信息以及歷史評分記錄等方面進行分析,從而找出用戶更感興趣的項目特征,然后對用戶感興趣的信息進行私人定制,根據用戶項目信息和用戶需求,對推薦的內容和信息的變化進行及時的調整,實現(xiàn)“以用戶為中心”的服務。對個性化推薦算法進行設計,能夠有效的解決當前信息過載的問題,讓用戶更快捷、方便的進行對信息的搜索和瀏覽。
個性化推薦系統(tǒng)主要根據用戶喜好特點以及擁有的購買行為,從而自動的推薦用戶有興趣的商品或者是信息。這種系統(tǒng)的出現(xiàn)是由于電子商務規(guī)模的擴大,使商品數(shù)量以及信息等都在上漲,用戶在這種情況下,需要用大量的時間才能夠找到自己喜歡的信息,因此,為有效的解決這個問題,個性化推薦系統(tǒng)就此誕生。也就是說,個性化推薦系統(tǒng)是一個擁有在大量數(shù)據中挖掘的能力,從而形成的高級智能商務平臺,能夠幫助電子商務網站為顧客提供的完全個性化的信息服務以及決策支持。如圖1所示。
圖1 推薦系統(tǒng)模型
推薦系統(tǒng)是利用信息源給用戶進行預測和項目推薦,在整個過程中,具有重要的作用。根據信息的不同。比如,信任度、標簽、人口統(tǒng)計信息等,以及對評價指標的考慮。
2.1基于內容的推薦算法
這種推薦法也稱為基于內容的信息過濾推薦(content-based recommendation),基于內容的推薦算法不需要用戶對推薦對象給予評價,但是要把推薦對象的特征進行抽取出來,從用戶以前所選擇的對象內容去感應用戶的偏好,然后用于偏好相似的對象推薦給用戶。其效用函數(shù)( u,c)可表示為f( u,c) = score( ContentBasedProfile(u) ,Content(c))。Score 可以用二者的余弦相似度進行計算。最后用所得到的函數(shù)值對其進行排序,將最前面的項目當做推薦對象。該算法的推薦結果雖然符合用戶的喜好,但是缺乏新穎度。
2.2協(xié)同過濾推薦算法
該算法是根據系統(tǒng)里其他用戶的歷史數(shù)據或者評分記錄(比如,亞馬遜用戶購買商品的記錄),協(xié)同過濾推薦( collaborative filtering recommendation)是當今最為流行的一種算法,目前,主要的協(xié)同推薦技術有兩種,一種是基于模型的協(xié)同推薦,一種是基于內存的協(xié)同推薦,基于模型的協(xié)同推薦是通過歷史數(shù)據預測模型,然后通過模型參與評分預測,后者是使用歷史記錄數(shù)據進行的預測模型,它們的不同是由于客戶的偏好。
2.2.1基于模型的推薦算法
項目數(shù)量及用戶規(guī)模的增長,致使出現(xiàn)數(shù)據集稀疏的問題愈加嚴重,比如,Netflix的影評數(shù)據集就缺失大約99%的數(shù)量,因此,基于內存的協(xié)同算法要將大規(guī)模的增長,而且,由于數(shù)據出現(xiàn)稀疏的現(xiàn)象,推薦結果的質量就會產生下降的趨勢?;谀P偷耐扑]算法( model-based collaborative filtering),其中心思想就是利用客戶的評分結構進行評分預測模型,從而使用了數(shù)據挖掘計算模型和多種計算學習,通過模型實現(xiàn)對評分的預測。
2.2.2基于內存的協(xié)同推薦算法
根據對基于內存協(xié)同推薦的考慮角度的不同,可以將其分為基于用戶( User-based) 和基于項目 ( Item-based) 的協(xié)同推薦?;趦却娴膮f(xié)同推薦( memory-based collaborative filtering)也叫做啟發(fā)式的協(xié)同推薦,能夠對用戶的歷史數(shù)據進行分析從而提供預測結果,比如,用戶-影評矩陣。在 User-based 模型中,用戶間相似度能夠選擇不同的相似度函數(shù)來計算。
3.1Netflix 數(shù)據集
這種數(shù)據集主要是來自電影網站的Netflix,這個網站有480 189位用戶對17 770部電影進行了共有100 480 507條的評分記錄,數(shù)據區(qū)間為[1,5]的離散整數(shù)值,與MovieLen 評分有所不同,Netflix目前是全球規(guī)模最大的電影評分數(shù)據集,但由于該比賽已經結束,因此,該數(shù)據集目前已不對外開放。
3.2騰訊微博數(shù)據集
在2012年,由于數(shù)據挖掘與知識競賽(KDD-Cup),因此,騰訊微博數(shù)據集形成,此數(shù)據集是在騰訊4.25億微博用戶中,經過50天的數(shù)據采樣得到的。該數(shù)據集有6 000萬信息員或被推薦用戶、300多萬收聽動作和3億多條推薦記錄,該數(shù)據集的規(guī)模現(xiàn)已超過原來的 KDD Cup比賽。
3.3Yahoo! 音樂數(shù)據集
該數(shù)據集主要包含了用戶對專輯、單曲、歌手等不同音樂元素進行評分,對于評分的區(qū)間是0-100之間的證書,一共涉及624 961個音樂元素,1 000 990 個用戶,262 810 175條評分記錄。
3.4CiteULike 數(shù)據集
該數(shù)據集是由施普林格出版社( Springer)提供協(xié)助用戶管理、存儲及分享學術文章的網站,用戶可以根據自己感興趣的論文,給它們打上標簽,從而可以在專門的地方查找到,并且還能夠為其他選擇論文的朋友提供依據。CiteULike 公布了包含給論文打標簽和收藏論文的數(shù)據集,其中,這個數(shù)據集有1 793 954篇論文、52 689個用戶和2 119 200個用戶與論文間的關系。
個性化推薦在電子圖書、電子商務等領域被廣泛的應用著,隨著個性化推薦系統(tǒng)的不斷的變化,推薦算法逐漸暴露出越累越多的缺點,有待解決。因此,對個性化推薦算法設計進行研究,不僅能夠實現(xiàn)完善個性化推薦系統(tǒng),同時還能夠促進企業(yè)的可持續(xù)發(fā)展,進而為社會做出貢獻。
主要參考文獻
[1]趙亮,胡乃靜,張守志.個性化推薦算法設計[J].計算機研究與發(fā)展,2012(8):986-991.
[2]余力,劉魯,李雪峰.用戶多興趣下的個性化推薦算法研究[J].計算機集成制造系統(tǒng),2013(12):1610-1615.
[3]陳潔敏,湯庸,李建國.等.個性化推薦算法研究[J].華南師范大學學報:自然科學版,2014(5):8-15.
10.3969/j.issn.1673 - 0194.2015.08.059
TP301.6
A
1673-0194(2015)08-0078-02
2015-02-09