張 楊 景 京 謝婉婉 徐曉雷
(國家知識產(chǎn)權(quán)局專利局專利審查協(xié)作河南中心,河南 鄭州 450000)
個性化推薦系統(tǒng)研究分析
張楊景京謝婉婉徐曉雷
(國家知識產(chǎn)權(quán)局專利局專利審查協(xié)作河南中心,河南鄭州450000)
互聯(lián)網(wǎng)技術(shù)的發(fā)展及用戶的個性化需求是推薦系統(tǒng)產(chǎn)生的背景,其根據(jù)用戶的興趣點及行為軌跡,為用戶在海量信息中精準推薦用戶所需要的信息,是機器學習、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)等技術(shù)的結(jié)合體?;诖?,介紹推薦系統(tǒng)的主要算法、評價方法、開源項目。
推薦系統(tǒng);個性化;興趣;行為軌跡;推薦算法
個性化推薦系統(tǒng)[1]的研究可以追溯到20世紀90年代,帕洛阿爾托研究中心的Tapestry系統(tǒng)引入了協(xié)同過濾的思想和概念,貝爾通信研究中心的視頻推薦系統(tǒng)對影片進行過濾等,這些早期的系統(tǒng)都是通過算法識別出具有相同愛好的用戶,對用戶的評分進行個性化加權(quán)處理,進而對用戶進行推薦。2006年NetFlix的100萬美元大獎將算法的研究推上高峰。亞馬遜、阿里巴巴、百度等互聯(lián)網(wǎng)巨頭都有自己的推薦系統(tǒng)。
1.1協(xié)同過濾推薦算法
1.1.1基于用戶的最近鄰推薦。首先給定一個評分數(shù)據(jù)集和一個用戶A,在評分數(shù)據(jù)集中找出與用戶A過去有相同偏好的用戶B,然后進行評分預測,對用戶A沒有見過的每個物品o,利用其近鄰B對o的評分計算預測值。該算法的核心是尋找到與當前用戶的最近鄰,主要采用Perason相關(guān)系數(shù)、余弦相似度、Spearman秩相關(guān)系數(shù)、均方差等方法計算。在研究最充分的推薦領域,Perason相關(guān)系數(shù)比其他方法在尋找最近鄰的時候表現(xiàn)更好一些。
1.1.2基于物品的最近鄰推薦。首先找到待測物品的若干最近鄰,然后通過待預測項的最近鄰居評分來求出加權(quán)平均值,以此來預測目標用戶對待預測項目的評分,然后把預測評分結(jié)果最高的前若干項作為結(jié)果推薦給用戶。余弦相似度由于效果精確,廣泛應用于基于物品的最近鄰居推薦。
1.2基于內(nèi)容的推薦算法
基于內(nèi)容的推薦不需要巨大的用戶群體或評分數(shù)據(jù)集,只有一個用戶也可以產(chǎn)生推薦列表。這里說所的內(nèi)容,指的是物品的特征信息,如一本書的題目、作者、類型、價格等特征。核心思想是評估用戶所涉及的物品與當前用戶過去喜歡的物品的相似度。
1.3基于知識的推薦算法
基于知識的推薦算法分為基于約束推薦和基于實例推薦2種,需要用戶指定需求,系統(tǒng)根據(jù)需求提供解決方案,如果找不到合適的解決方案,則需要用戶修改需求。
基于知識的推薦算法依賴于預先建立的針對特定領域的知識庫,適用于無法根據(jù)內(nèi)容信息和用戶行為軌跡來推薦的商品的預測。
1.4混合推薦算法
混合推薦算法分為整體式、并行式、流水線式3種。整體式是將幾種推薦策略整合到一個算法中;并行式是同時使用幾個推薦算法,然后利用一種混合機制將幾個獨立推薦算法的輸出結(jié)果整合在一起;流水線式是將整個流程劃分為多個階段,根據(jù)不同的階段采用不同的技術(shù),直到產(chǎn)生最后的推薦結(jié)果。
1.5基于上下文感知的推薦算法
基于上下文感知的推薦分為以下幾個階段[2]:①數(shù)據(jù)采集,收集用戶、上下文、項目、用戶評分、用戶行為及與上下文關(guān)聯(lián)的用戶行為記錄等相關(guān)數(shù)據(jù);②用戶偏好提取,分析影響用戶偏好提取的各種因素及其影響程度,采用有效手段提取用戶偏好;③上下文感知推薦生成,基于部分已知用戶偏好預測用戶、上下文、項目之間的潛在偏好,結(jié)合當前上下文信息生成推薦結(jié)果;④評價與自適應改進,采用合適的效用評價指標對推薦效果進行評價,并根據(jù)評價結(jié)果發(fā)現(xiàn)問題和改進。
如何清晰準確地鑒別推薦算法的優(yōu)劣目前沒有達成共識。目前主要采用準確度評價指標(包括預測準確度、分類準確度、排序準確度、預測打分關(guān)聯(lián)、距離標準化指標和半衰期效用指標)、推薦列表的流行性和多樣性、覆蓋率、新鮮性和意外性以及用戶滿意度等。
目前較好的開源項目主要有:①SVDFeature,A Toolkit for Feature-based Collaborative Filtering and Ranking,是一個feature-based協(xié)同過濾和排序工具,由上海交大Apex實驗室開發(fā),在KDD Cup 2012中獲得第一名,KDD Cup 2011中獲得第三名,鏈接http://svdfeature.apexlab.org/ wiki/Main_Page;②LIBMF,A Matrix-factorization Library for Recommender Systems,作者Chih-Jen Lin,連續(xù)多屆KDD Cup競賽上獲得優(yōu)異成績,鏈接http://www.csie.ntu. edu.tw/~cjlin/libmf/;③Lenskit,來自美國的明尼蘇達大學的GroupLens團隊,也是試數(shù)據(jù)集Movielens的作者,鏈接http://lenskit.org/;④EasyRec,是一個易集成、易擴展、功能強大的推薦系統(tǒng),包括數(shù)據(jù)錄入模塊、管理模塊、推薦挖掘、離線分析等,鏈接http://easyrec.org/。
目前,已經(jīng)有許多推薦算法可供選擇,研究人員需要根據(jù)需要解決的特定問題去選擇合適的算法。此外,還有基于二部圖的推薦算法、基于大規(guī)模隱式反饋的推薦算法、基于社交網(wǎng)絡的推薦算法、基于本體的推薦算法[3]等。近年來,個性化的推薦系統(tǒng)的發(fā)展非常迅猛,相信未來的推薦系統(tǒng)會越來越智能,推薦結(jié)果也會越來越精準。
[1]Gediminas Adomavicius,Alexander Tuzhilin.Toward the Next Generation of Recommender Systems:A Survey of the Stateof-the-Art and Possible Extensions[J].IEEE Transactions on Knowledge and Data Engineering,2005(6):734-749.
[2]王立才,孟祥武,張玉潔.上下文感知推薦系統(tǒng)[J].軟件學報,2012(1):1-20.
[3]饒俊陽,賈愛霞,馮巖松,等.基于本體結(jié)構(gòu)的新聞個性化推薦[J].北京大學學報:自然科學版,2014(1):1-8.
Research on Personalized Recommendation System
Zhang YangJing jingXie WanwanXu Xiaolei
(Patent Examination Cooperation Center of the Patent Office,SIPO,Henan,Zhengzhou Henan 450000)
The development of Internet technology and the user's individualized demand are the background of recommendation system,according to the user's point of interest and behavior trajectory,it accurately recommend information needed by the user in the mass of information.It is a combination of machine learning,data mining,knowledge discovery and other technologies.Based on this,the main algorithm,evaluation method and the open source project of recommendation system were introduced.
recommendation system;personalized;interest;behavior trajectory;recommendation algorithm
TP391.3
A
1003-5168(2016)07-0050-02
2016-06-25
張楊(1986-),男,碩士,研究方向:軟件工程、推薦系統(tǒng)、語義網(wǎng)。