石慧霞
摘 要:協(xié)同過濾算法是最常用、最經(jīng)典的個性化推薦算法之一。在算法計算中相似度計算是影響算法質(zhì)量的關(guān)鍵因素,該算法中相似度計算根據(jù)用戶評分差值作為距離來衡量,忽略了項目自身特征屬性對相似性計算的制約。因此提出一種基于項目特征的協(xié)同過濾推薦算法(IFCF),結(jié)合項目評分相似度,利用Logistic二分類算法思想將用戶對項目的偏好分為喜愛與不喜愛兩類,再利用貝葉斯概率原理將用戶對各項目特征的喜愛程度差值作為相似度調(diào)整度,以達(dá)到提高項目相似性度量準(zhǔn)確度的目的。實(shí)驗結(jié)果表明,該算法能夠有效提高推薦算法的精度。
關(guān)鍵詞關(guān)鍵詞:協(xié)同過濾;相似度;項目特征;貝葉斯原理
DOIDOI:10.11907/rjdk.161567
中圖分類號:TP312
文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2016)008-0033-03
0 引言
與搜索引擎不同,個性化推薦系統(tǒng)能夠基于個人行為數(shù)據(jù)為用戶提供定制信息,此類系統(tǒng)通常使用協(xié)同過濾技術(shù)實(shí)現(xiàn),并且在電子商務(wù)系統(tǒng)中得到廣泛應(yīng)用。鄰協(xié)同過濾推薦是目前運(yùn)用最廣泛的推薦技術(shù)之一[1],以用戶——項目評分矩陣表示用戶對于相關(guān)項目的興趣,通過計算用戶或者項目的相似度進(jìn)行最近鄰?fù)扑]。然而,僅僅從用戶的偏好值推導(dǎo)出相似度,并沒有很強(qiáng)的說服力,例如項目相似度完全可以依據(jù)項目屬性來計算。為此,基于項目類別與相似度[2-3]、基于用戶興趣特征[4-5]、基于矩陣分解降維[6-7]、基于聚類[8]、隱語義推薦算法[9]、基于內(nèi)容的推薦算法[10]等多種改進(jìn)算法被提出。文獻(xiàn)[2]考慮項目類別對項目相似性的影響,根據(jù)類別矩陣以及類內(nèi)用戶相似度得出推薦結(jié)果。文獻(xiàn)[4]融合用戶對不同項目興趣度與用戶評分計算用戶相似性,避免了僅依靠評分計算相似性的不足。文獻(xiàn)[6]將矩陣分解運(yùn)用到協(xié)同過濾推薦算法中,一定程度上解決了傳統(tǒng)矩陣稀疏性問題。文獻(xiàn)[8]提出了基于項目聚類的協(xié)同過濾,但該方法僅基于用戶評分聚類,推薦質(zhì)量并未提高。
從以上推薦算法可以看出,相似度計算以及最近鄰居集的產(chǎn)生是制約協(xié)同過濾推薦算法的關(guān)鍵因素。雖然上述算法考慮到數(shù)據(jù)稀疏性以及傳統(tǒng)相似度計算的弊端,但是并沒有分析用戶興趣與項目特征之間的關(guān)聯(lián),仍然導(dǎo)致系統(tǒng)的推薦精度不高。為此本文提出一種基于項目特征的協(xié)同過濾推薦算法(Item-Feature Collaborative Filtering)IFCF,該算法根據(jù)用戶興趣度與項目特征之間的關(guān)聯(lián),結(jié)合Logistic二分類算法思想,采用一種基于貝葉斯概率的項目特征相似性度量方法,并結(jié)合傳統(tǒng)最近鄰協(xié)同過濾算法中基于項目評分相似性度量方法得出項目綜合相似度。
1.2 常用的相似性度量方法分析
由于用戶數(shù)目和項目數(shù)目呈指數(shù)級增長,用戶評分的項目一般不會超過項目總數(shù)的1%,因此在用戶評分?jǐn)?shù)據(jù)極度稀疏的情況下,傳統(tǒng)的相似性度量方法存在一定弊端。本文詳細(xì)分析常用的相似性度量法在用戶評分?jǐn)?shù)據(jù)極度稀疏情況下的問題。
在皮爾遜相似度計算方法基于對項目i,j均有評分的用戶集合進(jìn)行,并沒有考慮同時對兩個項目評分的用戶數(shù)目,有200個用戶同時對項目i,j評分,即使他們的評分偶爾不一致,但可能要比僅有兩個用戶共同評分的項目更相似,因此皮爾遜存在弊端。
在余弦相似度計算方法中,將用戶未評分項的評分值均設(shè)為0,以便參加相似性計算。但是用戶對未評分項目的喜好程度不可能完全相同,對這些項目的評分也不可能完全相同,因此余弦相似性也不能很好地度量相似性。
在Jaccard相似性計算方法中僅僅考慮項目共同評分個數(shù)對相似度的影響,卻忽略項目之間評分差距,如項目i,j有10個用戶對其共同評分,而各用戶對項目i,j的評分差距很大(1分和5分),很顯然如果只有5個用戶對項目i,k共同評分,而i,k的評分很接近,則項目i,k比項目i,j更具有相似性。
2 基于項目特征的協(xié)同過濾推薦算法(IFCF)
本文IFCF算法的基本思路:首先,結(jié)合項目之間共同評分的用戶個數(shù)采用改進(jìn)的皮爾遜相似度計算項目評分相似度;其次,根據(jù)Logistic二分類算法原理將用戶對項目的偏好分為喜愛與不喜愛兩類,再利用貝葉斯概率計算用戶對項目特征的喜愛偏差并將值相似度調(diào)整度,綜合計算得出項目相似性度量,最終得出Top-N推薦結(jié)果。
3 實(shí)驗結(jié)果
3.1 數(shù)據(jù)集
實(shí)驗采用Movielens站點(diǎn)提供的數(shù)據(jù)集,這個數(shù)據(jù)集由美國Minnesota大學(xué)的GroupLens工作組創(chuàng)建并維護(hù),是一個基于Web的研究型推薦系統(tǒng),用于接收用戶對電影的評分并提供相應(yīng)的電影推薦列表。本實(shí)驗選擇6 040個用戶對3 900部電影做的100萬條評分?jǐn)?shù)據(jù)作為實(shí)驗數(shù)據(jù)集,該數(shù)據(jù)集包括的電影屬性有產(chǎn)地、時間、類別。其中該數(shù)據(jù)集包含19(0~18)類不同的電影類別,實(shí)驗時只利用1~18類進(jìn)行測試(0類為未知類,少數(shù)異常數(shù)據(jù)),其中每個用戶至少對20部電影進(jìn)行評分,評分范圍為1~5,評分越高表示用戶對項目興趣度越高。用戶評分?jǐn)?shù)據(jù)的密度(稀疏度)為1-1000209/(6040×3900)=95.76%,說明此數(shù)據(jù)是比較稀疏的。將實(shí)驗數(shù)據(jù)的評分矩陣進(jìn)一步劃分為訓(xùn)練集和測試集,在本文實(shí)驗中隨機(jī)地將數(shù)據(jù)集中的80%作為訓(xùn)練集,剩下的20%作為測試集。
3.2 推薦質(zhì)量的度量標(biāo)準(zhǔn)和實(shí)驗環(huán)境
評價推薦系統(tǒng)推薦質(zhì)量的度量標(biāo)準(zhǔn)主要包括統(tǒng)計精度度量方法和決策支持精度度量方法兩類[14],平均絕對偏差MAE(mean absolute error)是目前使用最廣泛的評價推薦系統(tǒng)精確度的評價標(biāo)準(zhǔn)[15]。該標(biāo)準(zhǔn)主要是計算測試集中用戶實(shí)際評分與利用推薦算法預(yù)測出來的評估值之間的絕對差,MAE值越小,則系統(tǒng)的推薦質(zhì)量越高。假設(shè)預(yù)測的用戶評分集合表示為{P 1,P 2,…P n},對應(yīng)的實(shí)際用戶評分集合為{Q 1,Q 2,…Q n},則平均絕對偏差MAE定義如公式(12)所示:
3.3 實(shí)驗結(jié)果分析
為了驗證本文提出的基于相似度調(diào)整度即項目特征的相似度計算方法的有效性,參照傳統(tǒng)的余弦相似性度量方法以及文獻(xiàn)[2]、[3]提出的結(jié)合項目類別相似度計算方法進(jìn)行實(shí)驗,測試4個相似度計算度量平均偏差值,實(shí)驗結(jié)果對比如圖(1)所示,其中系列1是本文提出的相似度計算算法中鄰居集個數(shù)與MAE值線性圖,系列2采用余弦相似度算法,系列3采用文獻(xiàn)[2]提出的相似度計算算法,系列4采用文獻(xiàn)[3]提出的相似度計算算法。
4 結(jié)語
協(xié)同過濾算法中相似性度量直接影響到算法的預(yù)測精度及推薦質(zhì)量。本文對傳統(tǒng)的基于項目相似性協(xié)同過濾推薦算法改進(jìn),提出了一種基于項目特征屬性的協(xié)同過濾推薦算法,本算法提出了相似度調(diào)整度的概念,將項目的特征相似性融合到基于項目評分的相似性度量計算中,使得項目相似度更精確。實(shí)驗結(jié)果表明,該算法的推薦精度及計算效率有明顯提升。后續(xù)將進(jìn)一步對算法優(yōu)化改進(jìn),考慮如何結(jié)合矩陣分解、聚類等方法,將用戶特征屬性也融合進(jìn)入推薦算法中。
參考文獻(xiàn):
[1]BREESE J,HECHERMAN D ,KADIE C . Empirical analysis of predictive algorithms for collaborative filtering[C].Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence,San Francisco:Morgan Kaufmann Publishers,1998:43-52.
[2]韋素云,業(yè)寧,吉根林,等. 基于項目類別和興趣度的協(xié)同過濾推薦算法[J]. 南京大學(xué)學(xué)報:自然科學(xué)版,2013,49(2):142-149.
[3]LI C,LIANG C Y,DONG K. A collaborative filtering recommendation algorithm based on item category similarity[J]. Journal of Hefei University of Technology (Natural Sciences),2008, 31(3):360-363.
[4]邢春曉,高鳳榮,戰(zhàn)思南,等. 適應(yīng)用戶興趣變化的協(xié)同過濾推薦算法[J]. 計算機(jī)研究與發(fā)展,2007,44(2):296-301.
[5]余肖生,孫珊. 基于網(wǎng)絡(luò)用戶信息行為的個性化推薦模型[J].重慶理工大學(xué)學(xué)報:自然科學(xué)版,2013,27(1):47-50.
[6]VOZALIS M G,MARGARITIS K G.Applying SVD on item-based filtering[C]. Proc of the 5th International Conference on Intelligent Systems Design and Applications,2005: 464-469.
[7]印鑒,王智圣,李琪,等. 基于大規(guī)模隱式反饋的個性化推薦[J]. 軟件學(xué)報,2014,25(9): 1953-1966.
[8]D BRIDGE ,J KELLEHER. Experiments in sparsity reduction:using clustering in collaborative recommenders[C].Procs. of the Thirteenth Irish Conference on Artificial Intelligence and Cognitive Science.Springer, 2012(25):144-149.
[9]胡堰,彭啟民,胡曉惠.一種基于隱語義概率模型的個性化Web服務(wù)推薦方法[J]. 計算機(jī)研究與發(fā)展,2014,51(8):1781-1793.
[10]ZENG CHUN, XING CHUNXIAO, ZHOU LIZHU. A personalized search algorithm by using content-based filtering[J]. Journal of Software, 2003,14(5): 999-1004.
[11]SARVAR B M. Sparsity, scalability and distribution in recommender systems[C].Minneapolis: University of Minnesota, 2001.
[12]XU X, FRANK E. Logistic regression and boosting for labeled bags of instances [J]. Lecture Notes in Computer Science,2004.
[13]BADRUL SARWAR, GEORGE KARYPIS, JOSEPH KONSTAN, et al.Item-based collaborative filtering recommendation algorithms[C].in Proceedings of the 10th International Conference on World Wide Web,2001:285-295.
[14]AGGARWAL C C, WOLF J L, WU K L, et al. Horting hatches an egg:a new graph-theoretic approach to collaborative filtering[C].Proc of the 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,NewYork: ACM Press, 1999:201-212.
[15]WILLMOTT C J,MATSUURA K.Advantages of the mean absolute error(MAE) over the root mean square error (RMSE) in assessing average model performance[J].Climate Research,2005,30(1):79.
(責(zé)任編輯:陳福時)