摘 要:插值估計(jì)可緩解推薦系統(tǒng)的稀疏問題,但其效果會(huì)影響預(yù)測(cè)性能。以logistic用戶習(xí)慣(habit)評(píng)分加權(quán)改進(jìn)Jaccard(HabJac)相似度量,并通過K近鄰獲得插補(bǔ)評(píng)分。進(jìn)而,通過融合正則化奇異值分解(RSVD)技術(shù)提出了新的HISVD推薦算法,并獲得最終預(yù)測(cè)。用戶的習(xí)慣評(píng)分被定義為其出現(xiàn)頻次最高的評(píng)分,并且logistic權(quán)值同評(píng)分與習(xí)慣評(píng)分之間的歐氏距離正相關(guān)。在四個(gè)現(xiàn)實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:a)HISVD在不同數(shù)據(jù)集上,最優(yōu)情況下的參數(shù)比較穩(wěn)定;b)HISVD在MAE和RSME指標(biāo)上均超過了主流算法。
關(guān)鍵詞:插值估計(jì);奇異值分解;推薦系統(tǒng);稀疏性
中圖分類號(hào):TP39 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2022)07-021-2058-05
doi:10.19734/j.issn.1001-3695.2021.11.0648
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(62006200);
四川省科技計(jì)劃項(xiàng)目(2021YFS0407);四川省科技創(chuàng)新苗子工程項(xiàng)目(2022060);阿壩州成果轉(zhuǎn)化項(xiàng)目(R21CGZH0001);中央引導(dǎo)地方科技發(fā)展專項(xiàng)(2021ZYD0003);四川旅游學(xué)院校級(jí)項(xiàng)目(21SCTUTY05,2021SCTUZK84,2021SCTUZK85,ZL2020024,2020SCTU14)
作者簡(jiǎn)介:溫佐承(1981-),男,成都人,講師,碩士研究生,主要研究方向?yàn)橐苿?dòng)應(yīng)用開發(fā)、推薦系統(tǒng);沈少朋(1993-),男,四川涼山人,碩士研究生,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、異常檢測(cè);周相兵(1980-),男,四川儀隴人,教授,博士研究生,主要研究方向?yàn)槊嫦蚵糜卧朴?jì)算的研究工作和強(qiáng)化學(xué)習(xí);藍(lán)昊杰(2001-),男,四川廣安人,本科生,主要研究方向?yàn)橥扑]系統(tǒng);張智恒(1990-),男(通信作者),重慶梁平人,講師,博士研究生,主要研究方向?yàn)槿Q策、差錯(cuò)檢測(cè)、時(shí)間序列和推薦系統(tǒng)(zhihengzhang406@163.com).
Sparse matrix interpolation recommendation technology combined with scoring habit weighting
Wen Zuocheng1,Shen Shaopeng1,2,Zhou Xiangbing1,3,Lan Haojie1,Zhang Zhiheng1?
(1.School of Information amp; Technology,Sichuan Tourism University,Chengdu 610100,China;2.School of Software Engineering,Chengdu University of Information Technology,Chengdu 610200,China;3.School of Resources amp; Environment,University of Electronic Science amp; Technology of China,Chengdu 611731,China)
Abstract:The imputation-based solution can alleviate the sparsity problem of recommendation system.Improved Jaccard similarity based on logistic user habit rating weighting,which is called the HabJac.By combining this metric,the K nearest neighbor (KNN) obtains the imputation value.Furthermore,this paper proposed a new HISVD recommendation algorithm by combining the regularized singular value decomposition (RSVD) technology to predict the unknown ratings.Firstly,the user’s habit ra-ting was the most frequent one.Secondly,logistic weight was positively correlated with Euclidean distance between rating and habit one.The experimental results on four real data sets show that:a)the optimal parameters of HISVD algorithm for different data sets are similar;b)HISVD surpasses the mainstream competitors for the MAE and RSME.
Key words:imputation estimate;SVD;recommendation system;sparsity
0 引言
近年來(lái),推薦系統(tǒng)已經(jīng)成為了機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)之一[1]。人們相繼提出了基于三支決策[2,3]、深度學(xué)習(xí)[4]、集成學(xué)習(xí)[5]、模糊集[6]、因果分析[7]、鄰域[8,9]以及矩陣分解[10]等主流技術(shù)以獲得用戶個(gè)性化偏好。而在電子商務(wù)等實(shí)際場(chǎng)景中數(shù)據(jù)的稀疏性,嚴(yán)重影響了推薦性能[11]。針對(duì)該問題,近年來(lái)一些學(xué)者提出了基于插值[12~14]和基于社會(huì)網(wǎng)絡(luò)的方法[15~17]。由于僅需使用已有的評(píng)分?jǐn)?shù)據(jù),插值法的應(yīng)用更廣[13]。其中,主流的插值法包括ISVD[13]、改進(jìn)MULT[10]、增強(qiáng)皮爾森[12]和ESVD[14]。然而,進(jìn)一步從評(píng)分?jǐn)?shù)據(jù)中提取出更多視角下的有用信息可以更好地提高偏好預(yù)測(cè)效果[13]。
本文因此提出了一種考慮用戶評(píng)分習(xí)慣的估計(jì)值填充技術(shù),并將插補(bǔ)好的數(shù)據(jù)用于奇異值矩陣分解,以獲得最終的推薦結(jié)果。具體而言有以下四步:a)對(duì)任意用戶而言,他的習(xí)慣評(píng)分被定義為該用戶歷史評(píng)分?jǐn)?shù)據(jù)中出現(xiàn)頻次最高的分?jǐn)?shù);b)對(duì)一個(gè)用戶的任意評(píng)分而言,若它越接近于習(xí)慣評(píng)分,則賦予的權(quán)重值越低,反之,若距離習(xí)慣評(píng)分越遠(yuǎn),則權(quán)值更高;隨后通過logistic函數(shù)對(duì)權(quán)重進(jìn)行了歸一化處理,使用權(quán)重對(duì)用戶的所有歷史評(píng)分向量進(jìn)行加權(quán),對(duì)修正的評(píng)分結(jié)合主流相似度來(lái)進(jìn)行相似度的計(jì)算,然后使用KNN[18]方法獲得估算數(shù)據(jù);c)將用戶評(píng)分的估算數(shù)據(jù)同訓(xùn)練數(shù)據(jù)一起,基于RSVD矩陣分解技術(shù)獲得最終的推薦結(jié)果。
最后,通過在FilmTrust、M100K、M1M以及Netflix四個(gè)真實(shí)數(shù)據(jù)集上,針對(duì)平均絕對(duì)誤差(MAE)和均方根誤差(RMSE)開展的實(shí)驗(yàn)結(jié)果表明:a)相似度HabJac在以上四個(gè)數(shù)據(jù)集中均取得了最優(yōu)值,MAE最高提升了11.25%,RMSE最高提升9.76%;b)HISVD的最優(yōu)參數(shù)在不同數(shù)據(jù)集上的取值相對(duì)穩(wěn)定,對(duì)新數(shù)據(jù)上的參數(shù)初始化有較大的參考價(jià)值;c)HISVD算法在這四個(gè)數(shù)據(jù)集中同樣取得了最優(yōu),MAE最高提升了14%,RMSE最高提升了12.3%。
本文針對(duì)稀疏數(shù)據(jù)的0評(píng)分值插補(bǔ)問題提出了一種基于用戶評(píng)分習(xí)慣的logistic評(píng)分加權(quán)技術(shù),基于其中的加權(quán)技術(shù)進(jìn)一步改進(jìn)了已有的Jaccard相似度,再基于相似度技術(shù),提出了KNN未知評(píng)分插補(bǔ)技術(shù)。
1 相關(guān)工作
1.1 協(xié)同過濾算法
協(xié)同過濾推薦算法(CF)一般分為基于領(lǐng)域和基于模型的兩種類型。相似性度量是基于領(lǐng)域的基礎(chǔ),通過計(jì)算用戶或者項(xiàng)目的相似性來(lái)生成推薦列表。常用的相似性度量有杰卡德、余弦相似度、皮爾森、三角相似度[19]和歐氏距離。雖然基于領(lǐng)域的方法被廣泛使用,但是推薦質(zhì)量卻受到相似性度量的準(zhǔn)確性和數(shù)據(jù)稀疏的影響?;谀P偷腃F通過從用戶和項(xiàng)目評(píng)分矩陣中訓(xùn)練出來(lái)的模型進(jìn)行預(yù)測(cè)評(píng)分。基于模型的方法中最常見的是矩陣分解方法?;谀P头椒ǖ囊粋€(gè)主要問題是數(shù)據(jù)稀少和可解釋性差。Zhang等人[20]提出了一種基于奇異值分解的二階優(yōu)化模型,該方法從數(shù)據(jù)稀少的矩陣中通過二階優(yōu)化過程獲取潛在因子來(lái)提高推薦精度。
1.2 針對(duì)數(shù)據(jù)稀疏的推薦算法
圖1展示了推薦系統(tǒng)中解決稀疏問題的主流技術(shù),主要分為混合算法、基于社會(huì)網(wǎng)絡(luò)的算法和基于插值的算法。
1.2.1 混合算法
混合推薦系統(tǒng)把基于領(lǐng)域和基于模型的方法結(jié)合起來(lái)解決數(shù)據(jù)稀疏的問題。LA-LDA[21]方法利用用戶和項(xiàng)目的空間信息來(lái)緩解數(shù)據(jù)稀疏性。在推薦的同時(shí)考慮了用戶個(gè)人興趣和地理差距。ST-LDA[22]方法通過結(jié)合人群偏好和構(gòu)建社會(huì)空間推理框架來(lái)解決數(shù)據(jù)稀疏性問題。該方法利用用戶興趣點(diǎn)和社會(huì)信息內(nèi)容來(lái)緩解數(shù)據(jù)稀疏性。
1.2.2 基于社會(huì)網(wǎng)絡(luò)的算法
基于社會(huì)網(wǎng)絡(luò)的推薦是把用戶或者項(xiàng)目之間的社會(huì)關(guān)系考慮進(jìn)來(lái)。其中社會(huì)正則化方法[23]在矩陣分解的基礎(chǔ)上通過增加一個(gè)社會(huì)正則化項(xiàng)來(lái)解決數(shù)據(jù)稀疏的問題。Ma等人[15]還提出了利用隱含的用戶和物品社交信息來(lái)改進(jìn)推薦系統(tǒng)。Xie等人[24]提出了一種基于圖形的通用嵌入模型(GE)來(lái)實(shí)時(shí)發(fā)現(xiàn)用戶的興趣點(diǎn)進(jìn)行推薦。Yin等人[25]提出了空間感知的分層協(xié)作深度學(xué)習(xí)模型(SH-CDL)來(lái)獲取給定目標(biāo)區(qū)域中公眾的集體偏好。
1.2.3 基于插值的推薦算法
基于插值的方法在進(jìn)行預(yù)測(cè)之前會(huì)對(duì)評(píng)分矩陣中缺失值進(jìn)行預(yù)處理來(lái)解決數(shù)據(jù)稀疏的問題。Ma等人[12]在2007年首次提出了增強(qiáng)的皮爾森相似度插補(bǔ)技術(shù)(enhance Pearson)。隨后,Anand等人[11]把用戶或者項(xiàng)目評(píng)分的均值輸入到矩陣中來(lái)解決數(shù)據(jù)稀疏問題的IMULT插入技術(shù)。Guan等人[14]提出了使用受歡迎項(xiàng)目和進(jìn)行了大量評(píng)分項(xiàng)目的用戶結(jié)合來(lái)增強(qiáng)SVD方法(ESVD)。Yuan等人[13]提出增強(qiáng)的SVD皮爾森相似度插補(bǔ)技術(shù)(ISVD),把通過皮爾森預(yù)測(cè)的數(shù)據(jù)插入到SVD模型中來(lái)進(jìn)行預(yù)測(cè)。
上述方法不能從根本上解決數(shù)據(jù)稀少的問題且插值數(shù)據(jù)的精度不高,從而導(dǎo)致推薦的準(zhǔn)確性不高。同時(shí)RSVD方法的推薦精度也受到數(shù)據(jù)稀少問題的影響。在本文中提出了一種新的方法,把結(jié)合了用戶評(píng)分習(xí)慣加權(quán)預(yù)估算值輸入到RSVD模型,以緩解數(shù)據(jù)稀疏性問題。首先從歷史數(shù)據(jù)中獲得每個(gè)用戶評(píng)分的頻率分布,并將頻次最高的作為其習(xí)慣評(píng)分。接著根據(jù)用戶的歷史評(píng)分與其習(xí)慣評(píng)分之間的距離對(duì)原始評(píng)分進(jìn)行l(wèi)ogistic加權(quán),且差距越大權(quán)重越高。然后結(jié)合加權(quán)后的評(píng)分和K近鄰技術(shù)對(duì)所有未知評(píng)分進(jìn)行插補(bǔ)。最后在填充了估算值的評(píng)分矩陣上應(yīng)用RSVD來(lái)獲得最終的預(yù)測(cè)評(píng)分。
2 問題與方法
2.1 問題定義與分析
定義1 一個(gè)評(píng)分系統(tǒng)可以是一個(gè)m行n列的矩陣:
其中:m代表用戶數(shù);n代表項(xiàng)目數(shù),i∈[1,m],j∈[1,n];Ri,j∈Rm×n是第i個(gè)用戶對(duì)第j個(gè)項(xiàng)目的評(píng)分,且Ri,j的取值是{1,2,3,4,5}。用戶/項(xiàng)目評(píng)分矩陣當(dāng)中的未評(píng)分項(xiàng)用0表示。為了表達(dá)的簡(jiǎn)潔性,令Ri,*=(Ri,1,Ri,2,…,Ri,n)為用戶ui的評(píng)分向量。矩陣分解算法把評(píng)分矩陣Rm×n分解為兩個(gè)低秩矩陣UK,m和VK,n,預(yù)測(cè)矩陣m,n可以通過式(2)獲取。
問題1 基于用戶習(xí)慣和插補(bǔ)數(shù)據(jù)的矩陣分解推薦系統(tǒng)。
輸入:Rm×n(Ri,j∈R),k,α,λ,β。
輸出:m,n(R^i,j∈)。
優(yōu)化目標(biāo):min∑mi=1∑nj=1|Ri,j-i,j|+λ(U2i,*+V2*,j);
約束條件:Ri,jgt;0。
2.2 基于習(xí)慣評(píng)分的KNN插補(bǔ)技術(shù)
圖2給出了HISVD的流程。首先輸入歷史評(píng)分矩陣,從歷史評(píng)分矩陣中計(jì)算每個(gè)用戶評(píng)分的頻率分布,并將頻次最高的作為習(xí)慣評(píng)分。接著根據(jù)用戶的歷史評(píng)分與其習(xí)慣評(píng)分之間的距離計(jì)算原始評(píng)分的權(quán)重。結(jié)合加權(quán)后的評(píng)分計(jì)算用戶之間的相似度,對(duì)0分單元使用KNN進(jìn)行插值。然后對(duì)插值后的評(píng)分矩陣進(jìn)行RSVD分解。最后輸出預(yù)測(cè)評(píng)分矩陣。
原始評(píng)分?jǐn)?shù)據(jù)上所有為0的記錄單元均需要被插補(bǔ)。首先,給出用戶u對(duì)項(xiàng)目i的插補(bǔ)評(píng)分u,i的計(jì)算公式如下:
其次,本文為式(3)提出了一種新的基于評(píng)分習(xí)慣加權(quán)函數(shù)的相似度量(HabJac),即基于評(píng)分習(xí)慣加權(quán)函數(shù)的相似度,其具體定義如下:
其中:u和v表示任意給定兩個(gè)用戶;Wu,j表示任意用戶u對(duì)項(xiàng)目j的logistic習(xí)慣評(píng)分加權(quán)函數(shù)。
其中:hr(u)表示用戶u的習(xí)慣評(píng)分,將其歷史評(píng)分中出現(xiàn)次數(shù)最高的作為習(xí)慣評(píng)分;max(Ru,*)和min(Ru,*)分別表示該用戶u歷史評(píng)分中的最高分和最低分;以及δ=10-6用做防止分母為0時(shí)出現(xiàn)無(wú)窮大。Wu,j的取值范圍取決于實(shí)際場(chǎng)景中的評(píng)分范圍。比如,當(dāng)評(píng)分范圍是{1,2,3,4,5}時(shí),Wu,j∈[0.5,0.731]。
值得注意的是,用戶的評(píng)分距離習(xí)慣評(píng)分是有方向性的。即評(píng)分大于習(xí)慣時(shí),方向?yàn)檎?;評(píng)分小于習(xí)慣時(shí),方向?yàn)樨?fù);反之亦然。比如,習(xí)慣評(píng)分為3分,此時(shí)1分的距離為-2,而5分的距離為+2。本文假設(shè),權(quán)值與該方向無(wú)關(guān),即式(5)中的非負(fù)處理。比如,1分和5分相對(duì)于3分的權(quán)值是一致的。
然后,算法1給出了基于用戶習(xí)慣KNN插值的具體實(shí)現(xiàn)。
算法1 基于評(píng)分習(xí)慣的插值技術(shù)
輸入:Rm*n(Ri,j∈R),k。
輸出:m,n。
//步驟1 初始化邏輯權(quán)重矩陣。
Wm,n=0m,n and m,n=Rm×n;
for (each i∈[1,m]) do
find the most frequent rating hr(ui),maximal rating rmax(ui) and minimal rating rmin(ui);
for(each rating Ri,jgt;0,j∈[1,n])do
compute Wi,j equation (7);
end for
end for
//步驟 2 獲得插補(bǔ)
for(each i∈[1,m]) do
for(each j∈[1,n])do
if (Ri,j==0) then
for(each i′∈[1,m],i′≠i)do
compute the similarity between ui and ui′ with Rm×n and Wm,n;
end for
find the top-k users with the largest similarities compared to ui;
obtain the imputation i,j with equation (4);
end if
end for
end for
return m,n;
2.3 基于RSVD的插值推薦
解決2.1節(jié)中問題的過程分為兩個(gè)階段:a)獲得考慮了用戶評(píng)分習(xí)慣的插補(bǔ)數(shù)據(jù);b)填入估算數(shù)據(jù)并進(jìn)行基于RSVD的推薦。本文工作創(chuàng)新點(diǎn)集中在第一階段,后文將有針對(duì)性地展開詳述。對(duì)RSVD相關(guān)工作感興趣的讀者可查閱文獻(xiàn)[26]。
為了學(xué)習(xí)得到矩陣UK,m和VK,n的最佳近似值,采用隨機(jī)梯度下降法,學(xué)習(xí)率用α表示,正則參數(shù)用λ表示,求解矩陣UK,m和VK,n,如式(6)所示。
其中:1≤p≤K,Ui,p表示矩陣UK,m中第i行、第p列的值;Vp,j表示矩陣第p行、第j列的值。為了保證算法的收斂速度,將最多迭代次數(shù)設(shè)置為β。
值得注意的是,把式(3)中結(jié)合了用戶評(píng)分習(xí)慣的預(yù)測(cè)評(píng)分插補(bǔ)到原始評(píng)分矩陣當(dāng)中,使得原始評(píng)分矩陣被填滿,而沒有0分的單元格。再對(duì)填入估算數(shù)據(jù)的評(píng)分矩陣進(jìn)行基于RSVD的推薦。既是說,問題1包含的優(yōu)化目標(biāo)中的評(píng)分矩陣Ri,j不再是原始評(píng)分矩陣,而是被插補(bǔ)后的,不含0分的矩陣。為了描述的間接性,這里沿用了原始評(píng)分矩陣的符號(hào)。最后,式(5)復(fù)雜度為O(n),因此,式(4)的時(shí)間復(fù)雜度為O(n3)。由此可知,計(jì)算所有用戶之間相似度的復(fù)雜度為O(m2n3)。
3 相似度對(duì)比
由表1可知,HabJac在各種情況下均能取得較為理想的相似度計(jì)算結(jié)果。以Ⅱ號(hào)評(píng)分向量對(duì)為例,Jaccard、Jaccard*以及cosine的取值十分極端。(1,1,1,1)和(5,5,5,5)有一定的相似性,即方向一致,但區(qū)別同樣明顯,即評(píng)分差距大。因此,HabJac、Triangle以及Euclidean-based三種相似度較為合理。至于Pearson,則無(wú)法獲得結(jié)果,因?yàn)樵撓嗨贫葲]有定義方差為0的情況。
4 實(shí)驗(yàn)分析
本章通過討論以下三組議題給出實(shí)驗(yàn)分析結(jié)果:(a)HISVD中新相似度HabJac的性能對(duì)比;(b)HISVD的最佳推薦性能及其參數(shù)配置;(c)HISVD和其他基于插補(bǔ)技術(shù)推薦性能對(duì)比。進(jìn)行實(shí)驗(yàn)(a)是為了找出針對(duì)不同數(shù)據(jù)集的,最適合插補(bǔ)任務(wù)的相似度。實(shí)驗(yàn)(b)的目的是基于由實(shí)驗(yàn)(a)所得的最優(yōu)相似度,得到最優(yōu)的HISVD參數(shù)。進(jìn)行實(shí)驗(yàn)(c)是為了驗(yàn)證HISVD算法與同類競(jìng)爭(zhēng)者之間的優(yōu)越性。
4.1 數(shù)據(jù)與方案
表2給出了實(shí)驗(yàn)用到的四個(gè)真實(shí)數(shù)據(jù)集(即MovieLens-100K(M100K)、MovieLens-1M(M1M,http://grouplens.org/datasets/movielens)、FilmTrust(https://www.librec.net/datasets.html)和Netflix(https://www.netflix.com))。GroupLens Cooperation公開發(fā)布了MovieLens100k和1M數(shù)據(jù)集的主要信息。MovieLens 100k包含943個(gè)用戶對(duì)1 682個(gè)項(xiàng)目的100 000條評(píng)分。MovieLens 1M包含6 040個(gè)用戶對(duì)3 900個(gè)項(xiàng)目的1 000 209條評(píng)分。FilmTrust包含1 508個(gè)用戶對(duì)2 071個(gè)項(xiàng)目的35 497條評(píng)分。Netflix數(shù)據(jù)集是對(duì)一個(gè)子集進(jìn)行了抽樣,有997個(gè)用戶、1 491個(gè)項(xiàng)目和48 939條評(píng)分。
其次,本文采用平均絕對(duì)誤差(MAE)和均方根誤差[26] (RMSE)。此外,本文基于十折交叉驗(yàn)證法,展示了HISVD及其競(jìng)爭(zhēng)者的具體性能表現(xiàn)。最后,實(shí)驗(yàn)環(huán)境為Windows 10系統(tǒng),CPU4核心8線程,主頻2.7~3.6 GHz,編程語(yǔ)言為Python 3.7.0。
4.2 實(shí)驗(yàn)結(jié)果與分析
1)相似度性能對(duì)比 實(shí)驗(yàn)參數(shù)方案為:k從10增加到100,步長(zhǎng)10,對(duì)比討論了余弦相似度、Jaccard相關(guān)系數(shù)等六種主流相似度和HabJac在MAE和RMSE指標(biāo)上的預(yù)測(cè)性能。
對(duì)于MAE,在圖3(a)性能對(duì)比中,HabJac比次優(yōu)的Jaccard*相似度提高了0.09%~0.14%,比最差的cosine相似度提高了4.65%~10.58%。在圖3(b)中,HabJac比次優(yōu)的Jaccard*相似度提高了0.02%~0.15%,比最差的cosine相似度提高了4.50%~11.25%。在圖3(c)中,HabJac比次優(yōu)的Jaccard*相似度提高了0.26%~0.54%;比最差的cosine相似度提高了3.02%~6.53%。在圖3(d)中,HabJac比次優(yōu)的Jaccard*相似度提高了0.06%~0.24%,比最差的cosine相似度提高了6.90%~10.76%。
對(duì)于RMSE,在圖4(a)性能對(duì)比中,HabJac比次優(yōu)的Jaccard*相似度提高了0.02%~0.25%,比最差的cosine相似度提高了3.05%~8.94%。在圖4(b)中,HabJac比次優(yōu)的Jaccard*相似度提高了0.01%~0.40%,比最差的cosine相似度提高了2.90%~9.76%。在圖4(c)中,HabJac比次優(yōu)的Jaccard*相似度提高了0.15%~0.39%,比最差的cosine相似度提高了2.59%~5.76%。在圖4(d)中,HabJac比次優(yōu)的Jaccard*相似度提高了0.01%~0.18%;比最差的cosine相似度提高了5.16%~8.48%。
由圖3和4可知,本文所提出的HabJac相似度在四個(gè)真實(shí)數(shù)據(jù)集上的MAE和RMSE性能均取得并保持了最佳效果。其主要原因是相對(duì)于傳統(tǒng)相似度的簡(jiǎn)單評(píng)分計(jì)算,HabJac考慮了用戶評(píng)分習(xí)慣,且對(duì)用戶的評(píng)分按照習(xí)慣進(jìn)行了修正。在同樣使用K近鄰進(jìn)行預(yù)測(cè)的時(shí)候,可以獲取更精準(zhǔn)的鄰居,從而提高預(yù)測(cè)的性能。
2)最優(yōu)參數(shù)討論
由圖5和6可知,在數(shù)據(jù)集FlimTrust,k=10,α=0.012,λ=0.011,β=11時(shí),MAE和RMSE分別取得最小值0.744 3和0.942 3。在數(shù)據(jù)集NetFlix上,k=10,α=0.011,λ=0.01,β=18時(shí),MAE和RMSE分別取得最小值0.735 6和0.929 4。在數(shù)據(jù)集M100K,k=10,α=0.017,λ=0.007,β=16時(shí),MAE和RMSE分別取得最小值0.747 9和0.936 2。在數(shù)據(jù)集M1M上,k=10,α=0.006,λ=0.01,β=50時(shí),MAE和RMSE分別取得最小值0.694 6和0.882 2。
3)推薦性能對(duì)比 將HISVD在最優(yōu)參數(shù)下的結(jié)果與基于插值技術(shù)的算法ISVD、ESVD以及enhance Pearson三種主流的算法進(jìn)行了性能對(duì)比。表3比較了以上四種技術(shù)在四個(gè)數(shù)據(jù)集上關(guān)于MAE的表現(xiàn)。HISVD對(duì)應(yīng)的MAE值在四個(gè)數(shù)據(jù)集中均取得了最優(yōu)值。最小值在數(shù)據(jù)集M1M上取得,即0.694 6;最大值在數(shù)據(jù)集M100K上取得,即0.747 9。HISVD最大相對(duì)于enhance Pearson技術(shù)提高了14.0%,最小相對(duì)于ESVD技術(shù)提高了0.2%。
表4比較了以上四種技術(shù)在四個(gè)數(shù)據(jù)集上關(guān)于RMSE的表現(xiàn)。HISVD對(duì)應(yīng)的RSME值在四個(gè)數(shù)據(jù)集中均取得了最優(yōu)值。最小值在數(shù)據(jù)集M1M上取得,即0.882 2;最大值在數(shù)據(jù)集FlimTrust上取得,即0.942 3。HISVD最大相對(duì)于enhance Pearson技術(shù)提高了12.3%,最小相對(duì)于ESVD技術(shù)提高了0.7%。
HISVD比其他插值技術(shù)在MAE和RMSE取得了最優(yōu)值原因有兩點(diǎn):a)插補(bǔ)值的質(zhì)量和預(yù)測(cè)的準(zhǔn)確性有密切關(guān)系,結(jié)合用戶評(píng)分習(xí)慣的HabJac相似度相對(duì)于ISVD和ESVD能夠提供更加精準(zhǔn)的插補(bǔ)值;b)HISVD推薦性能優(yōu)于enhance Pearson 在于使用了SVD模型?;诰仃嚪纸獾哪P托阅軆?yōu)于基于K近鄰模型。
5 結(jié)束語(yǔ)
本文針對(duì)推薦系統(tǒng)中的稀疏性問題,提出了一種基于用戶習(xí)慣評(píng)分的插補(bǔ)算法。得到了比主流技術(shù),如ISVD、ESVD和enhance Pearson更好的預(yù)測(cè)結(jié)果,MAE最高可提高14.0%,RMSE最高可提高12.3%。此外,改進(jìn)的HabJac相似度在四個(gè)真實(shí)數(shù)據(jù)集上的表現(xiàn)均為最優(yōu),MAE最高可提高11.25%,RMSE最高可提高9.76%。在未來(lái)的研究工作主要包括以下四個(gè)方面:a)研發(fā)更豐富合理的習(xí)慣評(píng)分學(xué)習(xí)策略,如考慮用戶評(píng)分距離習(xí)慣評(píng)分的方向性;b)將Jaccard相似度的改進(jìn)思路擴(kuò)展到其他相似度;c)在三支決策[27,28]和情感分析[29~31]理論的指導(dǎo)下,設(shè)計(jì)新的加權(quán)策略。
參考文獻(xiàn):
[1]Portugal I,Alencar P,Cowan D.The use of machine learning algorithms in recommender systems:a systematic review[J].Expert Systems with Applications,2018,97:205-227.
[2]Zhang Hengru,Min Fan.Three-way recommender systems based on random forests[J].Knowledge-Based Systems,2016,91:275-286.
[3]Zhang Hengru,Min Fan,Shi Bing.Regression-based three-way recommendation[J].Information Sciences,2017,378:444-461.
[4]Fu Mingsheng,Hong Qu,Zhang Yi,et al.A novel deep learning-based collaborative filtering model for recommendation system[J].IEEE Trans on Cybernetics,2018,49(3):1084-1096.
[5]Penha G,Santos R L T.Exploiting performance estimates for augmenting recommendation ensembles[C]//Proc of the 14th ACM Confe-rence on Recommender Systems.New York:ACM Press,2020:111-119.
[6]Cordero P,Enciso M,López D,et al.A conversational recommender system for diagnosis using fuzzy rules[J].Expert Systems with Applications,2020,154:113449.
[7]Bonner S,Vasile F.Causal embeddings for recommendation[C]//Proc of the 12th ACM Conference on Recommender Systems.New York:ACM Press,2018:104-112.
[8]Wang Changzhong,Huang Yang,Shao Mingwen,et al.Feature selection based on neighborhood self-information[J].IEEE Trans on Cybernetics,2019,50(9):4031-4042.
[9]Sun Lin,Zhang Xiaoyu,Qian Yuhua,et al.Feature selection using neighborhood entropy-based uncertainty measures for gene expression data classification[J].Information Sciences,2019,502:18-41.
[10]Ranjbar M,Moradi P,Azami M,et al.An imputation-based matrix factorization method for improving accuracy of collaborative filtering systems[J].Engineering Applications of Artificial Intelligence,2015,46:58-66.
[11]Anand D,Bharadwaj K K.Utilizing various sparsity measures for enhancing accuracy of collaborative recommender systems based on local and global similarities[J].Expert Systems with Applications,2011,38(5):5101-5109.
[12]Ma Hao,King I,Lyu M R.Effective missing data prediction for collaborative filtering[C]//Proc of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2007:39-46.
[13]Yuan Xiaofeng,Han Lixin,Qian Subin,et al.Singular value decomposition based recommendation using imputed data[J].Knowledge-Based Systems,2019,163:485-494.
[14]Guan Xin,Li Changtsun,Guan Yu.Matrix factorization with rating completion:an enhanced SVD model for collaborative filtering recommender systems[J].IEEE Access,2017,5:27668-27678.
[15]Ma Hao,Zhou Dengyong,Liu Chao,et al.Recommender systems with social regularization[C]//Proc of the 4th ACM International Confe-rence on Web Search and Data Mining.New York:ACM Press,2011:287-296.
[16]Sun Zhoubao,Han Lixin,Huang Wenliang,et al.Recommender systems based on social networks[J].Journal of Systems and Software,2015,99:109-119.
[17]He Jianming,Chu Wesley W.A social network-based recommender system (SNRS)[M]//Data Mining for Social Network Data.Boston:Springer,2010:47-74.
[18]侯帥,張智恒,溫佐承,等.基于K-近鄰的多元時(shí)序預(yù)測(cè)與三支釋義[J].山西大學(xué)學(xué)報(bào):自然科學(xué)版,2020,43(4):727-734.(Hou Shuai,Zhang Zhiheng,Wen Zuocheng,et al.KNN based state prediction and three-way paraphrase for multivariate time series[J].Journal of Shanxi University:Natural Science Edition,2020,43(4):727-734.)
[19]Sun Shuangbo,Zhang Zhiheng,Dong Xinling,et al.Integrating triangle and Jaccard similarities for recommendation[J].PLoS One,2017,12(8):e0183570.
[20]Zhang Qian,Lu Jie,Jin Yaochu.Artificial intelligence in recommender systems[J].Complex amp; Intelligent Systems,2021,7(1):439-457.
[21]Yin Hongzhi,Cui Bin,Chen Ling,et al.Modeling location-based user rating profiles for personalized recommendation[J].ACM Trans on Knowledge Discovery from Data,2015,9(3):1-41.
[22]Yin Hongzhi,Zhou Xiaofang,Cui Bin,et al.Adapting to user interest drift for POI recommendation[J].IEEE Trans on Knowledge and Data Engineering,2016,28(10):2566-2581.
[23]Pan Yiteng,He Haiping.Learning social representations with deep autoencoder for recommender system[J].World Wide Web,2020,23(4):2259-2279.
[24]Xie Min,Yin Hongzhi,Wang Hao,et al.Learning graph-based POI embedding for location-based recommendation[C]//Proc of the 25th ACM International on Conference on Information and Knowledge Management.New York:ACM Press,2016:15-24.
[25]Yin Hongzhi,Wang Weiqing,Wang Hao,et al.Spatial-aware hierarchical collaborative deep learning for POI recommendation[J].IEEE Trans on Knowledge and Data Engineering,2017,29(11):2537-2551.
[26]De Lathauwer L,De Moor B,Vandewalle J.A multilinear singular va-lue decomposition[J].SIAM Journal on Matrix Analysis and Applications,2000,21(4):1253-1278.
[27] Beutel A,F(xiàn)aloutsos C.User behavior modeling and fraud detection[J].IEEE Intelligent Systems,2016,31(2):84-86.
[28]Ma Xiao.Fuzzy entropies for class-specific and classification-based attribute reducts in three-way probabilistic rough set models[J].International Journal of Machine Learning and Cybernetics,2021,12(2):433-457.
[29]Zhang Qinghua,Xia Deyou,Liu Kaixuan,et al.A general model of decision-theoretic three-way approximations of fuzzy sets based on a heuristic algorithm[J].Information Sciences,2020,507:522-539.
[30]張宜浩,朱小飛,徐傳運(yùn),等.基于用戶評(píng)論的深度情感分析和多視圖協(xié)同融合的混合推薦方法[J].計(jì)算機(jī)學(xué)報(bào),2019,42(6):1316-1333.(Zhang Yihao,Zhu Xiaofei,Xu Chuanyun et al.Hybrid recommendation approach based on deep sentiment analysis of user reviews and multi-view collaborative fusion[J].Chinese Journal of Computers,2019,42(6):1316-1333.)
[31]Lee S J,Seo B G,Park D H.Development of music recommendation system based on customer sentiment analysis[J].Journal of Intelligence and Information Systems,2018,24(4):197-217.
[32]Zehra S,Wasi S,Jami S I,et al.Ontology-based sentiment analysis model for recommendation systems[C]//Proc of the 14th International Joint Conference on Knowledge Discovery,Knowledge Engineering and Knowledge Management.2017:155-160.