結(jié)合評(píng)分習(xí)慣加權(quán)的稀疏矩陣插值推薦技術(shù)

2022-12-31 00:00:00溫佐承沈少朋周相兵藍(lán)昊杰張智恒

計(jì)算機(jī)應(yīng)用研究 2022年7期

摘要：插值估計(jì)可緩解推薦系統(tǒng)的稀疏問題，但其效果會(huì)影響預(yù)測(cè)性能。以logistic用戶習(xí)慣（habit）評(píng)分加權(quán)改進(jìn)Jaccard（HabJac）相似度量，并通過K近鄰獲得插補(bǔ)評(píng)分。進(jìn)而，通過融合正則化奇異值分解（RSVD）技術(shù)提出了新的HISVD推薦算法，并獲得最終預(yù)測(cè)。用戶的習(xí)慣評(píng)分被定義為其出現(xiàn)頻次最高的評(píng)分，并且logistic權(quán)值同評(píng)分與習(xí)慣評(píng)分之間的歐氏距離正相關(guān)。在四個(gè)現(xiàn)實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明：a）HISVD在不同數(shù)據(jù)集上，最優(yōu)情況下的參數(shù)比較穩(wěn)定；b）HISVD在MAE和RSME指標(biāo)上均超過了主流算法。

關(guān)鍵詞：插值估計(jì)；奇異值分解；推薦系統(tǒng)；稀疏性

中圖分類號(hào)：TP39 文獻(xiàn)標(biāo)志碼：A

文章編號(hào)：1001-3695（2022）07-021-2058-05

doi：10.19734/j.issn.1001-3695.2021.11.0648

基金項(xiàng)目：國(guó)家自然科學(xué)基金資助項(xiàng)目（62006200）；

四川省科技計(jì)劃項(xiàng)目（2021YFS0407）；四川省科技創(chuàng)新苗子工程項(xiàng)目（2022060）；阿壩州成果轉(zhuǎn)化項(xiàng)目（R21CGZH0001）；中央引導(dǎo)地方科技發(fā)展專項(xiàng)（2021ZYD0003）；四川旅游學(xué)院校級(jí)項(xiàng)目（21SCTUTY05，2021SCTUZK84，2021SCTUZK85，ZL2020024，2020SCTU14）

作者簡(jiǎn)介：溫佐承（1981-），男，成都人，講師，碩士研究生，主要研究方向?yàn)橐苿?dòng)應(yīng)用開發(fā)、推薦系統(tǒng)；沈少朋（1993-），男，四川涼山人，碩士研究生，主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、異常檢測(cè)；周相兵（1980-），男，四川儀隴人，教授，博士研究生，主要研究方向?yàn)槊嫦蚵糜卧朴?jì)算的研究工作和強(qiáng)化學(xué)習(xí)；藍(lán)昊杰（2001-），男，四川廣安人，本科生，主要研究方向?yàn)橥扑]系統(tǒng)；張智恒（1990-），男（通信作者），重慶梁平人，講師，博士研究生，主要研究方向?yàn)槿Q策、差錯(cuò)檢測(cè)、時(shí)間序列和推薦系統(tǒng)（zhihengzhang406@163.com）．

Sparse matrix interpolation recommendation technology combined with scoring habit weighting

Wen Zuocheng¹，Shen Shaopeng¹^，2，Zhou Xiangbing¹^，3，Lan Haojie¹，Zhang Zhiheng¹^?

（1.School of Information amp; Technology，Sichuan Tourism University，Chengdu 610100，China；2.School of Software Engineering，Chengdu University of Information Technology，Chengdu 610200，China；3.School of Resources amp; Environment，University of Electronic Science amp; Technology of China，Chengdu 611731，China）

Abstract：The imputation-based solution can alleviate the sparsity problem of recommendation system.Improved Jaccard similarity based on logistic user habit rating weighting，which is called the HabJac.By combining this metric，the K nearest neighbor （KNN） obtains the imputation value.Furthermore，this paper proposed a new HISVD recommendation algorithm by combining the regularized singular value decomposition （RSVD） technology to predict the unknown ratings.Firstly，the user’s habit ra-ting was the most frequent one.Secondly，logistic weight was positively correlated with Euclidean distance between rating and habit one.The experimental results on four real data sets show that：a）the optimal parameters of HISVD algorithm for different data sets are similar；b）HISVD surpasses the mainstream competitors for the MAE and RSME.

Key words：imputation estimate；SVD；recommendation system；sparsity

0 引言

近年來(lái)，推薦系統(tǒng)已經(jīng)成為了機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)之一^［1^］。人們相繼提出了基于三支決策^［²^，3^］、深度學(xué)習(xí)^［⁴^］、集成學(xué)習(xí)^［⁵^］、模糊集^［⁶^］、因果分析^［⁷^］、鄰域^［⁸^，9^］以及矩陣分解^［¹⁰^］等主流技術(shù)以獲得用戶個(gè)性化偏好。而在電子商務(wù)等實(shí)際場(chǎng)景中數(shù)據(jù)的稀疏性，嚴(yán)重影響了推薦性能^［11^］。針對(duì)該問題，近年來(lái)一些學(xué)者提出了基于插值^［^12～14^］和基于社會(huì)網(wǎng)絡(luò)的方法^［^15～17^］。由于僅需使用已有的評(píng)分?jǐn)?shù)據(jù)，插值法的應(yīng)用更廣^［¹³^］。其中，主流的插值法包括ISVD^［13^］、改進(jìn)MULT^［10^］、增強(qiáng)皮爾森^［¹²^］和ESVD^［14^］。然而，進(jìn)一步從評(píng)分?jǐn)?shù)據(jù)中提取出更多視角下的有用信息可以更好地提高偏好預(yù)測(cè)效果^［¹³^］。

本文因此提出了一種考慮用戶評(píng)分習(xí)慣的估計(jì)值填充技術(shù)，并將插補(bǔ)好的數(shù)據(jù)用于奇異值矩陣分解，以獲得最終的推薦結(jié)果。具體而言有以下四步：a）對(duì)任意用戶而言，他的習(xí)慣評(píng)分被定義為該用戶歷史評(píng)分?jǐn)?shù)據(jù)中出現(xiàn)頻次最高的分?jǐn)?shù)；b）對(duì)一個(gè)用戶的任意評(píng)分而言，若它越接近于習(xí)慣評(píng)分，則賦予的權(quán)重值越低，反之，若距離習(xí)慣評(píng)分越遠(yuǎn)，則權(quán)值更高；隨后通過logistic函數(shù)對(duì)權(quán)重進(jìn)行了歸一化處理，使用權(quán)重對(duì)用戶的所有歷史評(píng)分向量進(jìn)行加權(quán)，對(duì)修正的評(píng)分結(jié)合主流相似度來(lái)進(jìn)行相似度的計(jì)算，然后使用KNN^［18^］方法獲得估算數(shù)據(jù)；c）將用戶評(píng)分的估算數(shù)據(jù)同訓(xùn)練數(shù)據(jù)一起，基于RSVD矩陣分解技術(shù)獲得最終的推薦結(jié)果。

最后，通過在FilmTrust、M100K、M1M以及Netflix四個(gè)真實(shí)數(shù)據(jù)集上，針對(duì)平均絕對(duì)誤差（MAE）和均方根誤差（RMSE）開展的實(shí)驗(yàn)結(jié)果表明：a）相似度HabJac在以上四個(gè)數(shù)據(jù)集中均取得了最優(yōu)值，MAE最高提升了11.25%，RMSE最高提升9.76%；b）HISVD的最優(yōu)參數(shù)在不同數(shù)據(jù)集上的取值相對(duì)穩(wěn)定，對(duì)新數(shù)據(jù)上的參數(shù)初始化有較大的參考價(jià)值；c）HISVD算法在這四個(gè)數(shù)據(jù)集中同樣取得了最優(yōu)，MAE最高提升了14%，RMSE最高提升了12.3%。

本文針對(duì)稀疏數(shù)據(jù)的0評(píng)分值插補(bǔ)問題提出了一種基于用戶評(píng)分習(xí)慣的logistic評(píng)分加權(quán)技術(shù)，基于其中的加權(quán)技術(shù)進(jìn)一步改進(jìn)了已有的Jaccard相似度，再基于相似度技術(shù)，提出了KNN未知評(píng)分插補(bǔ)技術(shù)。

1 相關(guān)工作

1.1 協(xié)同過濾算法

協(xié)同過濾推薦算法（CF）一般分為基于領(lǐng)域和基于模型的兩種類型。相似性度量是基于領(lǐng)域的基礎(chǔ)，通過計(jì)算用戶或者項(xiàng)目的相似性來(lái)生成推薦列表。常用的相似性度量有杰卡德、余弦相似度、皮爾森、三角相似度^［19^］和歐氏距離。雖然基于領(lǐng)域的方法被廣泛使用，但是推薦質(zhì)量卻受到相似性度量的準(zhǔn)確性和數(shù)據(jù)稀疏的影響?；谀Ｐ偷腃F通過從用戶和項(xiàng)目評(píng)分矩陣中訓(xùn)練出來(lái)的模型進(jìn)行預(yù)測(cè)評(píng)分。基于模型的方法中最常見的是矩陣分解方法?；谀Ｐ头椒ǖ囊粋€(gè)主要問題是數(shù)據(jù)稀少和可解釋性差。Zhang等人^［20^］提出了一種基于奇異值分解的二階優(yōu)化模型，該方法從數(shù)據(jù)稀少的矩陣中通過二階優(yōu)化過程獲取潛在因子來(lái)提高推薦精度。

1.2 針對(duì)數(shù)據(jù)稀疏的推薦算法

圖1展示了推薦系統(tǒng)中解決稀疏問題的主流技術(shù)，主要分為混合算法、基于社會(huì)網(wǎng)絡(luò)的算法和基于插值的算法。

1.2.1 混合算法

混合推薦系統(tǒng)把基于領(lǐng)域和基于模型的方法結(jié)合起來(lái)解決數(shù)據(jù)稀疏的問題。LA-LDA^［21^］方法利用用戶和項(xiàng)目的空間信息來(lái)緩解數(shù)據(jù)稀疏性。在推薦的同時(shí)考慮了用戶個(gè)人興趣和地理差距。ST-LDA^［22^］方法通過結(jié)合人群偏好和構(gòu)建社會(huì)空間推理框架來(lái)解決數(shù)據(jù)稀疏性問題。該方法利用用戶興趣點(diǎn)和社會(huì)信息內(nèi)容來(lái)緩解數(shù)據(jù)稀疏性。

1.2.2 基于社會(huì)網(wǎng)絡(luò)的算法

基于社會(huì)網(wǎng)絡(luò)的推薦是把用戶或者項(xiàng)目之間的社會(huì)關(guān)系考慮進(jìn)來(lái)。其中社會(huì)正則化方法^［23^］在矩陣分解的基礎(chǔ)上通過增加一個(gè)社會(huì)正則化項(xiàng)來(lái)解決數(shù)據(jù)稀疏的問題。Ma等人^［15^］還提出了利用隱含的用戶和物品社交信息來(lái)改進(jìn)推薦系統(tǒng)。Xie等人^［24^］提出了一種基于圖形的通用嵌入模型（GE）來(lái)實(shí)時(shí)發(fā)現(xiàn)用戶的興趣點(diǎn)進(jìn)行推薦。Yin等人^［25^］提出了空間感知的分層協(xié)作深度學(xué)習(xí)模型（SH-CDL）來(lái)獲取給定目標(biāo)區(qū)域中公眾的集體偏好。

1.2.3 基于插值的推薦算法

基于插值的方法在進(jìn)行預(yù)測(cè)之前會(huì)對(duì)評(píng)分矩陣中缺失值進(jìn)行預(yù)處理來(lái)解決數(shù)據(jù)稀疏的問題。Ma等人^［12^］在2007年首次提出了增強(qiáng)的皮爾森相似度插補(bǔ)技術(shù)（enhance Pearson）。隨后，Anand等人^［11^］把用戶或者項(xiàng)目評(píng)分的均值輸入到矩陣中來(lái)解決數(shù)據(jù)稀疏問題的IMULT插入技術(shù)。Guan等人^［14^］提出了使用受歡迎項(xiàng)目和進(jìn)行了大量評(píng)分項(xiàng)目的用戶結(jié)合來(lái)增強(qiáng)SVD方法（ESVD）。Yuan等人^［13^］提出增強(qiáng)的SVD皮爾森相似度插補(bǔ)技術(shù)（ISVD），把通過皮爾森預(yù)測(cè)的數(shù)據(jù)插入到SVD模型中來(lái)進(jìn)行預(yù)測(cè)。

上述方法不能從根本上解決數(shù)據(jù)稀少的問題且插值數(shù)據(jù)的精度不高，從而導(dǎo)致推薦的準(zhǔn)確性不高。同時(shí)RSVD方法的推薦精度也受到數(shù)據(jù)稀少問題的影響。在本文中提出了一種新的方法，把結(jié)合了用戶評(píng)分習(xí)慣加權(quán)預(yù)估算值輸入到RSVD模型，以緩解數(shù)據(jù)稀疏性問題。首先從歷史數(shù)據(jù)中獲得每個(gè)用戶評(píng)分的頻率分布，并將頻次最高的作為其習(xí)慣評(píng)分。接著根據(jù)用戶的歷史評(píng)分與其習(xí)慣評(píng)分之間的距離對(duì)原始評(píng)分進(jìn)行l(wèi)ogistic加權(quán)，且差距越大權(quán)重越高。然后結(jié)合加權(quán)后的評(píng)分和K近鄰技術(shù)對(duì)所有未知評(píng)分進(jìn)行插補(bǔ)。最后在填充了估算值的評(píng)分矩陣上應(yīng)用RSVD來(lái)獲得最終的預(yù)測(cè)評(píng)分。

2 問題與方法

2.1 問題定義與分析

定義1 一個(gè)評(píng)分系統(tǒng)可以是一個(gè)m行n列的矩陣：

其中：m代表用戶數(shù)；n代表項(xiàng)目數(shù)，i∈[1，m]，j∈[1，n]；Ri，j∈Rm×n是第i個(gè)用戶對(duì)第j個(gè)項(xiàng)目的評(píng)分，且Ri，j的取值是{1，2，3，4，5}。用戶/項(xiàng)目評(píng)分矩陣當(dāng)中的未評(píng)分項(xiàng)用0表示。為了表達(dá)的簡(jiǎn)潔性，令Ri，*=（Ri，1，Ri，2，…，Ri，n）為用戶ui的評(píng)分向量。矩陣分解算法把評(píng)分矩陣Rm×n分解為兩個(gè)低秩矩陣UK，m和VK，n，預(yù)測(cè)矩陣m，n可以通過式（2）獲取。

問題1 基于用戶習(xí)慣和插補(bǔ)數(shù)據(jù)的矩陣分解推薦系統(tǒng)。

輸入：Rm×n（Ri，j∈R），k，α，λ，β。

輸出：m，n（R^i，j∈）。

優(yōu)化目標(biāo)：min∑mi=1∑nj=1|Ri，j-i，j|+λ（U²i，*+V²*，j）；

約束條件：Ri，jgt;0。

2.2 基于習(xí)慣評(píng)分的KNN插補(bǔ)技術(shù)

圖2給出了HISVD的流程。首先輸入歷史評(píng)分矩陣，從歷史評(píng)分矩陣中計(jì)算每個(gè)用戶評(píng)分的頻率分布，并將頻次最高的作為習(xí)慣評(píng)分。接著根據(jù)用戶的歷史評(píng)分與其習(xí)慣評(píng)分之間的距離計(jì)算原始評(píng)分的權(quán)重。結(jié)合加權(quán)后的評(píng)分計(jì)算用戶之間的相似度，對(duì)0分單元使用KNN進(jìn)行插值。然后對(duì)插值后的評(píng)分矩陣進(jìn)行RSVD分解。最后輸出預(yù)測(cè)評(píng)分矩陣。

原始評(píng)分?jǐn)?shù)據(jù)上所有為0的記錄單元均需要被插補(bǔ)。首先，給出用戶u對(duì)項(xiàng)目i的插補(bǔ)評(píng)分u，i的計(jì)算公式如下：

其次，本文為式（3）提出了一種新的基于評(píng)分習(xí)慣加權(quán)函數(shù)的相似度量（HabJac），即基于評(píng)分習(xí)慣加權(quán)函數(shù)的相似度，其具體定義如下：

其中：u和v表示任意給定兩個(gè)用戶；Wu，j表示任意用戶u對(duì)項(xiàng)目j的logistic習(xí)慣評(píng)分加權(quán)函數(shù)。

其中：hr（u）表示用戶u的習(xí)慣評(píng)分，將其歷史評(píng)分中出現(xiàn)次數(shù)最高的作為習(xí)慣評(píng)分；max（Ru，*）和min（Ru，*）分別表示該用戶u歷史評(píng)分中的最高分和最低分；以及δ=10^-6用做防止分母為0時(shí)出現(xiàn)無(wú)窮大。Wu，j的取值范圍取決于實(shí)際場(chǎng)景中的評(píng)分范圍。比如，當(dāng)評(píng)分范圍是{1，2，3，4，5}時(shí)，Wu，j∈［0.5，0.731］。

值得注意的是，用戶的評(píng)分距離習(xí)慣評(píng)分是有方向性的。即評(píng)分大于習(xí)慣時(shí)，方向?yàn)檎?；評(píng)分小于習(xí)慣時(shí)，方向?yàn)樨?fù)；反之亦然。比如，習(xí)慣評(píng)分為3分，此時(shí)1分的距離為-2，而5分的距離為+2。本文假設(shè)，權(quán)值與該方向無(wú)關(guān)，即式（5）中的非負(fù)處理。比如，1分和5分相對(duì)于3分的權(quán)值是一致的。

然后，算法1給出了基于用戶習(xí)慣KNN插值的具體實(shí)現(xiàn)。

算法1 基于評(píng)分習(xí)慣的插值技術(shù)

輸入：Rm*n（Ri，j∈R），k。

輸出：m，n。

//步驟1 初始化邏輯權(quán)重矩陣。

Wm，n=0m，n and m，n=Rm×n；

for （each i∈［1，m］） do

find the most frequent rating hr（ui），maximal rating rmax（ui） and minimal rating rmin（ui）；

for（each rating Ri，jgt;0，j∈［1，n］）do

compute Wi，j equation （7）；

end for

//步驟 2 獲得插補(bǔ)

for（each i∈［1，m］） do

for（each j∈［1，n］）do

if （Ri，j==0） then

for（each i′∈［1，m］，i′≠i）do

compute the similarity between ui and ui′ with Rm×n and Wm，n；

end for

find the top-k users with the largest similarities compared to ui；

obtain the imputation i，j with equation （4）；

end if

end for

return m，n；

2.3 基于RSVD的插值推薦

解決2.1節(jié)中問題的過程分為兩個(gè)階段：a）獲得考慮了用戶評(píng)分習(xí)慣的插補(bǔ)數(shù)據(jù)；b）填入估算數(shù)據(jù)并進(jìn)行基于RSVD的推薦。本文工作創(chuàng)新點(diǎn)集中在第一階段，后文將有針對(duì)性地展開詳述。對(duì)RSVD相關(guān)工作感興趣的讀者可查閱文獻(xiàn)［26］。

為了學(xué)習(xí)得到矩陣UK，m和VK，n的最佳近似值，采用隨機(jī)梯度下降法，學(xué)習(xí)率用α表示，正則參數(shù)用λ表示，求解矩陣UK，m和VK，n，如式（6）所示。

其中：1≤p≤K，Ui，p表示矩陣UK，m中第i行、第p列的值；Vp，j表示矩陣第p行、第j列的值。為了保證算法的收斂速度，將最多迭代次數(shù)設(shè)置為β。

值得注意的是，把式（3）中結(jié)合了用戶評(píng)分習(xí)慣的預(yù)測(cè)評(píng)分插補(bǔ)到原始評(píng)分矩陣當(dāng)中，使得原始評(píng)分矩陣被填滿，而沒有0分的單元格。再對(duì)填入估算數(shù)據(jù)的評(píng)分矩陣進(jìn)行基于RSVD的推薦。既是說，問題1包含的優(yōu)化目標(biāo)中的評(píng)分矩陣Ri，j不再是原始評(píng)分矩陣，而是被插補(bǔ)后的，不含0分的矩陣。為了描述的間接性，這里沿用了原始評(píng)分矩陣的符號(hào)。最后，式（5）復(fù)雜度為O（n），因此，式（4）的時(shí)間復(fù)雜度為O（n³）。由此可知，計(jì)算所有用戶之間相似度的復(fù)雜度為O（m²n³）。

3 相似度對(duì)比

由表1可知，HabJac在各種情況下均能取得較為理想的相似度計(jì)算結(jié)果。以Ⅱ號(hào)評(píng)分向量對(duì)為例，Jaccard、Jaccard*以及cosine的取值十分極端。（1，1，1，1）和（5，5，5，5）有一定的相似性，即方向一致，但區(qū)別同樣明顯，即評(píng)分差距大。因此，HabJac、Triangle以及Euclidean-based三種相似度較為合理。至于Pearson，則無(wú)法獲得結(jié)果，因?yàn)樵撓嗨贫葲]有定義方差為0的情況。

4 實(shí)驗(yàn)分析

本章通過討論以下三組議題給出實(shí)驗(yàn)分析結(jié)果：（a）HISVD中新相似度HabJac的性能對(duì)比；（b）HISVD的最佳推薦性能及其參數(shù)配置；（c）HISVD和其他基于插補(bǔ)技術(shù)推薦性能對(duì)比。進(jìn)行實(shí)驗(yàn)（a）是為了找出針對(duì)不同數(shù)據(jù)集的，最適合插補(bǔ)任務(wù)的相似度。實(shí)驗(yàn)（b）的目的是基于由實(shí)驗(yàn)（a）所得的最優(yōu)相似度，得到最優(yōu)的HISVD參數(shù)。進(jìn)行實(shí)驗(yàn)（c）是為了驗(yàn)證HISVD算法與同類競(jìng)爭(zhēng)者之間的優(yōu)越性。

4.1 數(shù)據(jù)與方案

表2給出了實(shí)驗(yàn)用到的四個(gè)真實(shí)數(shù)據(jù)集（即MovieLens-100K（M100K）、MovieLens-1M（M1M，http：//grouplens.org/datasets/movielens）、FilmTrust（https：//www.librec.net/datasets.html）和Netflix（https：//www.netflix.com））。GroupLens Cooperation公開發(fā)布了MovieLens100k和1M數(shù)據(jù)集的主要信息。MovieLens 100k包含943個(gè)用戶對(duì)1 682個(gè)項(xiàng)目的100 000條評(píng)分。MovieLens 1M包含6 040個(gè)用戶對(duì)3 900個(gè)項(xiàng)目的1 000 209條評(píng)分。FilmTrust包含1 508個(gè)用戶對(duì)2 071個(gè)項(xiàng)目的35 497條評(píng)分。Netflix數(shù)據(jù)集是對(duì)一個(gè)子集進(jìn)行了抽樣，有997個(gè)用戶、1 491個(gè)項(xiàng)目和48 939條評(píng)分。

其次，本文采用平均絕對(duì)誤差（MAE）和均方根誤差^［26^］（RMSE）。此外，本文基于十折交叉驗(yàn)證法，展示了HISVD及其競(jìng)爭(zhēng)者的具體性能表現(xiàn)。最后，實(shí)驗(yàn)環(huán)境為Windows 10系統(tǒng)，CPU4核心8線程，主頻2.7～3.6 GHz，編程語(yǔ)言為Python 3.7.0。

4.2 實(shí)驗(yàn)結(jié)果與分析

1）相似度性能對(duì)比實(shí)驗(yàn)參數(shù)方案為：k從10增加到100，步長(zhǎng)10，對(duì)比討論了余弦相似度、Jaccard相關(guān)系數(shù)等六種主流相似度和HabJac在MAE和RMSE指標(biāo)上的預(yù)測(cè)性能。

對(duì)于MAE，在圖3（a）性能對(duì)比中，HabJac比次優(yōu)的Jaccard*相似度提高了0.09%～0.14%，比最差的cosine相似度提高了4.65%～10.58%。在圖3（b）中，HabJac比次優(yōu)的Jaccard*相似度提高了0.02%～0.15%，比最差的cosine相似度提高了4.50%～11.25%。在圖3（c）中，HabJac比次優(yōu)的Jaccard*相似度提高了0.26%～0.54%；比最差的cosine相似度提高了3.02%～6.53%。在圖3（d）中，HabJac比次優(yōu)的Jaccard*相似度提高了0.06%～0.24%，比最差的cosine相似度提高了6.90%～10.76%。

對(duì)于RMSE，在圖4（a）性能對(duì)比中，HabJac比次優(yōu)的Jaccard*相似度提高了0.02%～0.25%，比最差的cosine相似度提高了3.05%～8.94%。在圖4（b）中，HabJac比次優(yōu)的Jaccard*相似度提高了0.01%～0.40%，比最差的cosine相似度提高了2.90%～9.76%。在圖4（c）中，HabJac比次優(yōu)的Jaccard*相似度提高了0.15%～0.39%，比最差的cosine相似度提高了2.59%～5.76%。在圖4（d）中，HabJac比次優(yōu)的Jaccard*相似度提高了0.01%～0.18%；比最差的cosine相似度提高了5.16%～8.48%。

由圖3和4可知，本文所提出的HabJac相似度在四個(gè)真實(shí)數(shù)據(jù)集上的MAE和RMSE性能均取得并保持了最佳效果。其主要原因是相對(duì)于傳統(tǒng)相似度的簡(jiǎn)單評(píng)分計(jì)算，HabJac考慮了用戶評(píng)分習(xí)慣，且對(duì)用戶的評(píng)分按照習(xí)慣進(jìn)行了修正。在同樣使用K近鄰進(jìn)行預(yù)測(cè)的時(shí)候，可以獲取更精準(zhǔn)的鄰居，從而提高預(yù)測(cè)的性能。

2）最優(yōu)參數(shù)討論

由圖5和6可知，在數(shù)據(jù)集FlimTrust，k=10，α=0.012，λ=0.011，β=11時(shí)，MAE和RMSE分別取得最小值0.744 3和0.942 3。在數(shù)據(jù)集NetFlix上，k=10，α=0.011，λ=0.01，β=18時(shí)，MAE和RMSE分別取得最小值0.735 6和0.929 4。在數(shù)據(jù)集M100K，k=10，α=0.017，λ=0.007，β=16時(shí)，MAE和RMSE分別取得最小值0.747 9和0.936 2。在數(shù)據(jù)集M1M上，k=10，α=0.006，λ=0.01，β=50時(shí)，MAE和RMSE分別取得最小值0.694 6和0.882 2。

3）推薦性能對(duì)比將HISVD在最優(yōu)參數(shù)下的結(jié)果與基于插值技術(shù)的算法ISVD、ESVD以及enhance Pearson三種主流的算法進(jìn)行了性能對(duì)比。表3比較了以上四種技術(shù)在四個(gè)數(shù)據(jù)集上關(guān)于MAE的表現(xiàn)。HISVD對(duì)應(yīng)的MAE值在四個(gè)數(shù)據(jù)集中均取得了最優(yōu)值。最小值在數(shù)據(jù)集M1M上取得，即0.694 6；最大值在數(shù)據(jù)集M100K上取得，即0.747 9。HISVD最大相對(duì)于enhance Pearson技術(shù)提高了14.0%，最小相對(duì)于ESVD技術(shù)提高了0.2%。

表4比較了以上四種技術(shù)在四個(gè)數(shù)據(jù)集上關(guān)于RMSE的表現(xiàn)。HISVD對(duì)應(yīng)的RSME值在四個(gè)數(shù)據(jù)集中均取得了最優(yōu)值。最小值在數(shù)據(jù)集M1M上取得，即0.882 2；最大值在數(shù)據(jù)集FlimTrust上取得，即0.942 3。HISVD最大相對(duì)于enhance Pearson技術(shù)提高了12.3%，最小相對(duì)于ESVD技術(shù)提高了0.7%。

HISVD比其他插值技術(shù)在MAE和RMSE取得了最優(yōu)值原因有兩點(diǎn)：a）插補(bǔ)值的質(zhì)量和預(yù)測(cè)的準(zhǔn)確性有密切關(guān)系，結(jié)合用戶評(píng)分習(xí)慣的HabJac相似度相對(duì)于ISVD和ESVD能夠提供更加精準(zhǔn)的插補(bǔ)值；b）HISVD推薦性能優(yōu)于enhance Pearson 在于使用了SVD模型?；诰仃嚪纸獾哪Ｐ托阅軆?yōu)于基于K近鄰模型。

5 結(jié)束語(yǔ)

本文針對(duì)推薦系統(tǒng)中的稀疏性問題，提出了一種基于用戶習(xí)慣評(píng)分的插補(bǔ)算法。得到了比主流技術(shù)，如ISVD、ESVD和enhance Pearson更好的預(yù)測(cè)結(jié)果，MAE最高可提高14.0%，RMSE最高可提高12.3%。此外，改進(jìn)的HabJac相似度在四個(gè)真實(shí)數(shù)據(jù)集上的表現(xiàn)均為最優(yōu)，MAE最高可提高11.25%，RMSE最高可提高9.76%。在未來(lái)的研究工作主要包括以下四個(gè)方面：a）研發(fā)更豐富合理的習(xí)慣評(píng)分學(xué)習(xí)策略，如考慮用戶評(píng)分距離習(xí)慣評(píng)分的方向性；b）將Jaccard相似度的改進(jìn)思路擴(kuò)展到其他相似度；c）在三支決策^［27^，28^］和情感分析^［^29～31^］理論的指導(dǎo)下，設(shè)計(jì)新的加權(quán)策略。

參考文獻(xiàn)：

［1］Portugal I，Alencar P，Cowan D.The use of machine learning algorithms in recommender systems：a systematic review［J］.Expert Systems with Applications，2018，97：205-227.

［2］Zhang Hengru，Min Fan.Three-way recommender systems based on random forests［J］.Knowledge-Based Systems，2016，91：275-286.

［3］Zhang Hengru，Min Fan，Shi Bing.Regression-based three-way recommendation［J］.Information Sciences，2017，378：444-461.

［4］Fu Mingsheng，Hong Qu，Zhang Yi，et al.A novel deep learning-based collaborative filtering model for recommendation system［J］.IEEE Trans on Cybernetics，2018，49（3）：1084-1096.

［5］Penha G，Santos R L T.Exploiting performance estimates for augmenting recommendation ensembles［C］//Proc of the 14th ACM Confe-rence on Recommender Systems.New York：ACM Press，2020：111-119.

［6］Cordero P，Enciso M，López D，et al.A conversational recommender system for diagnosis using fuzzy rules［J］.Expert Systems with Applications，2020，154：113449.

［7］Bonner S，Vasile F.Causal embeddings for recommendation［C］//Proc of the 12th ACM Conference on Recommender Systems.New York：ACM Press，2018：104-112.

［8］Wang Changzhong，Huang Yang，Shao Mingwen，et al.Feature selection based on neighborhood self-information［J］.IEEE Trans on Cybernetics，2019，50（9）：4031-4042.

［9］Sun Lin，Zhang Xiaoyu，Qian Yuhua，et al.Feature selection using neighborhood entropy-based uncertainty measures for gene expression data classification［J］.Information Sciences，2019，502：18-41.

［10］Ranjbar M，Moradi P，Azami M，et al.An imputation-based matrix factorization method for improving accuracy of collaborative filtering systems［J］.Engineering Applications of Artificial Intelligence，2015，46：58-66.

［11］Anand D，Bharadwaj K K.Utilizing various sparsity measures for enhancing accuracy of collaborative recommender systems based on local and global similarities［J］.Expert Systems with Applications，2011，38（5）：5101-5109.

［12］Ma Hao，King I，Lyu M R.Effective missing data prediction for collaborative filtering［C］//Proc of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York：ACM Press，2007：39-46.

［13］Yuan Xiaofeng，Han Lixin，Qian Subin，et al.Singular value decomposition based recommendation using imputed data［J］.Knowledge-Based Systems，2019，163：485-494.

［14］Guan Xin，Li Changtsun，Guan Yu.Matrix factorization with rating completion：an enhanced SVD model for collaborative filtering recommender systems［J］.IEEE Access，2017，5：27668-27678.

［15］Ma Hao，Zhou Dengyong，Liu Chao，et al.Recommender systems with social regularization［C］//Proc of the 4th ACM International Confe-rence on Web Search and Data Mining.New York：ACM Press，2011：287-296.

［16］Sun Zhoubao，Han Lixin，Huang Wenliang，et al.Recommender systems based on social networks［J］.Journal of Systems and Software，2015，99：109-119.

［17］He Jianming，Chu Wesley W.A social network-based recommender system （SNRS）［M］//Data Mining for Social Network Data.Boston：Springer，2010：47-74.

［18］侯帥，張智恒，溫佐承，等.基于K-近鄰的多元時(shí)序預(yù)測(cè)與三支釋義［J］.山西大學(xué)學(xué)報(bào)：自然科學(xué)版，2020，43（4）：727-734.（Hou Shuai，Zhang Zhiheng，Wen Zuocheng，et al.KNN based state prediction and three-way paraphrase for multivariate time series［J］.Journal of Shanxi University：Natural Science Edition，2020，43（4）：727-734.）

［19］Sun Shuangbo，Zhang Zhiheng，Dong Xinling，et al.Integrating triangle and Jaccard similarities for recommendation［J］.PLoS One，2017，12（8）：e0183570.

［20］Zhang Qian，Lu Jie，Jin Yaochu.Artificial intelligence in recommender systems［J］.Complex amp; Intelligent Systems，2021，7（1）：439-457.

［21］Yin Hongzhi，Cui Bin，Chen Ling，et al.Modeling location-based user rating profiles for personalized recommendation［J］.ACM Trans on Knowledge Discovery from Data，2015，9（3）：1-41.

［22］Yin Hongzhi，Zhou Xiaofang，Cui Bin，et al.Adapting to user interest drift for POI recommendation［J］.IEEE Trans on Knowledge and Data Engineering，2016，28（10）：2566-2581.

［23］Pan Yiteng，He Haiping.Learning social representations with deep autoencoder for recommender system［J］.World Wide Web，2020，23（4）：2259-2279.

［24］Xie Min，Yin Hongzhi，Wang Hao，et al.Learning graph-based POI embedding for location-based recommendation［C］//Proc of the 25th ACM International on Conference on Information and Knowledge Management.New York：ACM Press，2016：15-24.

［25］Yin Hongzhi，Wang Weiqing，Wang Hao，et al.Spatial-aware hierarchical collaborative deep learning for POI recommendation［J］.IEEE Trans on Knowledge and Data Engineering，2017，29（11）：2537-2551.

［26］De Lathauwer L，De Moor B，Vandewalle J.A multilinear singular va-lue decomposition［J］.SIAM Journal on Matrix Analysis and Applications，2000，21（4）：1253-1278.

［27］ Beutel A，F(xiàn)aloutsos C.User behavior modeling and fraud detection［J］.IEEE Intelligent Systems，2016，31（2）：84-86.

［28］Ma Xiao.Fuzzy entropies for class-specific and classification-based attribute reducts in three-way probabilistic rough set models［J］.International Journal of Machine Learning and Cybernetics，2021，12（2）：433-457.

［29］Zhang Qinghua，Xia Deyou，Liu Kaixuan，et al.A general model of decision-theoretic three-way approximations of fuzzy sets based on a heuristic algorithm［J］.Information Sciences，2020，507：522-539.

［30］張宜浩，朱小飛，徐傳運(yùn)，等.基于用戶評(píng)論的深度情感分析和多視圖協(xié)同融合的混合推薦方法［J］.計(jì)算機(jī)學(xué)報(bào)，2019，42（6）：1316-1333.（Zhang Yihao，Zhu Xiaofei，Xu Chuanyun et al.Hybrid recommendation approach based on deep sentiment analysis of user reviews and multi-view collaborative fusion［J］.Chinese Journal of Computers，2019，42（6）：1316-1333.）

［31］Lee S J，Seo B G，Park D H.Development of music recommendation system based on customer sentiment analysis［J］.Journal of Intelligence and Information Systems，2018，24（4）：197-217.

［32］Zehra S，Wasi S，Jami S I，et al.Ontology-based sentiment analysis model for recommendation systems［C］//Proc of the 14th International Joint Conference on Knowledge Discovery，Knowledge Engineering and Knowledge Management.2017：155-160.

計(jì)算機(jī)應(yīng)用研究2022年7期

計(jì)算機(jī)應(yīng)用研究的其它文章: 下期要目; 基于損失自注意力機(jī)制的立體匹配算法研究; 基于視覺信息補(bǔ)償?shù)亩嗔饕粢曪@著性檢測(cè); 基于無(wú)監(jiān)督深度圖像生成的盲降噪模型; 稀疏差分網(wǎng)絡(luò)和多監(jiān)督哈希用于高效圖像檢索; 基于偏振成像和顯著區(qū)域自補(bǔ)償?shù)乃嘛@著目標(biāo)檢測(cè)

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

結(jié)合評(píng)分習(xí)慣加權(quán)的稀疏矩陣插值推薦技術(shù)