王建芳 谷振鵬 劉冉東 劉永利
(河南理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 河南 焦作 454000)
基于相似性填充和信任因子的協(xié)同過濾算法
王建芳 谷振鵬 劉冉東 劉永利
(河南理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 河南 焦作 454000)
針對(duì)傳統(tǒng)協(xié)同過濾算法中用戶交叉評(píng)分項(xiàng)較少的情況,提出一種相似度與社交網(wǎng)絡(luò)中信任因子結(jié)合的新方法。首先利用評(píng)分矩陣獲取用戶間相對(duì)缺失的評(píng)分項(xiàng)。其次通過概率矩陣分解技術(shù)進(jìn)行降維獲得近似評(píng)分矩陣,用以動(dòng)態(tài)填充上述缺失項(xiàng)目評(píng)分,以填充后的用戶評(píng)分計(jì)算用戶間相似度。對(duì)于部分填充中存在誤差的項(xiàng)目通過信任因子動(dòng)態(tài)調(diào)整,獲得更符合實(shí)際的相似度。在公開數(shù)據(jù)集MovieLens的實(shí)驗(yàn)結(jié)果顯示,該方法較傳統(tǒng)方法在推薦精度方面提升2.1%以上。
協(xié)同過濾 數(shù)據(jù)稀疏 相似性 填充 信任因子
互聯(lián)網(wǎng)由Web1.0時(shí)代進(jìn)入Web2.0時(shí)代,用戶逐漸地由信息消費(fèi)者擴(kuò)展到信息生產(chǎn)者和消費(fèi)者。隨著用戶參與信息生產(chǎn),網(wǎng)絡(luò)信息規(guī)模呈爆炸式增長(zhǎng)。海量信息為信息檢索提供了可能的同時(shí)導(dǎo)致了信息過載。為了緩和這種矛盾,幫助用戶在海量數(shù)據(jù)中準(zhǔn)確快速地找到其感興趣的信息,推薦系統(tǒng)應(yīng)運(yùn)而生[1]。由于協(xié)同過濾能夠處理電影、音樂和商品推薦等難以進(jìn)行文本描述的項(xiàng)目,因而廣泛應(yīng)用于電子商務(wù)等行業(yè)[2]。雖然協(xié)同過濾取得顯著優(yōu)秀性能,但仍面臨許多問題,例如實(shí)際應(yīng)用中數(shù)據(jù)往往極度稀疏[3]。以電子商務(wù)為例,在電子商務(wù)系統(tǒng)中用戶購(gòu)買的商品通常不足網(wǎng)站商品總數(shù)的1%。用戶只對(duì)極少數(shù)商品進(jìn)行評(píng)分。傳統(tǒng)的相似性計(jì)算方法僅使用共同評(píng)價(jià)項(xiàng)目,用戶間具有隱式相似度,但由于沒有共同評(píng)分項(xiàng)而無法計(jì)算其相似度。
國(guó)內(nèi)外學(xué)者提出采用將降維技術(shù)來緩解推薦算法中的數(shù)據(jù)稀疏問題。Sarwar等[4]首先提出采用奇異值分解SVD(Singular Value Decomposition),以矩陣分解角度實(shí)現(xiàn)降維,提取隱因子信息。Salakhutdinov等[5]提出概率矩陣分解PMF(Probabilistic Matrix Factorization)技術(shù),給與SVD概率解釋并加以正則項(xiàng)避免過擬合。臺(tái)灣林智仁等[6]提出了支持向量機(jī)的研究對(duì)降維技術(shù)進(jìn)行改進(jìn)。降維技術(shù)在保留大部分?jǐn)?shù)據(jù)信息的情況下減少數(shù)據(jù)維數(shù),雖然取得一定成果,但不可避免的損失一部分有用信息。為了提高數(shù)據(jù)利用率,研究人員提出了改進(jìn)相似性的計(jì)算方法[7-10]。Bobadilla等[11]提出利用均值填補(bǔ)缺失信息以充分挖掘用戶特征信息。孫小華等[12]綜合基于SVD的協(xié)同過濾算法和基于k近鄰的協(xié)同過濾算法兩者的優(yōu)勢(shì),提出了Pear_Afrer_SVD算法。該算法先使用SVD技術(shù)對(duì)原始評(píng)分矩陣R進(jìn)行分解。再通過分解矩陣逆向求近似評(píng)分矩陣。之后利用填充后的近似評(píng)分矩陣進(jìn)行用戶相似度計(jì)算,最后采用k近鄰算法選擇目標(biāo)用戶的鄰居,并通過鄰居做出推薦預(yù)測(cè)。
基于上述存在的問題,本文提出了一種基于用戶和相似性填充的協(xié)同過濾算法CF-PFCF。該算法通過部分填充評(píng)分矩陣,用戶所有的評(píng)價(jià)行為可以被充分挖掘,同時(shí)引入用戶信任因子,能夠有效地衡量每位用戶評(píng)價(jià)信息的可信性和可靠性,避免用戶的惡意評(píng)分行為,從而提高推薦精度。
經(jīng)過最近幾年的研究,協(xié)同過濾模型已成為個(gè)性化推薦系統(tǒng)中應(yīng)用最廣泛的模型。典型的協(xié)同過濾可以分為基于內(nèi)存的協(xié)同過濾和基于模型的協(xié)同過濾?;趦?nèi)存的協(xié)同過濾考慮需要用戶對(duì)項(xiàng)目的興趣度,該信息通常以評(píng)分矩陣的形式表示。
矩陣中每一行ri表示用戶i評(píng)價(jià)電影的集合,所有用戶集合用U表示;每一列rj表示評(píng)價(jià)電影j的用戶集合,所有電影集合用V表示。每一個(gè)元素ri,j表示用戶i對(duì)電影j的評(píng)分。傳統(tǒng)的協(xié)同過濾算法步驟為計(jì)算用戶相似度、由相似度矩陣確定目標(biāo)用戶鄰居集合,由鄰居集合對(duì)目標(biāo)用戶預(yù)測(cè)評(píng)分三步。
郝立燕等[13]提出用SOFT_IMPUTE算法補(bǔ)全稀疏的評(píng)分矩陣結(jié)合相似度因子與k近鄰算法做出推薦預(yù)測(cè),通過補(bǔ)全的評(píng)分矩陣加以信任因子限制得到WCF-SOFT算法。基于填補(bǔ)的相似度計(jì)算方法不可避免地會(huì)使預(yù)測(cè)評(píng)分參與計(jì)算,影響原始用戶特征信息。楊興耀等[14]提出基于信任模型填充的協(xié)同過濾推薦模型CFTM,該方法通過分析日常人類行為習(xí)慣,利用評(píng)分矩陣采樣建立信任模型對(duì)用戶相似性進(jìn)行填充。然而單純信任因子無法充分挖掘用戶特征信息。
基于模型的協(xié)同過濾則是通過對(duì)原始評(píng)分矩陣建模,迭代預(yù)測(cè)出評(píng)分矩陣中的缺失項(xiàng),可有效解決數(shù)據(jù)稀疏問題和冷啟動(dòng)問題。PMF[5,15]是現(xiàn)代推薦系統(tǒng)中基于模型的協(xié)同過濾基礎(chǔ)算法之一,核心思想是:假設(shè)用戶與電影間的關(guān)系可以由少數(shù)幾個(gè)因素的線性組合決定。用矩陣的角度來描述,評(píng)分矩陣R分解為兩個(gè)低維矩陣的乘積 ,其中矩陣U為k×n階矩陣,描述用戶的k個(gè)屬性,矩陣V為k×m階矩陣,描述電影的k個(gè)屬性。根據(jù)秩的性質(zhì),k不得大于矩陣R的秩。通過分解出的用戶特征矩陣U和電影特征矩陣V,逆向可求得近似評(píng)分矩陣。
CF-PFCF算法是以用戶歷史評(píng)分?jǐn)?shù)據(jù)為背景,遵循協(xié)同過濾的基礎(chǔ)流程,首先對(duì)原始用戶-評(píng)分矩陣?yán)肞MF算法得到近似矩陣,該近似矩陣與均值相比更能反映用戶行為,因此作為填充數(shù)據(jù)。其次針對(duì)性的填充用戶間一方評(píng)價(jià)而另一方缺失評(píng)價(jià)的項(xiàng)目,計(jì)算填充相似度和共同評(píng)分相似度,以充分挖掘數(shù)據(jù)。然后計(jì)算用戶信任因子,分別以用戶共同評(píng)分下的相似度、用戶的評(píng)分次數(shù)、用戶評(píng)分和被評(píng)分項(xiàng)目均值之差來限制填充相似度。通過共同評(píng)分相似度和信任因子對(duì)填充相似度的共同限制,減弱相似性計(jì)算中的由填充帶來的假設(shè)性,加權(quán)得到最終的調(diào)和相似度。以該調(diào)和相似度為基礎(chǔ)由k-近鄰算法得到用戶鄰居集。最后進(jìn)行預(yù)測(cè)評(píng)分。
填充稀疏矩陣的目的是更充分地利用已有評(píng)分信息計(jì)算用戶之間的相似性,使得用戶相似性計(jì)算更加準(zhǔn)確。研究者已經(jīng)提出許多填充評(píng)分矩陣缺失值的方法。其中最簡(jiǎn)單的填充方法以用戶評(píng)分均值[16]、項(xiàng)目評(píng)分均值、用戶評(píng)分中值、項(xiàng)目評(píng)分中值進(jìn)行對(duì)用戶并集中缺失值填充。該填充方法保證原始用戶-評(píng)分矩陣的評(píng)分項(xiàng)參與運(yùn)算,但用固定值填充導(dǎo)致被填充用戶的特征被平均化。因此在一定程度上減弱了被填充用戶的數(shù)據(jù)特征,致使計(jì)算相似度準(zhǔn)確率不高,甚至降低準(zhǔn)確率。
Va⊕b=Va∪b-Va∩b
(1)
表1 評(píng)分矩陣
表1表示一個(gè)具有4個(gè)用戶6個(gè)項(xiàng)目的評(píng)分矩陣,每行表示用戶對(duì)所有項(xiàng)目的評(píng)分行為,Null代表該用戶沒有對(duì)項(xiàng)目進(jìn)行評(píng)分操作。經(jīng)式(1)填充方法和PMF方法可得填充邏輯表和近似評(píng)分矩陣如表2和表3所示。
表2 填充邏輯矩陣
表3 近似評(píng)分矩陣
simfill_pearson(a,b)=
(2)
通過該填充算法,在保證充分利用原始評(píng)分矩陣用戶特征信息的前提下避免過度填充,減弱填充算法中的假設(shè)性。
雖然填充算法保證用戶間評(píng)分信息充分參與計(jì)算,但由于原始評(píng)分矩陣過于稀疏,即使進(jìn)行部分填充其相似度假設(shè)性依然較強(qiáng),式(2)計(jì)算出的相似度沒有考慮用戶之間的實(shí)際關(guān)系。因此在進(jìn)行預(yù)測(cè)評(píng)分時(shí),應(yīng)考慮到多種因素對(duì)相似性的影響,這些因素被稱為信任因子[13]。
1) 基于傳統(tǒng)皮爾遜相似度對(duì)其進(jìn)行加權(quán)調(diào)整,通過式(1)對(duì)用戶間共同評(píng)價(jià)項(xiàng)進(jìn)行計(jì)算,得出傳統(tǒng)皮爾遜相似度Simpearson,該相似度計(jì)算不帶有任何填充項(xiàng),可反映用戶間真實(shí)關(guān)系。通過加權(quán)調(diào)整,可得調(diào)和的用戶相似度,如式(3):
Sim_adj=αSimfill_pearson+(1-α)Simpearson
(3)
(4)
3) 實(shí)際中一些用戶喜歡評(píng)高分,一些用戶喜歡評(píng)低分,甚至存在惡意評(píng)分用戶,單純用戶評(píng)價(jià)等級(jí)不能衡量用戶的信任度,需要加以限制。因此引入評(píng)價(jià)偏差Du,如式(5):
(5)
其中:Qu為用戶u所評(píng)價(jià)過的電影集合,du為用戶u評(píng)價(jià)偏差較小的電影集合。用戶u對(duì)電影i的評(píng)價(jià)如果小于某個(gè)參考值則認(rèn)為用戶u對(duì)電影i的評(píng)價(jià)偏差較小,該用戶的評(píng)價(jià)無異常。通常這個(gè)參考值取電影的評(píng)價(jià)均值。通過式(6)進(jìn)行計(jì)算:
(6)
如果式(6)成立,則ru,i∈du。設(shè)置ε為0.5,實(shí)驗(yàn)顯示ε越小,偏差要求越苛刻,取值過小會(huì)使用戶喪失信任。
基于式(2)-式(6)對(duì)相似度進(jìn)行加權(quán)調(diào)整,得到調(diào)和相似度,如式(7):
Simtr=αSimfill_pearson+(1-α)Simpearson+w1Nu+w2Du
(7)
關(guān)于權(quán)重值的設(shè)定,可用機(jī)器學(xué)習(xí)算法、專家經(jīng)驗(yàn)等,本文采用粒子群算法,不斷交叉驗(yàn)證,最終獲取一組較優(yōu)的權(quán)重值例如(0.7,0.1,0.2)。通過調(diào)和相似度,運(yùn)用k近鄰算法對(duì)用戶評(píng)分進(jìn)行預(yù)測(cè)。
結(jié)合相似度部分填充和信任因子,提出CF-PFCF算法,具體步驟如下:
算法1CF-PFCF算法
輸入:用戶-評(píng)分矩陣R,待預(yù)測(cè)用戶-評(píng)分項(xiàng)集合Rpre,鄰居數(shù)k。
算法實(shí)現(xiàn):
步驟2遍歷原始評(píng)分矩陣R計(jì)算相似度矩陣Simfill_pearson和Simpearson;
repeat
步驟2.1獲得用戶ua和用戶ub各自評(píng)價(jià)電影集合的交集Va∩b和并集Va∪b;
until遍歷評(píng)分矩陣R;
步驟3遍歷評(píng)分矩陣R計(jì)算信任因子;
repeat
步驟3.1獲取用戶ua和用戶ub共同評(píng)分集合,并計(jì)算共同評(píng)分下的相似度;
步驟3.2統(tǒng)計(jì)每位用戶評(píng)價(jià)電影總數(shù)得到用戶評(píng)價(jià)數(shù)目集合num(u);
步驟3.3統(tǒng)計(jì)每位用戶評(píng)價(jià)過電影序號(hào)獲得用戶歷史評(píng)價(jià)記錄集合userv;
步驟3.4對(duì)每部電影求其平均評(píng)價(jià)值averv;
步驟3.5通過評(píng)分矩陣R得到對(duì)電影i評(píng)價(jià)過的用戶集合UI;
until遍歷評(píng)分矩陣R;
步驟5由averv和userv通過式(5)、式(6)計(jì)算用戶評(píng)價(jià)偏差Du;
步驟6利用式(7)計(jì)算綜合相似度Simtr;
步驟7通過對(duì)UI對(duì)應(yīng)Simtr進(jìn)行降序排序,取前k個(gè)用戶作為用戶ua的鄰居集合Uneighbor;
步驟8預(yù)測(cè)用戶-評(píng)分項(xiàng)集合Rpre;
repeat
until遍歷集合Rpre。
本實(shí)驗(yàn)采用由美國(guó)明尼蘇達(dá)大學(xué)GroupLens實(shí)驗(yàn)組創(chuàng)建并維護(hù)的Movielens-100K數(shù)據(jù)集包含943名用戶對(duì)1 682部電影的100 000條評(píng)分,評(píng)分集為{1,2,3,4,5},評(píng)分越大說明用戶對(duì)電影的認(rèn)可度越高。數(shù)據(jù)的稀疏度為100 000/(943×1 692) = 93.7%。為進(jìn)一步驗(yàn)證本文算法的通用性,本文額外引用了Movielens-1M數(shù)據(jù)集,該數(shù)據(jù)集同樣由GroupLens實(shí)驗(yàn)組提供。與Movielens-100K數(shù)據(jù)集相比,Movielens-1M數(shù)據(jù)集具有大的數(shù)據(jù)量,它包含了6 040個(gè)用戶對(duì)3 706部電影的1 000 209個(gè)評(píng)分?jǐn)?shù)據(jù),數(shù)據(jù)的稀疏度為95.5%。實(shí)驗(yàn)將數(shù)據(jù)集劃分為比例為8∶2的兩個(gè)互不相交的訓(xùn)練集和測(cè)試集。
實(shí)驗(yàn)性能有許多評(píng)價(jià)標(biāo)準(zhǔn),例如查全率、均方根誤差、查準(zhǔn)率等。本文采用平均絕對(duì)誤差(MAE)作為度量標(biāo)準(zhǔn)。假設(shè)測(cè)試集中實(shí)際評(píng)分分別為{p1,p2,…,pn},算法預(yù)測(cè)的評(píng)分為{q1,q2,…,qn},則MAE定義為:
(8)
MAE值越小,說明算法可行性越強(qiáng)。
為了驗(yàn)證本文所使用的填充算法對(duì)傳統(tǒng)協(xié)同過濾算法的改善作用,首先將皮爾遜、余弦、調(diào)整余弦相似度算法在Movielens-100K數(shù)據(jù)下進(jìn)行對(duì)比測(cè)試。如圖1所示。
圖1 傳統(tǒng)相似度對(duì)比
實(shí)驗(yàn)結(jié)果顯示:余弦相似度誤差最大,皮爾遜相似度誤差最小,三種相似度算法隨著鄰居數(shù)增多,誤差逐漸減小并收斂。因此本文選擇以皮爾遜相似度為基礎(chǔ)進(jìn)行實(shí)驗(yàn)。
以皮爾遜相似度為基礎(chǔ),對(duì)評(píng)分矩陣進(jìn)行全PMF填充、部分PMF填充(本文所用填充方法)進(jìn)行對(duì)比,如圖2所示,其中全PMF填充方法為傳統(tǒng)的填充算法,填充效果如表2所示。
圖2 改進(jìn)相似度對(duì)比
基于皮爾遜相似度算法在鄰居數(shù)少的情況下填充算法精度提高,部分PMF填充算法在鄰居數(shù)為70的情況下精度達(dá)到最優(yōu)。圖1、圖2表明單純PMF填充相似度下精度提升依然不明顯,為此加入原始皮爾遜相似度進(jìn)行權(quán)重調(diào)整。
如圖3所示,依上文式(3)進(jìn)行相似度調(diào)和,實(shí)驗(yàn)結(jié)果顯示,單純填充相似度和單純的皮爾遜相似度下的計(jì)算結(jié)果不理想,在基于全PMF填充算法下的權(quán)重調(diào)整中,權(quán)重因子α=0.8時(shí)結(jié)果最優(yōu)。而在基于部分PMF填充算法下,權(quán)重因子α=0.7時(shí)結(jié)果最優(yōu),且優(yōu)于全PMF填充算法的調(diào)和結(jié)果。
圖3 填充權(quán)重對(duì)比
如圖4所示,以部分PMF填充算法調(diào)和參數(shù)α=0.7為基礎(chǔ),結(jié)合式(7),對(duì)參數(shù)w1和w2進(jìn)行調(diào)參,其中x軸表示參數(shù)w1的變化,y軸表示w2的參數(shù)變化,z軸表示MAE,有圖可得在參數(shù)w1=0.1和w2=0.2時(shí),MAE達(dá)到較優(yōu)。
圖4 調(diào)和權(quán)重對(duì)比
如圖5所示在確定權(quán)重因子情況下對(duì)不同鄰居數(shù)的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,以皮爾遜相似度和部分填充PMF相似度預(yù)測(cè)誤差作對(duì)比。實(shí)驗(yàn)顯示在信任因子限制下,預(yù)測(cè)精度顯著提升并在鄰居數(shù)為40時(shí)達(dá)到最優(yōu)。
圖5 CF-PFCF算法結(jié)果
將本文CF-PFCF算法與郝立燕等[13]提出的WCF-SOFT算法和楊興耀等[14]提出的基于信任模型填充的協(xié)同過濾的CFTM算法做比較。在Movielens-100K數(shù)據(jù)集和Movielens-1M數(shù)據(jù)集下實(shí)驗(yàn)結(jié)果如圖6、圖7所示。通過計(jì)算可知本文方法較傳統(tǒng)方法CFTM能提升3.6%推薦精度以上,較WCF-SOFT算法能提升2.1%推薦精度以上。
圖6 基于Movielens-100K的性能比較
圖7 基于Movielens-1M的性能比較
實(shí)驗(yàn)結(jié)果可以看出本文算法精度明顯優(yōu)于WCF-SOFT、CFTM算法。由于CFTM算法主要計(jì)算信任因子沒有對(duì)相似度進(jìn)行恰當(dāng)改進(jìn),所以CFTM算法誤差較大,在鄰居數(shù)為90時(shí)達(dá)到最優(yōu),鄰居數(shù)為100時(shí)誤差上升。WCF-SOFT算法穩(wěn)定性較強(qiáng),本文算法對(duì)WCF-SOFT算法的填充部分進(jìn)行改進(jìn),以部分填充代替全局填充降低填充評(píng)分的假設(shè)性成分,并加以共同評(píng)分相似度和信任因子共同限制。
本文對(duì)填充矩陣和信任因子做了研究,在高維稀疏的數(shù)據(jù)和基于用戶的協(xié)同過濾算法的基礎(chǔ)上提出部分相似性填充和信任因子概念。部分填充保證用戶特征充分利用的前提下避免過度填充,解決了高維稀疏評(píng)分矩陣用戶間共同評(píng)分稀少甚至缺失的問題,并對(duì)填充算法的假設(shè)性進(jìn)行限制。盡管算法提高了整體精確度,但由于用戶信任因子的影響,該算法隨著鄰居數(shù)增多精確度非單調(diào)下降。下一步需要研究如何增強(qiáng)算法穩(wěn)定性,使誤差隨著鄰居數(shù)增加單調(diào)遞減并收斂。
[1] Aleksandra,Mirjana,Alexandros.Recommender systems in e-learning environments:a survey of the state-of-the-art and possible extensions[J].Artificial Intelligence Review,2015,44(4):1-34.
[2] Conforti R,Leoni M D,Rosa M L,et al.A recommendation system for predicting risks across multiple business process instances[J].Decision Support Systems,2015,69:1-19.
[3] Jing H,Liang A C,Lin S D,et al.A Transfer Probabilistic Collective Factorization Model to Handle Sparse Data in Collaborative Filtering[C]//IEEE International Conference on Data Mining.IEEE,2015:250-259.
[4] Sarwar B M,Karypis G,Konstan J,et al.Incremental SVD-Based Algorithms for Highly Scaleable Recommender Systems[C]//Conference on Computer and Information Technology,2002.
[5] Salakhutdinov B R,Mnih A.Probabilistic matrix factorization[C]//International Conference on Machine Learning,2012:880-887.
[6] Lee C,Lin C.Large-Scale Linear RankSVM[J].Neural Computation,2014,26(4):781-817.
[7] Lin H,Yang X,Wang W,et al.A Performance Weighted Collaborative Filtering algorithm for personalized radiology education[J].Journal of Biomedical Informatics,2014,51(1):107-113.
[8] Bokde D,Girase S.Matrix Factorization Model in Collaborative Filtering Algorithms:A Survey[J].Procedia Computer Science,2015,49(1):136-146.
[9] Algiriyage N,Jayasena S,Dias G.Web user profiling using hierarchical clustering with improved similarity measure[C]//Moratuwa Engineering Research Conference.IEEE,2015:295-300.
[10] Wu Z,Chen Y,Li T.Personalized recommendation based on the improved similarity and fuzzy clustering[C]//International Conference on Information Science,Electronics and Electrical Engineering.IEEE,2014:1353-1357.
[11] Bobadilla J,Serradilla F.A new collaborative filtering metric that improves the behavior of recommender systems[J].Knowledge-Based Systems,2010,23(6):520-528.
[12] 孫小華,陳洪,孔繁勝.在協(xié)同過濾中結(jié)合奇異值分解與最近鄰方法[J].計(jì)算機(jī)應(yīng)用研究,2006,23(9):206-208.
[13] 郝立燕,王靖.基于填充和相似性信任因子的協(xié)同過濾推薦算法[J].計(jì)算機(jī)應(yīng)用,2013,33(3):834-837.
[14] 楊興耀,于炯,吐爾根·依布拉音,等.基于信任模型填充的協(xié)同過濾推薦模型[J].計(jì)算機(jī)工程,2015,41(5):6-13.
[15] Yang W F,Wang M,Chen Z.Fast Probabilistic Matrix Factorization for recommender system[C]//IEEE International Conference on Mechatronics and Automation,2014:1889-1894.
[16] Mazumder R,Hastie T,Tibshirani R.Spectral Regularization Algorithms for Learning Large Incomplete Matrices[J].Journal of Machine Learning Research,2010,11(11):2287-2322.
ACOLLABORATIVEFILTERINGRECOMMENDATIONALGORITHMBASEDONSIMILARITYFILLINGANDTRUSTFACTOR
Wang Jianfang Gu Zhenpeng Liu Randong Liu Yongli
(SchoolofComputerScienceandTechnology,HenanPolytechnicUniversity,Jiaozuo454000,Henan,China)
Since there are few users cross rating items in the traditional collaborative filtering algorithm, a new method is proposed to combine the similarity with the trust factor in the social network. First, the rating matrix is adopted to obtain the relative missing rating items between the users. Then, an approximate rating matrix is obtained by probabilistic matrix factorization method to selectively fill the missing rating matrix. Meanwhile, the trust factor is presented to adjust the error in process of calculate similarity. The results on the publicly available MovieLens datasets show that the proposed algorithm can improve the recommendation accuracy by above 2.1% on the classic algorithm.
Collaborative filtering Sparsity Similarity Filling Trust factor
TP391
A
10.3969/j.issn.1000-386x.2017.10.045
2016-12-22。國(guó)家自然科學(xué)基金項(xiàng)目(61202286);河南省高等學(xué)校青年骨干教師資助項(xiàng)目(2015GGJS-068);2015年度河南省高等學(xué)校重點(diǎn)科研項(xiàng)目(15A520074)。王建芳,副教授,主研領(lǐng)域:數(shù)據(jù)挖掘,人工智能。谷振鵬,碩士。劉冉東,碩士。劉永利,副教授。