亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合稀疏度加權(quán)的協(xié)同過濾算法研究

        2018-07-25 12:08:38孔廣黔
        關(guān)鍵詞:用戶

        錢 刃,吳 云,孔廣黔

        (貴州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽 550025)

        1 概 述

        在互聯(lián)網(wǎng)高速發(fā)展的當(dāng)代,互聯(lián)網(wǎng)為每個人帶來的信息量也在高速增長,人們面對海量信息時很難從其中提取出對自己最有用的信息,就如在電商網(wǎng)站中用戶面對海量商品,很難選擇出最適合自己的商品,這樣既浪費(fèi)了用戶的時間,也使得網(wǎng)站的利益受損。為了使電商網(wǎng)站更好地銷售物品,方便用戶,推薦系統(tǒng)在各大電商網(wǎng)站得到了應(yīng)用,其中協(xié)同過濾算法是廣泛應(yīng)用的一種推薦算法。

        協(xié)同過濾算法由Goldberg等提出[1],研究者將該算法應(yīng)用在一個文檔過濾系統(tǒng)中,系統(tǒng)要求用戶對文檔評分,其他用戶瀏覽時可以輸入查詢語句來過濾自己需要的文檔。之后協(xié)同過濾算法被GroupLens用于新聞推薦[2],極大地促進(jìn)了協(xié)同過濾算法的發(fā)展,也迅速推動了協(xié)同過濾算法在Internet上的應(yīng)用及其相關(guān)研究。

        協(xié)同過濾擁有如下優(yōu)勢:

        (1)算法可以推薦任何資源,而不僅限于文本或者網(wǎng)站等。這是因為協(xié)同過濾算法需要考慮的只是用戶間對物品的評價,而無需關(guān)注資源的特性,這使得協(xié)同過濾算法的適用范圍變得十分寬廣,可以為用戶推薦任何資源。

        (2)模型簡單,易于實現(xiàn),各大網(wǎng)站可以方便地使用協(xié)同過濾算法來實現(xiàn)推薦,而不需要為此付出過高的代價。

        (3)對用戶的推薦具有新穎性,不在是根據(jù)用戶歷史來重復(fù)推薦一個類別或幾個類別的物品。協(xié)同過濾算法因為是從相似用戶中尋找物品進(jìn)行推薦,所以算法可能會為用戶推薦該用戶歷史上從未接觸到的物品,并且該物品也符合用戶的喜好。這樣可以挖掘出更多的推薦項,不僅對用戶友好,而且有利于挖掘長尾物品[3]。

        協(xié)同過濾算法在現(xiàn)階段的主要問題是稀疏性問題。由于網(wǎng)站特別是大型網(wǎng)站擁有大量的用戶和物品數(shù)量,而絕大多數(shù)用戶只會對極少的一些物品進(jìn)行評價,因此評分矩陣非常稀疏,在這種稀疏矩陣中,協(xié)同過濾算法很難準(zhǔn)確地找到相似用戶或者找到的相似用戶的評分稀少,最終使得推薦效率低下。

        為了解決協(xié)同過濾算法由于稀疏性帶來的性能低下問題,提出了融合稀疏度加權(quán)的協(xié)同過濾算法。首先,對稀疏矩陣的稀疏度進(jìn)行計算評估;然后,在尋找相似用戶階段通過用戶密度與矩陣稀疏度對兩兩用戶間進(jìn)行稀疏度加權(quán),這樣尋找的相似用戶更加準(zhǔn)確。

        2 已有算法分析

        目前,為了解決協(xié)同過濾算法中的稀疏度問題,研究人員提出了許多解決方法,大致分為三類:填充類、降維類和改進(jìn)相似度計算類。

        填充類方法[4]通過在稀疏矩陣中添加數(shù)據(jù)從而使得矩陣不再稀疏,降低稀疏性對協(xié)同過濾算法的影響。最基本的填充方法是在稀疏矩陣中添加均值或者中位數(shù)等等。例如,李燦等在IALM和填充可信度的協(xié)同過濾算法及其并行化研究[5]中提出利用可擴(kuò)充的拉格朗日乘法對評分矩陣進(jìn)行填充;郝立燕等在基于填充和相似性信任因子的協(xié)同過濾推薦算法[6]中提出通過SOFT-IMPUTE算法[7]對矩陣進(jìn)行填充;Zheng L等提出建立一個興趣強(qiáng)度的時間衰減模型,并以此預(yù)測評分來填充矩陣[8];康鐘榮提出通過貝葉斯模型預(yù)估評分來填充矩陣[9]。稀疏矩陣在經(jīng)過填充之后的確可以在一定程度上解決稀疏性所帶來的問題,但是填充算法大部分較為復(fù)雜,這樣就使得改進(jìn)后的協(xié)同過濾算法在效率上受到限制,不能為用戶頻繁更新推薦列表。

        降維類方法[10]通過對稀疏矩陣進(jìn)行降維達(dá)到緩解矩陣稀疏度的目的。例如,Sarwar B等提出使用SVD算法將原始矩陣M分解成為三個矩陣U,Σ,VT:M≈UΣVT,然后在低階矩陣UΣ1/2上運(yùn)行協(xié)同過濾算法[11];孫光福等引入用戶與物品間的時序關(guān)系,然后將時序關(guān)系融入到概率矩陣分解算法中,最后將矩陣分解降維[12]。降維類算法雖然降低了矩陣的稀疏度,但是在降維的過程中損失掉了更多相似信息,使算法更加難以找到相似用戶。

        改進(jìn)相似度的方法[13]通過改進(jìn)相似度計算使得稀疏性對協(xié)同過濾算法的影響降低。這類方法既避免了填充類方法帶來的代價過大問題,也不像降維類方法那樣降低推薦性能。例如,張光衛(wèi)等提出的基于云模型的相似度計算方法[14],算法避免使用傳統(tǒng)向量來計算相似度,因此在稀疏矩陣中改進(jìn)了協(xié)同算法的性能;Luo等提出全局相似度和局部相似度[15],文中分別計算各個用戶間的局部相似度與全局相似度,然后將兩個相似度融合成最終的相似度來尋找相似用戶;Kaleli C等首先將用戶評分信息加入信息熵,然后在計算用戶相似度時加入信息熵來確定差異,衡量每個相似用戶的不確定性,從而改進(jìn)相似度計算公式[16]。在這些研究的基礎(chǔ)上,文中提出了融合稀疏度加權(quán)的協(xié)同過濾算法。算法通過矩陣稀疏度進(jìn)行加權(quán)來改進(jìn)相似度的計算,可以讓稀疏矩陣中的相似信息得到更有效的利用,從而提高協(xié)同過濾算法的性能。

        3 模型定義

        3.1 稀疏度加權(quán)

        在協(xié)同過濾算法中,稀疏性問題嚴(yán)重制約著協(xié)同過濾算法的性能。由于稀疏矩陣中所包含的用戶相似信息十分有限,因此更有效地利用這些信息成為了提高協(xié)同算法性能的關(guān)鍵。對此,文中提出在計算用戶相似度時對稀疏度進(jìn)行加權(quán)。

        首先,對稀疏度加權(quán)需要更準(zhǔn)確地計算稀疏度。傳統(tǒng)計算矩陣稀疏度的方法是將矩陣中未評價的評分單元數(shù)比上矩陣總單元數(shù)。然而這樣計算得到的矩陣稀疏度并不能準(zhǔn)確表示矩陣真實的稀疏度。因為影響矩陣稀疏度的因素并不是僅僅包含數(shù)據(jù)本身的稀疏度,它還包括用戶間的關(guān)系密度。關(guān)系密度是指用戶在各個項目上評價的集中程度,如果用戶在各個項目上的評價很分散,就會導(dǎo)致用戶間的關(guān)系密度很低,即原始評分矩陣中所包含的有效相似信息很少,就認(rèn)定矩陣十分稀疏。所以提出一個矩陣稀疏度的計算公式:

        (1)

        式1表示任意兩個用戶間共同評價的項目與兩個用戶評價項目總數(shù)的比值,在計算出所有比值后取平均值,利用平均值來衡量矩陣的稀疏度。

        在得出矩陣的稀疏度以后,再計算其中任意兩個用戶i,j之間的關(guān)系密度與整個矩陣的稀疏度的比值并歸一化得到稀疏度加權(quán)項:

        (2)

        如果某兩個用戶之間的關(guān)系密度很大,那么這個權(quán)值就會很大,最終用戶間的相似度計算結(jié)果就能更準(zhǔn)確地表示這兩個用戶的相似度。

        3.2 改進(jìn)后的協(xié)同過濾算法

        文中在協(xié)同過濾算法中融入上述稀疏度加權(quán)項,從而更有效地利用評分矩陣中的有限信息。

        首先建立用戶評分字典Dict_rt與用戶關(guān)系字典dict_rs。Dict_rt的結(jié)構(gòu)為{用戶ID:{物品ID:用戶評分,…},…},文中將所有原始數(shù)據(jù)結(jié)構(gòu)化存儲在用戶評分字典Dict_rt中。dict_rs的結(jié)構(gòu)為{用戶ID:{用戶ID:關(guān)系密度,…},…},文中在用戶評分字典Dict_rt的基礎(chǔ)上利用式1得出整個矩陣的稀疏度,然后對所有二元組合的用戶使用式2得到用戶間的關(guān)系密度,將所有關(guān)系密度存儲在字典dict_rs中。

        接下來計算用戶相似度,相似度計算方法有許多,其中比較常用的有:

        (1)余弦距離。

        余弦距離通過計算用戶之間的余弦值來衡量用戶之間的相似性,在評分矩陣中每個用戶被看作一個向量,向量的維度就是物品數(shù),用戶對各個物品的評分就是用戶向量在相應(yīng)維度上的值,計算公式如下:

        (3)

        (2)皮爾遜相關(guān)系數(shù)。

        通過協(xié)方差與標(biāo)準(zhǔn)差來評判兩個向量的相似性,計算公式如下:

        (4)

        在計算用戶相似度時,利用融合稀疏度加權(quán)項來改進(jìn)相似度計算公式,因此改進(jìn)后的余弦距離相似度計算公式為:

        (5)

        改進(jìn)后的皮爾遜相關(guān)系數(shù)相似度計算公式為:

        sim(i,j)=

        (6)

        算法建立用戶相似度字典Dict_s存儲用戶相似度,字典結(jié)構(gòu)為{用戶ID:{用戶ID:相似度,…},…},利用式5或式6計算用戶相似度,將計算得到的相似度存入用戶相似度字典Dict_s中。對用戶相似度排序后就可以進(jìn)行評分預(yù)測與推薦。

        具體算法步驟如下:

        (1)根據(jù)式1計算矩陣稀疏度;

        (2)根據(jù)式2計算用戶間關(guān)系密度與整個矩陣的稀疏度的比值,并歸一化得到稀疏度加權(quán)項;

        (3)使用式5和式6計算各個用戶間的相似度;

        (4)找到相似用戶后,預(yù)測評分,進(jìn)行推薦;

        (5)計算推薦結(jié)果的準(zhǔn)確率和覆蓋率。

        4 實 驗

        4.1 數(shù)據(jù)集

        實驗使用MovieLens公開數(shù)據(jù)集作為實驗數(shù)據(jù)集,該數(shù)據(jù)集中包含1 000個用戶對3 900部電影的10萬條評分記錄,其中每個用戶的評價記錄在20條以上,用戶評分范圍在1~5之間。

        4.2 實驗環(huán)境與步驟

        實驗采用的計算機(jī)配置為I5處理器,2 GB內(nèi)存,500 GB硬盤,Win7操作系統(tǒng),步驟如下:

        (1)將數(shù)據(jù)集分為兩部分,一部分作為測試數(shù)據(jù)集,占比為五分之一,剩下的為訓(xùn)練數(shù)據(jù)集。

        (2)應(yīng)用文中算法,分別通過式5與式6進(jìn)行改進(jìn)加權(quán),以推薦準(zhǔn)確率和推薦覆蓋率作為評價標(biāo)準(zhǔn)。

        (3)實驗結(jié)果取相似用戶的數(shù)量為變量,以10個相似用戶為基礎(chǔ),以5個相似用戶為梯度增加到50個。計算推薦準(zhǔn)確率與覆蓋率。

        4.3 實驗評估標(biāo)準(zhǔn)

        準(zhǔn)確率是指在推薦條目中,用戶喜歡的條目數(shù)量與推薦的條目總數(shù)量的比值,其計算公式如下:

        (7)

        其中,R(u)為向用戶推薦的條目總數(shù);T(u)為推薦條目中用戶喜歡的條目。

        覆蓋率可以反映出算法發(fā)現(xiàn)長尾物品的能力。長尾物品指在物品中用戶較少評價的一些物品,覆蓋率越高,算法發(fā)現(xiàn)長尾物品的能力越強(qiáng),具體是指在推薦條目中用戶喜歡的條目數(shù)量與所有用戶喜歡的條目數(shù)量之比,計算公式如下:

        (8)

        其中,R(u)為向用戶推薦的推薦條目總數(shù);I為整個數(shù)據(jù)集中的物品數(shù)。

        4.4 實驗結(jié)果的比較與分析

        實驗首先對余弦相似度進(jìn)行加權(quán)改進(jìn),和傳統(tǒng)協(xié)同過濾算法進(jìn)行比較,以驗證文中算法的有效性,實驗結(jié)果如圖1和圖2所示。

        圖1 采用余弦相似度時推薦準(zhǔn)確率的比較

        圖2 采用余弦相似度時推薦覆蓋率的比較

        從結(jié)果可以看出,改進(jìn)后的協(xié)同過濾算法的準(zhǔn)確率和召回率相對傳統(tǒng)的協(xié)同過濾算法都得到了提高。當(dāng)取得相似用戶增加時,兩種算法的覆蓋率有所降低,這是因為在取得更多用戶之后,得到的推薦列表中的物品將更加集中在熱度很高的物品上,但是改進(jìn)后的協(xié)同過濾算法的召回率依然高于傳統(tǒng)協(xié)同過濾算法。實驗說明經(jīng)過稀疏度加權(quán)之后,算法更有效地利用了原始稀疏矩陣中的信息,使得在計算尋找相似用戶時更加準(zhǔn)確有效。而尋找到相似用戶是協(xié)同過濾算法的核心,協(xié)同過濾算法正是在相似用戶間進(jìn)行推薦。算法保證了尋找到相似用戶的有效性,因此提高了準(zhǔn)確率和覆蓋率。

        實驗繼續(xù)對皮爾遜相關(guān)系數(shù)相似度進(jìn)行加權(quán)改進(jìn),同樣與傳統(tǒng)協(xié)同過濾算法進(jìn)行比較,實驗結(jié)果如圖3和圖4所示。

        結(jié)果表明,算法同樣提高了推薦準(zhǔn)確率和覆蓋率,證明通過矩陣稀疏度加權(quán)來尋找相似用戶是行之有效的。通過矩陣稀疏度加權(quán),使協(xié)同過濾算法在稀疏矩陣中更有效地利用評分信息來找到相似用戶,從而提高了改進(jìn)算法的準(zhǔn)確率和覆蓋率。

        圖3 采用皮爾遜相似系數(shù)時推薦準(zhǔn)確率的比較

        圖4 采用皮爾遜相似系數(shù)時推薦覆蓋率的比較

        5 結(jié)束語

        協(xié)同過濾算法的性能受到評分矩陣稀疏度問題的制約,稀疏的評分矩陣導(dǎo)致尋找相似用戶困難或?qū)ふ业降南嗨朴脩舨粶?zhǔn)確,最終影響協(xié)同過濾算法的性能。文中通過矩陣稀疏度加權(quán)來改進(jìn)協(xié)同過濾算法,從而更有效地利用了用戶評價信息,避免了稀疏性帶來的問題,推薦結(jié)果可以更準(zhǔn)確地體現(xiàn)用戶的喜好程度。實驗結(jié)果表明,該算法可以有效提高推薦的準(zhǔn)確率與覆蓋率。

        猜你喜歡
        用戶
        雅閣國內(nèi)用戶交付突破300萬輛
        車主之友(2022年4期)2022-08-27 00:58:26
        您撥打的用戶已戀愛,請稍后再哭
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年5期)2016-11-28 09:55:15
        兩新黨建新媒體用戶與全網(wǎng)新媒體用戶之間有何差別
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        挖掘用戶需求尖端科技應(yīng)用
        Camera360:拍出5億用戶
        100萬用戶
        日韩极品视频在线观看| 久久精品免费观看国产| 老熟女高潮一区二区三区| 国产乱色国产精品免费视频| 国语对白三级在线观看| 国产日韩厂亚洲字幕中文| 亚洲一区二区三区无码久久| 国产天堂网站麻豆| 久久久诱惑一区二区三区| 日本人妻精品有码字幕| 国产综合久久久久久鬼色| 在线观看免费a∨网站| 麻麻张开腿让我爽了一夜| 久久无码精品精品古装毛片| 国产伦精品一区二区三区在线| 中国久久久一级特黄久久久| 国产精品制服| 欧洲亚洲视频免费| 男女性生活视频免费网站| 欧美v国产v亚洲v日韩九九| 色播久久人人爽人人爽人人片av| 在线观看国产三级av| 亚洲女同一区二区三区| 热re99久久精品国99热| 人人妻人人澡人人爽人人精品| 亚洲国产精品综合福利专区| 国产自拍精品在线免费观看| 久久婷婷人人澡人人喊人人爽| 国产精选免在线观看| 久久国产精品懂色av| 极品美女扒开粉嫩小泬图片| 欧美疯狂性xxxxxbbbbb| 久久精品国产久精国产69| 偷拍一区二区三区四区视频| 亚洲精品美女久久久久久久| 久久综合亚洲色社区| 有码视频一区二区三区| 亚洲日韩中文字幕无码一区| 日韩在线无| 男女啦啦啦视频在线观看| 亚洲人成人无码www|