亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進的基于用戶的協(xié)同過濾算法

        2018-01-17 00:52:44張世顯李平
        關鍵詞:現(xiàn)值決策樹物品

        張世顯,李平

        (長春理工大學 計算機科學與技術學院,長春 130022)

        隨著Internet的快速發(fā)展,網(wǎng)絡上的信息每天都以PB級別增長?;ヂ?lián)網(wǎng)雖然給我們的生活帶來了方便,但是信息超載和信息迷航的問題也隨之而來[1-2]。面臨著如此巨大的數(shù)據(jù),人們怎么樣才能得到自己想要的信息呢?搜索引擎便應運而生,它不僅能夠促進互聯(lián)網(wǎng)的服務質(zhì)量,同時還能減少用戶的搜索耗時,排除掉大量干擾和無關信息[3]。但是當人們在對物品沒有意愿的情況下,它并不能解決人們的需求。為了解決這一問題,個性化推薦系統(tǒng)應運而生,它是一種主動性的信息過濾方式[4-5]。推薦系統(tǒng)可以根據(jù)用戶的歷史信息,在用戶沒有需求的情況下提供精準的個性化推薦,從而引導用戶獲取有用的信息[6]。

        協(xié)同過濾算法是目前發(fā)展比較成熟的個性化推薦算法,尤其是在電子商務中取得了非常好的效果。據(jù)悉亞馬遜通過推薦算法,將其銷售額提升了大約30%。但是,傳統(tǒng)的協(xié)同過濾算法在計算相似度和預測評分時太過粗糙,沒有考慮到評分對共現(xiàn)值的影響以及用戶的興趣遷移對評分的影響。針對這樣的情況,本文主要提出兩點改進:首先通過決策樹模型找到評分與共現(xiàn)值之間的關系,實驗中會通過多個模型分別測試,找出最優(yōu)模型;其次引入指數(shù)時間模型來解決用戶興趣遷移問題,提高推薦的時效性。

        1 相關研究

        1.1 傳統(tǒng)的協(xié)同過濾算法

        協(xié)同過濾算法是推薦系統(tǒng)中運用最為成功的信息過濾算法[7],主要提取用戶產(chǎn)生的歷史行為做出推薦[8]。傳統(tǒng)的協(xié)同過濾算法主要分為基于物品的協(xié)同過濾算法(ItermCF)和基于用戶的協(xié)同過濾算法(UserCF)。本論文以UserCF作為研究對象,對目標用戶首先通過相似度找到K個最近鄰,然后把K個最近鄰產(chǎn)生行為而目標用戶沒有產(chǎn)生行為的物品,通過TOP-N的方式推薦給目標用戶。常見的相似度計算方法有歐氏距離相似度方法(式(1))、余弦相似度方法(式(2))、皮爾遜相似度方法(式(3))、Salton相似度方法(式(4))等。通過TOP-N推薦的預測評分公式如式(5)所示。本論文中采用Salton相似度方法來計算用戶的最近鄰。

        其中,U表示用戶集合,I表示用戶u和v共同評分過物品的集合,rui表示用戶u對物品i評分,rvi表示用戶u對物品i的評分表示用戶u的評分均值表示用戶v的評分均值。

        1.2 研究現(xiàn)狀

        近幾年,有很多學者對這些問題進行了研究和改進,都從不同程度上改善了這個算法的推薦準確性。文獻[9]提出了一種復合指數(shù)函數(shù)作為評分權(quán)重的時間模型,在一定程度上改善了最終評分預測的結(jié)果,但是這個模型隨著時間的增長下降過快不符合人類的興趣遺忘規(guī)律。文獻[10]提出了一種Logistic時間函數(shù)和用戶特征相結(jié)合的方法,改善了推薦的準確度。由于這個函數(shù)值域最小在0.5,最大也不趨近于1,所以用它作為權(quán)重也不符合實際。同樣文獻[11]采用線性回歸方式作為時間模型,分別對相似度和預測評分公式進行改進,最終也在推薦效果上有所提升,不過根據(jù)艾賓浩斯遺忘曲線,顯然它也不符合。還有很多忽略用戶興趣遷移的改進[12-14]。

        與上述改進方法不同,本文是根據(jù)艾賓浩斯遺忘曲線,提出一個指數(shù)時間模型,并通過權(quán)重α來控制這個模型,最后實驗會分組驗證這個超參數(shù),選取一個最優(yōu)的模型作為用戶評分的權(quán)重。其次還會討論選擇怎么樣的規(guī)則方式來映射評分和共現(xiàn)值之間的關系,從而改善Salton相似度,減少預測評分的平均絕對誤差。

        2 改進的基于用戶的協(xié)同過濾算法的研究

        2.1 算法的提出

        2.1.1 改進Salton相似度方法

        傳統(tǒng)的協(xié)同過濾算法用式(4)所示的Salton相似度來計算目標用戶的最近鄰,在計算最近鄰時需要構(gòu)建用戶u到用戶v的共現(xiàn)矩陣。假如數(shù)據(jù)庫中存有一張用戶看電影的評分,如表1所示。

        表1 不同用戶對看過電影的評分(單位為分)

        對于表1這份數(shù)據(jù),其中數(shù)字表示用戶對電影的評分,NA表示用戶對某電影沒做評分通過Salton相似度計算各個用戶之間的相似度時,將會得到如表2所示的用戶之間的共現(xiàn)矩陣。

        表2 不同用戶之間的共現(xiàn)矩陣(單位為個)

        表2中數(shù)字表示的是用戶之間的共現(xiàn)值大小,NA表示相同用戶不做比較即共現(xiàn)值為空。從表1和表2之間的映射關系就可以得出:兩個用戶對某個電影無論評分多少,其共現(xiàn)值就為1。因此,這五個用戶通過Salton相似度計算得出的相似度是一樣的,也就是說用戶u5就可以把movieC推薦給用戶u1-u4。但是根據(jù)表1可以看出u1和u5根本不存在相似性,所以用傳統(tǒng)的Salton相似度直接計算用戶之間的相似性很粗糙。為了解決這種忽略用戶態(tài)度因素來計算共現(xiàn)值的方法,本文提出了一種決策樹模型來解決上述問題。首先分析一下表1,從表1可以看出當|rui-rvi|<=1,其共現(xiàn)值可以為1;當時|rui-rvi|=2,可以分三種情況:當rui=5、rvi=3時,其共現(xiàn)值為δ∈{0.6,0.7,0.8};當rui=4、rvi=2時,其共現(xiàn)值為μ∈{0.1,0.2,0.3},當rui=3、rvi=1時,其共現(xiàn)值為0;當|rui-rvi|>2時,此時這兩個用戶對某個電影的態(tài)度相差太大,其共現(xiàn)值可以認為為0。根據(jù)上述分析,首先可以統(tǒng)計分析用戶對電影的評分值構(gòu)建簡單的決策樹,其次在每一條從根節(jié)點到葉節(jié)點的路徑上創(chuàng)建一個規(guī)則。對每一條路徑,從根節(jié)點到葉節(jié)點的父節(jié)點的所有條件用AND邏輯運算連接起來形成規(guī)則的條件部分(IF部分)。存放類預測的葉節(jié)點形成規(guī)則的后件(THEN部分)。本論文以用戶對電影的評分為例,可以抽取IF-THEN規(guī)則如下:

        Rule1:IF|u-v|<=1 THEN C=1

        Rule2:IFu=5||v=3 THEN C=δ

        Rule3:IFu=4||v=2 THEN C=μ

        Rule4:IF 其他THEN C=0

        根據(jù)上述的IF-THEN規(guī)則,可以構(gòu)造出如圖1所示的決策樹。

        圖1 用戶評分和共現(xiàn)值關系決策樹

        2.1.2 改進的時間加權(quán)的預測評分模型

        傳統(tǒng)的協(xié)同過濾算法在計算用戶的預測評分時并沒有對已產(chǎn)生行為物品的歷史評分做相應權(quán)重處理,也就是說沒有考慮時間對用戶興趣的影響。只有當用戶在同段時間或相近時間,才能有效的找鄰居,進行預測評分推薦,保持推薦的時效性。舉個簡單的例子,假如一個人在童年時期特別喜歡看兒童類電影,在成長過程中又很少看電影,有一天他去豆瓣看電影,豆瓣會給他推薦什么電影呢?毫無疑問大部分集中在兒童類電影,顯然這樣是不合理的。為了解決這個問題,必須把時間較久的歷史行為權(quán)重調(diào)低,通過一個動態(tài)的時間權(quán)重格式化歷史行為,使推薦結(jié)果的更能反映用戶的近期興趣,達到推薦的時效性。

        事實上,人類的遺忘規(guī)律和用戶興趣偏移規(guī)律是相似的[15],因此時間模型可以參考遺忘函數(shù)給出。德國的著名心理學家艾賓浩斯對記憶的遺忘規(guī)律做了深入研究,并且繪制出了著名的“艾賓浩斯遺忘曲線”。該曲線展示了人類記憶保留的非線性遞減的規(guī)律,本文受其啟發(fā)提出一個指數(shù)的時間模型,來反映用戶的興趣變化,此時間模型定義如下:

        其中,t代表當前時刻,tumin表示用戶u對其評價過物品的最小時間,tumax表示用戶u對其評價過物品的最大時間,(7)式中減去1是為了避免評分權(quán)重為1,α∈(0,1]表示時間權(quán)重因子,α越大說明項目評分衰減速度越快,可以通過實驗擬定一個合適的值。

        將這個時間模型引入到式(5)中,以提高推薦的時效性,使推薦結(jié)果更傾向于當前用戶的興趣。改進后的式子如下所示:

        2.2 算法的過程描述

        根據(jù)上述對Salton相似度的改進和利用時間加權(quán)對預測評分的改進,可以總結(jié)出改進的基于用戶的協(xié)同過濾算法(R_UserCF)過程如下:

        算法 R_UserCF;

        輸入 用戶集合U,物品集合I,鄰居個數(shù)K,推薦個數(shù)N,歷史行為Info;

        輸出 預測評分矩陣M(U,I)。

        Step1 根據(jù)Info信息得出用戶-項目的評分矩陣R(U,I),再根據(jù)R(U,I)通過改進的Salton相似度計算出用戶u和U中其他用戶的共現(xiàn)值,最后根據(jù)用戶彼此之間的共現(xiàn)值就得到了用戶-用戶的共現(xiàn)矩陣Q(U,U);

        Step2 對每一個u∈U,通過Q(U,U)和改進的Salton相似度計算用戶u和U中其他用戶的相似度并寫入用戶相似度矩陣similar(u,v);

        Step3 對每一個u∈U,選取出與u相似度最高的K個用戶,組成最近鄰Neighbors(u,v,K);

        Step4 選出Neighbors(u,v,K)中所有產(chǎn)生行為的物品集合Iterms(i),并在Iterms(i)中刪除目標用戶已經(jīng)產(chǎn)生行為物品;

        Step5 對每個i∈Iterms(i),通過最近鄰集合中的用戶i的評分,運用公式(9)計算預測值rui,并將rui更新到M(U,I);

        Step6 返回M(U,I),算法完成。

        3 實驗數(shù)據(jù)和結(jié)果分析

        3.1 實驗數(shù)據(jù)和評價指標

        本實驗使用由Grouplens提供的100K的MovieLens數(shù)據(jù)集。數(shù)據(jù)集包含了10萬條記錄,共943名用戶對1682部電影進行5個等級的評分,評分數(shù)值為1-5。其中1代表“poor”,5表示“perfect”,其他數(shù)據(jù)則表示中間值,他們代表了用戶對電影興趣的不同程度。在試驗中該數(shù)據(jù)集80%作為訓練數(shù)據(jù)集20%作為測試數(shù)據(jù)集。

        預測準確度是用來衡量一個推薦系統(tǒng)推薦能力的重要指標,本論文采用平均絕對誤差(MSE).假設原始評分集合為M={r1,r2,…,rn},預測評分集合為N={p1,p2,…,pn},則MAE的計算公式如下所示:

        其中,N表示測試集中電影的總數(shù)。MAE的值越小,說明預測的準確率越高,產(chǎn)生的推薦效果越好,即推薦結(jié)果越準確。

        3.2 實驗參數(shù)設定

        3.2.1 選取最優(yōu)決策樹規(guī)則

        根據(jù)前面的分析,需要對三個決策樹模型分別測試其平均絕對誤差,來選取最優(yōu)模型,此次試驗選取N=20,K=10,試驗結(jié)果如表3所示。

        表3 不同模型及其MAE

        其中A,B,C,D分別圖1中的根節(jié)點值,從上述表中數(shù)據(jù)MAE值可以得出第二個模型是最優(yōu)模型。

        3.2.2 時間模型中的超參α

        此試驗主要驗證時間權(quán)重因子在取何值時推薦效果達到最優(yōu),此模型選取上述模型,試驗結(jié)果如圖2所示。

        圖2 不同α所對應的平均絕對誤差

        從上圖可以明顯的看出α為0.1時其平均絕對誤差最小,即選取此值推薦系統(tǒng)得到的推薦結(jié)果達到最優(yōu)。

        3.3 實驗對比和實驗結(jié)果分析

        通過上面對改進基于用戶的協(xié)同過濾算法(R_UserCF)參數(shù)的優(yōu)化,已經(jīng)能夠得出一個最優(yōu)模型,下面將在不同鄰居下用這個模型和傳統(tǒng)算法(UserCF)作對比,如圖3所示。

        圖3 UserCF和R_UserCF算法的比較

        從圖3可以看出改進的基于用戶的協(xié)同過濾算法在同等條件下平均絕對誤差都小于傳統(tǒng)的算法,可見改進的算法在推薦中更加高效實用。

        4 結(jié)論

        本文在計算相似度時增加了人們的態(tài)度即通過決策樹策略得出了評分和共現(xiàn)值的關系,并且為了應對用戶的興趣遷移問題提出了加權(quán)的時間模型,最后通過Movielens數(shù)據(jù)集驗證了改進的算法在整體上都優(yōu)于傳統(tǒng)的算法。但是該算法也有兩點不足之處,首先在整個算法過程中涉及到很多矩陣轉(zhuǎn)換問題以及又增加了一個時間維度,因此加大了內(nèi)存的開銷,增加了計算的時間。其次數(shù)據(jù)集采用的是電影領域,因此該算法在應用場合上有一定的局限性。接下來主要針對這兩點不足之處進行改進,嘗試加入聚類模型以及選取多個領域的數(shù)據(jù)集分別進行測試實驗。

        [1]余力,劉魯,羅章華.我國電子商務推薦策略的比較分析[J].系統(tǒng)工程理論與實踐,2004,24(8):96-101.

        [2]顧洪博,趙萬平.數(shù)據(jù)挖掘算法性能優(yōu)化的研究與應用[J].長春理工大學學報:自然科學版,2010,33(1):164-166,163.

        [3]Linden G,Smith B,York J.Amazon.com Recommendations:item-to-item collaborativefiltering[J].IEEE Internet Computing,2003(1):76-80.

        [4]邱寧佳,郭暢,楊華民,等.基于MapReduce編程模型的改進KNN分類算法研究[J].長春理工大學學報:自然科學版,2017,40(1):110-114.

        [5]劉建國,周濤,王秉宏.個性化推薦系統(tǒng)的研究進展[J].自然科學進展,2009,19(1):1-15.

        [6]Ricci F,Rokach L,Shapira B,et al.Recommender systems handbook[M].New York:Springer,2011.

        [7]黃武漢,孟祥武,王立才.移動通信網(wǎng)中基于用戶社會化關系挖掘的協(xié)同過濾算法[J].電子與信息學報,2011,33(12):3002-3007.

        [8]范家兵,王鵬,周渭博,等.在推薦系統(tǒng)中利用時間因素的方法[J].計算機應用,2015,35(5):1324-1327.

        [9]Lai W,Deng H.An improved collaborative filtering algorithm adapting to user interest changes[C].Information Science and Service Science and Data Mining.IEEE,2012:598-602.

        [10]趙文濤,成亞飛,王春春.基于Logistic時間函數(shù)和用戶特征的協(xié)同過濾算法[J].計算機應用與軟件,2017,34(2):285-289,312.

        [11]鄭先榮,曹先彬.線性逐步遺忘協(xié)同過濾算法的研究[J].計算機工程,2007,33(6):72-73.

        [12]Kharrat FB,Elkhleifi A,F(xiàn)aiz R.Improving collaborative filtering algorithms[C].Proceedings of12th International Conference on Semantics,Knowledge and Grids,2016,36(5):109-114.

        [13]劉江東,梁剛,馮程,等.基于信息熵和時效性的協(xié)同過濾推薦[J].計算機應用,2016,36(9):2531-2534.

        [14]張佳,林耀進,林夢雷等.基于信息熵的協(xié)同過濾算法[J].山東大學學報:工學版,2016,46(2):43-50.

        [15]于洪,李轉(zhuǎn)云.基于遺忘曲線的協(xié)同過濾算法[J].南京大學學報:自然科學版,2010,46(5):520-527.

        猜你喜歡
        現(xiàn)值決策樹物品
        稱物品
        “雙十一”,你搶到了想要的物品嗎?
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        誰動了凡·高的物品
        決策樹和隨機森林方法在管理決策中的應用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于決策樹的出租車乘客出行目的識別
        資金時間價值中的系數(shù)關系探析
        資金時間價值基礎運算解讀
        凈現(xiàn)值法對比煤層氣與常規(guī)天然氣經(jīng)濟效益
        中國煤層氣(2015年2期)2015-08-22 03:29:15
        找物品
        午夜一区二区三区在线观看| 久久久久久av无码免费看大片 | 国产综合久久久久影院| 手机av在线观看视频| 亚洲蜜臀av一区二区三区| 国产色在线 | 亚洲| 久久免费网国产AⅤ| 日本高清一区二区三区视频| 亚洲天堂av一区二区| 亚洲成av人的天堂在线观看| 亚洲av鲁丝一区二区三区| 人妻爽综合网| 中日韩欧美成人免费播放| 中文字幕人妻在线少妇完整版| 国产亚洲成性色av人片在线观 | 嗯啊 不要 啊啊在线日韩a| av在线入口一区二区| 乱码av麻豆丝袜熟女系列| 亚洲国产理论片在线播放| 久久精品国产亚洲AV高清wy| 91九色中文视频在线观看| 人妻少妇偷人精品免费看| 777午夜精品免费观看| 久久亚洲伊人| 亚洲一区二区三区免费的视频| 香港三级午夜理论三级| 亚洲日本va午夜在线电影| 国产美女a做受大片免费| 沐浴偷拍一区二区视频| 亚洲精品无码久久久影院相关影片| 亚洲人成7777影视在线观看| 少妇激情一区二区三区久久大香香| 久久久99精品免费视频| 天堂а√在线中文在线新版| 日本视频一区二区三区免费观看| 在线观看亚洲视频一区二区| 成人试看120秒体验区| 中国年轻丰满女人毛茸茸| 熟女人妻一区二区在线观看 | av色欲无码人妻中文字幕| 亚洲肥老熟妇四十五十路在线|