亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于交集占比與時(shí)間衰減的協(xié)同過濾推薦算法研究

        2017-05-31 08:45:53吳崢陳俊李靈芳
        軟件導(dǎo)刊 2017年5期
        關(guān)鍵詞:協(xié)同過濾

        吳崢 陳俊 李靈芳

        摘要摘要:針對(duì)傳統(tǒng)協(xié)同過濾算法中存在的數(shù)據(jù)稀疏和用戶興趣變化問題,提出一種改進(jìn)的協(xié)同過濾推薦算法(IPTDCF)。在用戶相似度計(jì)算中融入評(píng)分交集項(xiàng)目占比因子,針對(duì)用戶興趣變化問題在評(píng)分預(yù)測計(jì)算中融入時(shí)間衰減函數(shù),提高推薦算法的準(zhǔn)確性。仿真實(shí)驗(yàn)表明,改進(jìn)后的算法在推薦準(zhǔn)確度上優(yōu)于傳統(tǒng)算法。

        關(guān)鍵詞關(guān)鍵詞:協(xié)同過濾;IPTDCF;交集占比;時(shí)間衰減

        DOIDOI:10.11907/rjdk.171066

        中圖分類號(hào):TP312

        文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2017)005002403

        0引言

        推薦系統(tǒng)近年來得到了廣泛應(yīng)用,但也面臨很多問題,如用戶興趣變化、數(shù)據(jù)稀疏性問題等。傳統(tǒng)推薦算法在計(jì)算用戶相似度中時(shí)的參考集合由于只選用兩用戶共同評(píng)分的項(xiàng)目,而忽略了兩用戶均未評(píng)分和單一用戶評(píng)分的項(xiàng)目,這樣求得的用戶相似度只能片面反映用戶興趣,且沒有考慮用戶興趣變化問題。早期研究在用戶興趣變化方面有所涉及,比如張磊[1]提出了基于遺忘曲線規(guī)律進(jìn)行時(shí)間衰減,得到有效評(píng)分矩陣再進(jìn)行推薦算法;孫智聰[2]提出了一種基于記憶激活理論的協(xié)同過濾算法,給出重復(fù)學(xué)習(xí)后的興趣最大值計(jì)算方法;胡偉健等[3]提出了一種改進(jìn)的歐式距離相似度度量方法和時(shí)間信息模擬用戶興趣變化的方法等。雖然上述算法考慮了用戶興趣變化,但在推薦準(zhǔn)確性上仍有優(yōu)化空間。

        本文引入評(píng)分交集項(xiàng)目占比因子優(yōu)化用戶相似度計(jì)算方法,引入時(shí)間衰減函數(shù)解決用戶興趣變化問題,提出改進(jìn)算法,提高推薦算法的準(zhǔn)確性。

        1改進(jìn)算法描述

        UBCF算法首先計(jì)算用戶間相似度,主要方法有皮爾遜相關(guān)系數(shù)相似度計(jì)算方法、歐氏距離相似度計(jì)算方法、余弦相似度計(jì)算方法等。其中,皮爾遜相關(guān)系數(shù)相似度計(jì)算方法如下:

        1.1改進(jìn)的項(xiàng)目占比因子

        項(xiàng)目評(píng)分是用戶興趣的直接反映,用戶可以有多種興趣。實(shí)際中,兩位用戶可能僅在個(gè)別興趣愛好上是相同的,反映在評(píng)分上為兩位用戶的評(píng)分項(xiàng)目交集遠(yuǎn)小于各自評(píng)分項(xiàng)目數(shù)。如圖1所示,圖中項(xiàng)目交集I是傳統(tǒng)用戶相似度計(jì)算方法的取值范圍,項(xiàng)目交集中可能是當(dāng)前熱門項(xiàng)目,也可能是兩用戶共同的興趣愛好。以MovieLens中數(shù)據(jù)量為100k大小的數(shù)據(jù)集為例,用戶181對(duì)435個(gè)項(xiàng)目進(jìn)行了評(píng)分,用戶600對(duì)89個(gè)項(xiàng)目進(jìn)行了評(píng)分,而兩用戶共同評(píng)分的項(xiàng)目僅有1個(gè);用戶181對(duì)435個(gè)項(xiàng)目進(jìn)行了評(píng)分,用戶766對(duì)175個(gè)項(xiàng)目進(jìn)行了評(píng)分,而兩用戶共同評(píng)分的項(xiàng)目僅有1個(gè)。另外,也有可能評(píng)分項(xiàng)目較多的用戶覆蓋了評(píng)分較少用戶的幾乎所有項(xiàng)目,如圖2所示。同樣以上述數(shù)據(jù)集為例,用戶13對(duì)636個(gè)項(xiàng)目進(jìn)行了評(píng)分,用戶814對(duì)35個(gè)項(xiàng)目進(jìn)行了評(píng)分,并且這35個(gè)項(xiàng)目恰好也被用戶13評(píng)價(jià)過;用戶655對(duì)685個(gè)項(xiàng)目進(jìn)行了評(píng)分,用戶111對(duì)24個(gè)項(xiàng)目進(jìn)行了評(píng)分,并且這24個(gè)項(xiàng)目恰好也被用戶655評(píng)價(jià)過。顯然,這兩種情況下僅考慮用戶評(píng)分項(xiàng)目交集而忽略大部分非交集評(píng)分項(xiàng)目,在衡量用戶興趣時(shí)是片面的,不能準(zhǔn)確得出用戶興趣。因此,在用戶相似度計(jì)算時(shí)考慮引入交集項(xiàng)目在用戶所有評(píng)分項(xiàng)目中的占比,對(duì)皮爾遜相關(guān)系數(shù)計(jì)算公式進(jìn)行改進(jìn),改進(jìn)如公式(3)所示。

        其中,a表示一個(gè)很小的常量,其作用是避免出現(xiàn)分母為0的情況。prop(u,v)為項(xiàng)目占比因子,表示用戶u和用戶v共同評(píng)分項(xiàng)目數(shù)在各自評(píng)分項(xiàng)目數(shù)之和中所占的比例,如公式(4)所示,取值范圍[0,1],兩用戶項(xiàng)目交集數(shù)越多,其值越大,對(duì)相似度的削減力度越小,相應(yīng)的sim值越大,表示兩者越相似。當(dāng)兩用戶評(píng)分項(xiàng)目完全相同時(shí)prop(u,v)值為1,表示兩用戶所有已評(píng)分項(xiàng)目均參與到用戶相似度計(jì)算中,當(dāng)兩用戶評(píng)分項(xiàng)目沒有交集時(shí)prop(u,v)值為0。

        prop(u,v)=2×num(I(u)∩I(v))num(I(u))+num(I(v))(4)

        其中,I(u)表示用戶u評(píng)分的項(xiàng)目,I(u)∩I(v)表示用戶u和用戶v共同評(píng)分的項(xiàng)目交集,num(I(u))表示用戶u評(píng)分項(xiàng)目個(gè)數(shù),num(I(u)∩I(v))表示共同評(píng)分項(xiàng)目交集的個(gè)數(shù)。

        1.2改進(jìn)的時(shí)間衰減函數(shù)

        項(xiàng)目評(píng)分是用戶對(duì)項(xiàng)目在當(dāng)前時(shí)間喜好程度的直觀體現(xiàn),而人腦對(duì)事物的記憶符合艾賓浩斯遺忘規(guī)律,即新生事物在大腦中的遺忘速度遵循先快后慢,最終趨于穩(wěn)定的變化規(guī)律。用戶對(duì)項(xiàng)目的喜好程度也會(huì)隨著這樣的記憶規(guī)律而發(fā)生變化,在傳統(tǒng)預(yù)測評(píng)分中并沒有體現(xiàn)出這一變化,由此在預(yù)測評(píng)分方法中增加時(shí)間衰減函數(shù),當(dāng)預(yù)測評(píng)分和近鄰用戶對(duì)該項(xiàng)目評(píng)分時(shí)間差越小,近鄰用戶實(shí)際評(píng)分對(duì)預(yù)測評(píng)分的影響越大,衰減越弱,改進(jìn)如公式(5)所示。

        pred(u,i)=ru+∑v∈Psim(u,v)×(rvi-rv)×f(tui,tvi)∑v∈Psim(u,v)(5)

        其中,集合P表示用戶u的近鄰用戶集合中對(duì)項(xiàng)目i進(jìn)行評(píng)分的用戶集合,tui表示用戶u對(duì)項(xiàng)目i的評(píng)分時(shí)間,在這里為時(shí)間戳形式。f為遺忘記憶保留率函數(shù),其公式如下(6)所示,為單調(diào)遞減函數(shù),分子為常量,評(píng)分時(shí)間間隔越大時(shí),(t1-t2)越大,分母越大,記憶保持率越小,懲罰力度越大,評(píng)分的有效性越低,在預(yù)測評(píng)分中的貢獻(xiàn)度就要越低,模擬了用戶興趣變化的過程。計(jì)算如下:

        f(t1,t2)=ec|t0+t1-t2|b(6)

        其中,e為自然對(duì)數(shù),c、b、t0為常量系數(shù),實(shí)驗(yàn)發(fā)現(xiàn),t0取1e-6、c取0.4且b取0.04時(shí)效果最佳。

        2實(shí)驗(yàn)過程及結(jié)果分析

        2.1實(shí)驗(yàn)數(shù)據(jù)集介紹

        本實(shí)驗(yàn)所采用的數(shù)據(jù)集來自Movielens網(wǎng)站,包括6 040位用戶、3 900部電影、以及用戶對(duì)電影評(píng)分的1 000 209條數(shù)據(jù)記錄。其中,每位用戶至少對(duì)其中20部電影進(jìn)行過評(píng)分,評(píng)分采用五分整數(shù)制,評(píng)分越高代表用戶越喜歡該部電影。

        2.2實(shí)驗(yàn)結(jié)果度量的標(biāo)準(zhǔn)

        實(shí)驗(yàn)結(jié)果的準(zhǔn)確性采用平均絕對(duì)誤差(MAE)來度量。MAE通過比較用戶預(yù)測評(píng)分和用戶實(shí)際評(píng)分間的偏差來度量預(yù)測評(píng)分的準(zhǔn)確度,其值越小說明推薦質(zhì)量越好。度量標(biāo)準(zhǔn)如式(7)。

        MAE=∑ni=1|Δpi|n(7)

        其中|Δpi|表示用戶對(duì)項(xiàng)目i的預(yù)測評(píng)分和實(shí)際評(píng)分的差值的絕對(duì)值,R(u)為用戶u的推薦列表,T(u)位測試集中用戶u的真實(shí)行為記錄集。

        2.3實(shí)驗(yàn)流程

        為更好說明結(jié)果,選取UBCF算法、文獻(xiàn)[1]ForgetBCF算法和本文提出的IPTDCF算法,對(duì)比MAE值的大小及變化趨勢。UBCF和IPTDCF的實(shí)驗(yàn)流程(見圖3)如下:

        Input:用戶集合U,項(xiàng)目集合I,用戶評(píng)分記錄集合Info,最近鄰居數(shù)k;

        Output: 預(yù)測評(píng)分矩陣Pred(U,I)以及MAE值。

        Step 1: 將Info按照80%-20%的數(shù)量比,隨機(jī)分成兩部分,80%部分記錄作為訓(xùn)練集Base,20%部分作為測試集Test。

        Step 2 : 提取出數(shù)據(jù)集Base和Test中的用戶、項(xiàng)目評(píng)分、評(píng)分時(shí)間信息,組成用戶-項(xiàng)目評(píng)分矩陣R(U,I)、R(U,I)和相應(yīng)的用戶-項(xiàng)目評(píng)分時(shí)間矩陣T(U,I)、T(U,I)。

        Step 3: 分別根據(jù)公式(1)和(3)進(jìn)行對(duì)比實(shí)驗(yàn),對(duì)訓(xùn)練集中每個(gè)用戶uU,在改進(jìn)公式(3)中求出用戶單獨(dú)評(píng)分項(xiàng)目數(shù)和兩用戶共同評(píng)分項(xiàng)目數(shù),并根據(jù)公式(5)計(jì)算出項(xiàng)目占比因子,求出用戶間相似度similarity(u,v),并保存在相似度矩陣Sim(U,U)中。

        Step 4: 在Sim(U,U)中,對(duì)每個(gè)用戶uU,選取出與u相似度最高的k位用戶,組成最近鄰集合neighborhood(u,k),并保存在最近鄰矩陣Neighbor(U,k)中。

        Step 5: 根據(jù)訓(xùn)練集中得到的最近鄰矩陣Neighbor(U,k),對(duì)測試集中用戶項(xiàng)目評(píng)分進(jìn)行預(yù)測,分別根據(jù)公式(2)和(5)進(jìn)行對(duì)比實(shí)驗(yàn),在改進(jìn)公式(6)中根據(jù)評(píng)分時(shí)間間隔進(jìn)行時(shí)間衰減,根據(jù)公式(7)求出記憶保留率,再計(jì)算出R′(U,I)中每個(gè)用戶已評(píng)分項(xiàng)目的預(yù)測評(píng)分,并保存到預(yù)測評(píng)分矩陣Pred(U,I)中。

        Step 6:根據(jù)公式(7),分別求出對(duì)比實(shí)驗(yàn)中兩組MAE值,比較推薦算法的準(zhǔn)確性,返回Pred(U,I),實(shí)驗(yàn)完成。

        2.4實(shí)驗(yàn)結(jié)果分析

        實(shí)驗(yàn)均采用皮爾遜相關(guān)系數(shù)來計(jì)算相似度,觀察不同鄰居數(shù)時(shí)MAE值的變化,結(jié)果如表1和圖4所示。

        結(jié)果顯示,不同算法和不同近鄰數(shù)得到的MAE值不同,相同近鄰數(shù)時(shí),UBCF的MAE值最大,IPTDCF的MAE值最小,表明IPTDCF的推薦準(zhǔn)確性更高。UBCF和ForgetBCF呈遞減變化,IPTDCF先遞減后遞增,UBCF接近線性變化,F(xiàn)orget和IPTDCF遞減速度先快后慢,最終趨于平穩(wěn),這是由于時(shí)間衰減函數(shù)使得MAE值變化符合遺忘曲線規(guī)律;IPTDCF在近鄰數(shù)為80時(shí)達(dá)到最小值,后期有微弱遞增趨勢,這是由于項(xiàng)目占比因子的削弱作用使得原本較高的用戶相似度依然高,而原本較低的用戶相似度變得更低,增加近鄰相當(dāng)于增加了更過低相似度的近鄰,因而鄰居數(shù)的增多反而削弱了改進(jìn)效果。綜上所述,由IPTDCF計(jì)算出的MAE值要小于UBCF算法和ForgetBCF算法,可以發(fā)現(xiàn)IPTDCF在推薦的準(zhǔn)確性上明顯優(yōu)于傳統(tǒng)UBCF算法和ForgetBCF算法。

        3結(jié)語

        本文針對(duì)評(píng)分?jǐn)?shù)據(jù)稀疏或用戶評(píng)分時(shí)間不同的應(yīng)用場景提出了一種改進(jìn)型協(xié)同過濾推薦算法IPTDCF。IPTDCF算法首先在計(jì)算用戶相似度時(shí)加入共同評(píng)分項(xiàng)目交集占各自所有評(píng)分項(xiàng)目的比例因子,考慮兩用戶評(píng)分項(xiàng)目的非交集部分;其次在預(yù)測項(xiàng)目評(píng)分時(shí)引入時(shí)間衰減函數(shù),結(jié)合遺忘曲線規(guī)律,對(duì)評(píng)分預(yù)測方法進(jìn)行修正。兩組實(shí)驗(yàn)通過MAE值的比較,得出IPTDCF算法在推薦準(zhǔn)確性方面明顯優(yōu)于傳統(tǒng)推薦算法的結(jié)論。在評(píng)分?jǐn)?shù)據(jù)稀疏或用戶評(píng)分時(shí)間不同的情況下,更適合采用改進(jìn)算法IPTDCF。

        參考文獻(xiàn)參考文獻(xiàn):

        [1]張磊. 基于遺忘曲線的推薦算法研究[D].合肥:安徽理工大學(xué),2014.

        [2]孫智聰.基于時(shí)間上下文和屬性的個(gè)性化推薦研究[D].重慶:重慶大學(xué),2015.

        [3]胡偉健,滕飛,李靈芳,王歡.適應(yīng)用戶興趣變化的改進(jìn)型協(xié)同過濾算法[J].計(jì)算機(jī)應(yīng)用.2016,36(8):20872091.

        [4]孫光輝.基于時(shí)間效應(yīng)和用戶興趣變化的改進(jìn)推薦算法研究[D].北京:北京郵電大學(xué),2014.

        [5]孫光福,吳樂,劉淇,朱琛,陳恩紅.基于時(shí)序行為的協(xié)同過濾推薦算法[J].軟件學(xué)報(bào),2013(11): 27212733.

        [6]黃創(chuàng)光,印鑒,汪靜,劉玉葆,王甲海.不確定近鄰的協(xié)同過濾推薦算法[J].計(jì)算機(jī)學(xué)報(bào),2010,33(8):13691377.

        [7]孟祥武,劉樹棟,張玉潔,胡勛.社會(huì)化推薦系統(tǒng)研究[J].軟件學(xué)報(bào),2015(6):13561372.

        [8]RICCI F,ROKACH L, SHAPIRA B,et al.Recommender systems handbook[M].Springer,2011.

        責(zé)任編輯(責(zé)任編輯:陳福時(shí))

        猜你喜歡
        協(xié)同過濾
        基于用戶評(píng)分和項(xiàng)目類偏好的協(xié)同過濾推薦算法
        基于用戶相似度加權(quán)的Slope One算法
        軟件(2016年4期)2017-01-20 09:44:28
        圖書推薦算法綜述
        改進(jìn)的協(xié)同過濾推薦算法
        基于鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)的協(xié)同過濾推薦算法設(shè)計(jì)與實(shí)現(xiàn)
        基于相似傳播和情景聚類的網(wǎng)絡(luò)協(xié)同過濾推薦算法研究
        基于協(xié)同過濾算法的個(gè)性化圖書推薦系統(tǒng)研究
        混合推薦算法在電影推薦中的研究與評(píng)述
        關(guān)于協(xié)同過濾推薦算法的研究文獻(xiàn)綜述
        商(2016年29期)2016-10-29 15:22:08
        基于混合信任模型的協(xié)同過濾推薦算法
        日本黄页网站免费大全| 免费国产在线精品一区二区三区免| 亚洲 欧美 偷自乱 图片| 亚洲乱亚洲乱妇| 亚洲一本大道无码av天堂| 岛国精品一区二区三区| 极品视频一区二区三区在线观看 | 极品老师腿张开粉嫩小泬| 久久不见久久见中文字幕免费| 久久国产成人午夜av影院| 亚洲一区二区三区免费av在线 | 女女同性黄网在线观看| 精品视频一区二区杨幂| 久久久精品国产免费看| 亚洲精品国精品久久99热| 99香蕉国产精品偷在线观看 | 日韩亚洲精品中文字幕在线观看 | 97伦伦午夜电影理伦片| 岛国熟女一区二区三区| 日本成年少妇人妻中文字幕| 精品国产三级a在线观看不卡| 国产精品成人免费视频一区| 亚洲熟女乱色一区二区三区| 亚洲国产日韩在线精品频道| 国产精女同一区二区三区久| 国产欧美精品aaaaaa片| 无码免费一区二区三区| 亚州AV无码乱码精品国产| 精品亚亚洲成av人片在线观看| 精品一区二区在线观看免费视频| 国产a国产片国产| 亚洲日韩精品国产一区二区三区| 少妇被粗大猛进进出出| 免费在线视频亚洲色图| 亚洲av永久无码天堂网小说区 | 日韩av一区二区三区高清| 国产大片黄在线观看| 天堂√中文在线bt| 国产精品一区成人亚洲| 婷婷色精品一区二区激情| 宅男666在线永久免费观看 |