亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種改進(jìn)的混合推薦算法

        2015-11-22 11:45:42宋文君劉建國(guó)
        關(guān)鍵詞:列表準(zhǔn)確性準(zhǔn)確率

        宋文君, 郭 強(qiáng), 劉建國(guó)

        (上海理工大學(xué) 管理學(xué)院 復(fù)雜科學(xué)研究中心,上海 200093)

        互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展使得信息超載問題日益嚴(yán)重[1].個(gè)性化推薦系統(tǒng)利用用戶的歷史行為來預(yù)測(cè)其潛在的需求,能夠有效地解決信息超載問題[2-3].現(xiàn) 有 的 推 薦 算 法 包 括 協(xié) 同 過 濾 算 法(collaborative filtering)[4-5]、基于內(nèi)容的推薦算法(content-based algorithm)[6]、基于網(wǎng)絡(luò)結(jié) 構(gòu)的推 薦算法(network-based algorithm)等[7-13].其中,基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法就是將熱傳導(dǎo)(heat conduction)[7-9]、物質(zhì)擴(kuò)散(mass diffusion)[10-12]等原理應(yīng)用到個(gè)性化推薦算法的研究中,已經(jīng)取得了很好的研究成果.Zhang等[7]利用用戶對(duì)產(chǎn)品的打分信息,實(shí)現(xiàn)了熱傳導(dǎo)的推薦算法.Zhou等[10]利用用戶-產(chǎn)品二部分網(wǎng)絡(luò)提出了一種基于物質(zhì)擴(kuò)散的推薦算法.進(jìn)一步,Zhou等[13]基于物質(zhì)擴(kuò)散與熱傳導(dǎo)原理提出了一種混合推薦算法(HHM).

        HHM 算法雖然能夠同時(shí)提高算法的準(zhǔn)確性與多樣性,但是,必須采用全部的用戶信息[14].然而用戶的早期行為不能很好地反映其目前的興趣偏好,也就是說應(yīng)該考慮時(shí)間信息對(duì)于推薦效果的影響.近幾年來,許多學(xué)者嘗試將時(shí)間因素融入到算法中來提升推薦效果.例如,Liu等[15]提出了一種基于時(shí)間因素的推薦算法.另外,Zhang等[16]將基于時(shí)間和拓?fù)浣Y(jié)構(gòu)這兩種方法混合起來,提出了一種用來抽取信息骨架的方法.雖然這一方法只需要處理部分信息,但是,卻缺乏時(shí)間窗口對(duì)推薦效果影響的研究,這對(duì)于降低計(jì)算復(fù)雜性至關(guān)重要.本文提出了一種基于有限時(shí)間窗口的改進(jìn)混合推薦算法.首先采用標(biāo)準(zhǔn)數(shù)據(jù)集Netflix,通過逐漸增大時(shí)間窗口的方式生成一系列訓(xùn)練集,然后將每一個(gè)訓(xùn)練集作為已知的數(shù)據(jù)來預(yù)測(cè)用戶的興趣偏好,最后利用測(cè)試集來檢驗(yàn)推薦算法的效果.實(shí)驗(yàn)結(jié)果表明,采用部分用戶近期數(shù)據(jù)能夠同時(shí)提升推薦的準(zhǔn)確性和多樣性,而且新改進(jìn)的算法適用于不同活躍程度的用戶.表明本文的方法可以極大地降低計(jì)算復(fù)雜性,非常具有實(shí)踐價(jià)值.

        1 模型與方法

        1.1 基于二部分網(wǎng)絡(luò)的混合推薦算法

        用戶-產(chǎn)品二部分網(wǎng)絡(luò)包括一組由集合U={u1,u2,…,un}表示的用戶節(jié)點(diǎn),一組由集合O={o1,o2,…,om}表示的產(chǎn)品節(jié)點(diǎn),以及連接這兩組節(jié)點(diǎn)的連邊,由集合E={e1,e2,…,ep}表示.其中,如果用戶uj選擇過產(chǎn)品oi,那么就在uj和oi之間連接一條邊aij=1;否則,aij=0.

        標(biāo)準(zhǔn)的熱傳導(dǎo)算法最初由Zhang等[7]提出來.假設(shè)每個(gè)產(chǎn)品都具有一個(gè)初始資源,并且它可以在用戶-產(chǎn)品二部分網(wǎng)絡(luò)上傳遞,使得所有產(chǎn)品都會(huì)獲得一個(gè)最終的資源.這一資源傳遞的過程可以表示為

        式中,W 代表資源轉(zhuǎn)移矩陣;f 表示產(chǎn)品的初始資源;f ′則表示最終資源.

        熱傳導(dǎo)算法[7]在推薦列表多樣性上具有優(yōu)勢(shì),但是,因?yàn)閷?duì)冷門產(chǎn)品分配過多的資源而導(dǎo)致準(zhǔn)確性很差.物質(zhì)擴(kuò)散算法[10]卻因?yàn)楦雨P(guān)注流行產(chǎn)品,可以表現(xiàn)出很高的推薦準(zhǔn)確性.為了綜合上述兩種方法的優(yōu)勢(shì),Zhou等[13]提出了一種混合推薦算法(HHM)可以同時(shí)提高推薦結(jié)果的準(zhǔn)確性和多樣性.資源轉(zhuǎn)移矩陣可以表示為

        式中,koα,koβ和kuj分別代表產(chǎn)品oα,oβ以及用戶uj的度;aαj,aβj分別代表用戶uj與產(chǎn)品oα,oβ的連邊;λ 為混合參數(shù),λ=0,代表標(biāo)準(zhǔn)的熱傳導(dǎo)算法,而λ=1,則表示物質(zhì)擴(kuò)散算法.

        當(dāng)混合參數(shù)λ 調(diào)節(jié)到一個(gè)最優(yōu)值時(shí),該算法在準(zhǔn)確性和多樣性兩方面都可以得到一個(gè)更好的推薦結(jié)果.

        1.2 改進(jìn)的混合推薦算法

        本文基于用戶的近期行為能夠更好地反映其潛在的興趣偏好的思想,提出了一種基于有限時(shí)間窗口的改進(jìn)混合推薦算法.首先,通過采用標(biāo)準(zhǔn)的HHM 算法,可以得到一個(gè)最優(yōu)的混合參數(shù)使得推薦結(jié)果的準(zhǔn)確率最高,記為λopt.然后,將最近發(fā)生的前10%的記錄作為測(cè)試集,另外按照下面不斷地?cái)U(kuò)大時(shí)間窗口的方法,劃分出一系列訓(xùn)練集.在剩下的用戶記錄中最大的時(shí)間信息記為t0,假設(shè)在時(shí)間標(biāo)T∈[t0-ηΔt,t0]這一范圍內(nèi)的記錄就構(gòu)成了第η個(gè)訓(xùn)練集,其中,Δt 代表時(shí)間間隔,η 則表示訓(xùn)練集的編號(hào).η 的最小值為1,代表第一個(gè)訓(xùn)練集,它包含從時(shí)間標(biāo)t0向前倒推了一個(gè)單位時(shí)間間隔內(nèi)的全部記錄.η 的上界是原始訓(xùn)練集的生命周期與Δt的比值.需要注意的是,隨著η 值的不斷增大,訓(xùn)練集中所包含的數(shù)據(jù)量也在不斷增大,但是,測(cè)試集卻保持不變.另外,將每一組訓(xùn)練集作為已知的數(shù)據(jù),來預(yù)測(cè)用戶對(duì)沒有選擇過的產(chǎn)品的喜好程度.這里采用改進(jìn)的混合推薦算法,其資源轉(zhuǎn)移矩陣表示為

        最后,采用準(zhǔn)確率(precision)、召回率(recall)和平均漢明距離(average Hamming distance)這3種指標(biāo)來衡量新算法的推薦效果.

        1.3 衡量指標(biāo)

        準(zhǔn)確率P[17]:表示用戶對(duì)系統(tǒng)所推薦的產(chǎn)品喜歡的概率,也就是系統(tǒng)推薦的產(chǎn)品中用戶喜歡的產(chǎn)品所占的比例,即

        式中,L 代表推薦列表的長(zhǎng)度;hi代表同時(shí)出現(xiàn)在用戶ui的測(cè)試集和其推薦列表中的產(chǎn)品數(shù)目.

        通常來說,當(dāng)推薦列表長(zhǎng)度L 給定的時(shí)候,準(zhǔn)確率越高,表明推薦結(jié)果越準(zhǔn)確.

        召回率R[17]:表示用戶喜歡的產(chǎn)品被推薦的概率,即

        式中,nip則代表測(cè)試集中用戶ui喜歡的產(chǎn)品數(shù)目.

        同樣地,召回率越高,說明推薦效果越好.

        平均漢明距離S[17]:推薦結(jié)果的多樣性可以采用平均漢明距離來衡量,具體表示為

        式中,Qij(L)則代表用戶ui和uj的推薦列表中相同產(chǎn)品的數(shù)目.

        最大值S=1,表明兩個(gè)用戶的推薦列表沒有重復(fù)的產(chǎn)品,也就說明推薦系統(tǒng)的多樣性最高;反之,如果S=0,則表示兩個(gè)用戶的推薦列表完全一致.

        2 實(shí)證結(jié)果分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)

        采用標(biāo)準(zhǔn)數(shù)據(jù)集Netflix來檢驗(yàn)新算法的推薦效果.Netflix的數(shù)據(jù)包括8 609個(gè)用戶對(duì)5 081部電影的打分情況,是netflix.com 網(wǎng)站從2001年2月至5月期間收集得到的.根據(jù)本文提出的方法,最近發(fā)生的41 924條記錄就構(gòu)成了測(cè)試集.假設(shè)劃分訓(xùn)練集的時(shí)間間隔Δt 為2天,那么,就可以得到45個(gè)訓(xùn)練集.經(jīng)過實(shí)驗(yàn),可以得到最優(yōu)的混合參數(shù)λopt=0.51,如圖1所示.

        2.2 實(shí)驗(yàn)結(jié)果

        圖1 混合參數(shù)與準(zhǔn)確率的關(guān)系Fig.1 Relation between hybridization parameter and precision

        圖2 推薦效果隨訓(xùn)練集編號(hào)增大的變化情況Fig.2 Relation between algorithmic performance and number of training set

        利用準(zhǔn)確率和召回率這兩個(gè)指標(biāo)來衡量推薦算法的準(zhǔn)確性,而平均漢明距離則用于衡量推薦列表的多樣性.圖2表示這3種指標(biāo)隨著η 增大的變化情況.可以看出準(zhǔn)確率和召回率基本上都呈現(xiàn)出一種先上升后下降的趨勢(shì),而多樣性基本上呈下降趨勢(shì),也就是說,只采用部分近期數(shù)據(jù)就可以得到一個(gè)更準(zhǔn)確且多樣的推薦結(jié)果.從圖2中可以看出,只需要考慮14/45≈31.11%的用戶近期記錄,所得到的推薦準(zhǔn)確度可以平均提升4.22%,而多樣性可以提升13.74%.由此可見,為了生成一個(gè)更好的推薦結(jié)果而采用用戶-產(chǎn)品二部分網(wǎng)絡(luò)中的全部數(shù)據(jù)是沒有必要的.這一現(xiàn)象產(chǎn)生的原因可能在于用戶的興趣偏好是隨時(shí)間動(dòng)態(tài)變化的,考慮用戶的早期行為會(huì)影響推薦結(jié)果的表現(xiàn)性.由于最初訓(xùn)練集中的數(shù)據(jù)量太少,不能準(zhǔn)確地反映出用戶的興趣偏好.然而,當(dāng)時(shí)間窗口不斷增大的時(shí)候,已知的數(shù)據(jù)量越多,反而會(huì)干擾推薦的效果,也就是說,只考慮部分用戶近期數(shù)據(jù)反而能夠得到一個(gè)更好的推薦結(jié)果.

        2.3 不同活躍程度的用戶準(zhǔn)確性

        用戶的活躍程度可以用他們的度來衡量.數(shù)據(jù)集Netflix 中用戶的度分布情況近似呈現(xiàn)冪率形式[2],也就是說,非?;钴S的用戶數(shù)量很少,而絕大部分都是度小的用戶.為了研究本文提出的算法對(duì)不同活躍程度的用戶是否都適用,按照用戶的度ku將他們分為5 類,分別為1~10,11~20,21~50,51~100和超過100.圖3(見下頁)表示上述這5類用戶的準(zhǔn)確率隨著η 增大的變化情況.從實(shí)驗(yàn)結(jié)果可以看出,對(duì)于不同活躍程度的用戶來說,他們的準(zhǔn)確率隨著η 的增大基本上呈現(xiàn)出一種先上升后下降的趨勢(shì),也就是說,對(duì)于不同活躍程度的用戶來說,本文提出的改進(jìn)混合推薦算法都能夠提高算法的準(zhǔn)確性.特別是對(duì)于新用戶來說,這里假設(shè)度不超過10的用戶為新用戶,只需要考慮31.11%的用戶近期記錄,準(zhǔn)確率就可以提高11%.因此,從提高推薦準(zhǔn)確性的角度來看,改進(jìn)的混合推薦算法能夠適用于不同活躍程度的用戶.

        圖3 不同活躍程度用戶準(zhǔn)確率的變化情況Fig.3 Precision on users with different activeness

        3 總結(jié)與展望

        基于熱傳導(dǎo)和物質(zhì)擴(kuò)散原理的混合推薦算法[13]能夠同時(shí)提高推薦列表的準(zhǔn)確性和多樣性.經(jīng)典的方法是采用用戶-產(chǎn)品二部分網(wǎng)絡(luò)中的全部數(shù)據(jù),卻忽略了時(shí)間窗口對(duì)于推薦算法效果的影響.因此,本文著重研究了時(shí)間窗口對(duì)于混合推薦算法的影響,并且提出了一種基于有限時(shí)間窗口的改進(jìn)混合推薦算法,能夠同時(shí)提高推薦結(jié)果的準(zhǔn)確性和多樣性.首先采用標(biāo)準(zhǔn)數(shù)據(jù)集Netflix,通過逐漸擴(kuò)大時(shí)間窗口的方法生成一系列訓(xùn)練集,然后將每個(gè)訓(xùn)練集作為已知的數(shù)據(jù)來預(yù)測(cè)用戶的興趣偏好,最后利用測(cè)試集來檢驗(yàn)推薦算法的效果.在Netflix數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,只采用31.11%的近期數(shù)據(jù),所得到的推薦結(jié)果準(zhǔn)確性可以平均提升4.22%,而多樣性可以提升13.74%.另外還發(fā)現(xiàn)新提出的算法適用于不同活躍程度的用戶.本文的工作在理論和實(shí)踐上都具有一定的價(jià)值.在理論上,本文的方法對(duì)于深入理解時(shí)間窗口對(duì)混合推薦算法的影響很有幫助;在實(shí)踐中,能夠降低大規(guī)模數(shù)據(jù)所引發(fā)的計(jì)算復(fù)雜性問題,并且減少數(shù)據(jù)存儲(chǔ)空間.然而,對(duì)于不同的數(shù)據(jù)集如何找到合適的時(shí)間窗口,以及如何建立一個(gè)理論模型來解釋為何采用部分近期數(shù)據(jù)所得到的推薦效果更好,是作者未來的研究方向.

        [1]劉建國(guó),周濤,汪秉宏.個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展,2009,19(1):1-15.

        [2]Lv L Y,Medo M,Yeung C H,et al.Recommender systems[J].Physics Reports,2012,519(1):1-49.

        [3]陳華,李仁發(fā),劉鈺峰,等.個(gè)性化搜索引擎推薦算法研究[J].計(jì)算機(jī)應(yīng)用研究,2010,27(1):48-50.

        [4]石珂瑞,劉建國(guó).二階有向相似性對(duì)協(xié)同過濾算法的影響[J].上海理工大學(xué)學(xué)報(bào),2014,36(1):31-33.

        [5]李霞,李守偉.面向個(gè)性化推薦系統(tǒng)的二分網(wǎng)絡(luò)協(xié)同過濾算法研究[J].計(jì)算機(jī)應(yīng)用研究,2013,30(7):1946-1949.

        [6]Ricci F,Nguyen Q N.Acquiring and revising preferences in a critique-based mobile recommender system[J].IEEE,Intelligent Systems,2007,22(3):22-29.

        [7]Zhang Y C,Blattner M,Yu Y K.Heat conduction process on community networks as a recommendation model[J].Physical Review Letters,2007,99(15):154301.

        [8]Guo Q,Leng R,Shi K,et al.Heat conduction information filtering via local information of bipartite networks[J].The European Physical Journal B,2012,85(8):1-8.

        [9]Liu J G,Zhou T,Guo Q.Information filtering via biased heat conduction[J].Physical Review E,2011,84(3):037101.

        [10]Zhou T,Ren J,Medo M,et al.Bipartite network projection and personal recommendation[J].Physical Review E,2007,76(4):046115.

        [11]Liu J G,Zhou T,Wang B H,et al.Effects of user’s tastes on personalized recommendation [J].International Journal of Modern Physics C,2009,20(12):1925-1932.

        [12]張子柯.社會(huì)化標(biāo)簽系統(tǒng)的結(jié)構(gòu)、演化和功能[J].上海理工大學(xué)學(xué)報(bào),2011,33(5):444-451.

        [13]Zhou T,Kuscsik Z,Liu J G,et al.Solving the apparent diversity-accuracy dilemma of recommender systems[J].Proceedings of the National Academy of Sciences of the United States of America,2010,107(10):4511-4515.

        [14]Zeng A,Yeung C H,Shang M S,et al.The reinforcing influence of recommendations on global diversification[J].Europhysics Letters,2012,97(1):18005.

        [15]Liu J,Deng G S.Link prediction in a user-object network based on time-weighted resource allocation[J].Physica A:Statistical Mechanics and its Applications,2009,388(17):3643-3650.

        [16]Zhang Q M,Zeng A,Shang M S.Extracting the information backbone in online system[J].PloS One,2013,8(5):e62624.

        [17]朱郁筱,呂琳媛.推薦系統(tǒng)評(píng)價(jià)指標(biāo)綜述[J].電子科技大學(xué)學(xué)報(bào),2012,41(2):163-175.

        猜你喜歡
        列表準(zhǔn)確性準(zhǔn)確率
        巧用列表來推理
        淺談如何提高建筑安裝工程預(yù)算的準(zhǔn)確性
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        學(xué)習(xí)運(yùn)用列表法
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        擴(kuò)列吧
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        美劇翻譯中的“神翻譯”:準(zhǔn)確性和趣味性的平衡
        論股票價(jià)格準(zhǔn)確性的社會(huì)效益
        最新系列国产专区|亚洲国产| 丰满少妇按摩被扣逼高潮| 狼人伊人影院在线观看国产| 国产亚洲精品熟女国产成人| 亚洲av无码乱码在线观看富二代| 亚洲国产成人久久三区| 亚洲成在人网站av天堂| 日日碰狠狠躁久久躁| 成年视频国产免费观看| 国产一区二区精品久久| 九九99无码精品视频在线观看| 欧美国产亚洲日韩在线二区| 欧美性一区| 蜜臀av中文人妻系列| 亚洲情精品中文字幕99在线| 久久精品一区二区三区夜夜| 精品人妻在线一区二区三区在线| 国产高潮流白浆视频在线观看| 人妻无码一区二区三区免费| 99国内精品久久久久久久| 久久精品人妻一区二区三区| 亚洲国产成人手机在线观看| 国产精品nv在线观看| 亚洲综合偷拍一区二区| 国产熟女一区二区三区不卡| 亚洲av一二三区成人影片| 国产性生交xxxxx无码| 欧美亚洲精品一区二区| 亚洲AV成人综合五月天在线观看| 五十路一区二区中文字幕| www夜片内射视频在观看视频| 久久精品国产精品| 中文字幕精品无码一区二区| 欧美h久免费女| 在线亚洲妇色中文色综合| 99久久免费看精品国产一| 老少配老妇老熟女中文普通话| 亚洲av色无码乱码在线观看| 久久精品国产亚洲Av无码偷窍| 一区二区三区一片黄理论片 | 色欲av伊人久久大香线蕉影院 |