亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        差分隱私保護下一種改進的協(xié)同過濾推薦算法

        2016-05-14 11:05:19王彤黃樹斌
        網(wǎng)絡空間安全 2016年4期
        關鍵詞:協(xié)同過濾安全

        王彤 黃樹斌

        【 摘 要 】 協(xié)同過濾(CF)是推薦系統(tǒng)中最常用的算法,然而傳統(tǒng)的構建在協(xié)同過濾上的推薦系統(tǒng)很難提供一個嚴格并有數(shù)學證明的隱私保證。近期研究表明,攻擊者可以通過觀察用戶的推薦結果,推測出用戶的評分記錄,這將對用戶的隱私造成極大的威脅。論文在應用差分隱私保護技術的隱私保持協(xié)同過濾算法的基礎上,對用戶與物品進行裁剪,從而大量減少了噪聲的引入,在保證隱私的前提下提升了算法準確度。同時,論文提出的算法改進方法具有較廣的適用性,能夠與已有的研究能夠很好的結合。

        【 關鍵詞 】 協(xié)同過濾(CF);差分隱私保護;安全

        【 Abstract 】 Collaborative Filtering (CF) is the most common algorithm in recommender system. However, the traditional approaches can hardly provide a rigid and provable privacy guarantee for recommender system. Recent research revealed that by observing the public output of the CF, the adversary could infer the historical ratings of the particular user, which will cause a great threat to user privacy. This paper address the privacy issue in CF by cutting the data, which is constructed on the basis of the notion of differential privacy. As a result, this method would reduce the large number of noise introduced by differential privacy algorithm, and increase the accuracy of the algorithm with privacy preserving. Furthermore, our method can easily apply in the existing research.

        【 Keywords 】 collaborative filtering; differential privacy; security

        1 引言

        Ramakrishnan等人首次提出在推薦系統(tǒng)中的隱私問題,Narayanan等人通過聯(lián)合Netflix與IMDB的發(fā)布數(shù)據(jù)集成功的標識出部分戶。Calandrino等人通過觀察推薦系統(tǒng)一段時間內(nèi)推薦結果的變化,結合背景知識推斷出某用戶的歷史評分與行為。

        差分隱私保護是一種在滿足差分隱私的條件下保證發(fā)布數(shù)據(jù)或查詢結果的精確性的,有著嚴格數(shù)學證明的理論,能夠有效的保護個人隱私。在通常情況下,由于推薦系統(tǒng)中的查詢往往具有較高的敏感度,所以應用差分隱私技術會引入大量的噪聲,這會導致在保證隱私的同時會有較大的精度損失。

        很多學者就差分隱私在推薦系統(tǒng)中的應用提出不同的方法,在隱私保護與推薦的準確性方面均取得了不錯的效果,但仍有許多局限性,它們主要表現(xiàn)在兩個方面。

        (1)差分隱私技術會引入噪聲,由于推薦系統(tǒng)中的查詢往往具有較高的敏感度,所以應用差分隱私技術會引入大量的噪聲,導致數(shù)據(jù)可用性較差。為了減少大量噪聲的引入,現(xiàn)有研究往往采用各自定義的局部敏感度進行計算,但這使得推薦算法僅在特定應用場景有較好的效果。

        (2)現(xiàn)有研究的各種隱私保護推薦算法對原有算法進行了大量的改進,但算法的大量修改使得其很難利用傳統(tǒng)推薦領域已有研究成果。

        本文在應用差分隱私保護技術的隱私保持協(xié)同過濾算法的基礎上,根據(jù)隱私保護程度對用戶與物品進行裁剪,從而大量減少了噪聲的引入。同時,本文提出的算法改進方法具有較廣的適用性,能夠與已有的研究能夠很好的結合。

        2 改進的隱私保持協(xié)同過濾推薦算法

        在本部分,我們將提出改進的隱私保持協(xié)同過濾推薦算法(IPriCF)來解決基于近鄰的協(xié)同過濾推薦算法中的隱私問題,在后面的部分,我們將首先介紹算法的總體思想,然后對我們的算法進行詳細的描述。

        2.1 算法思想

        差分隱私的基本思想是對原始數(shù)據(jù)的轉(zhuǎn)換或?qū)y(tǒng)計結果添加噪音來達到隱私保護的效果,即保證給出總體或模糊的信息,但是不泄露個體的信息。推薦系統(tǒng)中的查詢往往具有較高的敏感度,所以應用差分隱私技術會引入大量的噪聲,導致數(shù)據(jù)可用性較差。假如我們以余弦相似度(COS)作為協(xié)同過濾算法中的相似度度量,一個典型的情況是兩個用戶僅僅有一個同時評分的物品,最壞的情況下,刪除這條記錄后他們的余弦相似度從1降低到0。對原數(shù)據(jù)加入滿足Lap(1/ε)分布的噪聲后,原數(shù)據(jù)的可用性將急劇降低。

        定義1 (全局敏感度)對于任意一個函數(shù)f:D→Rd,函數(shù)f的全局敏感度為:

        Δf = || f(D) -f(D') ||

        由定義1可知,對于函數(shù)f每條記錄的敏感度是不同的,而直接影響噪聲引入數(shù)量的全局敏感度Δf 取其中最大的值,所以,我們會對原始數(shù)據(jù)進行剪裁,裁剪掉那些“特殊”并且敏感度很大的值,降低查詢的全局敏感度,從而減少噪聲的引入。

        2.2 算法描述

        根據(jù)以上思想,改進的隱私保持協(xié)同過濾推薦算法描述如下:

        算法1 IPriCF

        輸入:用戶ua對物品ti的真實評分rai ;輸出:保證用戶隱私的預測評分ai 。

        1)數(shù)據(jù)裁剪:(1)用戶評分的數(shù)量位于區(qū)間[α,β];(2)1.2 物品被評分的次數(shù)應不小于γ。

        2)隱私鄰居選擇:(1)添加Laplace噪聲,計算相似度度矩陣;(2)選擇鄰居:根據(jù)生成相似度矩陣選擇k個鄰居。

        3)計算預測評分ai 。

        本算法中,步驟3為標準的CF操作,我們將重點討論數(shù)據(jù)裁剪與隱私鄰居選擇部分。

        數(shù)據(jù)剪裁分為兩個階段:第一階段生成用戶評分數(shù)的直方圖統(tǒng)計,在本階段中我們篩選出評分數(shù)量不屬于區(qū)間[α,β] 的用戶,然后在原始數(shù)據(jù)集中刪除與該用戶有關的所有評分信息;第二階段生成物品被評分數(shù)的直方圖統(tǒng)計,在本階段中我們篩選出被評分數(shù)量小于γ的用戶,然后在原始數(shù)據(jù)集中刪除與該物品有關的所有評分信息。

        為了使被裁剪的用戶依然能得到推薦,同時又要保證其隱私,我們在計算相似度時僅與未被剪裁的用戶計算相似度,并加入Laplace噪聲;對于被裁剪用戶之間,他們的相似度為0。需要注意的是,區(qū)別于被裁剪的用戶,在計算相似度的過程中,我們將不考慮關于被裁剪物品的評分記錄。

        鄰居選擇部分與標準的KNN協(xié)同過濾算法類似,我們設置參數(shù)k表示參與用戶推薦的相似用戶個數(shù)。

        3 實驗與評價

        3.1 實驗數(shù)據(jù)集

        實驗數(shù)據(jù)集采用的是推薦領域中公認的MovieLen數(shù)據(jù)集,包含943個用戶對1682部電影共10萬條評分,每個用戶的評分數(shù)不小于20,評分為1-5。

        圖1為用戶評分統(tǒng)計圖與物品被評分統(tǒng)計圖,從圖中可以看出,用戶評分次數(shù)集中在 [20, 400]這一區(qū)間,而大于400次評分的用戶僅占1.60%,物品被評分數(shù)集中在[1, 300]這一區(qū)間,僅被評分過一次的物品占8.38%。

        3.2 評價標準

        本文采用推薦領域中公認的均方根誤差(RMSE)作為評價標準:

        RMSE=

        其中r是用戶ua對物品ti的真實評分,ai是預測評分,T表示訓練數(shù)據(jù)集,|T|表示訓練數(shù)據(jù)集的大小。顯然,較低的RMSE值意味著較高的預測準度。

        3.3 實驗結果與分析

        將原始數(shù)據(jù)集按 80% / 20% 比例隨機分為訓練數(shù)據(jù)集與測試數(shù)據(jù)集,按相同方法分為5組互不相關訓練數(shù)據(jù)與測試數(shù)據(jù),我們分別在數(shù)據(jù)集上應用基于近鄰的協(xié)同過濾算法,典型的使用差分隱私保護的協(xié)同過濾推薦算法與本文提出的算法,實驗的結果是在這五組數(shù)據(jù)集上的結果取均值。

        在差分隱私保護中,隱私保護預算是決定隱私保護水平的一個重要指標。越小的代表著越高的隱私保護水平,同時會引入更多的噪聲。在實驗中,我們將隱私保護預算的范圍設置為[0.1,1],將k設置為20,參考上圖統(tǒng)計信息,我們設置α=20,β=400,γ=2,在以上參數(shù)設置下我們將并計算在不同隱私保護水平下算法的表現(xiàn)。

        圖 2 為相似度度量分別為余弦相似度(COS)與皮爾森相似度(PCC),基礎算法為基于物品的協(xié)同過濾算法的表現(xiàn)。從上圖2可以看出,隨著隱私保護預算的增加,數(shù)據(jù)的可用性增大。此外,在<0.5時,隨著的增加,RMSE值急劇下降,這表明算法要保證一個較高的隱私保護水平將帶損失較大的數(shù)據(jù)可用性,在≥0.5時,算法結果變化趨于平緩,這表明算法在一般的隱私保護需求下能在數(shù)據(jù)可用性與隱私保護水平中取得一個良好的折衷。

        4 結束語

        隱私保護是推薦系統(tǒng)中一個非常具有挑戰(zhàn)的問題:一方面,為了提供更好的用戶體驗,需要不斷提升推薦的準確度;另一方面,精準的推薦會暴露用戶的隱私信息,這會導致用戶失去對推薦系統(tǒng)的信任。所以,提升推薦系統(tǒng)的準確度與為用戶提供隱私保證同等重要。差分隱私保護技術有著嚴格的數(shù)學證明,能夠保證其處理結果的可信度等優(yōu)點。本文在應用差分隱私保護技術的隱私保持協(xié)同過濾算法的基礎上,根據(jù)隱私保護程度對用戶與物品進行裁剪,從而大量減少了噪聲的引入。同典型的差分隱私保護下的協(xié)同過濾算法相比,該算法在保證用戶隱私的前提下提升了推薦的準確度。同類似的改進型研究相比,該算法與已有的研究成果能較好的結合,同時能夠很好的利用傳統(tǒng)推薦領域的研究成果。

        在后續(xù)研究中,將研究數(shù)據(jù)剪裁程度通隱私保護預算與算法推薦準確度之間的關系,以進一步的提升算法的準確度。

        參考文獻

        [1] N.Ramakrishnan, B.J. Keller, B.J. Mirza, A.Y. Grama, G. Karypis,Privacy risks in recommender systems, IEEE Internet Computing 5 (6) (2001) 54-62.

        [2] A.Narayanan, V. Shmatikov, How to break anonymity of the netflix prize dataset, CoRR abs/ cs/0610105.

        [3] Narayanan, V. Shmatikov, Robust de-anonymization of large sparse datasets, in: Proceedings of the 2008 IEEE Symposium on Security and Privacy, SP08, IEEE Computer Society, Washington, DC, USA, 2008, pp. 111-125.

        [4] J.A. Calandrino, A. Kilzer, A. Narayanan, E.W. Felten, V. Shmatikov, ‘‘You might also like: privacy risks of collaborative filtering, in: Proceedings of the 2011 IEEE Symposium on Security and Privacy, SP11, IEEE Computer Society, Washington, DC, USA, 2011, pp. 231-246.

        [5] Dwork, Differential privacy, in: ICALP06: Proceedings of the 33rd Inter- national Conference on Automata, Languages and Programming, Springer- Verlag, Berlin, Heidelberg, 2006, pp. 1-12.

        [6] G.Adomavicius, A.Tuzhilin, Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions, IEEE Transactions on Knowledge and Data Engineering 17 (6) (2005) 734-749.

        作者簡介:

        王彤(1990-),男,四川南充人,畢業(yè)于重慶大學,重慶大學讀研,碩士;主要研究方向和關注領域:推薦系統(tǒng)、隱私保護。

        黃樹斌(1991-),男,江西宜春人,畢業(yè)于重慶大學,重慶大學讀研,碩士;主要研究方向和關注領域:社交網(wǎng)絡、隱私保護。

        猜你喜歡
        協(xié)同過濾安全
        圖書推薦算法綜述
        改進的協(xié)同過濾推薦算法
        基于鏈式存儲結構的協(xié)同過濾推薦算法設計與實現(xiàn)
        軟件導刊(2016年11期)2016-12-22 21:40:40
        基于相似傳播和情景聚類的網(wǎng)絡協(xié)同過濾推薦算法研究
        基于協(xié)同過濾算法的個性化圖書推薦系統(tǒng)研究
        混合推薦算法在電影推薦中的研究與評述
        96精品在线| 国产精品538一区二区在线| 老熟妇仑乱视频一区二区| 欧美在线综合| 精品国产一品二品三品| 媚药丝袜美女高清一二区| 亚洲av无码专区亚洲av伊甸园| 中文在线√天堂| 伊人不卡中文字幕在线一区二区| 日本韩国亚洲三级在线| 亚洲乱码av中文一区二区| 一区二区三区无码高清视频| 天天躁夜夜躁狠狠躁2021| 好男人视频在线视频| 日本色偷偷| 日本午夜a级理论片在线播放| 亚洲最大成人网站| 久久精品国产www456c0m| 亚洲欧洲久久久精品| 制服丝袜天堂国产日韩| 国产成人av一区二区三区| 精品国产一区二区三区av| 最新系列国产专区|亚洲国产| 久久精品中文字幕第23页| 亚洲成av在线免费不卡| 美女主播福利一区二区| 内射少妇36p亚洲区| 久久青青草原亚洲AV无码麻豆| 久久99久久久精品人妻一区二区 | 日韩av在线不卡一区二区| 国产丝袜美女一区二区三区| 亚洲男同志gay 片可播放| 久久久亚洲精品免费视频| 熟女肥臀白浆一区二区| 女人让男人桶爽30分钟| 2021年最新久久久视精品爱| 一区二区三区高清视频在线| 欧美老妇多毛xxxxx极瑞视频| 亚洲AV色无码乱码在线观看| 国产一区二区三区四区色| 国产一区二区视频在线免费观看|