亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        本地差分隱私保護及其應用*

        2018-07-05 10:47:44高志強崔翛龍
        計算機工程與科學 2018年6期
        關鍵詞:用戶模型研究

        高志強,崔翛龍,周 沙,袁 琛

        (武警工程大學烏魯木齊校區(qū),新疆 烏魯木齊 830049)

        1 引言

        隨著互聯(lián)網(wǎng)、云計算技術應用領域的不斷擴張和大數(shù)據(jù)分析技術的飛速發(fā)展,海量數(shù)據(jù)在個人、企業(yè)、研究機構(gòu)等源源不斷地產(chǎn)生。無論是互聯(lián)網(wǎng)巨頭還是各種社會組織越來越鐘情于收集和分析用戶數(shù)據(jù)[1]。例如,瀏覽器(Browser)和移動應用軟件(Mobile APP)無時無刻地通過收集用戶終端數(shù)據(jù)來訓練機器學習模型,分析用戶行為模式;社會服務類企業(yè)會收集用戶的生活統(tǒng)計數(shù)據(jù)來制定相應個性化服務方案[2 - 4]。收集用戶數(shù)據(jù)是把雙刃劍,第三方直接收集用戶信息不利于保護用戶隱私,然而不準確地收集用戶信息,相應的服務質(zhì)量就很難得到反饋提升,這樣也不利于公共利益。因此,在數(shù)據(jù)收集階段引入隱私保護機制來降低并控制隱私泄露的風險,平衡隱私保護與數(shù)據(jù)可用性之間的關系,解決和完善針對不犧牲用戶個人隱私的大數(shù)據(jù)分析問題和機制是極具理論和實際意義的。

        從1977年Dalenius[5]提出的隱私控制的定義,到經(jīng)典數(shù)據(jù)脫敏方法k-anonymity[6]及其改進模型[7 - 11]都存在著以下缺陷:(1)集中存儲模型下,非可信數(shù)據(jù)管理者使用戶無法直接控制個人隱私數(shù)據(jù)。(2)由于背景知識無法明確界定,基于等價類的隱私保護模型被迫隨著新攻擊技術的出現(xiàn)而不斷被動調(diào)整。(3)無法提供嚴格且有效的數(shù)學理論來證明其隱私保護水平,無法定量分析隱私泄露風險。值得重視的是,即使被嚴格處理的數(shù)據(jù)也可能泄露用戶隱私,被去匿名化后的Netflix Prize競賽歷史數(shù)據(jù)信息[2,12],便可以通過數(shù)據(jù)關聯(lián)(Linkage)推斷出用戶具體隱私信息。

        盡管早在2006年微軟研究院的科學家Dwork[13 - 17]提出了嚴格可證明的差分隱私保護技術DP(Differential Privacy),但由于仍然需要第三方來管理用戶隱私數(shù)據(jù),差分隱私一直是停留在理論研究層面的隱私定義,未被大規(guī)模地應用于實際產(chǎn)品中。因此,為平衡“個人隱私”和“大數(shù)據(jù)分析”關系,滿足差分隱私保護特性,提高保護機制的隱私性和可用性,眾包模式下的本地差分隱私保護LDP(Local Differential Privacy)[2,12,18]的概念應運而生。LDP可以在不需要信任第三方數(shù)據(jù)管理者的情況下,直接在本地將隱私數(shù)據(jù)加噪來保護個人信息不被泄露,同時從宏觀角度保證數(shù)據(jù)收集者可正確地推斷出群體統(tǒng)計信息。

        目前,LDP技術已被廣泛應用于集值型流式頻繁項集挖掘的Heavy Hitters估計、眾包模式下字符串邊緣頻率估計和聯(lián)合概率估計、針對智能設備的機器學習等領域。值得關注的是,2014年,谷歌工程師Erlingsson等人[12]將基于隨機應答和BloomFilter的RAPPOR(Randomized Aggregatable Privacy-Preserving Ordinal Response)技術成功應用于Google Chrome中,在本地通過差分隱私機制收集用戶數(shù)據(jù),首次揭開了LDP技術大規(guī)模應用的面紗。隨后,F(xiàn)anti等人[2]提出加強版的RAPPOR,實現(xiàn)了數(shù)據(jù)字典未知情況下的本地學習多變量聯(lián)合概率分布估計。另外,2016年蘋果全球開發(fā)者大會WWDC2016(WorldWide Developers Conference)[19]上,蘋果軟件工程高級副總裁Federighi在Keynote中宣布IOS10的QuickType輸入法、emoji建議、spotlight全局搜索和備忘錄關鍵詞標記,將采用“差分隱私保護技術”在設備終端本地收集用戶數(shù)據(jù),并將隱私數(shù)據(jù)分析限制在用戶設備上,并不會將數(shù)據(jù)上傳到蘋果服務器。隨后,2017年6月,圣何塞McEnery會議中心的蘋果開發(fā)者大會(WWDC2017)[20]發(fā)布了面向開發(fā)者的機器學習API——CoreML,繼續(xù)強調(diào)用戶數(shù)據(jù)隱私的重要性,保證機器學習的數(shù)據(jù)處理在個人設備上完成,也就是說,個人數(shù)據(jù)不必離開用戶設備,用戶信息將不被發(fā)送到云端,因而用戶也能更好地獲得隱私保護權(quán)益。

        因此,作為差分隱私研究的重要分支,LDP技術正在從理論研究走向大規(guī)模實際業(yè)界產(chǎn)品應用,并逐漸成為差分隱私保護領域的一個研究熱點。近幾年來,LDP技術及其在各領域研究的結(jié)合使得大量新的成果不斷涌現(xiàn)。本文在總結(jié)已有研究成果的基礎上,對LDP理論發(fā)展及其在數(shù)據(jù)收集與數(shù)據(jù)分析領域的應用進行綜述,希望能夠為該領域的研究者提供有價值的參考信息。

        2 預備知識

        2.1 差分隱私定義下的數(shù)據(jù)模型

        差分隱私是不依賴于攻擊者背景知識的具有嚴格數(shù)學理論支撐的隱私定義,結(jié)合其應用場景及針對數(shù)據(jù)處理和收集方式的不同,主要存在兩種數(shù)據(jù)分布模型:集中式模型,又稱為可信管理者模型(Trusted Curator)[3]和本地模型(Local Model)[1],如圖1所示。

        Figure 1 Data model in differential privacy圖1 差分隱私定義下的數(shù)據(jù)模型

        傳統(tǒng)的集中式模型基于可信第三方,用戶終端與數(shù)據(jù)收集者被視為一個數(shù)據(jù)收集與分析的整體,而數(shù)據(jù)服務器(云端)直接存儲未處理的原始用戶隱私數(shù)據(jù),經(jīng)過隱私處理(如加噪)等方式后統(tǒng)一對外發(fā)布。同時,集中式模型下又可以分為交互式和非交互式框架,目前,針對集中式差分隱私保護模型已有大量的研究成果[13,17,21 - 24]。Roth等人[21]提出了交互式數(shù)據(jù)發(fā)布的中位數(shù)機制(Median),能夠在相同預算下提供更多數(shù)量的查詢。Xu等人[22]提出了一種基于k-d樹的直方圖發(fā)布算法DPCube,當參數(shù)(頻數(shù)分布緊密度閾值、空間分割次數(shù))的取值適當時,DPCube算法在查詢數(shù)量和查詢誤差等方面具有很好的性能。此外,Engel等人[23]提出了小波變換方法(Privelet),Hay等人[24]提出了層次查詢方法,然而,這些針對差分隱私的數(shù)據(jù)發(fā)布和分析技術都基于可信管理者模型數(shù)據(jù)分布模型,集中式數(shù)據(jù)管理不可避免地面臨著巨大的隱私安全泄露風險,嚴重制約著隱私保護技術的發(fā)展。

        在眾包模式下的分布式本地模型中,數(shù)據(jù)收集者(Data Collector)不可信任,數(shù)據(jù)服務器(云端)只能收到用戶加噪的數(shù)據(jù),也就是說,數(shù)據(jù)收集者根本不可能收集到原始數(shù)據(jù)。其中,用戶在向數(shù)據(jù)收集者發(fā)送個人數(shù)據(jù)前,先在本地加入滿足差分隱私的噪聲擾動,最后數(shù)據(jù)收集者根據(jù)收集到的噪聲數(shù)據(jù),從統(tǒng)計學的角度近似估計出用戶群體的統(tǒng)計特性,而不是針對具體用戶個體進行統(tǒng)計特性推斷。其中,每個用戶只與數(shù)據(jù)收集者分享原始數(shù)據(jù)的加噪版本,由差分隱私保護的原理容易證明,無論本地隱私保護機制的加噪輸出如何,都不能確定性地分析出具體的某一條記錄來自于哪個用戶個體,這既保證了群體統(tǒng)計信息的相對準確性,又保護了個人精確的原始數(shù)據(jù),從而解決了用戶隱私數(shù)據(jù)被不可信第三方外包管理的癥結(jié)。

        目前,針對本地模型的隱私保護算法研究不斷涌現(xiàn),文獻[2]和文獻[12]基于隨機響應和BloomFilter,實現(xiàn)了用戶字符串的統(tǒng)計信息的收集和多次數(shù)據(jù)收集的長效隱私保護。文獻[3]結(jié)合本地隱私保護和集中式數(shù)據(jù)模式,提出具有高可用性和隱私保護性的混合模型BLENDER。文獻[1]從生成式對抗神經(jīng)網(wǎng)絡的角度,結(jié)合差分隱私保護機制產(chǎn)生內(nèi)部攻擊數(shù)據(jù),對協(xié)同式深度學習的安全性提出了挑戰(zhàn)。文獻[25]針對三星的智能移動終端的隱私數(shù)據(jù)收集問題,利用本地差分隱私保護機制構(gòu)建了準確高效的Harmony系統(tǒng),實現(xiàn)了支持LDP的統(tǒng)計分析與機器學習功能。綜上所述,基于本地模型的最新研究成果涉及多個新興領域,無論是基于統(tǒng)計分析的理論研究[18,26,27]還是產(chǎn)品實現(xiàn),都將LDP的研究推向一個前所未有的高度。

        2.2 本地差分隱私保護

        LDP技術是解決基于非可信第三方隱私數(shù)據(jù)收集的方法,其主要思想是保證收集者:(1)不能收集或擁有任何個人的精確信息;(2)可以推斷出用戶群體的泛化統(tǒng)計信息。具體來說,用戶在本地通過差分隱私技術來置亂原始數(shù)據(jù),然后再把加噪數(shù)據(jù)發(fā)送給收集者。這樣,LDP既保護了用戶隱私,也避免了收集者面臨的隱私數(shù)據(jù)治理的問題。本節(jié)將介紹差分隱私保護模型的兩種形式化定義及定理。

        定義1((ε,δ)-DP)[13]隨機算法A滿足(ε,δ)-DP,當且僅當所有鄰接數(shù)據(jù)庫D和D′只相差一條用戶記錄,對于算法A所有可能的輸出R?Range(A)滿足如下不等式:

        Pr(A(D)∈R)≤eεPr(A(D′)∈R)+δ

        (1)

        其中,ε為隱私預算,用來調(diào)節(jié)算法A輸出結(jié)果的隱私保護程度,適用于集中式差分隱私模型和本地差分隱私模型。

        定義2((ε,δ)-LDP)[18]隨機算法A滿足(ε,δ)-LDP,當且僅當所有用戶端數(shù)據(jù)對x1和x2,對于算法A所有可能的輸出R?Range(A)滿足不等式:

        Pr(A(x1)∈R)≤eεPr(A(x2)∈R)+δ

        (2)

        當δ=0時,式(2)成為ε-LDP。直觀地說,不管用戶端數(shù)據(jù)的改變量,數(shù)據(jù)收集者關于接收到用戶發(fā)送數(shù)據(jù)的背景知識改變不大。

        兩種差分隱私保護模型的主要區(qū)別如表1所示,二者最重要的差別在于加入噪聲擾動的時機不同。在本地模型中,數(shù)據(jù)在發(fā)送給收集者之前進行隱私擾動,而集中式模型先進行原始數(shù)據(jù)收集,后進行隱私處理。另外,在本地模型中,D代表一個用戶的數(shù)據(jù),D′代表同一用戶依概率改變后的數(shù)據(jù)。

        Table 1 Difference of the two differential privacy models表1 兩種差分隱私模型的差異

        而集中式模型的D代表所有用戶的數(shù)據(jù),D′代表除去有數(shù)據(jù)變化用戶的所有用戶數(shù)據(jù)。

        在針對隱私數(shù)據(jù)分析的本地模型中,每個本地用戶用隨機器Qi擾亂個人數(shù)據(jù)vi得到zi,數(shù)據(jù)收集者將其匯總得到s,最后進行數(shù)據(jù)分析。本地模型下的數(shù)據(jù)分析流程如圖2所示。

        Figure 2 Analysis process under local model圖2 本地模型下的數(shù)據(jù)分析流程

        差分隱私的序列組合特性是最常用的隱私預算ε分配策略(并行策略參見文獻[15])。

        定理1(Laplace機制)[17]函數(shù)f:D→Rd,敏感度為Δf,隨機算法A(D)=f(D)+Y滿足ε-DP,其中Y~Lap(Δf/ε)為隨機噪聲。

        Laplace機制經(jīng)常被用于本地模型中,常用于對數(shù)值型結(jié)果的隱私保護(指數(shù)機制、幾何機制參見文獻[15,16])。

        2.3 隨機應答

        隨機應答RR(Randomized Response)[28,29]是一種被用來保護敏感話題調(diào)查參與者隱私的技術,同時目前主流的本地差分隱私保護機制都是基于隨機應答策略的。具體應用場景為:每個人不是屬于組A就是組B,問題是在不能確定具體個人屬于哪組的前提下,估計組A中人數(shù)的比例。隨機應答給出的解決方案:隨機選取n個人,隨機設備(可以是拋硬幣、摸球模型)以概率p指向A,以(1-p)指向B。在每輪調(diào)查中,受訪者只需回答設備指向(調(diào)查者未知)的組別是否與其真正的組別一致(Yes或No),這樣便可以得到組A人數(shù)π的最大似然估計。其中,P(Xi=1)=πp+(1-π)(1-p),P(Xi=0)=(1-π)p+π(1-p),令n1、n-n1分別記為回答Yes和No的人數(shù),則似然估計為L=[πp+(1-π)(1-p)]n1[(1-π)p+π(1-p)]n-n1。易得,當p≠1/2時,π的最大似然估計為:

        通過RR技術,每個參與者都可以否認“Yes”,因為這個結(jié)果基于設備的概率性,這樣實現(xiàn)了針對個體的隱私保護。作為一種加強版本,參與者可以進行二次隨機應答。若隨機設備采用拋硬幣方式實現(xiàn),“Yes”的估計為2(Y-0.25),其中Y為“Yes”應答比例。重要的是,RR機制滿足差分隱私機制,不依賴于攻擊者的先驗知識,可以在數(shù)據(jù)收集中保護任一參與者的隱私,參與者可以擁有ε=ln(0.75/(1-0.75))=ln (3) 的隱私保護水平[2,12]。

        LDP模型最早由RR技術實現(xiàn),并應用于Google和Apple公司各自的產(chǎn)品中[2]?,F(xiàn)有基于RR技術的LDP機制在數(shù)據(jù)挖掘中具有一定的局限性,只適用于用戶數(shù)據(jù)類型為數(shù)值型或范圍型,而數(shù)據(jù)收集者的數(shù)據(jù)挖掘任務局限于基本統(tǒng)計,如計數(shù)或求中位值等。但是,RR技術及其改進模型在收集群體層面的統(tǒng)計數(shù)據(jù)而不泄露個體數(shù)據(jù)方面具有優(yōu)越性能,目前已成為新的研究熱點。

        3 主要研究方向

        目前針對LDP的研究方向主要涉及基于隨機應答與BloomFilter的編解碼方式研究、針對流式頻繁項集挖掘Heavy Hitters挖掘和針對智能終端的收集與機器學習等。

        3.1 針對LDP的隨機應答

        已經(jīng)應用于Google的Chrome瀏覽器的RAPPOR[12]是最早支持本地差分隱私的數(shù)據(jù)收集和眾包數(shù)據(jù)統(tǒng)計的通用技術,采用隨機應答策略和BloomFilter保證在研究用戶群體數(shù)據(jù)時不能窺探到個體的信息,實現(xiàn)了針對客戶端群體的類別、頻率、直方圖和字符串類型統(tǒng)計數(shù)據(jù)的隱私保護分析。RAPPOR應答被定義為比特位字符串,每一位都是對應用戶端特性報告的邏輯謂詞隨機應答,用來收集用戶群體的數(shù)值和序數(shù)值的統(tǒng)計,可以提供ln (3) 的差分隱私保護。

        算法1用戶端的RAPPOR算法

        輸入:用戶數(shù)據(jù)X,參數(shù)k(串長度),h(Hash個數(shù)),概率參數(shù)f、p、q。

        輸出:數(shù)據(jù)報告s。

        (1)信號處理。用h個哈希函數(shù)將X映射到大小為k的BloomFilterB上。

        (2)永久隨機響應(PRR)。每個X與BloomFilterB中的i生成二進制報告B′。

        (3)即時隨機響應(IRR)。分配一個大小為k的比特串s,初始化為0,依照概率參數(shù)設置s中的比特i。

        (4)報文。把收集的報告s發(fā)送到服務器。

        在算法1中,RAPPOR采用兩個滿足差分隱私的機制:永久和即時的隨機應答,不僅可以單獨調(diào)節(jié)隱私保護水平,而且BloomFilter可以增加額外的不確定性,不僅壓縮了報文大小,更增加了攻擊者的攻擊難度。如圖3所示,用戶數(shù)據(jù)為X=“Male”,BloomFilterB大小為k=8,哈希函數(shù)個數(shù)h=3,BloomFilterB產(chǎn)生永久隨機響應B′,每次數(shù)據(jù)收集(如每天),數(shù)據(jù)收集者得到即時隨機響應X′。由差分隱私保證,最厲害的攻擊者最終只能收集到X′,不能推理到X。因為BloomFilter中多個值映射為一個比特位,使針對用戶個人的攻擊更難實現(xiàn)。

        Figure 3 Life-cycle of the RAPPOR圖3 RAPPOR報文的生命周期

        RAPPOR在解碼過程中結(jié)合成熟的假設檢驗、最小二乘求解和LASSO(Least Absolute Shrinkage and Selection Operator)回歸[30]實現(xiàn)了針對字符串抽樣群體頻率的高可用解碼框架。然而,RAPPOR的兩個假設經(jīng)常限制其實際應用:(1)使用RAPPOR的數(shù)據(jù)收集者只能孤立地了解單一變量的分布。實際上,研究多個變量之間的關聯(lián)是更有意義的,比如,使用瀏覽器分析多個不相干的主頁瀏覽記錄或搜索URL與惡意軟件的安裝相關性關系。(2)數(shù)據(jù)收集者必須事先知道潛在字符串字典、安裝軟件的報告、名稱、hash值,然而這些是不可能作為先驗知識的。針對以上問題,對未知分布多變量關聯(lián)分析和學習未知頻率分布的用戶端字符串可以作為解決方案,同時,構(gòu)建候選字符串字典并應對大規(guī)模數(shù)據(jù)集的增加依然是制約算法效能的瓶頸,算法的并行化優(yōu)化和分布式集群擴展可以作為一個有意義的研究方向。

        3.2 基于LDP的流式頻繁項集挖掘

        頻繁項集挖掘是數(shù)據(jù)挖掘領域的一項重要技術,可用于關聯(lián)規(guī)則挖掘、用戶行為預測以及相關性分析。而流式頻繁項集挖掘主要解決top-k頻繁項集任務,現(xiàn)有支持隱私保護的方案中,大量的通信消耗、隱私預算的損耗與可用性的平衡一直是基于LDP的流式頻繁項集挖掘難點。針對集值數(shù)據(jù)(Set-Valued Data)上的流式頻繁項集挖掘(Heavy Hitter Mining)任務,卡塔爾大學的于挺教授團隊[31]在RAPPOR機制和Succinct Histgram的基礎上,提出的LDPMiner方法[4]將挖掘任務分成兩個子處理過程,如圖4所示。首先,Sampling SH算法完成對流式頻繁項的主成分識別工作,從噪聲數(shù)據(jù)中初步確定流式頻繁項的選值范圍,然后Sampling RAPPOR算法對前一過程的結(jié)果進行頻數(shù)估計上的調(diào)優(yōu)處理,得到相比單一處理過程更為精確的流式頻繁項結(jié)果。

        Figure 4 Framework of the LDPMiner圖4 LDPMiner的兩階段框架

        3.3 其他成果

        John等人[18]在2013年首先提出了Local Differential Privacy(1965年Warner提出的Random Response更早[28])。而蘋果的差分隱私技術著眼于整體又保護個體,是唯一一家將Differential Privacy作為標準大規(guī)模部署的公司,但不像Google的RAPPOR,其技術一直未開源。蘋果在WWDC2016、WWDC2017上倡導的Differetial Privacy和No User Profiling主要涉及三方面[19,20]:

        (1)局部抽樣:以某一頻率局部采集一部分用戶的數(shù)據(jù),而不是收集用戶的整體數(shù)據(jù);

        (2)Hash加密:用BloomFilter將用戶數(shù)據(jù)做Hash運算,實現(xiàn)在保護用戶隱私的前提下,得到用戶是否使用某些固定表達的特征;

        (3)噪聲擾動:在收集用戶數(shù)據(jù)前,先加入隨機噪聲,只要被注入的噪音抽樣是正態(tài)分布的,那么整體來看,這些噪音最終將相互抵消。

        這也給研究人員提供了避免在全局中暴露采樣信息的思路:無需建立User Profile,Group Profile的精度就足夠,只要數(shù)據(jù)量充足,即使只有加噪數(shù)據(jù),依然可以獲得群體趨勢的統(tǒng)計量??傊?,相比于效率低的傳統(tǒng)密碼學技術,蘋果、谷歌等公司不斷對本地差分隱私技術的商用,給我們對LDP技術的研究帶來很大的動力,也希望蘋果公司采用的相關技術細節(jié)可以早日開源,進一步推動LDP理論研究和實際應用。

        本地差分隱私在數(shù)據(jù)挖掘中的應用研究與差分隱私的理論發(fā)展密切相關。對基于LDP的主流算法的總結(jié)如表2所示。

        Table 2 Comparison among different LDP models表2 主流LDP算法的比較

        4 LDP的理論分析

        縱觀現(xiàn)有文獻的研究,LDP技術差分隱私理論分析主要涉及統(tǒng)計分析理論、差分隱私證明等。LDP的差分隱私證明是嚴格的,尤其基于隨機響應的本地隱私差分保護研究很廣泛。例如,可證明RAPPOR滿足差分隱私的定義。其中,永久隨機響應(PRR)保證了來自真值的加噪值保護隱私。

        證明S=s1,…,sk是RAPPOR產(chǎn)生的隨機報告,在已知用戶數(shù)據(jù)V的條件下,觀測任意S的概率,假設永久隨機響應B′是已知的。

        P(S=s|V=v)=

        P(S=s|B,B′,v)·P(B′|B,v)·P(B|v)=

        P(S=s|B′)·P(B′|B)·P(B|v)=

        P(S=s|B′)·P(B′|B)

        對于P(B′|B)相關概率如下:

        不失一般性,BloomFilter的比特位1,…,h,設置為,b*={b1=1,…,bh=1,bh+1=0,…,bk=0},

        (1)

        對于N個用戶報文,差分隱私考慮輸入只差一個記錄j(報告集D1和D2只差一個報告Sj),其他的在比值中約掉。

        為第n次數(shù)據(jù)收集,計算εn需要額外假設攻擊在從B′獲得信息的效能。N越大,ε∞越小。然而,基于隨機響應的差分隱私理論分析依然處于起步階段,更高級的數(shù)理統(tǒng)計分析技術(如多隨機變量相關性分析等)的應用將豐富本地差分隱私的理論研究。

        5 結(jié)束語

        隨著眾包模式的興起與大數(shù)據(jù)分析產(chǎn)業(yè)的推動,本地差分隱私近年來的研究在理論上不斷發(fā)展和完善,并在統(tǒng)計學、機器學習、數(shù)據(jù)挖掘、社交網(wǎng)絡等領域得到了初步應用。本文介紹了本地差分隱私保護的基礎理論,并著重介紹了主流LDP技術的數(shù)據(jù)收集與數(shù)據(jù)分析方法,最后從理論推導的角度對LDP技術進行分析。雖然LDP技術的研究和發(fā)展都較傳統(tǒng)差分隱私起步晚,仍是一個相對年輕的研究領域,但近年來其在互聯(lián)網(wǎng)領域的大規(guī)模應用給學界和產(chǎn)業(yè)界都帶來強大動力。對于本地差分隱私保護,在理論和應用上都還存在一些難點以及新的方向需要進一步深入研究,包括:

        (1)基于LDP的眾包機器學習。

        LDP技術源自于眾包模式,在支持用戶隱私保護的數(shù)據(jù)收集、支持隱私保護的機器學習、統(tǒng)計分析等領域具有很大的研究前景。國內(nèi)南京大學網(wǎng)絡合作與安全研究中心COSEC(Network Cooperation and Security Research Center)團隊在抗大數(shù)據(jù)分析的隱私保護方法的研究中,提出的一種適用于各種移動感知眾包任務的交易平臺便是一個很好的探索。然而,分布式條件下的數(shù)據(jù)同步與集中統(tǒng)計分析是一個不容忽視的技術難點。

        (2)抵抗新型攻擊的能力方面。

        文獻[1]中提出的具有隱私保護數(shù)據(jù)生成能力的生成式對抗網(wǎng)絡GAN(Generative Adversarial Networks),可以針對該網(wǎng)絡模型欺騙眾包模式下的其他同等用戶,這種新型攻擊方式需要研究者引起重視。因此,完善本地隱私保護的理論根基,理清隱私保護與攻擊就是矛和盾的關系,才能不斷完善和提高,使LDP技術提供最可靠的用戶隱私保護支持。

        (3)差分隱私下的大數(shù)據(jù)分析。

        隨著大數(shù)據(jù)技術的發(fā)展,越來越多的應用涉及到大數(shù)據(jù),社交網(wǎng)絡、微博、醫(yī)療信息、生命科學以及定位系統(tǒng)服務等。利用Hadoop、Spark、Storm等大數(shù)據(jù)分析平臺,實現(xiàn)支持差分隱私的數(shù)據(jù)挖掘和分析,尤其是基于RAPPOR技術的本地隱私保護算法在大規(guī)模數(shù)據(jù)字典的構(gòu)建與計算效能間的優(yōu)化亟待解決。

        總之,本地差分隱私保護是目前信息安全領域的研究熱點之一,也取得了豐富的研究成果。本文從理論和應用的角度對本地差分隱私保護目前的研究狀況進行綜述,希望能夠為該領域的研究者提供有價值的參考信息。

        [1] Hitaj B, Ateniese G, Pérez-Cruz F. Deep models under the GAN:Information leakage from collaborative deep learning[C]∥Proc of the 2017 ACM SIGSAC Conference on Computer and Communications Security, 2017:603-618.

        [3] Avent B, Korolova A, Zeber D, et al. Blender: Enabling local search with a hybrid differential privacy model[C]∥Proc of the 26th USENIX Security Symposium, 2017: 747-764.

        [4] Qin Z, Yang Y, Yu T, et al. Heavy hitter estimation over set-valued data with local differential privacy[C]∥Proc of the 2016 ACM SIGSAC Conference on Computer and Communications Security, 2016:192-203.

        [5] Dalenius T.Towards a methodology for statistical disclosure control[J].Statistic Tidskrift,1977,15(2):429-444.

        [6] Sweeney L.k-anonymity:A model for protecting privacy[J].International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems,2002,10(5):557-570.

        [7] Machanavajjhala A, Gehrke J, Kifer D, et al.l-diversity: Privacy beyondk-anonymity[C]∥ Proc of the 22nd International Conference onData Engineering, 2006: 24.

        [8] Li N, Li T, Venkatasubramanian S.t-closeness: Privacy beyondk-anonymity andl-diversity[C]∥Proc of IEEE 23rd International Conference on Data Engineering, 2007:106-115.

        [9] Wong R C W, Li J, Fu A W C, et al. (α,k)-anonymity: An enhancedk-anonymity model for privacy preserving data publishing[C]∥Proc of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2006:754-759.

        [10] Xiao X, Tao Y. M-invariance:Towards privacy preserving re-publication of dynamic datasets[C]∥Proc of the 2007 ACM SIGMOD International Conference on Management of Data,2007:689-700.

        [11] Zhao Y, Du M, Le J, et al.A survey on privacy preserving approaches in data publishing[C]∥Proc of the 1st International Workshop on Database Technology and Applications,2009:128-131.

        [12] Erlingsson U, Pihur V, Korolova A. RAPPOR:Randomized aggregatable privacy-preserving ordinal response[C]∥Proc of CCS’14,2014:1054-1067.

        [13] Dwork C. A firm foundation for private dataanalysis[J].Communications of the ACM,2011,54(1):86-95.

        [14] Dwork C,Krishnaram K,Frank M,et.al.Our data,ourselves:Privacy via distributed noise generation[C]∥Proc of the 25th Annual International Conference on the Theory and Applications of Cryptographic Techniques (EUROCRYPT), 2006:486-503.

        [15] Dwork C,Frank M,Kobbi N.Calibrating noise to sensitivity in private data analysis[C]∥Proc of the 3rd Theory of Cryptography Conference (TCC),2006:265-284.

        [16] Dwork C, Moni N,Toniann P.Differential privacy under continual observation[C]∥Proc of the 42nd ACM Symposium on Theory of Computing (STOC),2010:715-724.

        [17] Dwork C,Moni N,Toniann P.Pan-private streaming algorithms[C]∥Proc of the 1st Symposium on Innovations in Computer Science (ICS),2010:66-80.

        [18] John C,Michael I,Martin J.Local privacy and statistical minimax rates[C]∥Proc of the IEEE 54th Annual Symposium on Foundations of Computer Science (FOCS),2013:429-438.

        [19] Novac O,Novac M,Gordan C,et al.Comparative study of Google Android,Apple iOS and Microsoft Windows Phone mobile operating systems[C]∥Proc of International Conference on Engineering of Modern Electric Systems, 2017:154-159.

        [20] Slva M,Ramos T,Holanda M.Geographic information system with public participat on IoS system[C]∥Proc of the 12th Iberian Conference Information Systems and Technologies,2017:1-5.

        [21] Dwork C,Aaron R.The algorithmic foundations of differential privacy[J].Foundations and Trends in Theoretical Computer Science,2014,9(3-4):211-407.

        [22] Xu J. Differentially private histogram publication[J].The VLDB Journal,2013,22(6):797-822.

        [23] Engel D, Eibl G. Wavelet-based multiresolution smart meter privacy[J].IEEE Transactions on Smart Grid,2017,8(4):1710-1721.

        [24] Hay M, Machanavajjhala A, Miklau G, et al. Principled evaluation of differentially private algorithms using dpbench[C]∥Proc of the 2016 International Conference on Management of Data, 2016:139-154.

        [25] Nguyên T T, Xiao X, Yang Y, et al.Collecting and analyzing data from smart device users with local differential privacy[J].arXiv preprint arXiv:1606.05053,2016.

        [26] KairouzP,Bonawitz K,Ramage D.Discrete distribution estimation under local privacy[C]∥Proc of International Conference on Machine Learning (ICML),2016:2436-2444.

        [27] Peter K,Sewoong O,Pramod V.Extremal mechanisms for local differential privacy[J].ar Xivpreprint ar Xiv:1407.1338,2014.

        [28] Warner S L. Randomized response:A survey technique for eliminating evasive answer bias[J].Journal of the American Statistical Association,1965,60(309):63-69.

        [29] Wikipedia.Randomized response[EB/OL].[2017-06-13].http://en.wikipedia.org/wiki/Randomized_response.

        [30] Robert T.Regression shrinkage and selectionvia the Lasso[J].Journal of the Royal Statistical Society,1994,Series B,58:267-288.

        [31] Bassily R,Smith A.Local,private,efficient protocols for succinct histograms[C]∥Proc of the 47th ACM Symposium on Theory of Computing (STOC),2015:127-135.

        猜你喜歡
        用戶模型研究
        一半模型
        FMS與YBT相關性的實證研究
        遼代千人邑研究述論
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        視錯覺在平面設計中的應用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        關注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        關注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        国产精品黄色片在线观看| 久久久久夜夜夜精品国产| 精品淑女少妇av久久免费| 日韩久久一级毛片| 搡老女人老妇女老熟妇69| 麻豆精品一区二区三区| 精品国产性色无码av网站 | 男的和女的打扑克的视频| 亚洲夫妻性生活免费视频| 人人爽久久涩噜噜噜av| 亚洲色成人WWW永久在线观看| 蜜桃成人精品一区二区三区| 欧美xxxxx高潮喷水麻豆| 少妇做爰免费视频网站| 囯产精品无码一区二区三区| 手机在线中文字幕av| 国产女人18毛片水真多18精品| 亚洲成a∨人片在无码2023| 久久久国产精品免费无卡顿| 国产精品视频一区二区久久| √天堂资源中文www| 狼色精品人妻在线视频| 男人天堂AV在线麻豆| 国产精品大片一区二区三区四区| 免费人成视频x8x8入口| 国产人成无码中文字幕| 国内精品国产三级国产avx| 人妻诱惑中文字幕在线视频| 国产黄在线观看免费观看不卡| 成人无码区免费AⅤ片WWW| 亚洲中文字幕视频第一二区| 领导边摸边吃奶边做爽在线观看| 国产成人精品一区二区视频| www.尤物视频.com| 天天色天天操天天日天天射| 特黄做受又硬又粗又大视频小说| 亚洲天堂在线视频播放| 免费看男女啪啪的视频网站| 亚洲gay片在线gv网站| 久久人人爽人人爽人人av东京热| 蜜桃av多人一区二区三区|