付鈺,俞藝涵,吳曉平
(海軍工程大學信息安全系,湖北 武漢 430033)
互聯(lián)網(wǎng)創(chuàng)新已經(jīng)進入一個前所未有的大數(shù)據(jù)時代,為利用其中海量有價值的數(shù)據(jù)信息,不可避免地會對數(shù)據(jù)進行收集與分析,而過度的數(shù)據(jù)收集使隱私泄露問題日益凸顯[1]。以近年來興起的互聯(lián)網(wǎng)金融點對點(P2P,point to point)借貸[2-3]模式為例,目前國內(nèi)P2P 理財平臺數(shù)量在5 000 家左右,這些平臺在為用戶提供服務(wù)時,收集用戶相關(guān)隱私信息來分析用戶的還貸能力,其中最基本的身份驗證要求是用戶的身份證信息或者經(jīng)實名制驗證的手機號碼信息,除此之外,用戶的個人征信報告、信用卡賬單郵箱、網(wǎng)購記錄和通訊錄等個人隱私信息也普遍被P2P 平臺獲權(quán)查閱并記錄。一方面,絕大多數(shù)P2P 平臺對于用戶隱私數(shù)據(jù)的隱私保護級別不高,甚至存在為拉攏用戶而進行信息共享的行為;另一方面,在眾多P2P 平臺中,有信息安全隱患的問題平臺約占總數(shù)的,這些問題平臺自身并不可信,且會頻繁遭受網(wǎng)絡(luò)黑客的攻擊,其用戶個人隱私信息極不安全。
隨著數(shù)據(jù)挖掘及信息安全技術(shù)的不斷發(fā)展,針對特定數(shù)據(jù)的隱私保護問題,國內(nèi)外學者已經(jīng)開展了卓有成效的研究工作,主要通過匿名化技術(shù)[4]和數(shù)據(jù)加密技術(shù)[5]等來實現(xiàn)隱私保護。近年來,有學者提出隱私計算的概念[6],探討了隱私計算的應(yīng)用[7-8],這為隱私識別與量化評估提供了條件??紤]到互聯(lián)網(wǎng)下的隱私信息具有數(shù)據(jù)量大、類別多、層次關(guān)系復(fù)雜等特點,而基于匿名化和數(shù)據(jù)加密的隱私保護技術(shù)又需要緊密依賴背景知識假設(shè),只能保證單一數(shù)據(jù)集上隱私不被泄露的局限性往往難以滿足互聯(lián)網(wǎng)下針對大數(shù)據(jù)隱私保護的要求。所以,人們開始關(guān)注差分隱私(DP,differential privacy)保護技術(shù)及其應(yīng)用,差分隱私是Dwork[9]在2006 年針對統(tǒng)計數(shù)據(jù)庫的隱私泄露問題所提出的一種隱私的概念。差分隱私保護模型就是一種建立在嚴格的數(shù)學基礎(chǔ)之上,通過對隱私泄露風險做定量的形式化證明,并保有數(shù)據(jù)極大可用性的數(shù)據(jù)安全模型,該模型假設(shè)隱私信息的攻擊者在獲取目標之外所有信息的情況下,也不能判斷出目標信息是否在被攻擊的數(shù)據(jù)中,即差分隱私保護能夠抵御攻擊方的最大背景知識攻擊。由于差分隱私保護模式可以提供可度量的隱私保護等優(yōu)勢,故被廣泛應(yīng)用于網(wǎng)絡(luò)空間安全等領(lǐng)域。特別是在大數(shù)據(jù)環(huán)境下,從理論研究的角度看,差分隱私保護表現(xiàn)出極高的兼容性[10]。一方面,大數(shù)據(jù)環(huán)境下的數(shù)據(jù)集體積大,數(shù)據(jù)集中存在大量的記錄,這一條件有利于區(qū)分隱私,因此可以用較小的噪聲來實現(xiàn)差分隱私保護;另一方面,差分隱私保護在為大數(shù)據(jù)提供隱私保護時,不需要改變原始數(shù)據(jù),一般只在輸出中加入隨機噪聲,不會對原始數(shù)據(jù)處理的速度造成影響;同時,差分隱私保護獨立于底層數(shù)據(jù)結(jié)構(gòu)并兼容多種數(shù)據(jù)類型,能夠兼容所有類型的數(shù)據(jù)集,適用于大數(shù)據(jù)中存在結(jié)構(gòu)化、非結(jié)構(gòu)化以及半結(jié)構(gòu)化等多種數(shù)據(jù)形式的現(xiàn)實情況。但從實際應(yīng)用來看,差分隱私保護在大數(shù)據(jù)中的應(yīng)用也面臨諸多問題。
由此,本文首先對差分隱私保護的基本概念與相關(guān)技術(shù)進行了系統(tǒng)介紹,隨后全面綜述了大數(shù)據(jù)環(huán)境下差分隱私保護技術(shù)在數(shù)據(jù)發(fā)布與分析、云計算與大數(shù)據(jù)計算、位置與軌跡服務(wù)和社交網(wǎng)絡(luò)中的應(yīng)用與存在的問題,最后提出了大數(shù)據(jù)環(huán)境下差分隱私保護的系統(tǒng)性應(yīng)用所面臨的挑戰(zhàn)并展望其發(fā)展方向。
差分隱私保護可以克服傳統(tǒng)隱私保護技術(shù)應(yīng)用時其安全性依賴攻擊者的相關(guān)背景知識、保護效果,難以用有效嚴格的數(shù)學方法定量化描述等缺陷,從而可在大大降低保護對象數(shù)據(jù)集隱私泄露風險的同時,盡可能保證數(shù)據(jù)集數(shù)據(jù)的可用性,其過程就是通過對真實數(shù)據(jù)添加隨機擾動,并保證數(shù)據(jù)在被干擾后仍具有一定的可用性來實現(xiàn)的,即要使保護對象數(shù)據(jù)失真且同時保持數(shù)據(jù)集中特定數(shù)據(jù)或數(shù)據(jù)屬性(如統(tǒng)計特性等)不變。
為方便理解與討論,首先給出差分隱私保護的概念。
定義 1對于一個有限域Z,數(shù)據(jù)集,其樣本量為n,屬性的個數(shù)為維度d,若F={f1,f2,…} 表示一組操作(如查詢等),而M是對系列操作的某種處理,且使之滿足某種隱私保護的條件,則稱此過程為針對數(shù)據(jù)集D的隱私保護機制。
定義2設(shè)有限域Z上的2 個完全相同或至多相差一條記錄的數(shù)據(jù)集D和D′,則稱D和D′為鄰接數(shù)據(jù)集(adjacent dataset),即鄰接數(shù)據(jù)集D和D′具有相同的屬性結(jié)構(gòu),且二者的對稱差DΔD' 中記錄的數(shù)量為1。
定義3對于任意2 個鄰接數(shù)據(jù)集D和D′,設(shè)隨機算法A的值域為R(A),事件X發(fā)生的可能性為Pr[X],若對任意S,S'∈R(A),都滿足則隨機算法A提供ε-差分隱私保護,稱ε為差分隱私保護預(yù)算[11]。
由此可以看出,若用戶由查詢函數(shù)F對數(shù)據(jù)集D進行查詢操作時,隨機算法A通過對查詢函數(shù)F進行擾動,使之能滿足差分隱私保護的條件[12-13]。
1)差分隱私保護預(yù)算
差分隱私保護預(yù)算ε是差分隱私保護所能提供的隱私保護級別的度量,ε的值越低,差分隱私保護所提供的隱私保護級別就越高。一般ε取很小的值,以保證差分隱私保護的效果,例如取ε=0.1。被保護數(shù)據(jù)的可用性也與ε密切相關(guān),一般來說,ε越小,差分隱私保護所提供的隨機擾動越大,被保護數(shù)據(jù)的可用性則越差。
2)敏感度
差分隱私保護通常對查詢函數(shù)的返回值添加隨機擾動來達到隱私保護的目的,隨機擾動的大小與查詢函數(shù)的敏感度密切相關(guān)。查詢函數(shù)的敏感度是指當數(shù)據(jù)中僅發(fā)生一條記錄的改變時查詢結(jié)果的最大改變量。通常,差分隱私保護利用查詢函數(shù)的全局敏感度(GS,global sensitivity)[8]來度量隨機擾動的大小。全局敏感度定義如下。
定義4設(shè)D和D′是鄰接數(shù)據(jù)集,則稱
為查詢函數(shù)F的全局敏感度。這里||?||1表示向量元素絕對值之和。
查詢函數(shù)的全局敏感度由函數(shù)本身決定,全局敏感度越大,差分隱私保護標準下所需的隨機擾動也越大。對于一些全局敏感度小的查詢函數(shù)(如計數(shù)函數(shù)),用其全局敏感度來度量隨機擾動的大小較為合適;對于平均值函數(shù)、中位數(shù)函數(shù)等全局敏度較大的函數(shù),用其全局敏感度來度量隨機擾動的大小容易造成隨機擾動量過大,造成不必要的數(shù)據(jù)可用性方面的損失。由此,局部敏感度(LS,local sensitivity)[14]的概念被提出,其定義如下。
定義5設(shè)D和D′是鄰接數(shù)據(jù)集,則稱
為查詢函數(shù)F的局部敏感度。
查詢函數(shù)的局部敏感度與函數(shù)自身以及具體數(shù)據(jù)共同決定,一般比全局敏感度要小,兩者存在如下關(guān)系。
3)擾動機制
差分隱私保護中存在多種擾動機制,其中拉普拉斯機制[15]在對數(shù)值型結(jié)果的保護中應(yīng)用最為廣泛。
定義6對于數(shù)據(jù)集D,查詢函數(shù)F及其全局敏感度ΔFGS,如果隨機噪聲Y服從尺度為的拉普拉斯分布,則稱隨機算法A(D)=F(D)+Y可以提供ε-差分隱私保護[11]。
拉普拉斯機制只能對數(shù)值型查詢結(jié)果進行保護,而在實際應(yīng)用中,存在許多查詢結(jié)果不是數(shù)值型的情況。由此,指數(shù)機制[16]被提出。
定義7對于數(shù)據(jù)集D,其輸出為一實體對象r∈Range,q(D,r)為r的可用性函數(shù),其敏感度記作ΔFq。若隨機算法M以正比于的概率從Range 中選擇并輸出r,則M提供ε-差分隱私保護[16]。
4)組合性質(zhì)
差分隱私保護存在以下兩方面的組合性質(zhì)[17],它們是將差分隱私保護運用到反復(fù)迭代過程中,證明算法滿足差分隱私保護以及合理分配差分隱私預(yù)算的基礎(chǔ)。
性質(zhì)1若存在n個隨機算法序列Ai(1≤i≤n)提供εi差分隱私保護,則對于同一數(shù)據(jù)集D,{A1,???,An}在D上的序列組合算法也提供ε-差分隱私保護,其中,
性質(zhì)2若存在隨機算法A提供ε-差分隱私保護,數(shù)據(jù)集D可分為不相交的子集D1,???,Dm,則隨機算法A在{D1,???,Dm}上的組合運算所構(gòu)成的算法也提供ε-差分隱私保護。
因為每一種隱私保護方法其保護效果都是基于某種攻擊模型而度量,如K-匿名就是基于攻擊者對對象數(shù)據(jù)集信息全不知曉的假設(shè),否則K-匿名算法也無法對數(shù)據(jù)隱私實施保護。從差分隱私的定義及相關(guān)特性可以看出,其基于的攻擊模型是最壞的可能攻擊者已知除一條記錄以外的對象數(shù)據(jù)集所有的敏感屬性,但這條記錄的敏感屬性信息也可得到有效保護。所以,差分隱私在數(shù)據(jù)發(fā)布與分析、云計算與大數(shù)據(jù)計算、面向位置與軌跡服務(wù)、社交網(wǎng)絡(luò)等領(lǐng)域有著越來越廣泛的應(yīng)用。
差分隱私保護作為當前數(shù)據(jù)隱私保護技術(shù)應(yīng)用較為廣泛的一種,其應(yīng)用最早出現(xiàn)在數(shù)據(jù)庫領(lǐng)域。如何在大數(shù)據(jù)時代在保證對數(shù)據(jù)隱私保護的前提下對海量數(shù)據(jù)進行發(fā)布與分析,已經(jīng)成為近年來數(shù)據(jù)庫應(yīng)用,尤其是數(shù)據(jù)發(fā)布領(lǐng)域的研究熱點。
Han 等[18]指出差分隱私保護在保證數(shù)據(jù)效用時,由于可能存在的非獨立推理(NIR,non-independent reasoning),敏感數(shù)據(jù)將面臨泄露的風險。由于差分隱私保護的固有機制,必然造成基于差分隱私保護的數(shù)據(jù)發(fā)布存在數(shù)據(jù)隱私性和數(shù)據(jù)可用性之間的矛盾。目前的研究大多集中在選擇最優(yōu)噪聲機制、優(yōu)化噪聲添加策略和優(yōu)化數(shù)據(jù)發(fā)布策略等方面,目的是尋求數(shù)據(jù)發(fā)布中的隱私性與可用性之間的平衡。
差分隱私保護中存在多種噪聲機制,眾多學者對于基于差分隱私保護數(shù)據(jù)發(fā)布中的普遍最優(yōu)機制展開了研究。Hai 等[19]對差分隱私保護下的普遍最優(yōu)噪聲機制做了定義,并且證明了不可能存在一種普遍最優(yōu)機制能夠保證諸如直方圖等一般查詢函數(shù)達到隱私性和可用性的最優(yōu)。進一步的研究表明,目前不存在一種噪聲機制能夠在沒有側(cè)面信息或額外條件限制的情況下使差分隱私保護下數(shù)據(jù)發(fā)布的隱私性和可用性達到普遍最優(yōu)。在查詢函數(shù)為輸出為整數(shù)且有界的各類查詢函數(shù)的條件下,Ghosh 等[20]和Gupte 等[21]分別采用貝葉斯和非貝葉斯風險規(guī)避模型來對普遍最優(yōu)噪聲機制展開了研究,他們得出的結(jié)論是在貝葉斯或非貝葉斯風險規(guī)避模型下,對于各類計數(shù)查詢函數(shù),幾何噪聲機制是普遍最優(yōu)的。Geng 等[22]則在一般風險規(guī)避模型下,針對實值查詢函數(shù)提出一種階梯噪聲機制,當滿足以下3 個條件時,所提的階梯噪聲機制是隱私性與可用性最優(yōu)的。1)查詢函數(shù)的值域為實值,范圍為(-∞,+∞);2)查詢生成器(QG,query generator)沒有可用的側(cè)面信息;3)查詢函數(shù)的局部敏感度等于全局敏感度或保證敏感度在所有可能的輸出上保持不變。然而,在實際應(yīng)用中,大部分查詢函數(shù)難以滿足條件1)和條件3),且其所得結(jié)論默認了查詢函數(shù)的局部敏感度和全局敏感度相等,這是不符合實際的。Chen 等[23]對差分隱私保護中的最佳擾動機制進行了分析與實驗,在對單實數(shù)(標量)進行查詢時,提出以側(cè)面信息為基礎(chǔ)設(shè)計噪聲擾動機制的設(shè)想,使差分隱私保護的效用盡可能最大化。如何在未知數(shù)據(jù)側(cè)面信息的情況下,合理設(shè)計噪聲擾動機制是下一步的研究方向。
在優(yōu)化噪聲添加策略方面,Nissim 等[14]指出用局部敏感度進行計算有泄露隱私數(shù)據(jù)分布特征的風險,因此為局部敏感度定義了平滑上界與平滑敏感度的概念,并證明對于某些非線性查詢函數(shù)可以利用查詢函數(shù)的平滑敏感度對所添加的噪聲大小進行校準,從而提高數(shù)據(jù)可用性。Lin 等[24]提出了差分隱私保護中動態(tài)噪聲閾值的概念,證明了差分隱私保護方案中的噪聲添加與受保護數(shù)據(jù)集大小之間的關(guān)系為
其中,H(x)為第n個數(shù)據(jù)所需的噪聲擾動,x為數(shù)據(jù),? 為數(shù)據(jù)的擾動校正值。這樣做保證了所添加的噪聲不會因為過小而不能滿足差分隱私要求,也不會因為過大而影響數(shù)據(jù)可用性,并減小了計算開銷。但是,該方案所提的差分隱私方法需充分了解所保護數(shù)據(jù)的特征,其應(yīng)用具有一定的局限性。Ji等[25]在非交互模式下對多維數(shù)據(jù)發(fā)布中的差分隱私保護方法進行了研究,通過Haar 小波變換對原始多維數(shù)據(jù)進行處理以構(gòu)建一般關(guān)系表的緊湊概要,并在概要的每一個記錄中添加多對數(shù)噪聲之后,得到一個擾動后的概要。隨后在擾動后的概要中對查詢進行評估,輸出一般關(guān)系表中受擾動小波系數(shù)的緊湊集合,最終將其擴展回受擾動的關(guān)系元組直到查詢結(jié)束,實現(xiàn)了多維數(shù)據(jù)發(fā)布中的快速查詢處理與可證明的隱私保證。De[26]則尋求以近似的差分隱私要求來完成對數(shù)據(jù)的保護,主要策略是放寬差分隱私保護的隱私性要求,減少因噪聲添加帶來的誤差,降低算法復(fù)雜度。他們證明了純ε-差分隱私與近似(ε,)δ-差分隱私之間的界限,并證明當δ> 0時,存在一種查詢可以添加方差為的噪聲達到差分隱私保護的要求;當δ=0 時,則需要方差為Ω(n)的噪聲。
在優(yōu)化數(shù)據(jù)發(fā)布策略方面,Zhang 等[27]提出一種差分隱私框架下應(yīng)答計數(shù)范圍查詢的算法DPAV,該算法首先通過頻率矩陣生成平均樹,樹中每個節(jié)點的值等于其葉子節(jié)點值的平均值,隨后通過權(quán)重函數(shù)合理分配拉普拉斯噪聲大小并添加到平均樹中不同層級的節(jié)點中,最后將平均樹轉(zhuǎn)化為新的頻率矩陣,以此來應(yīng)答計數(shù)范圍查詢。Li 等[28]提出一種矩陣機制來提供謂詞計數(shù)查詢服務(wù),該機制以矩陣的形式表示線性查詢集合,生成一個策略查詢集,以策略查詢集中的最小誤差估計值作為查詢的應(yīng)答,在保留數(shù)據(jù)差異性的同時提高查詢的準確性,但其實際應(yīng)用過程中存在多維度的矩陣計算,計算成本過高。Koufogiannis 等[29]對于身份查詢函數(shù),提出了一種復(fù)合差分隱私保護機制,采用馬爾可夫隨機過程的延遲抽樣來作為數(shù)據(jù)的逐步輸出,可以在保證差分隱私固有屬性的情況下,逐步提高數(shù)據(jù)釋放的準確性,并推測其方案可以適用于更一般的應(yīng)用條件。Hay 等[30]對被噪聲擾亂后的數(shù)據(jù)在一定約束條件下進行轉(zhuǎn)化,使差異化的輸出保有了一致性,以此提高了數(shù)據(jù)發(fā)布的準確性,但該方法只對一維數(shù)據(jù)集的查詢起效。
目前對于差分隱私保護下單一時間點靜態(tài)數(shù)據(jù)的發(fā)布已有較多的成果,但在大數(shù)據(jù)環(huán)境下,實際數(shù)據(jù)的發(fā)布往往還要求能夠?qū)?shù)據(jù)流中動態(tài)數(shù)據(jù)提供差分隱私保護。
Kellaris 等[31]定義了在動態(tài)數(shù)據(jù)流中的兩類隱私保護級別——事件級別和用戶級別。事件級別表示對于保護某一特定時間戳下的某一數(shù)據(jù)的隱私保護級別;用戶級別則表示對于保護數(shù)據(jù)流中全數(shù)據(jù)的隱私保護級別。Kellaris 等提出一種ω-事件ε-差分隱私保護模型,該模型合并了事件級別和用戶級別,來保證在ω個時間戳內(nèi)對于數(shù)據(jù)流的保護達到隱私性與可用性平衡的效果。但是其所提的模型并不能適用于所有類型的數(shù)據(jù)流,且對于隱私預(yù)算ε采用簡單平均分配的方法也沒有考慮到不同時間戳內(nèi)的數(shù)據(jù)特性差異,造成了ε沒有被充分利用,引起數(shù)據(jù)可用性降低的不利結(jié)果。
Fan 等[32]在有限數(shù)據(jù)流的情況下提出一種滿足用戶級別的實時聚合統(tǒng)計數(shù)據(jù)發(fā)布框架FAST。該方案基于過濾和自適應(yīng)抽樣,根據(jù)檢測到的數(shù)據(jù)動態(tài)地對長時間序列進行采樣,并預(yù)測非采樣點的數(shù)據(jù)值,然后以此糾正經(jīng)噪聲擾動后的采樣點的數(shù)值,來最小化整體隱私成本并最大程度地提高每個時間戳的數(shù)據(jù)準確性。Chan 等[33]與Dwork 等[34]針對動態(tài)數(shù)據(jù)中的統(tǒng)計數(shù)據(jù)發(fā)布分別做出了相似的研究。Dwork 等建立完整的二叉樹更新流,在二叉樹的節(jié)點中存儲對固定長度的數(shù)據(jù)流所添加的成比例對的噪聲值,對實時更新數(shù)據(jù)流識別其所屬的節(jié)點并在數(shù)據(jù)流中添加節(jié)點中的噪聲值后給計數(shù)器計數(shù)。Chan 等在對二叉樹更新時,其節(jié)點包含所有子樹中經(jīng)添加成比例對的隨機噪聲后的更新總和,經(jīng)識別后對最大子樹進行更新并將其根節(jié)點中存儲的數(shù)值總和上報給計數(shù)器。
Wang 等[35]提出一種RescueDP 的實時動態(tài)空間眾包數(shù)據(jù)發(fā)布方案,該方案利用數(shù)據(jù)變化相似性的特征動態(tài)對數(shù)據(jù)進行區(qū)域分組,通過自適應(yīng)抽樣和自適應(yīng)預(yù)算分配,在每個分組中加入拉普拉斯噪聲擾動,最終使用卡爾曼濾波片提高了實時數(shù)據(jù)發(fā)布的準確性。
Chen 等[36-37]最先將差分隱私保護應(yīng)用到序列數(shù)據(jù)中,利用嘈雜的前綴樹結(jié)構(gòu)將具有相同前綴的序列分組到相同的分支中,從而縮小輸出域,隨后還提出利用一組可變長度的n-gram 模型順序提取數(shù)據(jù)庫的基本信息,來簡化一般時序數(shù)據(jù),緩解了因序列數(shù)據(jù)的固有順序性和高維度所造成的應(yīng)用差分隱私到序列數(shù)據(jù)中困難的問題。
Kang 等[38]針對物流領(lǐng)域中時間序列位置信息的隱私泄露問題,提出了一種基于差異隱私的時間序列位置數(shù)據(jù)發(fā)布方法。首先,利用聚類優(yōu)化算法構(gòu)造與時間相關(guān)的公共感興趣區(qū)域,用質(zhì)心點代表公共利益區(qū)的位置,由此建立位置搜索樹,保證了位置數(shù)據(jù)之間的內(nèi)在聯(lián)系;然后將拉普拉斯噪聲添加到位置搜索樹節(jié)點,減少了添加噪聲的次數(shù),以此確保了所發(fā)布數(shù)據(jù)的可用性。
基于差分隱私的數(shù)據(jù)發(fā)布技術(shù)對比如表1 所示。
基于機器學習、聚類分析、神經(jīng)網(wǎng)絡(luò)等傳統(tǒng)的數(shù)據(jù)分析技術(shù)直接應(yīng)用在經(jīng)過差分隱私保護后的數(shù)據(jù)上時,往往會出現(xiàn)效率差與準確性低等問題,這就需要提出相應(yīng)適用于差分隱私數(shù)據(jù)中的數(shù)據(jù)分析算法。優(yōu)化基于差分隱私的數(shù)據(jù)分析算法,與差分隱私自身理論的發(fā)展聯(lián)系緊密。目前的研究主要集中在如何解決在當前數(shù)據(jù)分析技術(shù)中通過添加隨機噪聲來滿足差分隱私保護要求的同時,提高算法的準確性并降低計算復(fù)雜度的問題上。
在隨機梯度下降算法中加入隨機噪聲是實現(xiàn)機器學習中差分隱私保護的一般方法,由于隨機梯度下降算法需通過反復(fù)迭代來達到學習目的,隨機噪聲的添加方式將直接影響算法的效用。Abadi 等[39]通過隨機排列構(gòu)建不同的批量和批次,將計算分為適當大小的組來進行,并對算法中的隱私預(yù)算、學習步長等參數(shù)進行了有目的性的優(yōu)化,提高了算法的效率并使數(shù)據(jù)保有了較好的可用性。Cai 等[40]則研究了平均估計和線性回歸中統(tǒng)計準確性與隱私之間的權(quán)衡問題,主要通過改進最小極大值下界、迭代閾值等參數(shù)的設(shè)定策略來保證滿足差分隱私的前提下提升統(tǒng)計準確性。Mcsherry 等[41]在Netflix Prize 數(shù)據(jù)集上對其提出的端對端差分隱私保護系統(tǒng)進行評估,并與文獻[39]采取了類似的高維數(shù)據(jù)輸入方式,不同的是其非凸目標函數(shù)的構(gòu)造是在確定學習任務(wù)的核心后進行的,這樣做能夠充分利用統(tǒng)計數(shù)據(jù),并以高斯機制進行差分隱私計算。Xu等[42]則針對生成式對抗網(wǎng)絡(luò)(GAN,generative adversarial network)應(yīng)用于隱私數(shù)據(jù)時可能因記憶樣本而產(chǎn)生隱私泄露威脅的問題,提出了一種滿足差分隱私的生成式對抗網(wǎng)絡(luò)——GANobfuscator,其通過在學習過程中為梯度添加精心設(shè)計的噪聲來實現(xiàn)GAN 下的差異隱私,并設(shè)計了梯度修剪策略,在保證差分隱私的同時提高了數(shù)據(jù)訓練的可擴展性和穩(wěn)定性。
表1 基于差分隱私的數(shù)據(jù)發(fā)布技術(shù)對比
Li 等[43]提出了一種支持差分隱私保護的分布式在線學習算法,該算法通過一個時變的雙重隨機矩陣來控制各分布式節(jié)點之間的通信,并采用平均權(quán)重的策略共享算法迭代中的更新參數(shù),保證每個節(jié)點可以充分利用全局數(shù)據(jù)的通信,大大縮減了通信開銷。同時,由每輪迭代的更新步長來控制隨機噪聲的大小,使隨機噪聲隨著迭代輪次的進行而越來越小,在滿足差分隱私保護要求的同時,進一步增加了數(shù)據(jù)的可用性。Beimel 等[44]在機器學習中提出了一種寬松要求的差分隱私保護方法,通過保護學習樣本中樣本標簽的隱私來達到隱私保護的目的,經(jīng)證明該算法的復(fù)雜度與不提供差分隱私保護的學習算法復(fù)雜度相同。
Kasiviswanathan 等[45]指出了噪聲條件下的機器學習與保證隱私條件下機器學習的區(qū)別,對2 種典型的機器學習模型 PAC(probabilistically approximately correct)和SQ(statistical query)進行了研究,提出了與無隱私條件機器學習時復(fù)雜度相同的PAC 算法,并討論了交互式與非交互式(自適應(yīng)與非自適應(yīng))的SQ 算法,表明可以在與log|C|成比例的樣本復(fù)雜度下對每個概念類別C進行隱私學習。Beimel 等[46]發(fā)現(xiàn)對于概念類別C的有隱私機器學習中,不同于無隱私的一般機器學習,輸出結(jié)果在C中的學習模型與輸出結(jié)果不在C中的學習模型的樣本復(fù)雜度有很大的區(qū)別。他們證明了每一個輸出在C類的ε-POINTd隱私學習模型的樣本復(fù)雜度必須達到Ω(d)=Ω(log|POINTd|),并在文獻[47]提出一種代替隱私學習模型。
可以看出,將差分隱私保護技術(shù)應(yīng)用在數(shù)據(jù)分析中同樣也面臨著差分隱私在數(shù)據(jù)發(fā)布應(yīng)用中所面臨的挑戰(zhàn),當前存在更突出的挑戰(zhàn)介紹如下。
1)無論通過哪種數(shù)據(jù)分析技術(shù),在對大數(shù)據(jù)進行分析的過程中,對原始數(shù)據(jù)和計算結(jié)果往往需要反復(fù)調(diào)取并多次迭代,用現(xiàn)有的差分隱私保護機制來實現(xiàn)對數(shù)據(jù)分析過程及結(jié)果的保護所需要的噪聲量以及計算復(fù)雜度仍舊過大,不適合應(yīng)用在大規(guī)模數(shù)據(jù)集中。如何創(chuàng)新選擇隨機算法進行差分隱私保護并有效降低算法的計算復(fù)雜度是未來的研究方向。
2)當前在數(shù)據(jù)分析中應(yīng)用差分隱私保護的算法適用性較差,在不同的場景假設(shè)下或應(yīng)用不同的數(shù)據(jù)分析技術(shù)時都需有特定的算法,且針對的目標函數(shù)也較為簡單,在大數(shù)據(jù)環(huán)境中的實際應(yīng)用性不佳。如何設(shè)計通用于數(shù)據(jù)分析中多種目標函數(shù)的差分隱私保護算法是接下來的研究方向。
隱私數(shù)據(jù)在云計算與大數(shù)據(jù)計算的過程中往往要經(jīng)歷多個環(huán)節(jié),每一個環(huán)節(jié)的數(shù)據(jù)泄露都會造成隱私泄露的風險。當前,差分隱私保護技術(shù)已被廣泛地運用在云計算與大數(shù)據(jù)計算中,如部署在蘋果手機上的用戶數(shù)據(jù)收集模塊[48]?;谠朴嬎闩c大數(shù)據(jù)計算的自身特征,可以總結(jié)出要將差分隱私保護運用到云計算與大數(shù)據(jù)計算中主要存在以下兩方面的問題:1)計算資源提供方不可信所造成的隱私信息在數(shù)據(jù)計算過程中難以保證不被泄露的問題;2)海量、高頻數(shù)據(jù)流所造成的差分隱私保護機制難以實現(xiàn)的問題。
針對問題1)的現(xiàn)有研究較少,通過訪問控制與差分隱私保護相結(jié)合是一種可行的研究思路。Roy等[49]在MapReduce 計算架構(gòu)下,研究了云計算中的信息安全問題。他們認為云計算中隱私保護所面臨的一個巨大問題是用戶和云服務(wù)商都不想耗費太多的計算資源來進行隱私保護,而在云計算的過程中,數(shù)據(jù)的輸入輸出、數(shù)據(jù)的分布式運算以及數(shù)據(jù)在用戶和云服務(wù)商直接傳輸?shù)倪^程中,任意一條數(shù)據(jù)信息的泄露都有可能造成不可挽回的隱私泄露。Roy 等將差分隱私保護與強訪問控制相結(jié)合,提出了Airavat 系統(tǒng)。在差分隱私保護部分中,Airavat 系統(tǒng)充分考慮用戶的信息安全知識水平、云服務(wù)商是否可信等因素,通過一系列的參數(shù)限制與組合策略,在Reduce 環(huán)節(jié)添加滿足差分隱私條件的隨機噪聲,達到差分隱私保護的要求。Airavat系統(tǒng)主要通過提前聲明Mapper 的輸出范圍,估計Reducer 中的數(shù)據(jù)敏感度,從而限定一部分超出閾值的數(shù)據(jù)的輸出,來優(yōu)化所添加的噪聲量。Airavat系統(tǒng)的優(yōu)勢在于其不需要額外審計不受信任的代碼,但過多的參數(shù)和策略限制也影響了其在應(yīng)用上的可擴展性。
針對問題2),當前研究主要利用抽樣、分組等方法來緩解數(shù)據(jù)樣本的海量與高頻特性,以便于差分隱私保護機制的實現(xiàn)。Mir 等[50]在模擬CDR(通話記錄)模型 WHERE 的基礎(chǔ)上,提出一種DP-WHERE 模型,該模型在WHERE 模型的各個計算環(huán)節(jié)所得的概率分布中添加受控隨機噪聲實現(xiàn)差分隱私保護,并在關(guān)鍵步驟中采用文獻[30]中提的后處理技術(shù)和文獻[51]中所提的grouping 技術(shù)優(yōu)化噪聲量,產(chǎn)生相應(yīng)的概率分布,通過系統(tǒng)地抽樣這些分布,合成含有位置和相關(guān)時間的模擬數(shù)據(jù)信息并發(fā)布,實現(xiàn)了在海量數(shù)據(jù)計算中的差分隱私保護。該模型不需要進一步訪問原始CDR,并且用來合成數(shù)據(jù)的參數(shù)有很強的通用性,在保持隱私性的同時,在應(yīng)用方面極具擴展性。Cormode 等[52]針對可以由樹結(jié)構(gòu)索引的多維數(shù)據(jù)的差分隱私保護進行了研究,提出了通過差分隱私空間分解來對數(shù)據(jù)分布進行差分隱私保護下的發(fā)布。分割點的選擇以及分布區(qū)域的描述策略在其所提方法中作為基本步驟來保證高維數(shù)據(jù)差分隱私保護中的隱私性,基于約束推理的后處理技術(shù)以及樣本均勻采樣技術(shù)則作為噪聲優(yōu)化方法來保證海量、高頻數(shù)據(jù)流中高維數(shù)據(jù)差分隱私保護中的可用性。Wang 等[53]也做了類似的研究,不同的是其采用了斐波那契混合數(shù)列來估計并分配樹中各層節(jié)點的隱私預(yù)算量,以較大的隱私預(yù)算量來提高數(shù)據(jù)查詢的準確性。
與此同時,云計算與大數(shù)據(jù)計算中的差分隱私保護應(yīng)用還需解決因分布式計算架構(gòu)自身特點所引起的開銷過大的挑戰(zhàn)。不同于差分隱私保護應(yīng)用于集中式數(shù)據(jù)庫,在分布式計算架構(gòu)下,各個節(jié)點的數(shù)據(jù)相互獨立。嚴格來說,需使各個節(jié)點數(shù)據(jù)都滿足差分隱私保護要求才能保證整個分布式計算架構(gòu)下的數(shù)據(jù)處理是差分隱私的,這就要求在各個節(jié)點都需進行隨機擾動,那么隨后的數(shù)據(jù)通信與協(xié)同計算都將需要更大的開銷。為此,如何設(shè)計分布式計算架構(gòu)下的差分隱私機制構(gòu)成下一步研究方向。
當前,隨著公共交通、網(wǎng)購快遞、網(wǎng)絡(luò)訂餐等行業(yè)的興起,使以<用戶名,位置,軌跡>為格式的數(shù)據(jù)集呈爆炸式增長,形成了位置與軌跡大數(shù)據(jù)。其隱私保護數(shù)據(jù)發(fā)布機制主要有兩類:一是發(fā)布軌跡數(shù)據(jù)集,每一條軌跡作為一個記錄,目的是保護軌跡信息;二是發(fā)布一條軌跡信息,軌跡中的每個位置作為一個記錄,目的是保護每個點的位置信息。而將差分隱私保護應(yīng)用于位置軌跡大數(shù)據(jù)中,面臨以下3 個方面的挑戰(zhàn)。
一是在滿足差分隱私保護要求的基礎(chǔ)上,數(shù)據(jù)集的稀疏性將引起隨機化機制產(chǎn)生大量的噪聲。二是敏感度的計算。對于位置與軌跡數(shù)據(jù)集,隨機化機制與距離測量相關(guān)聯(lián)。然而,如果人們只是通過傳統(tǒng)的方式測量敏感度,當涉及位置與軌跡之間的最大距離時,敏感度將會非常大。為了達到嚴格的隱私保證,必須增加大量的噪聲,這將大大降低位置與軌跡數(shù)據(jù)集的效用。三是位置與軌跡數(shù)據(jù)集的語義保留。當對位置與軌跡數(shù)據(jù)集進行隨機化時,傳統(tǒng)的差分隱私機制不考慮位置與軌跡數(shù)據(jù)集的語義,僅基于距離的測量來辨別位置,這樣做難以辨別其屬于哪個具體的區(qū)域,如不能判斷某一位置點屬于哪個城區(qū)。
Lin 等[54]針對人體傳感器網(wǎng)絡(luò)(BSN,body sensor network)中的隱私大數(shù)據(jù)提出了一種差分隱私保護方案。該方案基于非交互式數(shù)據(jù)發(fā)布框架,通過Haar 小波變換將直方圖轉(zhuǎn)化為二叉樹,由二叉樹的高度來決定全局敏感度,在一定程度上緩解了因全局敏感度過大造成提供差分隱私保護隨機噪聲過大的問題。
Xiong 等[55]提出一種PriLocation 算法,首先通過聚類來對相鄰位置信息進行分組,并限制隨機域,以此來收縮隨機區(qū)域減少所需噪聲;隨后利用位置信息的分層結(jié)構(gòu),通過對聚類權(quán)重擾動隱藏位置信息權(quán)重,提出了基于層次結(jié)構(gòu)的敏感度概念的位置數(shù)據(jù)集,并對隱私位置選擇來隱藏每一個用戶的真實位置。
He 等[56]提出一種基于個人原始GPS 軌跡合成支持差分隱私保護的移動數(shù)據(jù)系統(tǒng)——DPT。該系統(tǒng)利用參考系統(tǒng)的層次結(jié)構(gòu),以多個分辨率來離散空間域,并為每個分辨率維護一個前綴樹。不同的參考系統(tǒng)捕獲不同速度的運動。在每個參考系統(tǒng)中,個體僅能從一個點移動到限定個數(shù)的相鄰點。因此,盡管有較多數(shù)量的前綴樹,但是每個樹具有小得多的分支因子,從而使維持模型的計數(shù)數(shù)量呈指數(shù)減少趨勢,選擇差分隱私的方式設(shè)置相關(guān)參數(shù),并通過自適應(yīng)機制以及方向加權(quán)來提高效用。其存在的不足與文獻[36-37]的問題相同,他們的結(jié)論都是建立在發(fā)布的原始軌跡包含許多公共前綴這一無效假設(shè)的基礎(chǔ)上的。
Hua 等[57]旨在消除上述假設(shè),提出一種提供差分隱私保護的位置泛化算法,該算法基于軌跡距離并利用指數(shù)機制來概率地合并位置,然后以差分隱私化的方式發(fā)布泛化后的位置軌跡信息。
Li 等[58]首先使用k-means 聚類來分割原始位置,由此獲得n-1 個新的廣義軌跡,并隨機選擇n-n1個原始軌跡來近似代替原始軌跡數(shù)據(jù)庫,隨后產(chǎn)生有界的拉普拉斯噪聲,將它們添加到不同軌跡的計數(shù)值中,并用發(fā)布這些軌跡與其計數(shù)值。Chatzikokolakis 等[59]提出了一種基于預(yù)測機制的位置軌跡差分保護方法,預(yù)測機制通過利用數(shù)據(jù)的關(guān)聯(lián)性和歷史數(shù)據(jù)記錄來對用戶現(xiàn)有位置進行預(yù)測,由測試函數(shù)對預(yù)測進行測試,僅對不滿足測試要求的預(yù)測結(jié)果進行新的噪聲添加,與獨立噪聲添加機制相比,大大降低了噪聲量。
Asada 等[60]將差分隱私用于位置偏好推薦系統(tǒng),在利用矩陣分解提高推薦的準確性的同時,有選擇性地在局部實施差分隱私以嚴格保護用戶隱私,并實現(xiàn)了位置偏好推薦與隱私保護的最佳平衡,在保證推薦準確有效的情況下也保證了位置數(shù)據(jù)的隱私性。
雖然當前研究針對降低因位置軌跡數(shù)據(jù)稀疏性所引起的噪聲量以及降低數(shù)據(jù)敏感度這兩方面挑戰(zhàn)有了較好的成果,但是針對第三個挑戰(zhàn),當前并沒有專門針對位置與軌跡數(shù)據(jù)集保留語義方面的工作。在具體應(yīng)用中,雖然差分隱私保護已廣泛應(yīng)用于各類位置與軌跡服務(wù)系統(tǒng)中,目前還是缺乏成熟完備的應(yīng)用系統(tǒng),且應(yīng)用系統(tǒng)在隱私保護的完整性、適用數(shù)據(jù)的可擴展性等方面仍需進行進一步的研究。以上方面可構(gòu)成面向位置與軌跡服務(wù)的差分隱私保護下一步的研究方向。
近年來,社交網(wǎng)絡(luò)的迅猛發(fā)展在給人們生活帶來極大便利的同時,由于各個網(wǎng)絡(luò)社交平臺一般都需要用戶在注冊時提供一定程度的個人身份信息,也給人們網(wǎng)絡(luò)生活中的個人隱私保護帶來了巨大挑戰(zhàn)。在對社交網(wǎng)絡(luò)進行數(shù)據(jù)分析時,通常利用圖結(jié)構(gòu)來描述社交網(wǎng)絡(luò)活動,其中圖中的節(jié)點代表用戶,邊代表用戶之間的關(guān)系或社交活動。將差分隱私保護應(yīng)用到社交網(wǎng)絡(luò)中等同于將其應(yīng)用到圖結(jié)構(gòu)中。
對圖結(jié)構(gòu)進行差分隱私保護一般分為基于節(jié)點的差分隱私保護和基于邊的差分隱私保護,基于出度的差分隱私保護和基于分區(qū)的差分隱私保護則作為2 種新穎的差分隱私保護概念在近年來被廣泛應(yīng)用。Task 等[61]認為基于節(jié)點的差分隱私保護方法存在在數(shù)據(jù)中添加的噪聲量過大、代價昂貴的問題,且存在噪聲多余添加的問題;基于邊的差分隱私的隱私性并不嚴密。基于出度的差分隱私與基于分區(qū)的差分隱私作為2 個新穎的社交網(wǎng)絡(luò)隱私保護機制,能夠在引入極小噪聲的情況下提供強有力的隱私保護?;诔龆鹊牟罘蛛[私通過在隱私數(shù)據(jù)中增加或刪除任意節(jié)點的外部鏈接來保護數(shù)據(jù)參與者所提供數(shù)據(jù)的隱私,在此機制下,Task 等[62]提出一種基于自組網(wǎng)樣式的分析算法,對以前標準執(zhí)行過于敏感的查詢提供近似結(jié)果。而基于分區(qū)的差分隱私則針對社交網(wǎng)絡(luò)中屬性繁多的特點,在差分數(shù)據(jù)中任意添加或刪除一個子圖來滿足差分隱私要求,為社交網(wǎng)絡(luò)多屬性研究提供比基于節(jié)點的隱私保護更高的隱私級別,并且能夠進行在基于節(jié)點隱私保護機制下難以進行的分析研究。
另一方面,要將差分隱私保護應(yīng)用到社交網(wǎng)絡(luò)的數(shù)據(jù)挖掘中需研究差分隱私保護下的社交網(wǎng)絡(luò)分析技術(shù),即差分隱私保護下的圖分析技術(shù)。針對子圖計數(shù)查詢問題,Karwa 等[63]在利用文獻[14]所提的查詢函數(shù)局部敏感度與平滑上界來計算隨機噪聲量的基礎(chǔ)上,將對查詢結(jié)果添加隨機噪聲的方法[64]應(yīng)用到了K-星計數(shù)查詢中,緩解了子圖計數(shù)查詢函數(shù)一般全局敏感度較大的問題,并提出了K-三角形數(shù)的查詢算法;針對聚類系數(shù)計算問題,Wang 等[65]提出一種D&C 算法,首先將聚類系數(shù)計算函數(shù)分解為多個分計算函數(shù),然后通過預(yù)先設(shè)定的噪聲添加與隱私預(yù)算分配策略對每個分計算函數(shù)結(jié)果添加隨機噪聲,最后通過滿足第2 節(jié)中的差分隱私保護性質(zhì)1 和性質(zhì)2 的數(shù)學運算合成輸出結(jié)果,以達到差分隱私保護的要求;針對邊隱私保護問題,Costea 等[66]在不考慮目標節(jié)點和邊中信息是否為敏感信息的情況下,利用拉普拉斯機制在邊權(quán)重中添加隨機噪聲并生成新的圖,并利用迪杰斯特拉算法計算原圖與生成圖中的最短路徑來評估差分隱私保護效果;針對度分布問題,Hay 等[35,67]通過一致性約束進行圖中度分布的估計,并給出了圖中度分布計算的最小二乘解算法,在滿足差分隱私保護的條件下極大程度地提高了度分布查詢結(jié)果的準確性;針對目的節(jié)點隱私保護問題,Javidbakh等[68]在路由開銷約束下,研究了目的節(jié)點在差分隱私保護下的最優(yōu)路由開銷方案,采取了使數(shù)據(jù)傳遞經(jīng)過多個目的節(jié)點的策略,并將目的節(jié)點信息差分化的方式來實現(xiàn)網(wǎng)絡(luò)路由中的數(shù)據(jù)保護。雖然,Javidbakh 等通過概率優(yōu)化意圖將通信開銷降低到最低值,但其所提方案不可避免地仍將造成更多的通信負擔。Li 等[69]研究了圖合成的工作流程,提出了一種基于加權(quán)隱私綜合查詢方法,針對不準確的協(xié)同系數(shù)以最佳種子圖替換一般種子圖,以此作為馬爾可夫鏈中的初始狀態(tài),并且通過交叉三角形的信息一步一步地進行以增加合成圖中的三角形的數(shù)量,以此發(fā)布滿足差分隱私的社交圖。
在社交網(wǎng)絡(luò)大數(shù)據(jù)環(huán)境下,以圖結(jié)構(gòu)來重構(gòu)社交網(wǎng)絡(luò)展開差分隱私保護應(yīng)用研究,不可避免地將面臨與差分隱私保護在分布式計算應(yīng)用中類似的通信開銷過大問題;同時,社交網(wǎng)絡(luò)中各個節(jié)點的數(shù)據(jù)具有關(guān)聯(lián)性,這也將不可避免地要求更多的噪聲。下一步研究可在充分考慮社交網(wǎng)絡(luò)中數(shù)據(jù)相關(guān)性的情況下,尋求新的差分隱私保護策略來降低因數(shù)據(jù)反復(fù)傳遞引起的通信開銷。
差分隱私保護作為一種嚴格可證明的數(shù)學模型,在大數(shù)據(jù)環(huán)境下已經(jīng)被廣泛地應(yīng)用于各個領(lǐng)域。隨著近年來相關(guān)研究的不斷深入,差分隱私保護的理論及相關(guān)概念日益完善,其在數(shù)據(jù)發(fā)布、數(shù)據(jù)分析、云計算等領(lǐng)域的應(yīng)用也越來越成熟。
本文首先對差分隱私保護的基本理論進行了介紹,隨后綜述了差分隱私保護在數(shù)據(jù)發(fā)布與分析、云計算與大數(shù)據(jù)計算、面向位置與軌跡服務(wù)和社交網(wǎng)絡(luò)中的應(yīng)用。從本文所做綜述中不難看出,針對差分隱私保護應(yīng)用的研究主要集中在保證數(shù)據(jù)滿足差分隱私保護要求的同時,如何提高數(shù)據(jù)可用性與降低算法復(fù)雜度上。針對這一核心問題,相關(guān)研究從差分隱私保護原理、噪聲添加機制與位置以及數(shù)據(jù)處理方式等方面已對差分隱私保護的應(yīng)用取得了卓有成效的優(yōu)化,且相關(guān)應(yīng)用成果可以在多個領(lǐng)域的不同場景下交叉應(yīng)用。但是,在大數(shù)據(jù)環(huán)境下,差分隱私保護想要得到系統(tǒng)性、普遍性的應(yīng)用,還需從以下幾個方面開展下一步的研究。
1)隱私識別與量化評估技術(shù)
數(shù)據(jù)隱私主動防護體系的基礎(chǔ)是隱私分級與量化評估。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)來源復(fù)雜、數(shù)據(jù)操作繁多等因素都將造成隱私識別與量化評估的困難[70]。對于差分隱私保護而言,隱私識別能夠區(qū)分數(shù)據(jù)集中的隱私數(shù)據(jù)與一般數(shù)據(jù),明確差分隱私保護的對象,減少因保護范圍的無故擴大造成的開銷;量化評估則可以區(qū)分隱私數(shù)據(jù)的重要程度,明確差分隱私保護的隱私級別,利于解決數(shù)據(jù)隱私性與可用性的平衡問題,即隱私預(yù)算量ε的設(shè)置與分配問題。合理的隱私預(yù)算分配,將使差分隱私保護的效用最大化。特別是在高速動態(tài)數(shù)據(jù)流的情況下,只有在對隱私預(yù)算量ε進行合理設(shè)置與分配的情況下,差分隱私保護才能持續(xù)高效地對隱私數(shù)據(jù)提供保護,在這個過程中,隱私識別與量化評估技術(shù)則顯得尤為重要。今后隱私識別與量化評估可通過隱私概念公理化表述、隱私及隱私集合測度概念提出、隱私計算體系構(gòu)建、隱私計算方法探究、隱私保護效果評估及系統(tǒng)化保護應(yīng)用研究等展開。
2)主動差分隱私保護框架確立
從當前的研究情況來看,差分隱私保護在大數(shù)據(jù)環(huán)境下的應(yīng)用往往是被動進行的,存在場景依賴缺陷。針對不同隱私保護對象與不同隱私保護需求的差分隱私保護過程中,需重新設(shè)計相應(yīng)算法,沒有形成智能化的主動差分隱私保護框架。
在大數(shù)據(jù)環(huán)境下,建立主動差分隱私保護框架主要需解決兩方面的問題:①由于查詢函數(shù)種類多造成的查詢函數(shù)敏感度主動計算困難問題;② 由于數(shù)據(jù)類型復(fù)雜引起的噪聲機制自動優(yōu)化困難問題。針對問題①,可進一步研究查詢函數(shù)敏感度邊界設(shè)定與差分隱私保護效用之間的博弈關(guān)系,尋求以近似敏感度代替精確敏感度的同時使額外噪聲量降到最低;針對問題②,可將噪聲機制的優(yōu)化過程拆分成可合并的多個方面,研究噪聲機制的選擇性優(yōu)化方法。
3)多元融合的差分隱私保護體系構(gòu)建
差分隱私保護通過引入足夠的噪聲量來滿足其嚴格的隱私定義。但在大數(shù)據(jù)環(huán)境下,往往會出現(xiàn)由于添加的噪聲量過大造成大數(shù)據(jù)不可用的情況。針對這一問題,一些學者試圖通過降低差分隱私保護的隱私級別來提高數(shù)據(jù)的可用性[26,71-72]。從該角度出發(fā),可研究建立多元融合的差分隱私保護體系,尋求將現(xiàn)有的多種隱私保護技術(shù)與差分隱私保護融合到同一體系中,當出現(xiàn)因需滿足數(shù)據(jù)可用性而造成差分隱私保護隱私性降低的情況時,研究應(yīng)用其他隱私保護技術(shù)彌補隱私性的相關(guān)方法。
4)新信息技術(shù)框架下差分隱私應(yīng)用方法
隨著信息技術(shù)的不斷發(fā)展,大數(shù)據(jù)環(huán)境下的數(shù)據(jù)隱私特征也在不斷發(fā)展和變化,具體表現(xiàn)在數(shù)據(jù)使用權(quán)由封閉轉(zhuǎn)向開放、數(shù)據(jù)計算由單極轉(zhuǎn)向多級、數(shù)據(jù)所有權(quán)由固化轉(zhuǎn)向流通、數(shù)據(jù)隱私邊界由粗放轉(zhuǎn)向精細。當前的隱私保護技術(shù)、數(shù)據(jù)管理策略、運營保障制度在新信息技術(shù)框架下存在許多短板。因此,對于差分隱私保護,需研究新信息技術(shù)框架下其具體應(yīng)用方法,當前而言,具體可研究在5G 通信網(wǎng)絡(luò)下差分隱私如何在工業(yè)互聯(lián)網(wǎng)中有效實施、在基于人工智能所衍生的隱私威脅下如何保證差分隱私不失效、依托人工智能成果輔助優(yōu)化差分隱私保護效用等多個方面。