李森有,季新生,游偉
基于置信度分析的差分隱私保護(hù)參數(shù)配置方法研究
李森有,季新生,游偉
(國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,河南 鄭州 450002)
差分隱私;置信度分析;概率推理攻擊模型;隱私保護(hù)
近年來(lái),隨著信息技術(shù)的迅猛發(fā)展,用戶(hù)數(shù)據(jù)爆炸式增長(zhǎng)[1]。通過(guò)數(shù)據(jù)挖掘和信息收集提取的個(gè)人信息成為各類(lèi)研究機(jī)構(gòu)、組織和政府部門(mén)等研究和決策的寶貴資源。海量用戶(hù)數(shù)據(jù)的分析和使用在給人們生活帶來(lái)便利的同時(shí)也給用戶(hù)隱私保護(hù)帶來(lái)巨大的威脅。20世紀(jì)以來(lái),如何在數(shù)據(jù)發(fā)布過(guò)程中保護(hù)個(gè)人隱私數(shù)據(jù)以抵御統(tǒng)計(jì)披露攻擊成為隱私保護(hù)領(lǐng)域的研究重點(diǎn)[2]。早期的基于數(shù)據(jù)失真、基于數(shù)據(jù)加密以及基于限制發(fā)布的隱私保護(hù)技術(shù)通過(guò)-anonymity、-diversity以及-closeness等方法[3-5]泛化敏感信息的標(biāo)志屬性在一定程度上能夠抵抗部分攻擊,但是對(duì)于一些新的攻擊模型(如背景知識(shí)攻擊、相似性攻擊和傾斜攻擊等)仍會(huì)面臨隱私數(shù)據(jù)泄露的威脅。
差分隱私[6-8]是Dwork針對(duì)統(tǒng)計(jì)數(shù)據(jù)庫(kù)的隱私泄露問(wèn)題提出的一種新的基于嚴(yán)格數(shù)學(xué)背景的隱私保護(hù)機(jī)制,通過(guò)使用輸出擾動(dòng)技術(shù)對(duì)查詢(xún)輸出進(jìn)行添加隨機(jī)噪聲處理,使單個(gè)記錄在數(shù)據(jù)集中或者不在數(shù)據(jù)集中,對(duì)計(jì)算結(jié)果的影響微乎其微。即使在攻擊者擁有最大背景知識(shí)的條件下,也能夠保證攻擊者無(wú)法通過(guò)觀察計(jì)算結(jié)果獲取準(zhǔn)確的個(gè)體信息。同時(shí)為隱私保護(hù)度量提供了量化評(píng)估方法,使不同隱私保護(hù)參數(shù)下的隱私保護(hù)水平具有可比較性[9]。
本文參考文獻(xiàn)[15]對(duì)差分隱私保護(hù)機(jī)制中攻擊者推斷成功概率研究,對(duì)差分隱私保護(hù)中攻擊者置信度進(jìn)行分析,設(shè)置隱私保護(hù)概率閾值以實(shí)現(xiàn)對(duì)隱私披露概率的控制,提出了一種基于置信度分析的差分隱私保護(hù)參數(shù)配置方法。首先,根據(jù)攻擊者概率推理攻擊模型對(duì)不同置信區(qū)間、噪聲分布的位置參數(shù)以及尺度參數(shù)下的攻擊者置信度進(jìn)行分析;然后,根據(jù)所查詢(xún)數(shù)據(jù)的隱私保護(hù)屬性設(shè)置隱私保護(hù)概率閾值,在配置隱私保護(hù)參數(shù)時(shí)保證攻擊者置信度不高于所設(shè)置的隱私保護(hù)概率閾值;最后,針對(duì)不同查詢(xún)用戶(hù)查詢(xún)權(quán)限的差異,研究用戶(hù)查詢(xún)權(quán)限對(duì)隱私保護(hù)參數(shù)配置的影響,從而配置更加合理的隱私保護(hù)參數(shù)。同時(shí)在差分隱私保護(hù)模型中引入可用性評(píng)估模塊,在保護(hù)隱私的同時(shí)對(duì)數(shù)據(jù)的可用性進(jìn)行分析,實(shí)現(xiàn)了可控的敏感數(shù)據(jù)隱私性和可用性保護(hù),大大降低了隱私泄露的危險(xiǎn)。
本節(jié)介紹一些差分隱私的定義和相關(guān)概念。
定義1[17]差分隱私
定義2 函數(shù)敏感度[18]
函數(shù)敏感度是決定在查詢(xún)函數(shù)的返回值中添加噪聲量大小的重要參數(shù),僅和查詢(xún)函數(shù)本身性質(zhì)相關(guān),是指在數(shù)據(jù)集中刪除或添加任意一條記錄后對(duì)輸出結(jié)果產(chǎn)生的最大影響。
定義3 差分攻擊
定義4 基于置信區(qū)間分析的概率推理攻擊
概率推理攻擊意味著攻擊者能夠從查詢(xún)返回結(jié)果中通過(guò)使用噪聲分布規(guī)律結(jié)合其置信區(qū)間設(shè)定推斷查詢(xún)的真實(shí)結(jié)果。概率推理攻擊過(guò)程如下。
Laplace概率密度曲線如圖1所示,服從Laplace分布的隨機(jī)變量x的概率密度函數(shù)為
其中,位置參數(shù)和尺度參數(shù)直接影響數(shù)據(jù)的分布情況。當(dāng)尺度參數(shù)b取值較小時(shí),服從Laplace分布的數(shù)據(jù)大多集中在位置參數(shù)附近。當(dāng)攻擊者對(duì)數(shù)據(jù)庫(kù)進(jìn)行計(jì)數(shù)查詢(xún)請(qǐng)求時(shí),其使用差分攻擊和概率推理攻擊得到噪聲x集中分布在置信區(qū)間[?0.5, 0.5]時(shí)(如圖1所示各分布曲線陰影區(qū)域),攻擊者可以很容易得出所查詢(xún)問(wèn)題的真實(shí)值,進(jìn)而分析得出所攻擊對(duì)象的隱私信息。在這種情況下,攻擊者的置信區(qū)間選取以及噪聲分布情況反映了攻擊者獲取某個(gè)具體記錄隱私信息的難易程度。
為了防止差分隱私概率推理攻擊,本文提出了一種基于置信度分析的差分隱私保護(hù)參數(shù)配置方法,在保持?jǐn)?shù)據(jù)效用的條件下,在所提出的差分隱私保護(hù)框架下,通過(guò)配置合理的隱私保護(hù)參數(shù)添加適量的噪聲達(dá)到隱私保護(hù)的目的。
表1 符號(hào)列表
如圖2所示,本文提出一種基于置信度分析的差分隱私保護(hù)參數(shù)配置方法。為了防止攻擊者通過(guò)差分攻擊和概率推理攻擊,對(duì)決定所添加噪音幅度的隱私保護(hù)參數(shù)的配置方法進(jìn)行研究。首先分析攻擊者的查詢(xún)請(qǐng)求及其查詢(xún)權(quán)限,根據(jù)這個(gè)結(jié)果可以做出一個(gè)概率推理模型分析攻擊者獲取真實(shí)結(jié)果的把握,即置信度(由置信區(qū)間決定)。然后,根據(jù)數(shù)據(jù)的隱私保護(hù)屬性確定隱私保護(hù)概率閾值,確保攻擊者獲取真實(shí)結(jié)果的置信度不超過(guò)所設(shè)定的概率閾值,從而推導(dǎo)出差分隱私保護(hù)參數(shù)配置的數(shù)學(xué)表達(dá)式。最后,當(dāng)數(shù)據(jù)查詢(xún)者提出一個(gè)查詢(xún)請(qǐng)求時(shí),它會(huì)得到根據(jù)導(dǎo)出參數(shù)添加噪聲的不精確信息。同時(shí),在保護(hù)模型中添加可用性評(píng)估模塊,衡量差分隱私處理后的數(shù)據(jù)可用性,實(shí)現(xiàn)可控的敏感數(shù)據(jù)隱私性和可用性保護(hù),能夠有效防止惡意攻擊者通過(guò)信息查詢(xún)獲取用戶(hù)隱私信息,在降低隱私泄露的前提下大大提高發(fā)布數(shù)據(jù)的有效使用率。
4.2.1 隱私性分析
圖2 基于置信度分析的噪聲參數(shù)配置方法
4.2.2 可用性分析
在本文的研究中,筆者在差分隱私保護(hù)框架中添加可用性分析模塊來(lái)衡量差分隱私保護(hù)算法中所添加噪聲對(duì)數(shù)據(jù)可用性的影響。從理論角度,通常采用(,)useful[7,19]技術(shù)。
(,)useful:對(duì)于差分隱私算法,設(shè)是一組查詢(xún)函數(shù),是數(shù)據(jù)域。如果對(duì)于任何項(xiàng)數(shù)據(jù)庫(kù),對(duì)于和,若滿(mǎn)足式(7),則算法滿(mǎn)足(,)。
在具體的實(shí)際應(yīng)用中,常根據(jù)不同的使用場(chǎng)景選擇不同的差度量方法,如相對(duì)誤差、絕對(duì)誤差、歐拉函數(shù)以及F-measure等。根據(jù)需要可以選擇平均相對(duì)誤差作為數(shù)據(jù)庫(kù)處理前后數(shù)據(jù)可用性分析的標(biāo)準(zhǔn)。
可用性分析模塊可以判斷差分隱私保護(hù)查詢(xún)返回結(jié)果的數(shù)據(jù)的隱私性和可用性是否滿(mǎn)足用戶(hù)的需求,向隱私保護(hù)模型反饋誤差信息。當(dāng)查詢(xún)處理結(jié)果的數(shù)據(jù)可用性低于用戶(hù)隱私要求或隱私保護(hù)程度不滿(mǎn)足隱私保護(hù)概況閾值設(shè)定時(shí),則重新進(jìn)行添加噪聲處理,直至得到滿(mǎn)足要求的結(jié)果。
4.2.3 置信度分析
通過(guò)以上的分析,為了滿(mǎn)足隱私保護(hù)要求,查詢(xún)者通過(guò)概率推理攻擊獲取真實(shí)結(jié)果的置信度應(yīng)滿(mǎn)足數(shù)據(jù)隱私概率閾值,因此尺度參數(shù)應(yīng)滿(mǎn)足如下方程
4.3.1 尺度參數(shù)分析
步驟1 提取查詢(xún)用戶(hù)的查詢(xún)屬性。對(duì)于每一個(gè)提交查詢(xún)的查詢(xún)用戶(hù)計(jì)算其查詢(xún)等級(jí)以及其查詢(xún)函數(shù)的敏感度。
圖3 不同位置參數(shù)下的攻擊者置信度
圖4 不同置信區(qū)間下的攻擊者置信度
圖5 不同查詢(xún)權(quán)限下的攻擊者置信度
雖然差分隱私受到了廣泛關(guān)注,但如何配置合適的隱私保護(hù)參數(shù)仍然是個(gè)問(wèn)題。本文證明了攻擊者基于置信區(qū)間分析的概率推理攻擊使攻擊者能夠從查詢(xún)返回結(jié)果中通過(guò)使用噪聲分布規(guī)律結(jié)合其置信區(qū)間設(shè)定推斷查詢(xún)的真實(shí)結(jié)果。為了解決上述問(wèn)題,本文通過(guò)對(duì)不同置信區(qū)間、噪聲分布的位置參數(shù)以及尺度參數(shù)下的攻擊者置信度進(jìn)行分析,設(shè)置隱私保護(hù)概率閾值以實(shí)現(xiàn)對(duì)隱私披露概率的控制,設(shè)計(jì)了一種基于置信度分析的差分隱私保護(hù)參數(shù)配置方法。從數(shù)學(xué)實(shí)驗(yàn)分析來(lái)看,所提出的參數(shù)配置方法能夠根據(jù)攻擊者的置信度靈活地選取合適的隱私保護(hù)參數(shù),保證不同查詢(xún)權(quán)限的查詢(xún)者獲取不同準(zhǔn)確性的結(jié)果,很好地解決了查詢(xún)權(quán)限差異性帶來(lái)的隱形披露問(wèn)題。
[1] LIANG F, YU W, AN D, et al. A survey on big data market: pricing, trading and protection[J]. IEEE Access, 2018, 6:15132-15154.
[2] INAN A, GURSOY M E, SAYGIN Y. Sensitivity analysis for non-interactive differential privacy: bounds and efficient algorithms[J]. IEEE Transactions on Dependable & Secure Computing, 2017, (99):1-1.
[3] LATANYA S. k-anonymity: a model for protecting privacy[J]. International Journal on Uncertainty, Fuzziness and Knowledge based Systems. 2002,10(5):557-570.
[4] ASHWIN M, JOHANNES G, DANIEL K. ?-diversity: privacy beyond-anonymity[C]. International Conference on Data Engineering. 2006,1(1): 24-35.
[5] LI N H, LI T C, SURESH V. T-closeness: privacy beyond-anonymity and l-diversity[C]. IEEE International Conference on Data Engineering. 2007:106-115.
[6] DWORK C, ROTH A. The algorithmic foundations of differential privacy [M]. Now Publishers Inc. 2014.
[7] ZHU T Q, LI G, ZHOU W, et al. Differentially private data publishing and analysis: a survey [J]. IEEE Transactions on Knowledge & Data Engineering, 2017, 29(8):1619-1638.
[8] DWORK C. Calibrating noise to sensitivity in private data analysis [J]. Lecture Notes in Computer Science, 2012, 3876(8):265-284.
[9] 熊平, 朱天清, 王曉峰. 差分隱私保護(hù)及其應(yīng)用[J]. 計(jì)算機(jī)學(xué)報(bào), 2014, 37(1):101-122.
XIONG P, ZHU T Q, WANG X F. A survey on differential privacy protection and application[J] Chinese Journal of Computers, 2014, 37(1):101-122.
[10] LI Q, LI Y, ZENG G, et al. Differential privacy data publishing method based on cell merging[C]// IEEE International Conference on Networking, Sensing and Control. 2017:778-782.
[11] SORUIA-COMAS J, DOMINGO-FERRER J, SANCHEZ D, et al. Individual differential privacy: a utility-preserving formulation of differential privacy guarantees [J]. IEEE Transactions on Information Forensics & Security, 2017, 12(6):1418-1429.
[12] SMITH M, LOPEZ MAA, ZWIESSELE M, et al. Differentially private regression with Gaussian processes[C]// International Conference on Artificial Intelligence and Statistics. 2018.
[13] HSU J , GABOARDI M , HAEBERLEN A, et al. Differential privacy: an economic method for choosing epsilon[C]//2014 IEEE 27th Computer Security Foundations Symposium. 2014: 398-410.
[14] LEE J, CLIFTON C. How much is enough? choosingfor differential privacy[C]//International Conference on Information Security. 2011: 325-340.
[15] 何賢芒, 王曉陽(yáng), 陳華輝. 差分隱私保護(hù)參數(shù)的選取研究[J]. 通信學(xué)報(bào), 2015, 36(12):124-130.
HE X M, WANG X Y, CHEN H H. Study on choosing the parameterin differential privacy[J] .Journal on Communications, 2015, 36(12):124-130.
[16] 郝晨艷, 彭長(zhǎng)根, 張盼盼. 重復(fù)攻擊下差分隱私保護(hù)參數(shù)的選取方法[J]. 計(jì)算機(jī)工程, 2018, 44(7): 151-155.
HAO Y C, PENG C G, ZHANG P P. Selection method of differential privacy protection parameterunder repeated attack[J]. Computer Engineering, 2018, 44(7): 151-155.
[17] DWORK C. Differential privacy[J]. Encyclopedia of Cryptography and Security, 2011: 338-340.
[18] DWORK C, ROTH A. The algorithmic foundations of differential privacy[J]. Foundations and Trends in Theoretical Computer Science, 2014, 9(3-4): 211-407.
[19] BONOMI L, XIONG L. A two-phase algorithm for mining sequential patterns with differential privacy[C]// The 22nd ACM International Conference on Information & Knowledge Management. 2013: 269-278.
Research on differential privacy protection parameter configuration method based on confidence level
LI Senyou, JI Xinsheng, YOU Wei
National Digital Switching System Engineering & Technological Research Center, Zhengzhou 450002, China
In order to solve the problem that the user's real data information is disclosed during the data release and analysis process, and reduce the probability of an attacker gaining real results through differential attacks and probabilistic inference attacks, a differential privacy protection parameter configuration method based on confidence level is proposed. Analysis of attacker confidence under attacker probabilistic inference attack model and make it no higher than the privacy probability threshold set according to the data privacy attribute. The proposed method can configure more reasonable privacy protection parameters for different query privilege of query users, and avoids the risk of privacy disclosure. The experimental analysis shows that the proposed method analyzes the correspondence between attacker confidence level and privacy protection parameters based on query privilege, noise distribution characteristics and data privacy attributes, and derives the configuration formula of privacy protection parameters, which configure the appropriate parameters without violating the privacy protection probability threshold.
differential privacy, confidence level, probability inference attack model, privacy protection
s:The National Natural Science Foundation for Creative Research Groups of China (No.61521003,No.61801515), The National Key R&D Program of China (No.2016YFB0801605)
TP309.2
A
10.11959/j.issn.2096?109x.2019036
李森有(1993? ),河南駐馬店人,國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心碩士生,主要研究方向?yàn)樾乱淮苿?dòng)通信技術(shù)、移動(dòng)通信安全、隱私保護(hù)。
季新生(1968? ),男,河南駐馬店人,國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心教授、博士生導(dǎo)師,主要研究方向?yàn)榫W(wǎng)絡(luò)空間安全、移動(dòng)通信網(wǎng)絡(luò)安全、擬態(tài)安全。
游偉(1984? ),男,山東青島人,國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心講師,主要研究方向?yàn)樾乱淮苿?dòng)通信網(wǎng)絡(luò)技術(shù)、移動(dòng)通信網(wǎng)絡(luò)安全。
2019?03?20;
2019?06?06
李森有,lisenyou1993@163.com
國(guó)家自然科學(xué)基金創(chuàng)新研究群體資助項(xiàng)目(No.61521003,No.61801515);國(guó)家重點(diǎn)研發(fā)計(jì)劃基金資助項(xiàng)目(No.2016YFB0801605)
李森有, 季新生, 游偉. 基于置信度分析的差分隱私保護(hù)參數(shù)配置方法研究[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2019, 5(4): 29-39.
LI S Y, JI X S, YOU W. Research on differential privacy protection parameter configuration method based on confidence level[J]. Chinese Journal of Network and Information Security, 2019, 5(4): 29-39.