王寶楠++方賢進
摘要:隨著數(shù)據分析和發(fā)布等應用需求的出現(xiàn)和發(fā)展,如何保護隱私數(shù)據和防止敏感信息泄露成為當前面臨的重大挑戰(zhàn)。文中對差分隱私保護技術的基本原理和特征進行了闡述,重點介紹差分隱私下拉普拉斯機制的線性回歸分析技術,它既保護了用戶的隱私信息,又不影響數(shù)據的可用性,達到了研究目的。在對已有技術深入對比分析的基礎上,指出了差分隱私保護技術的未來發(fā)展方向。
關鍵詞:差分隱私;隱私保護,回歸分析,線性回歸
中圖分類號:TP309 文獻標識碼:A 文章編號:1009-3044(2016)06-0026-04
Based on Differential Privacy of Linear Regression Analysis
WANG Bao-Nan,F(xiàn)ANG Xian-jing
(Department of computer,Anhui University of Science and Technology ,Huainan 232001 ,China)
Abstract: With the emergence and development of data analysis and publishing applications, and how to protect the privacy of data and prevent sensitive information leaks has become a major challenge currently facing. In this paper the basic principles and characteristics of differential privacy protection technologies are described, linear regression analysis focuses on privacy under Laplace differential mechanism, both to protect the user's privacy, without affecting the availability of data, to achieve the purpose .In contrast to the prior art in-depth analysis, based on the difference it pointed out the future direction of development of privacy-enhancing technologies.
Key words: differential privacy; privacy protection; regression analysis; linear Regression
1 引言
信息化社會的發(fā)展進步使得部分機構可以獲得大量個人和組織的數(shù)據信息進行數(shù)據挖掘與分析研究,從而帶來商業(yè)價值和科研價值。例如各大商場的顧客購物數(shù)據和證券公司個人交易數(shù)據的分析與統(tǒng)計等。但是,這些數(shù)據涉及的大量個人隱私信息的數(shù)據發(fā)布和分析都面臨著隱私泄露問題。因此, 隱私保護問題已成為重要的研究課題。隱私保護技術可以解決個人和組織的數(shù)據發(fā)布和數(shù)據分析帶來的隱私安全問題。如何發(fā)布數(shù)據而又不泄露隱私信息是隱私保護技術的主要目的。
當前,差分隱私成為一種新的隱私保護技術,差分隱私保護是通過添加特定的噪聲使得數(shù)據失真來達到隱私保護的目的。與傳統(tǒng)的隱私保護技術相似,差分隱私保護技術的實施主要考慮兩個因素:(1)怎樣保證算法的設計符合差分隱私的定義,從而確保隱私數(shù)據不被泄露;(2)怎樣減少噪聲帶來的誤差,從而提高數(shù)據的可靠性。
文獻[13]借鑒基于差分隱私下拉普拉斯機制與邏輯回歸方法提出一種[ω*]的計算方法 LP Log,此方法先求出[ω*]。然后再往數(shù)據中添加拉普拉斯噪音,然而由于回歸分析的輸入與輸出有緊密的關聯(lián)性,使得敏感度非常高,最后導致預測精度比較低。文獻[14]提出了一種對目標函數(shù)直接擾動的方法,該方法是對元組目標函數(shù)的均值添加噪音。
上述2種回歸分析方法均存在各自的不足。第一種回歸分析方法,它的回歸分類精確度比較低,噪音誤差比較高;第二種方法缺陷在于,基于擾動機制的回歸分析方法目前只適用于特定的目標函數(shù),存在一定的局限性。針對這些缺陷,本文提出基于拉普拉斯機制的線性回歸分析。
2 差分隱私保護
2.1 差分隱私
差分隱私保護通過向數(shù)據中添加噪聲使敏感數(shù)據失真,而部分數(shù)據或數(shù)據屬性保持不變。差分隱私保護技術可以達到這樣一個效果,即在用戶數(shù)據中增加或減少一個記錄數(shù)據,不會影響數(shù)據的輸出結果,不影響數(shù)據的有效性與可靠性。即使在最壞的情況下,如果攻擊者知道數(shù)據中除一條記錄數(shù)據之外的所有數(shù)據信息,仍可以做到保證這一條數(shù)據信息不被泄露的效果。
5 結論
本文介紹差分隱私的相關概念以及隱私保護的重要性。重點研究了差分隱私保護下拉普拉斯機制的線性回歸分析。首先,設計相關算法; 其次,給每一個多項式系數(shù)添加[Lap(2(d+1)2/ε)]噪音,最后在運行噪音目標函數(shù)中優(yōu)化[ω]。最后,發(fā)布噪音數(shù)據。實驗運行結果顯示,隨著隱私預算增加,誤差率越小,數(shù)據可用性較好,實現(xiàn)了數(shù)據的隱私保護。線性回歸分析比較簡單,因為目標函數(shù)就是[ω]多項式本身。差分隱私將是未來一個長期研究的課題,將其應用到回歸分析中,尚有很多需要改進的地方,這是筆者下一步研究的方向。
參考文獻:
[1] 李楊,溫雯,謝光強.差分隱私保護研究綜述[J].計算機應用研究,2012,29(9) : 3201.
[2] DWORK C.A firm foundation for private data analysis[J].Communications of the ACM,2011,54( 1) : 86-95.
[3] Dwork C,McSherry F,Nissim K,Smith A. Calibrating Noise to Sensitivity in Private Data Analysis[C]/ /Proceedings of the 3th Theory of Cryptography Conference ( TCC) . New York,USA,2006: 363-385.
[4] DWORK C.The differential privacy frontier[C]/ /Proc of the 6th International Conference on Theory of Cryptography Conference.Berlin: Springer - Verlag,2009: 496-502.
[5] J. Zhang, X. Xiao, Y. Yang, and et al.. PrivGene: differentially private model fitting using genetic algorithms. SIGMOD, 2013.
[6] Zhang J, Zhang Z, Xiao X, et al. Functional mechanism: Regression analysis under differential privacy[C]/ /Proceedings of the 38th Conference of Very Large Databases(VLDB).Istanbul,Turkey,2012:1364-1375.
[7] C. Dwork. A firm foundation for private data analysis.Commun.ACM,2011,54(1) : 86 – 95.
[8] B. Fung,K. Wang,R. Chen,et al. Privacy - preserving data publishing: A survey of recent developments[J].ACMi.Computing Surveys ( CSUR) ,2010,42(4) : 18.
[9] DWORK C.Differential privacy: a survey of results[C]/ / Proc of the 5th International Conference on Theory and Applicationa of Models of Computation. Berlin: Springer -Verlag,2008: 1-9.
[10] DWORK C.The promise of differential privacy: a tutorial on algorithmic techniques [C]/ /Proc of the 52nd Annual IEEE Symposium on Foundation of Computer Science.Washington DC: IEEE Computer Society,2011:1-2.
[11] Dwork C,McSherry F,Nissim K,Smith A. Calibrating Noise to Sensitivity in Private Data Analysis[C]/ /Proceedings of the 3th Theory of Cryptography Conference ( TCC) . New York,USA,2006: 363-385.
[12] McSherry F,Talwar K. Mechanism Design via Differential Privacy[C]/ /Proceedings of the 48th Annual IEEE Symposium on Foundations of Computer Science ( FOCS) .Providence,RI,USA,2007: 94 -103.
[13] Smith A. Privacy-preserving statistical estimation with optimal convergence rate[C].Proceedings on the 43th Annual ACM Symposium on Theory of Computing(STOC).2011:813-822.
[14] Chaudhuri K,Monteleoni C. Privacy-preserving logistic regression[C].Proceedings of the 20th Annual Conference on Neural Information ProcessingSystem(NIPS).Vancouver,British Columbia,Canada,2008:289-296.