許 杰,聶大成,李明桂,李春林
(中國電子科技集團公司第三十研究所,四川 成都 610041)
?
基于幾何變形的大數(shù)據(jù)安全隱私保護方法*
許 杰,聶大成,李明桂,李春林
(中國電子科技集團公司第三十研究所,四川 成都 610041)
隱私保護已經(jīng)成為大數(shù)據(jù)安全的重要研究內容之一。在分析了影響大數(shù)據(jù)安全隱私三個方面的基礎上,提出了一種基于幾何變形的大數(shù)據(jù)安全隱私保護方法。該方法從數(shù)據(jù)源的角度出發(fā),使用幾何變形的方法對數(shù)據(jù)進行干擾,使得數(shù)據(jù)聚類算法失效或分析得出錯誤的結果,從而達到大數(shù)據(jù)安全隱私保護的目的。在實際使用中,該方法效果良好。
大數(shù)據(jù); 幾何變形; 隱私保護
隨著信息安全上升到國家安全層面,人們對個人隱私問題也越來越重視。大數(shù)據(jù)隱含價值在被挖掘的同時,隱私保護已經(jīng)成為大數(shù)據(jù)安全的重要研究內容之一[1-4]。
大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)形式多樣性的特點[5],通過對大數(shù)據(jù)的挖掘,能為科學家、企業(yè)家、產(chǎn)品經(jīng)理、銷售人員等在計劃制定和決策輔助上提供幫助,能為科學研究、企業(yè)發(fā)展和工業(yè)生產(chǎn)提供巨大的機會進行優(yōu)化和創(chuàng)新。因此,大數(shù)據(jù)受到了全球各行各業(yè)的重視和追捧。但在大數(shù)據(jù)為我們帶來巨大價值的同時,也應該意識到如果數(shù)據(jù)沒有合理的安全保障和加密措施,大數(shù)據(jù)將意味著重大隱私安全問題。
對于大數(shù)據(jù)的隱私安全問題,可以從以下3個方面來理解:
(1)數(shù)據(jù)源:這是最能充分完全挖掘大數(shù)據(jù)價值的部分。數(shù)據(jù)源包括了來自多源異構的應用設備和數(shù)據(jù)庫的結構化數(shù)據(jù)、來自網(wǎng)頁的半結構化數(shù)據(jù)和來自多種不同類型文件的非結構化數(shù)據(jù)。這些數(shù)據(jù)包括了視頻、電子表格、社會媒體信息等,而且,每天都有各種新數(shù)據(jù)源加入,這就使得系統(tǒng)必須具備處理多樣性數(shù)據(jù)的能力。令人擔憂的是這些數(shù)據(jù)中包含的大量的個人身份信息、信用卡信息、知識產(chǎn)權信息、健康醫(yī)療信息等重要信息,這些信息都涉及到個人和企業(yè)隱私問題,如果沒有有效的安全策略進行保護,將直接導致隱私泄露。
(2)大數(shù)據(jù)框架:大數(shù)據(jù)環(huán)境不管是基于Hadoop、MongoDB、NoSQL、Teradata等開源大數(shù)據(jù)生態(tài)系統(tǒng)構建還是其他系統(tǒng)構建,都必須隨時對大量的敏感數(shù)據(jù)進行管理,這些敏感數(shù)據(jù)不僅僅是保存在大數(shù)據(jù)節(jié)點上的數(shù)據(jù),也可能來自系統(tǒng)日志、配置文件、錯誤日志及其他大數(shù)據(jù)自身產(chǎn)生的數(shù)據(jù)。若管理不當,將直接導致數(shù)據(jù)的安全問題。
(3)數(shù)據(jù)分析:大數(shù)據(jù)最大的成就在于輸出的數(shù)據(jù)分析結果。這些輸出的結果可以幫助企業(yè)進行優(yōu)化和創(chuàng)新,可以幫助科學家進行深度的分析和研究。這些信息可以通過儀表盤和報告的形式,通過可視化技術為用戶呈現(xiàn),并可根據(jù)需要進行查詢。對于一些大企業(yè)來說,大數(shù)據(jù)分析結果會呈現(xiàn)企業(yè)最敏感的全部資產(chǎn)數(shù)據(jù)。如果這些數(shù)據(jù)落入對手的手中,后果將不堪設想。
從上述的三個方面可以看出,如果從數(shù)據(jù)源就開始考慮對數(shù)據(jù)進行有效的隱私保護,不僅可以有效的防止數(shù)據(jù)分析導致的隱私泄露,同時也減輕了大數(shù)據(jù)框架在安全防護上的壓力,從而可以達到從整體上對大數(shù)據(jù)安全隱私進行有效的保護和防護的目的。因此,本文提出了一種基于對數(shù)據(jù)進行幾何變形的大數(shù)據(jù)安全隱私保護方法。該方法通過幾何變形擾亂數(shù)據(jù)間固有的聚類關系,使得后續(xù)的數(shù)據(jù)分析無法從原始數(shù)據(jù)中挖掘出有價值的信息,或者得出錯誤的聚類分析結果,從而達到隱私保護的目的。
大數(shù)據(jù)安全隱私保護系統(tǒng)整體架構如圖1所示。
圖1 大數(shù)據(jù)安全隱私保護系統(tǒng)架構
整體架構基于開源工具搭建,安全隱私保護模塊貫穿于整個大數(shù)據(jù)處理過程,從數(shù)據(jù)的采集、傳輸、分析到可視化呈現(xiàn)。本文提出的方法主要涉及到數(shù)據(jù)的采集、傳輸和分析過程。其過程說明如下:
首先,對數(shù)據(jù)源收集的數(shù)據(jù)經(jīng)過安全隱私保護模塊使用幾何變形進行數(shù)據(jù)干擾,將干擾后的數(shù)據(jù)存入大數(shù)據(jù)存儲系統(tǒng);
其次,在大數(shù)據(jù)處理分析平臺中對數(shù)據(jù)的訪問和分析處理,必須通過安全隱私保護模塊,先通過授權,然后對數(shù)據(jù)進行逆向幾何變形還原后進行。
通過上述的過程可以看出,如果系統(tǒng)中授權出現(xiàn)問題,導致非法用戶在沒有經(jīng)過授權的情況下也可以直接訪問數(shù)據(jù),那么得到的也是經(jīng)過幾何變形的數(shù)據(jù),而非真正的原始數(shù)據(jù),從而達到了隱私保護的目的。
在計算機視覺中,視頻中相鄰兩幅圖像間的運動關系可以由矩陣變換來表示,這種矩陣變換描述了圖像間的二維變換關系,也可以看成是圖像中的像素點通過幾何變換后投影到另一幅圖像上[6]。基本的二維變換關系有平移、旋轉、縮放和切變。通過這些基本的二維變換關系的組合,可以得到數(shù)據(jù)的平移變換(translation)、歐氏變換(Euclidean)、相似變換(similarity)、仿射變換(affine)和投影變換(projective),如圖2所示。
圖2 二維圖像變換
下面以相似變換(similarity)為例說明其變換原理。相似變換可以描述圖像的平移、旋轉和縮放。即可對數(shù)據(jù)進行平移、旋轉和縮放的變換。其變換形式表示如下:
(1)
式中,Xt=[xt,yt]T,表示第t幀圖像中像素點的坐標,θ旋轉角度,tx和ty為水平方向和垂直方向的平移量,標量s表示均勻縮放。該公式的物理描述為:在第t-1幀圖像中的像素點X,經(jīng)過平移、旋轉和縮放的幾何變形后,被投影到第t幀圖像中,使其改變了在第t-1幀中的位置。而該平移、旋轉和縮放矩陣也描述了該像素在兩幅圖像間的變換關系。如圖3所示,左邊圖像中的點可以在右邊圖像中找到相對應的點,這些點經(jīng)過相似變換(平移、旋轉和縮放)后位置發(fā)生了變化,從左邊圖像映射到右邊圖像中。
圖3 相似變換
大數(shù)據(jù)系統(tǒng)中收集的數(shù)據(jù)具有不同的屬性,每個屬性涉及的隱私信息程度不同,可根據(jù)實際的需要,賦予不同屬性不同的安全等級。在幾何變形中也只需對其中幾個重要的屬性進行幾何變形即可,這樣在實現(xiàn)隱私保護的同時,也保證了整個系統(tǒng)不會因為過度的數(shù)據(jù)干擾處理而影響性能。下面分別說明使用平移、旋轉和縮放的幾何變形進行數(shù)據(jù)干擾。
3.1 平移數(shù)據(jù)干擾
平移數(shù)據(jù)干擾可以看成對原始數(shù)據(jù)添加了加性噪聲,這些噪聲分別被添加到隱私屬性的數(shù)值中,噪聲值是一個常量,其值可以為正,也可為負。算法過程說明如下:
Input:隱私屬性集V,噪聲集TNadd
Output:干擾后隱私屬性集V′
Step1:for 每一個隱私屬性Aj∈V
選擇兩個隱私屬性Aj,Aj+k,k為預先設定值;
選擇一個加性噪聲項ej∈TNadd
Step2:將選擇的隱私屬性對Aj,Aj+k,和加性噪聲項ej組裝成矩陣;
Step3:進行幾何變形計算:
V′←transform(V ,TNadd)
End
為了更清晰的描述數(shù)據(jù)是如何經(jīng)過幾何變形被干擾的,我們在數(shù)據(jù)庫中挑選一些簡單的屬性進行說明。數(shù)據(jù)如表1所示。
表1 例子數(shù)據(jù)
在本例中對年齡和收入進行干擾,加性噪聲參數(shù)取值為(-3,1 000),經(jīng)過幾何變形后的結果如表2所示。
表2 平移干擾后的數(shù)據(jù)
3.2 縮放數(shù)據(jù)干擾
縮放數(shù)據(jù)干擾可以看成對原始數(shù)據(jù)添加了乘性噪聲,該噪聲是一個預先設定的常量,其值可以為正,也可為負。該干擾算法與3.1中平移數(shù)據(jù)干擾類似,只是在計算時將加法操作變成乘法操作。此處仍以表1數(shù)據(jù)為例,選擇年齡和收入進行干擾,乘性噪聲參數(shù)取值為(0.8,1.1),計算結果如表3所示。
表3 縮放干擾后的數(shù)據(jù)
3.3 旋轉數(shù)據(jù)干擾
旋轉干擾可以看成是一個特殊的乘性噪聲,只是其噪聲參數(shù)是一個角度值θ,該θ值可正可負。以表1數(shù)據(jù)為例,此處旋轉噪聲參數(shù)為(cos30,sin30)計算結果如表4所示。
表4 旋轉干擾后的數(shù)據(jù)
從上面的計算結果中可以看出,每個不同數(shù)據(jù)擾亂方法的結果都不一樣,但都能達到影響數(shù)據(jù)挖掘聚類算法的目的,使算法得到錯誤的分析結果,從而達到了隱私保護的目的。上述的算法也可以進行混合干擾,如本文第二部分中講述幾何變形原理中的相似變換,就是將平移、縮放和旋轉進行了混合。在實際的隱私保護過程中,應根據(jù)需要選擇數(shù)據(jù)干擾算法,因為每個算法的效率不一樣,干擾的效果也有差別。根據(jù)經(jīng)驗來看,對于隱私度較低的屬性值可以使用單一的干擾算法,如:平移、旋轉或縮放。而對于隱私度較高的屬性可以使用干擾力度較大的混合算法,如:歐式變換、相似變化或仿射變換。投影變換由于計算復雜度較高,對效率影響較大,故不推薦在大數(shù)據(jù)隱私保護系統(tǒng)中使用。
效果評價及分析包括兩方面:不同幾何變形算法效果評價和異值點(outlier)數(shù)量。評價數(shù)據(jù)采用KDD CUP 99數(shù)據(jù)庫的結構化數(shù)據(jù)進行測試。
4.1 幾何變形算法效果比較
本文提出的幾何變形數(shù)據(jù)干擾方法主要是影響聚類算法的效果,因此,采用經(jīng)典的K-Means對幾種幾何變形算法進行測試。評價方法:通過對原始數(shù)據(jù)和干擾后的數(shù)據(jù)分別進行聚類,對結果中的每個聚類集中數(shù)據(jù)點個數(shù)進行比較,其差值即表示對數(shù)據(jù)進行了干擾,差值的大小也可以在一定程度上說明干擾程度。其計算公式如下:
(2)
式中,N表示數(shù)據(jù)庫中數(shù)據(jù)點個數(shù),k是聚類產(chǎn)生的數(shù)據(jù)集個數(shù),|Clusteri(D)|表示數(shù)據(jù)集中數(shù)據(jù)點個數(shù)。采用K-Means比較后的結果如表5所示。
表5 K-Means比較結果
通過表5中的結果可以看出,每個方法在不同k值下的差值不同,說明了這些方法在干擾上存在差異,其中,旋轉干擾的差異最大,相似干擾略低于它。從差值上看,旋轉干擾應該干擾力度最大。
為了進一步說明問題,本文從另一方面對干擾程度進行評價。對于聚類算法來說,異值點對聚類結果影響很大,甚至會導致聚類失敗。因此,對幾種幾何變形方法產(chǎn)生的異值點也進行了評價,結果如表6所示。
表6 異值點
從表6中可以看出,相似干擾出現(xiàn)的異值點數(shù)量最多,異值點不僅會使聚類算法計算時間增長,也會導致聚類的效果下降。因此,從綜合結果來看相似干擾在評價的幾種方法中對聚類算法的影響最大,隱私保護程度最高。
4.2 與其他算法之間優(yōu)缺點的比較
文獻[7]提出了k項匿名的隱私保護方法,該方法用于公布的數(shù)據(jù)預處理后,任意記錄的各屬性值的組合形式在整個數(shù)據(jù)集中出現(xiàn)k次,即對于任意記錄,至少存在k個與之相同的記錄,該記錄在這些記錄中不可辨識,從而達到隱私保護的目的。k匿名主要通過泛化技術實現(xiàn),在泛化的過程中會導致信息丟失,泛化程度與隱私保護是一對永久的矛盾,泛化程度越高,隱私保護力度越大,但數(shù)據(jù)細節(jié)丟失也越多。
本文提出的方法不存在數(shù)據(jù)丟失的問題,而且計算上較之更簡單,效率更高,更適合在大數(shù)據(jù)環(huán)境下進行隱私保護。
本文重點分析了影響大數(shù)據(jù)安全隱私的三個重要因素,并提出了使用計算機視覺中計算圖像間幾何變換關系的方法對數(shù)據(jù)進行干擾來達到隱私保護的目的。該方法從系統(tǒng)最底層的數(shù)據(jù)源出發(fā)對數(shù)據(jù)進行干擾,干擾后的數(shù)據(jù)不僅使得在分析階段對數(shù)據(jù)進行聚類分析失效或得到錯誤結果,而且,也對大數(shù)據(jù)系統(tǒng)整體的數(shù)據(jù)安全隱私起到了有效的保護。實現(xiàn)了從局部到整體的安全隱私保護。在實際使用中,該方法數(shù)據(jù)的隱私保護表現(xiàn)良好。
[1] 馮登國,張敏,李昊.大數(shù)據(jù)安全與隱私保護[J].計算機學報, 2014,37(01):246-258. FENG Deng-guo, ZHANG Min, LI Hao.Big Data Security and Privacy Protection [J]. Chinese Journal of Computers, 2014, 37(01): 246-258.
[2] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(01):146-169. MENG Xiao-feng, CI Xiang. Big Data Management: Concepts, Techniques and Challenges. Journal ofComputer Research and Development, 2013, 50(01):146-169.
[3] AGRAWAL R, SRIKANT R. Privacy-preserving data mining[C]//ACM Sigmod Record. ACM, 2000, 29(2): 439-450.
[4] VERYKIOS V S, BERTINO E, FOVINO I N, et al. State-of-the-art in Privacy Preserving DataMining[J]. ACM Sigmod Record, 2004, 33(1): 50-57.
[5] 張鋒軍.大數(shù)據(jù)技術研究綜述[J].通信技術,2014,47(11):1240-1248. ZHANG Feng-jun. Overview on Big Data Technology [J]. Communications Technology, 2014, 47 (11): 1240-1248.
[6] RICHAR S. Computer Vision: Algorithms and Applications[M], Springer, 2010.
[7] SAMARATI P, SWEENEY L.Protecting privacy when disclosing information: k-anonymity and its enforcement through generalization and suppression[C]//Proceedings of the IEEE Symposium on Research in Security and Privacy.[s.l.]:IEEE,1998, 1-19.
Privacy Protection of Big Data Security based on Geometric Transformation
XU Jie, Nie Da-cheng, LI Ming-gui, LI Chun-lin
(No.30 Institute of CETC, Chengdu Sichuan 610041, China)
Privacy protection becomes an important research topic of big data security. This paper firstly analyzes the three factors of big data security, and then proposes a privacy protection method of big data security based on geometric transformation. This method, from the perspective of data source,and with geometric transformation technique,interferes with the data, thus to make the clustering algorithm lose efficacy or acquire inaccurate results,and further to achieve privacy protection of big data security.The practical application indicates that the proposed method is feasible and effective.
big data; geometric transformation; privacy protection
10.3969/j.issn.1002-0802.2015.05.019
2014-11-21;
2015-03-16 Received date:2014-11-21;Revised date:2015-03-16
國家自然科學基金項目(No.61202043)
Foundation Item:National Natural Science Foundation Project (No. 61202043)
TP309
A
1002-0802(2015)05-0602-05
許 杰(1978—),男,博士,工程師,主要研究方向為信息安全與大數(shù)據(jù);
聶大成(1986—),男,博士,主要研究方向為數(shù)據(jù)挖掘與異常檢測;
李明桂(1989—),男,碩士研究生,主要研究方向為信息安全與大數(shù)據(jù);
李春林(1984—),男,博士研究生,主要研究方向為信息安全。