梁曉兵,許 斌,翟 峰,沈 博
1.中國(guó)電力科學(xué)研究院有限公司,北京100192
2.中國(guó)科學(xué)院 信息工程研究所 信息安全國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京100093
3.中國(guó)科學(xué)院大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,北京100049
隨著云計(jì)算、物聯(lián)網(wǎng)等信息技術(shù)的快速發(fā)展,智能電網(wǎng)變得越來(lái)越智能化、高效化[1]。電網(wǎng)企業(yè)的信息系統(tǒng)中已經(jīng)積累了海量用電數(shù)據(jù)。使用數(shù)據(jù)挖掘與分析[2]技術(shù)對(duì)海量用電數(shù)據(jù)得到的分析結(jié)果,一方面,可以幫助電網(wǎng)企業(yè)為用戶提供個(gè)性化的用電服務(wù),為電網(wǎng)企業(yè)建設(shè)起到?jīng)Q策與預(yù)測(cè)作用。另一方面,可以推測(cè)出用電客戶的家庭人員情況、生活作息規(guī)律等信息,從而造成個(gè)人隱私泄露。
目前,基于智能電表與用電數(shù)據(jù)是兩種常見防止用電用戶隱私泄露的方法[3]。其中,基于智能電表的隱私保護(hù)技術(shù),通常采用增加硬件設(shè)計(jì)開銷實(shí)現(xiàn)對(duì)智能電表的隱私保護(hù),但這種方式往往會(huì)引起較差的用戶體驗(yàn)。而基于用電數(shù)據(jù)的隱私保護(hù)技術(shù),通過(guò)對(duì)用電數(shù)據(jù)進(jìn)行隱私保護(hù),在對(duì)用戶的隱私實(shí)現(xiàn)合理保護(hù)的同時(shí),保證隱私保護(hù)后數(shù)據(jù)的可用性。因此,在精準(zhǔn)分析用戶用電數(shù)據(jù)的同時(shí),如何防止用戶隱私泄露成為現(xiàn)階段隱私保護(hù)領(lǐng)域的研究熱點(diǎn)。
隱私保護(hù)數(shù)據(jù)發(fā)布包括兩類常用的方法,一類是以k-anonymity[4]、l-diversity[5]、t-closeness[6]為代表的聚類方法,這些方法根據(jù)屬性分布對(duì)數(shù)據(jù)進(jìn)行聚類處理,雖然有效、可行,但缺乏理論基礎(chǔ)。現(xiàn)有的k-anonymity等基于聚類的隱私保護(hù)大數(shù)據(jù)發(fā)布模型,采用概化與壓縮的方法保護(hù)一條數(shù)據(jù)記錄中屬性之間的關(guān)系。但這些模型,無(wú)法在數(shù)據(jù)隱私性與可用性之間進(jìn)行權(quán)衡,而且無(wú)法抵抗攻擊者背景知識(shí)攻擊。
差分隱私(Differential Privacy)[7]模型從根本上解決了基于聚類的隱私保護(hù)方法的不足,對(duì)隱私泄露風(fēng)險(xiǎn)給出了嚴(yán)格的、定量化的表示和證明,但經(jīng)該方法處理后的數(shù)據(jù)可用性較差。在采用差分隱私技術(shù)對(duì)大數(shù)據(jù)發(fā)布階段進(jìn)行隱私保護(hù)時(shí),其使用的隨機(jī)化機(jī)制由于數(shù)據(jù)的稀疏性與高維性,引入大量的擾動(dòng)誤差,最終導(dǎo)致發(fā)布數(shù)據(jù)可用性較差。因此,設(shè)計(jì)可抵抗背景知識(shí)攻擊且可維持?jǐn)?shù)據(jù)可用性的隱私保護(hù)模型具有重要的研究意義。
已有研究工作主要集中在設(shè)計(jì)有效的隱私保護(hù)模型解決上述存在的問(wèn)題。Chai 等人[8]提出一種基于kmeans 數(shù)據(jù)匿名化算法,現(xiàn)實(shí)對(duì)數(shù)據(jù)集進(jìn)行隱私保護(hù)。Chong等人[9]提出一種基于數(shù)據(jù)合成與替換的擾動(dòng)機(jī)制NESDO,該機(jī)制可以有效地保持敏感數(shù)據(jù)的特性。Zhang等人[10]提出了一種基于差分隱私的概率不可區(qū)分機(jī)制,在此機(jī)制的基礎(chǔ)上提出了一種位置偏移方案來(lái)混淆查詢和位置之間的相關(guān)性。劉曉遷等人[11]提出了一種基于數(shù)據(jù)匿名化技術(shù)的隱私保護(hù)數(shù)據(jù)發(fā)布方法,該方法通過(guò)向匿名數(shù)據(jù)添加噪聲實(shí)現(xiàn)對(duì)敏感數(shù)據(jù)的隱私保護(hù)。Zhang 等人[12]提出了一種基于CP-ABE 的相似屬性匿名方案,在中心服務(wù)器和協(xié)作用戶的幫助下,該方案能夠抵抗推理攻擊,并能抵抗查詢服務(wù)中任何實(shí)體的隱私檢測(cè)。Ke等人[13]提出一種基于準(zhǔn)標(biāo)識(shí)符分類的差分隱私保護(hù)數(shù)據(jù)發(fā)布方法AQ-DP,解決準(zhǔn)標(biāo)識(shí)符和敏感信息之間失去相關(guān)性的問(wèn)題。
本文所做的工作與上述工作不同,通過(guò)將信息論、數(shù)據(jù)匿名化和差分隱私結(jié)合解決大數(shù)據(jù)發(fā)布與共享中的問(wèn)題。首先,從原始數(shù)據(jù)集選出少量準(zhǔn)標(biāo)識(shí)符屬性與敏感屬性作為特征集,然后采用最大信息系數(shù)對(duì)原始數(shù)據(jù)集中的剩余屬性與特征集屬性進(jìn)行相關(guān)性分析,從中選出相關(guān)性高的數(shù)據(jù)作為隱私數(shù)據(jù)集,最后對(duì)隱私數(shù)據(jù)集應(yīng)用所提出的協(xié)同隱私保護(hù)算法,發(fā)布滿足差分隱私保護(hù)的用電大數(shù)據(jù)集。
根據(jù)隱私級(jí)別,將待發(fā)布數(shù)據(jù)表中的屬性分為四類。
如表1所示,用電數(shù)據(jù)集由顯式標(biāo)識(shí)符、準(zhǔn)標(biāo)識(shí)符、敏感屬性、非敏感屬性組成。
(1)顯式標(biāo)識(shí)符(Explicit Identifier,EI):可以唯一確定個(gè)人身份的屬性值,如用戶編號(hào)、戶名等。
(2)準(zhǔn)標(biāo)識(shí)符(Quasi-Identifier,QI):與其他外部信息結(jié)合后,可以重新確定個(gè)人信息的屬性,如電表號(hào)、用電示數(shù)等。
(3)敏感屬性(Sensitive Attribute,SA):不能被外界所知的個(gè)人隱私信息,如聯(lián)系電話、聯(lián)系地址、用電地址。
(4)其他屬性(Other Attributes):對(duì)隱私?jīng)]有影響的所有其他屬性,如繳費(fèi)方式。
從表中可知,用電數(shù)據(jù)集中包含一些個(gè)人隱私信息,在對(duì)外發(fā)布與共享前需進(jìn)行相應(yīng)的保護(hù)。
表1 用電數(shù)據(jù)集
最大信息系數(shù)(Maximum Information Coefficient)由Reshef等人[14]在2011年提出,它以信息論與互信息論為基礎(chǔ)用來(lái)檢測(cè)數(shù)據(jù)集中變量之間潛在的線性或非線性關(guān)聯(lián)關(guān)系,被廣泛應(yīng)用于大數(shù)據(jù)的相關(guān)性分析,通過(guò)網(wǎng)格劃分方法計(jì)算不同網(wǎng)格中兩個(gè)變量形成的概率分布來(lái)計(jì)算所有不同網(wǎng)格的最大互信息[15]。
定義1(互信息)給定變量A={ai,i=1,2,…,n}和B={bi,i=1,2,…,n},n 為樣本數(shù)量,則:
式中,p(a,b)為A 和B 的聯(lián)合概率密度,p(a)和p(b)分別為A 和B 的邊緣概率密度。
定義2(最大互信息)假設(shè)D={(ai,bi),i=1,2,…,n}為一個(gè)有限的有序?qū)Φ募?,定義劃分G 將變量A 的值域分成x 段,將變量B 的值域分成y 段,G 即為x×y的網(wǎng)格。在得到的每一種網(wǎng)格劃分內(nèi)部計(jì)算互信息MI(A,B),相同x×y 的網(wǎng)格劃分有多種,取不同劃分方式中的MI(A,B)最大值作為劃分G 的互信息值,則:
式中,D|G 表示數(shù)據(jù)D 在使用G 進(jìn)行劃分。
定義3(特征矩陣)將不同劃分下得到的最大歸一化的MI 值組成特征矩陣M(D)x,y,則:
定義4(最大信息系數(shù))設(shè)n 是數(shù)據(jù)集D 中兩個(gè)隨機(jī)變量X 和Y 形成的散點(diǎn)數(shù),則:
式中,B(n)為網(wǎng)格x×y 的上限值,當(dāng)B(n)=n0.6時(shí)效果最好。
微聚集(Microaggregation)[16]是實(shí)現(xiàn)k-匿名的一種方法,將相似數(shù)據(jù)劃分為同一類,每個(gè)類至少有k 條記錄,然后用類質(zhì)心代替類中所有記錄的準(zhǔn)標(biāo)識(shí)符屬性值,實(shí)現(xiàn)數(shù)據(jù)的匿名化。常用的微聚集技術(shù)由劃分和聚集兩個(gè)步驟組成。
定義5(k-劃分)給定數(shù)據(jù)集D(A1,A2,…,Ad),包含p 個(gè)準(zhǔn)標(biāo)識(shí)符Qid={qid1,qid2,…,qidp}。對(duì)于?i,ni為第i 類的元組數(shù),用準(zhǔn)標(biāo)識(shí)符將數(shù)據(jù)集劃分為g 個(gè)類,每個(gè)類中至少包含k 條數(shù)據(jù)記錄。
定義6(聚集)給定數(shù)據(jù)集D,對(duì)準(zhǔn)標(biāo)識(shí)符進(jìn)行k-劃分為g 個(gè)類,設(shè)Ci為第i 類元組類質(zhì)心,用Ci(i=1,2,…,g)取代所在類內(nèi)的所有元素的操作為聚集。
差分隱私是一種基于數(shù)據(jù)失真的隱私保護(hù)技術(shù),其基本思想是在最大限度的保證對(duì)數(shù)據(jù)庫(kù)查詢結(jié)果的可用性,同時(shí)保護(hù)數(shù)據(jù)庫(kù)中的個(gè)人隱私不被泄露。
定義7(ε-差分隱私)對(duì)于給定鄰近數(shù)據(jù)集D 和D′, ||DΔD′ =1,若存在隱私算法M ,Range(M)是M的取值范圍,若算法M 在數(shù)據(jù)集D 和D′上的任意輸出結(jié)果S(S ∈Range(M))滿足下式,則稱算法M 滿足ε-差分隱私。其中ε 表示隱私預(yù)算。
從上式可以看出,隱私預(yù)算ε 越小,隱私保護(hù)的程度越高。
定義8(全局敏感度)[17]定義鄰近數(shù)據(jù)集D 和D′,對(duì)于任意的查詢函數(shù)f:D →Rd,則查詢函數(shù)的全局敏感度為:
其中,R 表示函數(shù)所映射的實(shí)數(shù)空間,d 表示函數(shù)f 的查詢維度。
定義9(拉普拉斯機(jī)制)[18]給定數(shù)據(jù)集D 查詢函數(shù)f:D →?,如果算法M 的輸出滿足下式,則算法M 滿足ε-差分隱私。
在用電大數(shù)據(jù)環(huán)境下,由于數(shù)據(jù)的高維性和多樣性,設(shè)計(jì)有效的隱私保護(hù)數(shù)據(jù)發(fā)布模型需要解決算法模型的數(shù)據(jù)處理效率和發(fā)布數(shù)據(jù)的可用性及隱私性兩個(gè)主要問(wèn)題。為了有效解決上述問(wèn)題,提出基于屬性分類的用電大數(shù)據(jù)隱私保護(hù)模型。
如圖1 所示,首先,電網(wǎng)公司通過(guò)物聯(lián)網(wǎng)設(shè)備采集個(gè)人、企業(yè)等用戶端的用電信息,將這些信息傳輸并存儲(chǔ)到中央服務(wù)器。然后,為電網(wǎng)的安全運(yùn)行和用戶的良好用電服務(wù),需對(duì)外發(fā)布與共享用電數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘與分析任務(wù)。出于對(duì)個(gè)人隱私信息安全問(wèn)題的考慮,中央服務(wù)器必須在發(fā)布與共享數(shù)據(jù)之前對(duì)原始數(shù)據(jù)集進(jìn)行隱私保護(hù)處理,向數(shù)據(jù)使用者發(fā)布一個(gè)合成的數(shù)據(jù)集。
本文的目的是協(xié)助中央服務(wù)器發(fā)布一個(gè)隱私保護(hù)數(shù)據(jù)集,使所發(fā)布的數(shù)據(jù)集在維持?jǐn)?shù)據(jù)的可用性同時(shí)保護(hù)個(gè)人敏感信息。
基于屬性分類的用電大數(shù)據(jù)隱私保護(hù)模型的整體流程,如圖2所示。
圖2 基于屬性分類的用電大數(shù)據(jù)隱私保護(hù)模型
該模型由兩個(gè)子模型組成:
(1)基于最大信息系數(shù)的特征分類模型(Feature Classification Model Based on Maximum Information Coefficient,MICFC):根據(jù)隱私級(jí)別,對(duì)原始數(shù)據(jù)集分類,從準(zhǔn)標(biāo)識(shí)符與敏感屬性中選出部分屬性作為特征集,對(duì)原始數(shù)據(jù)剩余屬性與特征集利用最大信息系數(shù)選出相關(guān)性高的數(shù)據(jù)作為輸出數(shù)據(jù)集B,僅對(duì)隱私屬性進(jìn)行保護(hù),從而提高數(shù)據(jù)處理的效率。
(2)基于數(shù)據(jù)匿名化與差分隱私的協(xié)同數(shù)據(jù)保護(hù)模型(Collaborative Data Protection Model Based on Data Anonymization and Differential Privacy,CDPM):對(duì)輸出數(shù)據(jù)集B 采用提出的協(xié)同隱私保護(hù)算法(Hybrid Microaggregation-Differential Privacy,HM-DP),首先利用混合微聚集對(duì)數(shù)據(jù)集B 劃分為互斥的子數(shù)據(jù)集,然后再次劃分使每個(gè)子數(shù)據(jù)集的大小固定為k,最后聚合每個(gè)子數(shù)據(jù)集并對(duì)其添加Laplace 噪聲,實(shí)現(xiàn)差分隱私保護(hù)?;诨旌衔⒕奂臄?shù)據(jù)匿名化可以分化查詢函數(shù)敏感度,提高發(fā)布數(shù)據(jù)可用性。
3.2.1 基于最大信息系數(shù)的特征分類模型
首先,從原始數(shù)據(jù)集中選出部分敏感屬性與準(zhǔn)標(biāo)識(shí)符屬性作為特征集,原始數(shù)據(jù)集的剩余屬性作為候選集,利用最大信息系數(shù)與啟發(fā)式搜索算法,計(jì)算候選集與特征集之間的相關(guān)性,選出相關(guān)性高的特征數(shù)據(jù)作為輸出數(shù)據(jù)集B。通過(guò)最大信息系數(shù)可以準(zhǔn)確地找到特征之間的依賴關(guān)系,對(duì)原始數(shù)據(jù)集進(jìn)行分類,挑選出需進(jìn)行隱私保護(hù)的屬性,從而在采用CDPM模型時(shí)提高算法模型處理數(shù)據(jù)的效率。
給定包含n 條數(shù)據(jù)記錄的用電大數(shù)據(jù)集D,對(duì)其進(jìn)行預(yù)處理,選出m 個(gè)準(zhǔn)標(biāo)識(shí)符屬性與敏感屬性作為特征集F={f1,f2,…,fm,c},特征類別為c。對(duì)任意特征fi與類別c 之間的相關(guān)性定義為MIC(fi,c),取值范圍為[0,1]。 MIC(fi,c)值越大,表明fi與c 間的相關(guān)性越強(qiáng),則fi為強(qiáng)相關(guān)特征;MIC(fi,c)值越小,表明fi與c 間的相關(guān)性越弱,則fi為弱相關(guān)特征。
如圖3所示,本文中定義的基于最大信息系數(shù)的特征分類模型對(duì)原始數(shù)據(jù)集進(jìn)行特征分類的過(guò)程:
給定一個(gè)具有n 條數(shù)據(jù)記錄的原始數(shù)據(jù)集D,初始化原始數(shù)據(jù)集D 和空數(shù)據(jù)集B。
圖1 系統(tǒng)模型
圖3 基于最大信息系數(shù)的特征分類模型流程圖
從D 中選出m 個(gè)敏感屬性和準(zhǔn)標(biāo)識(shí)符屬性作為特征集F={f1,f2,…,fm,c},將原始數(shù)據(jù)集D 中的剩余屬性作為候選集C;從候選集中選取候選變量f 'i,計(jì)算f 'i與c 之間的最大信息系數(shù)MIC(f 'i,c)。
以計(jì)算出的最大MIC 值作為初始變量,C=C-{f 'i},B=B+{f 'i}。
計(jì)算任意f 'i和f 'j之間的MIC(f 'i,f 'j),并選擇最大值以下的評(píng)價(jià)函數(shù)的f 'i作為下一個(gè)候選變量,并計(jì)算
執(zhí)行貪心算法,直到選定特征的個(gè)數(shù)達(dá)到設(shè)定的個(gè)數(shù)P,輸出包含選定變量的數(shù)據(jù)集B。
經(jīng)過(guò)MICFC 模型處理后,將其他屬性和顯式標(biāo)識(shí)符屬性從數(shù)據(jù)集中去除,只保留需要進(jìn)行隱私保護(hù)的數(shù)據(jù)屬性,提高協(xié)同數(shù)據(jù)保護(hù)模型處理數(shù)據(jù)效率。
3.2.2 基于數(shù)據(jù)匿名化與差分隱私的協(xié)數(shù)據(jù)保護(hù)模型
基于數(shù)據(jù)匿名化與差分隱私技術(shù),提出一種新的隱私保護(hù)算法HM-DP。具體地,采用改進(jìn)的混合微聚集(Hybrid Microaggregation)算法與差分隱私(Differential Privacy)結(jié)合的方式對(duì)數(shù)據(jù)集B 中的數(shù)據(jù)進(jìn)行隱私保護(hù)處理。
算法1 HM-DP隱私保護(hù)算法
輸入:數(shù)據(jù)集B,最小簇大小k,隱私預(yù)算參數(shù)ε
輸出:隱私保護(hù)數(shù)據(jù)集B′
1.根據(jù)準(zhǔn)標(biāo)識(shí)符屬性將數(shù)據(jù)集B 劃分為q 個(gè)互不相交的子數(shù)據(jù)集B=Bid1∪Bid2∪…∪Bidq
2.For Bidj∈{Bid1,Bid2,…,Bidq},?j ∈{1,2,…,q} do
4. 根據(jù)敏感屬性再劃分子數(shù)據(jù)集Bidj為csj個(gè)互不相交的簇Cs={C1,C2,…,Ccsj}
5. while |Ci|≥k,?Ci∈Cs do
6. 計(jì)算距離質(zhì)心Bˉid(j)最遠(yuǎn)的數(shù)據(jù)記錄br,br∈Cr
7. 從Cr中選出k-1 個(gè)距離br最近的數(shù)據(jù)記錄,并從Cr中移除這些選出的記錄
8. For Ci∈Cs-{Cr}
9. 選出與br距離最近的k 個(gè)數(shù)據(jù)記錄,并從Ci中移除這些選出的記錄
10. 計(jì)算剩余數(shù)據(jù)記錄與每個(gè)簇質(zhì)心的距離,并分配它們到距離最近的簇
11. 計(jì)算每個(gè)簇的質(zhì)心,并用質(zhì)心代替每個(gè)準(zhǔn)標(biāo)識(shí)符屬性的值
12. 計(jì)算每個(gè)簇刪除一條數(shù)據(jù)記錄后的查詢敏感度
13. 對(duì)每條數(shù)據(jù)記錄添加Laplace噪聲
14.返回滿足差分隱私保護(hù)的數(shù)據(jù)集B′
如算法1所示,HM-DP隱私保護(hù)算法主要分三個(gè)步驟處理數(shù)據(jù):
(1)數(shù)據(jù)劃分:首先,將數(shù)據(jù)集B 根據(jù)準(zhǔn)標(biāo)識(shí)符屬性劃分成互不相交的子數(shù)據(jù)集Bidj?B,?j ∈{1,2,…,q};然后,為了確保k -劃分后每個(gè)子數(shù)據(jù)集中敏感屬性的多樣性,根據(jù)敏感屬性的分布特性對(duì)每個(gè)子數(shù)據(jù)集再進(jìn)行劃分,從每個(gè)子數(shù)據(jù)集Bidj中選出csj個(gè)互不相交的敏感屬性簇;最終劃分的每個(gè)數(shù)據(jù)集中,準(zhǔn)標(biāo)識(shí)符屬性盡可能相似,敏感屬性盡可能相異。
(2)數(shù)據(jù)聚集:首先,計(jì)算數(shù)據(jù)劃分處理后的每個(gè)子數(shù)據(jù)集的質(zhì)心Bˉid(j),并根據(jù)Bˉid(j)獲得距離它最遠(yuǎn)的數(shù)據(jù)記錄br,Cr為br所屬的數(shù)據(jù)簇;然后,計(jì)算出與Cr距離最近的k-1 個(gè)數(shù)據(jù)記錄,對(duì)于每個(gè)簇Ci,?i ∈{1,…,r-1,r+1,…,csj},將距離數(shù)據(jù)記錄br最近的k個(gè)數(shù)據(jù)記錄劃分為一組;最后,形成基數(shù)為k×csj的固定大小的數(shù)據(jù)組。
(3)加噪處理:首先,對(duì)于數(shù)據(jù)組Ci,計(jì)算每個(gè)數(shù)據(jù)組Ci(i=1,2,…,Cs)中刪除一條記錄后與得到的鄰近數(shù)據(jù)集C'i之間的查詢敏感度Δ f ;然后,對(duì)每條數(shù)據(jù)記錄添加Laplace噪聲;最終,實(shí)現(xiàn)整個(gè)數(shù)據(jù)集的差分隱私保護(hù)。
3.3.1 數(shù)據(jù)可用性
所提出的隱私保護(hù)算法HM-DP的中心思想是將數(shù)據(jù)集中的準(zhǔn)標(biāo)識(shí)符屬性與敏感屬性劃分為不同的類。每個(gè)類中的數(shù)據(jù)記錄是相似的,各類間的數(shù)據(jù)記錄是相異的。首先,采用的混合微聚集思想依次對(duì)準(zhǔn)標(biāo)識(shí)符屬性、敏感屬性進(jìn)行劃分,可降低數(shù)據(jù)的泛化程度,從而降低信息損失。然后,用每類質(zhì)心值對(duì)準(zhǔn)標(biāo)識(shí)符屬性進(jìn)行替換,生成匿名化的等價(jià)組,可以分化查詢敏感度,減少加入Laplace 噪聲帶來(lái)的信息損失。最后,對(duì)數(shù)據(jù)集進(jìn)行差分隱私保護(hù),使發(fā)布的數(shù)據(jù)集能夠抵抗同構(gòu)攻擊和背景知識(shí)攻擊。因此,提出的方法在保證差分隱私的情況下,提升數(shù)據(jù)的可用性。
3.3.2 隱私性分析
所提出的的HM-DP算法通過(guò)數(shù)據(jù)匿名化與差分隱私結(jié)合對(duì)數(shù)據(jù)進(jìn)行隱私保護(hù)。數(shù)據(jù)匿名化的基本思想是采用微聚集對(duì)數(shù)據(jù)記錄進(jìn)行劃分,使一條數(shù)據(jù)記錄隱藏于一類等價(jià)組中??紤]到匿名化方法容易受同構(gòu)攻擊和背景知識(shí)攻擊,在數(shù)據(jù)匿名化后加入隨機(jī)噪聲,完成差分隱私保護(hù)。根據(jù)差分隱私的順序組合與并行組合性質(zhì),在互不相交的數(shù)據(jù)記錄中加入滿足隱私預(yù)算ε 的噪聲,處理后的數(shù)據(jù)集滿足差分隱私模型。在所提出的方法中,經(jīng)過(guò)混合微聚集處理后的數(shù)據(jù)之間是相互獨(dú)立的,根據(jù)差分隱私并行組合性質(zhì),HM-DP算法滿足差分隱私保護(hù)模型。因此,提出的方法對(duì)數(shù)據(jù)集同時(shí)進(jìn)行匿名化與差分隱私保護(hù),具有更高的隱私性。
將HM-DP 模型與傳統(tǒng)的k-匿名模型[4]、AQ-DP 模型[13]從數(shù)據(jù)隱私性、可用性與效率三方面進(jìn)行比較與評(píng)估。K-匿名模型由L.Sweeney提出,它保證數(shù)據(jù)表中任何一條記錄的準(zhǔn)標(biāo)識(shí)符與至少k-1 條記錄相同,確保準(zhǔn)標(biāo)識(shí)符值與敏感屬性值無(wú)一對(duì)一關(guān)系。AQ-DP模型是一種基于準(zhǔn)標(biāo)識(shí)符分類的差分隱私保護(hù)數(shù)據(jù)發(fā)布方法,解決準(zhǔn)標(biāo)識(shí)符和敏感信息之間失去相關(guān)性的問(wèn)題。實(shí)驗(yàn)數(shù)據(jù)源于UC Irvine機(jī)器學(xué)習(xí)庫(kù)中的Adult數(shù)據(jù)集,將它與用電數(shù)據(jù)集進(jìn)行分析、對(duì)比后修改,將修改后的Adult 數(shù)據(jù)集作為實(shí)驗(yàn)樣本空間。將“工作”與“婚姻狀況”視為敏感屬性,除“戶名”與“用戶編號(hào)”的其他屬性視為準(zhǔn)標(biāo)識(shí)符。實(shí)驗(yàn)?zāi)P陀肞ython語(yǔ)言實(shí)現(xiàn),運(yùn)行環(huán)境為Intel Core i5 CPU 2.3 GHz,8 GB 內(nèi)存,Microsoft Windows 10操作系統(tǒng)。
為了衡量發(fā)布數(shù)據(jù)的隱私性,引入記錄鏈接(Record Linkages,RL),RL 用來(lái)表示從匿名數(shù)據(jù)集中正確匹配原始數(shù)據(jù)記錄的百分比,,其中,n 為原始數(shù)據(jù)記錄的個(gè)數(shù),Pr(b'j)為匿名記錄的記錄鏈接概率,,G 為與b'j距離最小的原始記錄集,如果正確的原始記錄b'j在G 中,則計(jì)算猜測(cè)G 中b'j的概率,否則,Pr( b'j)=0。記錄鏈接從隱私攻擊的角度度量實(shí)際的隱私性,例如,較高隱私預(yù)算ε 的差分隱私模型不能抵抗記錄鏈接的攻擊。因此,RL 值越低,隱私泄露的概率越低,匿名后發(fā)布數(shù)據(jù)的隱私性越好。
如圖4(a)所示,觀察到HM-DP 模型并沒有隨著準(zhǔn)標(biāo)識(shí)符屬性與敏感屬性數(shù)量的增加而增加,這說(shuō)明攻擊者只能以極小的概率獲得隱私信息。同時(shí),HM-DP 模型與另外兩個(gè)模型相比,擁有更小的RL 值,這意味著HM-DP 模型可以達(dá)到更高的隱私性。在圖4(b)中,RL 值隨著數(shù)據(jù)集的變大而增加。但與其他兩種模型相比,本文方法的RL 值較低,具有更高的隱私性。綜上,本文模型在隱私性方面均優(yōu)于其他兩種模型。
圖4 隱私性分析
采用Kullback-Leibler 散度(KL-divergence)度量數(shù)據(jù)可用性。KL 散度從信息論的角度度量信息失真的程度,它可以計(jì)算出R 分布變化到O 分布時(shí)的信息損失。原始數(shù)據(jù)集R 與輸出數(shù)據(jù)集O 的KL 散度為,其中b 為整個(gè)數(shù)據(jù)集中的樣本空間。由于KL 散度不是對(duì)稱度量,直接使用它會(huì)使度量結(jié)果不精準(zhǔn),因此將它修改為對(duì)稱的KL散度:
修改后的DKL( )R,O 可以消除原始KL 散度的不均衡性。
如圖5 所示,觀察到KL 散度值隨著準(zhǔn)標(biāo)識(shí)符屬性的增加而增加,這意味著三種模型的數(shù)據(jù)可用性隨著準(zhǔn)標(biāo)識(shí)符屬性數(shù)量的增加而減少,但本文模型比k-匿名模型、AQ-DP 模型具有更好的數(shù)據(jù)可用性。當(dāng)準(zhǔn)標(biāo)識(shí)符屬性數(shù)量增加時(shí),其他兩種模型的KL 散度值比本文模型增加得更快。因此,HM-DP 模型與另外兩種模型相比,實(shí)現(xiàn)了更好的數(shù)據(jù)可用性。
圖5 可用性分析
在模型性能方面對(duì)HM-DP 模型與k-匿名模型、AQ-DP模型進(jìn)行了評(píng)估。
如圖6(a)所示,HM-DP 模型的運(yùn)行時(shí)間不會(huì)隨著屬性值的增加而增加。這意味著本文模型可以在不同場(chǎng)景中滿足不同的需求,具有較高的魯棒性。同時(shí),與k -匿名模型、AQ-DP 模型相比,本文模型運(yùn)行時(shí)間更短。圖6(b)說(shuō)明了三種模型在數(shù)據(jù)集大小發(fā)生變化時(shí)的運(yùn)行時(shí)間??梢杂^察到,在HM-DP 和AQ-DP模型中,隨著數(shù)據(jù)集大小的增加,它們的運(yùn)行時(shí)間呈線性增長(zhǎng),HM-DP 模型的運(yùn)行時(shí)間優(yōu)于AQ-DP 模型,而k-匿名模型的運(yùn)行時(shí)間隨著數(shù)據(jù)集大小的增加呈指數(shù)增長(zhǎng),因?yàn)閗-匿名模型中存在迭代過(guò)程。
基于上述評(píng)估與分析,本文模型擁有更好的效率、魯棒性,滿足不同場(chǎng)景中不同的需求。
圖6 效率分析
在隱私保護(hù)與大數(shù)據(jù)發(fā)布的研究中,使用數(shù)據(jù)匿名化與差分隱私方法實(shí)現(xiàn)對(duì)大數(shù)據(jù)的隱私保護(hù)是目前的研究熱點(diǎn)。但現(xiàn)有的隱私保護(hù)機(jī)制存在無(wú)法抵抗背景知識(shí)攻擊、發(fā)布數(shù)據(jù)可用性較低的問(wèn)題,針對(duì)這兩個(gè)問(wèn)題,本文提出了協(xié)同隱私保護(hù)模型。該模型通過(guò)將信息論、數(shù)據(jù)匿名化和差分隱私結(jié)合解決大數(shù)據(jù)發(fā)布與共享中的問(wèn)題。首先,從原始數(shù)據(jù)集選出少量準(zhǔn)標(biāo)識(shí)符屬性與敏感屬性作為特征集,然后采用最大信息系數(shù)對(duì)原始數(shù)據(jù)集中的剩余屬性與特征集屬性進(jìn)行相關(guān)性分析,從中選出相關(guān)性高的數(shù)據(jù)作為隱私數(shù)據(jù)集,最后對(duì)隱私數(shù)據(jù)集應(yīng)用所提出的協(xié)同隱私保護(hù)算法,發(fā)布滿足差分隱私保護(hù)的用電大數(shù)據(jù)集。在對(duì)真實(shí)數(shù)據(jù)集修改過(guò)的數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),結(jié)果表明本文所提出的模型在數(shù)據(jù)隱私性、可用性、效率性能方面均優(yōu)于其他隱私保護(hù)模型。