亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于屬性分類的用電大數(shù)據(jù)隱私保護(hù)方法

2020-03-11 13:54:04梁曉兵

計(jì)算機(jī)工程與應(yīng)用 2020年5期

關(guān)鍵詞：標(biāo)識(shí)符可用性原始數(shù)據(jù)

梁曉兵，許斌，翟峰，沈博

1.中國(guó)電力科學(xué)研究院有限公司，北京100192

2.中國(guó)科學(xué)院信息工程研究所信息安全國(guó)家重點(diǎn)實(shí)驗(yàn)室，北京100093

3.中國(guó)科學(xué)院大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院，北京100049

1 引言

隨著云計(jì)算、物聯(lián)網(wǎng)等信息技術(shù)的快速發(fā)展，智能電網(wǎng)變得越來(lái)越智能化、高效化[1]。電網(wǎng)企業(yè)的信息系統(tǒng)中已經(jīng)積累了海量用電數(shù)據(jù)。使用數(shù)據(jù)挖掘與分析[2]技術(shù)對(duì)海量用電數(shù)據(jù)得到的分析結(jié)果，一方面，可以幫助電網(wǎng)企業(yè)為用戶提供個(gè)性化的用電服務(wù)，為電網(wǎng)企業(yè)建設(shè)起到?jīng)Q策與預(yù)測(cè)作用。另一方面，可以推測(cè)出用電客戶的家庭人員情況、生活作息規(guī)律等信息，從而造成個(gè)人隱私泄露。

目前，基于智能電表與用電數(shù)據(jù)是兩種常見防止用電用戶隱私泄露的方法[3]。其中，基于智能電表的隱私保護(hù)技術(shù)，通常采用增加硬件設(shè)計(jì)開銷實(shí)現(xiàn)對(duì)智能電表的隱私保護(hù)，但這種方式往往會(huì)引起較差的用戶體驗(yàn)。而基于用電數(shù)據(jù)的隱私保護(hù)技術(shù)，通過(guò)對(duì)用電數(shù)據(jù)進(jìn)行隱私保護(hù)，在對(duì)用戶的隱私實(shí)現(xiàn)合理保護(hù)的同時(shí)，保證隱私保護(hù)后數(shù)據(jù)的可用性。因此，在精準(zhǔn)分析用戶用電數(shù)據(jù)的同時(shí)，如何防止用戶隱私泄露成為現(xiàn)階段隱私保護(hù)領(lǐng)域的研究熱點(diǎn)。

隱私保護(hù)數(shù)據(jù)發(fā)布包括兩類常用的方法，一類是以k-anonymity[4]、l-diversity[5]、t-closeness[6]為代表的聚類方法，這些方法根據(jù)屬性分布對(duì)數(shù)據(jù)進(jìn)行聚類處理，雖然有效、可行，但缺乏理論基礎(chǔ)。現(xiàn)有的k-anonymity等基于聚類的隱私保護(hù)大數(shù)據(jù)發(fā)布模型，采用概化與壓縮的方法保護(hù)一條數(shù)據(jù)記錄中屬性之間的關(guān)系。但這些模型，無(wú)法在數(shù)據(jù)隱私性與可用性之間進(jìn)行權(quán)衡，而且無(wú)法抵抗攻擊者背景知識(shí)攻擊。

差分隱私（Differential Privacy）[7]模型從根本上解決了基于聚類的隱私保護(hù)方法的不足，對(duì)隱私泄露風(fēng)險(xiǎn)給出了嚴(yán)格的、定量化的表示和證明，但經(jīng)該方法處理后的數(shù)據(jù)可用性較差。在采用差分隱私技術(shù)對(duì)大數(shù)據(jù)發(fā)布階段進(jìn)行隱私保護(hù)時(shí)，其使用的隨機(jī)化機(jī)制由于數(shù)據(jù)的稀疏性與高維性，引入大量的擾動(dòng)誤差，最終導(dǎo)致發(fā)布數(shù)據(jù)可用性較差。因此，設(shè)計(jì)可抵抗背景知識(shí)攻擊且可維持?jǐn)?shù)據(jù)可用性的隱私保護(hù)模型具有重要的研究意義。

已有研究工作主要集中在設(shè)計(jì)有效的隱私保護(hù)模型解決上述存在的問(wèn)題。Chai 等人[8]提出一種基于kmeans 數(shù)據(jù)匿名化算法，現(xiàn)實(shí)對(duì)數(shù)據(jù)集進(jìn)行隱私保護(hù)。Chong等人[9]提出一種基于數(shù)據(jù)合成與替換的擾動(dòng)機(jī)制NESDO，該機(jī)制可以有效地保持敏感數(shù)據(jù)的特性。Zhang等人[10]提出了一種基于差分隱私的概率不可區(qū)分機(jī)制，在此機(jī)制的基礎(chǔ)上提出了一種位置偏移方案來(lái)混淆查詢和位置之間的相關(guān)性。劉曉遷等人[11]提出了一種基于數(shù)據(jù)匿名化技術(shù)的隱私保護(hù)數(shù)據(jù)發(fā)布方法，該方法通過(guò)向匿名數(shù)據(jù)添加噪聲實(shí)現(xiàn)對(duì)敏感數(shù)據(jù)的隱私保護(hù)。Zhang 等人[12]提出了一種基于CP-ABE 的相似屬性匿名方案，在中心服務(wù)器和協(xié)作用戶的幫助下，該方案能夠抵抗推理攻擊，并能抵抗查詢服務(wù)中任何實(shí)體的隱私檢測(cè)。Ke等人[13]提出一種基于準(zhǔn)標(biāo)識(shí)符分類的差分隱私保護(hù)數(shù)據(jù)發(fā)布方法AQ-DP，解決準(zhǔn)標(biāo)識(shí)符和敏感信息之間失去相關(guān)性的問(wèn)題。

本文所做的工作與上述工作不同，通過(guò)將信息論、數(shù)據(jù)匿名化和差分隱私結(jié)合解決大數(shù)據(jù)發(fā)布與共享中的問(wèn)題。首先，從原始數(shù)據(jù)集選出少量準(zhǔn)標(biāo)識(shí)符屬性與敏感屬性作為特征集，然后采用最大信息系數(shù)對(duì)原始數(shù)據(jù)集中的剩余屬性與特征集屬性進(jìn)行相關(guān)性分析，從中選出相關(guān)性高的數(shù)據(jù)作為隱私數(shù)據(jù)集，最后對(duì)隱私數(shù)據(jù)集應(yīng)用所提出的協(xié)同隱私保護(hù)算法，發(fā)布滿足差分隱私保護(hù)的用電大數(shù)據(jù)集。

2 預(yù)備知識(shí)

2.1 基本概念

根據(jù)隱私級(jí)別，將待發(fā)布數(shù)據(jù)表中的屬性分為四類。

如表1所示，用電數(shù)據(jù)集由顯式標(biāo)識(shí)符、準(zhǔn)標(biāo)識(shí)符、敏感屬性、非敏感屬性組成。

（1）顯式標(biāo)識(shí)符（Explicit Identifier，EI）：可以唯一確定個(gè)人身份的屬性值，如用戶編號(hào)、戶名等。

（2）準(zhǔn)標(biāo)識(shí)符（Quasi-Identifier，QI）：與其他外部信息結(jié)合后，可以重新確定個(gè)人信息的屬性，如電表號(hào)、用電示數(shù)等。

（3）敏感屬性（Sensitive Attribute，SA）：不能被外界所知的個(gè)人隱私信息，如聯(lián)系電話、聯(lián)系地址、用電地址。

（4）其他屬性（Other Attributes）：對(duì)隱私?jīng)]有影響的所有其他屬性，如繳費(fèi)方式。

從表中可知，用電數(shù)據(jù)集中包含一些個(gè)人隱私信息，在對(duì)外發(fā)布與共享前需進(jìn)行相應(yīng)的保護(hù)。

表1 用電數(shù)據(jù)集

2.2 最大信息系數(shù)

最大信息系數(shù)（Maximum Information Coefficient）由Reshef等人[14]在2011年提出，它以信息論與互信息論為基礎(chǔ)用來(lái)檢測(cè)數(shù)據(jù)集中變量之間潛在的線性或非線性關(guān)聯(lián)關(guān)系，被廣泛應(yīng)用于大數(shù)據(jù)的相關(guān)性分析，通過(guò)網(wǎng)格劃分方法計(jì)算不同網(wǎng)格中兩個(gè)變量形成的概率分布來(lái)計(jì)算所有不同網(wǎng)格的最大互信息[15]。

定義1（互信息）給定變量A={ai,i=1,2,…,n}和B={bi,i=1,2,…,n}，n 為樣本數(shù)量，則：

式中，p(a,b)為A 和B 的聯(lián)合概率密度，p(a)和p(b)分別為A 和B 的邊緣概率密度。

定義2（最大互信息）假設(shè)D={(ai,bi),i=1,2,…,n}為一個(gè)有限的有序?qū)Φ募?，定義劃分G 將變量A 的值域分成x 段，將變量B 的值域分成y 段，G 即為x×y的網(wǎng)格。在得到的每一種網(wǎng)格劃分內(nèi)部計(jì)算互信息MI(A,B)，相同x×y 的網(wǎng)格劃分有多種，取不同劃分方式中的MI(A,B)最大值作為劃分G 的互信息值，則：

式中，D|G 表示數(shù)據(jù)D 在使用G 進(jìn)行劃分。

定義3（特征矩陣）將不同劃分下得到的最大歸一化的MI 值組成特征矩陣M(D)x,y，則：

定義4（最大信息系數(shù)）設(shè)n 是數(shù)據(jù)集D 中兩個(gè)隨機(jī)變量X 和Y 形成的散點(diǎn)數(shù)，則：

式中，B(n)為網(wǎng)格x×y 的上限值，當(dāng)B(n)=n0.6時(shí)效果最好。

2.3 微聚集

微聚集（Microaggregation）[16]是實(shí)現(xiàn)k-匿名的一種方法，將相似數(shù)據(jù)劃分為同一類，每個(gè)類至少有k 條記錄，然后用類質(zhì)心代替類中所有記錄的準(zhǔn)標(biāo)識(shí)符屬性值，實(shí)現(xiàn)數(shù)據(jù)的匿名化。常用的微聚集技術(shù)由劃分和聚集兩個(gè)步驟組成。

定義5（k-劃分）給定數(shù)據(jù)集D(A1,A2,…,Ad)，包含p 個(gè)準(zhǔn)標(biāo)識(shí)符Qid={qid1,qid2,…,qidp}。對(duì)于?i，ni為第i 類的元組數(shù)，用準(zhǔn)標(biāo)識(shí)符將數(shù)據(jù)集劃分為g 個(gè)類，每個(gè)類中至少包含k 條數(shù)據(jù)記錄。

定義6（聚集）給定數(shù)據(jù)集D，對(duì)準(zhǔn)標(biāo)識(shí)符進(jìn)行k-劃分為g 個(gè)類，設(shè)Ci為第i 類元組類質(zhì)心，用Ci(i=1,2,…,g)取代所在類內(nèi)的所有元素的操作為聚集。

2.4 差分隱私

差分隱私是一種基于數(shù)據(jù)失真的隱私保護(hù)技術(shù)，其基本思想是在最大限度的保證對(duì)數(shù)據(jù)庫(kù)查詢結(jié)果的可用性，同時(shí)保護(hù)數(shù)據(jù)庫(kù)中的個(gè)人隱私不被泄露。

定義7（ε-差分隱私）對(duì)于給定鄰近數(shù)據(jù)集D 和D′， ||DΔD′ =1，若存在隱私算法M ，Range(M)是M的取值范圍，若算法M 在數(shù)據(jù)集D 和D′上的任意輸出結(jié)果S(S ∈Range(M))滿足下式，則稱算法M 滿足ε-差分隱私。其中ε 表示隱私預(yù)算。

從上式可以看出，隱私預(yù)算ε 越小，隱私保護(hù)的程度越高。

定義8（全局敏感度）[17]定義鄰近數(shù)據(jù)集D 和D′，對(duì)于任意的查詢函數(shù)f:D →Rd，則查詢函數(shù)的全局敏感度為：

其中，R 表示函數(shù)所映射的實(shí)數(shù)空間，d 表示函數(shù)f 的查詢維度。

定義9（拉普拉斯機(jī)制）[18]給定數(shù)據(jù)集D 查詢函數(shù)f:D →?，如果算法M 的輸出滿足下式，則算法M 滿足ε-差分隱私。

3 基于屬性分類的用電大數(shù)據(jù)隱私保護(hù)模型

在用電大數(shù)據(jù)環(huán)境下，由于數(shù)據(jù)的高維性和多樣性，設(shè)計(jì)有效的隱私保護(hù)數(shù)據(jù)發(fā)布模型需要解決算法模型的數(shù)據(jù)處理效率和發(fā)布數(shù)據(jù)的可用性及隱私性兩個(gè)主要問(wèn)題。為了有效解決上述問(wèn)題，提出基于屬性分類的用電大數(shù)據(jù)隱私保護(hù)模型。

3.1 系統(tǒng)模型

如圖1 所示，首先，電網(wǎng)公司通過(guò)物聯(lián)網(wǎng)設(shè)備采集個(gè)人、企業(yè)等用戶端的用電信息，將這些信息傳輸并存儲(chǔ)到中央服務(wù)器。然后，為電網(wǎng)的安全運(yùn)行和用戶的良好用電服務(wù)，需對(duì)外發(fā)布與共享用電數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘與分析任務(wù)。出于對(duì)個(gè)人隱私信息安全問(wèn)題的考慮，中央服務(wù)器必須在發(fā)布與共享數(shù)據(jù)之前對(duì)原始數(shù)據(jù)集進(jìn)行隱私保護(hù)處理，向數(shù)據(jù)使用者發(fā)布一個(gè)合成的數(shù)據(jù)集。

本文的目的是協(xié)助中央服務(wù)器發(fā)布一個(gè)隱私保護(hù)數(shù)據(jù)集，使所發(fā)布的數(shù)據(jù)集在維持?jǐn)?shù)據(jù)的可用性同時(shí)保護(hù)個(gè)人敏感信息。

3.2 算法模型

基于屬性分類的用電大數(shù)據(jù)隱私保護(hù)模型的整體流程，如圖2所示。

圖2 基于屬性分類的用電大數(shù)據(jù)隱私保護(hù)模型

該模型由兩個(gè)子模型組成：

（1）基于最大信息系數(shù)的特征分類模型（Feature Classification Model Based on Maximum Information Coefficient，MICFC）：根據(jù)隱私級(jí)別，對(duì)原始數(shù)據(jù)集分類，從準(zhǔn)標(biāo)識(shí)符與敏感屬性中選出部分屬性作為特征集，對(duì)原始數(shù)據(jù)剩余屬性與特征集利用最大信息系數(shù)選出相關(guān)性高的數(shù)據(jù)作為輸出數(shù)據(jù)集B，僅對(duì)隱私屬性進(jìn)行保護(hù)，從而提高數(shù)據(jù)處理的效率。

（2）基于數(shù)據(jù)匿名化與差分隱私的協(xié)同數(shù)據(jù)保護(hù)模型（Collaborative Data Protection Model Based on Data Anonymization and Differential Privacy，CDPM）：對(duì)輸出數(shù)據(jù)集B 采用提出的協(xié)同隱私保護(hù)算法（Hybrid Microaggregation-Differential Privacy，HM-DP），首先利用混合微聚集對(duì)數(shù)據(jù)集B 劃分為互斥的子數(shù)據(jù)集，然后再次劃分使每個(gè)子數(shù)據(jù)集的大小固定為k，最后聚合每個(gè)子數(shù)據(jù)集并對(duì)其添加Laplace 噪聲，實(shí)現(xiàn)差分隱私保護(hù)?；诨旌衔⒕奂臄?shù)據(jù)匿名化可以分化查詢函數(shù)敏感度，提高發(fā)布數(shù)據(jù)可用性。

3.2.1 基于最大信息系數(shù)的特征分類模型

首先，從原始數(shù)據(jù)集中選出部分敏感屬性與準(zhǔn)標(biāo)識(shí)符屬性作為特征集，原始數(shù)據(jù)集的剩余屬性作為候選集，利用最大信息系數(shù)與啟發(fā)式搜索算法，計(jì)算候選集與特征集之間的相關(guān)性，選出相關(guān)性高的特征數(shù)據(jù)作為輸出數(shù)據(jù)集B。通過(guò)最大信息系數(shù)可以準(zhǔn)確地找到特征之間的依賴關(guān)系，對(duì)原始數(shù)據(jù)集進(jìn)行分類，挑選出需進(jìn)行隱私保護(hù)的屬性，從而在采用CDPM模型時(shí)提高算法模型處理數(shù)據(jù)的效率。

給定包含n 條數(shù)據(jù)記錄的用電大數(shù)據(jù)集D，對(duì)其進(jìn)行預(yù)處理，選出m 個(gè)準(zhǔn)標(biāo)識(shí)符屬性與敏感屬性作為特征集F={f1,f2,…,fm,c}，特征類別為c。對(duì)任意特征fi與類別c 之間的相關(guān)性定義為MIC(fi,c)，取值范圍為[0，1]。 MIC(fi,c)值越大，表明fi與c 間的相關(guān)性越強(qiáng)，則fi為強(qiáng)相關(guān)特征；MIC(fi,c)值越小，表明fi與c 間的相關(guān)性越弱，則fi為弱相關(guān)特征。

如圖3所示，本文中定義的基于最大信息系數(shù)的特征分類模型對(duì)原始數(shù)據(jù)集進(jìn)行特征分類的過(guò)程：

給定一個(gè)具有n 條數(shù)據(jù)記錄的原始數(shù)據(jù)集D，初始化原始數(shù)據(jù)集D 和空數(shù)據(jù)集B。

圖1 系統(tǒng)模型

圖3 基于最大信息系數(shù)的特征分類模型流程圖

從D 中選出m 個(gè)敏感屬性和準(zhǔn)標(biāo)識(shí)符屬性作為特征集F={f1,f2,…,fm,c}，將原始數(shù)據(jù)集D 中的剩余屬性作為候選集C；從候選集中選取候選變量f 'i，計(jì)算f 'i與c 之間的最大信息系數(shù)MIC(f 'i,c)。

以計(jì)算出的最大MIC 值作為初始變量，C=C-{f 'i}，B=B+{f 'i}。

計(jì)算任意f 'i和f 'j之間的MIC(f 'i,f 'j)，并選擇最大值以下的評(píng)價(jià)函數(shù)的f 'i作為下一個(gè)候選變量，并計(jì)算

執(zhí)行貪心算法，直到選定特征的個(gè)數(shù)達(dá)到設(shè)定的個(gè)數(shù)P，輸出包含選定變量的數(shù)據(jù)集B。

經(jīng)過(guò)MICFC 模型處理后，將其他屬性和顯式標(biāo)識(shí)符屬性從數(shù)據(jù)集中去除，只保留需要進(jìn)行隱私保護(hù)的數(shù)據(jù)屬性，提高協(xié)同數(shù)據(jù)保護(hù)模型處理數(shù)據(jù)效率。

3.2.2 基于數(shù)據(jù)匿名化與差分隱私的協(xié)數(shù)據(jù)保護(hù)模型

基于數(shù)據(jù)匿名化與差分隱私技術(shù)，提出一種新的隱私保護(hù)算法HM-DP。具體地，采用改進(jìn)的混合微聚集（Hybrid Microaggregation）算法與差分隱私（Differential Privacy）結(jié)合的方式對(duì)數(shù)據(jù)集B 中的數(shù)據(jù)進(jìn)行隱私保護(hù)處理。

算法1 HM-DP隱私保護(hù)算法

輸入：數(shù)據(jù)集B，最小簇大小k，隱私預(yù)算參數(shù)ε

輸出：隱私保護(hù)數(shù)據(jù)集B′

1.根據(jù)準(zhǔn)標(biāo)識(shí)符屬性將數(shù)據(jù)集B 劃分為q 個(gè)互不相交的子數(shù)據(jù)集B=Bid1∪Bid2∪…∪Bidq

2.For Bidj∈{Bid1,Bid2,…,Bidq}，?j ∈{1,2,…,q} do

4. 根據(jù)敏感屬性再劃分子數(shù)據(jù)集Bidj為csj個(gè)互不相交的簇Cs={C1,C2,…,Ccsj}

5. while |Ci|≥k，?Ci∈Cs do

6. 計(jì)算距離質(zhì)心Bˉid(j)最遠(yuǎn)的數(shù)據(jù)記錄br，br∈Cr

7. 從Cr中選出k-1 個(gè)距離br最近的數(shù)據(jù)記錄，并從Cr中移除這些選出的記錄

8. For Ci∈Cs-{Cr}

9. 選出與br距離最近的k 個(gè)數(shù)據(jù)記錄，并從Ci中移除這些選出的記錄

10. 計(jì)算剩余數(shù)據(jù)記錄與每個(gè)簇質(zhì)心的距離，并分配它們到距離最近的簇

11. 計(jì)算每個(gè)簇的質(zhì)心，并用質(zhì)心代替每個(gè)準(zhǔn)標(biāo)識(shí)符屬性的值

12. 計(jì)算每個(gè)簇刪除一條數(shù)據(jù)記錄后的查詢敏感度

13. 對(duì)每條數(shù)據(jù)記錄添加Laplace噪聲

14.返回滿足差分隱私保護(hù)的數(shù)據(jù)集B′

如算法1所示，HM-DP隱私保護(hù)算法主要分三個(gè)步驟處理數(shù)據(jù)：

（1）數(shù)據(jù)劃分：首先，將數(shù)據(jù)集B 根據(jù)準(zhǔn)標(biāo)識(shí)符屬性劃分成互不相交的子數(shù)據(jù)集Bidj?B，?j ∈{1,2,…,q}；然后，為了確保k -劃分后每個(gè)子數(shù)據(jù)集中敏感屬性的多樣性，根據(jù)敏感屬性的分布特性對(duì)每個(gè)子數(shù)據(jù)集再進(jìn)行劃分，從每個(gè)子數(shù)據(jù)集Bidj中選出csj個(gè)互不相交的敏感屬性簇；最終劃分的每個(gè)數(shù)據(jù)集中，準(zhǔn)標(biāo)識(shí)符屬性盡可能相似，敏感屬性盡可能相異。

（2）數(shù)據(jù)聚集：首先，計(jì)算數(shù)據(jù)劃分處理后的每個(gè)子數(shù)據(jù)集的質(zhì)心Bˉid(j)，并根據(jù)Bˉid(j)獲得距離它最遠(yuǎn)的數(shù)據(jù)記錄br，Cr為br所屬的數(shù)據(jù)簇；然后，計(jì)算出與Cr距離最近的k-1 個(gè)數(shù)據(jù)記錄，對(duì)于每個(gè)簇Ci，?i ∈{1,…,r-1,r+1,…,csj}，將距離數(shù)據(jù)記錄br最近的k個(gè)數(shù)據(jù)記錄劃分為一組；最后，形成基數(shù)為k×csj的固定大小的數(shù)據(jù)組。

（3）加噪處理：首先，對(duì)于數(shù)據(jù)組Ci，計(jì)算每個(gè)數(shù)據(jù)組Ci(i=1,2,…,Cs)中刪除一條記錄后與得到的鄰近數(shù)據(jù)集C'i之間的查詢敏感度Δ f ；然后，對(duì)每條數(shù)據(jù)記錄添加Laplace噪聲；最終，實(shí)現(xiàn)整個(gè)數(shù)據(jù)集的差分隱私保護(hù)。

3.3 數(shù)據(jù)可用性與隱私性分析

3.3.1 數(shù)據(jù)可用性

所提出的隱私保護(hù)算法HM-DP的中心思想是將數(shù)據(jù)集中的準(zhǔn)標(biāo)識(shí)符屬性與敏感屬性劃分為不同的類。每個(gè)類中的數(shù)據(jù)記錄是相似的，各類間的數(shù)據(jù)記錄是相異的。首先，采用的混合微聚集思想依次對(duì)準(zhǔn)標(biāo)識(shí)符屬性、敏感屬性進(jìn)行劃分，可降低數(shù)據(jù)的泛化程度，從而降低信息損失。然后，用每類質(zhì)心值對(duì)準(zhǔn)標(biāo)識(shí)符屬性進(jìn)行替換，生成匿名化的等價(jià)組，可以分化查詢敏感度，減少加入Laplace 噪聲帶來(lái)的信息損失。最后，對(duì)數(shù)據(jù)集進(jìn)行差分隱私保護(hù)，使發(fā)布的數(shù)據(jù)集能夠抵抗同構(gòu)攻擊和背景知識(shí)攻擊。因此，提出的方法在保證差分隱私的情況下，提升數(shù)據(jù)的可用性。

3.3.2 隱私性分析

所提出的的HM-DP算法通過(guò)數(shù)據(jù)匿名化與差分隱私結(jié)合對(duì)數(shù)據(jù)進(jìn)行隱私保護(hù)。數(shù)據(jù)匿名化的基本思想是采用微聚集對(duì)數(shù)據(jù)記錄進(jìn)行劃分，使一條數(shù)據(jù)記錄隱藏于一類等價(jià)組中?？紤]到匿名化方法容易受同構(gòu)攻擊和背景知識(shí)攻擊，在數(shù)據(jù)匿名化后加入隨機(jī)噪聲，完成差分隱私保護(hù)。根據(jù)差分隱私的順序組合與并行組合性質(zhì)，在互不相交的數(shù)據(jù)記錄中加入滿足隱私預(yù)算ε 的噪聲，處理后的數(shù)據(jù)集滿足差分隱私模型。在所提出的方法中，經(jīng)過(guò)混合微聚集處理后的數(shù)據(jù)之間是相互獨(dú)立的，根據(jù)差分隱私并行組合性質(zhì)，HM-DP算法滿足差分隱私保護(hù)模型。因此，提出的方法對(duì)數(shù)據(jù)集同時(shí)進(jìn)行匿名化與差分隱私保護(hù)，具有更高的隱私性。

4 實(shí)驗(yàn)評(píng)估

將HM-DP 模型與傳統(tǒng)的k-匿名模型[4]、AQ-DP 模型[13]從數(shù)據(jù)隱私性、可用性與效率三方面進(jìn)行比較與評(píng)估。K-匿名模型由L.Sweeney提出，它保證數(shù)據(jù)表中任何一條記錄的準(zhǔn)標(biāo)識(shí)符與至少k-1 條記錄相同，確保準(zhǔn)標(biāo)識(shí)符值與敏感屬性值無(wú)一對(duì)一關(guān)系。AQ-DP模型是一種基于準(zhǔn)標(biāo)識(shí)符分類的差分隱私保護(hù)數(shù)據(jù)發(fā)布方法，解決準(zhǔn)標(biāo)識(shí)符和敏感信息之間失去相關(guān)性的問(wèn)題。實(shí)驗(yàn)數(shù)據(jù)源于UC Irvine機(jī)器學(xué)習(xí)庫(kù)中的Adult數(shù)據(jù)集，將它與用電數(shù)據(jù)集進(jìn)行分析、對(duì)比后修改，將修改后的Adult 數(shù)據(jù)集作為實(shí)驗(yàn)樣本空間。將“工作”與“婚姻狀況”視為敏感屬性，除“戶名”與“用戶編號(hào)”的其他屬性視為準(zhǔn)標(biāo)識(shí)符。實(shí)驗(yàn)?zāi)Ｐ陀肞ython語(yǔ)言實(shí)現(xiàn)，運(yùn)行環(huán)境為Intel Core i5 CPU 2.3 GHz，8 GB 內(nèi)存，Microsoft Windows 10操作系統(tǒng)。

4.1 隱私性分析

為了衡量發(fā)布數(shù)據(jù)的隱私性，引入記錄鏈接（Record Linkages，RL），RL 用來(lái)表示從匿名數(shù)據(jù)集中正確匹配原始數(shù)據(jù)記錄的百分比，，其中，n 為原始數(shù)據(jù)記錄的個(gè)數(shù)，Pr(b'j)為匿名記錄的記錄鏈接概率，，G 為與b'j距離最小的原始記錄集，如果正確的原始記錄b'j在G 中，則計(jì)算猜測(cè)G 中b'j的概率，否則，Pr( b'j)=0。記錄鏈接從隱私攻擊的角度度量實(shí)際的隱私性，例如，較高隱私預(yù)算ε 的差分隱私模型不能抵抗記錄鏈接的攻擊。因此，RL 值越低，隱私泄露的概率越低，匿名后發(fā)布數(shù)據(jù)的隱私性越好。

如圖4（a）所示，觀察到HM-DP 模型并沒有隨著準(zhǔn)標(biāo)識(shí)符屬性與敏感屬性數(shù)量的增加而增加，這說(shuō)明攻擊者只能以極小的概率獲得隱私信息。同時(shí)，HM-DP 模型與另外兩個(gè)模型相比，擁有更小的RL 值，這意味著HM-DP 模型可以達(dá)到更高的隱私性。在圖4（b）中，RL 值隨著數(shù)據(jù)集的變大而增加。但與其他兩種模型相比，本文方法的RL 值較低，具有更高的隱私性。綜上，本文模型在隱私性方面均優(yōu)于其他兩種模型。

4.2 可用性分析

圖4 隱私性分析

采用Kullback-Leibler 散度（KL-divergence）度量數(shù)據(jù)可用性。KL 散度從信息論的角度度量信息失真的程度，它可以計(jì)算出R 分布變化到O 分布時(shí)的信息損失。原始數(shù)據(jù)集R 與輸出數(shù)據(jù)集O 的KL 散度為，其中b 為整個(gè)數(shù)據(jù)集中的樣本空間。由于KL 散度不是對(duì)稱度量，直接使用它會(huì)使度量結(jié)果不精準(zhǔn)，因此將它修改為對(duì)稱的KL散度：

修改后的DKL( )R,O 可以消除原始KL 散度的不均衡性。

如圖5 所示，觀察到KL 散度值隨著準(zhǔn)標(biāo)識(shí)符屬性的增加而增加，這意味著三種模型的數(shù)據(jù)可用性隨著準(zhǔn)標(biāo)識(shí)符屬性數(shù)量的增加而減少，但本文模型比k-匿名模型、AQ-DP 模型具有更好的數(shù)據(jù)可用性。當(dāng)準(zhǔn)標(biāo)識(shí)符屬性數(shù)量增加時(shí)，其他兩種模型的KL 散度值比本文模型增加得更快。因此，HM-DP 模型與另外兩種模型相比，實(shí)現(xiàn)了更好的數(shù)據(jù)可用性。

圖5 可用性分析

4.3 效率分析

在模型性能方面對(duì)HM-DP 模型與k-匿名模型、AQ-DP模型進(jìn)行了評(píng)估。

如圖6（a）所示，HM-DP 模型的運(yùn)行時(shí)間不會(huì)隨著屬性值的增加而增加。這意味著本文模型可以在不同場(chǎng)景中滿足不同的需求，具有較高的魯棒性。同時(shí)，與k -匿名模型、AQ-DP 模型相比，本文模型運(yùn)行時(shí)間更短。圖6（b）說(shuō)明了三種模型在數(shù)據(jù)集大小發(fā)生變化時(shí)的運(yùn)行時(shí)間?？梢杂^察到，在HM-DP 和AQ-DP模型中，隨著數(shù)據(jù)集大小的增加，它們的運(yùn)行時(shí)間呈線性增長(zhǎng)，HM-DP 模型的運(yùn)行時(shí)間優(yōu)于AQ-DP 模型，而k-匿名模型的運(yùn)行時(shí)間隨著數(shù)據(jù)集大小的增加呈指數(shù)增長(zhǎng)，因?yàn)閗-匿名模型中存在迭代過(guò)程。

基于上述評(píng)估與分析，本文模型擁有更好的效率、魯棒性，滿足不同場(chǎng)景中不同的需求。

圖6 效率分析

5 結(jié)束語(yǔ)

在隱私保護(hù)與大數(shù)據(jù)發(fā)布的研究中，使用數(shù)據(jù)匿名化與差分隱私方法實(shí)現(xiàn)對(duì)大數(shù)據(jù)的隱私保護(hù)是目前的研究熱點(diǎn)。但現(xiàn)有的隱私保護(hù)機(jī)制存在無(wú)法抵抗背景知識(shí)攻擊、發(fā)布數(shù)據(jù)可用性較低的問(wèn)題，針對(duì)這兩個(gè)問(wèn)題，本文提出了協(xié)同隱私保護(hù)模型。該模型通過(guò)將信息論、數(shù)據(jù)匿名化和差分隱私結(jié)合解決大數(shù)據(jù)發(fā)布與共享中的問(wèn)題。首先，從原始數(shù)據(jù)集選出少量準(zhǔn)標(biāo)識(shí)符屬性與敏感屬性作為特征集，然后采用最大信息系數(shù)對(duì)原始數(shù)據(jù)集中的剩余屬性與特征集屬性進(jìn)行相關(guān)性分析，從中選出相關(guān)性高的數(shù)據(jù)作為隱私數(shù)據(jù)集，最后對(duì)隱私數(shù)據(jù)集應(yīng)用所提出的協(xié)同隱私保護(hù)算法，發(fā)布滿足差分隱私保護(hù)的用電大數(shù)據(jù)集。在對(duì)真實(shí)數(shù)據(jù)集修改過(guò)的數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn)，結(jié)果表明本文所提出的模型在數(shù)據(jù)隱私性、可用性、效率性能方面均優(yōu)于其他隱私保護(hù)模型。