亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于屬性分類的用電大數(shù)據(jù)隱私保護(hù)方法

        2020-03-11 13:54:04梁曉兵
        關(guān)鍵詞:標(biāo)識(shí)符可用性原始數(shù)據(jù)

        梁曉兵,許 斌,翟 峰,沈 博

        1.中國(guó)電力科學(xué)研究院有限公司,北京100192

        2.中國(guó)科學(xué)院 信息工程研究所 信息安全國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京100093

        3.中國(guó)科學(xué)院大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,北京100049

        1 引言

        隨著云計(jì)算、物聯(lián)網(wǎng)等信息技術(shù)的快速發(fā)展,智能電網(wǎng)變得越來(lái)越智能化、高效化[1]。電網(wǎng)企業(yè)的信息系統(tǒng)中已經(jīng)積累了海量用電數(shù)據(jù)。使用數(shù)據(jù)挖掘與分析[2]技術(shù)對(duì)海量用電數(shù)據(jù)得到的分析結(jié)果,一方面,可以幫助電網(wǎng)企業(yè)為用戶提供個(gè)性化的用電服務(wù),為電網(wǎng)企業(yè)建設(shè)起到?jīng)Q策與預(yù)測(cè)作用。另一方面,可以推測(cè)出用電客戶的家庭人員情況、生活作息規(guī)律等信息,從而造成個(gè)人隱私泄露。

        目前,基于智能電表與用電數(shù)據(jù)是兩種常見防止用電用戶隱私泄露的方法[3]。其中,基于智能電表的隱私保護(hù)技術(shù),通常采用增加硬件設(shè)計(jì)開銷實(shí)現(xiàn)對(duì)智能電表的隱私保護(hù),但這種方式往往會(huì)引起較差的用戶體驗(yàn)。而基于用電數(shù)據(jù)的隱私保護(hù)技術(shù),通過(guò)對(duì)用電數(shù)據(jù)進(jìn)行隱私保護(hù),在對(duì)用戶的隱私實(shí)現(xiàn)合理保護(hù)的同時(shí),保證隱私保護(hù)后數(shù)據(jù)的可用性。因此,在精準(zhǔn)分析用戶用電數(shù)據(jù)的同時(shí),如何防止用戶隱私泄露成為現(xiàn)階段隱私保護(hù)領(lǐng)域的研究熱點(diǎn)。

        隱私保護(hù)數(shù)據(jù)發(fā)布包括兩類常用的方法,一類是以k-anonymity[4]、l-diversity[5]、t-closeness[6]為代表的聚類方法,這些方法根據(jù)屬性分布對(duì)數(shù)據(jù)進(jìn)行聚類處理,雖然有效、可行,但缺乏理論基礎(chǔ)。現(xiàn)有的k-anonymity等基于聚類的隱私保護(hù)大數(shù)據(jù)發(fā)布模型,采用概化與壓縮的方法保護(hù)一條數(shù)據(jù)記錄中屬性之間的關(guān)系。但這些模型,無(wú)法在數(shù)據(jù)隱私性與可用性之間進(jìn)行權(quán)衡,而且無(wú)法抵抗攻擊者背景知識(shí)攻擊。

        差分隱私(Differential Privacy)[7]模型從根本上解決了基于聚類的隱私保護(hù)方法的不足,對(duì)隱私泄露風(fēng)險(xiǎn)給出了嚴(yán)格的、定量化的表示和證明,但經(jīng)該方法處理后的數(shù)據(jù)可用性較差。在采用差分隱私技術(shù)對(duì)大數(shù)據(jù)發(fā)布階段進(jìn)行隱私保護(hù)時(shí),其使用的隨機(jī)化機(jī)制由于數(shù)據(jù)的稀疏性與高維性,引入大量的擾動(dòng)誤差,最終導(dǎo)致發(fā)布數(shù)據(jù)可用性較差。因此,設(shè)計(jì)可抵抗背景知識(shí)攻擊且可維持?jǐn)?shù)據(jù)可用性的隱私保護(hù)模型具有重要的研究意義。

        已有研究工作主要集中在設(shè)計(jì)有效的隱私保護(hù)模型解決上述存在的問(wèn)題。Chai 等人[8]提出一種基于kmeans 數(shù)據(jù)匿名化算法,現(xiàn)實(shí)對(duì)數(shù)據(jù)集進(jìn)行隱私保護(hù)。Chong等人[9]提出一種基于數(shù)據(jù)合成與替換的擾動(dòng)機(jī)制NESDO,該機(jī)制可以有效地保持敏感數(shù)據(jù)的特性。Zhang等人[10]提出了一種基于差分隱私的概率不可區(qū)分機(jī)制,在此機(jī)制的基礎(chǔ)上提出了一種位置偏移方案來(lái)混淆查詢和位置之間的相關(guān)性。劉曉遷等人[11]提出了一種基于數(shù)據(jù)匿名化技術(shù)的隱私保護(hù)數(shù)據(jù)發(fā)布方法,該方法通過(guò)向匿名數(shù)據(jù)添加噪聲實(shí)現(xiàn)對(duì)敏感數(shù)據(jù)的隱私保護(hù)。Zhang 等人[12]提出了一種基于CP-ABE 的相似屬性匿名方案,在中心服務(wù)器和協(xié)作用戶的幫助下,該方案能夠抵抗推理攻擊,并能抵抗查詢服務(wù)中任何實(shí)體的隱私檢測(cè)。Ke等人[13]提出一種基于準(zhǔn)標(biāo)識(shí)符分類的差分隱私保護(hù)數(shù)據(jù)發(fā)布方法AQ-DP,解決準(zhǔn)標(biāo)識(shí)符和敏感信息之間失去相關(guān)性的問(wèn)題。

        本文所做的工作與上述工作不同,通過(guò)將信息論、數(shù)據(jù)匿名化和差分隱私結(jié)合解決大數(shù)據(jù)發(fā)布與共享中的問(wèn)題。首先,從原始數(shù)據(jù)集選出少量準(zhǔn)標(biāo)識(shí)符屬性與敏感屬性作為特征集,然后采用最大信息系數(shù)對(duì)原始數(shù)據(jù)集中的剩余屬性與特征集屬性進(jìn)行相關(guān)性分析,從中選出相關(guān)性高的數(shù)據(jù)作為隱私數(shù)據(jù)集,最后對(duì)隱私數(shù)據(jù)集應(yīng)用所提出的協(xié)同隱私保護(hù)算法,發(fā)布滿足差分隱私保護(hù)的用電大數(shù)據(jù)集。

        2 預(yù)備知識(shí)

        2.1 基本概念

        根據(jù)隱私級(jí)別,將待發(fā)布數(shù)據(jù)表中的屬性分為四類。

        如表1所示,用電數(shù)據(jù)集由顯式標(biāo)識(shí)符、準(zhǔn)標(biāo)識(shí)符、敏感屬性、非敏感屬性組成。

        (1)顯式標(biāo)識(shí)符(Explicit Identifier,EI):可以唯一確定個(gè)人身份的屬性值,如用戶編號(hào)、戶名等。

        (2)準(zhǔn)標(biāo)識(shí)符(Quasi-Identifier,QI):與其他外部信息結(jié)合后,可以重新確定個(gè)人信息的屬性,如電表號(hào)、用電示數(shù)等。

        (3)敏感屬性(Sensitive Attribute,SA):不能被外界所知的個(gè)人隱私信息,如聯(lián)系電話、聯(lián)系地址、用電地址。

        (4)其他屬性(Other Attributes):對(duì)隱私?jīng)]有影響的所有其他屬性,如繳費(fèi)方式。

        從表中可知,用電數(shù)據(jù)集中包含一些個(gè)人隱私信息,在對(duì)外發(fā)布與共享前需進(jìn)行相應(yīng)的保護(hù)。

        表1 用電數(shù)據(jù)集

        2.2 最大信息系數(shù)

        最大信息系數(shù)(Maximum Information Coefficient)由Reshef等人[14]在2011年提出,它以信息論與互信息論為基礎(chǔ)用來(lái)檢測(cè)數(shù)據(jù)集中變量之間潛在的線性或非線性關(guān)聯(lián)關(guān)系,被廣泛應(yīng)用于大數(shù)據(jù)的相關(guān)性分析,通過(guò)網(wǎng)格劃分方法計(jì)算不同網(wǎng)格中兩個(gè)變量形成的概率分布來(lái)計(jì)算所有不同網(wǎng)格的最大互信息[15]。

        定義1(互信息)給定變量A={ai,i=1,2,…,n}和B={bi,i=1,2,…,n},n 為樣本數(shù)量,則:

        式中,p(a,b)為A 和B 的聯(lián)合概率密度,p(a)和p(b)分別為A 和B 的邊緣概率密度。

        定義2(最大互信息)假設(shè)D={(ai,bi),i=1,2,…,n}為一個(gè)有限的有序?qū)Φ募?,定義劃分G 將變量A 的值域分成x 段,將變量B 的值域分成y 段,G 即為x×y的網(wǎng)格。在得到的每一種網(wǎng)格劃分內(nèi)部計(jì)算互信息MI(A,B),相同x×y 的網(wǎng)格劃分有多種,取不同劃分方式中的MI(A,B)最大值作為劃分G 的互信息值,則:

        式中,D|G 表示數(shù)據(jù)D 在使用G 進(jìn)行劃分。

        定義3(特征矩陣)將不同劃分下得到的最大歸一化的MI 值組成特征矩陣M(D)x,y,則:

        定義4(最大信息系數(shù))設(shè)n 是數(shù)據(jù)集D 中兩個(gè)隨機(jī)變量X 和Y 形成的散點(diǎn)數(shù),則:

        式中,B(n)為網(wǎng)格x×y 的上限值,當(dāng)B(n)=n0.6時(shí)效果最好。

        2.3 微聚集

        微聚集(Microaggregation)[16]是實(shí)現(xiàn)k-匿名的一種方法,將相似數(shù)據(jù)劃分為同一類,每個(gè)類至少有k 條記錄,然后用類質(zhì)心代替類中所有記錄的準(zhǔn)標(biāo)識(shí)符屬性值,實(shí)現(xiàn)數(shù)據(jù)的匿名化。常用的微聚集技術(shù)由劃分和聚集兩個(gè)步驟組成。

        定義5(k-劃分)給定數(shù)據(jù)集D(A1,A2,…,Ad),包含p 個(gè)準(zhǔn)標(biāo)識(shí)符Qid={qid1,qid2,…,qidp}。對(duì)于?i,ni為第i 類的元組數(shù),用準(zhǔn)標(biāo)識(shí)符將數(shù)據(jù)集劃分為g 個(gè)類,每個(gè)類中至少包含k 條數(shù)據(jù)記錄。

        定義6(聚集)給定數(shù)據(jù)集D,對(duì)準(zhǔn)標(biāo)識(shí)符進(jìn)行k-劃分為g 個(gè)類,設(shè)Ci為第i 類元組類質(zhì)心,用Ci(i=1,2,…,g)取代所在類內(nèi)的所有元素的操作為聚集。

        2.4 差分隱私

        差分隱私是一種基于數(shù)據(jù)失真的隱私保護(hù)技術(shù),其基本思想是在最大限度的保證對(duì)數(shù)據(jù)庫(kù)查詢結(jié)果的可用性,同時(shí)保護(hù)數(shù)據(jù)庫(kù)中的個(gè)人隱私不被泄露。

        定義7(ε-差分隱私)對(duì)于給定鄰近數(shù)據(jù)集D 和D′, ||DΔD′ =1,若存在隱私算法M ,Range(M)是M的取值范圍,若算法M 在數(shù)據(jù)集D 和D′上的任意輸出結(jié)果S(S ∈Range(M))滿足下式,則稱算法M 滿足ε-差分隱私。其中ε 表示隱私預(yù)算。

        從上式可以看出,隱私預(yù)算ε 越小,隱私保護(hù)的程度越高。

        定義8(全局敏感度)[17]定義鄰近數(shù)據(jù)集D 和D′,對(duì)于任意的查詢函數(shù)f:D →Rd,則查詢函數(shù)的全局敏感度為:

        其中,R 表示函數(shù)所映射的實(shí)數(shù)空間,d 表示函數(shù)f 的查詢維度。

        定義9(拉普拉斯機(jī)制)[18]給定數(shù)據(jù)集D 查詢函數(shù)f:D →?,如果算法M 的輸出滿足下式,則算法M 滿足ε-差分隱私。

        3 基于屬性分類的用電大數(shù)據(jù)隱私保護(hù)模型

        在用電大數(shù)據(jù)環(huán)境下,由于數(shù)據(jù)的高維性和多樣性,設(shè)計(jì)有效的隱私保護(hù)數(shù)據(jù)發(fā)布模型需要解決算法模型的數(shù)據(jù)處理效率和發(fā)布數(shù)據(jù)的可用性及隱私性兩個(gè)主要問(wèn)題。為了有效解決上述問(wèn)題,提出基于屬性分類的用電大數(shù)據(jù)隱私保護(hù)模型。

        3.1 系統(tǒng)模型

        如圖1 所示,首先,電網(wǎng)公司通過(guò)物聯(lián)網(wǎng)設(shè)備采集個(gè)人、企業(yè)等用戶端的用電信息,將這些信息傳輸并存儲(chǔ)到中央服務(wù)器。然后,為電網(wǎng)的安全運(yùn)行和用戶的良好用電服務(wù),需對(duì)外發(fā)布與共享用電數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘與分析任務(wù)。出于對(duì)個(gè)人隱私信息安全問(wèn)題的考慮,中央服務(wù)器必須在發(fā)布與共享數(shù)據(jù)之前對(duì)原始數(shù)據(jù)集進(jìn)行隱私保護(hù)處理,向數(shù)據(jù)使用者發(fā)布一個(gè)合成的數(shù)據(jù)集。

        本文的目的是協(xié)助中央服務(wù)器發(fā)布一個(gè)隱私保護(hù)數(shù)據(jù)集,使所發(fā)布的數(shù)據(jù)集在維持?jǐn)?shù)據(jù)的可用性同時(shí)保護(hù)個(gè)人敏感信息。

        3.2 算法模型

        基于屬性分類的用電大數(shù)據(jù)隱私保護(hù)模型的整體流程,如圖2所示。

        圖2 基于屬性分類的用電大數(shù)據(jù)隱私保護(hù)模型

        該模型由兩個(gè)子模型組成:

        (1)基于最大信息系數(shù)的特征分類模型(Feature Classification Model Based on Maximum Information Coefficient,MICFC):根據(jù)隱私級(jí)別,對(duì)原始數(shù)據(jù)集分類,從準(zhǔn)標(biāo)識(shí)符與敏感屬性中選出部分屬性作為特征集,對(duì)原始數(shù)據(jù)剩余屬性與特征集利用最大信息系數(shù)選出相關(guān)性高的數(shù)據(jù)作為輸出數(shù)據(jù)集B,僅對(duì)隱私屬性進(jìn)行保護(hù),從而提高數(shù)據(jù)處理的效率。

        (2)基于數(shù)據(jù)匿名化與差分隱私的協(xié)同數(shù)據(jù)保護(hù)模型(Collaborative Data Protection Model Based on Data Anonymization and Differential Privacy,CDPM):對(duì)輸出數(shù)據(jù)集B 采用提出的協(xié)同隱私保護(hù)算法(Hybrid Microaggregation-Differential Privacy,HM-DP),首先利用混合微聚集對(duì)數(shù)據(jù)集B 劃分為互斥的子數(shù)據(jù)集,然后再次劃分使每個(gè)子數(shù)據(jù)集的大小固定為k,最后聚合每個(gè)子數(shù)據(jù)集并對(duì)其添加Laplace 噪聲,實(shí)現(xiàn)差分隱私保護(hù)?;诨旌衔⒕奂臄?shù)據(jù)匿名化可以分化查詢函數(shù)敏感度,提高發(fā)布數(shù)據(jù)可用性。

        3.2.1 基于最大信息系數(shù)的特征分類模型

        首先,從原始數(shù)據(jù)集中選出部分敏感屬性與準(zhǔn)標(biāo)識(shí)符屬性作為特征集,原始數(shù)據(jù)集的剩余屬性作為候選集,利用最大信息系數(shù)與啟發(fā)式搜索算法,計(jì)算候選集與特征集之間的相關(guān)性,選出相關(guān)性高的特征數(shù)據(jù)作為輸出數(shù)據(jù)集B。通過(guò)最大信息系數(shù)可以準(zhǔn)確地找到特征之間的依賴關(guān)系,對(duì)原始數(shù)據(jù)集進(jìn)行分類,挑選出需進(jìn)行隱私保護(hù)的屬性,從而在采用CDPM模型時(shí)提高算法模型處理數(shù)據(jù)的效率。

        給定包含n 條數(shù)據(jù)記錄的用電大數(shù)據(jù)集D,對(duì)其進(jìn)行預(yù)處理,選出m 個(gè)準(zhǔn)標(biāo)識(shí)符屬性與敏感屬性作為特征集F={f1,f2,…,fm,c},特征類別為c。對(duì)任意特征fi與類別c 之間的相關(guān)性定義為MIC(fi,c),取值范圍為[0,1]。 MIC(fi,c)值越大,表明fi與c 間的相關(guān)性越強(qiáng),則fi為強(qiáng)相關(guān)特征;MIC(fi,c)值越小,表明fi與c 間的相關(guān)性越弱,則fi為弱相關(guān)特征。

        如圖3所示,本文中定義的基于最大信息系數(shù)的特征分類模型對(duì)原始數(shù)據(jù)集進(jìn)行特征分類的過(guò)程:

        給定一個(gè)具有n 條數(shù)據(jù)記錄的原始數(shù)據(jù)集D,初始化原始數(shù)據(jù)集D 和空數(shù)據(jù)集B。

        圖1 系統(tǒng)模型

        圖3 基于最大信息系數(shù)的特征分類模型流程圖

        從D 中選出m 個(gè)敏感屬性和準(zhǔn)標(biāo)識(shí)符屬性作為特征集F={f1,f2,…,fm,c},將原始數(shù)據(jù)集D 中的剩余屬性作為候選集C;從候選集中選取候選變量f 'i,計(jì)算f 'i與c 之間的最大信息系數(shù)MIC(f 'i,c)。

        以計(jì)算出的最大MIC 值作為初始變量,C=C-{f 'i},B=B+{f 'i}。

        計(jì)算任意f 'i和f 'j之間的MIC(f 'i,f 'j),并選擇最大值以下的評(píng)價(jià)函數(shù)的f 'i作為下一個(gè)候選變量,并計(jì)算

        執(zhí)行貪心算法,直到選定特征的個(gè)數(shù)達(dá)到設(shè)定的個(gè)數(shù)P,輸出包含選定變量的數(shù)據(jù)集B。

        經(jīng)過(guò)MICFC 模型處理后,將其他屬性和顯式標(biāo)識(shí)符屬性從數(shù)據(jù)集中去除,只保留需要進(jìn)行隱私保護(hù)的數(shù)據(jù)屬性,提高協(xié)同數(shù)據(jù)保護(hù)模型處理數(shù)據(jù)效率。

        3.2.2 基于數(shù)據(jù)匿名化與差分隱私的協(xié)數(shù)據(jù)保護(hù)模型

        基于數(shù)據(jù)匿名化與差分隱私技術(shù),提出一種新的隱私保護(hù)算法HM-DP。具體地,采用改進(jìn)的混合微聚集(Hybrid Microaggregation)算法與差分隱私(Differential Privacy)結(jié)合的方式對(duì)數(shù)據(jù)集B 中的數(shù)據(jù)進(jìn)行隱私保護(hù)處理。

        算法1 HM-DP隱私保護(hù)算法

        輸入:數(shù)據(jù)集B,最小簇大小k,隱私預(yù)算參數(shù)ε

        輸出:隱私保護(hù)數(shù)據(jù)集B′

        1.根據(jù)準(zhǔn)標(biāo)識(shí)符屬性將數(shù)據(jù)集B 劃分為q 個(gè)互不相交的子數(shù)據(jù)集B=Bid1∪Bid2∪…∪Bidq

        2.For Bidj∈{Bid1,Bid2,…,Bidq},?j ∈{1,2,…,q} do

        4. 根據(jù)敏感屬性再劃分子數(shù)據(jù)集Bidj為csj個(gè)互不相交的簇Cs={C1,C2,…,Ccsj}

        5. while |Ci|≥k,?Ci∈Cs do

        6. 計(jì)算距離質(zhì)心Bˉid(j)最遠(yuǎn)的數(shù)據(jù)記錄br,br∈Cr

        7. 從Cr中選出k-1 個(gè)距離br最近的數(shù)據(jù)記錄,并從Cr中移除這些選出的記錄

        8. For Ci∈Cs-{Cr}

        9. 選出與br距離最近的k 個(gè)數(shù)據(jù)記錄,并從Ci中移除這些選出的記錄

        10. 計(jì)算剩余數(shù)據(jù)記錄與每個(gè)簇質(zhì)心的距離,并分配它們到距離最近的簇

        11. 計(jì)算每個(gè)簇的質(zhì)心,并用質(zhì)心代替每個(gè)準(zhǔn)標(biāo)識(shí)符屬性的值

        12. 計(jì)算每個(gè)簇刪除一條數(shù)據(jù)記錄后的查詢敏感度

        13. 對(duì)每條數(shù)據(jù)記錄添加Laplace噪聲

        14.返回滿足差分隱私保護(hù)的數(shù)據(jù)集B′

        如算法1所示,HM-DP隱私保護(hù)算法主要分三個(gè)步驟處理數(shù)據(jù):

        (1)數(shù)據(jù)劃分:首先,將數(shù)據(jù)集B 根據(jù)準(zhǔn)標(biāo)識(shí)符屬性劃分成互不相交的子數(shù)據(jù)集Bidj?B,?j ∈{1,2,…,q};然后,為了確保k -劃分后每個(gè)子數(shù)據(jù)集中敏感屬性的多樣性,根據(jù)敏感屬性的分布特性對(duì)每個(gè)子數(shù)據(jù)集再進(jìn)行劃分,從每個(gè)子數(shù)據(jù)集Bidj中選出csj個(gè)互不相交的敏感屬性簇;最終劃分的每個(gè)數(shù)據(jù)集中,準(zhǔn)標(biāo)識(shí)符屬性盡可能相似,敏感屬性盡可能相異。

        (2)數(shù)據(jù)聚集:首先,計(jì)算數(shù)據(jù)劃分處理后的每個(gè)子數(shù)據(jù)集的質(zhì)心Bˉid(j),并根據(jù)Bˉid(j)獲得距離它最遠(yuǎn)的數(shù)據(jù)記錄br,Cr為br所屬的數(shù)據(jù)簇;然后,計(jì)算出與Cr距離最近的k-1 個(gè)數(shù)據(jù)記錄,對(duì)于每個(gè)簇Ci,?i ∈{1,…,r-1,r+1,…,csj},將距離數(shù)據(jù)記錄br最近的k個(gè)數(shù)據(jù)記錄劃分為一組;最后,形成基數(shù)為k×csj的固定大小的數(shù)據(jù)組。

        (3)加噪處理:首先,對(duì)于數(shù)據(jù)組Ci,計(jì)算每個(gè)數(shù)據(jù)組Ci(i=1,2,…,Cs)中刪除一條記錄后與得到的鄰近數(shù)據(jù)集C'i之間的查詢敏感度Δ f ;然后,對(duì)每條數(shù)據(jù)記錄添加Laplace噪聲;最終,實(shí)現(xiàn)整個(gè)數(shù)據(jù)集的差分隱私保護(hù)。

        3.3 數(shù)據(jù)可用性與隱私性分析

        3.3.1 數(shù)據(jù)可用性

        所提出的隱私保護(hù)算法HM-DP的中心思想是將數(shù)據(jù)集中的準(zhǔn)標(biāo)識(shí)符屬性與敏感屬性劃分為不同的類。每個(gè)類中的數(shù)據(jù)記錄是相似的,各類間的數(shù)據(jù)記錄是相異的。首先,采用的混合微聚集思想依次對(duì)準(zhǔn)標(biāo)識(shí)符屬性、敏感屬性進(jìn)行劃分,可降低數(shù)據(jù)的泛化程度,從而降低信息損失。然后,用每類質(zhì)心值對(duì)準(zhǔn)標(biāo)識(shí)符屬性進(jìn)行替換,生成匿名化的等價(jià)組,可以分化查詢敏感度,減少加入Laplace 噪聲帶來(lái)的信息損失。最后,對(duì)數(shù)據(jù)集進(jìn)行差分隱私保護(hù),使發(fā)布的數(shù)據(jù)集能夠抵抗同構(gòu)攻擊和背景知識(shí)攻擊。因此,提出的方法在保證差分隱私的情況下,提升數(shù)據(jù)的可用性。

        3.3.2 隱私性分析

        所提出的的HM-DP算法通過(guò)數(shù)據(jù)匿名化與差分隱私結(jié)合對(duì)數(shù)據(jù)進(jìn)行隱私保護(hù)。數(shù)據(jù)匿名化的基本思想是采用微聚集對(duì)數(shù)據(jù)記錄進(jìn)行劃分,使一條數(shù)據(jù)記錄隱藏于一類等價(jià)組中??紤]到匿名化方法容易受同構(gòu)攻擊和背景知識(shí)攻擊,在數(shù)據(jù)匿名化后加入隨機(jī)噪聲,完成差分隱私保護(hù)。根據(jù)差分隱私的順序組合與并行組合性質(zhì),在互不相交的數(shù)據(jù)記錄中加入滿足隱私預(yù)算ε 的噪聲,處理后的數(shù)據(jù)集滿足差分隱私模型。在所提出的方法中,經(jīng)過(guò)混合微聚集處理后的數(shù)據(jù)之間是相互獨(dú)立的,根據(jù)差分隱私并行組合性質(zhì),HM-DP算法滿足差分隱私保護(hù)模型。因此,提出的方法對(duì)數(shù)據(jù)集同時(shí)進(jìn)行匿名化與差分隱私保護(hù),具有更高的隱私性。

        4 實(shí)驗(yàn)評(píng)估

        將HM-DP 模型與傳統(tǒng)的k-匿名模型[4]、AQ-DP 模型[13]從數(shù)據(jù)隱私性、可用性與效率三方面進(jìn)行比較與評(píng)估。K-匿名模型由L.Sweeney提出,它保證數(shù)據(jù)表中任何一條記錄的準(zhǔn)標(biāo)識(shí)符與至少k-1 條記錄相同,確保準(zhǔn)標(biāo)識(shí)符值與敏感屬性值無(wú)一對(duì)一關(guān)系。AQ-DP模型是一種基于準(zhǔn)標(biāo)識(shí)符分類的差分隱私保護(hù)數(shù)據(jù)發(fā)布方法,解決準(zhǔn)標(biāo)識(shí)符和敏感信息之間失去相關(guān)性的問(wèn)題。實(shí)驗(yàn)數(shù)據(jù)源于UC Irvine機(jī)器學(xué)習(xí)庫(kù)中的Adult數(shù)據(jù)集,將它與用電數(shù)據(jù)集進(jìn)行分析、對(duì)比后修改,將修改后的Adult 數(shù)據(jù)集作為實(shí)驗(yàn)樣本空間。將“工作”與“婚姻狀況”視為敏感屬性,除“戶名”與“用戶編號(hào)”的其他屬性視為準(zhǔn)標(biāo)識(shí)符。實(shí)驗(yàn)?zāi)P陀肞ython語(yǔ)言實(shí)現(xiàn),運(yùn)行環(huán)境為Intel Core i5 CPU 2.3 GHz,8 GB 內(nèi)存,Microsoft Windows 10操作系統(tǒng)。

        4.1 隱私性分析

        為了衡量發(fā)布數(shù)據(jù)的隱私性,引入記錄鏈接(Record Linkages,RL),RL 用來(lái)表示從匿名數(shù)據(jù)集中正確匹配原始數(shù)據(jù)記錄的百分比,,其中,n 為原始數(shù)據(jù)記錄的個(gè)數(shù),Pr(b'j)為匿名記錄的記錄鏈接概率,,G 為與b'j距離最小的原始記錄集,如果正確的原始記錄b'j在G 中,則計(jì)算猜測(cè)G 中b'j的概率,否則,Pr( b'j)=0。記錄鏈接從隱私攻擊的角度度量實(shí)際的隱私性,例如,較高隱私預(yù)算ε 的差分隱私模型不能抵抗記錄鏈接的攻擊。因此,RL 值越低,隱私泄露的概率越低,匿名后發(fā)布數(shù)據(jù)的隱私性越好。

        如圖4(a)所示,觀察到HM-DP 模型并沒有隨著準(zhǔn)標(biāo)識(shí)符屬性與敏感屬性數(shù)量的增加而增加,這說(shuō)明攻擊者只能以極小的概率獲得隱私信息。同時(shí),HM-DP 模型與另外兩個(gè)模型相比,擁有更小的RL 值,這意味著HM-DP 模型可以達(dá)到更高的隱私性。在圖4(b)中,RL 值隨著數(shù)據(jù)集的變大而增加。但與其他兩種模型相比,本文方法的RL 值較低,具有更高的隱私性。綜上,本文模型在隱私性方面均優(yōu)于其他兩種模型。

        4.2 可用性分析

        圖4 隱私性分析

        采用Kullback-Leibler 散度(KL-divergence)度量數(shù)據(jù)可用性。KL 散度從信息論的角度度量信息失真的程度,它可以計(jì)算出R 分布變化到O 分布時(shí)的信息損失。原始數(shù)據(jù)集R 與輸出數(shù)據(jù)集O 的KL 散度為,其中b 為整個(gè)數(shù)據(jù)集中的樣本空間。由于KL 散度不是對(duì)稱度量,直接使用它會(huì)使度量結(jié)果不精準(zhǔn),因此將它修改為對(duì)稱的KL散度:

        修改后的DKL( )R,O 可以消除原始KL 散度的不均衡性。

        如圖5 所示,觀察到KL 散度值隨著準(zhǔn)標(biāo)識(shí)符屬性的增加而增加,這意味著三種模型的數(shù)據(jù)可用性隨著準(zhǔn)標(biāo)識(shí)符屬性數(shù)量的增加而減少,但本文模型比k-匿名模型、AQ-DP 模型具有更好的數(shù)據(jù)可用性。當(dāng)準(zhǔn)標(biāo)識(shí)符屬性數(shù)量增加時(shí),其他兩種模型的KL 散度值比本文模型增加得更快。因此,HM-DP 模型與另外兩種模型相比,實(shí)現(xiàn)了更好的數(shù)據(jù)可用性。

        圖5 可用性分析

        4.3 效率分析

        在模型性能方面對(duì)HM-DP 模型與k-匿名模型、AQ-DP模型進(jìn)行了評(píng)估。

        如圖6(a)所示,HM-DP 模型的運(yùn)行時(shí)間不會(huì)隨著屬性值的增加而增加。這意味著本文模型可以在不同場(chǎng)景中滿足不同的需求,具有較高的魯棒性。同時(shí),與k -匿名模型、AQ-DP 模型相比,本文模型運(yùn)行時(shí)間更短。圖6(b)說(shuō)明了三種模型在數(shù)據(jù)集大小發(fā)生變化時(shí)的運(yùn)行時(shí)間??梢杂^察到,在HM-DP 和AQ-DP模型中,隨著數(shù)據(jù)集大小的增加,它們的運(yùn)行時(shí)間呈線性增長(zhǎng),HM-DP 模型的運(yùn)行時(shí)間優(yōu)于AQ-DP 模型,而k-匿名模型的運(yùn)行時(shí)間隨著數(shù)據(jù)集大小的增加呈指數(shù)增長(zhǎng),因?yàn)閗-匿名模型中存在迭代過(guò)程。

        基于上述評(píng)估與分析,本文模型擁有更好的效率、魯棒性,滿足不同場(chǎng)景中不同的需求。

        圖6 效率分析

        5 結(jié)束語(yǔ)

        在隱私保護(hù)與大數(shù)據(jù)發(fā)布的研究中,使用數(shù)據(jù)匿名化與差分隱私方法實(shí)現(xiàn)對(duì)大數(shù)據(jù)的隱私保護(hù)是目前的研究熱點(diǎn)。但現(xiàn)有的隱私保護(hù)機(jī)制存在無(wú)法抵抗背景知識(shí)攻擊、發(fā)布數(shù)據(jù)可用性較低的問(wèn)題,針對(duì)這兩個(gè)問(wèn)題,本文提出了協(xié)同隱私保護(hù)模型。該模型通過(guò)將信息論、數(shù)據(jù)匿名化和差分隱私結(jié)合解決大數(shù)據(jù)發(fā)布與共享中的問(wèn)題。首先,從原始數(shù)據(jù)集選出少量準(zhǔn)標(biāo)識(shí)符屬性與敏感屬性作為特征集,然后采用最大信息系數(shù)對(duì)原始數(shù)據(jù)集中的剩余屬性與特征集屬性進(jìn)行相關(guān)性分析,從中選出相關(guān)性高的數(shù)據(jù)作為隱私數(shù)據(jù)集,最后對(duì)隱私數(shù)據(jù)集應(yīng)用所提出的協(xié)同隱私保護(hù)算法,發(fā)布滿足差分隱私保護(hù)的用電大數(shù)據(jù)集。在對(duì)真實(shí)數(shù)據(jù)集修改過(guò)的數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),結(jié)果表明本文所提出的模型在數(shù)據(jù)隱私性、可用性、效率性能方面均優(yōu)于其他隱私保護(hù)模型。

        猜你喜歡
        標(biāo)識(shí)符可用性原始數(shù)據(jù)
        基于文獻(xiàn)計(jì)量學(xué)的界面設(shè)計(jì)可用性中外對(duì)比研究
        包裝工程(2023年24期)2023-12-27 09:18:26
        淺析5G V2X 通信應(yīng)用現(xiàn)狀及其側(cè)鏈路標(biāo)識(shí)符更新技術(shù)
        GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
        基于底層虛擬機(jī)的標(biāo)識(shí)符混淆方法
        基于輻射傳輸模型的GOCI晨昏時(shí)段數(shù)據(jù)的可用性分析
        受特定變化趨勢(shì)限制的傳感器數(shù)據(jù)處理方法研究
        基于區(qū)塊鏈的持久標(biāo)識(shí)符系統(tǒng)①
        全新Mentor DRS360 平臺(tái)借助集中式原始數(shù)據(jù)融合及直接實(shí)時(shí)傳感技術(shù)實(shí)現(xiàn)5 級(jí)自動(dòng)駕駛
        汽車零部件(2017年4期)2017-07-12 17:05:53
        數(shù)字美術(shù)館“數(shù)字對(duì)象唯一標(biāo)識(shí)符系統(tǒng)”建設(shè)需求淺議
        空客A320模擬機(jī)FD1+2可用性的討論
        河南科技(2015年7期)2015-03-11 16:23:13
        大地资源网最新在线播放| 免费国产自拍在线观看| 国产偷国产偷精品高清尤物| 亚洲欧美日韩综合久久| 欧美成人高清手机在线视频| 国产不卡av一区二区三区| 性高朝久久久久久久3小时| 国语自产偷拍精品视频偷| 亚洲日韩精品A∨片无码加勒比| 一区二区三区精品婷婷| 久久精品国产av一级二级三级| 性色av闺蜜一区二区三区| 日韩AV无码免费二三区| 精品蜜桃av一区二区三区| 人妻一区二区三区av| 亚洲国产成人片在线观看无码| 日韩在线不卡免费视频| 亚洲麻豆av一区二区| 99久久免费视频色老| 国产乱人视频在线播放| 婷婷激情六月| 亚洲中文字幕在线第六区| 深夜福利啪啪片| 人妻aⅴ无码一区二区三区| 国产 无码 日韩| 亚洲一区二区三区国产| 国产乱码精品一区二区三区四川人| 四虎国产精品视频免费看| 美女人妻中文字幕av| 国产 高潮 抽搐 正在播放 | 亚洲伊人成综合网| 久久中文字幕久久久久| va精品人妻一区二区三区| 国产xxx69麻豆国语对白| 国产精品嫩草影院AV| 日韩女同一区在线观看| 久久精品国产99久久久| 国产精品成人免费视频网站京东| 久久久久久国产福利网站| 漂亮人妻被强了中文字幕| 亚洲avav天堂av在线网爱情|