亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多敏感屬性分級的(αij,k,m)-匿名隱私保護方法

2018-03-20 00:46:18王秋月葛麗娜王利娟

計算機應(yīng)用 2018年1期

王秋月，葛麗娜，耿博，王利娟

(廣西民族大學(xué) 信息科學(xué)與工程學(xué)院，南寧 530006)(*通信作者電子郵箱66436539@qq.com)

0 引言

隨著信息技術(shù)的不斷發(fā)展，越來越多的個人隱私信息不斷泄露。在大數(shù)據(jù)信息的統(tǒng)計中，所要發(fā)布的數(shù)據(jù)往往具有多個敏感屬性，如何對這些具有多個敏感屬性的數(shù)據(jù)進行信息保護，成為目前匿名隱私保護的重要課題。目前，針對數(shù)據(jù)發(fā)布[1-2]方面，單敏感屬性的匿名模型研究較為成熟。

Jiang等[3]提出了k-匿名模型[4]；Machanavajjhala等[5]提出了L-多樣性模型[6]；文獻[7-8]中提出了(α,k)-匿名模型，該模型要求等價類中每個敏感值出現(xiàn)概率不超過閾值α；金華等[9]針對語義相近問題提出了(αi,k)匿名模型，另外還有p-敏感性k-匿名模型[10]、t-closeness框架[11]等。這些均是對單敏感屬性的數(shù)據(jù)進行保護，并沒有考慮到對多敏感屬性數(shù)據(jù)的信息保護。對于多敏感屬性方面的研究，羅方煒等[12]提出了(l,m)-多樣性模型，該模型要求當(dāng)同一敏感值的元組從等價類中刪除時，等價類剩余的元組仍滿足獨立敏感屬性(l-1)多樣性，能夠有效抵制關(guān)聯(lián)攻擊，但是仍存在敏感值語義相近問題；劉志軍等[13]針對敏感值語義相近問題提出了(l,α,m)-多樣性模型，但是該模型信息損失度比較大。

本文針對多敏感屬性語義相近問題提出了基于多敏感屬性分級的(αij,k,m)-匿名模型，在滿足(αi,k)-匿名模型的基礎(chǔ)上，對多個敏感屬性的屬性值進行分級，引入了分級表的概念，每個敏感屬性均設(shè)置一個分級表，并且為每個級別設(shè)置一個頻率約束αij，同時還引入了一種基于貪心算法的匿名化方法。

1 相關(guān)工作

1.1 信息損失度量方式

數(shù)據(jù)匿名化的過程會對數(shù)據(jù)造成一定的信息損失，降低數(shù)據(jù)的可用性。本文采用了泛化樹的構(gòu)造方法和基于權(quán)重的加權(quán)層次距離[14]，下面給出相關(guān)的定義。

定義1 加權(quán)層次距離(Weighted Hierarchical Distance, WHD)。設(shè)h為泛化樹高度,從最高層(最泛化的形式)到最底層(最具體的形式)各層的層次為1,2,…,h-1,h,當(dāng)某個屬性值從p層泛化到q層(p>q),加權(quán)層次距離定義為式(1)：

(1)

其中,wj, j-1=1/(j-1)(2≤j≤h)。例如Ex_Pid的一種泛化層為:{12010,1201*,120**,12***,1****,*},把1201*泛化到1****的距離:WHD={1/4+1/3+1/2}/{1/5+1/4+1/3+1/2+1}=0.47。

定義2 元組泛化的信息損失。設(shè)t為數(shù)據(jù)表的元組,b為準(zhǔn)標(biāo)識符屬性個數(shù),t={ZB1,ZB2,…,ZBb}經(jīng)過泛化得到t={ZB1′,ZB2′,…,ZBb′}同時設(shè)level(ZBj)在泛化樹中的層次,那么t泛化為t′的元組泛化信息損失為式(2)：

(2)

定義3 數(shù)據(jù)表泛化的信息損失。設(shè)n為數(shù)據(jù)集DT的元組個數(shù),DT′為DT的匿名表。DT中元組ti對應(yīng)泛化成DT′中元組ti′,則DT泛化為DT′的數(shù)據(jù)表泛化信息損失為式(3)：

(3)

1.2 數(shù)據(jù)隱私保護度量方式

定義4 敏感性距離[15]。假設(shè)D(B)是敏感屬性B的級別域,Li，Lj為該域中的2個級別,那么兩級別間的敏感性距離為:

D(Li,Lj)=|Li-Lj|

(4)

定義5 等價類敏感性距離度量。假設(shè)E為等價類,并且有u條記錄,D(B)為屬性B的級別域;wk為第i條記錄和第j條記錄之間級別距離的權(quán)重,那么等價類的度量定義為:

(5)

其中Cij=D(Li,Lj)。對于表1，可以設(shè)置Wk={0.85,0.9,0.95,1}，即表示：級別5到級別4、3、2、1的權(quán)重都為1；級別4到級別3、2、1的權(quán)重都為0.95；級別3到級別2、1的權(quán)重都為0.9；級別2到級別1的權(quán)重為0.85；因此第1個等價類E1(2,1,4,5)的Ds(E1)=1.133 3，較好地反映了等價類的敏感性差異。

1.3 單敏感屬性(αi,k)-匿名存在的問題

定義6 等價類。假設(shè)數(shù)據(jù)表DT的準(zhǔn)標(biāo)識符(Quasi Identifier， QI)為QI，在數(shù)據(jù)表DT上具有相同QI的元組的集合稱為一個等價類，記作E。

定義7 (αi,k)-匿名。數(shù)據(jù)集DT，其敏感屬性為PD。根據(jù)單敏感屬性值|PD|語義敏感性由高到低分為L1,L2,…,Lc級，并且為每個級別設(shè)置了一個相應(yīng)的αi約束頻率，要求每個等價類中的敏感值都滿足其所屬敏感級的頻率約束。在完成(αi,k)-匿名分組的時候，防止了具有相同級別敏感值的記錄存在于同一組內(nèi)，則稱該匿名為(αi,k)-匿名。

表1是將原始數(shù)據(jù)進行泛化，得到泛化后的數(shù)據(jù)表，然后將泛化后的數(shù)據(jù)根據(jù)(αi,k)-匿名要求進行分類，得到了表1；表1中含有兩個敏感屬性Physician、Disease，其余的為準(zhǔn)標(biāo)識符，后面的級別是根據(jù)敏感屬性值嚴(yán)重程度，將其劃分為多個等級，劃分等級的內(nèi)容在后邊將提到。

(αi,k)-匿名雖然解決了敏感值語義相近的問題，但是仍然存在著隱私泄露的風(fēng)險。例如，設(shè)級別L1的約束頻率α1=0.35，L2的約束頻率α2=0.4，L3的約束頻率α3=0.45，k=3，那么表1就是滿足其要求的匿名表，但是攻擊者仍然能夠根據(jù)背景知識確定John不是Candy的Physician值，因此Candy的Disease屬性值為Heart Disease。為了抵制多敏感屬性的關(guān)聯(lián)攻擊，提出了(αij,k,m)-匿名模型。

表1 單敏感屬性(αi,k)-匿名表

2 改進的(αij,k,m)-匿名模型

保護個人隱私信息主要是保護有關(guān)個人身份或者標(biāo)識的敏感信息，對數(shù)據(jù)進行匿名化操作時，可以把數(shù)據(jù)屬性分為3類：1)顯示標(biāo)識符(Explicit Identifier， EI)，能夠唯一識別單個個體的屬性。2)準(zhǔn)標(biāo)識符(Quasi Identifier， QI)，主要存在于匿名表與外表中，通過連接查找能唯一識別單個個體的一組屬性。3)敏感屬性(Sensitive Attribute， SA)，指個體隱私信息中屬于敏感信息的屬性。例如，對于一個患病者來說，唯一標(biāo)識個人身份信息的身份證號是顯示標(biāo)識符，性別為準(zhǔn)標(biāo)識符，患病情況為敏感屬性等信息都是需要保護的。

2.1 (αij,k,m)-匿名模型的定義

在(αi,k)-匿名模型的基礎(chǔ)上，本文定義了(αij,k,m)-匿名模型。

定義8 (αij,k,m)-匿名。含有m個敏感屬性的某一等價類在滿足單敏感屬性(αi,k)-匿名的基礎(chǔ)上，對其他的m-1個敏感屬性的敏感值均根據(jù)語義設(shè)置對應(yīng)的級別，即DT數(shù)據(jù)集中的敏感屬性為PDi(1≤i≤m)，根據(jù)敏感屬性值|PDi|敏感性由高到低分為Li1,Li2,…,Lij,…,Lmc(1≤j≤c)并為每個級別設(shè)置一個相應(yīng)的αij約束頻率，要求等價類中的m個敏感屬性的屬性值都滿足其所屬級別的頻率約束，在完成(αij,k,m)-匿名分組的時候，防止具有相同級別的敏感值的記錄存在于同一組內(nèi)，則稱該數(shù)據(jù)集滿足(αij,k,m)-匿名。

下面是對(αi,k)-匿名模型所進行的改進設(shè)計。

2.2 模型設(shè)計

設(shè)DT表示數(shù)據(jù)集，QI表示準(zhǔn)標(biāo)識符，PD表示敏感屬性。數(shù)據(jù)集DT上有多種屬性{ZB1,ZB2,…,ZBb,PD1,PD2,…,PDm}，其中ZBi(1≤i≤b)為準(zhǔn)標(biāo)識符，PDj(1≤j≤m)為敏感屬性。DT上有n個元組ti(1≤i≤n)。

因為同一個等價類中不能出現(xiàn)語義相近的內(nèi)容，所以就更不能出現(xiàn)相同的名字，故為Physician和Disease的不同屬性值都設(shè)置一個對應(yīng)的級別，如表2～3所示。

表2是對敏感屬性Disease的屬性值進行分級，1為級別最高的，5為級別最低的。表2中是根據(jù)Disease敏感屬性值的語義，將其語義相近的劃分為一組。

表3是對敏感屬性Physician的屬性值進行分級，1為最高級別，9為最低級別。表3中是根據(jù)Physician敏感屬性值的語義，將其語義相近的劃分為一組。

表2 Disease屬性分級表

表3 Physician屬性分級表

例如，設(shè)Physician為敏感屬性PD1，Disease為敏感屬性PD2，則L11的頻率約束α11=0.25，依次設(shè)置L12的為α12=0.3，L13的為α13=0.35，L14的為α14=0.4;L21的頻率約束α21=0.25，依次設(shè)置L22的為α22=0.3，L23的為α23=0.35，L24的為α24=0.4;k=4，表4是滿足其要求的匿名表。因此，在表4中，即使攻擊者了解到某個病人屬于第1個等價類，并且Physician的屬性值不是John，那么在Disease屬性上，該病人可能是Viral Infection，也可能是Fever，攻擊者不能精確地了解到該病人有什么病情，降低了泄露風(fēng)險。

表4 多敏感屬性(αij,k,m)-匿名表

在表4中，兩個敏感屬性的屬性值都有其劃分的級別，在列舉表格時，將其對應(yīng)的級別也對應(yīng)地列舉出來，可以看到表4中的級別PD1中沒有級別相同的記錄，PD2中也沒有級別相同的記錄出現(xiàn)，因此表4呈現(xiàn)的是滿足多敏感屬性(αij,k,m)-匿名模型的匿名表，表中是將k設(shè)為4，劃分成了兩個等價類，并且對Physician和Disease的每個敏感屬性值都設(shè)置了級別和閾值，同時滿足了同一等價類中不出現(xiàn)相同級別的記錄的要求。

3 改進的(αij,k,m)-匿名模型算法設(shè)計

針對改進的(αij,k,m)-匿名模型，提出了基于貪心策略的實現(xiàn)算法，在基于多敏感屬性數(shù)據(jù)分級的基礎(chǔ)上(如圖1)，采用貪心算法，使得插入等價類中的級別高低之分更加明確，區(qū)別危險等級的難度增加，提高了隱私數(shù)據(jù)的保護程度。該算法通過分組，為每個敏感屬性PDi的語義相近的敏感值分為一組FZs，將每個組劃分對應(yīng)的級別Lij，并為每個級別設(shè)置對應(yīng)的閾值αij，共有c個級別(s≤c)，使得每一個級別內(nèi)的敏感屬性值的現(xiàn)實語義含義盡可能地相近。

圖1 敏感屬性值劃分組和對應(yīng)級別

當(dāng)i=1時，按照貪心算法，選擇局部最優(yōu)的一條級別最高的記錄插入，然后再選擇局部最低的一條記錄插入，直到滿足k-匿名，用數(shù)組Di[x]存儲插入記錄PDi的級別Lij(如圖2～3所示)。

圖2 由空的等價類E轉(zhuǎn)變成滿足k-匿名條件的等價類E

圖3 由數(shù)組Di[x]存儲PDi的級別Lij

當(dāng)i=2時，查詢Di[x]中有沒有相同的值，如果有，說明存在相同等級的記錄，因此把其中一條滿足條件的記錄刪除，為了滿足k-匿名要求，在找到一條滿足條件的記錄插入，一直循環(huán)，直到不能滿足構(gòu)造等價類的要求為止。將剩下的元組插入到滿足條件的等價類中，直到不能插入為止。另外將剩下的不能構(gòu)造等價類的元組進行隱匿，并且對構(gòu)造好的等價類中的記錄進行泛化，最后輸出匿名表。具體算法過程如下。

3.1 算法設(shè)計

該算法涉及到下面的幾個標(biāo)記。

1)臨時表DT′。包括QI屬性、PDi(1≤i≤m)敏感屬性。

2)等價類E。

3)基于敏感性分級的敏感值分組FZs(FZ1,FZ2,…,FZq)，q為不同敏感屬性值的個數(shù)，F(xiàn)Zs是所有敏感屬性值語義相近的記錄的分組，并標(biāo)記該分組所屬的敏感級別PDi和αij(1≤i≤m,1≤j≤c,s≤c)。

4)分組的優(yōu)先級，敏感級別高的優(yōu)先級高，級別相同的敏感值，No小的優(yōu)先級別高。

5)Ci[u]存儲所有敏感屬性為i的級別劃分(1≤i≤m,1≤u≤c)。

6)Di[x]存儲插入記錄的PDi的敏感級別(1≤i≤m,1≤x≤c)。

算法1 基于貪心策略的匿名算法。

輸入：原始數(shù)據(jù)表DT，準(zhǔn)標(biāo)識符個數(shù)b;敏感屬性個數(shù)m，匿名約束k，敏感值分級(L11,L12,…,Lij,…,Lmc)(1≤i≤m,1≤j≤c)及其所屬級別的頻率約束(α11,α12,…,αij,…,αmc)(1≤i≤m,1≤j≤c)。

輸出：滿足(αij,k,m)-匿名模型的數(shù)據(jù)表DT′。

初始化E=?;

While 可以構(gòu)造等價類

Whilei=1 andE不滿足k-匿名模型時

If 存在優(yōu)先級非空分組，等價類E中的記錄數(shù)小于k

采用貪心策略，從優(yōu)先級別高的分組中提取一條記錄ts添加到E中，同級別中選No小的分組，每取出一條記錄，即從該分組中刪除ts;并且從優(yōu)先級別低的分組中提取一條記錄ts添加到E中，同級別中選No小的分組，每取出一條記錄，即從該分組中刪除ts;

如果等價類中的記錄數(shù)s小于k，則重復(fù)第5)步，直到等價類E滿足k-匿名；將等價類E添加到DT′中;

End if

End while

當(dāng)2≤i≤m時

10)

WhileE不滿足(αij,k,m)-匿名模型

11)

如果Di[x]的值都不相同的，則跳到下一個敏感屬性繼續(xù)循環(huán)；

12)

如果Di[x]的值有相同的，則將相同值中優(yōu)先級別較高的記錄從等價類E中刪除，并且從剩余的記錄中找到滿足條件的記錄插入到等價類E中，使其滿足(αij,k,m)-匿名要求；

13)

End while

14)

End While

15)

For each 剩余的記錄ss

16)

如果存在等價類E，添加ss后仍然滿足(αij,k,m)-匿名模型，則添加ss到該等價類，優(yōu)先考慮不含相同級別的、與最高級別距離較大的等價類;

17)

End for

18)

隱匿所有無法添加到等價類的記錄，將等價類進行泛化；將所得的匿名表DT′輸出;

19)

算法結(jié)束

本文為了進一步提高改進的(αij,k,m)-匿名模型的隱私保護程度，采用了貪心算法；在算法執(zhí)行過程中，為了形成等價類，優(yōu)先選擇局部優(yōu)先級別最高的記錄插入，然后再選擇局部優(yōu)先級別最低的記錄插入，依次循環(huán)，最后形成滿足條件的等價類；在同一個等價類中，兩個級別的敏感性距離越大，說明隱私保護程度越高，這樣優(yōu)先選擇最高和最低的級別插入，就把局部敏感性距離最大的兩個級別插入，提高了改進的(αij,k,m)-匿名模型的隱私保護程度。具體算法流程如圖4所示。

圖4 基于貪心策略的(αij,k,m)-匿名模型隱私保護流程

3.2 算法的實例分析

以原始數(shù)據(jù)表1為例來說明算法的執(zhí)行過程。按照表2和表3的敏感性分級，并定義敏感級的αij。

Disease為第1個敏感屬性，所以可以定義：α11=0.3，α12=0.35，α13=0.4，α14=0.45，α15=0.5。Physician為第2個敏感屬性，所以可以定義α21～α29為{0.25，0.3，0.35，0.4，0.45，0.5，0.55，0.6，0.65}，k=4，過程如下。

1)當(dāng)i=1，敏感屬性為Disease時，基于敏感性分級的敏感值分組按優(yōu)先級由高到低的分組。第1級別分組有：HIV={t4,t7}，Cancer={t3};第2級別分組有：Parkinson={t1,t2};第3級別分組有：HeartDisease={t5,t8};Diabetes={t6};第4級別分組有：Flu={t11};ViralInfection={t9};第5級別有：Fever={t10,t12}。

2)當(dāng)i=2時，敏感屬性為Physician，按優(yōu)先級分組。第1級別組：Aaron={t5};第2級別有：John={t1,t3,t7};第3級別有：Adonis={t9};第4級別有：Adam={t10,t11};第5級別有：Mary={t4};第6級別有：Anne={t6};第7級別：Sam={t2};第8級別有：Abbott={t8};第9級別有：Albert={t12}。

3)在滿足k=4匿名的基礎(chǔ)上進行等價類分類，當(dāng)i=1時(也就是敏感屬性為Disease時)，按照貪心策略，優(yōu)先從最高的組中取出一條記錄t3，再按級別從最低級別的分組中取出一條記錄t10，按照上述過程，再取一條高級別記錄t1，一條低級別記錄t9，此時第1個等價類為表5所示。

表5展現(xiàn)的是只根據(jù)PD1形成的等價類，雖然在PD1中，級別只有2,1,4,5，沒有級別相同的記錄出現(xiàn)，但是在PD2中出現(xiàn)的級別是2,2,3,4，因此，在PD2中出現(xiàn)了具有相同級別的記錄，所以當(dāng)i=2(即敏感屬性為Physician時)，有相同級別的數(shù)據(jù)出現(xiàn)，將相同級別的數(shù)據(jù)保留下一條記錄，其余記錄刪除(將Disease劃分的級別較高的記錄刪除)，因此把t3刪除，為了滿足4-匿名，從剩下的記錄中找到一條滿足條件的記錄插到第1個等價類中，找到記錄t4(條件要滿足敏感屬性為Disease時，從級別高的分組查找首先是t3，但是t3的Physician屬性與等價類中的級別相同，因此t3不滿足條件;找到t4,t4的Physician屬性與等價類中的級別都不同，滿足條件，插入)，因此可以得出滿足條件的第1個等價類為{t10,t1,t9,t4}以此類推出現(xiàn)滿足條件的(αij,k,m)-匿名模型的表4，隱藏剩余的不滿足條件的記錄。

表5 滿足條件的第1個等價類

這個實例分析說明了改進的(αij,k,m)-匿名模型能夠保護多敏感屬性數(shù)據(jù)，有效地抵制關(guān)聯(lián)屬性間的關(guān)聯(lián)攻擊，提高了對多敏感數(shù)據(jù)的隱私保護程度。

4 算法性能分析

4.1 實驗環(huán)境

實驗數(shù)據(jù)采用來自UCI Machine Learning Repository 中的Adult標(biāo)準(zhǔn)數(shù)據(jù)集共22 723條記錄，該數(shù)據(jù)廣泛用于數(shù)據(jù)匿名保護研究中。本機運行環(huán)境為Windows 7操作系統(tǒng)，采用C++編程。數(shù)據(jù)的具體描述如表6。

表6 Adult實驗數(shù)據(jù)集

4.2 實驗結(jié)果分析

基于貪心算法的(αij,k,m)-匿名模型主要針對多敏感屬性信息進行保護，為每個敏感屬性的敏感值進行分級設(shè)置，并為每個級別設(shè)置一個特定的αij，貪心算法將分級的記錄選擇一高一低的插入到等價類中，使得該算法在分級的基礎(chǔ)上進一步提高了數(shù)據(jù)隱私的保護程度。實驗結(jié)果證明，該模型信息損失量小，能夠抵制關(guān)聯(lián)攻擊，保護多敏感屬性數(shù)據(jù)，進一步提高了數(shù)據(jù)隱私的保護程度，是一種有效的隱私保護方法。表4就是本文算法發(fā)布的數(shù)據(jù)結(jié)果，表2～3就是對應(yīng)的分級表。

算法采用信息損失度、執(zhí)行時間和隱私保護程度為衡量數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)。與(αi,k)-匿名模型[9]相比，本文算法實現(xiàn)的(αij,k,m)-匿名模型能夠保護多敏感屬性數(shù)據(jù)；與(l,m)-多樣性模型[12]相比，(αij,k,m)-匿名模型能夠解決敏感屬性值語義相近問題；與(l,α,m)-多樣性模型[13]相比，(αij,k,m)-匿名模型信息損失量較小，保護程度更高，并且能夠更好地抵制關(guān)聯(lián)攻擊。

4.2.1 數(shù)據(jù)隱私保護度量分析

在同一個等價類中，敏感值的多樣性可以避免同質(zhì)性攻擊，更進一步說，敏感值之間的差異性越大，越難以判斷該敏感值所屬的范圍，因此，數(shù)據(jù)的隱私保護程度就越高。本文中，在敏感屬性值分級的基礎(chǔ)上，采用貪心算法，找到局部級別最高的記錄以及局部級別最低的記錄，依次插入到等價類中，形成滿足改進的(αij,k,m)-匿名模型的等價類，增大了等價類敏感性距離，提高了等價類中記錄級別的差異性。由于數(shù)據(jù)的隱私保護程度可以用平均等價類敏感性距離來度量，敏感性距離越大，說明數(shù)據(jù)之間的差異性越大，因此，本文算法可以降低隱私泄露程度，加強對多敏感屬性數(shù)據(jù)的保護。本文隨機取一個k值4，比較了在k=4的情況下，各個模型隨著m的增長所呈現(xiàn)的變化趨勢。如圖5，就是m變化時平均等價類敏感性距離度量的比較。

圖5 m變化時的平均等價類敏感性距離度量比較(k=4)

從整體上來看，當(dāng)k=4，隨著m的不斷增大，各個模型的平均等價類敏感性距離度量不斷增大；因為含有越來越多的敏感屬性，將其敏感屬性值插入到等價類中時，會不斷地循環(huán)執(zhí)行，為了滿足同一等價類中不出現(xiàn)相同的級別要求，那么隨著記錄的不斷插入，平均等價類敏感屬性距離就會不斷增大，就會出現(xiàn)如圖中的結(jié)果。從信息保護程度來說，(l,m)-多樣性模型雖然能夠保護多敏感屬性數(shù)據(jù)，但是并沒有解決敏感值語義相近問題；隱私保護程度相對較低；(αi,k)-匿名模型只能保護單敏感屬性數(shù)據(jù)，對多敏感屬性數(shù)據(jù)的保護程度最低；(l,α,m)-多樣性模型解決了語義相近問題和關(guān)聯(lián)攻擊問題，而改進的(αij,k,m)-匿名模型在解決了保護多敏感屬性問題和關(guān)聯(lián)攻擊問題后，還采用了基于貪心策略的實現(xiàn)算法，采用一條高級別，一條低級別的記錄插入方式形成等價類，在敏感屬性值分級的基礎(chǔ)上，進一步阻止了級別相近的記錄出現(xiàn)在同一等價類中，因此，與(αi,k)-匿名模型和(l,α,m)-多樣性模型相比，改進的(αij,k,m)-匿名模型在信息保護程度上有更好的效果。本文采用等價類敏感性距離度量來量化數(shù)據(jù)的隱私保護程度，等價類間的級別相差越大，級別距離就越大，數(shù)據(jù)的隱私保護程度就越好，從圖5中可以看出，改進的(αij,k,m)-匿名模型的平均等價類敏感性距離度量最高，因此，該模型的隱私保護程度最高。

4.2.2 信息損失和時間效率的分析

由圖6和圖7可以看出，從整體上來看，當(dāng)k=4時，隨著m的不斷增大，各個模型的信息損失量增大，執(zhí)行時間也在變長；因為當(dāng)數(shù)據(jù)信息含有越來越多的敏感屬性時，程序執(zhí)行的循環(huán)次數(shù)就會增多，那么執(zhí)行時間就會相應(yīng)地增大；由于含有多個敏感屬性，在進行等價類分類時，為了滿足各個敏感屬性的屬性值在插入到等價類中的要求，那么相對的信息的損失量就會增加。在執(zhí)行時間相差不大的基礎(chǔ)上，與(l,m)-多樣性模型相比，在m=1時，改進的(αij,k,m)-匿名模型能夠很好地解決敏感值語義相近問題，提高對數(shù)據(jù)信息的隱私保護程度；(l,α,m)-多樣性模型相比，改進的(αij,k,m)-匿名模型能夠更好地降低信息損失量，在算法執(zhí)行的結(jié)尾，可以對不能夠構(gòu)造等價類的元組，找到滿足條件的等價類，再次并將其插入，減少信息損失；與(αi,k)-匿名模型相比，當(dāng)m=1時，兩者的信息損失量是相同的，隨著m的增大，改進的(αij,k,m)-匿名模型的信息損失度也會增大，但是該模型能夠?qū)Χ嗝舾袑傩詳?shù)據(jù)進行保護，抵制關(guān)聯(lián)屬性之間的關(guān)聯(lián)攻擊。

圖6 m變化時信息損失量的比較(k=4)

圖7 m變化時執(zhí)行時間的比較(k=4)

4.3 信息損失量與隱私保護分析

從整個算法的執(zhí)行過程看：首先，以m個敏感屬性為基準(zhǔn)，不斷抽取語義相近的敏感值記錄構(gòu)建分組；根據(jù)敏感值的敏感性，為每個分組設(shè)置對應(yīng)的級別Lij，并且設(shè)置對應(yīng)的閾值αij；按照貪心策略，選擇級別一高一低的順序插入，構(gòu)造不會出現(xiàn)相同級別記錄的等價類，實現(xiàn)了m個敏感屬性的多樣性。通過研究改進的(αij,k,m)-匿名隱私保護模型和基于貪心策略的匿名化隱私保護算法，從技術(shù)執(zhí)行的各個關(guān)鍵步驟找到了該模型在m的不同取值下與其他模型信息損失度和時間效率的對比圖。綜合考慮，改進的(αij,k,m)-匿名隱私保護模型能夠滿足對多敏感屬性數(shù)據(jù)的隱私保護需求，積累相關(guān)數(shù)據(jù)集、實現(xiàn)代碼及為改進的(αij,k,m)-匿名隱私保護模型和基于貪心策略的匿名化隱私保護算法研究提供實際的支持。將(αij,k,m)-匿名隱私保護模型和匿名化隱私保護算法結(jié)合，解決了不同多敏感屬性數(shù)據(jù)的匿名化問題和關(guān)聯(lián)攻擊問題，并且提高了隱私數(shù)據(jù)的保護程度。形式化地定義信息損失度和時間效率，可以更加客觀地分析、比較不同匿名化隱私保護技術(shù)的性能。

5 結(jié)語

本文提出了抵制多敏感屬性關(guān)聯(lián)攻擊的(αij,k,m)-匿名模型。該模型信息損失量小，可以對多敏感屬性的數(shù)據(jù)進行更好的保護。針對此模型本文提出了基于貪心策略的實現(xiàn)算法，實驗證明所提出的算法能實現(xiàn)面向多敏感屬性的(αij,k,m)-匿名模型，有效地保護了含有多敏感屬性數(shù)據(jù)的個人隱私，提高了數(shù)據(jù)隱私的保護程度。

本文所提出的算法在執(zhí)行時間上還有待改進，而且本文針對不同算法進行了對比，接下來將針對這兩方面進行研究，如何在不影響算法匿名保護的基礎(chǔ)上提升算法執(zhí)行時的效率是一項很有意義的工作。

References)

[1] ABAD B, KINARIWALA S A. A novel approach for privacy preserving in medical data mining using sensitivity based anonymity [J]. International Journal of Computer Applications, 2013, 42(4): 13-16.

[2] PURUSHOTHAMA B R, AMBERKER B B. Duplication with trapdoor sensitive attribute values: a new approach for privacy preserving data publishing [J]. Procedia Technology, 2012, 6(4): 970-977.

[3] JIANG W, CLIFTON C. Privacy-preserving distributedk-anonymity [C]// DBSec’05: Proceedings of the 19th Annual IFIP WG 11.3 Working Conference on Data and Applications Security. Berlin: Springer, 2005: 166-177.

[4] SORIA-COMAS J. DOMINGO-FERRER J. Probabilistick-anonymity through micro aggregation and data swapping [C]// Proceedings of the 2012 IEEE International Conference on Fuzzy Systems. Piscataway, NJ: IEEE, 2012: 1-8.

[5] MACHANAVAJJHALA A, GEHRKE J, KIFER D, et al.L-diversity: privacy beyondk-anonymity [C]// Proceedings of the 22nd International Conference on Data Engineering. Piscataway, NJ: IEEE, 2006: 24-35.

[6] BHATTACHARYYA D K. Decomposition+: improvingl-diversity for multiple sensitive attributes [C]// CCSIT 2012: Proceedings of the 2012 International Conference on Computer Science and Information Technology. Berlin: Springer, 2012: 403-412.

[7] WONG R C, LI J, FU A W, et al. (α,k)-anonymity: an enhancedk-anonymity model for privacy preserving data publishing [C]// KDD ’06: Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2006: 745-759.

[8] 劉麗杰，李盼池，李守威.?；?α,k)-匿名方法研究[J].計算機工程與應(yīng)用,2014,50(2):75-80. (LIU L J, LI P C, LI S W. Research of granulating (α,k)-anonymity method [J]. Computer Engineering and Applications, 2014, 50(2): 75-80.)

[9] 金華,張志祥,李善成,等. 基于敏感性分級的(αi,k)-匿名隱私保護[J].計算機工程,2011,37(14):12-17.(JIN H, ZHANG Z X, LI S C, et al. (αi,k)-anonymity privacy preservation based on sensitivity classification [J]. Computer Engineering, 2011, 37(14): 12-17.)

[10] TRUTA T M, VINAY B. Privacy protection:p-sensitivek-ano-nymity property [C]// ICDEW 2006: Proceedings of the 22nd International Conference on Data Engineering Workshops. Washington, DC: IEEE Computer Society, 2006:94-94.

[11] LI N, LI T, VENKATASUBRAMANIAN S.t-closeness: privacy beyondk-anonymity andl-diversity [C]// ICDE 2007: Proceedings of the 23rd International Conference on Data Engineering. Piscataway, NJ: IEEE, 2007: 106-115.

[12] 羅方煒,韓建民,魯劍峰,等.抵制多敏感屬性關(guān)聯(lián)攻擊的(l,m)-多樣性模型[J].小型微型計算機系統(tǒng),2013,34(6):1387-1391.(LUO F W, HAN J M, LU J F, et al. A (l,m)-diversity model of resisting the associated attack based on multi-sensitive attributes [J]. Journal of Chinese Computer Systems, 2013, 34(6): 1387-1391.)

[13] 劉志軍,張艷麗,閆晶晶,等.面向多敏感屬性的個性化分級(l,α,m)-多樣性匿名方法[J].科技通報,2016,32(1):123-127.(LIU Z J, ZHANG Y L, YAN J J, et al. An personalized classification (l,α,m)-diversity anonymous approach based on multi-sensitive attributes [J]. Bulletin of Science and Technology, 2016, 32(1): 123-127.)

[14] LI J, WONG C W, FU W C, et al. Achievingk-anonymity by clustering in attribute hierarchical structures [C]// DaWaK 2006: Proceedings of the 2006 International Conference on Data Warehousing and Knowledge Discovery. Berlin: Springer, 2006: 405-416.

[15] HAN J, YU H, YU J. An improvedl-diversity model for numerical sensitive attributes [C]// Proceedings of the 3rd International Conference on Communications and Networking in China. Piscataway, NJ: IEEE, 2008: 938-943.

This work is partially supported by the National Natural Science Foundation of China (61462009), the Scientific Research Foundation of Guangxi University for Nationalities (2014MDYB029), the China-ASEAN Research Center of Guangxi University for Nationalities (Guangxi Science Experimental Center) 2014 Open Project (TD201404).

WANGQiuyue, born in 1991, M. S. candidate. Her research interests include information security.

GELina, born in 1969, Ph. D., professor. Her research interests include information security.

GENGBo, born in 1990, M. S. candidate. His research interests include information security.

WANGLijuan, born in 1992, M. S. candidate. Her research interests include information security.