亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

半監(jiān)督聚類的匿名數(shù)據(jù)發(fā)布

2011-06-06 00:56:30楊高明楊靜張健沛

哈爾濱工程大學(xué)學(xué)報(bào) 2011年11期

楊高明，楊靜，張健沛

(哈爾濱工程大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，黑龍江哈爾濱150001)

許多單位每天都在收集大量的個(gè)人信息，為從這些數(shù)據(jù)中得到有效的信息，需要應(yīng)用數(shù)據(jù)挖掘技術(shù)．而數(shù)據(jù)挖掘技術(shù)的應(yīng)用通常會(huì)導(dǎo)致個(gè)人隱私信息的破壞，為有效保護(hù)個(gè)人隱私，保留更多的有用數(shù)據(jù)信息，數(shù)據(jù)發(fā)布之前需要進(jìn)行隱私保護(hù)［1-2］．k-匿名［3］是隱私保護(hù)的數(shù)據(jù)發(fā)布技術(shù)常用模型，該模型把數(shù)據(jù)集劃分成若干簇(組)，使每個(gè)簇內(nèi)至少包含k個(gè)元素，且簇內(nèi)元組有相同的屬性值．為使相同的簇內(nèi)元組有相同的屬性值，需要對元組進(jìn)行概化/隱匿處理，該方法建立在預(yù)定義的域概化層次樹結(jié)構(gòu)和值概化層次樹結(jié)構(gòu)之上，因此會(huì)帶來不必要的信息損失．為減少信息發(fā)布時(shí)的信息損失，不少學(xué)者研究使用聚類方法實(shí)現(xiàn)k-匿名［4-5］．隨著對k-匿名模型的研究深入，研究者發(fā)現(xiàn)k-匿名模型可以有效的抵御連接(link)攻擊，但是不能抵御背景知識攻擊和同質(zhì)攻擊［6］．為防御背景知識攻擊和同質(zhì)攻擊，學(xué)者研究了各種方法［6-8］．其中l(wèi)-多樣性模型［6，9］要求每個(gè)簇類的敏感值要滿足 l-多樣性約束，以提高敏感值與其所屬個(gè)體的鏈接難度，該模型使用概化/隱匿方法．王智慧等［10］提出使用聚類方法實(shí)現(xiàn)l-多樣性隱私保護(hù)，他們首先對數(shù)據(jù)進(jìn)行聚類，然后對聚類后的簇概化處理．p-敏感k-匿名模型［8］要求每個(gè)等價(jià)類中元組個(gè)數(shù)不少于k且敏感值種類不少于 p．(α，k)-匿名模型［7，11］通過控制等價(jià)類中敏感值出現(xiàn)的頻率實(shí)現(xiàn)敏感值多樣性．其中文獻(xiàn)［11］提出(α，k)-匿名模型的概念，文獻(xiàn)［7］使用概化方法予以初步完善．韓建民等［12］提出為(α，k)-匿名模型的每個(gè)敏感值設(shè)置一個(gè)α，這種方法適用于敏感值數(shù)目較少的情況，不適用敏感數(shù)值較多的情況，另外文獻(xiàn)［12］不能處理數(shù)值屬性，僅僅處理分類屬性．

(α，k)-匿名模型目前有2種實(shí)現(xiàn)方法，即使用概化/隱匿方法［7］或者聚類方法［12］．文獻(xiàn)［7］給出了簡單(α，k)-匿名和廣義(α，k)-匿名概念和算法．聚類實(shí)現(xiàn)(α，k)-匿名方法［12］建立在文獻(xiàn)［7］的基礎(chǔ)上，擴(kuò)展為每個(gè)敏感值設(shè)置一個(gè)比率上限α．對于敏感值較少的情況，文獻(xiàn)［12］可以很好的實(shí)現(xiàn)隱私保護(hù)，若敏感值較多時(shí)，為每個(gè)敏感值設(shè)置上限就會(huì)變成費(fèi)時(shí)費(fèi)力的工作，而對于數(shù)據(jù)不斷增長的情況則很難實(shí)現(xiàn)隱私保護(hù)工作．另外研究證明概化/隱匿方法實(shí)現(xiàn)k-匿名是NP難度的［13］，且信息損失過大，數(shù)據(jù)效用(utility)低．為更好的實(shí)現(xiàn)隱私保護(hù)，降低信息損失，提高數(shù)據(jù)效用，提出半監(jiān)督聚類的(α，k)-匿名模型，該模型為高敏感屬性值提供較高的保護(hù)度，而低敏感屬性值提供普通的保護(hù)度．

1 半監(jiān)督(α，k)-匿名的相關(guān)概念

目前k-匿名及其演化的各種數(shù)據(jù)發(fā)布方法均把數(shù)據(jù)表屬性分為3類:顯式標(biāo)識符屬性、準(zhǔn)標(biāo)識符屬性QI(quasi-identifier)以及敏感屬性．顯式標(biāo)識符是惟一標(biāo)識個(gè)體身份的屬性，如用戶身份證號碼、姓名等．這些屬性在數(shù)據(jù)發(fā)布前應(yīng)被刪除或加密;準(zhǔn)標(biāo)識符是通過這些屬性的鏈接來標(biāo)識個(gè)體身份的一組屬性，如表1中屬性組{Age，Sex，Country}．隱私保護(hù)的數(shù)據(jù)發(fā)布主要是改變準(zhǔn)標(biāo)識符屬性，使個(gè)體的隱私信息不至于泄露;敏感屬性指包含個(gè)體隱私信息的屬性，如薪水、身體狀況等，它們是數(shù)據(jù)發(fā)布中需要保護(hù)的屬性．

定義1 給定數(shù)據(jù)表DT={A1，A2，…，Am，S}，其中準(zhǔn)標(biāo)識符QI={A1，A2，…，Am}，敏感屬性為S．若存在一組元組，它們有相同的屬性值{v1，v2，…，vm}，則稱它們?yōu)橄鄬τ跍?zhǔn)標(biāo)識符 QI的等價(jià)類．

等價(jià)類包含元組數(shù)的多少標(biāo)志著類中個(gè)體的身份保護(hù)強(qiáng)度，其包含的元組數(shù)越多，越難識別出等價(jià)類中的個(gè)體．如果一個(gè)數(shù)據(jù)集DT的每個(gè)等價(jià)類相對于QI包含的元組數(shù)大于或者等于k，則這個(gè)數(shù)據(jù)集是k-匿名的．例如表1中元組1、2、3、4關(guān)于{Age，Sex，Country}構(gòu)成一個(gè)等價(jià)類，該數(shù)據(jù)表兩個(gè)簇都滿足4-匿名．滿足k-匿名的數(shù)據(jù)表中每個(gè)元組被連接到具體個(gè)體的可能性減少了，個(gè)人的隱私信息得到保護(hù)．

k-匿名雖然可以很好的防止連接攻擊，但是若攻擊者發(fā)動(dòng)同質(zhì)攻擊或者背景知識攻擊，個(gè)人隱私依然會(huì)破壞．為提供更好的隱私保護(hù)效果，重新定義(α，k)匿名模型，即定義半監(jiān)督(α，k)-匿名模型，同時(shí)避免了文［7，11-12］中的循環(huán)定義．

表1 匿名表Table 1 Anonymous table

定義2 給定數(shù)據(jù)表 DT={A1，A2，…，Am，S}，其中準(zhǔn)標(biāo)識符QI={A1，A2，…，Am}，敏感屬性為S．設(shè)存在映射f(DT)→DT'，使得DT'滿足k-匿名．設(shè)Sh?S為需要保護(hù)的高敏感屬性集合，設(shè)Sl?S為不需要特別保護(hù)的低敏感屬性集合．若對?s∈Sh，設(shè)(EC，s)為等價(jià)類EC中包含敏感值s的元組的集合，α(0＜α＜1)為用戶指定的閾值．如果s在每個(gè)等價(jià)類中的頻率都不大于 α，即 ?EC，都有|(EC，s)|/|EC|≤α，則匿名數(shù)據(jù)表 DT'關(guān)于準(zhǔn)標(biāo)識符QI和敏感值s滿足半監(jiān)督(α，k)-匿名．

半監(jiān)督(α，k)-匿名模型僅需為高敏感度值s設(shè)置一個(gè)頻率約束α，要求等價(jià)類中高敏感值s∈Sh滿足半監(jiān)督(α，k)-匿名約束，而敏感度值s∈Sl不考慮其敏感保護(hù)度．敏感值s敏感性越強(qiáng)，則α值應(yīng)越?。热?AIDS的頻率約束設(shè)為0．5，而Flu、Fever等常見疾病，它們的約束可以不考慮，則表2是滿足這些參數(shù)的半監(jiān)督(α，k)-匿名約束．

表 2(0．5，4)-匿名表Table 2 (0．5，4)-anonymous table

2 距離與數(shù)據(jù)效用度量

2．1 距離度量

數(shù)據(jù)集中的數(shù)據(jù)包含數(shù)值屬性(連續(xù)型變量)和分類屬性(離散型變量)，處理這種數(shù)據(jù)最簡單的方法是將這種混合型數(shù)據(jù)中的離散變量數(shù)值化;或者將連續(xù)型變量離散化，再分別利用相應(yīng)的連續(xù)性或離散型聚類模型的建立方法來進(jìn)行聚類分析．但是這2類方法都相應(yīng)地拋棄了某些數(shù)據(jù)類型的特征，因而所得到的聚類效果并不好．更合理的混合型數(shù)據(jù)的聚類模型要充分考慮2類屬性的特點(diǎn)，并能恰當(dāng)?shù)貙烧呓Y(jié)合起來．為達(dá)到更好的聚類效果，減少數(shù)據(jù)發(fā)布時(shí)的信息損失，本文引入度量空間映射方法，更詳細(xì)的情況讀者可以參考文獻(xiàn)［14］．

元組對象T在邏輯上可以表示為屬性值對的邏輯“與”:［A1=x1］∧［A2=x2］∧…∧［Am=xm］，此處 xj∈DOM(Aj)，1≤j≤m．屬性值對［Aj=xj］稱為選擇子，在不引起混淆的情況下以向量表示T．

假設(shè)數(shù)據(jù)集包含m個(gè)混合類型的變量，元組對象i和j之間的相異度d(i，j)定義為m

式中:如果xif或xjf缺失(即對象i或?qū)ο骿沒有變量f的度量值)，或者xif=xjf=0，且變量f是非對稱二元變量，則指示項(xiàng)=0;否則，指示項(xiàng)變量f對i和j之間相異度的貢獻(xiàn)根據(jù)它的類型計(jì)算:

2)如果f是二元或者分類變量:如果 xif=xjf，

4)如果f是比例標(biāo)度變量:要么進(jìn)行對數(shù)變換，并且把變換后的數(shù)據(jù)作為區(qū)間標(biāo)度的;要么把f當(dāng)作連續(xù)的序數(shù)數(shù)據(jù)，計(jì)算rif和zif，然后把zif當(dāng)作區(qū)間標(biāo)度的數(shù)據(jù)來處理．

上面的步驟與各種單一變量類型的處理相同．惟一的不同就是基于區(qū)間的變量，其中規(guī)格化使得變量值映射到區(qū)間［0．0，1．0］．這樣，即便描述對象的變量具有不同類型，對象之間的相異度也能夠計(jì)算．

2．2 匿名效用度量

聚類實(shí)現(xiàn)隱私保護(hù)的匿名化數(shù)據(jù)發(fā)布有2種發(fā)布方式:一種是發(fā)布簇中心和簇內(nèi)的元組數(shù)和半徑信息［4］;一種是對每個(gè)簇進(jìn)行概化/隱匿操作，并發(fā)布概化/隱匿以后的數(shù)據(jù)［10］．本文采用概化/隱匿方法．

2．2．1 數(shù)值屬性失真度

設(shè)數(shù)據(jù)表DT={A1，A2，…，Am，S}，其中準(zhǔn)標(biāo)識符QI={A1，A2，…，Am}．元組t=(x1，…，xm)概化為 t'=(［y1，z1］，…，［ym，zm］)，yi≤xi≤zi(1≤i≤m)，則數(shù)值屬性Ai的信息損失為

2．2．2 分類屬性失真度

分類屬性的概化通常伴隨著分類層次系統(tǒng)樹，它為屬性值指定不同的粒度．設(shè)元組t在屬性Ai上的值為v，概化為一系列值v1，v2，…，vm．它們在層次樹上的公共祖先表示為ancestor(v1，v2，…，vm)，則分類屬性值的失真度為

式中:|Ai|為在分類層次樹上葉子結(jié)點(diǎn)數(shù)．

圖1是分類屬性Job和數(shù)值屬性Age的分類層次系統(tǒng)樹，依據(jù)分類層次系統(tǒng)樹可以很容易計(jì)算出每個(gè)屬性概化以后的信息損失．

圖1 Job和Age值泛化層次Fig．1 Value generalization hierarchies of Job and Age

2．2．3 元組和數(shù)據(jù)表的失真度

即包含數(shù)值屬性又包含敏感屬性的元組t，其信息損失為

整個(gè)數(shù)據(jù)表的信息損失為

3 匿名模型的聚類算法

3．1 頻率約束α的設(shè)置原則

設(shè)置敏感值的頻率約束α應(yīng)遵守以下2個(gè)原則:1)敏感性高的敏感值α應(yīng)相對低些，敏感性低的敏感值，α應(yīng)相對高些;2)α應(yīng)該不小于該敏感值在原始數(shù)據(jù)表中的頻率且α·k≥1，否則不能生成滿足半監(jiān)督(α，k)-匿名約束的匿名表．設(shè)DT為匿名表，|DT|為表中元組個(gè)數(shù)，E為一等價(jià)類，S為敏感屬性，vs為一敏感值，α為vs的頻率約束，則α應(yīng)滿足式:

3．2 算法描述

半監(jiān)督(α，k)-匿名算法基本思想是:首先利用式(1)計(jì)算數(shù)據(jù)表的相異矩陣，由相異矩陣得到元組之間的兩兩距離，然后計(jì)算每個(gè)元組到其他元組的距離和，根據(jù)距離和選擇質(zhì)心點(diǎn)，距離和的計(jì)算使用式(2)．由于相異矩陣中d(i，j)=d(j，i)，所以相異矩陣是上(下)三角矩陣，根據(jù)該元組所在的對角線位置計(jì)算每個(gè)元組的距離和，把行和列上的距離相加即可．而選擇距離最小的點(diǎn)做為質(zhì)心主要是避免選擇離群點(diǎn)做為質(zhì)心點(diǎn)．利用質(zhì)心點(diǎn)vi構(gòu)造簇Ci并尋找距離簇Ci質(zhì)心最近的個(gè)元組，若符合加入條件則加入簇Ci，直到簇Ci中元組數(shù)達(dá)到k．算法循環(huán)結(jié)束后在步驟10)，若還有小于k的元組沒有分配到等價(jià)類，則需要把這些元組分配到距離它們最近且滿足(α，k)-匿名的等價(jià)類．算法描述見圖2．

3．3 算法復(fù)雜度分析

算法步驟2)計(jì)算相異矩陣，其時(shí)間代價(jià)為O(n2)．步驟4)計(jì)算每個(gè)元組的距離和Sum(i)，其時(shí)間代價(jià)為O(n2)．步驟5)～9)是一個(gè)循環(huán)過程，假設(shè)每個(gè)等價(jià)類都不小于k，則簇的個(gè)數(shù)至少為n/k．生成第1個(gè)簇的代價(jià)是O(k(n-(k+1)/2))，生成第2個(gè)簇的代價(jià)是O(k(n-(3k+1)/2))，生成第3個(gè)簇的代價(jià)是O(k(n-(5k+1)/2))，以此類推，直到第n/k個(gè)簇，所以聚類的平均時(shí)間花銷為:O(O(k(n-(k+1)/2))+O(k(n-(3k+1)/2))+O(k(n-(5k+1)/2))+…+O(k(n-((2n/k-1)k+1)/2))=O(n2)．算法步驟10)代價(jià)為O(k)，k為剩余不能生成簇的元組．所以總的時(shí)間花銷為 O(O(n2)+O(n2)+O(n2)+O(k))=O(n2)．

圖2 半監(jiān)督(α，k)-匿名算法Fig．2 Algorithm of semi-supervised(α，k)-anonymity

4 實(shí)驗(yàn)數(shù)據(jù)及結(jié)果分析

4．1 實(shí)驗(yàn)數(shù)據(jù)及參數(shù)

實(shí)驗(yàn)主要分析半監(jiān)督(α，k)-匿名的信息損失和執(zhí)行時(shí)間．實(shí)驗(yàn)使用Adult標(biāo)準(zhǔn)數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)集，該數(shù)據(jù)集去除空值之后有30 162個(gè)記錄．實(shí)驗(yàn)的硬件環(huán)境為 Intel Pentium IV 3．0GHz CPU，1GB RAM，操作系統(tǒng)為Microsoft Windows XP，編譯環(huán)境是C++．為表示方便把半監(jiān)督聚類(α，k)-匿名簡稱為 SemiAnony，把文獻(xiàn)［7］的廣義(α，k)-匿名簡稱為GeneAnony．本文比較它們的信息損失與時(shí)間代價(jià)．

4．2 信息損失分析

圖3給出了k=25時(shí)，準(zhǔn)標(biāo)識符維數(shù)|QI|變化對GeneAnony和SemiAnony信息損失的影響，其中GeneAnony設(shè)置α=0．3，SemiAnony設(shè)置高敏感度屬性α=0．3，低敏感度屬性α=0．4．當(dāng)準(zhǔn)標(biāo)識符維數(shù)|QI|增加時(shí)，GeneAnony和SemiAnony的信息損失均隨之增加，在初始階段增長較慢，隨著|QI|數(shù)目的增加，GeneAnony明顯比SemiAnony增長快．這主要是由于GeneAnony所有敏感值的α設(shè)置相同，且α大于所有敏感值在整個(gè)數(shù)據(jù)集的分布，所以其信息損失主要是由于隨著|QI|的增加，需要概化更多的元組屬性導(dǎo)致信息損失增大．由于每個(gè)屬性值域大小不同，所以其信息損失幅度不同．隨著|QI|的增加，SemiAnony需要處理更多的準(zhǔn)標(biāo)識符屬性，因此其信息損失也呈增加趨勢，但比起使用Apriori剪枝算法的GeneAnony增加趨勢要小．在同等條件下，即當(dāng)α、k和|QI|均相同時(shí)，SemiAnony的信息損失要遠(yuǎn)小于GeneAnony．這是因?yàn)镚eneAnony使用Apriori剪枝概化策略，每次|QI|增加時(shí)，其上次的最優(yōu)選擇對下次選擇來說不能保證仍然是最優(yōu)的．而SemiAnony把屬性值映射到相同的度量空間，采取聚類策略，同一個(gè)簇內(nèi)的元組在相同度量空間上的距離一定最近，因此其信息損失也一定最小．

圖3 準(zhǔn)標(biāo)識符維數(shù)|QI|變化下的信息損失Fig．3 Information loss when varying the size of|QI|

圖4為|QI|=7，α=0．3，k值變化時(shí)，2種(α，k)-匿名模型信息損失量的比較．當(dāng)k值較小時(shí)，等價(jià)類內(nèi)的元組相似性較高信息較小，但此時(shí)的信息損失主要受α的限制，為滿足(α，k)-匿名同一個(gè)等價(jià)類內(nèi)的元組不一定是相似性最高的，因此總的信息損失仍然較大．隨著k值的增大，α·k也隨著增加，更容易生成滿足(α，k)-匿名的等價(jià)類，這時(shí)α的影響減弱，k值影響增強(qiáng)．k的增加要求每個(gè)等價(jià)類中的元組數(shù)變多，要對元組進(jìn)行更高層次的概化，所以信息損失會(huì)增大．由圖4以及以上分析可知，總的信息損失先減少后增大．

圖4 k變化下的信息損失Fig．4 Information loss when varying the size of k

由圖3和圖4以及上面的分析可知，相同情況下GeneAnony的信息損失量大于SemiAnony，因此SemiAnony匿名模型數(shù)據(jù)效用更強(qiáng)．

4．3 執(zhí)行時(shí)間分析

圖5給出了k=25，準(zhǔn)標(biāo)識符維數(shù)|QI|變化時(shí)對GeneAnony和SemiAnony執(zhí)行時(shí)間的影響，其中GeneAnony設(shè)置α=0．3，SemiAnony設(shè)置高敏感度屬性α=0．3，低敏感度屬性 α =0．4．隨著|QI|的增加，它們的執(zhí)行時(shí)間都有所增加．但是GeneAnony的執(zhí)行時(shí)間增長呈明顯加速趨勢．SemiAnony的執(zhí)行時(shí)間初始狀態(tài)大于GeneAnony，隨著準(zhǔn)標(biāo)識符屬性的增加，GeneAnony的執(zhí)行時(shí)間逐漸超越SemiAnony．這主要是由于GeneAnony通過遞增地考察準(zhǔn)標(biāo)識符子屬性集上的概化屬性值組合來尋找可實(shí)現(xiàn)廣義(α，k)-匿名保護(hù)的概化方案，在最壞情況下廣義(α，k)-匿名的執(zhí)行時(shí)間隨著準(zhǔn)標(biāo)識符維數(shù)增加將呈指數(shù)式增長，每個(gè)屬性的維數(shù)和數(shù)據(jù)分布不同，所以增長的趨勢不同，有增長快慢差異．而半監(jiān)督(α，k)-匿名通過考察元組與類之間以及類與類之間的距離尋找合適的概化方案，以較小的信息損失來滿足匿名保護(hù)的需求，其執(zhí)行時(shí)間隨著準(zhǔn)標(biāo)識符維數(shù)的增加而呈線性增長趨勢．另外半監(jiān)督(α，k)-匿名并不調(diào)整全部敏感屬性值，僅調(diào)整高敏感屬性值，k變大，聚類的次數(shù)變多，所以時(shí)間花銷就會(huì)變大．

圖6給出了當(dāng)準(zhǔn)標(biāo)識符維數(shù)|QI|和固定，k值變化時(shí)對廣義(α，k)-匿名和半監(jiān)督(α，k)-匿名執(zhí)行時(shí)間的影響．廣義(α，k)-匿名模型隨著k的增加執(zhí)行時(shí)間增大，而半監(jiān)督隨著k值的增加反而減少．這種現(xiàn)象主要是由于廣義(α，k)-匿名在準(zhǔn)標(biāo)識符QI的每個(gè)子屬性集上采取Apriori剪枝概化策略．隨著k值的增加，它需要作更多次概化嘗試，直到概化處理結(jié)果滿足廣義(α，k)-匿名模型需求，所以k值增加使其執(zhí)行時(shí)間有增加的趨勢．對于半監(jiān)督(α，k)-匿名來說，初始階段需要計(jì)算相異矩陣和每個(gè)元組的距離和，簇質(zhì)心點(diǎn)的生成和調(diào)整以及簇的生成，所花費(fèi)的時(shí)間較短．而隨后加入元組到類中，則需要多次進(jìn)行距離計(jì)算來找到距離最小的元組或類，因此所花費(fèi)的時(shí)間較長．因此當(dāng)k較小時(shí)，半監(jiān)督(α，k)-匿名的總體執(zhí)行時(shí)間隨著k值的增加而減少．

圖5 準(zhǔn)標(biāo)識符維數(shù)|QI|變化時(shí)執(zhí)行時(shí)間Fig．5 Execution time when varying the size of QI

圖6 k值變化下的執(zhí)行時(shí)間Fig．6 Execution time when varying the size of k

由圖5和圖6以及上面的分析可知，在相同情況下，半監(jiān)督(α，k)-匿名算法時(shí)間花銷比廣義(α，k)-匿名小．所以半監(jiān)督(α，k)-匿名模型在時(shí)間代價(jià)提升的同時(shí)獲得更好的隱私信息保護(hù)．

5 結(jié)束語

本文提出一種半監(jiān)督聚類的(α，k)-匿名模型．針對數(shù)據(jù)集包含數(shù)值屬性和分類屬性的特點(diǎn)，為實(shí)現(xiàn)半監(jiān)督聚類引入數(shù)據(jù)映射方法，使數(shù)值屬性和分類屬性在一個(gè)共同的度量空間運(yùn)算．通過把敏感值分為高敏感度和低敏感度，實(shí)現(xiàn)了敏感值的個(gè)性化保護(hù)．實(shí)驗(yàn)結(jié)果表明，半監(jiān)督(α，k)-匿名模型能夠以與其他(α，k)-匿名模型近似的信息損失量和時(shí)間代價(jià)，獲得更好的隱私信息保護(hù)．

［1］FUNG B C M，WANG K，CHEN R，et al．Privacy-preserving data publishing:a survey of recent developments［J］．ACM Comput Surv，2010，42(4):1-53．

［2］CHEN B，KIFER D，LEFEVRE K，et al．Privacy-preserving data Publishing［J］．Found Trends databases，2009，2(1):1-167．

［3］SWEENEY L． k-anonymity:amodelforprotecting privacy［J］．International Journal of Uncertainty Fuzziness and Knowledge Based Systems，2002，10(5):557-570．

［4］AGGARWAL G，PANIGRAHY R．Achieving anonymity via clustering［J］．ACM Trans Algorithms，2010，6(3):1-19．

［5］LIN J，WEN T，HSIEH J，et al．Density-based microaggregation for statistical disclosure control［J］．Expert Systems with Applications，2010，37(4):3256-3263．

［6］MACHANAVAJJHALA A，KIFER D，GEHRKE J，et al．l-diversity:privacy beyond k-anonymity［J］．ACM Transactions on Knowledge Discovery from Data，2007，1(1):1-52．

［7］WONG R，LI J，F(xiàn)U A，et al．(α，k)-anonymous data publishing［J］．Journal of Intelligent Information Systems，2009，33(2):209-234．

［8］CAMPAN A，TRUTA T M，COOPER N．P-sensitive k-anonymity with generalization constraints［J］．Transactions on Data Privacy，2010，3(2):65-89．

［9］MACHANAVAJJHALA A，GEHRKE J，KIFER D，et al．ldiversity:privacy beyond k-anonymity［C］//22nd International Conference on Data Engineering．Atlanta，GA，US，2006:24．

［10］王智慧，許儉，汪衛(wèi)，等．一種基于聚類的數(shù)據(jù)匿名方法［J］．軟件學(xué)報(bào)，2010，21(4):680-693．

WANG Zhihui，XU Jian，WANG Wei，et al．Clusteringbased approach for data anonymization［J］．Journal of Software，2010，21(04):680-693．

［11］WONG R，LI J，F(xiàn)U A，et al．(α，k)-anonymity:an enhanced k-anonymity model for privacy preserving data publishing［C］//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining．［s．l．］，2006:754-759．

［12］韓建民，于娟，虞慧群，等．面向敏感值的個(gè)性化隱私保護(hù)［J］．電子學(xué)報(bào)，2010，38(7):1723-1728．

HAN Jianmin，YU Juan，YU Huiqun，et al．Individuation privacy preservation oriented to sensitive values［J］．Acta Electronica Sinica，2010，38(7):1723-1728．

［13］BAYARDO R J，AGRAWAL R．Data privacy through optimal k-anonymization［C］//Proceedings of the International Conference on Data Engineering．Tokyo，Japan，2005:217-228．

［14］HUANG Z．Extensions to the k-means algorithm for clustering large data sets with categorical values［J］．Data Mining and Knowledge Discovery，1998，2(3):283-304．