馬靜
摘 要:伴隨著網(wǎng)絡(luò)化與信息化的發(fā)展,信息呈“爆炸式”增長,大數(shù)據(jù)時代正悄無聲息到來。大數(shù)據(jù)在影響人們吃穿住行的同時,也讓人們陷入了隱私危機。匿名化技術(shù)是在數(shù)據(jù)發(fā)布過程中進行隱私保護的一項重要技術(shù)。文章通過查閱大量文獻,首先簡要地概述了大數(shù)據(jù)隱私危機現(xiàn)狀;接著總結(jié)了常見的隱私攻擊方法及與抗衡的匿名模型及其實現(xiàn)方法與技術(shù);然后討論了匿名化質(zhì)量的度量方法;最后總結(jié)并說明下一步的研究方向。
關(guān)鍵詞:大數(shù)據(jù);隱私保護;匿名化
隨著互聯(lián)網(wǎng)及云計算等技術(shù)的迅猛發(fā)展,全球數(shù)據(jù)呈現(xiàn)指數(shù)級增長。預(yù)計2020年全球數(shù)據(jù)將會增加50倍以上。在大數(shù)據(jù)時代背景下,通過人工智能與數(shù)據(jù)挖掘發(fā)現(xiàn)事物運行規(guī)律與趨勢,可以很好地幫助管理者進行決策。與此同時,個人數(shù)據(jù)能被更容易地獲取和更廣泛地傳播,而侵犯個人隱私權(quán)的行為卻難以察覺。這一“易”和一“難”,導(dǎo)致通過電子信息渠道泄露隱私的事件在全球范圍內(nèi)層出不窮,事件涉及的公司既有擁有大量的大數(shù)據(jù)IT行業(yè)巨頭,也包括某一領(lǐng)域的新興大數(shù)據(jù)服務(wù)公司[1]。如何在保證數(shù)據(jù)高可用性的情況下,不泄露數(shù)據(jù)主體的隱私信息,已引起國內(nèi)外研究人員的關(guān)注。
1 大數(shù)據(jù)隱私概述
1.1 大數(shù)據(jù)隱私的定義
傳統(tǒng)隱私是指一種同公共利益、群體利益無關(guān),個人不愿外界干涉的個人私密和個人不愿意外界介入或不便介入的個人領(lǐng)域[2]。大數(shù)據(jù)隱私是對傳統(tǒng)隱私的一種繼承與發(fā)展,以數(shù)據(jù)化形式存在,與公共或群體利益無關(guān)的,在未被告知的情況下不愿被他人利用的個人信息[3]。
1.2 大數(shù)據(jù)隱私危機
1.2.1 “隱私”將不再“隱私”
隨著大數(shù)據(jù)云服務(wù)推廣及應(yīng)用,人們已習(xí)慣將數(shù)據(jù)存于云端,自己也不清楚數(shù)據(jù)的存儲位置[4]。在社交網(wǎng)絡(luò)上,人們越來越多地主動公開發(fā)表自己的觀點,甚至包括那些他們曾經(jīng)不愿公開的事情,使得公開個人數(shù)據(jù)成為用戶自愿并且日?;男袨閇5]。移動應(yīng)用使個人數(shù)據(jù)信息高度個人化,數(shù)據(jù)信息的收集無所不在?;ヂ?lián)網(wǎng)的開放性及高速傳播性,使得一條誤發(fā)信息在一秒鐘被成千上萬人看到成為可能。
1.2.2 “隱私”產(chǎn)生經(jīng)濟
據(jù)華爾街日報報道:許多公司通過各種應(yīng)用軟件收集用戶的個人數(shù)據(jù),并被用作進一步跟蹤和預(yù)測用戶行為;一些微博會收集微博用戶發(fā)布的信息,如關(guān)注、偏好、地理位置等信息,以便于在用戶個人頁面投放相應(yīng)的廣告。在大數(shù)據(jù)時代,正如斯皮內(nèi)洛所說:“信息已然成為一種商品”,這必然會促使相關(guān)的企業(yè)采用先進的大數(shù)據(jù)技術(shù)對海量個人數(shù)據(jù)進行采集和挖掘。
1.2.3 大數(shù)據(jù)技術(shù)加重隱私危機
“在互聯(lián)網(wǎng)上沒有人知道你是一條狗”[6]的時代已經(jīng)一去不復(fù)返,大數(shù)據(jù)應(yīng)用技術(shù)充分實現(xiàn)了海量數(shù)據(jù)的使用價值,但在發(fā)揮其作用的同時也加重了隱私危機。數(shù)字化全面監(jiān)控使隱私日趨透明化。數(shù)據(jù)在深度挖掘過程中,通過二次甚至多次數(shù)據(jù)利用,在獲得更多數(shù)據(jù)價值的同時,網(wǎng)絡(luò)用戶的個人隱私將被更大范圍地披露。大數(shù)據(jù)預(yù)測造成隱私被預(yù)測。
2 大數(shù)據(jù)生命周期的隱私風(fēng)險分析及挑戰(zhàn)
大數(shù)據(jù)處理生命周期包括了數(shù)據(jù)發(fā)布、數(shù)據(jù)存儲、數(shù)據(jù)挖掘、數(shù)據(jù)使用4個階段,而每個階段都存在隱私泄露和被使用的高風(fēng)險。
2.1 數(shù)據(jù)發(fā)布
在大數(shù)據(jù)時代,各方發(fā)布的數(shù)據(jù)有著動態(tài)、針對同一用戶的數(shù)據(jù)來源眾多、數(shù)據(jù)信息量大等特點,因此,如何在數(shù)據(jù)發(fā)布時,在保證數(shù)據(jù)可用的同時,能夠高效、可靠地去掉可能泄露隱私的數(shù)據(jù)信息是一項巨大的挑戰(zhàn)。
2.2 數(shù)據(jù)存儲
大數(shù)據(jù)時代的數(shù)據(jù)存儲一般采用云存儲。云存儲的特點是把數(shù)據(jù)放到不確定的存儲池里,而沒有放到本地數(shù)據(jù)中心或?qū)S眠h程站點[7]。因此,大數(shù)據(jù)的存儲者和擁有者是彼此分離的,各云存儲服務(wù)提供商的信用度參差不齊,用戶的數(shù)據(jù)面臨著被不可信的第三方偷窺或篡改的風(fēng)險。
2.3 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中的有價值信息的過程。雖然數(shù)據(jù)在數(shù)據(jù)發(fā)布時會進行匿名化等技術(shù)處理,但數(shù)據(jù)挖掘技術(shù)通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)和模式識別諸多方法,依然可以分析出用戶的隱私[8]。
2.4 數(shù)據(jù)使用
通過數(shù)據(jù)挖掘,大數(shù)據(jù)更多有價值的信息被提煉出來,它們用來改善人們的生活,為企業(yè)增加利潤,但是它們又面臨著4W風(fēng)險,即何時(When)、何地(Where)、何人(Who)、能訪問什么樣性質(zhì)的數(shù)據(jù)(What)的風(fēng)險。
3 大數(shù)據(jù)匿名化隱私保護技術(shù)
3.1 匿名化概述
匿名的概念由Samarati等[9]于1998年首次提出,匿名化技術(shù)是指在數(shù)據(jù)發(fā)布階段,通過一定的技術(shù),將數(shù)據(jù)擁有者的個人信息及敏感屬性的明確標識符刪除或修改,從而無法通過數(shù)據(jù)確定到具體的個人。使用數(shù)據(jù)匿名技術(shù)有效地實現(xiàn)了大數(shù)據(jù)發(fā)布隱私保護(Privacy Preserving Data Publishing,PPDP)[10]功能,其匿名化流程如圖1所示。
傳統(tǒng)數(shù)據(jù)發(fā)布中數(shù)據(jù)表可歸納為如(1)所示的關(guān)系R,其中UID是顯示標識符,可具體指示所屬個體,標志著個體的身份信息。QID是準標識符,是一個可以潛在確認個體屬性的集合,它雖然無法唯一標識個體身份,但可被攻擊者利用鏈接攻擊或背景知識攻擊等多種方式推斷出個體身份。SA是敏感屬性,是信息所有者不愿意公開的私密信息,是不能被泄露。NQID是普通標識符,而NSA是非敏感屬性。
R(UID,QID1,QID2…..,NQID,NQID2…..,SA1,SA2…..,NSA1,NSA2…..) (1)
匿名化技術(shù)處理主要從兩方面進行隱私保護,一是去掉顯式標識符,二是將準標識符匿名化,也就是將關(guān)系R修改為:
R(QID1,QID2…..,NQID,NQID2…..,SA1,SA2….. ,NSA1,NSA2…..) (2)
綜上所述,“匿名化”過程其實質(zhì)就是對準標識符匿名化,對能夠直接暴露身份的顯示標識符直接隱匿掉。
3.2 常見的隱私攻擊方法
隱私攻擊(Privacy Attack)是指攻擊者通過掌握的背景知識和一些攻擊技術(shù),盜取用戶敏感信息,并通過敏感屬性取值確定其對應(yīng)的個體。通常有以下幾種類型。
(1)鏈接攻擊[11]。鏈接攻擊是數(shù)據(jù)發(fā)布中最為常見同時也是攻擊性最強的一種攻擊,攻擊者通過對發(fā)布的數(shù)據(jù)和其他渠道獲取的外部數(shù)據(jù)進行鏈接操作,以推理出隱私數(shù)據(jù),從而造成隱私泄露。
(2)同質(zhì)性攻擊[12]。同質(zhì)性攻擊是指攻擊者利用敏感信息取值的同質(zhì)化特征進行攻擊。
(3)背景知識攻擊。背景知識攻擊是指攻擊者根據(jù)竊取的QID、敏感信息、實現(xiàn)匿名的模型和算法等各種背景知識,結(jié)合處理后的數(shù)據(jù)集排除一些干擾值,推斷出用戶與敏感信息之間的關(guān)聯(lián)的攻擊[13]。
(4)近似攻擊。近似攻擊是指攻擊者利用敏感屬性值相似性而獲得敏感屬性在某一較小范圍內(nèi)的信息的攻擊。
3.3 基于匿名技術(shù)的隱私保護模型
為了對抗各種隱私攻擊,專家學(xué)者們提出了一系列匿名保護模型。在1998年的PODS國際會議上,Seweney等提出了K-匿名模型,它是最早也是最具影響的隱私保護匿名模型。后來Seweney在K-匿名基礎(chǔ)模型上又提出了基于泛化和隱匿技術(shù)的改進版K-匿名隱私保護模型。Kisilevich等學(xué)者提出了通過抑制技術(shù)、采用分類樹的 K-匿名模型。Abul等學(xué)者提出了基于定位技術(shù)的K-匿名模型。為了解決 K-匿名模型屬性泄露問題,2006年,Machanavajjhala等[14]提出了L-多樣性模型。為提高L-多樣性的靈活性,提高匿名數(shù)據(jù)的個性化保護能力,Li等[15]提出了(k,l)-匿名模型。Wong等學(xué)者在第12屆ACM SIGKDD(Knowledg discovery and Data Mining)國際會議上提出了(a,k)-匿名模型。2007年,Li等[16]針對L-多樣性模型不足又進一步提出了T-近似模型(T-Closeness),2009年,又有專家提出(alp,dif)個性匿名模型。后來(k,e)-匿名模型,基于多維屬性泛化的K-匿名,基于聚類的K-匿名等模型也相繼被提出[17-18]。為了適應(yīng)社交網(wǎng)絡(luò)的快速發(fā)展,基于圖修改的K-neighborhood[19]、K-Degree[20]、K-Isomorphism[21]、K-Automorphism[22]及基于聚類的Partitioning[23]、SANGREEA[24]以及 Generalization[25] 等匿名保護模型相繼被提出。在眾多的模型中,K-匿名模型(K-anonymity)、L-多樣性模型(L-Diversity)及T-近似模型(T-Closeness)是經(jīng)典的3種隱私保護模型,許多模型都是以它們?yōu)樵瓦M行優(yōu)化及改進而產(chǎn)生的。它們的各自特點及抵御功擊能力對比如表1所示。
3.3.1 K-匿名(K-anonymity)
K-匿名模型是指對數(shù)據(jù)進行泛化處理,使得有多條紀錄的準標識列屬性值相同,這種準標識列屬性值相同的行的集合被稱為相等集,相同準標識符的所有記錄稱為一個等價類,K-匿名模型要求對于任意一行紀錄,其所屬的相等集內(nèi)紀錄數(shù)量不小于K,至少有K-1條紀錄標識列屬性值與該條紀錄相同。當攻擊者在進行鏈接攻擊時,對任意一條記錄攻擊的同時會關(guān)聯(lián)到等價組中的其他K-1條記錄,從而使攻擊者無法確定與用戶的特定相關(guān)記錄,從而保護了用戶的隱私。K-匿名模型實現(xiàn)了以下幾點隱私保護:(1)攻擊者無法知道攻擊對象是否在公開的數(shù)據(jù)中。(2)攻擊者無法確定給定某人是否有某項敏感屬性。(3)攻擊者無法找到某條數(shù)據(jù)對應(yīng)的主體。K-匿名在一定程度上避免了個人標識泄露的風(fēng)險,但依然有著屬性泄露的風(fēng)險,攻擊者可通過同質(zhì)屬性及背景知識兩種攻擊方式攻擊用戶的屬性信息。K-匿名模型在實施過程中隨著K值的增大,數(shù)據(jù)隱私保護增強,但數(shù)據(jù)的可用性也隨之降低[14]。
3.3.2 L-多樣性(L-Diversity)
如果一個等價類里的敏感屬性至少有L個“良表示”的取值,則稱該等價類具有L-Diversity。如果一個數(shù)據(jù)表里的所有等價類都具有L-Diversity,則稱該表具有L-Diversity。其中“良表示”有3種形式:(1)可區(qū)分良表示。同一等價類中的敏感屬性要有至少L個可區(qū)分的取值。(2)熵良表示。記S為敏感屬性的取值集合,p(E,s)為等價類E中敏感屬性取值s的概率,entropy L-Diversity要求下式成立:Entropy(E)=-∑s∈sp(E,s)logp(E,s)≥logl。(3)遞歸良表示。設(shè)等價類E中敏感屬性有m種取值,記ri為出現(xiàn)次數(shù)第i次取值的頻次,如果E滿足:r1 3.3.3 T-近似(T-Closeness) 如果等價類E中的敏感屬性取值分布與整張表中該敏感屬性的分布的距離不超過閾值T,則稱E滿足T-Closeness。如果數(shù)據(jù)表中所有等價類都滿足T-Closeness,則稱該表滿足T-Closeness。T-Closeness能夠抵御偏斜型攻擊和相似性攻擊,通過T值的大小來平衡數(shù)據(jù)可用性與用戶隱私保護程度。T-Closeness由于其標準要求較高,在實際應(yīng)用中也存在不足:(1)T-Closeness只是一個概念或者標準,缺乏標準的方法來實現(xiàn)。(2)T-Closeness需要每個屬性都單獨泛化,加大了屬性泛化的難度及執(zhí)行時間。(3)T-Closeness 隱私化實現(xiàn)起來困難且以犧牲數(shù)據(jù)可用性為代價。(4)不能抵御鏈接攻擊。
3.4 實現(xiàn)匿名化的方法和技術(shù)
3.4.1 泛化技術(shù)
泛化[28-31]:通常將QID的屬性用更抽象、概括的值或區(qū)間代替。泛化技術(shù)實現(xiàn)較為簡單,圖2展示了電話號碼的一個泛化過程。泛化分為全局泛化和局部泛化兩類。全局泛化也稱為域泛化,是將QID屬性值從底層開始同時向上泛化,一層一層泛化,直至滿足隱私保護要求時同時停止泛化。局部泛化也稱為值泛化,是指將QID屬性值從底層向上泛化,但可以泛化到不同層次。單元泛化及多維泛化是典型的局部泛化。單元泛化只對某個屬性的一部分值泛化。局部泛化可以對多個屬性的值同時泛化。
泛化技術(shù)的優(yōu)點是不引入錯誤數(shù)據(jù),方法簡單,泛化后的數(shù)據(jù)適用性強,對數(shù)據(jù)的使用不需要很強的專業(yè)知識。其缺點是預(yù)定義泛化樹沒有統(tǒng)一標準,信息損失大,對不同類型數(shù)據(jù)的信息損失度量標準不同。
泛化技術(shù)使用注意事項:(1)連續(xù)數(shù)據(jù)發(fā)布不適合泛化技術(shù)。(2)泛化過程是一個耗時過程,計算并找到合適泛化結(jié)果需以時間為代價。(3)篩選及確認合適的泛化子集是工作難點,但也是工作重心。(4)過度泛化會導(dǎo)致數(shù)據(jù)損失。(5)要科學(xué)合理地使用全局和局部泛化。
3.4.2 抑制技術(shù)
抑制[16,27-29]又稱為隱藏,即抑制(隱藏)某些數(shù)據(jù)。具體的實現(xiàn)方法是將QID屬性值從數(shù)據(jù)集中直接刪除或者用諸如“*”等不確定的值來代替原來的屬性值。采取這樣的方式可以直接減少需要進行泛化的數(shù)據(jù),從而降低泛化所帶來的數(shù)據(jù)損失,保證相關(guān)統(tǒng)計特性達到相對比較好的匿名效果,保證數(shù)據(jù)在發(fā)布前后的一致性、真實性。抑制可分為3種方式:記錄抑制、值抑制及單元抑制[30]。其中,記錄抑制是指將數(shù)據(jù)表中的某條記錄進行抑制處理;值抑制是指將數(shù)據(jù)表中某個屬性的值進行抑制處理;而單元抑制是指將表中某個屬性的部分值進行抑制處理。
抑制技術(shù)的優(yōu)點表現(xiàn)為泛化前使用可減少信息損失,缺點是不適合復(fù)雜場景,發(fā)布數(shù)據(jù)量太少,會降低數(shù)據(jù)的真實性和可用性。
抑制技術(shù)使用注意事項:(1)抑制的數(shù)據(jù)太多時,數(shù)據(jù)的可用性將大大降低。(2)抑制是一種精粒度的泛化,泛化與抑制技術(shù)配合使用是達到較好匿名效果的一項重要舉措。
3.4.3 聚類技術(shù)
聚類[31-32]是將數(shù)據(jù)集按照一定規(guī)則進行劃分從而形成不同組,同一組中的對象彼此相似,它們構(gòu)成一類,也稱為簇,與其他組中的對象相異。當前廣泛使用的聚類方法有5種:(1)基于層次的聚類(hierarchical methods)[33]。它是根據(jù)數(shù)據(jù)類之間相似程度,對不同的類采取合并或者分裂操作,直到完成所有數(shù)據(jù)集的聚類分配。具體又可分為“自底向上”和“自頂向下”兩種方案。(2)基于劃分的聚類(hierarchical methods)[34]。它與基于層次聚類的方法相似,不同之處在于基于劃分的聚類以樣本和類原型之間的距離為基礎(chǔ),給定一個有N個元組或者記錄的數(shù)據(jù)集,采用分裂法構(gòu)造K個組,每一個組就代表一個聚類,K 3.4.4 分解技術(shù) 分解[38-39]是在不修改準標識符屬性和敏感屬性值的基礎(chǔ)上采用有損連接的方法來弱化兩者之間的關(guān)聯(lián)。具體做法是:先根據(jù)敏感屬性值對原始數(shù)據(jù)表進行拆分,將準標識符(QID)與敏感屬性(SV)分別拆分到不同的子表中,同時給兩張子表中分別增加一個公共屬性“組標識符”GroupID,并用GroupID值來標識屬于同一組內(nèi)記錄的兩個子表中的數(shù)據(jù),以實現(xiàn)拆分后子表的有損鏈接。 3.4.5 數(shù)據(jù)交換技術(shù) 數(shù)據(jù)交換[38-39]是按照某種規(guī)則對數(shù)據(jù)表中的某些數(shù)據(jù)項進行交換,首先將原始數(shù)據(jù)集劃分為不同的組,然后交換組內(nèi)的敏感屬性值,使得準標識符與敏感屬性之間失去聯(lián)系,以此來保護隱私。 3.4.6 擾亂技術(shù) 擾亂是指在數(shù)據(jù)發(fā)布前通過加入噪聲、引入隨機因子及對私有向量進行線型變換等手段對敏感數(shù)據(jù)進行擾亂,以實現(xiàn)對原始數(shù)據(jù)改頭換面的目標。這種處理方法可以快速地完成,但其安全性較差,且以降低數(shù)據(jù)的精確性為代價,從而影響數(shù)據(jù)分析結(jié)果,一般這種處理手段僅能得到近似的計算結(jié)果。 4 匿名化質(zhì)量的度量方法 數(shù)據(jù)可用性是度量匿名化質(zhì)量的標準,好的匿名化方法是確保隱私得以保護的前提下提高數(shù)據(jù)的可用性。許多專家和學(xué)者都投身于此項技術(shù)的研究,并從不同的角度、不同應(yīng)用場景給出了不同的度量方法。 4.1 基于K-匿名模型的數(shù)據(jù)可用性度量方法 4.1.1 基于泛化層級度量法 該方法由Sweeney[40]提出,它通過Precision公式比較泛化前后數(shù)據(jù)表各準標識符的泛化層次來計算,Precision公式如(3)所示,其中Na是準標識符屬性的數(shù)目,RT是數(shù)據(jù)集的總元組數(shù)目,Hij是準標識符屬性,h表示標準標識符屬性i泛化的層級數(shù)。根據(jù)公式我們可以發(fā)現(xiàn),數(shù)據(jù)可用性直接受泛化層級影響,它不能隨意設(shè)定及改動,而需要根據(jù)需求及數(shù)據(jù)設(shè)定。 (3) 4.1.2 DM度量法 DM法是基于懲罰值的可辨析度量法(Discernibility Metric),它對泛化后滿足K-匿名的元組賦予懲罰值EC,對泛化后不滿足K-匿名的元組賦予懲罰值D,根據(jù)公式(4)計算數(shù)據(jù)可用性。它是從全局的層面度量數(shù)據(jù)可用性的方法,不適用于非單調(diào)態(tài)勢,而適用于數(shù)據(jù)均勻分布的場景[41]。
(4)
4.1.3 基于熵度量法
基于熵的度量法又細分為熵度量、單調(diào)熵度量、非均勻分布熵度量。其中,非均勻分布熵度量是最常用的一種,它的計算公式如(5)所示,D是給定的數(shù)據(jù)集,n是元組個數(shù),r是準標識符的個數(shù),g(D)是泛化后的數(shù)據(jù)表,是準標識符j中的第i個元組的值在泛化后數(shù)據(jù)表中的概率[42]。該方法因其計算量大,而不適用于數(shù)據(jù)集較大的場景。
(5)
4.2 標準數(shù)據(jù)可用性度量方法
標準數(shù)據(jù)可用性度量方法NCP(Normarlized Certainty Penalty)定義如(6)所示。其中,d代表屬性的個數(shù),Ai是屬性,ωi是權(quán)重,NCP的值越大,數(shù)據(jù)改動越多,信息損失也就越大[43]。
(6)
4.3 針對圖結(jié)構(gòu)的數(shù)據(jù)可用性度量方法
針對圖結(jié)構(gòu)的數(shù)據(jù)可用性度量方法采用RCE(Ratio of Changed Edges),其公式如(7)所示。其中,|E|表示圖的所有邊數(shù),|CE|表示使用了匿名化算法后的邊的總數(shù)。RCE越大,即代表改動的邊越多,信息損失也就越大。
RCE=|CE|/|E| (7)
5 結(jié)語
基于數(shù)據(jù)匿名化的隱私保護技術(shù)在隱私保護中占據(jù)著重要的地位。本文通過大量國內(nèi)外文獻的學(xué)習(xí),發(fā)現(xiàn)基于數(shù)據(jù)匿名化的隱私保護技術(shù)有著成熟的匿名化模型,實現(xiàn)技術(shù)以及不斷改進的度量方法,但它也有著一些面臨諸多挑戰(zhàn)的研究熱點:如何在保護隱私的同時提高數(shù)據(jù)的可用性;如何制訂出個性化隱私保護策略;如何使匿名化質(zhì)量的度量標準化。
[參考文獻]
[1]王融.大數(shù)據(jù)時代數(shù)據(jù)保護與流動規(guī)則[M].北京:人民郵電出版社,2017.
[2]王利民.人格權(quán)法新規(guī)[M].長春:吉林人民出版社,1994.
[3]徐樂.大數(shù)據(jù)時代隱私安全問題研究[D].成都:成都理工大學(xué),2016.
[4]PAUL O.The future of digital evidence searches and seizures: the fourth amendment in a world without privacy[J].Misssissippi Law Journal,Symposium,2012(2):67-69.
[5]OMER T,JULES P.Big data for all: privacy and user control in the age of analytics[J].Journal of Technology and Intellectural Property,2013(6):239.
[6]STEINER P.On the Internet, nobody knows youre a dog[J].The New Yorker,1993(20):61.
[7]百度百科. 云存儲[EB/OL].(2018-06-08)[2018-12-07].https://baike.baidu.com/item/%E4%BA%91%E5%AD%98%E5%82%A8/8326238?fr=aladdin.
[8]百度百科. 數(shù)據(jù)挖掘[EB/OL].(2018-11-08)[2018-12-07].https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98/216477?fr=aladdin.
[9]SAMARATI P,SWEENEY L.Generalizing data to provide anonymity when disclosing information[C].New York:Proceedings of the Seventeenth ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems,1998:188 .
[10]LI T C,LI N H,ZHANG J,et al.Slicing: a new a proach for privacy preserving data publishing[J].IEEE Transactions on Knowledge and Data Engineering,2012(3):561-574.
[11]何賢芒.隱私保護中K-匿名算法和匿名技術(shù)研宄[D].上海:復(fù)旦大學(xué),2011.
[12]MEYERSON A,WILLIAMS R.On the complexity of optimal K-anonymity[M].Paris:ACM Press,2004.
[13]張國榮.社會網(wǎng)絡(luò)數(shù)據(jù)的隱私保護[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2009(7):42-44.
[14]MACHANAVAJJHALA A,GEHRKE J,KIFER D.1-diversity:privacy beyond K-anonymity[C].Atlanta:Proceeding of the 22nd Internaional Conferenceon Data Engineering,IEEE Computer Society,2006:24-35.
[15]LI Z D,ZHAN G,YE X.Towards an anti-inference (k,l)-anonymity model with value association rules[M].Krakow:Springer-Verlag,2006.
[16]LI N H,LI T C,SURESH V S.t-Closeness: privacy beyond K-anonymity and L-diversity[C].Istanbul:2007 IEEE 23rd International Conference on Data Engineering,2007:106-115.
[17]劉沬萌.面向聚類算法的隱私保護技術(shù)研究[D].西安:西安電子科技大學(xué),2013.
[18]劉明,葉曉俊.個性化K-匿名模型[J].計算機工程與設(shè)計,2008(2):282-286.
[19]ZHOU B,PEI J.Preserving privacy in social networks against neighborhood attacks[C].San Francisco:Proceedings of Proceedings of the IEEE 24th International Conference on Data Engineering(ICDE),2008.
[20]LIU K,TERZI E.Towards identity anonymization on graphs[C].Vancouver:Proceedings of Proceedings ofthe ACM SIGMOD International Conference on Management of Data,2008.
[21]CHENG J,F(xiàn)U A W C,LIU J. K-isomorphism: privacy preserving network publication againststructural attacks[C].Indianapolis:Proceedings of Proceedings of the 2010 ACM SIGMOD International Conference on Management of data,2010:459-470.
[22]ZOU L,CHEN L,OZSU M T. K-Automorphism: a general framework for privacy preserving network publication[C].Hangzhou:Proceedings of Proceedings of the VLDB Endowment,2009.
[23]BHAGAT S,CORMODE G,KRISHNAMURTHY B,et al.Class-based graph anonymization for social network data[C].Hangzhou:Proceedings of Proceedings of the VLDB Endowment,2009.
[24]CAMPAN A,TRUTA T M.A clustering approach for data and structural anonymity in social networks[C].London:Proceedings of Proceedings of the 2nd ACM SIGKDD International Workshop on Privacy,Security,and Trust in KDD(Pin KDD),2008.
[25]HAY M,MIKLAU G,JENSEN D,et al.Resisting structural reidentification in anonymized social networks[C].Hangzhou:Proceedings of Proceedings of the VLDB Endowment,2008.
[26]xff1994.數(shù)據(jù)脫敏:k-anonymity,L-Diversity,T-Closeness[EB/OL].(2018-10-18)[2018-12-07].https://blog.csdn.net/xff1994/article/details/83149116.
[27]YANG X C.k-anonymization approaches for supporting multiple constraints[J].Journal of Software,2006(5):1222-1231.
[28]PEI J,XU J,WANG Z B,et al.Maintaining K-anonymity against incremental pdates[C].Banff:Proceeding of the 19th International Conference on Scientific and Statistical Database Management,2007:5.
[29]WUCHKWU T,NAUGHTON J.K-anonymization as spatial indexing: toward scalable andincremental anonymization[C].Vienna:Proceedings of the 33rd International Conference on Very Large Data Bases,2007:746-757.
[30]劉湘雯,王良民.數(shù)據(jù)發(fā)布匿名技術(shù)進展[J].江蘇大學(xué)學(xué)報,2016(5):562-571.
[31]CHANG C C,LI Y C,HUANG W H.TFRP: an efficient microaggregation algorithm for statistical disclo sure control[J].System Software,2007(11):1866-1878.
[32]DOMINGO F J.Microaggregation for database and location privacy[C].Kibbutz:Proceeding of Next Generation Information Technologies and Systems,2006:106-116.
[33]SU C,BAO F.A new scheme for distributed density estimation based Privacy-Preserving clustering[C].Las Vegas:RES 2008-3rd International Conference on Availability,Security,and Reliability,Proceedings,2008:112-119.
[34]FUNG B C M,WANG K.A framework for privacy-preserving cluster analysis[C].Taipei:IEEE International Conference on Intelligence and Security Informatics,2008:46-51.
[35]STANLEY R,OLIVEIRA O,ZAIANE R.Privacy preserving clustering by data transformation[C].Manaus:In Proceeding of the 1sth Brazilian Symposium on Databases(SBBD),2003:304-318.
[36]WEI Q,LU Y,LOU Q.Privacy-preserving data publishing based on de-clustering[C].Melbourne:Proceedings 7th IEEE/ACIS International Conference on Computer and Information Science,IEEE/ACIS ICIS 2008,In conjunction with 2nd IEEE/ACIS Int. Workshop on e-Activity,IEEE/ACIS IWEA 2008,2008:152-157.
[37]JAGANNATHAN G,WRIGH R N.Privacy-Preserving distributed k-means clustering over arbitrarily Partitioned data[C].Chicago:In Proceedings of the 2005 ACM SIGKDD on knowledge Discovery and Data Mining,2005:593-599.
[38]王波,楊靜.數(shù)據(jù)發(fā)布中的個性化隱私匿名技術(shù)研究[J].計算機科學(xué),2012(4):168-171.
[39]岑婷婷,韓建民,王基一.隱私保護中K-匿名模型的綜述[J].計算機工程與應(yīng)用,2008(4):130-134.
[40]SWEENEY L.Datafly:asystemforprovidinganonymityinmedicaldata[j].1998.
[41]趙建龍,曲樺,趙季紅.基于K-近鄰域中心偏移的魯棒性異常檢測算法[J].北京郵電大學(xué)學(xué)報,2017(4):54-59.
[42]穆強.基于熵的K-匿名屬性泛化算法研宄[D].南京:南京信息工程大學(xué),2011.
[43]XU J,WANG W,PEI J,et a1.Utility-based anonymization using local recoding[C].Philadelphia:The 12th ACM SIGKDD Intenational Conference on Knowledge Discovery and Data Mining. Philadelphia,2006:785-790.