貴州師范大學(xué)物理與電子科學(xué)學(xué)院 陳 葡貴州財(cái)經(jīng)大學(xué)管理科學(xué)學(xué)院 陳 葵貴州師范大學(xué)物理與電子科學(xué)學(xué)院 游子毅
?
基于K-匿名技術(shù)的隱私保護(hù)探討
貴州師范大學(xué)物理與電子科學(xué)學(xué)院 陳 葡
貴州財(cái)經(jīng)大學(xué)管理科學(xué)學(xué)院 陳 葵
貴州師范大學(xué)物理與電子科學(xué)學(xué)院 游子毅
【摘要】大數(shù)據(jù)背景下,數(shù)據(jù)挖掘技術(shù)得到了新的發(fā)展。人們享受著科技帶來(lái)的便利的同時(shí)也要遭受到安全攻擊—隱私信息泄露,本文介紹了隱私信息泄露,分析簡(jiǎn)單的匿名技術(shù)處理會(huì)受到鏈路攻擊,介紹并分析了K-匿名技術(shù)來(lái)解決鏈路攻擊的問(wèn)題,最后說(shuō)明其安全性。
【關(guān)鍵詞】鏈路攻擊;K-匿名技術(shù)
隨著大數(shù)據(jù)時(shí)代的到來(lái)及數(shù)據(jù)挖掘技術(shù)的發(fā)展,人們享受著科技帶來(lái)的便利,比如:當(dāng)去醫(yī)院看病時(shí),可能不再像以前那樣依賴醫(yī)生,可以根據(jù)以往的病例分析出病人的病情,從而根據(jù)以往病例的用藥,科技是一把雙刃劍,人們?cè)谙硎芸萍紟?lái)的便利的同時(shí)也遭受著其帶來(lái)的安全威脅,比如從醫(yī)院的病歷數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則,以進(jìn)行疾病的預(yù)防與控制。本文介紹如何使用K-匿名保護(hù)技術(shù)保護(hù)個(gè)人隱私[1]。
數(shù)據(jù)匿名化是保護(hù)隱私信息的一個(gè)有效方法,通過(guò)改變?cè)紨?shù)據(jù)中的部分?jǐn)?shù)據(jù),使得新數(shù)據(jù)不能跟其他信息結(jié)合而推理出隱私信息[1]。為了幫助大家理解數(shù)據(jù)匿名化,下面將對(duì)相關(guān)概念進(jìn)行介紹。
表1.1記錄了美國(guó)某醫(yī)院在某一天新增的病例,這些病例屬于微數(shù)據(jù),包含了患者的姓名和所患疾病等隱私的信息。如果將這些微數(shù)據(jù)直接發(fā)布出去,將會(huì)導(dǎo)致患者隱私信息的泄露,可能會(huì)對(duì)患者的生活和工作帶來(lái)不好的影響。從表中一眼就知道Mary患有Bronchitis。
使用數(shù)據(jù)匿名化技術(shù)保護(hù)隱私數(shù)據(jù)是目前研究的比較廣泛的方法。把數(shù)據(jù)中能起到標(biāo)識(shí)隱私信息的屬性隱藏,再將數(shù)據(jù)發(fā)布,將表1.1病例中的身份信息—“姓名”隱藏,直觀上無(wú)法知道某個(gè)患者患病情況,從一定程度上保護(hù)了隱私信息。然而該匿名化容易遭受鏈接攻擊,例如,在馬薩諸塞州,可以從Group insurance Commission(GIC)得到居民的健康信息表,其中包含郵政編碼、性別、生日、健康狀況等一百多個(gè)屬性;同時(shí),選民注冊(cè)信息登記表容易獲得。將健康信息表與選民注冊(cè)信息登記表進(jìn)行鏈接,攻擊者可以很容易的知道多數(shù)在選民信息登記表出現(xiàn)過(guò)的選民的身體健康狀況。所以應(yīng)在數(shù)據(jù)發(fā)布之前對(duì)數(shù)據(jù)進(jìn)行特殊處理使得隱私信息不被泄露[1]。本文采用K-匿名保護(hù)技術(shù)來(lái)保護(hù)隱私信息。
表1.2 K-匿名數(shù)據(jù)表(K=2)
表1.1 某醫(yī)院病例微數(shù)據(jù)
為了更好的理解K-匿名保護(hù)技術(shù),可將待發(fā)布的數(shù)據(jù)元組的屬性分為以下幾類四種。
標(biāo)識(shí)符屬性(identifiers):能夠標(biāo)識(shí)個(gè)體的身份屬性。如身份證號(hào),姓名,社會(huì)保險(xiǎn)號(hào)等[2]。
準(zhǔn)標(biāo)識(shí)符屬性 QI(quasi-identifiers):與其它數(shù)據(jù)表鏈接后能標(biāo)識(shí)個(gè)體的身份的屬性。如性別,出生年月日,郵政編碼,種族的組合[2]。
敏感屬性(sensitive attributes):數(shù)據(jù)發(fā)布時(shí)需要保密的屬性。如薪水,健康狀況[2]。
非敏感屬性(non-sensitive attributes):可以公開(kāi)的屬性,即是否公開(kāi)對(duì)用戶的隱私無(wú)影響的屬性,又
稱普通屬性[2]。
其基本思想是使同一等價(jià)類中的各個(gè)元組彼此之間無(wú)法區(qū)分,從而達(dá)到隱私保護(hù)的目的。其形式化的定義如下:
定義1 K-匿名(K-anonymit),表R(A1,A2,…,An)為原始數(shù)據(jù)表,RP(A1,A2,…,An) 為匿名化后的數(shù)據(jù)表,QID是與其對(duì)應(yīng)的準(zhǔn)標(biāo)識(shí)符,稱數(shù)據(jù)表RP滿足K-匿名,如果RT[QID]中的每個(gè)序列值在RT[QID]中至少出現(xiàn)k次( k>1)。
例如表1.1是某個(gè)醫(yī)院的原始數(shù)據(jù)表,將標(biāo)識(shí)符屬性(姓名)刪除,接著經(jīng)過(guò)K-匿名(K=2)處理后得到表1.2,表中每個(gè)元組的準(zhǔn)標(biāo)識(shí)符屬性值(Sex、Age、ZipCode)都出現(xiàn)2次,元祖之間在準(zhǔn)標(biāo)識(shí)符上無(wú)法區(qū)分,即使跟其他表鏈接由于準(zhǔn)標(biāo)識(shí)符不能唯一標(biāo)識(shí)元組,也不會(huì)造成隱私信息的泄露。
K-匿名技術(shù)是指在數(shù)據(jù)發(fā)布前對(duì)數(shù)據(jù)進(jìn)行處理,使得發(fā)布后的數(shù)據(jù)集中每個(gè)元組都存在至少K個(gè)元組,這些元組在準(zhǔn)標(biāo)識(shí)屬性取值相等。通過(guò)處理后即使攻擊者與其他容易獲得的數(shù)據(jù)表進(jìn)行連接也無(wú)法唯一的確定敏感屬性與用戶之間的對(duì)應(yīng)關(guān)系,僅能以不超過(guò)1/k的概率標(biāo)識(shí)元組所屬的個(gè)體,降低了隱私泄漏的風(fēng)險(xiǎn)[2]。
大數(shù)據(jù)時(shí)代背景下,數(shù)據(jù)容易獲得,數(shù)據(jù)之間存在著千絲萬(wàn)縷的聯(lián)系,原始數(shù)據(jù)表容易泄露隱私信息,把數(shù)據(jù)表中標(biāo)識(shí)屬性去掉后仍然容易遭受鏈路攻擊,為了能切實(shí)保證隱私信息的安全,本文從概念、應(yīng)用介紹了K-匿名保護(hù)技術(shù),并說(shuō)明了其安全性。
參考文獻(xiàn)
[1]何賢芒,隱私保護(hù)中K-匿名算法和匿名技術(shù)研究[M].上海:復(fù)旦大學(xué),2011.
[2]李林.基于K-匿名技術(shù)的隱私保護(hù)研究[M].杭州:杭州電子科技大學(xué),2013.
陳葡(1985—),女,碩士研究生,現(xiàn)從事無(wú)線傳感器與數(shù)據(jù)挖掘研究。
作者簡(jiǎn)介:
基金項(xiàng)目:“基于VANET的最佳路徑選擇研究 ”,2014年貴州省科學(xué)技術(shù)聯(lián)合基金項(xiàng)目(黔科合LH字[2014]7045)。