摘 要:隨著信息技術(shù)的不斷發(fā)展,現(xiàn)在數(shù)據(jù)的隱私保護(hù)技術(shù)的查詢研究已經(jīng)形成了大量的理論成果和系統(tǒng)性的原型,但是這些研究只是停留在對(duì)靜態(tài)數(shù)據(jù)庫(kù)的匿名保護(hù)的處理上,實(shí)際上現(xiàn)在的大部分?jǐn)?shù)據(jù)庫(kù)是動(dòng)態(tài)的,動(dòng)態(tài)數(shù)據(jù)的研究具有m-不變性。本文針對(duì)現(xiàn)有數(shù)據(jù)庫(kù)隱私保護(hù)的一些缺點(diǎn),提出解決的方法。
關(guān)鍵詞:隱私保護(hù);動(dòng)態(tài)數(shù)據(jù)庫(kù);K-匿名模型
中圖分類號(hào):TP393.08
1 數(shù)據(jù)隱私保護(hù)的理論基礎(chǔ)
1.1 隱私保護(hù)的匿名化原則
隱私保護(hù)是一種新興得信息安全技術(shù),傳統(tǒng)的訪問控制只是采用加密技術(shù),新的隱私保護(hù)方式與傳統(tǒng)的方法存在很大的區(qū)別,加密技術(shù)的核心技術(shù)是保護(hù)數(shù)據(jù)的隱秘性,保證數(shù)據(jù)不被第三方訪問。而隱私的保護(hù)技術(shù)不是保障數(shù)據(jù)的隱秘性,核心是保護(hù)數(shù)據(jù)與個(gè)人的對(duì)應(yīng)關(guān)系。數(shù)據(jù)可以對(duì)外公布,所以攻擊者主要是攻擊數(shù)據(jù)和人的對(duì)應(yīng)關(guān)系。下面對(duì)一些專業(yè)術(shù)語(yǔ)進(jìn)行簡(jiǎn)單的說明。
(1)顯式標(biāo)識(shí)符屬性:這個(gè)屬性就是被稱為ID的屬性,能夠準(zhǔn)確標(biāo)識(shí)單一個(gè)體的屬性,通過這個(gè)屬性的確定可以直接指定確定的個(gè)體。
(2)敏感屬性:這個(gè)屬性是包含隱私數(shù)據(jù)的屬性,是個(gè)人的隱私屬性,這個(gè)屬性通常是個(gè)人不希望用戶了解到得屬性,所以在發(fā)布數(shù)據(jù)時(shí),為了個(gè)人的隱私不被泄露,標(biāo)識(shí)符是要被刪除的。
(3)準(zhǔn)標(biāo)識(shí)屬性:這個(gè)屬性可以根據(jù)相關(guān)數(shù)據(jù)唯一標(biāo)識(shí)一個(gè)人的多個(gè)屬性,發(fā)布的不同的數(shù)據(jù),可以根據(jù)不同的情況劃分出不同的標(biāo)識(shí)符屬性。
(4)等價(jià)組:等價(jià)組是由完全相同記錄組組成的,所以等價(jià)組中的所有記錄在準(zhǔn)標(biāo)識(shí)符上的屬性是完全相同的。
1.2 基于增量數(shù)據(jù)集的匿名原則
現(xiàn)在很多的匿名研究的技術(shù)都是基于靜態(tài)數(shù)據(jù)庫(kù)的保護(hù),實(shí)際的應(yīng)用中大部分是動(dòng)態(tài)的,隨著需求的變化,所以應(yīng)該對(duì)變化后的數(shù)據(jù)進(jìn)行重新的發(fā)布。匿名化的動(dòng)態(tài)數(shù)據(jù)的發(fā)布需要做到以下兩個(gè)方面的要求:第一,能夠多次發(fā)布數(shù)據(jù)集;第二,做到保護(hù)更新前和更新后的所有敏感信息。實(shí)際中的數(shù)據(jù)庫(kù)的數(shù)據(jù)更新是經(jīng)常需要的,或許有一些跟新是很微型的,但是也要做到保護(hù)匿名數(shù)據(jù)的精度,這就需要先滿足k-匿名要求。
2 隱私保護(hù)模型
數(shù)據(jù)的發(fā)布中的匿名保護(hù)主要是針對(duì)發(fā)布的數(shù)據(jù)集中的記錄數(shù)據(jù)是與某一個(gè)個(gè)體形成相對(duì)應(yīng)的關(guān)系,而且存在涉及個(gè)人隱私的敏感性的信息。主要是為了達(dá)到對(duì)共享信息的匿名化保護(hù)功能,防止攻擊者將特定的信息與特定的個(gè)體聯(lián)系起來,造成個(gè)人信息的泄露事件。如果只是將原始數(shù)據(jù)中個(gè)體的屬性刪除掉,并不能達(dá)到匿名保護(hù)的效果。因?yàn)樵跀?shù)據(jù)共享時(shí),會(huì)存在一些準(zhǔn)標(biāo)識(shí)符的非敏感信息的組合情況,攻擊者可以利用準(zhǔn)標(biāo)識(shí)符集中起來對(duì)應(yīng)到個(gè)人的數(shù)據(jù)中,最終會(huì)造成個(gè)人信息的泄露,這種方式被稱為鏈接攻擊。為了防止數(shù)據(jù)庫(kù)中的準(zhǔn)標(biāo)識(shí)符被鏈接攻擊,下面會(huì)提出一種匿名保護(hù)的模型,即k-匿名模型(k-anonymity),可以實(shí)現(xiàn)匿名的保護(hù)功能。下面是數(shù)據(jù)發(fā)布匿名保護(hù)的流程示意圖:
圖1
為了實(shí)現(xiàn)對(duì)發(fā)布數(shù)據(jù)的匿名保護(hù),首先要對(duì)數(shù)據(jù)在準(zhǔn)標(biāo)識(shí)符上的屬性做概化處理,這是匿名保護(hù)模型要做到的第一步。概化處理實(shí)際就是用抽象的概括屬性值來代替具體的屬性值,概化處理的方法是抑制處理法,它是一種特殊的概化方法,就是實(shí)現(xiàn)用空值來代替原始數(shù)據(jù)值,經(jīng)過具體的處理,可以使多個(gè)數(shù)據(jù)記錄在準(zhǔn)標(biāo)識(shí)符上顯示出相同的屬性值,這樣就做到了阻止攻擊者利用準(zhǔn)標(biāo)識(shí)符的目的,最終達(dá)到數(shù)據(jù)的匿名化。
K-匿名模式,K-匿名的應(yīng)用環(huán)境是需要滿足大量的數(shù)據(jù)發(fā)布的場(chǎng)合,還要保證個(gè)人信息的隱秘性。K-匿名是數(shù)據(jù)發(fā)布隱私保護(hù)中最主要的模型。當(dāng)數(shù)據(jù)得到共享后,數(shù)據(jù)的持有者通常只能控制數(shù)據(jù)的使用方式和使用范圍,使用刪除標(biāo)識(shí)符的方法進(jìn)行發(fā)布,即只是移除涉及個(gè)人的數(shù)據(jù)項(xiàng)信息,這種方法實(shí)際上并不能達(dá)到真正的隱私保護(hù)的要求。這樣會(huì)為攻擊者利用外部的數(shù)據(jù)進(jìn)行鏈接的攻擊。K-匿名模型則能避免這種現(xiàn)象的發(fā)生。令T{A1,A2,…,An},QI是與T相關(guān)聯(lián)的準(zhǔn)標(biāo)識(shí)符,當(dāng)且僅當(dāng)在T[QI]中出現(xiàn)的每一個(gè)有序的值至少要在T[QI]中出現(xiàn)K次,我們就說T能滿足K-匿名。在K-匿名模型中,隱私的泄露風(fēng)險(xiǎn)是由參數(shù)K來確定的,在滿足K-匿名要求的關(guān)系表中,會(huì)存在至少有k-1條記錄與它具有相同的準(zhǔn)標(biāo)識(shí)屬性值,所以任意一條記錄的準(zhǔn)標(biāo)識(shí)符的屬性出現(xiàn)的概率都不會(huì)超過1/k。所以在K-匿名模型中只要控制K值就能控制隱私的泄露風(fēng)險(xiǎn),所以這種模型既簡(jiǎn)單,又效率高。K-匿名的實(shí)現(xiàn)手段是泛化和隱匿技術(shù),在算法的實(shí)現(xiàn)上有兩種類型:一種是局部泛化算法,一種是全局泛化算法。兩種算法各有其特點(diǎn),兩種算法起到互相補(bǔ)充的作用。
3 匿名化的信息損失度計(jì)算
信息損失度是與安全性相互對(duì)應(yīng)的一個(gè)相關(guān)量,在進(jìn)行隱私保護(hù)時(shí),要在二者中達(dá)到一個(gè)平衡,隱私的保護(hù)技術(shù)是對(duì)原始的數(shù)據(jù)進(jìn)行預(yù)處理,匿名的實(shí)現(xiàn)程度主要是建立在合理的評(píng)價(jià)標(biāo)準(zhǔn)和參考的評(píng)價(jià)。在實(shí)際的數(shù)據(jù)庫(kù)保護(hù)中,一個(gè)標(biāo)準(zhǔn)不能完成全面的算法,由于不同的算法在具體的操作上有一定的差別,沒有最優(yōu)的算法,只有相對(duì)較好的模型,所以計(jì)算機(jī)的信息損失的種類也很多。所以數(shù)據(jù)在發(fā)布時(shí)一定要衡量好泄露風(fēng)險(xiǎn)和數(shù)據(jù)損失這兩個(gè)矛盾體。信息的損失一般是由以下兩個(gè)方面引起的:一是在對(duì)原始的數(shù)據(jù)進(jìn)行預(yù)處理時(shí)進(jìn)行了數(shù)據(jù)的抑制或者是加入了噪音等,噪音的加入對(duì)數(shù)據(jù)的影響很大;二是在對(duì)原始的數(shù)據(jù)修改后比原始數(shù)據(jù)更加粗糙,有效信息減少了,而且在進(jìn)行數(shù)據(jù)處理時(shí)還有可能注入一些錯(cuò)誤的信息數(shù)據(jù),對(duì)于信息的可用價(jià)值降低。屬性一般都存在兩種屬性,即分類屬性和數(shù)字屬性。下面是對(duì)信息損失的精確度量公式,對(duì)于一個(gè)等價(jià)類(G)的數(shù)字屬性信息損失度NCP計(jì)算公式定義公式,該公式在一定程度上可以精確的計(jì)算出信息的損失量。
公式中分子代表等價(jià)類,分母代表整個(gè)屬性范圍。上述公式中分類屬性不是用數(shù)字表示的,所以不好計(jì)算它們之間的距離,下面這個(gè)公式是對(duì)上述公式的完善,采用層次結(jié)構(gòu)的分類樹屬性來計(jì)算信息的損失度,針對(duì)一個(gè)等價(jià)類(G)的分類屬性信息損失度NCP計(jì)算公式定義公式為:
其中ACat為分類屬性,u是G中所有的ACat值的最低共同祖先,card(u)為u的子樹中的葉子數(shù)。
4 結(jié)束語(yǔ)
隨著信息化程度的不斷發(fā)展,不同類型的數(shù)據(jù)需要在不同類型的場(chǎng)合發(fā)布,這樣數(shù)據(jù)的隱私性就顯得尤為重要,傳統(tǒng)的靜態(tài)數(shù)據(jù)庫(kù)安全理論已經(jīng)不能滿足現(xiàn)在的動(dòng)態(tài)的數(shù)據(jù)庫(kù)更新要求,攻擊者可以采用鏈接的方式進(jìn)行攻擊,使個(gè)人的隱私信息得到泄露。本文提出的動(dòng)態(tài)數(shù)據(jù)庫(kù)的K-匿名模型的數(shù)據(jù)庫(kù)隱私保護(hù)可以對(duì)動(dòng)態(tài)的數(shù)據(jù)庫(kù)進(jìn)行很好的保護(hù),為數(shù)據(jù)庫(kù)的隱私保護(hù)提供了切實(shí)的保障。
參考文獻(xiàn):
[1]郝之曉,吳剛.帶窗口的凈增量數(shù)據(jù)庫(kù)復(fù)制優(yōu)化算法[J].計(jì)算機(jī)工程與科學(xué),2010(02).
[2]宋芒果.二調(diào)數(shù)據(jù)庫(kù)更新機(jī)制研究[J].測(cè)繪與空間地理信息,2012(06).
[3]徐華勇.利用蒼穹軟件進(jìn)行土地調(diào)查數(shù)據(jù)庫(kù)變更時(shí)的體會(huì)[J].城市建設(shè)理論研究(電子版),2012(12).
作者單位:江西環(huán)境工程職業(yè)學(xué)院基礎(chǔ)部,江西贛州 341000