亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        PPDM 中面向k-匿名的MI Loss 評估模型

        2022-04-18 10:56:34谷青竹董紅斌
        計算機工程 2022年4期
        關(guān)鍵詞:標(biāo)識符互信息可用性

        谷青竹,董紅斌

        (武漢大學(xué)國家網(wǎng)絡(luò)安全學(xué)院,武漢 430000)

        0 概述

        k-匿名作為隱私保護數(shù)據(jù)挖掘(Privacy Preserving Data Mining,PPDM)研究中的一項關(guān)鍵技術(shù),具有計算開銷低、數(shù)據(jù)形變小、能抵御鏈接攻擊等優(yōu)點[1]。在一些追求高數(shù)據(jù)可用性的k-匿名算法中,通常會提出度量數(shù)據(jù)集信息損失的數(shù)據(jù)可用性評估模型,但這些評估模型在屬性的可用性權(quán)重設(shè)置上存在缺陷,導(dǎo)致算法選擇出的最優(yōu)匿名數(shù)據(jù)集在后續(xù)的分類問題中表現(xiàn)較差。

        目前數(shù)據(jù)集的發(fā)布共享越來越普遍,為避免在數(shù)據(jù)使用過程中造成的隱私泄露,研究人員希望通過修改原始數(shù)據(jù)集來保護隱私信息。但是,轉(zhuǎn)化原始數(shù)據(jù)可能會導(dǎo)致信息損失和數(shù)據(jù)挖掘結(jié)果不準(zhǔn)確。為此,隱私保護數(shù)據(jù)挖掘技術(shù)旨在保護隱私信息的前提下,最大化數(shù)據(jù)可用性,使得轉(zhuǎn)化后的數(shù)據(jù)仍然可以被有效用于數(shù)據(jù)挖掘[2-3]。隱私保護數(shù)據(jù)挖掘是一項在數(shù)據(jù)挖掘整個過程中實現(xiàn)隱私保護的研究,從數(shù)據(jù)的產(chǎn)生、發(fā)布,以及到挖掘的各個階段,都需要依靠PPDM 技術(shù)防止隱私泄露。數(shù)據(jù)發(fā)布階段的PPDM 技術(shù)主要包括匿名化、擾動和加密,這些技術(shù)適用的場景各不相同。匿名化主要用在數(shù)據(jù)集被公開發(fā)布的場景下,擾動多用于防止統(tǒng)計泄露的數(shù)據(jù)庫查詢中,加密則是不同地點的數(shù)據(jù)所有者在協(xié)同計算時應(yīng)用[1]。

        本文構(gòu)建一種面向k-匿名的互信息損失(Mutual Information Loss,MI Loss)評估模型,該模型利用互信息計算屬性的可用性權(quán)重,使與標(biāo)簽相關(guān)性高的屬性可被較低程度泛化,從而減少關(guān)鍵屬性的信息損失,以提升匿名數(shù)據(jù)集在后續(xù)分類問題中的準(zhǔn)確率。

        1 匿名化

        匿名化是指在匿名化算法的指導(dǎo)下對原始數(shù)據(jù)集執(zhí)行一系列數(shù)據(jù)轉(zhuǎn)化操作,使其滿足相應(yīng)的匿名化模型。其中,只有數(shù)據(jù)轉(zhuǎn)化操作是對數(shù)據(jù)集的具體轉(zhuǎn)化,而匿名化算法和匿名化模型只提供理論的指導(dǎo)和約束。

        1.1 k-匿名模型

        k-匿名模型由SWEENEY 等[4]于1998 年提出,由于能抵御鏈接攻擊,已經(jīng)成為使用最廣泛的匿名化模型之一。k-匿名模型要求在發(fā)布的數(shù)據(jù)集中,每條記錄至少要與k-1 條記錄擁有相同的準(zhǔn)標(biāo)識符值,這樣攻擊者推測一條記錄所關(guān)聯(lián)個人的可能性被降低,達到了匿名化的效果。準(zhǔn)標(biāo)識符是指可以聯(lián)合起來標(biāo)識一個個人的屬性,例如當(dāng)用<性別,職業(yè),郵編>這樣一個屬性組合就能識別出一個個體時,“性別”“職業(yè)”“郵編”就被稱為是準(zhǔn)標(biāo)識符。參數(shù)k越大,數(shù)據(jù)失真程度越高,隱私保護的效果越好,但相應(yīng)的信息損失也越大。經(jīng)過二十多年的發(fā)展,在k-匿名模型的基礎(chǔ)上,l-diversity[5]、t-closeness[6]、(alpha,k)-anonymity 等[7]眾多匿名化模型被相繼提出。這些模型通常使用一個或多個隱私參數(shù)來降低發(fā)布數(shù)據(jù)中一個個體被重標(biāo)識的風(fēng)險。

        1.2 k-匿名算法

        現(xiàn)有的k-匿名算法大致可以分為兩類:一類是基于泛化的k-匿名算法[8];另一類是基于微聚合的k-匿名算法[9]。泛化是指使用一個更一般化的值替換原始的精確值[10]。在泛化操作中,數(shù)值型準(zhǔn)標(biāo)識符往往被泛化成一個區(qū)間,例如年齡17 可以被泛化成(15,20];而類別型準(zhǔn)標(biāo)識符則需要定義泛化層級關(guān)系樹,樹的葉子節(jié)點是原始值,越往上層值的泛化程度越大。職業(yè)的泛化層級樹如圖1 所示。抑制(suppression)是程度最高的泛化,指使用特定符號(例如*,&等)來代替原始值,使原始值失效。

        圖1 職業(yè)的泛化層級關(guān)系樹Fig.1 Generalized hierarchical tree of occupation

        由于基于泛化的k-匿名算法更適合運用于類別型準(zhǔn)標(biāo)識符,對于數(shù)值型準(zhǔn)標(biāo)識符會丟失更多的語義[11],一些研究便將SDC(Statistical Disclosure Control)中的微聚合技術(shù)運用到匿名化算法中[12]。微聚合的主要思想是給定一個參數(shù)k,然后將數(shù)據(jù)集劃分成多個組,每個組至少包含k條記錄,組內(nèi)記錄最大程度的相似,而組間記錄最大程度的不同。最后每個組內(nèi)原始的準(zhǔn)標(biāo)識符值會被替換成所在組的準(zhǔn)標(biāo)識符質(zhì)心[13]。因此,每條記錄會與k-1 條記錄相似,滿足了k-匿名模型要求。

        2 評估模型研究現(xiàn)狀

        k-匿名算法在保證數(shù)據(jù)集安全發(fā)布的同時,會不可避免地導(dǎo)致數(shù)據(jù)可用性降低。根據(jù)可用性指導(dǎo)匿名化過程,得出可用性最高的匿名化數(shù)據(jù)集(即最優(yōu)匿名數(shù)據(jù)集),研究人員提出了評估數(shù)據(jù)可用性模型[14-15]。在可用性模型中,數(shù)據(jù)集的信息損失等于所有加權(quán)后的準(zhǔn)標(biāo)識符信息損失之和。這里的權(quán)重是指準(zhǔn)標(biāo)識符的可用性權(quán)重,權(quán)重越大,該準(zhǔn)標(biāo)識符在匿名化時被泛化程度越低。

        目前,可用性權(quán)重的設(shè)定方式主要分為三類:一類是假設(shè)所有準(zhǔn)標(biāo)識符的可用性權(quán)重相等,如文獻[16]提出的評估模型Loss,顯然這種方式并不符合使用數(shù)據(jù)時的實際情況;另一類是由使用數(shù)據(jù)的人指定,如文獻[17]提出評估模型UC,這類方式很大程度上依賴于操作者的個人能力,且不具有普遍適用性;最后一類是依靠特定指標(biāo)自動計算出權(quán)重因子,如文獻[18]提出的Entropy Loss 模型,首先計算出準(zhǔn)標(biāo)識符的信息熵,然后將信息熵標(biāo)準(zhǔn)化之后作為可用性權(quán)重。但是信息熵僅描述了屬性所包含的信息量,并不能反映屬性在后續(xù)挖掘中的重要程度,有些信息熵低的屬性反而更應(yīng)該被較低程度泛化。例如性別,雖然信息熵低,但是在分析一個人的興趣愛好時卻十分重要。

        上述評估模型中可用性權(quán)重的設(shè)置方式均存在缺陷,直接影響了k-匿名算法選取最優(yōu)解。為此,本文提出使用互信息計算可用性權(quán)重的互信息損失評估模型。該模型可適用于PPDM 研究,指導(dǎo)k-匿名算法在后續(xù)分類問題中選擇出可用性更高的匿名數(shù)據(jù)集。

        3 MI Loss 模型

        MI Loss 評估模型通過準(zhǔn)標(biāo)識符和標(biāo)簽之間的互信息計算可用性權(quán)重,利用Loss 公式計算各個準(zhǔn)標(biāo)識符的信息損失,最后將所有加權(quán)后的準(zhǔn)標(biāo)識符信息損失之和作為數(shù)據(jù)集的信息損失。

        3.1 MI Loss 評估模型

        互信息通常被用來描述兩個變量之間的相關(guān)性,若兩個變量之間不存在相關(guān)性,則它們的互信息為零,否則它們的互信息大于零。通過計算數(shù)據(jù)集中每個準(zhǔn)標(biāo)識符與標(biāo)簽的互信息,可以判斷出它們與標(biāo)簽的相關(guān)性大?。?9]。若相關(guān)性大,則說明該準(zhǔn)標(biāo)識符應(yīng)該被較低程度泛化,以保留其后續(xù)在數(shù)據(jù)挖掘中的可用性。因此,相較于信息熵,互信息反映了準(zhǔn)標(biāo)識符對標(biāo)簽信息量的影響,更適合作為k-匿名過程中計算準(zhǔn)標(biāo)識符的可用性權(quán)重指標(biāo)。

        利用互信息計算準(zhǔn)標(biāo)識符的可用性權(quán)重方法如下:首先計算出每個準(zhǔn)標(biāo)識符與標(biāo)簽之間的互信息,然后將所有互信息值標(biāo)準(zhǔn)化得到權(quán)重。如式(1)所示,假設(shè)在數(shù)據(jù)集D中,準(zhǔn)標(biāo)識符的個數(shù)為q,依次表示為X1,X2,…,Xq,標(biāo)簽表示為Y,將式(2)、式(3)代入式(1)計算出準(zhǔn)標(biāo)識符Xi與標(biāo)簽Y之間的互信息MI(Y,Xi),最后通過標(biāo)準(zhǔn)化式(4)得到準(zhǔn)標(biāo)識符Xi的可用性權(quán)重wi。

        在匿名化的過程中,準(zhǔn)標(biāo)識符的原始值會被替換為經(jīng)過泛化的值,MI Loss 評估模型使用文獻[16]提出的信息損失公式Loss 來估計準(zhǔn)標(biāo)識符的信息損失Loss(Xi)。Loss 公式用一個值被泛化后的區(qū)間度量除以其泛化前的區(qū)間度量作為該值的信息損失。對于數(shù)值型屬性,區(qū)間度量為泛化區(qū)間最大值和最小值之差,對于類別型屬性,區(qū)間度量為泛化層級關(guān)系樹的同層節(jié)點數(shù)目。

        根據(jù)所有準(zhǔn)標(biāo)識符Xi的信息損失Loss(Xi)和其相應(yīng)的可用性權(quán)重wi,MI Loss 模型計算數(shù)據(jù)集D的信息損失公式如下:

        式(5)可用于指導(dǎo)k-匿名算法尋找最優(yōu)解。

        3.2 基于MI Loss 模型的k-匿名算法

        基于MI Loss 模型的k-匿名算法流程如圖2 所示。在搜索階段,依據(jù)一定規(guī)則轉(zhuǎn)化原始數(shù)據(jù),并將所有滿足k-匿名模型的數(shù)據(jù)集加入解空間。建立解空間后,根據(jù)MI Loss 評估模型計算每個解的信息損失,最后從中選出信息損失最低的一個匿名數(shù)據(jù)集作為最優(yōu)解輸出。若原始數(shù)據(jù)集體積過大,維數(shù)過多,則搜索階段可能會遭遇維數(shù)災(zāi)難[20],這時要依靠MI Loss 模型計算當(dāng)前數(shù)據(jù)集的信息損失來剪枝,達到降低計算量及優(yōu)化算法性能的目的。

        圖2 基于MI Loss 模型的k-匿名算法流程Fig.2 Procedure of k-anonymity algorithm based on MI Loss model

        4 實驗評估

        4.1 實驗?zāi)康募安襟E

        為證明在PPDM 的研究中利用MI Loss 評估模型指導(dǎo)k-匿名算法得到的最優(yōu)匿名數(shù)據(jù)集能有更好的分類表現(xiàn),本文將其與Loss 模型[16]和Entropy Loss模型[18]進行了對比。比較3 種模型選擇出的最優(yōu)匿名數(shù)據(jù)集在分類問題中的準(zhǔn)確率,分類準(zhǔn)確率越高則說明對應(yīng)的匿名數(shù)據(jù)集在分類方面的可用性降低越少[21]。

        本文實驗中使用的數(shù)據(jù)集是UCI Machine Learning Repository 中的Adult 數(shù)據(jù)集,Adult 數(shù)據(jù)集經(jīng)常被用來研究二分類問題和隱私保護機制,通過一個人的年齡、受教育年限、性別等屬性預(yù)測其薪資是否超過50K,該數(shù)據(jù)集中包含了14 個特征和1 個標(biāo)簽。為最大程度地模擬真實環(huán)境,保證數(shù)據(jù)安全,實驗從14 個特征中選出11 個作為準(zhǔn)標(biāo)識符,準(zhǔn)標(biāo)識符的具體描述如表1 所示。

        表1 Adult 數(shù)據(jù)集中的準(zhǔn)標(biāo)識符Table 1 Quasi-identifiers in Adult dataset

        本文在安裝了JDK 11.0.7 的Windows10 環(huán)境中進行了實驗,使用開源的匿名化軟件ARX3.8.0[22]對數(shù)據(jù)匿名化,該工具可以由用戶自定義匿名化模型、數(shù)據(jù)轉(zhuǎn)化規(guī)則以及評估數(shù)據(jù)可用性的模型。

        本文實驗步驟如下:

        步驟1預(yù)定義匿名化模型及規(guī)則。在ARX 中設(shè)置匿名數(shù)據(jù)集須滿足的匿名模型為k-匿名,k分別取2、3、5、10,并且針對不同類型的數(shù)據(jù)設(shè)置了相應(yīng)的數(shù)據(jù)轉(zhuǎn)化規(guī)則和泛化層級關(guān)系。數(shù)值型準(zhǔn)標(biāo)識符的原始值會被轉(zhuǎn)化為泛化區(qū)間端點的算術(shù)平均值;類別型準(zhǔn)標(biāo)識符則會根據(jù)預(yù)定義的泛化層級關(guān)系樹來轉(zhuǎn)化。

        步驟2搜索所有解,建立解空間。ARX 會對所有準(zhǔn)標(biāo)識符按照泛化層級關(guān)系自底向上逐級泛化,每遇到一個滿足k-匿名的匿名數(shù)據(jù)集就將其加入解空間,直至滿足搜索終止條件。

        步驟3使用3 種評估模型分別對解空間中的匿名數(shù)據(jù)集進行評估。Loss 模型、Entropy Loss 模型和MI Loss 模型中準(zhǔn)標(biāo)識符的可用性權(quán)重如表2所示。

        表2 3 種評估模型中屬性的可用性權(quán)重Table 2 Utility weights of attributes in three evaluation models

        3種模型利用不同的權(quán)重通過式(5)計算數(shù)據(jù)集的信息損失,最后從所有滿足k-匿名模型的數(shù)據(jù)集中搜索出信息損失最低的一個作為該模型得到的最優(yōu)匿名數(shù)據(jù)集輸出。

        步驟4當(dāng)k取不同值時,用3種模型得到的最優(yōu)解分別訓(xùn)練分類器,并比較分類器的分類準(zhǔn)確率。分類準(zhǔn)確率越高,說明對應(yīng)的匿名數(shù)據(jù)集在分類問題中的信息損失越低,相應(yīng)的可用性評估模型也越能有效地指導(dǎo)k-匿名算法選擇出最優(yōu)解。

        4.2 實驗結(jié)果與分析

        使用線性回歸在3種模型選擇出的最優(yōu)匿名數(shù)據(jù)集上分別訓(xùn)練分類器,并采用三折交叉驗證計算分類器的準(zhǔn)確率,結(jié)果如圖3 所示。當(dāng)k=0 時,即為原始數(shù)據(jù)集,數(shù)據(jù)沒有形變,因此訓(xùn)練出的分類器的分類準(zhǔn)確率最高為89.23%,這也是所有分類器準(zhǔn)確率的上界。隨著k值的增加,滿足k-匿名模型的難度也隨之增大,數(shù)據(jù)的形變程度加大,因此分類器的表現(xiàn)都隨著數(shù)據(jù)可用性的降低有所下降,但不論k取何值,用MI Loss 評估模型選擇得到的最優(yōu)解訓(xùn)練出的分類器分類準(zhǔn)確率始終最高,比使用其他兩種模型高0.73%~3.00%,而且隨著k值的增加,MI Loss 模型的優(yōu)勢愈加明顯。這說明在k-匿名算法中,用MI Loss 模型指導(dǎo)匿名化過程并選擇最優(yōu)解,能顯著降低最優(yōu)匿名數(shù)據(jù)集在分類問題中的可用性丟失,從而取得更高的分類準(zhǔn)確率。

        圖3 3 種模型的分類器準(zhǔn)確率Fig.3 Classification accuracy of three models

        5 結(jié)束語

        本文分析了隱私保護數(shù)據(jù)挖掘研究中k-匿名算法所采用的數(shù)據(jù)可用性評估模型在可用性權(quán)重設(shè)置上的缺陷,提出一種使用互信息計算權(quán)重的MI Loss評估模型。該模型將準(zhǔn)標(biāo)識符和標(biāo)簽之間的互信息標(biāo)準(zhǔn)化后作為權(quán)重,并與Loss 模型、Entropy Loss 模型進行對比。實驗結(jié)果表明,MI Loss 模型選擇出的最優(yōu)解在分類問題中有更高的可用性,分類準(zhǔn)確率優(yōu)于另外兩種模型。本文僅對MI Loss 模型選擇出的最優(yōu)解在分類問題中的表現(xiàn)進行了實驗分析,下一步將研究該模型在回歸問題中的可用性。

        猜你喜歡
        標(biāo)識符互信息可用性
        基于文獻計量學(xué)的界面設(shè)計可用性中外對比研究
        包裝工程(2023年24期)2023-12-27 09:18:26
        淺析5G V2X 通信應(yīng)用現(xiàn)狀及其側(cè)鏈路標(biāo)識符更新技術(shù)
        基于底層虛擬機的標(biāo)識符混淆方法
        基于輻射傳輸模型的GOCI晨昏時段數(shù)據(jù)的可用性分析
        基于區(qū)塊鏈的持久標(biāo)識符系統(tǒng)①
        數(shù)字美術(shù)館“數(shù)字對象唯一標(biāo)識符系統(tǒng)”建設(shè)需求淺議
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        改進的互信息最小化非線性盲源分離算法
        電測與儀表(2015年9期)2015-04-09 11:59:22
        空客A320模擬機FD1+2可用性的討論
        河南科技(2015年7期)2015-03-11 16:23:13
        国产精品免费看久久久无码| 久久综合精品国产丝袜长腿| 中文字幕亚洲情99在线| 亚洲综合色成在线播放| 日韩高清无码中文字幕综合一二三区| 免费毛片在线视频| 在线观看黄片在线播放视频 | 日本www一道久久久免费榴莲 | 日韩国产有码在线观看视频| 亚洲女同精品一区二区久久| 国产自拍成人免费视频| 欧美色欧美亚洲另类二区| 手机看片福利一区二区三区| 久久亚洲av成人无码国产| 国产9 9在线 | 免费| 丰满少妇又爽又紧又丰满动态视频 | 人妻无码一区二区在线影院| 亚洲亚洲亚洲亚洲亚洲天堂| 日本高清无卡一区二区三区| 免费日本一区二区三区视频| 国产免费爽爽视频在线观看| 中文字幕无码不卡一区二区三区 | 久久红精品一区二区三区| 中文字幕人妻熟女人妻| 欧美成人看片黄a免费看| 国产在线视频国产永久视频| 国产精品亚洲精品日产久久久| 美女被强吻并脱下胸罩内裤视频 | 成视频年人黄网站免费视频| 精品国产乱码久久久久久影片| 国产 中文 制服丝袜 另类| 国产日本精品一区二区| 男女射黄视频网站在线免费观看| 亚洲av无码一区二区三区不卡| 亚洲 欧美 影音先锋| 中文字幕日韩人妻高清在线| 国产精品国产三级野外国产| 无码人妻久久一区二区三区免费| 国产人妖视频一区二区| 91情侣在线精品国产免费| 五月激情在线视频观看|