亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于不同敏感度的改進(jìn)K-匿名隱私保護(hù)算法

        2023-05-24 03:18:52陳學(xué)斌張國鵬裴浪濤
        計(jì)算機(jī)應(yīng)用 2023年5期
        關(guān)鍵詞:可用性集群準(zhǔn)確率

        翟 冉,陳學(xué)斌*,張國鵬,裴浪濤,馬 征

        (1.華北理工大學(xué) 理學(xué)院,河北 唐山 063210;2.河北省數(shù)據(jù)科學(xué)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室(華北理工大學(xué)),河北 唐山 063210;3.華北理工大學(xué) 唐山市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,河北 唐山 063210)

        0 引言

        大數(shù)據(jù)及相關(guān)技術(shù)給社會(huì)和科技發(fā)展帶來了重大的影響,數(shù)據(jù)的開放共享也給科學(xué)研究、社會(huì)治理等領(lǐng)域提供了支撐條件,但數(shù)據(jù)開放共享的同時(shí),也不可避免地造成了數(shù)據(jù)隱私的泄漏。為解決這一問題,研究人員提出了許多隱私保護(hù)方法。目前,應(yīng)用較廣泛的隱私保護(hù)方法有數(shù)據(jù)加密技術(shù)、數(shù)據(jù)失真技術(shù)和數(shù)據(jù)匿名化技術(shù)[1]。數(shù)據(jù)加密技術(shù)指將信息使用加密函數(shù)轉(zhuǎn)換為密文,如同態(tài)加密技術(shù)[2];數(shù)據(jù)失真技術(shù)指通過添加噪聲的方式保護(hù)數(shù)據(jù)的安全,差分隱私技術(shù)[3]為常見的數(shù)據(jù)失真技術(shù);數(shù)據(jù)匿名化技術(shù)指對(duì)數(shù)據(jù)進(jìn)行泛化或隱匿。K-匿名[4]技術(shù)是目前應(yīng)用較廣泛的基于數(shù)據(jù)匿名化的隱私保護(hù)技術(shù)之一,原理為對(duì)數(shù)據(jù)進(jìn)行泛化處理,使得對(duì)數(shù)據(jù)集中的每一個(gè)數(shù)據(jù)都有K-1 個(gè)數(shù)據(jù)與之相同。

        傳統(tǒng)的隱私保護(hù)方法主要考慮對(duì)數(shù)據(jù)進(jìn)行保護(hù),忽視了數(shù)據(jù)的可用性[5]。對(duì)擁有多個(gè)屬性的數(shù)據(jù)集進(jìn)行K-匿名處理時(shí),由于屬性的數(shù)量過多,為了使多個(gè)屬性同時(shí)滿足K-匿名特征,會(huì)產(chǎn)生過度隱匿現(xiàn)象,破壞數(shù)據(jù)的可用性。為了解決這個(gè)問題,本文提出一種基于隨機(jī)森林(Random Forest,RF)的K-匿名隱私保護(hù)算法——RFK-匿名隱私保護(hù)。

        本文首先用RF 算法[6]預(yù)測不同屬性值的敏感程度,由于使用RF 算法對(duì)屬性值的敏感程度進(jìn)行預(yù)測會(huì)存在誤差,因此利用k-means 聚類算法[7]將不同敏感程度的屬性值分成不同集群,使每個(gè)集群中的屬性敏感程度相近。最后根據(jù)不同屬性集群對(duì)屬性進(jìn)行不同程度的隱匿,用戶可以根據(jù)自己的需求選擇隱匿數(shù)據(jù)表。該方法在保障數(shù)據(jù)隱私安全的基礎(chǔ)上增加了數(shù)據(jù)的可用性。本文的主要工作如下:

        1)與傳統(tǒng)K-匿名技術(shù)中的無差別隱匿不同,本文根據(jù)屬性敏感度的不同,對(duì)屬性信息進(jìn)行不同程度的隱匿,在保證數(shù)據(jù)的安全性的同時(shí),減少了數(shù)據(jù)的損失。

        2)使用真實(shí)數(shù)據(jù)集進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練時(shí)有數(shù)據(jù)泄漏的風(fēng)險(xiǎn),考慮到直接對(duì)真實(shí)數(shù)據(jù)集進(jìn)行K-匿名處理會(huì)由于屬性數(shù)量太多導(dǎo)致過度隱匿,而使用過度隱匿的數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練時(shí)訓(xùn)練準(zhǔn)確率會(huì)明顯下降的情況,本文對(duì)真實(shí)數(shù)據(jù)集根據(jù)屬性的敏感程度不同進(jìn)行RFK-匿名處理,并使用處理后的數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)預(yù)測。與K-匿名算法、(p,α,k)-匿名隱私保護(hù)算法相比,在閾值E較大時(shí),本文方法的預(yù)測準(zhǔn)確率有所提升。

        1 相關(guān)工作

        1.1 隱私保護(hù)

        在數(shù)據(jù)隱私保護(hù)的基礎(chǔ)上,保證數(shù)據(jù)的可用性至關(guān)重要。針對(duì)這一問題,研究人員提出了一系列研究方案。蒲東等[8]根據(jù)屬性值不同的敏感等級(jí),采用不同的匿名方法,例如分類型數(shù)據(jù)中,對(duì)于較低敏感程度的屬性,泛化到所在樹的上一層節(jié)點(diǎn),對(duì)于較高敏感程度的屬性,泛化到更高一層的節(jié)點(diǎn);同時(shí),根據(jù)閾值α確定屬性值出現(xiàn)的頻率,使泛化后等價(jià)類中各個(gè)敏感屬性值出現(xiàn)的頻率平均,在減少數(shù)據(jù)損失的同時(shí)降低了隱私泄漏的可能。張王策等[9]提出了一種將缺損數(shù)據(jù)與完整數(shù)據(jù)混合匿名的算法,能有效地提高數(shù)據(jù)的可用性。吳夢婷等[10]在K-匿名中考慮K 最近鄰(K-Nearest Neighbor,KNN)聚類思想[11]的離群點(diǎn)問題,降低了數(shù)據(jù)的損失。蘇林萍等[12]提出了一種個(gè)性化(α,l,k)匿名隱私保護(hù)模型。在最大程度保證個(gè)性化匿名需求的同時(shí)根據(jù)敏感屬性值敏感等級(jí)的不同,對(duì)各個(gè)等價(jià)組中的敏感屬性值分別采取不同的匿名方式,優(yōu)先泛化高敏感度等級(jí)的屬性值,使等價(jià)組中的每個(gè)敏感屬性滿足對(duì)出現(xiàn)頻率α以及多樣性l的約束條件,從而有效降低數(shù)據(jù)集中高敏感等級(jí)信息的泄露風(fēng)險(xiǎn),并提高數(shù)據(jù)的可用性。王楠[13]提出的(p,aisg)-敏感性k-匿名差異化地限制了敏感組出現(xiàn)的總頻率,實(shí)現(xiàn)了在敏感組維度的個(gè)性化保護(hù),并根據(jù)敏感值的敏感度設(shè)置了有區(qū)別的多樣性約束的(pi,aisg)-敏感性k-匿名,敏感值維度也達(dá)到了個(gè)性化匿名效果,減少了對(duì)低敏感信息保護(hù)過度造成的冗余信息損失。對(duì)于(p,aisg)-敏感性k-匿名模型和(pi,aisg)-敏感性k-匿名模型存在語義相似性攻擊的威脅,對(duì)敏感值進(jìn)行語義類別劃分,王楠[13]提出了針對(duì)語義相似性攻擊的具有對(duì)敏感組個(gè)性化保護(hù)特性的(psc,aisg)-敏感性k-匿名,在此基礎(chǔ)上還添加了面向語義類別的個(gè)性化保護(hù)的(pisc,aisg)-敏感性k-匿名,以較少的數(shù)據(jù)可用性為代價(jià)在隱私性方面表現(xiàn)出了突出優(yōu)勢。張強(qiáng)等[14]提出了一種基于最優(yōu)聚類的k-匿名隱私保護(hù)機(jī)制,通過建立數(shù)據(jù)距離與信息損失間的函數(shù)關(guān)系,將k-匿名機(jī)制的最優(yōu)化問題轉(zhuǎn)化為數(shù)據(jù)集的最優(yōu)聚類問題;然后利用貪婪算法和二分機(jī)制,尋找滿足k-匿名約束條件的最優(yōu)聚類,從而實(shí)現(xiàn)k-匿名模型的可用性最優(yōu)化,能最大限度減少聚類匿名的信息損失。楊柳等[15]設(shè)計(jì)了一種混合式K-匿名特征選擇算法,使用分類性能作為評(píng)價(jià)準(zhǔn)則選出分類性能最好的K-匿名特征子集,在分類性能上可以超過現(xiàn)有算法并且信息損失更小。樊佳錦等[16]提出了一種基于分類重要性與隱私約束的K-匿名特征選擇(Importance Feature Privacy K-Anonymous by Clustering in Attribute,IFP_KACA)方法,根據(jù)特征分類重要性排序選擇分類性能較好并且滿足隱私約束的特征進(jìn)行K-匿名處理,從而得到保護(hù)特征隱私后的優(yōu)選特征子集。算法篩選的特征集能夠平衡隱私保護(hù)度和分類挖掘性能,有效檢測微博垃圾用戶。然而上述研究僅在數(shù)據(jù)集的部分屬性中使用了K-匿名技術(shù),而真實(shí)數(shù)據(jù)集中的屬性數(shù)量更多,數(shù)據(jù)集中的某些屬性的敏感程度較低,將這些信息發(fā)布出來對(duì)用戶的影響較小,但是對(duì)全部屬性進(jìn)行隱匿,由于多個(gè)屬性難以同時(shí)達(dá)到K-匿名條件,滿足K-匿名條件時(shí)屬性要不斷泛化,泛化程度越大,數(shù)據(jù)的精度越低,會(huì)嚴(yán)重影響數(shù)據(jù)的可用性。為了解決這一問題,本文提出了一種改進(jìn)的K-匿名隱私保護(hù)算法,對(duì)數(shù)據(jù)集中的所有屬性進(jìn)行K-匿名處理,而且在對(duì)屬性進(jìn)行隱匿之前,首先使用RF 算法預(yù)測屬性的敏感程度,將屬性根據(jù)敏感程度不同劃分成若干的集群,對(duì)于不同敏感度集群的屬性采用不同的隱匿方法,達(dá)到在保護(hù)用戶隱私的基礎(chǔ)上提高數(shù)據(jù)可用性的目的。

        1.2 K-匿名

        K-匿名[17]是一種對(duì)數(shù)據(jù)進(jìn)行處理的隱私保護(hù)方法,指的是對(duì)于某一用戶的某一項(xiàng)信息,至少有K-1 個(gè)人與之相同,這樣攻擊者便無法分辨出真正的隱私信息。本文利用K-匿名技術(shù)將用RF 算法預(yù)測出的會(huì)產(chǎn)生隱私泄漏的數(shù)據(jù)進(jìn)行隱匿,達(dá)到隱私保護(hù)的作用。用戶的基本信息分為標(biāo)識(shí)列和準(zhǔn)標(biāo)識(shí)列。標(biāo)識(shí)列指用戶的姓名、身份證號(hào)等信息,在隱私保護(hù)過程中,標(biāo)識(shí)列的信息會(huì)被直接抹除;準(zhǔn)標(biāo)識(shí)列的信息是關(guān)于用戶的其他信息,如用戶的年齡、城市、學(xué)校等,如果不對(duì)準(zhǔn)標(biāo)識(shí)列的數(shù)據(jù)進(jìn)行處理,會(huì)產(chǎn)生鏈接攻擊[18]。鏈接攻擊指攻擊者通過將兩個(gè)數(shù)據(jù)中的信息混合得到有關(guān)用戶的隱私。本文利用K-匿名法對(duì)準(zhǔn)標(biāo)識(shí)列的信息進(jìn)行處理,使得對(duì)于用戶的某個(gè)數(shù)據(jù),有K-1 條數(shù)據(jù)與之相同,可以有效防止因準(zhǔn)標(biāo)識(shí)列泄漏導(dǎo)致的鏈接攻擊[19]。

        2 基于隨機(jī)森林的K-匿名隱私保護(hù)算法

        本文提出的RFK-匿名隱私保護(hù)算法根據(jù)真實(shí)數(shù)據(jù)集屬性的敏感程度不同,對(duì)數(shù)據(jù)進(jìn)行不同程度的隱匿,在保護(hù)了隱私的前提下最大限度地保證了數(shù)據(jù)的可用性。本文的目的主要是解決使用真實(shí)數(shù)據(jù)集進(jìn)行機(jī)器學(xué)習(xí)分類預(yù)測過程中數(shù)據(jù)可用性和安全性的平衡問題。

        2.1 問題描述

        大數(shù)據(jù)背景下,用戶的個(gè)人信息被上傳至多個(gè)服務(wù)器,同時(shí),也帶來了一系列隱私泄露的隱患。機(jī)器學(xué)習(xí)需要大量的真實(shí)數(shù)據(jù)集,在使用機(jī)器學(xué)習(xí)進(jìn)行分類預(yù)測時(shí),足夠數(shù)量的真實(shí)數(shù)據(jù)集是準(zhǔn)確預(yù)測結(jié)果的重要條件之一。然而,數(shù)據(jù)擁有者將數(shù)據(jù)發(fā)布即面臨一定的風(fēng)險(xiǎn),導(dǎo)致大多數(shù)數(shù)據(jù)擁有者不愿意發(fā)布自己的數(shù)據(jù)。機(jī)器學(xué)習(xí)的發(fā)展需要足夠數(shù)量的兼顧可用性和安全性的數(shù)據(jù)。針對(duì)這一問題,本文提出了一種改進(jìn)的K-匿名隱私保護(hù)技術(shù),在數(shù)據(jù)擁有者發(fā)布數(shù)據(jù)之前,使用K-匿名技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理,由于真實(shí)數(shù)據(jù)集屬性數(shù)量過多,為了避免多個(gè)屬性同時(shí)能滿足K-匿名特征會(huì)產(chǎn)生過度隱匿現(xiàn)象,破壞數(shù)據(jù)的可用性,因此根據(jù)屬性的敏感程度不同,對(duì)屬性進(jìn)行不同程度的隱匿,根據(jù)用戶的需求發(fā)放隱匿數(shù)據(jù)表,在保護(hù)數(shù)據(jù)安全性的前提下提升數(shù)據(jù)的可用性。

        2.2 算法描述

        本文方法的主要步驟如下:首先,使用RF 算法根據(jù)屬性預(yù)測關(guān)鍵信息,對(duì)關(guān)鍵信息的預(yù)測影響越大的屬性越敏感;然后,使用k-means 聚類算法根據(jù)屬性的不同敏感程度對(duì)屬性進(jìn)行聚類,分成敏感程度不同的5 個(gè)集群,即k=5;最后,使用K-匿名算法根據(jù)屬性的敏感程度采用不同的泛化程度隱匿用戶的隱私信息,用戶可以根據(jù)自己的需求選擇使用不同匿名化程度的數(shù)據(jù)表。

        2.2.1 隨機(jī)森林算法預(yù)測

        使用RF 算法根據(jù)屬性值對(duì)標(biāo)簽值進(jìn)行預(yù)測,然后每次減少一個(gè)屬性,并用剩余的屬性對(duì)標(biāo)簽值進(jìn)行預(yù)測,減少屬性后預(yù)測準(zhǔn)確率降低越多說明該屬性值越敏感。算法偽碼如下:

        算法1 隨機(jī)森林(RF)預(yù)測算法。

        2.2.2k-means聚類算法過程

        使用k-means 聚類算法根據(jù)屬性值對(duì)標(biāo)簽值的影響大小對(duì)屬性進(jìn)行聚類,設(shè)置k=5,即將屬性分為5 個(gè)敏感程度不同的集群。算法的流程如下:

        1)從屬性值中隨機(jī)選取5 個(gè)值作為初始中心點(diǎn);

        2)計(jì)算各個(gè)屬性值的敏感程度值到各個(gè)中心點(diǎn)的距離,將屬性根據(jù)敏感程度值劃分到距離它最近的中心點(diǎn)集群;

        3)計(jì)算集群的平均值作為新的中心點(diǎn);

        4)重復(fù)上述過程直至中心點(diǎn)不再發(fā)生變化。

        算法2k-means 聚類算法。

        2.2.3K-匿名處理

        將屬性聚類后的第1 集群進(jìn)行K-匿名處理后的數(shù)據(jù)表閾值設(shè)置為1;將屬性聚類后的第1、2 集群進(jìn)行K-匿名處理后閾值設(shè)置為2;將屬性聚類后的第1、2、3 集群進(jìn)行K-匿名處理后閾值設(shè)置為3;將屬性聚類后的第1、2、3、4 集群進(jìn)行K-匿名處理后閾值設(shè)置為4;將全部屬性進(jìn)行K-匿名處理后閾值設(shè)置為5。用戶可以根據(jù)自己的需求選擇使用不同匿名化程度的數(shù)據(jù)表。算法的流程如下:

        算法3K-匿名算法。

        2.3 算法分析

        2.3.1 算法復(fù)雜度

        k-means 算法對(duì)屬性值的敏感程度進(jìn)行聚類的時(shí)間復(fù)雜度為O(nkt),其中n為數(shù)據(jù)的個(gè)數(shù),k為初始中心點(diǎn)的個(gè)數(shù),t為迭代次數(shù);用RF 算法預(yù)測屬性集群的敏感程度的時(shí)間復(fù)雜度為O(Mmnlog(n)),其中n為數(shù)據(jù)的個(gè)數(shù),m為特征的個(gè)數(shù),M為隨機(jī)森林中樹的個(gè)數(shù);K-匿名算法對(duì)數(shù)據(jù)進(jìn)行隱匿的時(shí)間復(fù)雜度為O(nK),其中n為數(shù)據(jù)的個(gè)數(shù),K為對(duì)于每個(gè)數(shù)據(jù)相同的個(gè)數(shù)。即本文提出的基于隨機(jī)森林的K-匿名隱私保護(hù)算法的時(shí)間復(fù)雜度為O(nkt+Mmnlog(n) +nK)。

        2.3.2 算法安全性

        本文算法中,數(shù)據(jù)的擁有者首先使用RF 預(yù)測數(shù)據(jù)集的屬性敏感程度,這一過程由數(shù)據(jù)擁有者自己進(jìn)行,所以不存在數(shù)據(jù)泄露的風(fēng)險(xiǎn)。其次根據(jù)預(yù)測準(zhǔn)確率進(jìn)行k-means 聚類,將屬性根據(jù)敏感程度的不同劃分到不同集群,這一過程只對(duì)屬性的敏感程度值進(jìn)行操作,不會(huì)出現(xiàn)原始數(shù)據(jù)的泄漏。最后使用K-匿名隱私保護(hù)方法對(duì)數(shù)據(jù)進(jìn)行不同程度的隱匿,這一過程由于提前預(yù)測敏感屬性,并對(duì)不同敏感程度的屬性進(jìn)行不同程度的保護(hù),保證了原始數(shù)據(jù)的安全性。

        數(shù)據(jù)集中有數(shù)值型數(shù)據(jù)和分類型數(shù)據(jù),對(duì)于數(shù)值型數(shù)據(jù),信息損失度ILi如下:

        其中:MAXi為第i個(gè)屬性概化后的最大值,MINi為第i個(gè)屬性概化后的最小值;Ri為第i個(gè)屬性數(shù)據(jù)的值域。

        對(duì)于分類型數(shù)據(jù),信息損失度ILi如下:

        其中:Nodei為第i個(gè)屬性的原始葉子節(jié)點(diǎn)數(shù)為第i個(gè)屬性概化后的葉子節(jié)點(diǎn)數(shù)。相較于K-匿名算法,RFK-匿名算法有效減少了信息的損失度,而且安全性較高。

        RFK-匿名算法滿足K-匿名算法的基本條件,對(duì)于每一條數(shù)據(jù),都有至少K-1 條數(shù)據(jù)與之相同,可以有效地防止鏈接攻擊;而且用戶可以根據(jù)自己的需求選擇不同程度的隱匿數(shù)據(jù)表。與K-匿名算法相比,RFK-匿名算法在沒有降低安全性的情況下提高了數(shù)據(jù)的可用性。

        2.3.3 算法可用性

        本文算法利用RF 算法根據(jù)一部分特征值預(yù)測某個(gè)特征值,而RF 算法隨機(jī)將數(shù)據(jù)集分為訓(xùn)練組和測試組,訓(xùn)練組與測試組結(jié)果的比值為準(zhǔn)確率,符合RF 算法預(yù)測的條件,預(yù)測準(zhǔn)確率為一個(gè)數(shù)值。利用k-means 聚類算法可以對(duì)數(shù)值型數(shù)據(jù)進(jìn)行聚類,將數(shù)據(jù)分為k(本文k=5)個(gè)集群,用k-means 聚類算法對(duì)數(shù)據(jù)根據(jù)數(shù)值進(jìn)行聚類,滿足聚類算法的條件。本文算法利用K-匿名算法對(duì)屬性值進(jìn)行隱匿,這樣對(duì)每一個(gè)元組,都至少有K-1 個(gè)與之相同,滿足用K-匿名算法進(jìn)行隱匿的條件。在使用機(jī)器學(xué)習(xí)進(jìn)行預(yù)測的過程中,數(shù)據(jù)集的可用性和安全性需要得到保障,在實(shí)驗(yàn)過程中,采用RF 算法對(duì)屬性的準(zhǔn)確率進(jìn)行預(yù)測,然后依次刪除一個(gè)屬性,使用其他剩余屬性對(duì)標(biāo)簽值進(jìn)行預(yù)測,刪除這個(gè)屬性前后準(zhǔn)確率變化越大表示這個(gè)屬性越敏感。對(duì)全部屬性進(jìn)行K-匿名處理時(shí),由于屬性數(shù)量太多,達(dá)到K-匿名的條件時(shí)屬性泛化程度較大,數(shù)據(jù)的可用性降低。使用k-means 聚類算法根據(jù)屬性的不同敏感程度對(duì)屬性進(jìn)行聚類,分成敏感程度不同的集群,使用K-匿名算法根據(jù)屬性的敏感程度采用不同的泛化程度隱匿用戶的隱私信息,使用處理后的數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)的預(yù)測,能保障數(shù)據(jù)的安全性和可用性。用戶可以根據(jù)自己的需求選擇使用不同匿名化程度的數(shù)據(jù)表。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 數(shù)據(jù)集

        本實(shí)驗(yàn)采用了UCI 的Adult 和Bank Marketing 數(shù)據(jù)集,數(shù)據(jù)來源:https://archive.ics.uci.edu/ml/datasets/Adult,https://archive.ics.uci.edu/ml/datasets/Bank+Marketing。

        Adult 數(shù)據(jù)集抽取自美國1994 年人口普查數(shù)據(jù)庫,因此也稱作“人口普查收入”數(shù)據(jù)集,其中包括:年齡、工作類型、序號(hào)、受教育程度、受教育時(shí)間、婚姻狀況、職業(yè)、關(guān)系、種族、性別、資本收益、資本損失、每周工作時(shí)間、原籍等14 個(gè)字段信息,共有48 842 條數(shù)據(jù)。該數(shù)據(jù)集是一個(gè)分類數(shù)據(jù)集,用來預(yù)測年收入是否超過5 萬美元。年收入大于5 萬美元的人口占比為23.93%,年收入小于5 萬美元的人口占比76.07%。

        Bank Marketing 數(shù)據(jù)集與葡萄牙銀行機(jī)構(gòu)的營銷活動(dòng)相關(guān),這些營銷活動(dòng)以電話為基礎(chǔ),銀行的客服人員需要至少聯(lián)系客戶1 次來確認(rèn)客戶是否認(rèn)購該銀行的產(chǎn)品(定期存款)。該數(shù)據(jù)集中包括年齡、職業(yè)、婚姻情況、受教育程度、賬戶余額、住房、貸款、日期-日、日期-月、存款期限、營銷活動(dòng)、存款情況等16 個(gè)字段信息,共有11 162 條數(shù)據(jù)。

        3.2 實(shí)驗(yàn)環(huán)境

        本實(shí)驗(yàn)采用macOS 操作系統(tǒng),處理器為1.8 GHz 雙核Intel Core i5,用Python 語言在jupyter 中編寫實(shí)驗(yàn)代碼。

        3.3 實(shí)驗(yàn)過程

        本文實(shí)驗(yàn)分為以下幾個(gè)部分:1)先使用RF 算法預(yù)測出屬性的敏感程度,對(duì)敏感屬性根據(jù)敏感程度進(jìn)行聚類,并驗(yàn)證即使預(yù)測結(jié)果具有隨機(jī)性,聚類后同一集群的屬性仍然不會(huì)發(fā)生變化;2)對(duì)不同聚類的屬性分別進(jìn)行RFK-匿名處理和K-匿名處理,對(duì)比預(yù)測準(zhǔn)確率和信息損失度;3)用(p,α,k)-匿名隱私保護(hù)算法和RFK-匿名處理后的數(shù)據(jù)計(jì)算預(yù)測準(zhǔn)確率和信息損失度。本文首先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,然后使用RF 算法根據(jù)所有屬性值預(yù)測標(biāo)簽值。在預(yù)測過程中,對(duì)于每個(gè)屬性,用其他剩余屬性預(yù)測標(biāo)簽值。為了使RF 預(yù)測的結(jié)果更準(zhǔn)確,采用20 次實(shí)驗(yàn)的平均值作為預(yù)測準(zhǔn)確率,將每個(gè)屬性刪除前后的預(yù)測準(zhǔn)確率之差看作屬性對(duì)預(yù)測標(biāo)簽值的敏感程度,由于實(shí)驗(yàn)結(jié)果具有隨機(jī)性,用k-means 算法對(duì)屬性根據(jù)敏感程度進(jìn)行聚類,使相近敏感程度的屬性值都在一個(gè)集群里,這樣即使輸出結(jié)果的排序具有隨機(jī)性,也不會(huì)影響集群中的數(shù)據(jù),能更好地減小誤差。k-means 聚類算法中的k=5,即將屬性分為5 個(gè)敏感程度不同的集群,第一集群屬性的敏感程度最高,第二集群的次之,以此類推。使用K-匿名算法分別對(duì)這5 個(gè)敏感程度不同的集群進(jìn)行隱匿,即對(duì)所有屬性隱匿的數(shù)據(jù)表閾值設(shè)置為5,對(duì)第一、二、三、四集群隱匿的數(shù)據(jù)表設(shè)置閾值為4 的數(shù)據(jù)表,以此類推,對(duì)第一集群隱匿的數(shù)據(jù)表設(shè)置閾值為1 的數(shù)據(jù)表。由于數(shù)據(jù)集中的屬性數(shù)量太多,為了更好地保證數(shù)據(jù)的可用性,進(jìn)行K-匿名處理時(shí)的K值大于2 即可。

        3.4 實(shí)驗(yàn)結(jié)果

        3.4.1 預(yù)測準(zhǔn)確率

        使用RF 算法根據(jù)全部屬性預(yù)測標(biāo)簽值的準(zhǔn)確率,每次刪除一個(gè)屬性,用剩余的其他屬性預(yù)測準(zhǔn)確率,準(zhǔn)確率越高說明刪除的屬性對(duì)預(yù)測結(jié)果的影響度越低,該屬性的敏感性越低;準(zhǔn)確率越低說明刪除的屬性對(duì)預(yù)測結(jié)果的影響度越高,則該屬性的敏感程度越高。對(duì)每一個(gè)屬性分別利用其他剩余屬性預(yù)測20 次的平均準(zhǔn)確率和用所有屬性預(yù)測20 次的平均準(zhǔn)確率如表1、2 所示。

        表2 RF在Bank Marketing數(shù)據(jù)集上的預(yù)測準(zhǔn)確率Tab.2 Prediction accuracy of RF on Bank Marketing dataset

        對(duì)于每個(gè)屬性,刪除該屬性前后對(duì)預(yù)測準(zhǔn)確率的影響如表3、4 所示。

        表3 Adult數(shù)據(jù)集中每個(gè)屬性是否參與預(yù)測的準(zhǔn)確率的差值Tab.3 Difference in prediction accuracy for eliminating each attribute or not in Adult dataset

        表4 Bank Marketing數(shù)據(jù)集中每個(gè)屬性是否參與預(yù)測的準(zhǔn)確率的差值Tab.4 Difference in prediction accuracy for eliminating each attribute or not in Bank Marketing dataset

        對(duì)于每個(gè)屬性,根據(jù)屬性對(duì)準(zhǔn)確率的影響程度,使用k-means 聚類算法進(jìn)行聚類,將屬性分為5 個(gè)不同的集群,聚類后的結(jié)果如表5~8 所示。預(yù)測準(zhǔn)確率采用的是預(yù)測20 次的平均準(zhǔn)確率,并使用k-means 聚類算法根據(jù)屬性對(duì)準(zhǔn)確率的影響進(jìn)行聚類,有效降低了由于預(yù)測誤差導(dǎo)致的結(jié)果不確定性。

        表5 Adult數(shù)據(jù)集上k-means聚類結(jié)果Tab.5 k-means clustering results on Adult dataset

        表6 Bank Marketing數(shù)據(jù)集上k-means的聚類結(jié)果Tab.6 k-means clustering results on Bank Marketing dataset

        表8 Bank Marketing數(shù)據(jù)集上k-means的聚類結(jié)果可靠性驗(yàn)證Tab.8 Reliability Verification of k-means clustering results on Bank Marketing dataset

        圖1 為RFK-匿名算法和K-匿名算法的準(zhǔn)確率對(duì)比結(jié)果。其中E為可信度閾值,將第一集群的閾值設(shè)置為1,將第一、二集群的閾值設(shè)置為2,將第一、二、三集群的閾值設(shè)置為3,將第一、二、三、四集群的閾值設(shè)置為4,將第一、二、三、四、五集群的閾值設(shè)置為5。

        圖1 RFK-匿名算法與K-匿名算法的預(yù)測準(zhǔn)確率比較Fig.1 Comparison of prediction accuracy between RFK-anonymity algorithm and K-anonymity algorithm

        圖1 中預(yù)測準(zhǔn)確率的結(jié)果表明,當(dāng)E為1、2 時(shí),使用K-匿名算法處理后的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率高于使用RFK-匿名處理的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率;當(dāng)E為3、4 時(shí),使用RFK-匿名處理后的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率高于使用K-匿名算法處理后的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率,在Adult 數(shù)據(jù)集中分別提升了0.5 個(gè)百分點(diǎn)和1.6 個(gè)百分點(diǎn),在Bank Marketing 數(shù)據(jù)集中分別提升了0.4 個(gè)百分點(diǎn)和0.9 個(gè)百分點(diǎn);當(dāng)E為5 時(shí),使用RFK-匿名算法處理的數(shù)據(jù)和使用K-匿名算法處理的數(shù)據(jù)的預(yù)測準(zhǔn)確率相等。出現(xiàn)這一現(xiàn)象的原因是當(dāng)E為1、2 時(shí),RFK-匿名中的屬性數(shù)量太少,導(dǎo)致預(yù)測準(zhǔn)確率低;當(dāng)E為3、4 時(shí),使用RFK-匿名算法進(jìn)行處理的屬性數(shù)量足夠,同時(shí)沒有過多屬性導(dǎo)致的過度隱匿情況;當(dāng)E為5 時(shí),使用RFK-匿名處理的數(shù)據(jù)相當(dāng)于直接對(duì)數(shù)據(jù)集進(jìn)行K-匿名處理。同時(shí),使用K-匿名算法直接對(duì)數(shù)據(jù)集進(jìn)行處理時(shí),由于屬性數(shù)量過多,滿足K-匿名條件的K值過大,屬性泛化程度更大,影響了數(shù)據(jù)的可用性,泛化后的數(shù)據(jù)用來機(jī)器學(xué)習(xí)預(yù)測的準(zhǔn)確率約等于只使用一半屬性進(jìn)行K-匿名處理后進(jìn)行預(yù)測的準(zhǔn)確率,嚴(yán)重影響了數(shù)據(jù)的可用性。

        3.4.2 信息損失度

        RFK-匿名與K-匿名算法的信息損失度如圖2 所示,其中E為閾值,Information Loss 為所有數(shù)值型數(shù)據(jù)和分類型數(shù)據(jù)的信息損失度之和。

        圖2 RFK-匿名算法與K-匿名算法信息損失度的比較Fig.2 Comparison of information loss between RFK-anonymity algorithm and K-anonymity algorithm

        從圖2(a)中可以看出:當(dāng)E為1、2 時(shí),使用K-匿名算法處理后的數(shù)據(jù)的信息損失度高于使用RFK-匿名處理的數(shù)據(jù);當(dāng)E為3、4 時(shí),使用RFK-匿名處理后的數(shù)據(jù)的信息損失度高于使用K-匿名算法處理后的數(shù)據(jù);當(dāng)E為5 時(shí),使用RFK-匿名算法處理的數(shù)據(jù)和使用K-匿名算法處理的數(shù)據(jù)的信息損失度相等。出現(xiàn)這一現(xiàn)象的原因是當(dāng)E為1、2 時(shí),RFK-匿名中的屬性數(shù)量少,K-匿名的條件容易達(dá)到;當(dāng)E為3、4 時(shí),屬性數(shù)量明顯增加,所以K-匿名的條件較難達(dá)到;當(dāng)E為5 時(shí),使用RFK-匿名處理的數(shù)據(jù)相當(dāng)于直接對(duì)數(shù)據(jù)集進(jìn)行K-匿名處理。

        從圖2(b)中可以看出,當(dāng)閾值E不斷增加時(shí),RFK-匿名算法的信息損失度不斷增加,但信息損失度一直低于K-匿名的信息損失度。這是因?yàn)殡S著E不斷增加,屬性的數(shù)量增加,滿足K-匿名條件的K值變大。對(duì)數(shù)據(jù)集直接進(jìn)行K-匿名處理時(shí),由于屬性數(shù)量過多,滿足K-匿名條件的K值過大,屬性泛化程度更大,影響了數(shù)據(jù)的可用性,數(shù)據(jù)的信息損失度高于使用RFK-匿名處理的信息損失度。

        (p,α,k)-匿名隱私保護(hù)算法作為一種很好的隱私保護(hù)方法,在保護(hù)了隱私的前提下提升了數(shù)據(jù)的可用性,但更適合于直接發(fā)布數(shù)據(jù),不適合應(yīng)用于機(jī)器學(xué)習(xí)。

        從圖3(a)中可以看出,使用(p,α,k)-匿名隱私保護(hù)算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率比較平穩(wěn),使用RFK-匿名算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率在閾值較低的情況下低于使用(p,α,k)-匿名隱私保護(hù)算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率;隨著可信度閾值不斷提升,使用RFK-匿名隱私保護(hù)算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率高于使用(p,α,k)-匿名隱私保護(hù)算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率。在Adult 數(shù)據(jù)集中,閾值E為4 時(shí)提高了0.4 個(gè)百分點(diǎn),閾值E為5 時(shí)提高了1.9 個(gè)百分點(diǎn)。這是由于隨著閾值E的不斷增加,RFK-匿名中的數(shù)據(jù)集屬性信息在不斷完善,使用(p,α,k)-匿名隱私保護(hù)算法處理的數(shù)據(jù)集用來機(jī)器學(xué)習(xí)由于屬性數(shù)量不夠會(huì)影響預(yù)測準(zhǔn)確率。

        圖3 RFK-匿名算法與(p,α,k)-匿名隱私保護(hù)算法的比較Fig.3 Comparison between RFK-anonymity algorithm and(p,α,k)-anonymity algorithm

        從圖3(b)中可以看出,使用RFK-匿名算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的信息損失度在閾值E為1,2 時(shí)低于使用(p,α,k)-匿名隱私保護(hù)算法處理過的數(shù)據(jù);隨著閾值不斷提升,使用RFK-匿名隱私保護(hù)算法處理過的數(shù)據(jù)的信息損失度高于使用(p,α,k)-匿名隱私保護(hù)算法處理過的數(shù)據(jù)。用戶可以根據(jù)自己的需求選擇閾值。

        3.4.3 實(shí)驗(yàn)小結(jié)

        RFK-匿名隱私保護(hù)算法使用RF 算法根據(jù)Adult 和Bank Marketing 數(shù)據(jù)集中所有屬性值預(yù)測標(biāo)簽值,并對(duì)每一個(gè)數(shù)據(jù)用其他剩余的屬性預(yù)測標(biāo)簽值,刪除這個(gè)屬性前后的預(yù)測值之差為屬性值對(duì)標(biāo)簽值的敏感程度,使用k-means 聚類算法根據(jù)標(biāo)簽值的敏感程度進(jìn)行聚類,分成5 個(gè)集群,并對(duì)這5 個(gè)集群的數(shù)據(jù)分別進(jìn)行K-匿名處理。實(shí)驗(yàn)結(jié)果表明:在Adult數(shù)據(jù)集中,第一敏感程度集群為capital-gain,第二敏感程度集群為age、capital-loss,第三敏感程度集群為workclass、occupation、hours-per-week、education-num,第四敏感程度集群為marital-status、relationship、native-country、fwlght、race,第五敏感程度集群為sex、education;在Bank Marketing 數(shù)據(jù)集中,第一敏感程度集群為poutcome,第二敏感程度集群為duration、day、contact,第三敏感程度集群為default、marital、age,第四敏 感程度 集群為balance、job、campaign、pdays、month、housing、previous、loan,第五敏 感程度 集群為education。通過圖2 可知,使用(p,α,k)-匿名隱私保護(hù)算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率比較平穩(wěn),使用RFK-匿名算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率在閾值較低的情況下低于使用(p,α,k)-匿名隱私保護(hù)算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率;而隨著可信度閾值不斷提升,使用RFK-匿名隱私保護(hù)算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率高于使用(p,α,k)-匿名隱私保護(hù)算法處理過的數(shù)據(jù)進(jìn)行預(yù)測的準(zhǔn)確率。用戶可以根據(jù)自己的需求選擇閾值,這樣可以在不影響數(shù)據(jù)的可用性的前提下保證數(shù)據(jù)隱私安全。

        4 結(jié)語

        本文首先利用隨機(jī)森林算法對(duì)Adult 數(shù)據(jù)集和Bank Marketing 數(shù)據(jù)集中的屬性進(jìn)行敏感程度預(yù)測,其次將不同敏感程度的屬性用k-means 算法進(jìn)行聚類,然后使用K-匿名算法將不同敏感程度集群的屬性進(jìn)行隱匿,在保護(hù)數(shù)據(jù)隱私安全的基礎(chǔ)上提高了數(shù)據(jù)的可用性。根據(jù)數(shù)據(jù)集中屬性的敏感程度不同,給屬性分成5 個(gè)聚類集群,將對(duì)不同集群的屬性分批次進(jìn)行K-匿名處理后,對(duì)數(shù)據(jù)集中的屬性進(jìn)行不同程度的隱匿可以在不影響數(shù)據(jù)的可用性的基礎(chǔ)上提高數(shù)據(jù)的安全性,使數(shù)據(jù)集更適合用于分類預(yù)測。

        猜你喜歡
        可用性集群準(zhǔn)確率
        基于文獻(xiàn)計(jì)量學(xué)的界面設(shè)計(jì)可用性中外對(duì)比研究
        包裝工程(2023年24期)2023-12-27 09:18:26
        基于輻射傳輸模型的GOCI晨昏時(shí)段數(shù)據(jù)的可用性分析
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        海上小型無人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        一種無人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
        電子制作(2018年11期)2018-08-04 03:25:40
        Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
        勤快又呆萌的集群機(jī)器人
        夜夜躁日日躁狠狠久久av| 蜜芽亚洲av无码精品色午夜| 尤物蜜芽福利国产污在线观看| 天堂а√在线中文在线新版| 91精品国产综合久久熟女| 男女干逼视频免费网站| 色94色欧美sute亚洲线路二| 成人精品一区二区三区电影| 男生自撸视频在线观看| 国产精品99精品一区二区三区∴ | 精品国产AⅤ一区二区三区4区| 人妻aⅴ中文字幕| 噜噜中文字幕一区二区| 国产精品人人爱一区二区白浆| 精品乱码卡1卡2卡3免费开放| 18禁黄污吃奶免费看网站| 三上悠亚亚洲精品一区| 亚洲av色香蕉一区二区蜜桃| 无码丰满少妇2在线观看| 人人做人人爽人人爱| 亚洲精品国产一区二区免费视频| 日韩在线手机专区av| 日韩A∨精品久久久久| 曰韩无码二三区中文字幕| 欧美高清精品一区二区| 成人综合激情自拍视频在线观看| 亚洲国产A∨无码影院| 双腿张开被9个男人调教| 亚洲国产一区二区三区精品| 女同另类激情在线三区| 无码AV高潮喷水无码专区线| 99国产精品久久久蜜芽| 亚洲免费国产中文字幕久久久 | 国产亚洲情侣一区二区无| 欧美老熟妇喷水| 久久99亚洲精品久久久久| 久久精品女同亚洲女同| 日韩精品一区二区三区视频| 亚洲AV无码一区二区三区精神| 国产亚洲精品看片在线观看| 亚洲五月天综合|