亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向混合型數(shù)據(jù)集自適應(yīng)聚類(lèi)的差分隱私保護(hù)算法

        2022-03-07 06:58:20張學(xué)典周圣英
        軟件導(dǎo)刊 2022年2期
        關(guān)鍵詞:可用性差分聚類(lèi)

        張學(xué)典,周圣英

        (上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)

        0 引言

        大數(shù)據(jù)時(shí)代,數(shù)據(jù)處理方式不斷優(yōu)化,數(shù)據(jù)處理量迎來(lái)了井噴式增長(zhǎng)。越來(lái)越多的研究機(jī)構(gòu)投入到這些數(shù)字資源研究分析中,通過(guò)合理的數(shù)據(jù)挖掘分析方式,獲得高價(jià)值度的有效信息,從而支持各行各業(yè)緊密融合發(fā)展,推動(dòng)實(shí)現(xiàn)企業(yè)、政府部門(mén)等組織的管理決策高效化。然而在提供巨大潛在利益的同時(shí),無(wú)差別地將個(gè)人數(shù)據(jù)暴露在公共視野中,將會(huì)對(duì)個(gè)人隱私安全造成相當(dāng)大的危害。因此,在合理使用用戶(hù)個(gè)人數(shù)據(jù)的同時(shí)應(yīng)該兼顧用戶(hù)隱私安全。但是,如何在保證大數(shù)據(jù)發(fā)布信息可用的同時(shí)又能做到保護(hù)隱私數(shù)據(jù)安全,已然是當(dāng)前數(shù)據(jù)發(fā)布隱私保護(hù)研究的熱點(diǎn)問(wèn)題。

        在數(shù)據(jù)發(fā)布中,敵手可以通過(guò)鏈接攻擊(敵手將獲取到的當(dāng)前發(fā)布的信息同通過(guò)其他渠道獲取到的外部相關(guān)信息進(jìn)行關(guān)聯(lián)對(duì)應(yīng),從而推理出用戶(hù)隱私數(shù)據(jù),這種攻擊手段能夠造成隱私泄露)獲取個(gè)體隱私數(shù)據(jù)。為了防范敵手通過(guò)鏈接攻擊造成隱私泄露問(wèn)題,k-匿名及其擴(kuò)展模型被提出,k-匿名算法旨在通過(guò)概括及隱私隱匿技術(shù),通過(guò)發(fā)布精度低的數(shù)據(jù),達(dá)到保護(hù)隱私數(shù)據(jù)的目的,k-anonymity 要求發(fā)布信息中的每條記錄至少同其他(k-1)條待發(fā)布記錄具有完全相同的標(biāo)識(shí)符屬性,從而達(dá)到減少鏈接攻擊所導(dǎo)致的隱私泄露目的。雖然k-匿名隱私保護(hù)模型已被證明能夠保證以下3 點(diǎn):①敵手無(wú)法知道某個(gè)用戶(hù)是否在公開(kāi)數(shù)據(jù)集中;②給定一個(gè)用戶(hù),敵手無(wú)法確認(rèn)該用戶(hù)是否有某項(xiàng)敏感信息;③敵手無(wú)法將數(shù)據(jù)與用戶(hù)一一對(duì)應(yīng)。但是,在面對(duì)敵手基于背景知識(shí)的攻擊時(shí),即使原始數(shù)據(jù)集中的敏感屬性并不相同,敵手依然能夠通過(guò)多次比較已掌握的相關(guān)背景信息高概率地獲取隱私信息;若經(jīng)過(guò)k-匿名處理后得到的數(shù)據(jù)組內(nèi)對(duì)應(yīng)敏感屬性值相同,則更易遭受敵手發(fā)起的同質(zhì)化攻擊進(jìn)而造成隱私泄露。

        2006 年,Dwork在處理統(tǒng)計(jì)數(shù)據(jù)庫(kù)的隱私泄露問(wèn)題時(shí)提出差分隱私(Difference Privacy,DP)的概念:差分隱私保護(hù)模型是一種建立在嚴(yán)格數(shù)學(xué)證明基礎(chǔ)上的數(shù)學(xué)模型,對(duì)隱私泄露風(fēng)險(xiǎn)做定量的形式化證明。該模型假設(shè)敵手采用最大程度的背景知識(shí)攻擊,通過(guò)對(duì)需要進(jìn)行隱私保護(hù)的真實(shí)數(shù)據(jù)添加隨機(jī)擾動(dòng)因子以提供隱私保護(hù),并保證這些經(jīng)過(guò)處理的數(shù)據(jù)仍具有較高可用性。這種方式較k-匿名隱私保護(hù)模型能夠提供更加安全的隱私保證。

        使用傳統(tǒng)差分隱私保護(hù)模型時(shí),會(huì)在原始數(shù)據(jù)集中添加大量噪聲,這將破壞數(shù)據(jù)可用性,繼而影響后續(xù)數(shù)據(jù)挖掘效果。研究指出,可以通過(guò)降低查詢(xún)敏感度、合理分配隱私預(yù)算提高差分隱私保護(hù)數(shù)據(jù)可用性。因此,如何設(shè)計(jì)合適的算法實(shí)現(xiàn)這一目標(biāo)將是本文考慮的主要問(wèn)題。傳統(tǒng)差分隱私發(fā)布算法大多針對(duì)單一屬性數(shù)據(jù),即數(shù)值型或分類(lèi)型數(shù)據(jù),而在實(shí)際應(yīng)用環(huán)境中,數(shù)據(jù)類(lèi)型都是混合屬性(包含數(shù)值型及分類(lèi)型數(shù)據(jù)),如醫(yī)療大數(shù)據(jù)、車(chē)輛信息大數(shù)據(jù)等。鑒于此,設(shè)計(jì)出滿(mǎn)足差分隱私要求的,同時(shí)保證處理后數(shù)據(jù)可用性的面向混合型數(shù)據(jù)集的差分隱私算法具有重要意義。

        1 相關(guān)概念及定義

        1.1 相關(guān)工作

        傳統(tǒng)聚類(lèi)算法是以某種方式對(duì)一組對(duì)象進(jìn)行分組,通過(guò)數(shù)據(jù)屬性間的差異度對(duì)數(shù)據(jù)集進(jìn)行分組處理,可以實(shí)現(xiàn)將單一個(gè)體泛化到整組數(shù)據(jù)中以降低查詢(xún)敏感度。在這種情況下,對(duì)于待差分隱私保護(hù)處理數(shù)據(jù),能夠有效降低差分隱私噪聲量,從而提高數(shù)據(jù)可用性。

        本文分析現(xiàn)有差分隱私保護(hù)算法優(yōu)缺點(diǎn),結(jié)合混合型數(shù)據(jù)集保護(hù)要求,通過(guò)改進(jìn)k-prototype算法及快速聚類(lèi)算法,提出一種適用于混合型數(shù)據(jù)集差分隱私保護(hù)的方法。雖然傳統(tǒng)的k-prototype算法能夠?qū)旌闲蛿?shù)據(jù)集進(jìn)行有效聚類(lèi),但由于沒(méi)有固定的初始聚類(lèi)中心選取方法,在一般情況下均采用隨機(jī)方法確定聚類(lèi)中心,會(huì)導(dǎo)致最終聚類(lèi)效果穩(wěn)定性差,進(jìn)而影響差分隱私噪聲添加,降低數(shù)據(jù)可用性。而快速聚類(lèi)算法通過(guò)樣本距離及密度衡量樣本間連接的緊密程度,但傳統(tǒng)快速聚類(lèi)往往對(duì)數(shù)值型數(shù)據(jù)集采用“決策圖”方法判定聚類(lèi)中心,混合型數(shù)據(jù)集相較于數(shù)值型數(shù)據(jù)集更為復(fù)雜,不可采用一般方法。結(jié)合上述傳統(tǒng)混合型數(shù)據(jù)聚類(lèi)方法所存在的問(wèn)題,本文提出了一種基于密度和距離自適應(yīng)選擇初始聚類(lèi)中心的差分隱私保護(hù)算法。通過(guò)計(jì)算混合型數(shù)據(jù)集中各樣本點(diǎn)的鄰域密度和相對(duì)距離(相異度),劃分出k個(gè)密度大且相對(duì)距離較遠(yuǎn)的樣本點(diǎn)作為初始聚類(lèi)中心,完成聚類(lèi);對(duì)生成的聚類(lèi)結(jié)果,計(jì)算得到其數(shù)值型聚類(lèi)中心,同時(shí)生成分類(lèi)型數(shù)據(jù)的屬性值集合;然后判斷每一條記錄的聚類(lèi)類(lèi)別,將其數(shù)值型屬性替換為聚類(lèi)中心并使用Laplace 方法添加噪聲,對(duì)分類(lèi)型屬性采用指數(shù)機(jī)制選擇輸出,從而得到經(jīng)過(guò)差分隱私保護(hù)的結(jié)果。本文所提出算法的評(píng)價(jià)指標(biāo)主要有3 項(xiàng):數(shù)據(jù)誤差率、規(guī)范化簇內(nèi)方差及制定隱私預(yù)算下的隱私保護(hù)程度。

        1.2 差分隱私基本定義

        傳統(tǒng)隱私保護(hù)技術(shù)在面對(duì)攻擊者結(jié)合相關(guān)背景知識(shí)進(jìn)行攻擊時(shí),存在較大安全隱患,而差分隱私保護(hù)通過(guò)嚴(yán)格的數(shù)學(xué)方法克服了這一缺陷。該過(guò)程是通過(guò)向真實(shí)數(shù)據(jù)集添加隨機(jī)擾動(dòng)因素而實(shí)現(xiàn),此外要求保證數(shù)據(jù)在添加干擾因素后仍然具有較高的可用性,以確保在任一經(jīng)過(guò)差分隱私保護(hù)處理的數(shù)據(jù)集中進(jìn)行查詢(xún)操作而不影響結(jié)果,進(jìn)而實(shí)現(xiàn)隱私保護(hù)。

        定義1

        ε

        -差分隱私)設(shè)有隨機(jī)查詢(xún)算法

        M

        ,以及任意兩相鄰數(shù)據(jù)集

        D

        D

        (有且僅有一條記錄相異),若算法

        M

        對(duì)

        D

        D

        的任意輸出

        S

        ?

        Ran

        ge(

        M

        )滿(mǎn)足:

        則稱(chēng)算法

        M

        能夠?yàn)閿?shù)據(jù)集提供

        ε

        -差分隱私保護(hù),參數(shù)

        ε

        稱(chēng)為隱私保護(hù)預(yù)算,算法

        M

        的隱私保護(hù)強(qiáng)度可以通過(guò)

        ε

        進(jìn)行衡量,

        ε

        越小隱私保護(hù)程度越高;反之

        ε

        越大,則表明隱私保護(hù)程度越低。

        定義2

        (全局敏感度)設(shè)有一個(gè)查詢(xún)函數(shù)

        f

        :

        D

        D

        ,對(duì)于參與其中的任意兩相鄰數(shù)據(jù)集

        D

        D

        ,函數(shù)

        f

        的全局敏感度定義為:

        函數(shù)

        f

        是在兩個(gè)數(shù)據(jù)集上分別執(zhí)行,其中

        ||f

        (

        D

        )-

        f

        (

        D

        )

        ||

        表示向量元素絕對(duì)值之和,即1-階范數(shù)距離。

        差分隱私保護(hù)主要通過(guò)向原數(shù)據(jù)集添加擾動(dòng)噪聲而實(shí)現(xiàn),而在實(shí)際應(yīng)用中,常見(jiàn)的噪聲添加機(jī)制主要有Laplace 機(jī)制和指數(shù)機(jī)制。其中,Laplace 機(jī)制針對(duì)數(shù)值型數(shù)據(jù)進(jìn)行隨機(jī)擾動(dòng)處理,添加的擾動(dòng)因子符合正態(tài)分布,而指數(shù)機(jī)制則主要處理非數(shù)值型數(shù)據(jù)的擾動(dòng)。全局敏感度和差分隱私預(yù)算共同影響噪聲機(jī)制。

        定理1

        (Laplace 機(jī)制)對(duì)于已有數(shù)據(jù)集

        D

        ,設(shè)有一查詢(xún)函數(shù)

        f

        :

        D

        D′

        ,其全局敏感度為

        Δf

        ,如果算法K 滿(mǎn)足:

        則算法

        K

        提供

        ε

        -差分隱私保護(hù)。

        定理2

        (指數(shù)機(jī)制)對(duì)于任意一個(gè)給定的可用性函數(shù)

        μ

        (

        D

        ,

        r

        ) →

        R

        ,若存在算法

        M

        滿(mǎn)足:

        除上述基本性質(zhì)及定理外,差分隱私還存在以下組合性質(zhì),這些性質(zhì)能夠保證將差分隱私保護(hù)運(yùn)用到反復(fù)迭代過(guò)程中,結(jié)果始終滿(mǎn)足差分隱私。同時(shí),以下性質(zhì)也是實(shí)現(xiàn)合理分配差分隱私預(yù)算的基礎(chǔ)。

        定義4

        (并行組合性)同樣在給定數(shù)據(jù)集

        D

        上,若存在隨機(jī)算法

        A

        ,能夠提供

        ε

        -差分隱私保護(hù),則將數(shù)據(jù)集

        D

        劃分為互不相交的子集{

        D

        ,

        D

        ,…,

        D

        },則算法

        A

        在{

        D

        ,

        D

        ,…,

        D

        }上的并行操作所構(gòu)成的算法也提供

        ε

        -差分隱私保護(hù)。

        2 面向混合型數(shù)據(jù)集的差分隱私保護(hù)算法

        2.1 樣本相異度及鄰域密度計(jì)算

        混合型數(shù)據(jù)集包含數(shù)值型屬性及分類(lèi)型屬性,因此對(duì)于不同數(shù)據(jù)類(lèi)型需要采用不同的差異性度量方法。本文對(duì)數(shù)值型數(shù)據(jù)采用閔可夫斯基距離計(jì)算方法,對(duì)于給定的表示為

        x

        =(

        x

        ,

        x

        ,…,

        x

        )∈

        R

        x

        =(

        x

        ,

        x

        ,…,

        x

        )∈

        R

        的樣本,其中

        n

        表示維度,則樣本間距離可定義為:

        其中,

        p

        是閔可夫斯基距離的階,本文取

        p

        =1,即樣本間距離公式為:

        而對(duì)于分類(lèi)型屬性不能采用常規(guī)的距離計(jì)算方法,故本文采用簡(jiǎn)單匹配距離衡量分類(lèi)型數(shù)據(jù)的相異度,簡(jiǎn)單匹配距離越大則表示樣本間相異性越高。對(duì)于給定的表示為

        x

        =(

        x

        ,

        x

        ,…,

        x

        )∈

        R

        x

        =(

        x

        ,

        x

        ,…,

        x

        )∈

        R

        的樣本,其中

        n

        表示維度,對(duì)于

        x

        x

        的某一分類(lèi)型屬性

        x

        x

        ,定義函數(shù):

        樣本間的簡(jiǎn)單匹配距離為:

        綜上所述,對(duì)于一個(gè)混合型數(shù)據(jù)集

        X

        ={

        x

        ,

        x

        ,…,

        x

        },每個(gè)樣本

        x

        (

        i

        =1,2,…,

        n

        )都有

        p

        個(gè)屬性,以

        a

        ,

        a

        ,…,

        a

        ,

        a

        ,…,

        a

        表示屬性,其中

        a

        ,

        a

        ,…,

        a

        為數(shù)值型,

        a

        ,…,

        a

        為分類(lèi)型。隨機(jī)選擇初始聚類(lèi)中心

        C

        ={

        c

        ,

        c

        ,…,

        c

        },則樣本與聚類(lèi)中心的相異度為:

        其中,

        γ

        為分類(lèi)型屬性對(duì)于相異度判斷影響所設(shè)權(quán)重。

        由傳統(tǒng)k-prototype 定義可知,對(duì)于簇中樣本需要確定代價(jià)損失函數(shù)確定各變量與聚類(lèi)中心的距離,定義如下:

        其中,

        U

        是維度為

        n

        ×

        k

        取值為{0,1}的關(guān)聯(lián)度矩陣,有:

        即表示

        x

        是否屬于第

        j

        個(gè)簇,若屬于則

        U

        =1,否則為0。而在執(zhí)行聚類(lèi)迭代過(guò)程中,聚類(lèi)中心可能會(huì)不斷發(fā)生變化,因此對(duì)于聚類(lèi)中心的第

        q

        個(gè)數(shù)值型屬性

        c

        有:

        同理,對(duì)于聚類(lèi)中心的第

        q

        個(gè)分類(lèi)型屬性

        c

        ,則取數(shù)據(jù)集所有樣本中,按關(guān)聯(lián)度加權(quán)后,值頻率最高的值,即隸屬于該簇的所有樣本第

        q

        個(gè)分類(lèi)型屬性出現(xiàn)頻率最高的值:

        數(shù)據(jù)集

        X

        ={

        x

        ,

        x

        ,…,

        x

        }中任意兩個(gè)樣本

        x

        、

        x

        間的平均距離定義為:

        數(shù)據(jù)集

        X

        ={

        x

        ,

        x

        ,…,

        x

        }中任意樣本的鄰域密度

        ρ

        為:

        其中,

        e

        (

        x

        ,

        x

        ,

        ρ

        )為核密度函數(shù),其定義為:

        2.2 基于密度和距離自適應(yīng)的聚類(lèi)中心選擇

        綜上所述,對(duì)于混合型數(shù)據(jù)集聚類(lèi)流程描述如下:

        Step1:對(duì)于初始混合型數(shù)據(jù)集的每一條樣本計(jì)算其鄰域密度

        ρ

        ;Step2:通過(guò)遍歷按密度降序排列

        C

        ={

        C

        ,

        C

        ,…,

        C

        },定義集合

        M

        ,將排序后鄰域密度最大的樣本

        C

        加入到集合

        M

        中;Step3:繼續(xù)迭代

        C

        ,若集合

        C

        中存在滿(mǎn)足對(duì)于任意

        M

        M

        都有

        dist

        (

        C

        ,

        M

        )>

        L

        ,則將

        C

        添加到集合

        M

        中,直至迭代完集合

        C

        中的所有元素,則集合

        M

        中所有元素即為初始聚類(lèi)中心,此時(shí)簇?cái)?shù)為|M|;Step4:根據(jù)相異度公式計(jì)算原始數(shù)據(jù)集中的每一個(gè)樣本

        x

        與|M|個(gè)聚類(lèi)中心的

        dist

        (

        x

        ,

        c

        ),將

        x

        劃分到

        Min

        (

        dist

        (

        x

        ,

        c

        ))的簇中;

        Step5:計(jì)算樣本與聚類(lèi)中心間的關(guān)聯(lián)度矩陣;

        Step6:重新計(jì)算每個(gè)簇的聚類(lèi)中心(數(shù)值型屬性按照式(12)計(jì)算,分類(lèi)型屬性按照式(13)計(jì)算);

        Step7:根據(jù)計(jì)算出來(lái)的聚類(lèi)中心,判斷原簇中數(shù)據(jù)是否發(fā)生變化,若無(wú)變化,聚類(lèi)結(jié)束,得到聚類(lèi)后的數(shù)據(jù)集,否則返回Step3;

        Step8:判斷是否達(dá)到最大迭代次數(shù),若達(dá)到結(jié)束聚類(lèi),否則依舊返回Step3。

        2.3 聚類(lèi)結(jié)果差分隱私保護(hù)

        對(duì)經(jīng)過(guò)聚類(lèi)操作的數(shù)據(jù)集進(jìn)行添加噪聲處理,采用Laplace 機(jī)制對(duì)聚類(lèi)中心的數(shù)值型屬性添加噪聲,即:

        而對(duì)于聚類(lèi)中心的分類(lèi)型屬性,使用Laplace 機(jī)制添加噪聲沒(méi)有意義,由于分類(lèi)型屬性的構(gòu)成是從有限集中選取,因此通過(guò)差分隱私的指數(shù)機(jī)制,以一定概率選擇輸出,故根據(jù)式(4)可得:

        完整算法描述如下:

        Input

        :混合型數(shù)據(jù)集

        X

        ,數(shù)據(jù)維度d,迭代次數(shù)t,初始聚類(lèi)中心點(diǎn)集M,隱私預(yù)算

        ε

        ,聚類(lèi)簇?cái)?shù)目

        n

        ,數(shù)值型屬性數(shù)目

        p

        ,分類(lèi)型屬性數(shù)目

        d

        -

        p

        3 實(shí)驗(yàn)分析

        3.1 數(shù)據(jù)集處理

        實(shí)驗(yàn)中所需的混合型數(shù)據(jù)集選用在隱私保護(hù)領(lǐng)域廣泛應(yīng)用的UCI(University of California)Machine Learning Reposity中的Adult數(shù)據(jù)集,在處理其無(wú)效內(nèi)容及空屬性記錄后,共有30 162條備用記錄。本文在考慮數(shù)據(jù)集本身所具有的異構(gòu)屬性類(lèi)型數(shù)據(jù)后,選擇其中8項(xiàng)作為評(píng)估數(shù)據(jù)集進(jìn)行處理,包括數(shù)值型屬性:age、hours-per-week 和分類(lèi)型屬性:workclass、education、occupation、race、sex、native-country。

        差分隱私對(duì)于混合型數(shù)據(jù)集的數(shù)據(jù)可用性是通過(guò)聚類(lèi)中心替換簇內(nèi)樣本記錄并添加對(duì)應(yīng)噪聲所產(chǎn)生的信息缺失加以定量。而信息缺失可以通過(guò)樣本與聚類(lèi)中心的距離進(jìn)行量化,即通過(guò)式(10)的誤差平方和加以衡量。

        在保證數(shù)據(jù)可用性的同時(shí),需要對(duì)差分隱私保護(hù)前本文算法對(duì)于數(shù)據(jù)集的聚類(lèi)性能進(jìn)行評(píng)估,考慮使用規(guī)范化簇內(nèi)方差(

        N

        ormalized Intracluster Variance,NICV)衡量,但是傳統(tǒng)計(jì)算方法只針對(duì)數(shù)值型數(shù)據(jù)集有效,而對(duì)于混合型數(shù)據(jù)集聚類(lèi)后的簇內(nèi)方差計(jì)算需要進(jìn)行合理推廣,其計(jì)算公式如下:

        其中,

        C

        是簇的聚類(lèi)中心,

        x

        (

        a

        )表示樣本

        x

        的數(shù)值型屬性值,

        N

        為簇內(nèi)樣本總量,

        p

        表示樣本數(shù)值型屬性個(gè)數(shù),

        q

        表示樣本分類(lèi)型屬性個(gè)數(shù),Pr(

        x

        (

        a

        ))表示選中

        x

        (

        a

        )的概率。

        3.2 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)過(guò)程中,將數(shù)據(jù)集分別在本文提出算法與傳統(tǒng)DPk-means算法以及MDAV算法上運(yùn)行。傳統(tǒng)DPkmeans算法在處理混合型數(shù)據(jù)集時(shí)沒(méi)有任何分類(lèi)操作,對(duì)每一條記錄的每一項(xiàng)屬性不加區(qū)分地進(jìn)行差分隱私保護(hù)處理;MDAV算法通過(guò)微聚類(lèi)方式再結(jié)合差分隱私保護(hù)進(jìn)行數(shù)據(jù)發(fā)布。

        對(duì)Adult 數(shù)據(jù)集作預(yù)處理,將其分類(lèi)型屬性取值歸一化處理到{0,1}上,將隱私保護(hù)預(yù)算

        ε

        的值從0 提高到1.0。圖1 展示了在數(shù)據(jù)集上執(zhí)行3 種算法得到的數(shù)據(jù)誤差率,圖2則是NICV 值的比較,圖3 是在固定隱私保護(hù)預(yù)算

        ε

        下,通過(guò)調(diào)節(jié)簇個(gè)數(shù)探究本文算法對(duì)于隱私信息的保護(hù)程度。

        Fig.1 Data error rate of data set under different algorithms圖1 數(shù)據(jù)集在不同算法下的數(shù)據(jù)誤差率

        Fig.2 Comparison of NICV values圖2 NICV 值比較

        Fig.3 Privacy protection degree of the proposed algorithm when ε= 0.4圖3 ε= 0.4 時(shí)本文算法隱私保護(hù)程度

        如圖1 所示,在相同

        ε

        下,本文提出的差分隱私發(fā)布算法具有更低的誤差,且隨著

        ε

        增加,誤差保持相對(duì)穩(wěn)定。因此,經(jīng)過(guò)本文差分隱私發(fā)布算法處理的數(shù)據(jù)更接近原始數(shù)據(jù),在數(shù)據(jù)挖掘中具有實(shí)際應(yīng)用價(jià)值。由圖2 可以明顯看出,本文提出的發(fā)布算法在NICV 值上明顯小于其他兩種算法,并且隨著

        ε

        的變化趨于穩(wěn)定,說(shuō)明本文算法的聚類(lèi)效果在處理混合型數(shù)據(jù)集時(shí)具有明顯優(yōu)勢(shì)。從圖3 可以看出,隨著發(fā)布數(shù)據(jù)初始聚類(lèi)簇?cái)?shù)的增加,原數(shù)據(jù)集的隱私保護(hù)效果逐漸提升,然而在實(shí)際實(shí)驗(yàn)中,隨著簇?cái)?shù)增加,算法運(yùn)行時(shí)間明顯變長(zhǎng)。這是因?yàn)榇財(cái)?shù)增加,聚類(lèi)中心的選擇變多,需要向更多簇添加不同的差分隱私保護(hù),從而增加了運(yùn)行時(shí)間。在未來(lái)研究中,將著重降低簇?cái)?shù)提升算法時(shí)間復(fù)雜度。

        4 結(jié)語(yǔ)

        本文提出的面向混合型數(shù)據(jù)集的自適應(yīng)聚類(lèi)差分隱私保護(hù)算法,通過(guò)結(jié)合快速聚類(lèi)算法、k-prototype 聚類(lèi)算法的特性,能夠基于密度和距離,自適應(yīng)確定初始聚類(lèi)中心,對(duì)于分類(lèi)型屬性和數(shù)值型屬性進(jìn)行差別處理,使其滿(mǎn)足聚類(lèi)要求,反復(fù)迭代完成混合型數(shù)據(jù)集的自適應(yīng)聚類(lèi),再向聚類(lèi)后的簇中心加入對(duì)應(yīng)擾動(dòng)因子以滿(mǎn)足差分隱私要求;在實(shí)現(xiàn)聚類(lèi)高效處理的同時(shí)又能不過(guò)度降低數(shù)據(jù)有效性,從而達(dá)到保護(hù)隱私數(shù)據(jù)的目的。在此基礎(chǔ)上,通過(guò)探究在實(shí)驗(yàn)數(shù)據(jù)集下初始簇個(gè)數(shù)變化,尋找數(shù)據(jù)可用性和隱私披露之間的平衡點(diǎn),證明確實(shí)適用于混合數(shù)據(jù)集的差分隱私保護(hù)。

        猜你喜歡
        可用性差分聚類(lèi)
        基于文獻(xiàn)計(jì)量學(xué)的界面設(shè)計(jì)可用性中外對(duì)比研究
        包裝工程(2023年24期)2023-12-27 09:18:26
        數(shù)列與差分
        基于輻射傳輸模型的GOCI晨昏時(shí)段數(shù)據(jù)的可用性分析
        基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
        基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
        空客A320模擬機(jī)FD1+2可用性的討論
        河南科技(2015年7期)2015-03-11 16:23:13
        基于差分隱私的大數(shù)據(jù)隱私保護(hù)
        一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
        相對(duì)差分單項(xiàng)測(cè)距△DOR
        太空探索(2014年1期)2014-07-10 13:41:50
        黔西南州烤煙化學(xué)成分可用性評(píng)價(jià)
        作物研究(2014年6期)2014-03-01 03:39:04
        欧美日韩精品一区二区在线观看| 亚洲一区二区三区熟妇| 国产精品久久久在线看| 色综合av综合无码综合网站| 最新国产激情视频在线观看| 在线观看麻豆精品视频| 久久亚洲精品中文字幕 | 国产在线观看女主播户外| 精品人妻一区二区三区狼人| 暖暖 免费 高清 日本 在线| 欧美私人情侣网站| 午夜精品久久久久久| 国产精品亚洲一区二区杨幂| 久久久国产精品ⅤA麻豆百度 | 国产精品美女久久久久av超清| 久久aⅴ人妻少妇嫩草影院| 国产剧情福利AV一区二区| 国产精品日本一区二区三区| 不卡一区二区视频日本| 欧美性受xxxx白人性爽| 高清无码精品一区二区三区| 一区两区三区视频在线观看| 久久久久av综合网成人| 麻豆一区二区99久久久久| 午夜一级韩国欧美日本国产| 亚洲成a人片在线播放观看国产 | 一区二区黄色素人黄色| 久久婷婷五月综合色高清| 亚洲五月天综合| 高h视频在线免费观看| 国产精品国产传播国产三级| 欧美丰满熟妇bbb久久久| 性夜影院爽黄a爽在线看香蕉 | 色综合久久网| 中国老熟女重囗味hdxx| 国产精品国产成人国产三级| 午夜短视频日韩免费| 亚洲av日韩av天堂久久不卡 | 国产精品51麻豆cm传媒| 日本丰满妇人成熟免费中文字幕| 亚洲av色香蕉一区二区三区软件|