亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        差分隱私K-means聚類算法改進

        2024-01-01 00:00:00郭如敏陳學斌單麗洋
        哈爾濱理工大學學報 2024年4期
        關(guān)鍵詞:means聚類聚類算法

        摘 要:針對差分隱私K-means聚類算法中心點選取的盲目性以及隱私預算分配不合理導致聚類效果差的問題,對差分隱私K-means算法進行改進。依據(jù)初始中心點選取的兩個原則,設計一種新的中心點選取方案。依據(jù)原始K-means算法中質(zhì)心與差分隱私K-means算法中質(zhì)心的均方差,計算每一次迭代需要的隱私預算的最小值,與二分法結(jié)合,建立了一種新的隱私預算分配方案。通過在3個不同特征數(shù)據(jù)集上的對比實驗,改進后的算法F-measure值提升14%,不僅降低了添加噪聲對聚類效果的影響,而且保證了聚類效果的可用性。

        關(guān)鍵詞:隱私保護技術(shù);K-means聚類;聚類算法

        DOI:10.15938/j.jhust.2024.04.003

        中圖分類號: TP309.2

        文獻標志碼: A

        文章編號: 1007-2683(2024)04-0021-08

        Improvement of Differential Privacy K-means Clustering Algorithm

        GUO Rumin1, CHEN Xuebin2, SHAN Liyang3

        (1.School of Science, North China University of Technology, Tangshan 063210,China;

        2.Hebei Provincial Key Laboratory of Data Science and Application, Tangshan 063210, China;

        3.Tangshan Data Science Key Laboratory, Tangshan 063210,China)

        Abstract:In order to address the issues of arbitrary center selection and unreasonable privacy budget allocation leading to poor clustering performance in differential privacy K-means clustering algorithm, a new center selection scheme is designed based on two principles for initial center selection. By calculating the minimum privacy budget required for each iteration based on the mean square error between centroids in the original K-means algorithm and the ones in the differential privacy K-means algorithm, a new privacy budget allocation scheme is established in combination with binary search. Comparative experiments on three different feature datasets are conducted to evaluate the improved algorithm. The improved algorithm achieves a 14% increase in F-measure value, not only reducing the impact of added noise on clustering performance but also ensuring the usability of clustering results.

        Keywords:privacy preserving techniques; K-means clustering; clustering algorithms

        0 引 言

        隨著互聯(lián)網(wǎng)的不斷發(fā)展,各種設備、傳感器和應用程序的普及,大量數(shù)據(jù)以爆炸式的速度增長。這些數(shù)據(jù)中包含著豐富的信息和價值,如何從中提取有用的信息,成為人們亟待解決的問題。數(shù)據(jù)挖掘技術(shù)應運而生,成為了解決這一問題的有效方法。數(shù)據(jù)挖掘技術(shù)中有許多常用的聚類算法,其中K-means算法簡單易用,且具有高效的計算速度和良好的可擴展性,因此得到了廣泛應用。然而,在應用K-means算法時,需要考慮隱私保護的問題,因為數(shù)據(jù)中可能包含敏感信息,例如個人身份信息、醫(yī)療記錄等。傳統(tǒng)K-means算法,數(shù)據(jù)是明文傳輸,容易被惡意攻擊者竊取和分析,從而危及個人隱私。因此,對于解決數(shù)據(jù)隱私泄露問題而進行隱私保護數(shù)據(jù)挖掘的研究具有重要現(xiàn)實意義[1-2。

        由于差分隱私的各項優(yōu)勢,研究者們將其應用在數(shù)據(jù)挖掘領(lǐng)域,以保證算法或數(shù)據(jù)的隱私性。差分隱私K-means算法作為一種基于差分隱私技術(shù)的隱私保護數(shù)據(jù)挖掘模型,因簡單高效且可保障數(shù)據(jù)的隱私而備受研究者的關(guān)注[3。然而,現(xiàn)有的差分隱私K-means算法存在一些問題,例如噪聲過大、聚類效果不佳等問題。因此,在差分隱私K-means算法的研究與應用中,需要考慮如何在提高聚類隱私性的同時保證數(shù)據(jù)的可用性。

        本文提出一種改進K-means聚類算法,旨在解決現(xiàn)有算法中存在的問題。該算法引入了新的隱私預算分配方案,并通過改變聚類中心選擇的方式來改善聚類效果。通過實驗驗證改進算法的效果,并與傳統(tǒng)K-means算法和現(xiàn)有差分隱私K-means算法進行比較。實驗結(jié)果表明,改進算法不僅保護了數(shù)據(jù)隱私的安全,還改善了聚類效果。

        1 相關(guān)工作

        近年來,隨著數(shù)據(jù)規(guī)模的不斷擴大,聚類算法在數(shù)據(jù)挖掘領(lǐng)域中的應用越來越廣泛。隱私泄露問題也愈發(fā)嚴重。為解決這個問題,眾多學者對K-means算法的隱私保護進行了改進,并將改進后的算法應用到一些領(lǐng)域[3-5。目前主要的兩種典型的隱私保護方法有兩種,一是基于安全多方計算的隱私保護K-means聚類算法[6-10為保護各個用戶隱私,安全多方計算雖然在一定程度保護了用戶的隱私,但是參與方需要承擔較高的計算和通信成本,最終聚類結(jié)果也有受到推理攻擊的風險。另一種是基于差分隱私的隱私保護K-means聚類方法[11-14。差分隱私因其可以有效抵御強大的背景知識攻擊,而被廣泛應用于解決數(shù)據(jù)發(fā)布中的隱私保護問題。但與此同時,也存在加入的噪聲過大,聚類效果差等問題。

        眾多學者針對初始聚類中心的選取對聚類算法做了改進。胡嘯等[15針對K-means聚類算法對初始聚類中心選擇的依賴性問題,提出了一種基于獅群優(yōu)化的改進算法。通過利用獅群優(yōu)化算法的快速收斂性和全局最優(yōu)解獲取能力,該算法迭代更新獅王位置并將其作為最優(yōu)解的聚類中心。陶永輝等[16先計算所有數(shù)據(jù)中兩點間的歐氏距離,選擇最小距離的一點作為初始聚類中心,然后在剩余數(shù)據(jù)中選擇遠離該點的數(shù)據(jù)點作為下一個初始聚類中心,直至找到所需的初始聚類中心,使用K-means聚類算法迭代更新,達到最大迭代次數(shù)時停止。唐東凱等[17提出了一種優(yōu)化初始聚類中心的改進K-means算法,首先計算數(shù)據(jù)集中每個對象的離群因子,并按照離群因子升序排列。然后引入取樣因子,得到候選初始中心點集。最后,根據(jù)最大最小距離思想,從候選初始中心點集中選擇k個數(shù)據(jù)對象作為初始聚類中心。楊明極等18提出一種基于螢火蟲智能優(yōu)化和混沌理論的FCMM算法,利用最大最小距離算法確定聚類類別值K和初始聚類中心位置,并通過混沌搜索更新聚類中心,以降低初始聚類中心過于臨近的影響,改善算法易陷入局部最優(yōu)的問題。黃保華等[19提出了利用距離與簇內(nèi)誤差平方和的方法選取合理的初始中心點進行聚類。Ren等[20通過多次重復執(zhí)行DPK-means(differential privacy K-means)算法從而找到相對較優(yōu)的初始中心點,來提升聚類效果。Xiong等[21從數(shù)據(jù)密度角度進行考慮,將平均值作為初始中心點,通過密度檢測提出異常點,提高聚類效果。馬文博等22提出一種基于差分隱私保護的二分K-means聚類算法,有效避免聚類效果陷入最優(yōu)的問題。

        然而,盡管初始聚類中心點的選取對聚類效果起著很重要的作用,但是也有許多研究者考慮從隱私預算分配方面來對聚類算法進行改進。Fu等[23從中心點選取和迭代更新中心點兩個方面考慮了隱私預算分配,證明了前期迭代受隱私預算分配的影響更大。黃保華等[24提出一種結(jié)合三分法和等差數(shù)列的隱私預算分配方案。該方法前期使用三分法分配較大的預算,而在后期使用等差遞減的方式,提高差分隱私K-means聚類算法的可用性。Zhang等[25提出了DP-IMKP,方法通過互信息和屬性關(guān)聯(lián)關(guān)系,量化用戶屬性重要程度,匹配相應隱私保護程度。結(jié)合最優(yōu)匹配理論分配隱私預算,改進k-prototype算法用于差分隱私保護聚類,提高了數(shù)據(jù)可用性并降低了數(shù)據(jù)泄露風險。Fan等[26提出了一種隱私預算分配方案,即采用等差數(shù)列對隱私預算進行分配,這樣前期分配到的隱私預算較大,保證了聚類結(jié)果的可用性。Su等[27通過使用均方差的方法計算出K-means算法每次迭代過程中所需要的最小隱私預算,從而不會使初始中心點因加入噪聲過大而導致聚類效果變差。Mo等[28提出根據(jù)距離進行隱私預算分配,并且設計了一個評估函數(shù)用來評價算法的可用性以及隱私性。

        2 定義與理論基礎(chǔ)

        2.1 差分隱私

        差分隱私技術(shù)的主要思想是,當對一個數(shù)據(jù)集D執(zhí)行查詢操作時,輸出結(jié)果為f(D)。當對數(shù)據(jù)集D添加或者刪除一條數(shù)據(jù)時,再次查詢后得到的結(jié)果仍為f(D)。這就保證了無論其中一條數(shù)據(jù)是否在數(shù)據(jù)集中,對于查詢輸出的結(jié)果沒有任何影響,因此攻擊者就無法竊取用戶的真實數(shù)據(jù)。差分隱私定義如下:

        定義1 差分隱私[29"假設一隨機算法M作用在任意兩個相鄰數(shù)據(jù)集D和D′上,所有可能輸出的集合為PM,而SM為PM的任意子集,如果算法M滿足下列不等式,則稱隨機算法M滿足ε-差分隱私。

        Pr(M(D)∈SM)≤exp(ε)Pr(M(D′)∈SM)(1)

        其中:Pr[·]由算法的隨機性控制,表示隱私泄露的風險。ε為隱私預算,ε越小,算法M的隱私保護程度越高[29。

        定義2 Laplace機制。Laplace機制是針對數(shù)值型查詢結(jié)果提供ε-差分隱私保護。對于給定數(shù)據(jù)集D,設有函數(shù)f∶D→Rd,敏感度為Δf,假設隨機算法M提供ε-差分隱私保護,那么其響應輸出M(D)為

        M(D)=f(D)+Y(2)

        其中:f(D)為用戶查詢的真實結(jié)果;Y為真實查詢結(jié)果添加的可控噪聲,服從尺度參數(shù)為Δf/ε的Laplace分布的隨機噪聲。

        2.2 差分隱私K-MEANS算法

        在K-means聚類算法中,每一次的迭代更新都可能造成隱私泄露。當攻擊者知道發(fā)布的更新后的質(zhì)心以及攻擊目標所在簇的其他樣本點的坐標,就會計算出攻擊目標的坐標,從而造成隱私泄露。

        差分隱私K-means聚類算法通過引入噪聲來解決K-means中隱私泄露的問題。差分隱私K-means聚類算法主要分為以下幾步:

        1)從樣本數(shù)據(jù)中隨機選取k個點作為初始中心。

        2)計算數(shù)據(jù)集中其他樣本點距k個初始中心點的距離,將其劃分到距離最近的簇中。

        3)分別對每一個簇中數(shù)據(jù)點到中心點距離和以及簇中數(shù)據(jù)點的個數(shù)加入適量的噪聲,用噪聲處理過的簇中樣本點到中心點距離的和除以簇中數(shù)據(jù)點的個數(shù),更新簇的中心點。

        4)重復步驟2)和3),直到迭代次數(shù)達到上限。

        3 PREDPK-means算法基本思想

        本文針對差分隱私K-means聚類算法中存在的初始中心點選取問題提出了一種改進算法PREK-means(precede K-means)。并在PREK-means算法的基礎(chǔ)上對其進行隱私保護,設計了一種隱私預算分配方案并提出了PREDPK-means(precede differential privacy K-means)算法。

        3.1 PREK-means算法

        在聚類算法中,初始中心點選取的好壞嚴重影響聚類效果的好壞。本文對于差分隱私K-means隨機選取中心點而造成聚類效果不理想的情況,提出了PREK-means算法。該算法主要從樣本點所處位置的數(shù)據(jù)密集程度以及選取的中心點之間的距離兩個方面考慮初始中心點的選取。通過計算與樣本點距離小于平均距離d-的其他樣本點個數(shù)來衡量該樣本點所處位置的數(shù)據(jù)密集程度,以及通過計算某樣本點與已選取的中心點的距離是否大于2d-來決定該樣本點是否作為下一個初始中心點。

        計算數(shù)據(jù)集中任意兩個樣本點的平均距離d-計算出距離每個樣本點小于平均距離d-的樣本點個數(shù),記為該樣本點的密度,根據(jù)密度對數(shù)據(jù)集中樣本點進行降序排序表示為Q={q1,…,qn}選取點q1作為第一個初始中心點,并加入初始中心點集合C中。若集合Q中的樣本點qi對于任意ci∈C中的距離大于2d-,那么就將qi放入集合C中。直到選取k個初始中心。數(shù)據(jù)集中任意兩個樣本點的平均距離d-的定義為

        d-=1n(n-2)∑n-1i=1∑nj=i+1dist(xi,xj)(3)

        方案分為以下幾步:

        1)計算數(shù)據(jù)集中任意兩個樣本點之間的歐式距離d。

        2)根據(jù)式(3)計算數(shù)據(jù)集中樣本點的平均距離d-,并確定每個樣本點周圍距離小于2d-的其他樣本點個數(shù),記為該樣本點的密度。

        3)根據(jù)樣本點的密度對其進行降序排序,得到排序后的集合為Q={q1,…,qn}。

        4)選取密度最大的q1作為第一個初始中心點,加入初始中點集合C中。

        5)依次取出集合Q中的元素,判斷其對于任意的ci∈C都有dist(xi,xj)gt;2d-,如果是則將該樣本點加入集合C中,作為下一個聚類中心。否則,繼續(xù)判斷Q中的下一個元素。

        6)判斷集合Q中的元素是否以及全部被訪問完畢,若是,則集合C中的元素就是該聚類的初始中心點,否則重復步驟5),直到全都訪問一遍,具體算法如下:

        算法1 PREK-means算法。

        輸入:數(shù)據(jù)集D,聚類個數(shù)k;

        輸出:聚類中心{c1,…,ck};

        1)根據(jù)式(3)計算數(shù)據(jù)集中任意兩個樣本點之間的距離;

        2)確定每個樣本點周圍距離小于2d-的其他樣本點個數(shù),記為該樣本點的密度,并將樣本點按照密度降序排序,得到排序后的集合Q;

        3)選取密度最大的樣本點作為第一個聚類中心c1,加入聚類中心集合C中;

        4)for i=2→k do # 選取其他聚類中心;

        5) for j=1→|Q|do # 遍歷排序后的集合Q;

        6)" if Q[j]在C中:

        7)"" continue #如果已經(jīng)是聚類中心,則跳過;

        8)" flag=true #標記是否滿足條件;

        9)" for c in C: # 判斷是否滿足條件;

        10)"" if D[Q[j],c]lt;L # 如果存在距離大于2d-的聚類中心,則不滿足條件;

        11)""" flag = 1;

        12)""" break;

        13)" "if flag: #如果滿足條件,則將該樣本點加入聚類中心集合 C 中;

        14)"" C.add(Q[j]);

        15)"" break;

        16) "end for;

        17) end for;

        18)輸出聚類中心c1,…,ck。

        3.2 PREDPK-MEANS隱私預算分配方案

        由于不合理的隱私預算分配方案會造成聚類中心點嚴重偏移,所以隱私預算分配方案提升差分隱私K-means聚類效果起著關(guān)鍵的作用。Dwork對于傳統(tǒng)的差分隱私K-means算法的聚類效果不理想進行了研究分析,在滿足差分隱私定義的前提下提出了兩種隱私預算分配方案。第一種是均分法,當?shù)螖?shù)確定之后,將隱私預算平均劃分到每一次迭代中。該方法并未考慮前期迭代需要較大的隱私預算,從而導致聚類前期效果就不太理想。第二種是二分法,每輪迭代的隱私預算均為上輪的一半。雖然考慮到前期需要較大的隱私預算,但是由于后期隱私預算太小,中心點偏移距離較大,聚類效果變差。

        本文針對這種情況提出了一種改進的隱私預算分配方案。利用未進行隱私保護的K-means算法的質(zhì)心和差分隱私K-means算法中質(zhì)心的均方差,計算在保證中心點不發(fā)生嚴重偏移的情況下每一輪迭代所需要的最小隱私預算εmin。在保證每一輪迭代能夠獲得到最小隱私預算的前提下,將剩余的隱私預算采用二分法分配到每一輪的迭代中,直至隱私預算耗盡。這樣既能保證每一輪迭代不會因為所分配的隱私預算太小導致聚類效果變差,也滿足了前期迭代需要較大隱私預算的需求。分配方案分為以下幾步:

        1)根據(jù)式(4)計算每輪迭代所需的最小隱私預算εmin,以及設定最大迭代次數(shù)Tmax若εminTmaxgt;ε,則使用均分法進行隱私預算分配。如果εminTmaxlt;ε,則進行以下步驟。

        2)先給定每一次迭代所需的最小隱私預算εmin,保證所加入的噪聲不會使質(zhì)心嚴重偏離原始位置。

        3)分配之后將剩余的隱私預算ε′進行二分法,即取ε′2分配到第一次迭代中。接下來每一迭代都取上一次所分配的隱私預算的一半。

        4)若隱私預算分配仍有剩余重復步驟3),直到所剩余的隱私預算小于εmin。

        其中:n為樣本總數(shù);k為簇的數(shù)目;d為數(shù)據(jù)集的維度;p為質(zhì)心的標準化數(shù);范圍為0~0.5之間,最小隱私計算公式為

        εmin=(500k3n2(d+34dp2)3)1/2(4)

        算法2 PREDPK-means算法

        輸入:數(shù)據(jù)集D(樣本數(shù)為N,維度為d),k個簇,隱私預算為ε,最大迭代次數(shù)為T;

        輸出:聚類結(jié)果O={o1,…,on};

        1)利用公式(4)計算每輪迭代所需的最小隱私預算εmin;

        2)Ifε≤εmin×T then;

        3)每輪分配的隱私預算為ε/T;

        4)Else;

        5) εrem=ε-T×εmin;

        6)While εminlt;εrem;

        7) For i=1→T do;

        8)" εi=εmin+εrem/2;

        9)" εrem=εrem/2;

        10) End for;

        11)ε′={ε1,…,εT};

        12)Sequence;

        13)利用算法1選取k個中心點;

        14)T=0;

        15)While tlt;T do;

        16)T=t+1;

        17)For i=1→N do;

        a)計算樣本點xi到選取的聚類中心集合C中各個點的距離;

        b)將xi放到距離最近的聚類集合中;

        18)End for

        19)For j=1→k do

        20) sum=∑x∈cidist(xi,ci)

        a)num為簇內(nèi)點的個數(shù)

        b)sum′=sum+lap((d+1)/ε′)

        c)num′=num+lap((d+1)/ε′)

        21) u′i=sum′num′

        a)If ui≠u′i then

        22) ui=u′i;

        a)Else

        23) ui不變

        a)End if

        24) End for

        25) End while

        4 實驗結(jié)果分析

        4.1 實驗數(shù)據(jù)與環(huán)境

        本文使用python語言進行模擬仿真實驗。實驗環(huán)境為Intel(R)Core(TM) i5-3317U CPU @1.70GHz,12GB內(nèi)存,Windows10 64位操作系統(tǒng)。實驗數(shù)據(jù)集基本信息如表 1 所示。

        4.2 評價標準

        本文實驗結(jié)果采用F-measure的評價標準以及輪廓系數(shù)來衡量聚類效果的好壞。F-measure是一種用于衡量分類器性能的指標,它是精確率和召回率的調(diào)和平均數(shù)。F-measure綜合考慮了精確率和召回率兩個指標,可以較好地評估K-means聚類算法的聚類效果。F-measure的取值范圍在[0,1],取值為1表示分類器的性能最好,取值為0表示分類器的性能最差。而輪廓系數(shù)結(jié)合了聚類內(nèi)部的相似度和聚類之間的不同程度,計算得到一個值來衡量聚類的緊密度和分離度,其取值范圍為[0,1]。輪廓系數(shù)值越大,代表聚類結(jié)果越好。

        4.3 實驗結(jié)果分析

        本文進行兩組對比實驗,第一組是文[13]提出的改進方法K-means與本文中心點改進的聚類算法preK-means對比,來驗證本文所提出的初始點改進方案對聚類效果的提升效果。第二組對比實驗是本文提出的改進算法與均分差分隱私K-means聚類驗證本文隱私預算分配方案效果的好壞。

        本文首先展示了第一組對比實驗即3個數(shù)據(jù)集在文[13]提出K-means聚類算法與中心點改進的聚類算法的對比圖。該組對比實驗采用的評價指標為輪廓系數(shù)。

        圖1為PREK-means算法在EEG Eye State數(shù)據(jù)集上運行的實驗結(jié)果對比圖,由于EEG Eye State數(shù)據(jù)集數(shù)據(jù)樣本量大,故需要迭代次數(shù)較多才能到達穩(wěn)定狀態(tài),由圖1可以得出,本文提出的算法聚類效果遠遠優(yōu)于文[13]提出的改進算法。

        圖2為PREK-means算法在Wine Quality數(shù)據(jù)集上運行的實驗結(jié)果對比圖。由于該數(shù)據(jù)集特征數(shù)較多,樣本點比較分散,所以總體的輪廓系數(shù)偏低,由于數(shù)據(jù)樣本量小,所以6次迭代就收斂了。

        圖3為PREK-means算法在abalone數(shù)據(jù)集上運行的實驗結(jié)果對比圖。該數(shù)據(jù)集樣本數(shù)較少,所以用本文算法迭代次數(shù)比前兩個數(shù)據(jù)集少,但是由于樣本特征數(shù)比圖1多且比圖2少,所以穩(wěn)定后的輪廓系數(shù)低于圖1數(shù)據(jù)集,而高于圖2數(shù)據(jù)集。

        但是上述3組圖不管在那個數(shù)據(jù)集,本文提出的中心點選取方案輪廓系數(shù)高于文[13]所提出的改進算法,本文提出的算法聚類效果遠遠優(yōu)于對比算法,極大地提升了聚類效果。

        接下來是第2組對比實驗,PREDPK-means代表采用本文所提出的改進的聚類算法,而DPK-means算法隱私預算分采用均分法。對于3個數(shù)據(jù)集都分成3個簇,迭代10次,其中計算最小隱私預算的參數(shù)p的取0.3。每個數(shù)據(jù)集取20次運行結(jié)果的均值。

        圖4為EEG Eye State數(shù)據(jù)集在本文提出方案運行下的結(jié)果,利用式(4)計算該數(shù)據(jù)集每輪需分配的最小隱私預算為0.48,隱私預算分配范圍為[5,7]。本文所提出的隱私預算分配方案F-measure值始終大于均分法,其差值取平均約為0.12。

        圖5為Wine Quality數(shù)據(jù)集在本文提出方案運行下的結(jié)果,利用式(4)計算該數(shù)據(jù)集每輪需分配的最小隱私預算為1.19,隱私預算分配范圍為[12,14]。本文所提出的隱私預算分配方案F-measure值始終大于均分法,其差值取平均約為0.20。

        圖6為abalone數(shù)據(jù)集在本文提出方案運行下的結(jié)果,利用式(4)計算該數(shù)據(jù)集每輪需分配的最小隱私預算為0.80,隱私預算分配范圍為[8,10]。本文所提出的隱私預算分配方案F-measure值始終大于均分法,其差值取平均約為0.10。

        傳統(tǒng)隱私預算分配方法都是對隱私預算進行統(tǒng)一劃分,而不考慮數(shù)據(jù)集的實際情況。而本文算法先根據(jù)數(shù)據(jù)集計算出每輪迭代所需要的最小隱私預算,保證每輪迭代可以分配到最小隱私預算之后在使用二分法,既可以保證每輪迭代不會因為所分配的隱私預算太小而導致變形,又能滿足前期迭代所需隱私預算較大的要求,有效的提升了聚類效果。

        5 結(jié) 論

        為了解決在現(xiàn)有的差分隱私K-means算法中的聚類效果差的問題,本文提出了一種新的改進算法。該算法在中心點選取方面考慮密度與中心點之間的距離這兩個因素,極大的提高迭代速度,減少了迭代次數(shù)。而隱私預算分配方面考慮保證分配到最小隱私預算的前提下對剩余隱私預算二次分配,明顯提高了聚類結(jié)果的可用性,使得聚類結(jié)果受所添加噪聲的影響較小。因此,本文改進的算法的優(yōu)點:一是減少了迭代的次數(shù),提高了聚類速度,二是在保護用戶隱私的前提下提升了聚類效果,改進算法相較傳統(tǒng)差分隱私K-means算法F-measure值提升14%。但在處理大型數(shù)據(jù)集方面,還存在一定的局限性,因此下一步可以從面對大型數(shù)據(jù),如何提高聚類算法速度這方面來進行研究和改進。

        參 考 文 獻:

        [1] ZHANG Xuejun, YANG Haoying, LI Zhen, et al. Differentially Private Location Privacy-preserving Scheme with Semantic Location[J]. Computer Science,2021,48(8);300.

        [2] PENG Chunchun, CHEN Yanli, XUN Yanmei. k-modes Clustering Guaranteeing Local Differential Privacy[J]. Computer Science,2021,48(2):105.

        [3] 萬偉,劉紅旗,孫洪昌,等.用電異常行為預警方法[J].哈爾濱理工大學學報,2022,27(4):53.

        WAN Wei, LIU Hongqi, SUN Hongchang, et al. Earlywarning Methods for Abnormal Electricity Consumption Behavior[J]. Journal of Harbin Institute of Technology, 2022, 27(4): 53.

        [4] 丁博,湯磊,何勇軍,等.基于代表性視圖的三維模型檢索[J].哈爾濱理工大學學報,2021,26(6):18.

        DING Bo, TANG Lei, HE Yongjun, et al. 3D Model Retrieval Based on Representative Views[J]. Journal of Harbin Institute of Technology, 2021,26 (6): 18.

        [5] 佟帥,陳德運,楊海陸.多點種子預劃分的二階段社區(qū)發(fā)現(xiàn)算法[J].哈爾濱理工大學學報,2021,26(4):78.

        TONG Shuai, CHEN Deyun,YANG Hailu. A Two-stagecommunity Discovery Algorithm for Multi Point Seed Pre Partitioning[J]. Journal of Harbin Institute of Technology, 2021,26 (4): 78.

        [6] 孔鈺婷,譚富祥,趙鑫,等.基于差分隱私的K-means算法優(yōu)化研究綜述[J].計算機科學,2022,49(2):162.

        KONG Yuting, TAN Fuxiang, ZHAO Xin, et al. Review of K-means Algorithm Optimization Based on Differential Privacy[J]. Computer Science, 2022,49 (2): 162.

        [7] JIANG Zoe L,GUO Ning,JIN Yabin,et al.Efficient Two-party Privacy-preserving Collaborative K-means Clustering Protocol Supporting Both Storage and Computation Outsourcing[J].Information Sciences,2020:518.

        [8] WU Wei, LIU Jian, WANG Huimei, et al. Secure and Efficient Outsourced K-means Clustering Using Fully Homomorphic Encryption with Ciphertext Packing Technique[J]. IEEE Transactions on Knowledge and Data Engineering,2021,33(10):3424.

        [9] MOHASSEL P, ROSULEK M,TRIEU T,et al.Practical Privacypreserving K-means Clustering[J].Proceedings on Privacy Enhancing Technologies,2020(4):414.

        [10]YANG Liu,et al. Privacy-preservin Federated K-means for Proactive Caching in Next Generation Cellular Networks[J].Information Sciences,2020,521:14.

        [11]GUO Xuancheng,LIN Hui,WU Yulei, et al. A New Data Clustering Strategy for Enhancing Mutual Privacy in Healthcare IoT Systems[J].Future Generation Computer Systems,2020,113:407.

        [12]NI Tianjiao,QIAO Minghao,CHEN Zhili,et al.Utility Efficient Differentially Private K-means Clustering Based on Cluster Merging[J].Neurocomputing,2021,424:205.

        [13]ZHANG En,LI Huimin,HUANG Yunchen,et al. Practical Multi-party Private Collaborative K-means Clustering[J].Neurocomputing,2022,467:256.

        [14]XIA Chang, HUA Jingyu,TONG Wei,et al. Distributed K-means Clustering Guaranteeing Local Differential Privacy[J].Computers and Security,2020,90: 101699.

        [15]胡嘯,王玲燕,張浩宇,等.基于獅群優(yōu)化的改進K-means聚類算法研究[J].控制工程,2022,29(11):1996.

        HU Xiao, WANG Lingyan, ZHANG Haoyu, et al. Research on Improved K-means Clustering AlgorithmBased on Lion Swarm Optimization[J]. Control Engineering, 2022, 29 (11): 1996.

        [16]陶永輝,王勇. 基于初始聚類中心選取的改進K-means算法[J].國外電子測量技術(shù),2022,41(9):54.

        TAO Yonghui, WANG Yong. Improved K-means Algorithm Based on Initial Clustering Center Selection[J].Foreign Electronic Measurement Technology, 2022,41 (9): 54.

        [17]唐東凱,王紅梅,胡明,等.優(yōu)化初始聚類中心的改進K-means算法[J].小型微型計算機系統(tǒng),2018,39(8):1819.

        TANG Dongkai, WANG Hongmei, HU Ming, et al. Improved K-means Algorithm for Optimizing Initialcl Ustering Centers[J]. Small Micro Computer System,2018,39 (8): 1819.

        [18]楊明極,馬池,王婭,等.一種改進K-means聚類的FCMM算法[J].計算機應用研究,2019,36(7):2007.

        YANG Mingji,MA Chi,WANG Ya,et al. An Improved K-means Clustering FCMM Algorithm[J]. Computer Application Research, 2019,36 (7): 2007.

        [19]黃保華,程琪,袁鴻,等.基于距離與誤差平方和的差分隱私K-means聚類算法[J].信息網(wǎng)絡安全,2020,20(10):34.

        HUANG Baohua, CHENG Qi, YUAN Hong, et al.Differential Privacy K-means Clustering Algorithm Based on the Sum of Distance and Error Squares [J].Information Network Security, 2020,20 (10): 34.

        [20]REN Jun, XIONG Jinbo, YAO Zhiqiang, et al. DPLK-means: A Novel Differential Privacy K-means Mechanism[C]//2017 IEEE Second International Conference on Data Science in Cyberspace (DSC). IEEE, 2017: 133.

        [21]XIONG Jinbo,REN Jun,CHEN Lei,et al. Enhancing Privacy and Availability for Data Clustering in Intelligent Electrical Service of Io T [J]. IEEE Internet of Things Journal,2018,6(2):1530.

        [22]馬文博,巫朝霞.基于差分隱私保護的二分k均值聚類算法研究[J].智能計算機與應用,2023,13(2):155.

        MA Wenbo,WU Chaoxia.Research on Binary K-meansclustering Algorithm Based on Differential Privacy Protection[J]. Intelligent Computer and Applications,2023,13 (2): 155.

        [23]FU Yanming,LI Zhenduo. Research on K-means ++ Clustering Algorithm Based on Laplace Mechanism for Differential Privacy Protection[J].Netinfo Security,2019,218(2):49.

        [24]黃保華,程琪,袁鴻,等.一種差分隱私K-means聚類算法的隱私預算分配方案[J].網(wǎng)絡空間安全,2020,11(11):11.

        HUANG Baohua, CHENG Qi, YUAN Hong, et al. A Privacy Budget Allocation Scheme for Differential Privacy K-means Clustering Algorithm[J]. Cyberspace Security, 2020,11 (11): 11.

        [25]ZHANG Xing, WANG Qingyang. DP-IMKP:A Data Release Protection Method that Satisfies Personalized Differential Privacy[J]. Journal of Computer Engineering amp; Applications, 2023, 59(10).

        [26]FAN Zexuan, XU Xiaolong. APDP K-means: A NEW DifferentialPrivacy Clustering Algorithm Based on Arithmetic Progression Privacy Budget Allocation[C]//2019 IEEE 21st International Conference on High Performance Compution and Communications, IEEE,2019.

        [27]SU Dong, CAO Jianeng, LI Ninghui, et al. Differentially Private K-means Clustering[C]//Proceedings of the Sixth ACM Conference on Data and Application Security and Privacy, 2016: 26.

        [28]MO Ran, LIU Jianfeng, YU Wentao, et al. A Differential Privacy-Based Protecting Data Preprocessing Method for Big Data Mining[C]//2019l8th IEEE International Conference on Trust, Security And Privacy In Computing And Communications.IEEE,2019.

        [29]趙禹齊,楊敏.差分隱私研究進展綜述[J].計算機科學,2023,50(4):265.

        ZHAO Yuqi, YANG Min. Review of Progress in Differential Privacy Research[J]. Computer Science, 2023,50 (4): 265.

        (編輯:溫澤宇)

        猜你喜歡
        means聚類聚類算法
        基于“粉絲經(jīng)濟”的自媒體社群用戶消費意愿研究
        數(shù)據(jù)挖掘算法性能優(yōu)化的研究與應用
        K—Means聚類算法在MapReduce框架下的實現(xiàn)
        軟件導刊(2016年12期)2017-01-21 14:51:17
        基于K?均值與AGNES聚類算法的校園網(wǎng)行為分析系統(tǒng)研究
        人工神經(jīng)網(wǎng)絡在聚類分析中的運用
        雹云圖像的識別指標設計
        基于QPSO聚類算法的圖像分割方法
        科技視界(2016年12期)2016-05-25 11:54:25
        基于改進的K_means算法在圖像分割中的應用
        大規(guī)模風電場集中接入對電力系統(tǒng)小干擾穩(wěn)定的影響分析
        科技視界(2016年8期)2016-04-05 18:39:39
        基于知網(wǎng)的無指導詞義消歧
        国产裸体xxxx视频在线播放| 日本va欧美va精品发布| 免费无码不卡视频在线观看| 48久久国产精品性色aⅴ人妻| 大肉大捧一进一出视频出来呀| 亚洲不卡中文字幕无码| 无码国产精品一区二区免费97| 嫩草影院未满十八岁禁止入内| 国产乱淫视频| 亚洲无线码一区在线观看| 日韩女同一区在线观看| 中文日本强暴人妻另类视频| 男女边摸边吃奶边做视频韩国| 天堂中文а√在线| 国产肉丝袜在线观看| 无码人妻少妇久久中文字幕蜜桃 | 国产高清天干天天视频| 一区二区黄色素人黄色| 国产亚洲熟妇在线视频| 国产一区二区三区小说| 亚洲av成人无码精品电影在线| 人妻无码人妻有码中文字幕| 久久久久久99精品| 国产黄色看三级三级三级| 国产免费人成视频在线 | 91av手机在线观看| 国产成人久久精品77777综合| 亚洲黄色精品在线播放| 无码少妇丰满熟妇一区二区| 丁香六月久久婷婷开心| 无码人妻品一区二区三区精99| 色狠狠一区二区三区香蕉蜜桃| 大屁股流白浆一区二区| 日韩高清不卡一区二区三区| 亚洲国产精品无码久久久| 免费做爰猛烈吃奶摸视频在线观看| 亚洲国产成人久久综合三区| 精品国产色哟av一区二区三区| 国产av无码专区亚洲av果冻传媒| 国产精品一区二区在线观看| 亚洲熟妇少妇任你躁在线观看|