摘要:由于分布式網(wǎng)絡(luò)數(shù)據(jù)分散在多個節(jié)點上,導(dǎo)致數(shù)據(jù)隱私泄露的概率較大,為此,本文進行了密度峰值聚類k匿名的分布式網(wǎng)絡(luò)數(shù)據(jù)隱私保護方法研究。其充分考慮了分布式網(wǎng)絡(luò)環(huán)境自身的特點,引入了分布式k-NN查詢算法,以找到其k個最近鄰點,同時保證查詢過程以不泄露數(shù)據(jù)隱私為目標(biāo),構(gòu)建了針對分布式網(wǎng)絡(luò)數(shù)據(jù)的k近鄰匿名模型;利用密度峰值聚類算法識別具有高局部密度并且與更高密度點的距離較大的數(shù)據(jù)點作為聚類中心,對k近鄰匿名模型中的節(jié)點進行聚類,實現(xiàn)數(shù)據(jù)保護。在測試結(jié)果中,設(shè)計方法在不同場景中的保護效果最好,對應(yīng)的數(shù)據(jù)泄露概率始終穩(wěn)定在0.2以下。
關(guān)鍵詞:密度峰值聚類;k匿名;分布式網(wǎng)絡(luò);數(shù)據(jù)隱私保護;分布式k-NN查詢算法;k近鄰匿名模型;局部密度
doi:10.3969/J.ISSN.1672-7274.2025.03.013
中圖分類號:TP 399 " " " " "文獻標(biāo)志碼:A " " " " " "文章編碼:1672-7274(2025)03-00-03
Research on Privacy Protection Method for Distributed Network Data
with Density Peak Clustering K-anonymity
GUO Yanhong
(Communication University of Shanxi, Taiyuan 030013, China)
Abstract: Due to the dispersion of distributed network data across multiple nodes, there is a high probability of data privacy leakage. Therefore, this article conducts research on density peak clustering k anonymous distributed network data privacy protection methods. It fully considers the characteristics of distributed network environments and introduces the distributed k-NN query algorithm to find its k nearest neighbors while ensuring that the query process does not leak data privacy. It constructs a k-nearest neighbor anonymous model for distributed network data; Using density peak clustering algorithm to identify data points with high local density and larger distance from higher density points as clustering centers, clustering the nodes in k-nearest neighbor anonymous model to achieve data protection. In the test results, the design method showed the best protection effect in different scenarios, and the corresponding data leakage probability remained stable below 0.2.
Keywords: density peak clustering; k anonymous; distributed network; data privacy protection; distributed k-NN query algorithm; k nearest neighbor anonymous model; local density
在分布式網(wǎng)絡(luò)環(huán)境中,數(shù)據(jù)隱私保護面臨多重挑戰(zhàn)。一方面,數(shù)據(jù)可能被未經(jīng)授權(quán)的用戶或惡意攻擊者竊取,并且在傳輸和存儲過程中可能被篡改[1]。另一方面,由于數(shù)據(jù)分布在不同節(jié)點和服務(wù)器上,保護數(shù)據(jù)的完整性和一致性變得更加困難。此外,還需要確保只有授權(quán)用戶才能訪問和修改數(shù)據(jù),這是分布式系統(tǒng)中一個復(fù)雜的問題[2]。又由于用戶的個人信息可能被多個服務(wù)提供商收集和存儲,也增加了個人隱私泄露的風(fēng)險。同時,數(shù)據(jù)的分析和挖掘,以及數(shù)據(jù)的共享和交換,也可能導(dǎo)致隱私泄露。
文獻[3]研究了5G網(wǎng)絡(luò)環(huán)境下云計算數(shù)據(jù)的差分隱私保護算法,在建立5G網(wǎng)絡(luò)環(huán)境下云計算數(shù)據(jù)差分隱私保護架構(gòu)的基礎(chǔ)上,利用信息熵抑制方式消冗處理5G網(wǎng)絡(luò)環(huán)境下的云計算數(shù)據(jù)。通過對云計算數(shù)據(jù)社區(qū)內(nèi)的邊和社區(qū)之間的邊進行重構(gòu),實現(xiàn)差分隱私保護。實驗結(jié)果表明,該算法能有效降低數(shù)據(jù)結(jié)構(gòu)復(fù)雜度,并顯著降低信息泄露比。但是該算法在應(yīng)對特定類型攻擊(如內(nèi)部攻擊或高級持續(xù)性威脅)時的表現(xiàn)有待進一步開發(fā)。文獻[4]探討了以全同態(tài)加密為基礎(chǔ)的無線傳感網(wǎng)絡(luò)數(shù)據(jù)隱私保護方法,利用全同態(tài)加密技術(shù)對加密數(shù)據(jù)進行計算,在無須先解密的前提下,保護中間節(jié)點的數(shù)據(jù)隱私。實驗結(jié)果表明,該方法可以有效防止在傳輸數(shù)據(jù)過程中泄露敏感信息。但是全同態(tài)加密的計算復(fù)雜度較高,可能導(dǎo)致數(shù)據(jù)傳輸和處理效率降低。
在上述基礎(chǔ)上,本文開展了密度峰值聚類k匿名分布式網(wǎng)絡(luò)數(shù)據(jù)隱私保護方法研究,并開展了對比測試,綜合分析了設(shè)計數(shù)據(jù)隱私保護方法的性能。
1 " 分布式網(wǎng)絡(luò)數(shù)據(jù)隱私保護方法設(shè)計
1.1 分布式網(wǎng)絡(luò)數(shù)據(jù)k近鄰匿名模型構(gòu)建
針對分布式網(wǎng)絡(luò)數(shù)據(jù),本文在構(gòu)建k近鄰(k-Nearest Neighbors,k-NN)匿名模型時,充分考慮了分布式網(wǎng)絡(luò)環(huán)境自身的特點,為了解決數(shù)據(jù)分散在多個節(jié)點上出現(xiàn)的數(shù)據(jù)隱私保護挑戰(zhàn),開展了有針對性設(shè)計。在具體的設(shè)計工程中,本文定義構(gòu)建k近鄰匿名模型的核心問題為在分布式網(wǎng)絡(luò)環(huán)境的N個數(shù)據(jù)節(jié)點上每個節(jié)點都存儲一部分?jǐn)?shù)據(jù)[5]。對某個查詢點,需要在分布式數(shù)據(jù)中找到其k個最近鄰點,同時保證查詢過程不泄露數(shù)據(jù)隱私。以此為基礎(chǔ),本文引入了分布式k-NN查詢算法[6]。在局部搜索階段,計算查詢點q與每個數(shù)據(jù)點之間的歐氏距離時,本文以二維數(shù)據(jù)點為基礎(chǔ)[7]。具體的計算方式可以表示為
(1)
式中,表示查詢點q與數(shù)據(jù)點p之間的歐氏距離;表示查詢點q的坐標(biāo)信息;表示數(shù)據(jù)點p的坐標(biāo)信息。在全局聚合階段,在對所有局部最近鄰點進行排序時,本文選擇全局最近的k個點作為目標(biāo)對象。通過比較各點的距離,實現(xiàn)具體的排序處理。假設(shè)有M個局部最近鄰點,其距離分別為d1,d2,…,dM,則全局最近鄰點選擇可以表示為
(2)
式中,表示全局最近k個點的排序結(jié)果;表示選擇使得前k個距離之和最小的k個點。
在此基礎(chǔ)上,對各節(jié)點數(shù)據(jù)進行匿名后得到的k近鄰匿名模型,如圖1所示。
在圖1所示的k鄰近匿名模型中,各節(jié)點對應(yīng)編號的信息通過差分計算確定,以此確保在不影響分布式網(wǎng)絡(luò)數(shù)據(jù)原始結(jié)構(gòu)的基礎(chǔ)上,提高數(shù)據(jù)的安全性。按照上述所示的方式,構(gòu)建分布式k-NN匿名模型,為后續(xù)的數(shù)據(jù)隱私保護提供基礎(chǔ)。
1.2 基于密度峰值聚類的數(shù)據(jù)隱私保護
在執(zhí)行數(shù)據(jù)隱私保護的具體過程中,本文主要通過密度峰值聚類(Density Peaks Clustering,DPC)的方式對1.1節(jié)中構(gòu)建的分布式網(wǎng)絡(luò)數(shù)據(jù)k近鄰匿名模型進行處理,以此實現(xiàn)數(shù)據(jù)隱私保護的目的。
在具體執(zhí)行階段,利用密度峰值聚類算法識別數(shù)據(jù)點(具有高局部密度并且與更高密度點的距離較大的數(shù)據(jù)點)作為潛在的聚類中心,以確保其可以適應(yīng)具有復(fù)雜形狀的聚類和存在噪聲的數(shù)據(jù)集隱私保護需求。其中,利用局部密度反映某個點周圍數(shù)據(jù)點的密集程度。設(shè)置如果點p與點q之間的距離小于截斷距離,則貢獻值為1;否則為0。在此基礎(chǔ)上,計算從點p到任何具有更高密度點q的最短距離,如果不存在這樣的點,則設(shè)置最小距離為數(shù)據(jù)集中所有點之間的最大距離。最小距離具體的計算方式可以表示為
(3)
式中,表示最小距離。結(jié)合局部密度與最小距離的計算結(jié)果,將具有高局部密度與最小距離的點作為聚類中心。對于每個非聚類中心的點,分配至距離最近且密度更高的點所在的聚類,保障數(shù)據(jù)的安全性。
2 " 測試與分析
2.1 測試準(zhǔn)備
本文在分析所設(shè)計的分布式網(wǎng)絡(luò)數(shù)據(jù)隱私保護方法實際應(yīng)用效果時,以MATLAB仿真平臺為基礎(chǔ)構(gòu)建了測試環(huán)境。對于具體的仿真測試數(shù)據(jù)集,本文選擇了標(biāo)準(zhǔn)的Foreman、HallMomitor和News視頻序列,以此全面驗證設(shè)計方法在隱私保護方面的綜合性能。
2.2 測試結(jié)果與分析
在對三種不同方法的性能進行分析時,設(shè)置鏈路破解概率為自變量,統(tǒng)計得到不同場景下,對應(yīng)隱私保護數(shù)據(jù)的泄露概率,如圖2所示。
結(jié)合圖2所示的測試結(jié)果可以看出,在三種不同保護方法下,隱私保護數(shù)據(jù)泄露概率表現(xiàn)出了較為明顯的差異。在差分隱私保護方法的測試結(jié)果中,整體數(shù)據(jù)泄露概率基本在0.1~0.3區(qū)間范圍內(nèi),雖然隨著鏈路破解概率的增長,其上升趨勢相對平緩,但是整體水平相對偏高。在全同態(tài)加密保護方法的測試結(jié)果中,當(dāng)鏈路破解概率低于0.3時,對應(yīng)的數(shù)據(jù)泄露概率穩(wěn)定在0.2以下,但是當(dāng)鏈路破解概率達到0.3以上時,對數(shù)據(jù)泄露概率明顯增大,最大值達到了0.40(鏈路破解概率為0.5時)。相比之下,本文所設(shè)計方法在不同場景中的保護效果最好,對應(yīng)的數(shù)據(jù)泄露概率始終穩(wěn)定在0.2以下,與對照組相比,分別在穩(wěn)定性和有效性方面具有明顯優(yōu)勢。
3 " 結(jié)束語
密度峰值聚類算法在聚類過程中無須迭代,計算效率較高。結(jié)合k匿名技術(shù),可以在保護隱私的同時保持?jǐn)?shù)據(jù)的可用性和完整性。為此,本文提出密度峰值聚類k匿名分布式網(wǎng)絡(luò)數(shù)據(jù)隱私保護方法,其能夠利用密度峰值聚類算法識別數(shù)據(jù)中的密集區(qū)域,準(zhǔn)確地劃分?jǐn)?shù)據(jù)簇,并結(jié)合k匿名技術(shù),進一步模糊化數(shù)據(jù)集中的個體信息,使得攻擊者難以通過鏈接攻擊等手段獲取敏感信息,有效地保護數(shù)據(jù)隱私。希望本文的研究,能夠為醫(yī)療、金融、社交媒體等數(shù)據(jù)集中包含大量敏感信息領(lǐng)域的個人隱私和企業(yè)機密信息管理提供參考價值。
參考文獻
[1] 葉小源,王維先.網(wǎng)絡(luò)空間治理體系中用戶數(shù)據(jù)安全及隱私保護研究[J].中國高校社會科學(xué),2024(5):147-155,159.
[2] 齊俊,周小明,許超,等.基于貝葉斯網(wǎng)絡(luò)的多方關(guān)聯(lián)數(shù)據(jù)訪問安全風(fēng)險識別模型研究[J].電子技術(shù)應(yīng)用,2024,50(9):9-17.
[3] 李君茹,趙莉.5G網(wǎng)絡(luò)環(huán)境下云計算數(shù)據(jù)差分隱私保護算法研究[J].南京理工大學(xué)學(xué)報,2023,47(5):708-714.
[4] 高靜,任俊軍.基于全同態(tài)加密的無線傳感網(wǎng)絡(luò)數(shù)據(jù)隱私保護方法[J].現(xiàn)代計算機,2024,30(14):70-74.
[5] 吳國輝.多方安全計算在通信網(wǎng)絡(luò)中的隱私保護與數(shù)據(jù)安全[J].現(xiàn)代傳輸,2023(4):51-54.
[6] 符太東,李育強.基于聯(lián)邦學(xué)習(xí)算法的復(fù)雜網(wǎng)絡(luò)大數(shù)據(jù)隱私保護[J].計算機仿真,2024,41(6):498-502.
[7] 劉森,賴潔萍.大數(shù)據(jù)視角下高校計算機網(wǎng)絡(luò)信息安全及防護路徑研究[J].黑龍江科學(xué),2024,15(7):148-151.