亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        探索基于大數(shù)據的分布式隱私保護聚類挖掘算法

        2021-03-22 16:36:05趙峰
        電腦知識與技術 2021年4期
        關鍵詞:數(shù)據挖掘大數(shù)據

        趙峰

        摘要:近些年來,全世界范圍內的移動互聯(lián)網以及云計算技術都得到了飛速發(fā)展,網絡上隨時隨地都會出現(xiàn)諸多的各方面數(shù)據,在這大數(shù)據時代背景下,有必要加強對于分布式隱私保護聚類挖掘算法展開深入分析。本文簡略介紹了大數(shù)據挖掘安全技術以及隱私數(shù)據保護技術,并對基于大數(shù)據的分布式隱私保護聚類挖掘算法展開了全面探索,旨在提升數(shù)據隱私保護水平的同時,還能達到高精確度的大數(shù)據聚類挖掘效果。

        關鍵詞:大數(shù)據;隱私保護;數(shù)據挖掘;分布式環(huán)境

        中圖分類號:TP393? ? ? 文獻標識碼:A

        文章編號:1009-3044(2021)04-0201-03

        在當今時代下,大數(shù)據已經成為高校分析以及處理網絡中海量數(shù)據的重要環(huán)節(jié)。經過調查發(fā)現(xiàn),我國在挖掘算法方面已經取得了較為良好的研究成果,但事實上仍存在諸多不利因素對于數(shù)據安全以及隱私保護效率的提升起到了一定的制約作用。因此,有必要加強對該方面技術的重視,并在實踐過程中對其進行逐漸地優(yōu)化與完善。

        1相關技術

        1.1大數(shù)據挖掘安全技術

        大數(shù)據挖掘主要指的是不斷提取以及挖掘在當下不規(guī)則并且海量數(shù)據中的各類知識,當各個站點開展挖掘大數(shù)據任務的過程中,應著重考慮各站點所普遍存在地數(shù)據隱私泄露問題。從目前來看,對于隱私保護的數(shù)據挖掘算法包含著諸多種研究類別,分別為序列模式、聚類和分類以及關聯(lián)規(guī)則數(shù)據挖掘算法。與此同時,應及時采取相關措施,強化對于各站點的規(guī)范和約束管理,此舉能夠切實保障在開展大數(shù)據挖掘的同時,盡量降低泄露數(shù)據隱私的概率[1]。

        近些年,全世界范圍內對于上述研究已經取得了一定的成果,例如:部分學者在半誠實模型和惡意模型的基礎條件下,針對挖掘數(shù)據算法過程中隱私保護的數(shù)據挖掘隱私保護安全性以及執(zhí)行效率展開了詳細研究。除此以外,還對于在隱私保護以及數(shù)據安全基礎上的序列數(shù)據挖掘技術進行了深入探究,設計出了一種能夠高效實現(xiàn)重要序列屬性隱藏的數(shù)據挖掘算法,這對于高效落實對于數(shù)據挖掘的隱私保護起到了重要意義。還有部分學者以分布式環(huán)境為基礎,對基于隱私保護的數(shù)據額挖掘算法進行了科學系統(tǒng)的設計,這有助于緩解當前在進行數(shù)據挖掘過程中普遍存在的數(shù)據安全以及隱私泄露等問題。

        1.2隱私數(shù)據保護技術

        在進行大數(shù)據挖掘時,其所涉及的是包含諸多同個人隱私相關的隱私數(shù)據,例如個人社交動態(tài)資料、工作資料、財產和病歷信息資料以及個人基本資料等,大數(shù)據挖掘隱私保護不僅要確保能夠在保護隱私數(shù)據不竊取其他站點隱私數(shù)據的基礎上進行各個站點的數(shù)據挖掘工作,同時,還要在充分考慮的其數(shù)據挖掘所達到的相關效果,確保其能夠同相關預期效果相符合。從上述研究中可以看出,一般來說,研究大多會將數(shù)據加密的隱私保護技術應用于數(shù)據挖掘典型算法之中,通過使用全同態(tài)加密技術,開展針對原始數(shù)據的加密處理,便可以直接在挖掘數(shù)據的過程中直接處理加密密文,不僅能夠確保隱私數(shù)據自身的安全性與穩(wěn)定性,還可以提升數(shù)據挖掘的實際效率。同態(tài)加密技術的應用,并不會對原始數(shù)據進行解密,而是會通過大數(shù)據挖掘算法的應用,直接開展針對加密數(shù)據地復雜計算操作,并且可以得到同數(shù)據加密之前同樣地結果。部分學者在該方面進行了深入的研究,其對全同態(tài)加密技術展開了探索,同時,對在全同態(tài)加密算法運行效率基礎上的改進方案進行了研發(fā)設計,也得到了較為豐碩的研究成果。除此以外,部分學者在對全同態(tài)加密技術進行研究地基礎上,提出了一種新型的全同態(tài)加密方法,這使得流行的外包計算以及云計算都能夠再實現(xiàn)對于全同臺加密技術的應用。

        此文中的觀點為,針對加法和乘法來說,任何一種加密算法都具有能夠與之相適應的同態(tài)操作:

        基于此便可以將其看作是全同態(tài)加密算法。

        2分布式數(shù)據挖掘概述

        2.1水平劃分的數(shù)據

        水平劃分的數(shù)據是分布式數(shù)據挖掘的重要組成部分,其主要指的是在各個不同的站點中對擁有相同屬性的信息進行搜集。但事實上其實體存在一定的差異性,例如:不同超市所搜集的雜貨店信息。以具有不同的信用卡信息的兩個數(shù)據庫為例,其全局數(shù)據庫所搜集的信息具有不同的實體,但擁有者相同的屬性[2]。

        2.2垂直劃分的數(shù)據

        除了水平劃分的數(shù)據以外,垂直劃分的數(shù)據也是分布式數(shù)據挖掘的重要組成部分,其主要指的是不同站點對于各類相同實體集合信息的收集,但其屬性的集合存在差異,具體可以從以下角度出發(fā)進行理解。例如在某個數(shù)據庫中,其中一個為相同實體使用手機的信息,另一個則為人的醫(yī)療信息。從數(shù)據庫中可以看出,相關工作人員可以通過采用相關挖掘方法對全局數(shù)據庫進行分析,以便于充分獲取患者的實際情況。該模式的描述如下所示:有k個集合P1.P2.…,Pk,n個事務,基于此需要對n個與事物有關的信息進行相應的信息搜集工作。

        2.3任意劃分的數(shù)據

        任意劃分的數(shù)據是分布式數(shù)據挖掘的重要組成部分,其主要指的是搜集各不同站點中屬性也不相同的相關信息。以兩方參與方為例,分為A.B兩方,二者各自所擁有的數(shù)據能夠形成一個整體的數(shù)據庫,該數(shù)據庫中包含n個對象,可以采用m個屬性來表示對每個對象金鑫表示,參與方A對于每個對象d來說都有著部分屬性集,與此同時,參與方B則會擁有剩下的。通常情況下來說,可以將從水平劃分以及垂直劃分的角度來看,可以將其數(shù)據當作是進行任一分布的特殊形式。

        3基于大數(shù)據的分布式隱私保護聚類挖掘算法

        在當前分布式環(huán)境之下,若是基于大數(shù)據開展數(shù)據挖掘工作,有必要將各站點聯(lián)合起來進行對于聚類結果的計算,有可能會導致數(shù)據安全及隱私泄露的問題。聚類挖掘主要指的是一種機器學習算法,其本身具有無指導的特點,數(shù)據要在其原有的實際特征的基礎上經過多次迭代,進而形成各不相同的族群。在實際操作過程中可以通過多種方式實現(xiàn)聚類挖掘,包括基于模型的聚類、層次聚類、基于密度的聚類、劃分聚類以及基于神經網絡的聚類等等。筆者在文中主要將會針對K-means算法進行詳細講述,該算法本身是劃分聚類的一種數(shù)據挖掘算法,文中主要使用的是同態(tài)加密技術以及公鑰加密技術創(chuàng)新提出了一PPDK-means,其是在水平劃分基礎上的一種聚類挖掘方法[3]。

        各參與方在分布式的環(huán)境中應先展開針對相關數(shù)據的同態(tài)加密工作,然后再充分利用安全信道,實現(xiàn)對于原有數(shù)據高效共享的目的,接下來便需要展開對于加密數(shù)據的進一步精密計算,然后便需要在某個參與方中通過同態(tài)加密技術的應用高質量地完成對于計算結果的加密。開展相應的解密工作,然后向全體參與方廣播最終的實際計算結果,相關工作人員應當注意,實際所要開展的計算工作應當在經過加密的數(shù)據基礎上進行,在加密后的數(shù)據中,準誠信第三方需要開展相應的聚類挖掘工作,這樣一來便可以切實降低出現(xiàn)對于用戶明文數(shù)據進行直接使用實踐出現(xiàn)的概率,切實保障好數(shù)據本身的安全性以及穩(wěn)定性,以免出現(xiàn)半程新的參與方直接獲取相關其他參與方的隱私數(shù)據,進而達到對隱私進行高質量的保護的目的。

        經過相關的實驗證明以及理論分析發(fā)現(xiàn),該算法可以既可以保障好數(shù)據隱私,還能夠獲取精確地聚類結果,有著較強的應用價值。

        3.1問題描述

        3.1.1分布式環(huán)境中的聚類算法

        在以往所使用的數(shù)據儲存方法中,主要是在一個數(shù)據倉庫中實現(xiàn)對于全部數(shù)據的存儲,然后在需要使用的時候,直接在其中進行相應的聚類分析,進而將有益的知識以及規(guī)律提取出來,該模式應用的最大優(yōu)勢便在于能夠高效實現(xiàn)對于存儲空間的利用,減少冗長繁雜的數(shù)據,同時還要從全面的眼光看待問題,進而采取相應的措施開展針對數(shù)據的保護工作。但從目前來看,全世界范圍內的信息技術整體發(fā)展較為迅速,在當下的信息社會中已經有著越來越多傳統(tǒng)行業(yè)的融入,從政治以及商業(yè)利益角度出發(fā),未來的主流模式必定是多中心分布式的數(shù)據存儲格局。分布式環(huán)境這一概念與集中式環(huán)境是對立的,上文對其劃分進行了詳細分析,下面不再贅述,在本文中,筆者將會對水平劃分數(shù)據環(huán)境中的聚類挖掘算法進行精細化的探索。

        加設分布式系統(tǒng)中存在n個站點Si(i=1,…,n,n≥3),每個站點的數(shù)據集為Di(i=1,…,n,n≥3),在每個數(shù)據集Di(i=1,…,n,n≥3)中所包含的對象個數(shù)為mi(i=1,…,n,n≥3),則聯(lián)合數(shù)據集[D=i=1nDi(i=1,…,n,n≥3)]。

        在針對聯(lián)合數(shù)據集D開展相應的聚類挖掘的過程中,務必要確保各個站點Si的數(shù)據集D的數(shù)據安全,這主要指的是其他站點無法在經過結果推斷之后將原本的數(shù)據集Di推導出來,同時還要對聯(lián)合數(shù)據D所挖掘出的知識進行掌控。確保其是真實有效的,同直接挖掘Di所得出的結果完全符合[4]。

        在分布式的數(shù)據存儲環(huán)境中,分布式聚類挖掘算法能夠有效實現(xiàn)聚類過程,在本文中,筆者先對于數(shù)據挖掘的環(huán)境進行假設,若是其為水平分割數(shù)據集,那么將由以下幾方面內容入手展開對于分布式聚類算法的理解。首先,應在系統(tǒng)中選用兩級架構。其次局部站點Si(i=1,…,n,n≥3)要從主站點發(fā)來的聚類中心出發(fā),高質量地完成對于本地聚簇數(shù)據的計算工作,并將其直接向相應的中心站點進行發(fā)送。接下來中心站點便要接收那些從局部站點所發(fā)來的聚簇結構,并進行全局計算,判斷其是否能夠同相應的受立案條件相符合,若是可以符合便要立即停止迭代進程,然后輸出相應的聚類結果。如果其并未滿足收斂條件,便要繼續(xù)進行迭代,直至其能夠相符合。

        3.1.2分布式數(shù)據挖掘中的隱私安全問題

        分布式環(huán)境相比其他環(huán)境來說具有一定的特殊性,數(shù)據在其中的存儲有著較為分散的特性,主要是存儲于各個邏輯隔離站點以及物理隔離站點之中,每個站點其所具備的功能基本上同相關資質單元相似,基于此,各個站點中的數(shù)據便有一定程度的私有特點。在開展數(shù)據挖掘工作的過程中,應聯(lián)合各個參與方對聚類結果以及分類模型展開共同計算,在該過程中極有可能會出現(xiàn)泄露隱私的現(xiàn)象。本文主要從局部站點以及中心站點兩級結構入手展開數(shù)據挖掘,在進行數(shù)值計算以及結果共享的過程中,是數(shù)據隱私最容易被侵犯的兩個環(huán)節(jié),所以有必要加強對以下幾方面內容的認識強化保護數(shù)據隱私。首先,加強對于各個站點自身隱私數(shù)據安全性的保障,以免出現(xiàn)其他參與方直接獲取他方數(shù)據的情況。其次,應當確保傳輸過程中數(shù)據的安全性,以免數(shù)據被其他半誠信以及被惡意的攻擊者截獲。最后,要加強對于聚類挖掘過程的重視,注重對于該過程中隱私數(shù)據安全的保護,降低在進行合作計算時,出現(xiàn)數(shù)據隱私泄露現(xiàn)象的可能性。

        3.2分布式k-means聚類挖掘算法

        標準的分布式k-means聚類算法。

        K-means算法本身屬于一種聚類挖掘算法,其是在距離基礎上實現(xiàn)的,在對于相似度的評級方面,將距離看作是相應的評級指標,深入分析各聚簇對象的實際距離以及均值計算相似度,相似度會隨著距離的減小而逐漸增加。采用K-means算法的最基本的目的便是對聚簇內相似度最低以及最高的聚類結果進行獲取,通常情況下,可以通過使用歐幾里得距離、閔可夫斯基距離以及曼哈頓距離三種方法進行距離度量,這三種算法之間都是衡量個體之間的差異的。其中,在運用歐幾里得距離度量方法的過程中,其最終的結果會收到各指標不同單位可讀的影響,所以在實際運用中應注重對其進行標準化,若是其距離越大,便會使得其個體之間產生較大的差異性。除此以外,其他二者同歐幾里得距離基本上相似。

        標準的歐式距離公式如下所示:

        3.3正確性與安全性分析

        3.3.1正確性

        針對從站點的計算結果,筆者主要從同態(tài)加密系統(tǒng)以及RSA公鑰加密系統(tǒng)兩方面出發(fā)進行加密,以此確保各個參與挖掘的各方數(shù)據在半誠信的環(huán)境當中不會出現(xiàn)被泄露的問題。因為同態(tài)加密系統(tǒng)的加密操作并不會對最終的聚類結果產生影響,而RSK公鑰加密系統(tǒng)則只能應用于對密鑰的加密,所以在本文所提出的算法可以實現(xiàn)對于挖掘結果的精確獲得。因為存在相應的解密過程,所以該算法有著較高的時間復雜度,RSA公鑰加密的過程是最為耗時的,但是其智慧應用在特定的部分進行加密,并非是整個明文,所以可以在一定程度上減少指數(shù)運算,在這樣的條件下便會適當增多所要執(zhí)行相關挖掘操作的時間。在實際開展挖掘工作的過程中,如果其中心站點中的計算過程過于繁雜,那么便可以將其整體的計算過程輸送至云端進行,這樣便可以減少其復雜程度,提高計算效率。

        3.3.2安全性

        在安全性方面,該算法主要分為三個層次對數(shù)據隱私進行保護:

        相關工作人員在面對局部聚類結果的過程中應靈活使用通態(tài)加密技術開展相應的加密工作。因為R本身是一個隨機數(shù),所以在實踐過程中可以僅將其看作是拒不保存的聚類結果,中心站的具體職能在于對于相關已經完成好加密工作的局部數(shù)據的獲取,根據其實際應用的各個方面來看,中心站無法實現(xiàn)對于其他與局部數(shù)據有關任何信息的獲取。當中心站點做好計算工作之后,便會直接發(fā)送中間結果至局部站點處。接下來開展對其的解密工作,然后再將其反送至中心站點,以便于開展后續(xù)的運算工作,此舉能夠避免中心站點解密相關參與方隱私數(shù)據的問題,對于隱私數(shù)據的安全性有著較強的保障作用。所以本文中所提出的算法具有一定的安全性。

        4結論

        綜上所述,從當下的時代背景來看,信息科技在飛速地發(fā)展以及進步中使得各個領域都在實踐過程中積累了越來越多地數(shù)據,而數(shù)據挖掘技術的應用能夠開展針對數(shù)據的二次利用以及分類管理工作。從目前來看,當下最為重要的數(shù)據存儲模式便是分布式,過去的相關數(shù)據挖掘技術正在逐漸由原本的環(huán)境向當下分布式的環(huán)境中進行遷移。這使其逐漸出現(xiàn)了諸多安全問題。與此同時,在進行數(shù)據挖掘時,部分持有者并不愿意披露數(shù)據,而保護隱私數(shù)據的挖掘算法則能夠有效緩解該類問題。

        參考文獻:

        [1] 鄧甜甜,熊蔭喬,何賢浩.一種基于時序性告警的新型聚類算法[J].計算機科學,2020,47(S1):440-443,473.

        [2] 楊濤,張紅梅,王家樂,等.大數(shù)據下數(shù)據流聚類挖掘算法的優(yōu)化分析[J].物聯(lián)網技術,2019,9(8):58-60,64.

        [3] 左國才.基于大數(shù)據的分布式隱私保護聚類挖掘算法研究[J].智能計算機與應用,2018,8(6):57-60.

        [4] 徐東,李賢,張子迎,等.面向聚類挖掘的個性化隱私保護算法[J].哈爾濱工程大學學報,2018,39(11):1779-1785.

        [5] 姚禹丞,宋玲,鄂馳.同態(tài)加密的分布式K均值聚類算法研究[J].計算機技術與發(fā)展,2017,27(2):81-85.

        【通聯(lián)編輯:光文玲】

        猜你喜歡
        數(shù)據挖掘大數(shù)據
        探討人工智能與數(shù)據挖掘發(fā)展趨勢
        基于并行計算的大數(shù)據挖掘在電網中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據挖掘技術在中醫(yī)診療數(shù)據分析中的應用
        大數(shù)據環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據背景下的智慧城市建設研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據+輿情:南方報業(yè)創(chuàng)新轉型提高服務能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        一種基于Hadoop的大數(shù)據挖掘云服務及應用
        數(shù)據挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據挖掘研究
        亚洲一区二区三区久久蜜桃| 日韩亚洲欧美久久久www综合| 欧美又粗又长又爽做受| 嗯啊哦快使劲呻吟高潮视频| 骚片av蜜桃精品一区| 在线观看视频国产一区二区三区| 麻豆精品一区二区av白丝在线| 亚洲色欲色欲www在线观看| 欧美日韩另类视频| 人成视频在线观看免费播放| 国产亚洲精品av一区| 亚洲av永久无码精品网站在线观看| 亚洲精品久久视频网站| 欧美成人看片一区二区三区尤物| 嫩草影院未满十八岁禁止入内 | 男女啪啪无遮挡免费网站| 国产成人vr精品a视频| 成在线人视频免费视频| 黄色潮片三级三级三级免费| 又黄又爽又无遮挡免费的网站| 久久国产成人午夜av影院| 午夜人妻中文字幕福利| 亚洲男人av天堂久久资源| 4hu四虎永久在线观看| 国内揄拍国内精品| 国产精品一区二区三密桃| 国产一区二区精品亚洲| 日韩激情无码免费毛片| 无码国产亚洲日韩国精品视频一区二区三区 | 久久久国产精品免费a片3d| 老太脱裤让老头玩ⅹxxxx| 亚洲日产无码中文字幕| 情头一男一女高冷男女| 久久天天躁夜夜躁狠狠| 国产成人免费一区二区三区| 亚洲天天综合色制服丝袜在线| 国产一区二区三区免费视| 国产产区一二三产区区别在线| 国产精品免费久久久久影院| 亚洲日本精品一区久久精品| 男女交射视频免费观看网站|