歐陽(yáng)光,彭海紅,羅冬林
(1.南昌交通學(xué)院,江西 南昌 330000;2.東華理工大學(xué) 理學(xué)院,江西 南昌 330000)
當(dāng)下,網(wǎng)絡(luò)幾乎已經(jīng)全面覆蓋人們的生活、學(xué)習(xí)、生活、工作以及生產(chǎn)等領(lǐng)域,其中形成的資源信息的統(tǒng)稱就是網(wǎng)絡(luò)數(shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)具有規(guī)模龐大、種類繁多、格式豐富、數(shù)據(jù)分散等特性。信息時(shí)代的到來(lái),跨越部門、平臺(tái)和地區(qū)之間的信息交流、共享以及人機(jī)共享等,需以數(shù)據(jù)共享為依據(jù)[1]。數(shù)據(jù)共享在一定程度上代表著國(guó)家的信息化發(fā)展水平,通過(guò)共享程度可以分析信息化發(fā)展水平的高低。
網(wǎng)絡(luò)數(shù)據(jù)共享是一種實(shí)現(xiàn)網(wǎng)絡(luò)中數(shù)據(jù)服務(wù)的手段,其可以增加已有數(shù)據(jù)的利用率、減少數(shù)據(jù)收集整理時(shí)間,也在一定程度上減少人工處理數(shù)據(jù)的消耗[2]。在網(wǎng)絡(luò)數(shù)據(jù)共享過(guò)程中,由于數(shù)據(jù)的提供者、數(shù)據(jù)的來(lái)源、數(shù)據(jù)的類型、數(shù)據(jù)的格式等存在的差異,極大程度增加數(shù)據(jù)共享的難度,甚至無(wú)法實(shí)現(xiàn)共享。除此之外,共享的安全性、完整性以及共享數(shù)據(jù)的質(zhì)量高低,均是網(wǎng)絡(luò)數(shù)據(jù)在共享過(guò)程中存在的主要問(wèn)題[3]。
為完成對(duì)不同類型、格式數(shù)據(jù)的共享,文獻(xiàn)[4]提出了基于區(qū)塊鏈的數(shù)據(jù)共享方法,利用分布式存儲(chǔ)方法將數(shù)據(jù)分散存儲(chǔ)到網(wǎng)絡(luò)的各節(jié)點(diǎn),可以通過(guò)共享其它節(jié)點(diǎn)數(shù)據(jù)及時(shí)改正錯(cuò)誤數(shù)據(jù)。雖然實(shí)現(xiàn)了數(shù)據(jù)共享的目的,但是其在對(duì)數(shù)據(jù)實(shí)行挖掘過(guò)程中產(chǎn)生的波動(dòng)太大,對(duì)數(shù)據(jù)質(zhì)量造成不同程度的損害。文獻(xiàn)[5]提出了云環(huán)境中基于信任分散策略的數(shù)據(jù)共享方法。拆分原始數(shù)據(jù)分類成動(dòng)態(tài)靜態(tài)不同數(shù)據(jù),添加全局標(biāo)識(shí)在云端加密共享,雖滿足了云端共享數(shù)據(jù)的安全性,但是忽略了數(shù)據(jù)之間的聯(lián)系,影響共享后的數(shù)據(jù)使用率。
為了解決當(dāng)前方法儲(chǔ)存在的不足,本文研究了基于關(guān)聯(lián)挖掘算法的網(wǎng)絡(luò)數(shù)據(jù)可追蹤共享仿真方法,對(duì)網(wǎng)絡(luò)數(shù)據(jù)實(shí)行高效挖掘,有效避免異常波動(dòng)現(xiàn)象,保證挖掘數(shù)據(jù)的質(zhì)量,為數(shù)據(jù)共享提供保證。通過(guò)實(shí)驗(yàn)可證實(shí)本文研究在數(shù)據(jù)共享方面可行性較高。
關(guān)聯(lián)挖掘也稱為關(guān)聯(lián)分析,作為一種分析技術(shù),其主要作用是通過(guò)挖掘來(lái)分析數(shù)據(jù)之間隱藏的聯(lián)系,獲取其中具備關(guān)聯(lián)性的規(guī)律,從而確定關(guān)聯(lián)規(guī)則,再根據(jù)所需目標(biāo)制定相應(yīng)的策略。
本研究采用關(guān)聯(lián)挖掘算法實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)數(shù)據(jù)的優(yōu)化聚類處理,為避免其在挖掘過(guò)程中對(duì)于模糊數(shù)據(jù)的識(shí)別性能較差等問(wèn)題,結(jié)合蟻群算法獲取網(wǎng)絡(luò)數(shù)據(jù)中的異常特征。
假設(shè)X表示某網(wǎng)絡(luò)數(shù)據(jù)樣本集,f(x)和g(x)分別表示正常檢測(cè)值和特征數(shù)值。為獲取兩者的取值以及兩者間存在的關(guān)聯(lián),利用關(guān)聯(lián)挖掘算法分析原理,按照時(shí)間序列排列網(wǎng)絡(luò)數(shù)據(jù)[6]。
(1)
?=l-1(f(x)|g(x)-ηβ)
(2)
(3)
為保證挖掘數(shù)據(jù)的穩(wěn)定性,采用優(yōu)化手段對(duì)高維空間實(shí)行優(yōu)化,且該空間屬于異常波動(dòng)數(shù)值[8]。為得出波動(dòng)聚類權(quán)重,對(duì)網(wǎng)絡(luò)數(shù)據(jù)實(shí)行模糊特征評(píng)估和分類,其通過(guò)聚類特征簇融合算法完成。
(4)
式中:加權(quán)系數(shù)和異常波動(dòng)規(guī)范數(shù)值分別用λ和ρ表示。
在此基礎(chǔ)上,采用規(guī)范處理手段以及歸一化分別對(duì)聚類數(shù)值和挖掘數(shù)據(jù)實(shí)行優(yōu)化處理,前者具備相似性加權(quán)特征,后者具備特征相似度,可用于去除異常數(shù)據(jù)中的模糊特征[9]。
若z表示初始數(shù)據(jù)特征值,且為非線性,獲取網(wǎng)絡(luò)數(shù)據(jù)特征公式為
(5)
數(shù)值空間為uei、其特征向量為φ,兩者均屬于特征蟻群;網(wǎng)絡(luò)數(shù)據(jù)分類的實(shí)現(xiàn)需以相應(yīng)原則為依據(jù)。為此,本文采用非線性過(guò)程求解挖掘的準(zhǔn)確性概率,公式為
(6)
挖掘過(guò)程中,加權(quán)距離的采集數(shù)值均可通過(guò)數(shù)據(jù)的概率描述,且前者屬于特征數(shù)據(jù)相似度,后者屬于劃分成的第n個(gè)正常特征[10]。為去除非線性網(wǎng)絡(luò)數(shù)據(jù)中的模糊特征,采用歸一化對(duì)其實(shí)行處理完成。
通過(guò)上述過(guò)程,可實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的挖掘,形成異構(gòu)網(wǎng)絡(luò)數(shù)據(jù)集X″。
以2.1小節(jié)的挖掘結(jié)果為基礎(chǔ),提取數(shù)據(jù)中的關(guān)聯(lián)關(guān)系,從而完成對(duì)網(wǎng)絡(luò)數(shù)據(jù)間關(guān)聯(lián)矩陣的構(gòu)建。之后再以該矩陣為基礎(chǔ),為形成數(shù)據(jù)劃分指示矩陣,需采用對(duì)稱非負(fù)矩陣對(duì)其實(shí)行分解處理實(shí)現(xiàn)[11],并將形成的矩陣作為劃分前矩陣三分解的輸入,以此實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的最佳追蹤共享。
假設(shè)X″1和R分別表示X″中小規(guī)模數(shù)據(jù)和異構(gòu)關(guān)聯(lián)矩陣,通過(guò)后者完成前者關(guān)聯(lián)矩陣的構(gòu)建,其為
(7)
式中:Wij表示關(guān)聯(lián)強(qiáng)度;差異化實(shí)體的關(guān)聯(lián)矩陣、同存幾率分別為(x″i,x″j)和p(x″i,x″j),且均屬于X″。x″i和x″j的存在幾率分別用p(x″i)和p(x″j)表示,且僅為兩者各自單獨(dú)存在的情況下。
X″2中的實(shí)體(x″1,x″2)存在的次數(shù)用N(x″i,x″j)表示;對(duì)其實(shí)行分解處理,采用的對(duì)稱非負(fù)性矩陣公式為
(8)
式中:矩陣F的范數(shù)用?表示。
關(guān)聯(lián)矩陣C的分解通過(guò)B描述,并將其表示聚類指示矩陣,矩陣的獲取通過(guò)分解對(duì)稱非負(fù)矩陣完成[12],其公式為
(9)
行聚類指示向量、數(shù)據(jù)關(guān)聯(lián)法則和數(shù)據(jù)標(biāo)準(zhǔn)差分別用fi、h(u)和μ(h)表示,關(guān)聯(lián)矩陣三分解的輸入為劃分矩陣,其公式為
(10)
X″2和X″1中的聚類矩陣分別采用F和B表示,則網(wǎng)絡(luò)數(shù)據(jù)的最佳共享方案為
(11)
式中:用于共享的網(wǎng)絡(luò)數(shù)據(jù)聚類和抽取出嵌入向量分別用(ι)和κ(E)表示。
以上,完成了基于關(guān)聯(lián)挖掘算法對(duì)網(wǎng)絡(luò)數(shù)據(jù)可追蹤共享方法的設(shè)計(jì)。
為證明本文方法在網(wǎng)絡(luò)數(shù)據(jù)共享中的應(yīng)用性能和共享效果,通過(guò)仿真平臺(tái)對(duì)本文提出的基于關(guān)聯(lián)挖掘算法的網(wǎng)絡(luò)數(shù)據(jù)可追蹤共享仿真方法進(jìn)行測(cè)試。
本測(cè)試采用Matlab仿真軟件構(gòu)建網(wǎng)絡(luò)數(shù)據(jù)共享仿真平臺(tái)。平臺(tái)中的數(shù)據(jù)開(kāi)發(fā)使用ASP.NET WEB服務(wù)完成。通過(guò)XHTML語(yǔ)言技術(shù)完成數(shù)據(jù)間差異化格式的轉(zhuǎn)換,通過(guò)NET Frame work存儲(chǔ)器實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)以及ASP. NET和B,J Script NET數(shù)據(jù)運(yùn)行庫(kù)程序?qū)崿F(xiàn)。實(shí)驗(yàn)過(guò)程中面對(duì)對(duì)象可視化集成編輯系統(tǒng)軟件采用Visual C++6.0完成。
以某網(wǎng)站連續(xù)6個(gè)月內(nèi)的用戶數(shù)據(jù)為實(shí)驗(yàn)對(duì)象,以月為單位對(duì)該數(shù)據(jù)實(shí)行集合處理(6個(gè)數(shù)據(jù)集編號(hào)分別為1、2、3、4、5、6),其公式為
hn=[support(ν)congfidence(φ)]
(12)
式中:ν和φ分別表示挖掘的限制條件和興趣程度。
在數(shù)據(jù)挖掘過(guò)程中產(chǎn)生的波動(dòng)會(huì)對(duì)挖掘后的數(shù)據(jù)質(zhì)量造成影響,因此,數(shù)據(jù)的規(guī)范性P對(duì)于挖掘過(guò)程中產(chǎn)生的波動(dòng)具備有效的避免作用,保證其最佳的規(guī)范取值,可提升本文方法數(shù)據(jù)挖掘性能以及保證所挖掘數(shù)據(jù)的質(zhì)量。測(cè)試其在不同取值情況下,波動(dòng)的變化情況,結(jié)果如圖1所示。
圖1 不同波動(dòng)系數(shù)取值的波動(dòng)測(cè)試結(jié)果
根據(jù)圖1測(cè)試結(jié)果可知:波動(dòng)數(shù)值的結(jié)果隨著P取值的變化呈現(xiàn)不同的波動(dòng)效果。其中波動(dòng)由此可確定仿真過(guò)程中,本文方法的P取值應(yīng)為60%,此時(shí)可保證在對(duì)目標(biāo)數(shù)據(jù)集實(shí)行挖掘時(shí)產(chǎn)生的波動(dòng)最小,最大程度保證挖掘后數(shù)據(jù)質(zhì)量。
在數(shù)據(jù)共享前,關(guān)聯(lián)規(guī)則的制定對(duì)于數(shù)據(jù)共享結(jié)果存在直接影響,關(guān)聯(lián)規(guī)則的制定則依據(jù)支持度(Support)和可信度(Confidence)實(shí)行描述。因此,關(guān)聯(lián)規(guī)則的形成需保證規(guī)則滿足兩者的最小標(biāo)準(zhǔn)。測(cè)試在不同Supporthe和Confidence時(shí),6個(gè)測(cè)試集的數(shù)據(jù)集關(guān)聯(lián)強(qiáng)度(超過(guò)96.5%為目標(biāo)標(biāo)準(zhǔn))的變化,確定兩者的最小標(biāo)準(zhǔn),結(jié)果如表1所示。由于篇幅有限,結(jié)果僅呈現(xiàn)數(shù)據(jù)集3的測(cè)試結(jié)果。
表1 關(guān)聯(lián)強(qiáng)度變化結(jié)果
根據(jù)表1測(cè)試結(jié)果可知:為保證數(shù)據(jù)集關(guān)聯(lián)強(qiáng)度達(dá)到目標(biāo)標(biāo)準(zhǔn),關(guān)聯(lián)規(guī)則的最小支持度和可信度需分別達(dá)到0.3和0.5,此時(shí)可保證本文方法所挖掘數(shù)據(jù)之間關(guān)聯(lián)強(qiáng)度較高,形成強(qiáng)關(guān)聯(lián)規(guī)則,為數(shù)據(jù)共享提升基礎(chǔ)保障。
采用本文方法對(duì)6個(gè)數(shù)據(jù)集實(shí)行挖掘,測(cè)試6個(gè)數(shù)據(jù)集在挖掘過(guò)程中發(fā)生的波動(dòng)情況,為直觀分析本文方法的數(shù)據(jù)挖掘效果,同時(shí)采用基于區(qū)塊鏈的數(shù)據(jù)共享方法(文獻(xiàn)[4]方法)和云環(huán)境中基于信任分散策略的數(shù)據(jù)共享方法(文獻(xiàn)[5]方法)分別對(duì)該數(shù)據(jù)實(shí)行挖掘,獲取兩種對(duì)比方法的波動(dòng)情況,并與本文方法實(shí)行對(duì)比,結(jié)果分別如圖2、圖3、圖4所示。由于篇幅有限,結(jié)果僅呈現(xiàn)數(shù)據(jù)集3的測(cè)試結(jié)果。
圖2 本文方法的波動(dòng)結(jié)果
圖3 文獻(xiàn)[4]方法的波動(dòng)結(jié)果
圖4 文獻(xiàn)[5]方法的波動(dòng)結(jié)果
根據(jù)圖2、圖3和圖4測(cè)試結(jié)果可知:本文方法在對(duì)該數(shù)據(jù)集實(shí)行挖掘過(guò)程中產(chǎn)生的波動(dòng)范圍在0.3-0.5之間,處于標(biāo)準(zhǔn)波動(dòng)范圍內(nèi);文獻(xiàn)[4]方法和文獻(xiàn)[5]方法在對(duì)數(shù)據(jù)集實(shí)行挖掘過(guò)程中產(chǎn)生的波動(dòng)范圍較大,均超過(guò)標(biāo)準(zhǔn)波動(dòng)范圍。并且在干擾程度逐漸提升的情況下,本文方法的波動(dòng)變化極小,處于平穩(wěn)狀態(tài),沒(méi)有出現(xiàn)明顯影響;兩種對(duì)比方法則整體隨著干擾程度的增加呈現(xiàn)波動(dòng)范圍增加現(xiàn)象。該結(jié)果表明,本文方法在對(duì)數(shù)據(jù)實(shí)行挖掘的性能較好,其主要是可對(duì)P實(shí)行調(diào)整,獲取最穩(wěn)定的數(shù)據(jù)挖掘效果。
為衡量本文方法的數(shù)據(jù)共享性能和效果,以數(shù)據(jù)關(guān)聯(lián)強(qiáng)度、共享數(shù)據(jù)質(zhì)量作為衡量標(biāo)準(zhǔn),分別統(tǒng)計(jì)三種方法的測(cè)試結(jié)果,如表2所示。其中共享數(shù)據(jù)質(zhì)量的數(shù)值越接近于1表示共享數(shù)據(jù)的質(zhì)量越好。
表2 三種方法的對(duì)比結(jié)果
根據(jù)表2測(cè)試結(jié)果可知:本文方法在實(shí)行6個(gè)數(shù)據(jù)集的共享過(guò)程中的關(guān)聯(lián)強(qiáng)度最佳,均在97%以上;文獻(xiàn)[4]方法和文獻(xiàn)[5]方法在實(shí)行6個(gè)數(shù)據(jù)集的共享過(guò)程中的關(guān)聯(lián)強(qiáng)度結(jié)果均顯著低于本文方法,均在91%以下;同時(shí)本文方法對(duì)于6個(gè)數(shù)據(jù)集的共享質(zhì)量較高,均高于0.959,文獻(xiàn)[4]方法和文獻(xiàn)[5]方法的共享數(shù)據(jù)質(zhì)量則就相對(duì)較差。該情況是受到數(shù)據(jù)挖掘時(shí)產(chǎn)生的波動(dòng)影響導(dǎo)致,本文方法產(chǎn)生的波動(dòng)較低,因此共享數(shù)據(jù)的質(zhì)量很高,可實(shí)現(xiàn)數(shù)據(jù)的最佳共享結(jié)果。該結(jié)果表明,本文方法的數(shù)據(jù)共享可利用率高,共享效果良好,可最大程度保證數(shù)據(jù)共享需求。
網(wǎng)絡(luò)數(shù)據(jù)共享是順應(yīng)當(dāng)下大數(shù)據(jù)以及云計(jì)算技術(shù)迅速發(fā)展的一種數(shù)據(jù)應(yīng)用的主要手段,但是由于網(wǎng)絡(luò)中的數(shù)據(jù)存在復(fù)雜以及多樣化等特性,對(duì)實(shí)現(xiàn)數(shù)據(jù)共享造成一定難度。本文針對(duì)網(wǎng)絡(luò)數(shù)據(jù)共享的高效、穩(wěn)定的實(shí)現(xiàn),提出基于關(guān)聯(lián)挖掘算法的網(wǎng)絡(luò)數(shù)據(jù)可追蹤共享仿真,并通過(guò)構(gòu)建仿真平臺(tái)展開(kāi)相關(guān)的測(cè)試,驗(yàn)證了本文方法的性能和效果。驗(yàn)證結(jié)果顯示:本文方法具備一定可控性,可保證數(shù)據(jù)在挖掘過(guò)程中的波動(dòng)較小,有效保證了挖掘數(shù)據(jù)的質(zhì)量以及較高的關(guān)聯(lián)強(qiáng)度,保證網(wǎng)絡(luò)數(shù)據(jù)的最佳共享。