宋蓓蓓
(安徽工業(yè)經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院 計算機(jī)與藝術(shù)學(xué)院,安徽 合肥 230051)
隨著動態(tài)分布式網(wǎng)絡(luò)信息傳輸技術(shù)的發(fā)展,動態(tài)協(xié)同網(wǎng)絡(luò)的數(shù)據(jù)信息維數(shù)越來越多,需要結(jié)合大數(shù)據(jù)和云信息處理技術(shù),構(gòu)建網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類挖掘模型,提高網(wǎng)絡(luò)數(shù)據(jù)的檢測和識別能力.通過網(wǎng)絡(luò)多屬性大數(shù)據(jù)的聚類挖掘和特征分析,構(gòu)建網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類分析模型[1],提高網(wǎng)絡(luò)的信息管理能力,相關(guān)的網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類挖掘方法研究,在網(wǎng)絡(luò)的組網(wǎng)設(shè)計和大數(shù)據(jù)信息管理中具有重要意義[2].
網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類挖掘建立在對數(shù)據(jù)候選特征分析的基礎(chǔ)上,通過貝葉斯關(guān)聯(lián)規(guī)則分析,進(jìn)行網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類挖掘[3],傳統(tǒng)方法的網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類挖掘方法主要有基于網(wǎng)絡(luò)爬蟲的大數(shù)據(jù)挖掘技術(shù)[4],通過設(shè)置網(wǎng)絡(luò)爬蟲TCP/IP協(xié)議棧,對網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行布局分配以實(shí)現(xiàn)數(shù)據(jù)采集,并通過解決網(wǎng)絡(luò)層次間的挖掘傳輸問題,完成聚類挖掘技術(shù)模型的搭建.基于模糊卷積神經(jīng)網(wǎng)絡(luò)的大數(shù)據(jù)聚類挖掘方法[5],構(gòu)建網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類挖掘的聯(lián)合特征分析模型,通過自相關(guān)統(tǒng)計分析和模糊度匹配,進(jìn)行網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類挖掘.但是上述傳統(tǒng)方法進(jìn)行網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類挖掘時的適應(yīng)度水平不高,抗干擾性不好.
針對傳統(tǒng)方法存在的弊端,本文提出基于差分進(jìn)化算法的網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類挖掘方法.在構(gòu)建網(wǎng)絡(luò)多屬性數(shù)據(jù)參數(shù)采集模型的基礎(chǔ)上,結(jié)合差分進(jìn)化算法進(jìn)行網(wǎng)絡(luò)多屬性大數(shù)據(jù)特征參數(shù)的聚類挖掘優(yōu)化設(shè)計,從而實(shí)現(xiàn)大數(shù)據(jù)特征聚類和可靠性挖掘.最后進(jìn)行仿真測試分析,顯示了本文方法在提高網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類挖掘能力方面的優(yōu)越性能.
為了實(shí)現(xiàn)基于差分進(jìn)化算法的網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類挖掘,構(gòu)建網(wǎng)絡(luò)多屬性大數(shù)據(jù)參數(shù)采集和優(yōu)化存儲結(jié)構(gòu)模型[6-7],并采用多維特征空間融合和匹配調(diào)度的方法,進(jìn)行網(wǎng)絡(luò)多屬性大數(shù)據(jù)的傳輸結(jié)構(gòu)分析.
首先采用演化貝葉斯參數(shù)估計方法,進(jìn)行網(wǎng)絡(luò)多屬性大數(shù)據(jù)的網(wǎng)格分塊區(qū)域調(diào)度[8],在臨近區(qū)域中,將邊緣特征融合測度作為網(wǎng)絡(luò)多屬性大數(shù)據(jù)挖掘的候選區(qū)域,遍歷這些區(qū)域獲得網(wǎng)絡(luò)多屬性大數(shù)據(jù)的聚類中心子集.在候選目標(biāo)集中,得到網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類信息熵為
(1)
式中,xi、xj表示網(wǎng)絡(luò)多屬性大數(shù)據(jù)挖掘候選區(qū)域在[i,j]矩陣下的信息權(quán)重值,σ表示候選目標(biāo)信息參數(shù).
采用熵函數(shù)聚類方法,進(jìn)行網(wǎng)絡(luò)多屬性大數(shù)據(jù)分布式概率重組,得到網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類的隨機(jī)概率密度的分布條件p(vi|y=1)
(2)
式中,μ0、σ0分別為網(wǎng)絡(luò)多屬性大數(shù)據(jù)的目標(biāo)樣本數(shù)據(jù)和標(biāo)準(zhǔn)信息差.
采用多維特征分解方法,進(jìn)行網(wǎng)絡(luò)多屬性大數(shù)據(jù)信息特征重構(gòu),得到網(wǎng)絡(luò)多屬性大數(shù)據(jù)的模糊信息聚類樣本分布為
(3)
通過構(gòu)造網(wǎng)絡(luò)多屬性大數(shù)據(jù)的分類存儲器,利用多維信息重組和分塊區(qū)域分解技術(shù),構(gòu)建網(wǎng)絡(luò)多屬性大數(shù)據(jù)的參數(shù)采集模型,其表達(dá)為
(4)
式中,α<ζ<β,l(z)為網(wǎng)絡(luò)多屬性大數(shù)據(jù)樣本位置,Dα和Dβ分別為正樣本和負(fù)樣本.根據(jù)參數(shù)采集結(jié)果,采用信道轉(zhuǎn)換和均衡配置方法進(jìn)行動態(tài)結(jié)構(gòu)性重組,得到網(wǎng)絡(luò)多屬性大數(shù)據(jù)存儲結(jié)構(gòu)模型如圖1所示.
圖1 網(wǎng)絡(luò)多屬性大數(shù)據(jù)存儲結(jié)構(gòu)模型
以網(wǎng)絡(luò)多屬性大數(shù)據(jù)的存儲結(jié)構(gòu)為基礎(chǔ)進(jìn)行分析,從而實(shí)現(xiàn)網(wǎng)絡(luò)多屬性大數(shù)據(jù)的優(yōu)化聚類和挖掘[9].
采用稀疏性特征分析方法進(jìn)行網(wǎng)絡(luò)多屬性大數(shù)據(jù)的隨機(jī)測量矩陣分解,結(jié)合快速特征收斂性控制方法,通過網(wǎng)絡(luò)多屬性樣本重組[10],得到網(wǎng)絡(luò)多屬性大數(shù)據(jù)的模糊相關(guān)系數(shù)
(5)
式中,lt為網(wǎng)絡(luò)多屬性大數(shù)據(jù)的聚類區(qū)域.
結(jié)合灰度特征重組和語義分布式融合方法,得到網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類的隨機(jī)概率密度函數(shù)
(6)
(7)
采用機(jī)器學(xué)習(xí)分類方法,得到網(wǎng)絡(luò)多屬性大數(shù)據(jù)的聯(lián)合特征分布參數(shù)φ和θ.采用重采樣策略,得到網(wǎng)絡(luò)大數(shù)據(jù)的特征隨機(jī)測量矩陣分解的計算公式
(8)
(9)
綜上分析,實(shí)現(xiàn)對網(wǎng)絡(luò)多屬性大數(shù)據(jù)存儲結(jié)構(gòu)分析和大數(shù)據(jù)特征分析[11].
在實(shí)現(xiàn)網(wǎng)絡(luò)多屬性大數(shù)據(jù)存儲特征分析的基礎(chǔ)上,采用快速特征收斂性控制方法,建立網(wǎng)絡(luò)多屬性大數(shù)據(jù)的隨機(jī)檢測模型,通過灰度特征信息重組方法,得到網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類的更新規(guī)則約束參量θ的解
(10)
根據(jù)網(wǎng)絡(luò)多屬性大數(shù)據(jù)的屬性分布進(jìn)行模糊聚類,得到網(wǎng)絡(luò)多屬性大數(shù)據(jù)差分進(jìn)化的約束相關(guān)性因子為
(11)
式中,R=(rij,aij)m×n表示網(wǎng)絡(luò)多屬性大數(shù)據(jù)融合的特征分布矩陣,基于數(shù)據(jù)層面構(gòu)建大數(shù)據(jù)分類模型,得到網(wǎng)絡(luò)多屬性大數(shù)據(jù)分類的聯(lián)合特征解
(12)
式中,tij表示數(shù)據(jù)空間的類間指數(shù)分布參數(shù),uij表示網(wǎng)絡(luò)多屬性大數(shù)據(jù)的互信息熵.
以P為網(wǎng)絡(luò)多屬性分布的概率密度,根據(jù)網(wǎng)絡(luò)多屬性大數(shù)據(jù)的融合參數(shù)滿足
(13)
式中,Ui,j(t)表示網(wǎng)絡(luò)多屬性大數(shù)據(jù)動態(tài)特征分布信息熵.
基于決策邊界的多數(shù)類樣本分析方法,得到共享的通道數(shù)為N,構(gòu)建網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類的聯(lián)合關(guān)聯(lián)決策函數(shù)為:
(14)
綜上分析,采用差分進(jìn)化方法,進(jìn)行網(wǎng)絡(luò)多屬性參數(shù)識別和聚類.
基于網(wǎng)絡(luò)多屬性大數(shù)據(jù)的特征融合結(jié)果,設(shè)定網(wǎng)絡(luò)多屬性大數(shù)據(jù)的互信息特征向量用vi表示,且vi=((w1,t1),(w2,t2),…,(wj,tj)),通過差分進(jìn)化方法進(jìn)行網(wǎng)絡(luò)多屬性大數(shù)據(jù)的聚類中心尋優(yōu).遍歷網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類區(qū)域的候選目標(biāo)集,得到多屬性大數(shù)據(jù)聚類的模糊集為
V=Pi∈P(i=1,2,…,m)+|vi+Ek|2.
(15)
使用聯(lián)合特征分布式進(jìn)化方法,得到網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類挖掘的公式為
(16)
式中,Vi表示網(wǎng)絡(luò)多屬性大數(shù)據(jù)的關(guān)聯(lián)分析度量值.
在非線性可分的數(shù)據(jù)集中,得到網(wǎng)絡(luò)多屬性聚類挖掘輸出的相似度系數(shù)為
(17)
式中,pi,j(t)為網(wǎng)絡(luò)多屬性大數(shù)據(jù)的分布集,Δp(t)為網(wǎng)絡(luò)多屬性大數(shù)據(jù)分布的聯(lián)合特征參數(shù)分布集.用4元組(Ei,Ej,d,t)來表示網(wǎng)絡(luò)多屬性大數(shù)據(jù)的主特征量,采用決策樹調(diào)度和多屬性差分進(jìn)化算法,得到聚類挖掘輸出的聯(lián)合特征量
(18)
式中,m為網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類挖掘的進(jìn)化維數(shù),(dik)2為非線性數(shù)據(jù)集.
結(jié)合差分進(jìn)化算法,構(gòu)建網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類挖掘優(yōu)化模型,其表示為
(19)
式中,‖xk‖2表示網(wǎng)絡(luò)多屬性大數(shù)據(jù)的決策性自變量.
綜上分析,通過差分進(jìn)化算法進(jìn)行網(wǎng)絡(luò)多屬性大數(shù)據(jù)的聚類中心尋優(yōu),實(shí)現(xiàn)對網(wǎng)絡(luò)多屬性大數(shù)據(jù)的特征聚類和可靠性挖掘.實(shí)現(xiàn)過程如圖2所示.
圖2 網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類挖掘?qū)崿F(xiàn)過程
網(wǎng)絡(luò)多屬性大數(shù)據(jù)采集的樣本長度為1024,數(shù)據(jù)分類的屬性為12,關(guān)聯(lián)規(guī)則分布維數(shù)為5,相似度融合系數(shù)為0.36,差分進(jìn)化的迭代次數(shù)為100,根據(jù)上述參數(shù)設(shè)定,得到網(wǎng)絡(luò)多屬性大數(shù)據(jù)統(tǒng)計特征量分布如圖3所示.
圖3 網(wǎng)絡(luò)多屬性大數(shù)據(jù)統(tǒng)計特征量分布
根據(jù)圖3所示的大數(shù)據(jù)統(tǒng)計特征量分布檢測結(jié)果,實(shí)現(xiàn)數(shù)據(jù)聚類,得到聚類挖掘預(yù)測效果如圖4所示.
圖4 數(shù)據(jù)聚類挖掘預(yù)測值
分析圖4得知,本文方法進(jìn)行網(wǎng)絡(luò)多屬性大數(shù)據(jù)的特征聚類挖掘的聚斂度水平較高,數(shù)據(jù)聚類融合性較好.
為了進(jìn)一步驗(yàn)證本文方法的應(yīng)用性能,將文獻(xiàn)[4]方法和文獻(xiàn)[5]方法作為對比方法,與本文方法分別就其數(shù)據(jù)分類的準(zhǔn)確率與聚類挖掘的識別率兩項(xiàng)指標(biāo)進(jìn)行對比分析,記錄運(yùn)用三種方法進(jìn)行網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類挖掘的數(shù)據(jù)分類的準(zhǔn)確率,得到對比結(jié)果如圖5所示.
圖5 數(shù)據(jù)分類正確率
對比圖5得知,本文方法對網(wǎng)絡(luò)多屬性大數(shù)據(jù)分類的正確率較高,明顯高于文獻(xiàn)[4]和文獻(xiàn)[5]方法的正確率,由此可見,本文方法進(jìn)行網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類挖掘的性能更好.
運(yùn)用三種方法測試網(wǎng)絡(luò)多屬性大數(shù)據(jù)挖掘的識別率,得到對比結(jié)果如圖6所示.
圖6 數(shù)據(jù)聚類挖掘的識別率
根據(jù)圖6得知對比結(jié)果得知,本文方法進(jìn)行網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類挖掘的識別率較高,且相對穩(wěn)定,由此可知,本文方法能夠有效提高網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類挖掘的識別率.
構(gòu)建網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類分析模型,提高網(wǎng)絡(luò)的信息管理能力,本文提出基于差分進(jìn)化算法的網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類挖掘方法.采用多維特征空間融合和匹配調(diào)度的方法,進(jìn)行網(wǎng)絡(luò)多屬性大數(shù)據(jù)的傳輸結(jié)構(gòu)分析,采用稀疏性特征分析方法進(jìn)行網(wǎng)絡(luò)多屬性大數(shù)據(jù)的隨機(jī)測量矩陣分解.采用快速特征收斂性控制的方法,建立網(wǎng)絡(luò)多屬性大數(shù)據(jù)的隨機(jī)檢測模型,采用差分進(jìn)化方法,進(jìn)行網(wǎng)絡(luò)多屬性參數(shù)識別和聚類挖掘.研究得知,本文方法進(jìn)行網(wǎng)絡(luò)多屬性大數(shù)據(jù)聚類的收斂性較好,特征聚類性較強(qiáng),提高了數(shù)據(jù)的檢測識別率.