李洪波,周春姐
(魯東大學(xué)信息與電氣工程學(xué)院,山東 煙臺(tái) 264025)
計(jì)算機(jī)技術(shù)水平發(fā)展的同時(shí),現(xiàn)代企業(yè)和個(gè)人所需要的信息數(shù)據(jù)要求也越來(lái)越高,造成了現(xiàn)代網(wǎng)絡(luò)數(shù)據(jù)中心面臨無(wú)法有效調(diào)配、匯總數(shù)據(jù)以及無(wú)法滿足當(dāng)前網(wǎng)絡(luò)用戶對(duì)信息數(shù)據(jù)量穩(wěn)定性、安全性以及加密性的各方面需求的雙重矛盾。在這樣的情況下,尋求一種基于當(dāng)前通信大數(shù)據(jù)特征屬性,進(jìn)行通信大數(shù)據(jù)引導(dǎo)融合的方法成為了當(dāng)前網(wǎng)絡(luò)數(shù)據(jù)中心研究領(lǐng)域亟待解決的核心問(wèn)題[1]。
由于目前絕大多數(shù)通信網(wǎng)絡(luò)由多種網(wǎng)絡(luò)節(jié)點(diǎn)構(gòu)成,其目的就是綜合網(wǎng)絡(luò)大數(shù)據(jù),滿足云計(jì)算下的用戶要求。所以有關(guān)人員相繼提出根據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)和輻射區(qū)進(jìn)行屬性特征融合的數(shù)據(jù)融合策略,這種策略可以簡(jiǎn)稱為“節(jié)點(diǎn)融合”[2]。節(jié)點(diǎn)融合主要依靠PHD節(jié)電傳感器,根據(jù)濾波算法模擬出各節(jié)點(diǎn)的狀態(tài)特征,計(jì)算數(shù)據(jù)關(guān)聯(lián)度,并采用協(xié)方差交流法,實(shí)現(xiàn)數(shù)據(jù)引導(dǎo)融合。此外還有人提出了基于支持向量機(jī)的屬性融合方法和基于深度學(xué)習(xí)的屬性融合方法。前者通過(guò)訓(xùn)練傳感器的屬性信息融合度預(yù)測(cè)值,以此獲取數(shù)據(jù)融合閾值,根據(jù)閾值的高低能否達(dá)到標(biāo)準(zhǔn)值,獲取最終的融合結(jié)果;二者需匯聚網(wǎng)絡(luò)中全部數(shù)據(jù)節(jié)點(diǎn)特征,并利用CNNM模型獲取每個(gè)節(jié)點(diǎn)終端的數(shù)據(jù)原始特征,在此基礎(chǔ)上,將得到的特征結(jié)果及融合數(shù)據(jù)傳輸?shù)絽R聚節(jié)點(diǎn),完成數(shù)據(jù)融合。
上述幾種通信大數(shù)據(jù)屬性引導(dǎo)融合方法均存在屬性節(jié)點(diǎn)生存期較短的問(wèn)題,究其根本在于,對(duì)當(dāng)前數(shù)據(jù)進(jìn)行粗獷式融合,沒(méi)有真正做到數(shù)據(jù)屬性特征梳理,導(dǎo)致節(jié)點(diǎn)屬性很容易同化或錯(cuò)亂[3]。為了有效解決屬性節(jié)點(diǎn)生存期較短問(wèn)題,提出新型云計(jì)算下通信大數(shù)據(jù)特征融合技術(shù)。
在對(duì)當(dāng)前通信大數(shù)據(jù)多屬性特征引導(dǎo)融合過(guò)程中,因?yàn)閿?shù)據(jù)堆積環(huán)境的負(fù)載特殊性,需要將當(dāng)前用戶所需要的特征數(shù)據(jù)先劃分為不同的數(shù)據(jù)團(tuán),根據(jù)每個(gè)數(shù)據(jù)團(tuán)最關(guān)鍵的屬性信息,劃分為各個(gè)數(shù)據(jù)塊,并求得數(shù)據(jù)塊密度[4],以數(shù)據(jù)塊密度作為數(shù)據(jù)團(tuán)集成標(biāo)簽,最終完成信息數(shù)據(jù)團(tuán)集成。以下為具體集成步驟:
假設(shè)A代表當(dāng)前數(shù)據(jù)G的最高有效連續(xù)性矩陣,V,E代表當(dāng)前通信數(shù)據(jù)的實(shí)際節(jié)點(diǎn)以及數(shù)據(jù)邊的集合,P代表當(dāng)前數(shù)據(jù)的預(yù)設(shè)劃分,Gi代表當(dāng)前劃分P的一個(gè)實(shí)際數(shù)據(jù)團(tuán),Vi,Ei分別代表當(dāng)前數(shù)據(jù)團(tuán)Gi的實(shí)際節(jié)點(diǎn)和邊的數(shù)據(jù)集合,根據(jù)式(1)將當(dāng)前用戶信息全部劃分為不同中的數(shù)據(jù)團(tuán),其表達(dá)式為
(1)
對(duì)獲取的數(shù)據(jù)團(tuán)進(jìn)行數(shù)據(jù)劃分,得到劃分后的數(shù)據(jù)模塊p(g),其表達(dá)式為
(2)
式中,L(Vi,Vj)代表當(dāng)前節(jié)點(diǎn)集合的實(shí)際邊數(shù)據(jù)量,I(s,t)代表當(dāng)前通信大數(shù)據(jù)的實(shí)際信息增益值,?(E)代表不同連度下的節(jié)點(diǎn)數(shù)據(jù)量,R(z,p)代表當(dāng)前大數(shù)據(jù)的屬性劃分,?(h)代表各個(gè)節(jié)點(diǎn)對(duì)當(dāng)前數(shù)據(jù)模塊的實(shí)際貢獻(xiàn)值[5]。
在式(2)的基礎(chǔ)上,對(duì)數(shù)據(jù)模塊的密度μ*(s)進(jìn)行計(jì)算,其計(jì)算公式為
(3)
式中,Aij代表當(dāng)前通信大數(shù)據(jù)之間的連接性矩陣,L代表數(shù)據(jù)節(jié)點(diǎn)V和Vj之間數(shù)據(jù)邊界的數(shù)量,則可以根據(jù)公式直接定義當(dāng)前數(shù)據(jù)模塊的密度,λ(d)代表當(dāng)前數(shù)據(jù)節(jié)點(diǎn)的實(shí)際原始數(shù)據(jù),ε(E)代表不同數(shù)據(jù)之間的屬性值關(guān)聯(lián)類別和規(guī)則[6-7]。
通過(guò)上述步驟完成數(shù)據(jù)塊的密度求解,數(shù)據(jù)塊密度可視為數(shù)據(jù)團(tuán)的集成標(biāo)簽,根據(jù)標(biāo)簽?zāi)軌驅(qū)崿F(xiàn)數(shù)據(jù)團(tuán)進(jìn)行集成劃分。在此基礎(chǔ)上需要計(jì)算集成標(biāo)簽的初始重要程度。
假設(shè)RC(ei→ej)代表當(dāng)前數(shù)據(jù)塊ei和ej之間的相對(duì)距離,根據(jù)式(4)計(jì)算當(dāng)前數(shù)據(jù)塊的實(shí)際權(quán)值。其計(jì)算公式為
(4)
式中,m代表當(dāng)前通信大數(shù)據(jù)基礎(chǔ)數(shù)據(jù)團(tuán)的總量,sim(Tp)代表任意兩個(gè)數(shù)據(jù)聚類之間的實(shí)際關(guān)系距離的平均值[8]。
(5)
式中,vi代表當(dāng)前數(shù)據(jù)內(nèi)部的實(shí)際節(jié)點(diǎn)總量,Degree(e)代表當(dāng)前模式圖G中,數(shù)據(jù)表e的相對(duì)節(jié)點(diǎn)數(shù)量,γ(W)代表用戶核心數(shù)據(jù)樣本類型數(shù)據(jù)集,μ(x)為樣本中的數(shù)據(jù)種類比[9]。
利用R,S分別指代當(dāng)前大數(shù)據(jù)網(wǎng)絡(luò)用戶所需要的不同數(shù)據(jù)聚類主題,則根據(jù)數(shù)據(jù)源的聚類思想,將不同類型數(shù)據(jù)團(tuán)進(jìn)行有效集成,作為當(dāng)前大數(shù)據(jù)信息不同數(shù)據(jù)類別的主題組,根據(jù)式(6)進(jìn)行表述。
(6)
式中,Ti和Tj分別代表當(dāng)前數(shù)據(jù)組中的數(shù)據(jù)表,Tp代表關(guān)系數(shù)據(jù)表Ti的權(quán)值。φ(C)代表當(dāng)前數(shù)據(jù)團(tuán)集成聚類的結(jié)果數(shù)量[10]。
綜上所述可以確定,對(duì)當(dāng)前數(shù)據(jù)堆積環(huán)境下的使用用戶,在進(jìn)行通信大數(shù)據(jù)分類過(guò)程中,可以采用上述方法將其全部轉(zhuǎn)化為不同類型的數(shù)據(jù)團(tuán),再根據(jù)數(shù)據(jù)聚類思想將數(shù)據(jù)團(tuán)中的通信數(shù)據(jù)信息和數(shù)據(jù)屬性特征優(yōu)化成不同的數(shù)據(jù)組,以此實(shí)現(xiàn)數(shù)據(jù)海量堆積情況下的數(shù)據(jù)團(tuán)集成。
通過(guò)上述聚類集成方法將數(shù)據(jù)信息進(jìn)行高度集成以后,即可將集成獲取的信息團(tuán)進(jìn)行分解,對(duì)信息屬性特征進(jìn)行計(jì)算。采用粗糙集計(jì)算方法,對(duì)當(dāng)前集成信息團(tuán)的數(shù)據(jù)屬性進(jìn)行評(píng)估,從而為后續(xù)特征引導(dǎo)融合提供數(shù)據(jù)基礎(chǔ)[11-12]。
設(shè)E為當(dāng)前數(shù)據(jù)決策樹(shù)的屬性描述數(shù)值,D為當(dāng)前數(shù)據(jù)屬性架構(gòu)的集合,則信息團(tuán)分解公式為
(7)
式中,QD(E)表示當(dāng)前信息特征屬性E對(duì)當(dāng)前屬性架構(gòu)集合D的正域描述,V表示當(dāng)前數(shù)據(jù)特征集合的實(shí)際基數(shù)。根據(jù)式(7)對(duì)分解后的信息團(tuán)進(jìn)行屬性特征計(jì)算,其表達(dá)式為
η′=η-Dj
(8)
式中,Dj表示數(shù)據(jù)屬性的對(duì)應(yīng)條件依賴程度,即該數(shù)據(jù)在特征數(shù)據(jù)集中的權(quán)重[12]。
根據(jù)粗糙集來(lái)確定數(shù)據(jù)屬性特征比例關(guān)系,需要對(duì)當(dāng)前通信大數(shù)據(jù)特征權(quán)重值進(jìn)行計(jì)算,其詳細(xì)步驟如下:
step1:根據(jù)運(yùn)算數(shù)據(jù)能夠獲取的計(jì)算屬性值,可以獲取當(dāng)前數(shù)據(jù)集屬性集合權(quán)重,即數(shù)據(jù)集屬性集合依賴值,計(jì)算公式如下
(9)
setp2:根據(jù)式(9)獲取的數(shù)據(jù),進(jìn)一步計(jì)算當(dāng)前屬性Dk對(duì)當(dāng)前數(shù)據(jù)屬性SE的依賴性,即
(10)
setp3:根據(jù)以下公式計(jì)算當(dāng)前數(shù)據(jù)集第j個(gè)數(shù)據(jù)屬性的歸一性系數(shù)。
(11)
根據(jù)上述的公式可以對(duì)當(dāng)前數(shù)據(jù)屬性權(quán)重進(jìn)行計(jì)算,以最大權(quán)值作為模糊決策樹(shù)的根節(jié)點(diǎn)、然后開(kāi)始進(jìn)行特征計(jì)算。
設(shè)通信大數(shù)據(jù)構(gòu)成集合可以用Y={(yj,zj)|j=1,2…,e}表示,其中,yj=(yj1,yj2,…yje)能夠用于描述當(dāng)前數(shù)據(jù)的權(quán)值集合;(B1,B2,…,Be)用于描述當(dāng)前數(shù)據(jù)的對(duì)應(yīng)屬性值。根據(jù)下列公式可以確定當(dāng)前數(shù)據(jù)特征集合的綜合期望值。
(12)
假設(shè),當(dāng)前的數(shù)據(jù)屬性為Bg(g=1,2,…,e),擁有r個(gè)不同屬性的信息權(quán)值,則將其屬性分解溝可以獲取如下描述
(13)
利用當(dāng)前公式可計(jì)算的數(shù)據(jù)屬性Bg可以確定其信息增益對(duì)比值。
(14)
根據(jù)以下公式數(shù)據(jù),可以針對(duì)上述計(jì)算獲取的增益對(duì)比值,建立優(yōu)化決策樹(shù)
(15)
將當(dāng)前信息的增益比最大值數(shù)據(jù)作為數(shù)據(jù)決策樹(shù)的各項(xiàng)分支數(shù)據(jù),以此建立決策數(shù)據(jù)節(jié)點(diǎn)。再根據(jù)節(jié)點(diǎn)信息屬性權(quán)重,設(shè)置對(duì)應(yīng)分支,從而獲取下級(jí)對(duì)應(yīng)子節(jié)點(diǎn),完成整個(gè)決策樹(shù)的建立。
根據(jù)上述闡述的方法,可以計(jì)算數(shù)據(jù)屬性的信息量,從而進(jìn)行數(shù)據(jù)特征挖掘,完成數(shù)據(jù)屬性的特征計(jì)算。
屬性特征計(jì)算完畢后,需要對(duì)其進(jìn)一步排序,才能進(jìn)行最后的屬性引導(dǎo)融合。通過(guò)輸入輸出關(guān)聯(lián)法,排序和計(jì)算當(dāng)前決策樹(shù)信息屬性特征權(quán)值。同時(shí),采用分離法對(duì)去掉部分屬性的當(dāng)前信息進(jìn)行信息組內(nèi)距離間距比值的計(jì)算,并根據(jù)聯(lián)系法對(duì)輸入和輸出特征的屬性關(guān)聯(lián)度進(jìn)行計(jì)算,其計(jì)算公式為
(16)
(17)
在式(16)與式(17)中,S(k)表示當(dāng)前數(shù)據(jù)屬性下實(shí)際輸入值的關(guān)聯(lián)梯度;C(k)表示當(dāng)前數(shù)據(jù)屬性下實(shí)際分離值的關(guān)聯(lián)梯度;sign代表當(dāng)前數(shù)據(jù)符號(hào)函數(shù);SWK代表去k特征數(shù)據(jù)間的組內(nèi)距離;SBK代表去k特征數(shù)據(jù)之間的組間距離。x(i,k)和y(i)分別表示當(dāng)前樣本數(shù)據(jù)的屬性值和輸出值,此時(shí)數(shù)據(jù)k屬性的權(quán)值可以根據(jù)以下公式進(jìn)行計(jì)算。
R(k)=αS(k)+(1-α)C(k)
(18)
式中,α為常數(shù)項(xiàng),其值為0到1之間。
式(18)中,通信數(shù)據(jù)屬性的原始數(shù)據(jù)較大,也會(huì)導(dǎo)致其屬性特征權(quán)值增大。反之則會(huì)減小。這就導(dǎo)致了在后續(xù)特征引導(dǎo)時(shí)會(huì)出現(xiàn)信息數(shù)據(jù)屬性誤差,因此需要對(duì)當(dāng)前數(shù)據(jù)特征屬性進(jìn)行歸一化處理,從而有效消除數(shù)據(jù)誤差。設(shè)計(jì)采用最大規(guī)范法,對(duì)當(dāng)前原始數(shù)據(jù)進(jìn)行線性交叉,設(shè)minA和maxA分別表示當(dāng)前數(shù)據(jù)實(shí)行的最大值和最小值,計(jì)算式如下:
(nmax(A)-min(A)+nmin(A))
(19)
通過(guò)上述公式,可以獲取對(duì)當(dāng)前通信信息排序的方法,輸入和輸出的數(shù)據(jù)關(guān)聯(lián)公式如下
(20)
根據(jù)以上關(guān)系式和通信大數(shù)據(jù)樣本值的計(jì)算變化,可以獲取當(dāng)前特征輸入值和輸出值的重要性衡量,對(duì)于特征數(shù)據(jù)庫(kù)屬性樣本值,輸入和輸出變化越大,屬性的重要程度就越高,再根據(jù)當(dāng)前數(shù)據(jù)信息量計(jì)算重要性進(jìn)行排序計(jì)算,即可完成最終結(jié)果排序。
通過(guò)尋找和提取數(shù)據(jù)特征,盡可能明確當(dāng)前通信數(shù)據(jù)的特征子集,在利用上述計(jì)算公式對(duì)特征進(jìn)行過(guò)濾式選取。在2.3節(jié)提出的特征排序的基礎(chǔ)上,利用比對(duì)法篩選當(dāng)前大數(shù)據(jù)的特征屬性需求性。
通過(guò)相似性度量方法對(duì)不同數(shù)據(jù)樣本的數(shù)據(jù)相似程度進(jìn)行描述,描述過(guò)程通常采用歐氏距離計(jì)算,該算法表示為
(21)
式中,p和p′表示當(dāng)前通信數(shù)據(jù),d(p,p′)為數(shù)據(jù)中的信息需求實(shí)際差異性,fi和fi′分別表示數(shù)據(jù)內(nèi)p,和p′中第i個(gè)特征數(shù)取值。wi取值為1時(shí),表示當(dāng)前特征沒(méi)有被融合;d表示數(shù)據(jù)維數(shù)。
利用相似數(shù)據(jù)K對(duì)當(dāng)前通信數(shù)據(jù)進(jìn)行估算,在選擇同類型數(shù)據(jù)后,需要對(duì)其進(jìn)行調(diào)整,確定數(shù)據(jù)評(píng)估結(jié)果。利用平均值法,選擇數(shù)據(jù)K作為平均值估算樣本數(shù)據(jù),并根據(jù)相似性進(jìn)行引導(dǎo)融合,融合公式為
(22)
式中,pk代表當(dāng)前數(shù)據(jù)p特征屬性最相近的數(shù)據(jù),d(p,pk)表示數(shù)據(jù)之間的實(shí)際距離;δ表示常數(shù)。
根據(jù)上述論述,在對(duì)當(dāng)前云計(jì)算通信數(shù)據(jù)特征屬性計(jì)算和排序后,利用當(dāng)前數(shù)據(jù)用戶信息間的數(shù)據(jù)相關(guān)性進(jìn)行數(shù)據(jù)度量,可以實(shí)現(xiàn)數(shù)據(jù)屬性的初選,再確定特征子集,最終實(shí)現(xiàn)多屬性的引導(dǎo)融合。
為了證明上述設(shè)計(jì)的云計(jì)算下通信大數(shù)據(jù)多屬性特征引導(dǎo)融合方法的可用性,需要進(jìn)行仿真。本文仿真平臺(tái)采用Weak3.08,憑借Weak3.08高效的數(shù)據(jù)特征仿真能力,對(duì)本文方法的有效性開(kāi)展實(shí)驗(yàn)。
仿真從當(dāng)前CUI數(shù)據(jù)庫(kù)中,調(diào)借了4個(gè)無(wú)任何標(biāo)簽的模塊化數(shù)據(jù)集(KGE、Docword、USC_nytimes、Househoid),實(shí)驗(yàn)通過(guò)比較上述設(shè)計(jì)的融合方法和傳統(tǒng)基于支持向量機(jī)的特征融合方法的仿真特性進(jìn)行有效性判別,特征參數(shù)選取數(shù)據(jù)節(jié)點(diǎn)融合能耗以及節(jié)點(diǎn)挖掘率。表1給出了實(shí)驗(yàn)所用的五組數(shù)據(jù)集具體情況。
表1 實(shí)驗(yàn)用數(shù)據(jù)集
仿真具有多個(gè)數(shù)據(jù)約簡(jiǎn)方法,通過(guò)對(duì)數(shù)據(jù)需求的特征識(shí)別和融合分類完成實(shí)驗(yàn)。圖1給出了實(shí)驗(yàn)中兩種方法的節(jié)點(diǎn)融合耗能,其結(jié)果如下。
圖1 融合能耗對(duì)比
根據(jù)圖1能耗數(shù)據(jù)可以看出,隨著數(shù)據(jù)量的疊加,兩種方法的能耗沒(méi)有明顯的增減變化,證明兩種方法均存在較高的穩(wěn)定性。但是根據(jù)數(shù)據(jù)結(jié)果可以看出,此次設(shè)計(jì)的融合方法與傳統(tǒng)向量機(jī)法相比,綜合能耗更小,平均能耗比例均在3%以下。
在相同的實(shí)驗(yàn)環(huán)境下,通過(guò)對(duì)比10組不同的實(shí)驗(yàn)數(shù)據(jù)的節(jié)點(diǎn)挖掘率,進(jìn)一步驗(yàn)證設(shè)計(jì)方法的有效性,其中A表示當(dāng)前組別序號(hào),X表示設(shè)計(jì)方法的挖掘率,Y表示傳統(tǒng)方法的挖掘率。具體數(shù)據(jù)如下。
表2 挖掘率對(duì)比表
因?yàn)閿?shù)據(jù)挖掘樣本完全隨機(jī)選擇,其數(shù)據(jù)類型和數(shù)據(jù)量較為多元化,所以兩個(gè)實(shí)驗(yàn)組獲取的挖掘率沒(méi)有明顯的規(guī)律。但是通過(guò)數(shù)據(jù)統(tǒng)計(jì)可以確定,上述設(shè)計(jì)方法的實(shí)際挖掘率明顯高于傳統(tǒng)方法,再次驗(yàn)證了本文方法的優(yōu)越性能。
高速增長(zhǎng)的通信數(shù)據(jù)是現(xiàn)代網(wǎng)絡(luò)資源整理匯總的核心,也是未來(lái)數(shù)據(jù)管理領(lǐng)域面臨的重要挑戰(zhàn)。提出的通信大數(shù)據(jù)多屬性特征引導(dǎo)融合方法可以有效提高節(jié)點(diǎn)存活周期,從而實(shí)現(xiàn)特征引導(dǎo)融合效率的提高。