亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)流動態(tài)挖掘*

        2020-05-04 07:05:20熊菊霞吳盡昭
        計算機工程與科學(xué) 2020年4期
        關(guān)鍵詞:敏感數(shù)據(jù)散度數(shù)據(jù)流

        熊菊霞,吳盡昭

        (1.中國科學(xué)院成都計算機應(yīng)用研究所,四川 成都 610041;2.中國科學(xué)院大學(xué),北京 100049;3.廣西民族大學(xué)廣西混雜計算與集成電路設(shè)計分析重點實驗室,廣西 南寧 530006)

        1 引言

        在異構(gòu)復(fù)雜信息網(wǎng)絡(luò)中,網(wǎng)絡(luò)基元結(jié)構(gòu)具有差異性,通常包含大量的敏感數(shù)據(jù)流,從數(shù)據(jù)流中提取有用特征是十分重要的工作[1]。但是,由于異構(gòu)網(wǎng)絡(luò)中不同結(jié)構(gòu)的網(wǎng)絡(luò)數(shù)據(jù)存在較強的動態(tài)變化,如何對異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)流進(jìn)行有效的動態(tài)挖掘,成為現(xiàn)在數(shù)據(jù)挖掘領(lǐng)域中重要的問題[2]。

        專家學(xué)者們提出一些關(guān)于網(wǎng)絡(luò)敏感數(shù)據(jù)流的挖掘方法。茹蓓等人[3]提出一種減少候選項集的數(shù)據(jù)流挖掘算法,通過數(shù)據(jù)掃描窗口建立全局樹,基于全局樹生成數(shù)據(jù)候選模式,從候選模式中選取出高效用的挖掘模式,完成數(shù)據(jù)挖掘。劉華成等人[4]提出一種動態(tài)調(diào)度的延遲敏感流網(wǎng)絡(luò)挖掘算法,采用能量最小化組合方程來節(jié)約挖掘時間,采用分解定界算法來提升分類器處理速度。趙小強等人[5]提出一種基于改進(jìn)模糊支持向量機FSVM(Fuzzy Support Vector Machine)的數(shù)據(jù)挖掘分類算法,預(yù)選出有效的候選支持向量,并對其進(jìn)行增強處理,在此基礎(chǔ)上設(shè)計隸屬度函數(shù)完成挖掘。劉洋等人[6]對大數(shù)據(jù)挖掘算法進(jìn)行分析,根據(jù)模型向量的改變量優(yōu)化數(shù)據(jù)迭代過程,在不同階段選擇不同的迭代和數(shù)據(jù)處理方式,以提高挖掘性能。

        國外眾多學(xué)者也對此進(jìn)行了研究,并取得了較多突出的成果,Malik等人[7]指出,隨著數(shù)據(jù)規(guī)模的不斷擴大,利用現(xiàn)有的方法進(jìn)行數(shù)據(jù)挖掘時,內(nèi)存往往容易成為瓶頸問題,因此很多科研人員從多個角度對數(shù)據(jù)挖掘方法進(jìn)行了改進(jìn)。比如,美國學(xué)者Freitas等人[8]針對大規(guī)模的數(shù)據(jù)進(jìn)行分析,先對原始數(shù)據(jù)集進(jìn)行簡單排序,其次分析網(wǎng)絡(luò)內(nèi)存的實現(xiàn)機制,在時間局部性方面進(jìn)行重點分析,以滿足大規(guī)模數(shù)據(jù)挖掘需求。Belorkar等人[9]利用敏感網(wǎng)絡(luò)對異構(gòu)基因表達(dá)數(shù)據(jù)進(jìn)行了分析,主要研究數(shù)據(jù)的異質(zhì)性,通過敏感網(wǎng)絡(luò)抑制了單區(qū)域數(shù)據(jù)集的選取功能,結(jié)合異質(zhì)性特征挖掘得到表達(dá)數(shù)據(jù)。但是,在異構(gòu)復(fù)雜信息網(wǎng)絡(luò)中,相關(guān)數(shù)據(jù)流挖掘方法無法在復(fù)雜網(wǎng)絡(luò)下找到準(zhǔn)確的挖掘特征,難以適應(yīng)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)流特征的高動態(tài)變化,降低了挖掘精度。

        針對上述問題,本文提出基于最大類間散度的網(wǎng)絡(luò)敏感數(shù)據(jù)流動態(tài)挖掘方法。實驗結(jié)果表明,該方法在復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)流挖掘方面具有較高的實用性。

        2 敏感數(shù)據(jù)流可挖掘特征獲取

        2.1 最大類間散度計算

        由于異構(gòu)復(fù)雜信息網(wǎng)絡(luò)承載著不同的協(xié)議和網(wǎng)絡(luò)信道,網(wǎng)絡(luò)基元結(jié)構(gòu)之間差異性較大,導(dǎo)致提取網(wǎng)絡(luò)中的敏感數(shù)據(jù)流特征困難。由此,以異構(gòu)復(fù)雜信息網(wǎng)絡(luò)中的敏感數(shù)據(jù)差異最大化間隔作為分類基礎(chǔ),將差異化網(wǎng)絡(luò)基元結(jié)構(gòu)進(jìn)行區(qū)別劃分,得到網(wǎng)絡(luò)敏感數(shù)據(jù)流特征的最大類間散度,為全面高精度動態(tài)挖掘敏感數(shù)據(jù)提供基礎(chǔ)。

        假設(shè)異構(gòu)復(fù)雜信息網(wǎng)絡(luò)數(shù)據(jù)庫中的待挖掘矩陣為X={x1,x2,…,xi},i代表網(wǎng)絡(luò)數(shù)據(jù)庫中數(shù)據(jù)的序數(shù),獲取第i時刻異構(gòu)復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)庫中敏感數(shù)據(jù)矩陣xi={xi1,xi2,…,xim},對應(yīng)的網(wǎng)絡(luò)數(shù)據(jù)流類型用向量yi表示,利用式(1)給出異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)流整體矩陣:

        Y=f(x1,x2,…,xn)=(y1,y2,…,yn)

        (1)

        向量yi是網(wǎng)絡(luò)數(shù)據(jù)流類型,對提取出的網(wǎng)絡(luò)敏感數(shù)據(jù)流特征降維處理。將敏感數(shù)據(jù)差異最大化間隔作為分類目標(biāo),找出1組最佳分類向量,對其進(jìn)行映射變換,使變換后得到的網(wǎng)絡(luò)敏感數(shù)據(jù)流特征具有最大類間散度,并獲取最大類間散度特征值[10]。過程如下所示:

        在上述給出的異構(gòu)復(fù)雜信息網(wǎng)絡(luò)數(shù)據(jù)庫矩陣X={x1,x2,…,xn}中,為維持復(fù)雜網(wǎng)絡(luò)內(nèi)原始數(shù)據(jù)的分布結(jié)構(gòu)形狀,利用最大間隔準(zhǔn)則約束找出一個線性映射:

        (Sb-Sw)X=λiwi

        (2)

        得到最佳識別向量為:

        (3)

        其中,Sb和Sw分別代表網(wǎng)絡(luò)敏感數(shù)據(jù)流特征降維后,特征空間中的類間散度和類內(nèi)散度,作為差異化網(wǎng)絡(luò)基元結(jié)構(gòu)的劃分基礎(chǔ)。λi表示線性映射系數(shù),T為轉(zhuǎn)置符號,wi表示最大間隔向量[11,12]。將其投影變換到低維特征空間Y中,使其具有最大類間散度:

        Y=WTX

        (4)

        投影變換處理后,得到異構(gòu)復(fù)雜信息網(wǎng)絡(luò)的敏感數(shù)據(jù)向量:

        (5)

        2.2 最優(yōu)散度迭代

        在2.1節(jié)獲取了異構(gòu)復(fù)雜信息網(wǎng)絡(luò)的敏感數(shù)據(jù)最大類間散度后,對其進(jìn)行遺傳迭代,確定最優(yōu)散度迭代函數(shù),依據(jù)該函數(shù)動態(tài)挖掘敏感數(shù)據(jù)特征[13,14],并對挖掘得到的敏感數(shù)據(jù)特征進(jìn)行篩選,得出動態(tài)可挖掘特征,克服傳統(tǒng)方法不容易形成可挖掘特征,進(jìn)而需要多次挖掘的不足,為數(shù)據(jù)的動態(tài)挖掘奠定基礎(chǔ)。

        傳統(tǒng)的遺傳算法并沒有考慮個體或者組織的演變特征,只能夠通過編碼表現(xiàn)個體或者組織的一一對應(yīng)關(guān)系,模糊遺傳算法能夠打破這一規(guī)則,在[0,1]中為個體或者組織取值。模糊遺傳算法的這一特性使得其能夠很好地解決迭代中的隨機和非線性問題,解決更多的復(fù)雜問題。因此,本文使用模糊遺傳算法進(jìn)行網(wǎng)絡(luò)敏感數(shù)據(jù)最大類間散度迭代,量化異構(gòu)網(wǎng)絡(luò)基元結(jié)構(gòu)之間的差異性。lnfo(B)和lnfoA(B)分別表示不同的異構(gòu)網(wǎng)絡(luò)基元結(jié)構(gòu),Gain(A)表示2者之間的差異,如下:

        (6)

        (7)

        其中,B是異構(gòu)網(wǎng)絡(luò)基本元素構(gòu)成的向量,A是異構(gòu)網(wǎng)絡(luò)差異值向量,v是B中元素個數(shù)。Wopt是異構(gòu)復(fù)雜信息網(wǎng)絡(luò)的敏感數(shù)據(jù)向量。Pi是概率值。

        Gain(A)=lnfo(B)-lnfoA(B)

        (8)

        得到:

        Pri(t)=Gain(A)-Pi*hi(t)+nPi(t)

        (9)

        其中,hi(t)代表Pi在異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)的變異參數(shù),nPi(t)代表數(shù)據(jù)流特征響應(yīng)值,由此可以求出異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)流特征響應(yīng)函數(shù):

        Sri(t)=S(t)×hi(t)+nsi(t)

        (10)

        其中,S(t)代表異構(gòu)復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)庫的信道響函數(shù),挖掘得到敏感數(shù)據(jù)特征為:

        ri(t)=Sri(t)×Pri(-t)=

        S(t)×P(-t)*hi(t)+nli(t)

        (11)

        以式(11)為基礎(chǔ),對敏感數(shù)據(jù)挖掘特征形成概率進(jìn)行計算,公式如下:

        (12)

        其中,aij是特征系數(shù),βj是敏感特征系數(shù),bij是特征數(shù)據(jù)向量,Pj(t)是概率值。

        得到優(yōu)選的敏感數(shù)據(jù)動態(tài)可挖掘特征為:

        R(Xi)=bij(Pj(t))X

        (13)

        其中,X是數(shù)據(jù)庫中的待挖掘矩陣。

        3 網(wǎng)絡(luò)敏感數(shù)據(jù)流挖掘

        以上述得到的敏感數(shù)據(jù)動態(tài)可挖掘特征為基礎(chǔ),對可挖掘特征進(jìn)行半監(jiān)督聚類分析,進(jìn)而完成網(wǎng)絡(luò)敏感數(shù)據(jù)流挖掘。

        聚類分析是數(shù)據(jù)挖掘中的重要步驟,聚類是按照相似性原理,把1組個體劃分為若干類別的過程,聚類的目的是使同一類別的個體之間距離最小化,不同類別個體之間的距離最大化,從而提高數(shù)據(jù)挖掘精度。采用半監(jiān)督聚類方法可以有效地改善初始聚類中心敏感、聚類質(zhì)量不高的問題[15,16]。半監(jiān)督聚類方法是結(jié)合分類和K-means算法思想的一種新的聚類方法,是利用半監(jiān)督學(xué)習(xí)方法對聚類過程中類中心選取的過程。

        假設(shè)主存中的數(shù)據(jù)特征點q是Q={d1,d2,…,dn,labels}中的元素,Q是一個數(shù)據(jù)特征矩陣,labels為可挖掘數(shù)據(jù)標(biāo)記的向量。利用labels初始化聚類中心Z,表示為:

        (14)

        其中,I為可挖掘數(shù)標(biāo)記個數(shù)。

        聚類過程中,若缺少某類標(biāo)記,則由聚類中心自動產(chǎn)生,不斷重復(fù)上述初始化過程,直到出現(xiàn)重復(fù)聚類為止[17,18]。

        對可挖掘特征點進(jìn)行聚類分配,將每一個可挖掘特征點di、labels分配至聚類L中,表示為:

        L=argmin |di-Z|

        (15)

        在式(15)基礎(chǔ)上,重新計算初始化聚類中心Z:

        (16)

        其中,di是挖掘特征點向量。

        由此則可以完成對可挖掘特征的聚類分析,挖掘得到數(shù)據(jù)隱藏信息模式,并對其進(jìn)行評價,若是合理,則進(jìn)行知識表示,將上述合理的信息模式進(jìn)行展示,從而實現(xiàn)異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)的動態(tài)挖掘[19,20]。

        具體數(shù)據(jù)挖掘流程如圖1所示。

        Figure 1 Flow chart for dynamic mining of sensitive data in heterogeneous complex information networks圖1 異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)動態(tài)挖掘流程圖

        4 實驗結(jié)果與分析

        為了驗證本文所提的基于模糊遺傳的網(wǎng)絡(luò)敏感數(shù)據(jù)流動態(tài)挖掘方法的綜合性能,實驗采用的平臺為IBM的工控異構(gòu)網(wǎng)絡(luò)機,主頻為2.3 GHz CPU,內(nèi)存為24 GB。

        實驗數(shù)據(jù)來源于亞馬遜自動化工作流系統(tǒng)AWS(Automated Workflow System)數(shù)據(jù)庫,網(wǎng)址為https://aws.amazon.com/cn/datasets/。在實驗中隨機采集500個真實復(fù)雜信息網(wǎng)絡(luò)數(shù)據(jù)集。采集器如圖2所示。

        Figure 2 Data acquisition unit圖2 數(shù)據(jù)采集器

        實驗數(shù)據(jù)采集過程如圖3所示。

        Figure 3 Flow chart of experimental data acquisition圖3 實驗數(shù)據(jù)采集流程圖

        在上述實驗環(huán)境和數(shù)據(jù)設(shè)置條件下,選取以下指標(biāo)對本文方法進(jìn)行驗證:

        (1)可挖掘特征形成概率:數(shù)據(jù)可挖掘特征的獲取是實現(xiàn)數(shù)據(jù)挖掘的關(guān)鍵步驟,以式(12)的計算步驟為依據(jù),對本文方法與文獻(xiàn)[7,8]方法的可挖掘特征形成概率進(jìn)行計算和對比。

        (2)挖掘耗時:對本文方法與文獻(xiàn)[7,8]方法的挖掘耗時進(jìn)行對比,驗證本文方法的時效性。

        (3)labels標(biāo)記質(zhì)量:在獲取數(shù)據(jù)的可挖掘特征后,本文方法首先對可挖掘特征進(jìn)行了聚類分析,以此為基礎(chǔ)完成數(shù)據(jù)挖掘,提高挖掘精度。聚類分析中,labels標(biāo)記質(zhì)量的好壞會直接影響數(shù)據(jù)聚類質(zhì)量,進(jìn)而影響挖掘精度。

        (4)挖掘精度:精度是驗證方法性能的重要指標(biāo),本實驗選取這一指標(biāo)進(jìn)行分析。

        (5)敏感數(shù)據(jù)挖掘內(nèi)存占用率:對比不同方法的挖掘內(nèi)存占用率,進(jìn)一步體現(xiàn)本文方法優(yōu)勢。

        對本文方法與文獻(xiàn)[7,8]方法的可挖掘特征形成概率進(jìn)行計算,結(jié)果如表1所示。

        Table 1 Comparison of mineable feature formation probability表1 可挖掘特征形成概率對比

        分析表1可以看出,本文采用最大類間散度方法,將敏感數(shù)據(jù)的差異最大化間隔作為分類基礎(chǔ)進(jìn)行分析,并在遺傳迭代狀態(tài)確定最優(yōu)散度迭代函數(shù),完成可挖掘特征優(yōu)選,由此得到的可挖掘特征形成概率整體高于90%,最高可達(dá)98%,可順利形成可挖掘特征。而文獻(xiàn)[7,8]方法的可挖掘特征形成概率在80%以下,遠(yuǎn)低于本文方法的,無法形成數(shù)據(jù)的可挖掘特征。

        鑒于表1分析的結(jié)果,可知本文方法能夠順利形成數(shù)據(jù)的可挖掘特征,進(jìn)而能夠降低數(shù)據(jù)挖掘次數(shù),有利于節(jié)約數(shù)據(jù)挖掘時間。為進(jìn)一步驗證這一結(jié)果,對本文方法與文獻(xiàn)[7,8]方法進(jìn)行對比,結(jié)果如圖4所示。分析圖4可以看出,本文方法的挖掘耗時明顯低于文獻(xiàn)[7,8]方法的,以后可進(jìn)一步驗證本文采用最大類間散度方法獲取數(shù)據(jù)的可挖掘特征的有效性,表明本文方法具有一定的可行性。

        Figure 4 Time-consuming comparison of different mining methods圖4 不同方法挖掘耗時對比

        對本文方法的labels標(biāo)記質(zhì)量的分析結(jié)果如圖5所示。根據(jù)圖5可知,在不同的labels標(biāo)記處,本文估計值與實際值之間的差異均較小,不超過6.0,且隨著標(biāo)記點的增加,估計值與實際值之間的差異呈現(xiàn)下降趨勢,表明本文方法具有較好的聚類效果。

        Figure 5 Difference between estimated and true values圖5 估計值和真實值之間的差異

        為充分驗證本文方法的優(yōu)勢,選取挖掘精度和敏感數(shù)據(jù)挖掘內(nèi)存占用率為指標(biāo)進(jìn)行對比分析,結(jié)果如表2和圖6所示。

        根據(jù)表2可知,本文方法的數(shù)據(jù)挖掘精度在90%左右,文獻(xiàn)[7]方法的數(shù)據(jù)挖掘精度最高為69%,文獻(xiàn)[8]方法的最高值為76%,表明本文方法能夠準(zhǔn)確地完成異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)流動態(tài)挖掘,同時也進(jìn)一步驗證了可挖掘特征的聚類質(zhì)量較高。

        Table 2 Comparison of mining accuracy of different methods表2 不同方法挖掘精度對比

        圖6為不同方法的敏感數(shù)據(jù)挖掘內(nèi)存占用率對比圖。從圖6中的情況來看,本文方法所占用的內(nèi)存容量較少,而其他2種方法所占用的內(nèi)容容量較多,主要是因為本文能夠順利獲取可挖掘數(shù)據(jù)特征,避免了多次數(shù)據(jù)挖掘,從而降低了內(nèi)存占用率。這表明在對敏感數(shù)據(jù)流進(jìn)行挖掘的性能上,本文方法具有更大的優(yōu)勢。

        Figure 6 Comparison of memory usage of different methods圖6 不同方法內(nèi)存占用率對比

        5 結(jié)束語

        復(fù)雜信息網(wǎng)絡(luò)中存在大量的敏感數(shù)據(jù)流,對其進(jìn)行有效挖掘,能夠促使網(wǎng)絡(luò)更加高效地運行。針對現(xiàn)有方法存在數(shù)據(jù)挖掘精度低、挖掘時間長、占用內(nèi)存大等問題,本文提出了一種新的網(wǎng)絡(luò)敏感數(shù)據(jù)流動態(tài)挖掘方法。采用最大類間散度確定最優(yōu)散度迭代函數(shù),對迭代函數(shù)最優(yōu)值進(jìn)行計算,獲取可挖掘的動態(tài)特征。以此為依據(jù),對可挖掘特征進(jìn)行聚類分析,進(jìn)而實現(xiàn)數(shù)據(jù)挖掘。

        將本文方法與文獻(xiàn)[7,8]方法進(jìn)行對比,結(jié)果表明:

        (1)數(shù)據(jù)的可挖掘特征獲取概率較高,進(jìn)而降低了數(shù)據(jù)挖掘次數(shù),節(jié)約了數(shù)據(jù)挖掘時間,并降低了內(nèi)存占用率;

        (2)聚類分析中,labels標(biāo)記估計值與實際值之間的差異較小,說明對可挖掘特征的聚類質(zhì)量良好,進(jìn)而提高了數(shù)據(jù)挖掘精度。

        綜上可知,本文所提方法的數(shù)據(jù)挖掘性能較好,為數(shù)據(jù)的深入研究奠定了基礎(chǔ),具有一定的參考價值。

        猜你喜歡
        敏感數(shù)據(jù)散度數(shù)據(jù)流
        干擾條件下可檢索數(shù)字版權(quán)管理環(huán)境敏感數(shù)據(jù)的加密方法
        帶勢加權(quán)散度形式的Grushin型退化橢圓算子的Dirichlet特征值的上下界
        實現(xiàn)虛擬機敏感數(shù)據(jù)識別
        汽車維修數(shù)據(jù)流基礎(chǔ)(下)
        具有部分BMO系數(shù)的非散度型拋物方程的Lorentz估計
        基于透明加密的水下通信網(wǎng)絡(luò)敏感數(shù)據(jù)防泄露方法
        基于4A平臺的數(shù)據(jù)安全管控體系的設(shè)計與實現(xiàn)
        H型群上一類散度形算子的特征值估計
        一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機制
        H?rmander 向量場上散度型拋物方程弱解的Orlicz估計
        国产一精品一av一免费| 最新天堂一区二区三区| 美女被强吻并脱下胸罩内裤视频| 久久亚洲AV无码一区二区综合 | 在线国人免费视频播放| 国产精品女老熟女一区二区久久夜| 在线视频夫妻内射| 亚洲色成人网站www永久| 亚洲av色先锋资源电影网站| 国产91网址| 人妻精品久久中文字幕| 国产人成在线成免费视频| 福利视频在线一区二区三区| 久久蜜桃资源一区二区| 亚洲国产精品久久精品 | 人妻体内射精一区二区三区| 国产成人综合亚洲看片| 国产精品亚洲一区二区无码 | 亚洲av首页在线| 久久久久久好爽爽久久| 乱码午夜-极国产极内射 | 精精国产xxxx视频在线播放器| 伊人亚洲综合影院首页| 亚洲狠狠久久五月婷婷| 国内永久福利在线视频图片| 成年无码av片完整版| 精品国产看高清国产毛片| 久久精品国产屋| 久久国产精品美女厕所尿尿av| 午夜秒播久久精品麻豆| 少妇被猛男粗大的猛进出| 免费一级毛片在线播放不收费| 国产午夜激无码AV毛片不卡| 精品人妻在线一区二区三区在线| 国产亚洲成人av一区| 国产av无码专区亚洲av极速版| 精品人妻无码视频中文字幕一区二区三区| 久久精品亚洲中文无东京热| 亚洲专区在线观看第三页| 国产午夜亚洲精品国产成人av| 亚洲av一二三四区四色婷婷|