亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于大數(shù)據(jù)混沌特性的分區(qū)域異常數(shù)據(jù)挖掘

2015-10-10 08:35:24鄭羽潔李茜

河池學院學報 2015年5期

鄭羽潔，李茜

(廣西經(jīng)濟管理干部學院計算機系，廣西南寧 530007)

0 引言

隨著網(wǎng)絡技術(shù)的快速發(fā)展，導致大數(shù)據(jù)環(huán)境下的網(wǎng)絡犯罪活動逐漸增多，使得大數(shù)據(jù)環(huán)境下的異常數(shù)據(jù)量增加[1－3]。因此，尋求有效的大數(shù)據(jù)挖掘方法，對于確保大數(shù)據(jù)環(huán)境下相關(guān)系統(tǒng)的安全性具有重要意義[4－6]。當前的大數(shù)據(jù)挖掘方法大都依據(jù)已知的異常特征進行大數(shù)據(jù)挖掘，降低了大數(shù)據(jù)挖掘的可靠性和效率，使得處理大數(shù)據(jù)的開銷增加，導致大數(shù)據(jù)總體的可用性和性能降低。因此，如何在不干擾大數(shù)據(jù)性能的情況下，分析不同區(qū)域大數(shù)據(jù)失效發(fā)生率、概率分析以及調(diào)整方案，成為當前大數(shù)據(jù)挖掘領(lǐng)域重點分析的方向[7]。

在大規(guī)模的數(shù)據(jù)挖掘中，海量數(shù)據(jù)對現(xiàn)有的異常數(shù)據(jù)挖掘效率帶來較大困難。如何針對海量數(shù)據(jù)設計分區(qū)域挖掘算法[8]已經(jīng)成為研究的熱點。由于數(shù)據(jù)量過于巨大，為了減輕硬件的壓力，當數(shù)據(jù)規(guī)模超過承載上限時，需要對大數(shù)據(jù)進行分區(qū)。在不具有容錯特性的分布式集群環(huán)境下，大數(shù)據(jù)分區(qū)的效率與參與挖掘的硬件成反比。因此，海量數(shù)據(jù)的異常數(shù)據(jù)挖掘是一項具有挑戰(zhàn)性的任務。傳統(tǒng)的基于均值聚類的分區(qū)挖掘算法受到數(shù)據(jù)相似性的影響，這類分區(qū)挖掘算法在并行過程中會產(chǎn)生較高的通信負載，難以達到很高的并行度。因此，本論文提出了一種基于大數(shù)據(jù)混沌特性的分區(qū)域異常數(shù)據(jù)挖掘技術(shù)，首先證明了分區(qū)域異常數(shù)據(jù)挖掘下的大數(shù)據(jù)具有混沌特性，設計了混沌性特征提取，并根據(jù)混沌特征的聚類分區(qū)算法，實現(xiàn)大數(shù)據(jù)的分區(qū)域和異常數(shù)據(jù)的準確挖掘。

1 大數(shù)據(jù)中異常數(shù)據(jù)的混沌特性證明

大數(shù)據(jù)的來源通常由地理位置不同的運算節(jié)點的軟件、硬件通過不同的采集方式產(chǎn)生。在相同的環(huán)境下，大數(shù)據(jù)中異常數(shù)據(jù)的出現(xiàn)會造成數(shù)據(jù)在分區(qū)過程出現(xiàn)異常特征循環(huán)等現(xiàn)象。一旦出現(xiàn)數(shù)據(jù)異常，現(xiàn)有的數(shù)據(jù)分區(qū)過程會被重試、替換、局部重構(gòu)，導致大數(shù)據(jù)中的異常數(shù)據(jù)隨機性成分增加。增加的異常數(shù)據(jù)在分區(qū)過程同正常數(shù)據(jù)間的對立性，形成數(shù)據(jù)之間的高度隨機性糾纏，也就是偽隨機過程，這種特征可通過數(shù)學中的混沌性來進行描述。

大數(shù)據(jù)在異常前期的混沌性產(chǎn)生原因如下:

圖1 大數(shù)據(jù)異常數(shù)據(jù)序列Lyapunov指數(shù)譜

(1)大數(shù)據(jù)之間本身具有確定性和獨立性，如果數(shù)據(jù)突出出現(xiàn)異常會導致大數(shù)據(jù)呈現(xiàn)隨機與非隨機的特征，則出現(xiàn)混沌性;

(2)大數(shù)據(jù)出現(xiàn)異常數(shù)據(jù)時，數(shù)據(jù)在相關(guān)的區(qū)域中，同原始數(shù)據(jù)狀態(tài)具有較強的關(guān)聯(lián)性;

(3)數(shù)據(jù)混沌特征是大數(shù)據(jù)出現(xiàn)異常的先期評估標準。

證明大數(shù)據(jù)中出現(xiàn)異常數(shù)據(jù)有混沌性，可通過數(shù)據(jù)序列的最大Lyapunov指數(shù)是否大于0進行驗證。大數(shù)據(jù)中出現(xiàn)異常數(shù)據(jù)時，采用Matlab對異常數(shù)據(jù)進行Lyapunov指數(shù)圖仿真實驗，X軸表示異常數(shù)據(jù)出現(xiàn)的點數(shù)，Y軸為計算的lyapunov指數(shù)，結(jié)果用圖1描述。

分析圖1可得，該異常數(shù)據(jù)序列的最大Lyapunov指數(shù)大于0，進而證明大數(shù)據(jù)中在出現(xiàn)異常數(shù)據(jù)時，具有混沌性。

2 異常數(shù)據(jù)存在時的混沌特征采集

混沌特征是大數(shù)據(jù)中存在異常數(shù)據(jù)的特征，并可作為挖掘異常數(shù)據(jù)的一個特征，該特征符合波動規(guī)范和數(shù)據(jù)內(nèi)部關(guān)聯(lián)性，可作為唯一區(qū)分特征進行提取，不必進行多次校驗。因此，可在海量大數(shù)據(jù)序列中獲取描述大數(shù)據(jù)異常特征的混沌數(shù)據(jù)特征關(guān)聯(lián)，完成異常特征的采集，得到大數(shù)據(jù)異常分析的數(shù)據(jù)集，過程為:

將大數(shù)據(jù)中的異常數(shù)據(jù)映射成一組概率密度函數(shù)，將該組概率密度函數(shù)作為劃分到不同分類頻點內(nèi)的使用概率。通過概率分析形成可描述數(shù)據(jù)顯著混沌特征的隨機數(shù)序列，采集混沌特征數(shù)據(jù)。

異常數(shù)據(jù)符合概率密度隨機調(diào)頻需求，如果大數(shù)據(jù)中的異常數(shù)據(jù)序列為x(n)，τ表示分析誤差?？蓪?shù)據(jù)進行重構(gòu)，重構(gòu)映射的m維相空間中，可產(chǎn)生m維矢量，如式(1)所示:

其中，n=1，2，…，N，在重構(gòu)數(shù)據(jù)映射的m維相空間內(nèi)，采集一維數(shù)據(jù)矢量Xn，其在相空間內(nèi)用點描述，與其距離最小的點用Xη(n)描述，將歐氏距離當成兩點的距離尺度。

在大數(shù)據(jù)異常數(shù)據(jù)序列映射相空間內(nèi)，隨著m增加到m+1時，相空間內(nèi)點同與其距離最小點間的距離用式(2)描述:

設置分類異常數(shù)據(jù)為Qs，原數(shù)據(jù)為Q0，對比分析兩種數(shù)據(jù)的差異S，評估異常概率分析映射分類是否正確，且有:

對比2組患者生活質(zhì)量以及身體功能,研究組生活質(zhì)量(42.45±5.45)分,身體功能(43.85±5.89)分,參照組生活質(zhì)量(33.45±4.89)分,身體功能(34.12±5.01)分,數(shù)據(jù)對比t值為6.9530,p值為0.05、t值為7.1181,p值為0.05,研究組評分高于參照組患者,組間對比具有顯著性差異(P<0.05)。

其中，〈Qs〉表示N批概率分析映射數(shù)據(jù)的評估統(tǒng)計量值均值，σs表示N批概率分析映射數(shù)據(jù)的判別統(tǒng)計量值的標準差，則有:

通過Sigma檢驗S取何值時原數(shù)據(jù)是隨機的，設置不同概率分析映射異常數(shù)據(jù)的Qs值的概率分布為正態(tài)分布，則有:

優(yōu)化異常數(shù)據(jù)分類模型概率分析置信區(qū)間與拒絕區(qū)間，也就是p(Qs)～(Qs)曲線，要否定概率分析映射分類，應確保S足夠大，使Qs的分布遠離Q0。當置信度為96%時，拒絕概率分析映射分類的機會為α=4%，通過相關(guān)判斷可得:

(1)S≥1.50概率分析映射分類按照95%概率不成立，原異常數(shù)據(jù)為具備混沌數(shù)據(jù)特征;

(2)S＜1.50概率分析映射分類成立，原異常數(shù)據(jù)不是混沌特征數(shù)據(jù)。

混沌性特征采集的源代碼如下:

3 挖掘算法的設計

3.1 大數(shù)據(jù)的聚類分區(qū)過程

在準確提取了混沌特征后，可將大數(shù)據(jù)集分成合理的數(shù)據(jù)分區(qū)，增強大數(shù)據(jù)的異常數(shù)據(jù)挖掘能力。先從全部序列中采集原始的n個數(shù)據(jù)序列，將其劃分成n個簇{P1，P2，…，Pn}，其中n表示大數(shù)據(jù)應劃分的區(qū)域數(shù)，初始化全部簇質(zhì)心Cj(j=1，2，…，n)，運算各項關(guān)聯(lián)權(quán)值，將其序列依次劃分到n個簇內(nèi)，運算序列Si到各簇質(zhì)心Cj的相似函數(shù)Sim(Si，Cj)，將Si分配到Sim(Si，Cj)值最小的簇Pj內(nèi)，分配后應調(diào)整新簇Pj、簇質(zhì)心Cj和各項的關(guān)聯(lián)權(quán)值。

3.2 異常數(shù)據(jù)挖掘

對大數(shù)據(jù)進行分區(qū)域和異常數(shù)據(jù)的混沌相關(guān)特征進行提取后，運用優(yōu)化的BP神經(jīng)網(wǎng)絡方法，結(jié)合遺傳算法設計挖掘模型。該挖掘算法的具體過程如下:

(1)初始化數(shù)據(jù)集，通過二進制的方法，對大數(shù)據(jù)分區(qū)域的混沌特征進行權(quán)值編碼。大數(shù)據(jù)分區(qū)域中的個體混沌特征可以用相應類別的權(quán)值表示，設某一原始權(quán)值集及其最大進化次數(shù)。

(2)設計適應度函數(shù)，在該函數(shù)中獲取最小值。

(3)解碼混沌特征的權(quán)值，獲取混沌特征的權(quán)值，如果權(quán)值滿足規(guī)范要求或者權(quán)值等于最大進化次數(shù)，則轉(zhuǎn)向過程(7);否則，轉(zhuǎn)向過程(4)。

(4)通過遺傳算法的交叉與變異功能，獲取神經(jīng)網(wǎng)絡的新個體。

(5)標識具有最優(yōu)適應度的個體，避免這些個體進行交叉與變異操作。

(6)利用優(yōu)化的BP神經(jīng)網(wǎng)絡方法對擁有最優(yōu)適應度的個體進行操作，同時運行步驟(2)。

(7)算法結(jié)束，得到神經(jīng)網(wǎng)絡中擁有最優(yōu)權(quán)值的個體，也就是待挖掘的大數(shù)據(jù)中的異常數(shù)據(jù)。源代碼如下[9]:

4 實驗分析

為了對本文方法的性能進行測試，需要進行相關(guān)的實驗分析。分別在兩種不同的大數(shù)據(jù)集上，對本文方法與傳統(tǒng)方法(循環(huán)迭代分區(qū)挖掘算法)進行對比實驗。下面給出本實驗所涉及到的兩個大數(shù)據(jù)集，Set是模擬數(shù)據(jù)集，包括兩個大小為25.2 MB的分區(qū)，Cslogs為實際數(shù)據(jù)集，包括兩個大小為6.22 MB的分區(qū)。

當輸入數(shù)據(jù)量一定時，依據(jù)最小支持度的改變量，對本文方法與傳統(tǒng)方法的性能進行比較。隨著支持度的減小，符合條件的頻繁模式逐漸增加，挖掘頻繁模式所耗費的時間也隨之增多，對于頻繁模式挖掘算法而言，支持度的適應能力是一個重要指標。

圖2描述的是本文方法和傳統(tǒng)方法在Set數(shù)據(jù)集上運行時間的比較結(jié)果，最小支持度從0.03降將至0.01。從運行效率的角度分析，本文方法所需的運行時間明顯低于傳統(tǒng)方法。

圖3描述的是本文方法和傳統(tǒng)方法在Cslogs數(shù)據(jù)集上運行時間的比較結(jié)果，最小支持度從0.1降至0.05。從運行效率的角度分析，本文方法的性能明顯優(yōu)于傳統(tǒng)方法。實驗結(jié)果表明，本文方法可以有效解決傳統(tǒng)方法在大數(shù)據(jù)集上進行挖掘時出現(xiàn)的內(nèi)存消耗大的問題。

圖2 在Set數(shù)據(jù)集上兩種方法的運行時間比較

圖3 在Cslogs數(shù)據(jù)集上兩種方法的運行時間比較

圖4描述的是本文方法和傳統(tǒng)方法在不同數(shù)據(jù)集大小下測試的結(jié)果。分析圖3可知，兩種方法的運行時間曲線均隨數(shù)據(jù)量的增加逐漸增加，但較傳統(tǒng)方法而言，本文方法的曲線增長較為緩慢，同時隨著數(shù)據(jù)量逐漸增加，與傳統(tǒng)方法運行曲線之間的距離越來越遠。說明本文方法能夠更好的適應大數(shù)據(jù)集。

圖5描述的是本文方法和傳統(tǒng)方法在不同維數(shù)下的測試結(jié)果，當前數(shù)據(jù)量取6000。分析圖5可知，本文方法運行時間曲線比傳統(tǒng)方法增長緩慢。在低維狀態(tài)下，數(shù)據(jù)點相對集中，通過微單元可高效完成數(shù)據(jù)的處理;在高維狀態(tài)下，數(shù)據(jù)點相對分散，稀疏單元相對較多，與傳統(tǒng)方法相比，本文方法可更加有效地增強算法的運行效率，更好地適應高維大數(shù)據(jù)的挖掘。

5 結(jié)論

本文提出了一種基于大數(shù)據(jù)混沌特性的分區(qū)域挖掘技術(shù)，證明了分區(qū)域異常數(shù)據(jù)挖掘下的大數(shù)據(jù)混沌特性，對分區(qū)域異常數(shù)據(jù)挖掘下的大數(shù)據(jù)混沌特性進行分類和采集，獲取大數(shù)據(jù)在異常早期的數(shù)據(jù)特征、波動規(guī)范和數(shù)據(jù)內(nèi)部關(guān)聯(lián)性，在隨機性數(shù)據(jù)序列中獲取描述大數(shù)據(jù)異常特征的混沌數(shù)據(jù)特征關(guān)聯(lián)，完成大數(shù)據(jù)混沌特征的采集，采用聚類分區(qū)算法實現(xiàn)大數(shù)據(jù)的分區(qū)劃分，得到可降低局部頻繁序列的大數(shù)據(jù)分區(qū)結(jié)果，提高大數(shù)據(jù)分區(qū)效率，通過改進BP神經(jīng)網(wǎng)絡檢測方法，實現(xiàn)大數(shù)據(jù)分區(qū)域異常數(shù)據(jù)的準確挖掘。實驗結(jié)果說明，所提方法可對不同大數(shù)據(jù)集進行準確挖掘，具有較高的魯棒性和效率。

圖4 在不同數(shù)據(jù)集大小下兩種方法的運行時間比較

圖5 在不同維數(shù)下兩種方法的運行時間比較

[1]李志云，周國祥.一種基于MFP樹的快速關(guān)聯(lián)規(guī)則挖掘算法[J].計算機技術(shù)與發(fā)展，2007，17(6):94－96.

[2]相征，張?zhí)劊瑢O建成.基于混沌吸引子的快衰落信道預測算法[J].西安電子科技大學學報，2006，33(1):145－149.

[3]劉芳.基于離散反饋控制的TCP－RED網(wǎng)絡混沌特性研究[J].西安電子科技大學學報，2005，32(6):977－981.

[4]劉興濤，石冰，解英文.挖掘關(guān)聯(lián)規(guī)則中Apriori算法的一種改進[J].山東大學學報(理學版)，2008，43(11):67－71.

[5]羅赟騫，夏靖波，陳天平.網(wǎng)絡性能評估中客觀權(quán)重確定方法比較[J].計算機應用，2009，29(10):2624－2626.

[6]劉曲明，顧桔.網(wǎng)絡性能分析評價方法及其計算機仿真方法討論[J].計算機仿真，2000，17(1):53－57.

[7]周水庚，周傲英，曹晶.基于數(shù)據(jù)分區(qū)的DBSCAN算法[J].計算機研究與發(fā)展，2000，37(10):1153－1159.

[8]Yang Jingrong.ZhaoChunyu.Study on the Data Mining Algorithm Based on Positive and Negative Association Rules[J].Computer and Information Science，2009，2(2):103 －106.

[9]趙鵬.海量高維數(shù)據(jù)下的頻繁項目集挖掘算法研究[J].計算機應用與軟件，2012，29(7):150－153.