亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)混沌特性的分區(qū)域異常數(shù)據(jù)挖掘

        2015-10-10 08:35:24鄭羽潔李茜
        河池學院學報 2015年5期
        關(guān)鍵詞:權(quán)值分區(qū)數(shù)據(jù)挖掘

        鄭羽潔,李茜

        (廣西經(jīng)濟管理干部學院 計算機系,廣西 南寧 530007)

        0 引言

        隨著網(wǎng)絡技術(shù)的快速發(fā)展,導致大數(shù)據(jù)環(huán)境下的網(wǎng)絡犯罪活動逐漸增多,使得大數(shù)據(jù)環(huán)境下的異常數(shù)據(jù)量增加[1-3]。因此,尋求有效的大數(shù)據(jù)挖掘方法,對于確保大數(shù)據(jù)環(huán)境下相關(guān)系統(tǒng)的安全性具有重要意義[4-6]。當前的大數(shù)據(jù)挖掘方法大都依據(jù)已知的異常特征進行大數(shù)據(jù)挖掘,降低了大數(shù)據(jù)挖掘的可靠性和效率,使得處理大數(shù)據(jù)的開銷增加,導致大數(shù)據(jù)總體的可用性和性能降低。因此,如何在不干擾大數(shù)據(jù)性能的情況下,分析不同區(qū)域大數(shù)據(jù)失效發(fā)生率、概率分析以及調(diào)整方案,成為當前大數(shù)據(jù)挖掘領(lǐng)域重點分析的方向[7]。

        在大規(guī)模的數(shù)據(jù)挖掘中,海量數(shù)據(jù)對現(xiàn)有的異常數(shù)據(jù)挖掘效率帶來較大困難。如何針對海量數(shù)據(jù)設計分區(qū)域挖掘算法[8]已經(jīng)成為研究的熱點。由于數(shù)據(jù)量過于巨大,為了減輕硬件的壓力,當數(shù)據(jù)規(guī)模超過承載上限時,需要對大數(shù)據(jù)進行分區(qū)。在不具有容錯特性的分布式集群環(huán)境下,大數(shù)據(jù)分區(qū)的效率與參與挖掘的硬件成反比。因此,海量數(shù)據(jù)的異常數(shù)據(jù)挖掘是一項具有挑戰(zhàn)性的任務。傳統(tǒng)的基于均值聚類的分區(qū)挖掘算法受到數(shù)據(jù)相似性的影響,這類分區(qū)挖掘算法在并行過程中會產(chǎn)生較高的通信負載,難以達到很高的并行度。因此,本論文提出了一種基于大數(shù)據(jù)混沌特性的分區(qū)域異常數(shù)據(jù)挖掘技術(shù),首先證明了分區(qū)域異常數(shù)據(jù)挖掘下的大數(shù)據(jù)具有混沌特性,設計了混沌性特征提取,并根據(jù)混沌特征的聚類分區(qū)算法,實現(xiàn)大數(shù)據(jù)的分區(qū)域和異常數(shù)據(jù)的準確挖掘。

        1 大數(shù)據(jù)中異常數(shù)據(jù)的混沌特性證明

        大數(shù)據(jù)的來源通常由地理位置不同的運算節(jié)點的軟件、硬件通過不同的采集方式產(chǎn)生。在相同的環(huán)境下,大數(shù)據(jù)中異常數(shù)據(jù)的出現(xiàn)會造成數(shù)據(jù)在分區(qū)過程出現(xiàn)異常特征循環(huán)等現(xiàn)象。一旦出現(xiàn)數(shù)據(jù)異常,現(xiàn)有的數(shù)據(jù)分區(qū)過程會被重試、替換、局部重構(gòu),導致大數(shù)據(jù)中的異常數(shù)據(jù)隨機性成分增加。增加的異常數(shù)據(jù)在分區(qū)過程同正常數(shù)據(jù)間的對立性,形成數(shù)據(jù)之間的高度隨機性糾纏,也就是偽隨機過程,這種特征可通過數(shù)學中的混沌性來進行描述。

        大數(shù)據(jù)在異常前期的混沌性產(chǎn)生原因如下:

        圖1 大數(shù)據(jù)異常數(shù)據(jù)序列Lyapunov指數(shù)譜

        (1)大數(shù)據(jù)之間本身具有確定性和獨立性,如果數(shù)據(jù)突出出現(xiàn)異常會導致大數(shù)據(jù)呈現(xiàn)隨機與非隨機的特征,則出現(xiàn)混沌性;

        (2)大數(shù)據(jù)出現(xiàn)異常數(shù)據(jù)時,數(shù)據(jù)在相關(guān)的區(qū)域中,同原始數(shù)據(jù)狀態(tài)具有較強的關(guān)聯(lián)性;

        (3)數(shù)據(jù)混沌特征是大數(shù)據(jù)出現(xiàn)異常的先期評估標準。

        證明大數(shù)據(jù)中出現(xiàn)異常數(shù)據(jù)有混沌性,可通過數(shù)據(jù)序列的最大Lyapunov指數(shù)是否大于0進行驗證。大數(shù)據(jù)中出現(xiàn)異常數(shù)據(jù)時,采用Matlab對異常數(shù)據(jù)進行Lyapunov指數(shù)圖仿真實驗,X軸表示異常數(shù)據(jù)出現(xiàn)的點數(shù),Y軸為計算的lyapunov指數(shù),結(jié)果用圖1描述。

        分析圖1可得,該異常數(shù)據(jù)序列的最大Lyapunov指數(shù)大于0,進而證明大數(shù)據(jù)中在出現(xiàn)異常數(shù)據(jù)時,具有混沌性。

        2 異常數(shù)據(jù)存在時的混沌特征采集

        混沌特征是大數(shù)據(jù)中存在異常數(shù)據(jù)的特征,并可作為挖掘異常數(shù)據(jù)的一個特征,該特征符合波動規(guī)范和數(shù)據(jù)內(nèi)部關(guān)聯(lián)性,可作為唯一區(qū)分特征進行提取,不必進行多次校驗。因此,可在海量大數(shù)據(jù)序列中獲取描述大數(shù)據(jù)異常特征的混沌數(shù)據(jù)特征關(guān)聯(lián),完成異常特征的采集,得到大數(shù)據(jù)異常分析的數(shù)據(jù)集,過程為:

        將大數(shù)據(jù)中的異常數(shù)據(jù)映射成一組概率密度函數(shù),將該組概率密度函數(shù)作為劃分到不同分類頻點內(nèi)的使用概率。通過概率分析形成可描述數(shù)據(jù)顯著混沌特征的隨機數(shù)序列,采集混沌特征數(shù)據(jù)。

        異常數(shù)據(jù)符合概率密度隨機調(diào)頻需求,如果大數(shù)據(jù)中的異常數(shù)據(jù)序列為x(n),τ表示分析誤差??蓪?shù)據(jù)進行重構(gòu),重構(gòu)映射的m維相空間中,可產(chǎn)生m維矢量,如式(1)所示:

        其中,n=1,2,…,N,在重構(gòu)數(shù)據(jù)映射的m維相空間內(nèi),采集一維數(shù)據(jù)矢量Xn,其在相空間內(nèi)用點描述,與其距離最小的點用Xη(n)描述,將歐氏距離當成兩點的距離尺度。

        在大數(shù)據(jù)異常數(shù)據(jù)序列映射相空間內(nèi),隨著m增加到m+1時,相空間內(nèi)點同與其距離最小點間的距離用式(2)描述:

        設置分類異常數(shù)據(jù)為Qs,原數(shù)據(jù)為Q0,對比分析兩種數(shù)據(jù)的差異S,評估異常概率分析映射分類是否正確,且有:

        對比2組患者生活質(zhì)量以及身體功能,研究組生活質(zhì)量(42.45±5.45)分,身體功能(43.85±5.89)分,參照組生活質(zhì)量(33.45±4.89)分,身體功能(34.12±5.01)分,數(shù)據(jù)對比t值為6.9530,p值為0.05、t值為7.1181,p值為0.05,研究組評分高于參照組患者,組間對比具有顯著性差異(P<0.05)。

        其中,〈Qs〉表示N批概率分析映射數(shù)據(jù)的評估統(tǒng)計量值均值,σs表示N批概率分析映射數(shù)據(jù)的判別統(tǒng)計量值的標準差,則有:

        通過Sigma檢驗S取何值時原數(shù)據(jù)是隨機的,設置不同概率分析映射異常數(shù)據(jù)的Qs值的概率分布為正態(tài)分布,則有:

        優(yōu)化異常數(shù)據(jù)分類模型概率分析置信區(qū)間與拒絕區(qū)間,也就是p(Qs)~(Qs)曲線,要否定概率分析映射分類,應確保S足夠大,使Qs的分布遠離Q0。當置信度為96%時,拒絕概率分析映射分類的機會為α=4%,通過相關(guān)判斷可得:

        (1)S≥1.50概率分析映射分類按照95%概率不成立,原異常數(shù)據(jù)為具備混沌數(shù)據(jù)特征;

        (2)S<1.50概率分析映射分類成立,原異常數(shù)據(jù)不是混沌特征數(shù)據(jù)。

        混沌性特征采集的源代碼如下:

        3 挖掘算法的設計

        3.1 大數(shù)據(jù)的聚類分區(qū)過程

        在準確提取了混沌特征后,可將大數(shù)據(jù)集分成合理的數(shù)據(jù)分區(qū),增強大數(shù)據(jù)的異常數(shù)據(jù)挖掘能力。先從全部序列中采集原始的n個數(shù)據(jù)序列,將其劃分成n個簇{P1,P2,…,Pn},其中n表示大數(shù)據(jù)應劃分的區(qū)域數(shù),初始化全部簇質(zhì)心Cj(j=1,2,…,n),運算各項關(guān)聯(lián)權(quán)值,將其序列依次劃分到n個簇內(nèi),運算序列Si到各簇質(zhì)心Cj的相似函數(shù)Sim(Si,Cj),將Si分配到Sim(Si,Cj)值最小的簇Pj內(nèi),分配后應調(diào)整新簇Pj、簇質(zhì)心Cj和各項的關(guān)聯(lián)權(quán)值。

        3.2 異常數(shù)據(jù)挖掘

        對大數(shù)據(jù)進行分區(qū)域和異常數(shù)據(jù)的混沌相關(guān)特征進行提取后,運用優(yōu)化的BP神經(jīng)網(wǎng)絡方法,結(jié)合遺傳算法設計挖掘模型。該挖掘算法的具體過程如下:

        (1)初始化數(shù)據(jù)集,通過二進制的方法,對大數(shù)據(jù)分區(qū)域的混沌特征進行權(quán)值編碼。大數(shù)據(jù)分區(qū)域中的個體混沌特征可以用相應類別的權(quán)值表示,設某一原始權(quán)值集及其最大進化次數(shù)。

        (2)設計適應度函數(shù),在該函數(shù)中獲取最小值。

        (3)解碼混沌特征的權(quán)值,獲取混沌特征的權(quán)值,如果權(quán)值滿足規(guī)范要求或者權(quán)值等于最大進化次數(shù),則轉(zhuǎn)向過程(7);否則,轉(zhuǎn)向過程(4)。

        (4)通過遺傳算法的交叉與變異功能,獲取神經(jīng)網(wǎng)絡的新個體。

        (5)標識具有最優(yōu)適應度的個體,避免這些個體進行交叉與變異操作。

        (6)利用優(yōu)化的BP神經(jīng)網(wǎng)絡方法對擁有最優(yōu)適應度的個體進行操作,同時運行步驟(2)。

        (7)算法結(jié)束,得到神經(jīng)網(wǎng)絡中擁有最優(yōu)權(quán)值的個體,也就是待挖掘的大數(shù)據(jù)中的異常數(shù)據(jù)。源代碼如下[9]:

        4 實驗分析

        為了對本文方法的性能進行測試,需要進行相關(guān)的實驗分析。分別在兩種不同的大數(shù)據(jù)集上,對本文方法與傳統(tǒng)方法(循環(huán)迭代分區(qū)挖掘算法)進行對比實驗。下面給出本實驗所涉及到的兩個大數(shù)據(jù)集,Set是模擬數(shù)據(jù)集,包括兩個大小為25.2 MB的分區(qū),Cslogs為實際數(shù)據(jù)集,包括兩個大小為6.22 MB的分區(qū)。

        當輸入數(shù)據(jù)量一定時,依據(jù)最小支持度的改變量,對本文方法與傳統(tǒng)方法的性能進行比較。隨著支持度的減小,符合條件的頻繁模式逐漸增加,挖掘頻繁模式所耗費的時間也隨之增多,對于頻繁模式挖掘算法而言,支持度的適應能力是一個重要指標。

        圖2描述的是本文方法和傳統(tǒng)方法在Set數(shù)據(jù)集上運行時間的比較結(jié)果,最小支持度從0.03降將至0.01。從運行效率的角度分析,本文方法所需的運行時間明顯低于傳統(tǒng)方法。

        圖3描述的是本文方法和傳統(tǒng)方法在Cslogs數(shù)據(jù)集上運行時間的比較結(jié)果,最小支持度從0.1降至0.05。從運行效率的角度分析,本文方法的性能明顯優(yōu)于傳統(tǒng)方法。實驗結(jié)果表明,本文方法可以有效解決傳統(tǒng)方法在大數(shù)據(jù)集上進行挖掘時出現(xiàn)的內(nèi)存消耗大的問題。

        圖2 在Set數(shù)據(jù)集上兩種方法的運行時間比較

        圖3 在Cslogs數(shù)據(jù)集上兩種方法的運行時間比較

        圖4描述的是本文方法和傳統(tǒng)方法在不同數(shù)據(jù)集大小下測試的結(jié)果。分析圖3可知,兩種方法的運行時間曲線均隨數(shù)據(jù)量的增加逐漸增加,但較傳統(tǒng)方法而言,本文方法的曲線增長較為緩慢,同時隨著數(shù)據(jù)量逐漸增加,與傳統(tǒng)方法運行曲線之間的距離越來越遠。說明本文方法能夠更好的適應大數(shù)據(jù)集。

        圖5描述的是本文方法和傳統(tǒng)方法在不同維數(shù)下的測試結(jié)果,當前數(shù)據(jù)量取6000。分析圖5可知,本文方法運行時間曲線比傳統(tǒng)方法增長緩慢。在低維狀態(tài)下,數(shù)據(jù)點相對集中,通過微單元可高效完成數(shù)據(jù)的處理;在高維狀態(tài)下,數(shù)據(jù)點相對分散,稀疏單元相對較多,與傳統(tǒng)方法相比,本文方法可更加有效地增強算法的運行效率,更好地適應高維大數(shù)據(jù)的挖掘。

        5 結(jié)論

        本文提出了一種基于大數(shù)據(jù)混沌特性的分區(qū)域挖掘技術(shù),證明了分區(qū)域異常數(shù)據(jù)挖掘下的大數(shù)據(jù)混沌特性,對分區(qū)域異常數(shù)據(jù)挖掘下的大數(shù)據(jù)混沌特性進行分類和采集,獲取大數(shù)據(jù)在異常早期的數(shù)據(jù)特征、波動規(guī)范和數(shù)據(jù)內(nèi)部關(guān)聯(lián)性,在隨機性數(shù)據(jù)序列中獲取描述大數(shù)據(jù)異常特征的混沌數(shù)據(jù)特征關(guān)聯(lián),完成大數(shù)據(jù)混沌特征的采集,采用聚類分區(qū)算法實現(xiàn)大數(shù)據(jù)的分區(qū)劃分,得到可降低局部頻繁序列的大數(shù)據(jù)分區(qū)結(jié)果,提高大數(shù)據(jù)分區(qū)效率,通過改進BP神經(jīng)網(wǎng)絡檢測方法,實現(xiàn)大數(shù)據(jù)分區(qū)域異常數(shù)據(jù)的準確挖掘。實驗結(jié)果說明,所提方法可對不同大數(shù)據(jù)集進行準確挖掘,具有較高的魯棒性和效率。

        圖4 在不同數(shù)據(jù)集大小下兩種方法的運行時間比較

        圖5 在不同維數(shù)下兩種方法的運行時間比較

        [1]李志云,周國祥.一種基于MFP樹的快速關(guān)聯(lián)規(guī)則挖掘算法[J].計算機技術(shù)與發(fā)展,2007,17(6):94-96.

        [2]相征,張?zhí)劊瑢O建成.基于混沌吸引子的快衰落信道預測算法[J].西安電子科技大學學報,2006,33(1):145-149.

        [3]劉芳.基于離散反饋控制的TCP-RED網(wǎng)絡混沌特性研究[J].西安電子科技大學學報,2005,32(6):977-981.

        [4]劉興濤,石冰,解英文.挖掘關(guān)聯(lián)規(guī)則中Apriori算法的一種改進[J].山東大學學報(理學版),2008,43(11):67-71.

        [5]羅赟騫,夏靖波,陳天平.網(wǎng)絡性能評估中客觀權(quán)重確定方法比較[J].計算機應用,2009,29(10):2624-2626.

        [6]劉曲明,顧桔.網(wǎng)絡性能分析評價方法及其計算機仿真方法討論[J].計算機仿真,2000,17(1):53-57.

        [7]周水庚,周傲英,曹晶.基于數(shù)據(jù)分區(qū)的DBSCAN算法[J].計算機研究與發(fā)展,2000,37(10):1153-1159.

        [8]Yang Jingrong.ZhaoChunyu.Study on the Data Mining Algorithm Based on Positive and Negative Association Rules[J].Computer and Information Science,2009,2(2):103 -106.

        [9]趙鵬.海量高維數(shù)據(jù)下的頻繁項目集挖掘算法研究[J].計算機應用與軟件,2012,29(7):150-153.

        猜你喜歡
        權(quán)值分區(qū)數(shù)據(jù)挖掘
        一種融合時間權(quán)值和用戶行為序列的電影推薦模型
        上海實施“分區(qū)封控”
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        CONTENTS
        浪莎 分區(qū)而治
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于權(quán)值動量的RBM加速學習算法研究
        自動化學報(2017年7期)2017-04-18 13:41:02
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        基于SAGA聚類分析的無功電壓控制分區(qū)
        電測與儀表(2015年8期)2015-04-09 11:50:16
        基于多種群遺傳改進FCM的無功/電壓控制分區(qū)
        電測與儀表(2015年7期)2015-04-09 11:40:16
        av天堂吧手机版在线观看| 国内精品久久久人妻中文字幕| 日产亚洲一区二区三区| 亚洲最大av资源站无码av网址| 欧美亚洲韩国国产综合五月天| 国产精品三级1区2区3区| 视频国产自拍在线观看| 国产欧美在线观看不卡| 内射爽无广熟女亚洲| 车上震动a级作爱视频| 亚洲AⅤ乱码一区二区三区| 亚洲精品国产熟女久久久| 在线观看一级黄片天堂| 久久久久久久波多野结衣高潮| 国产亚洲av片在线观看18女人| 26uuu欧美日本在线播放| 日本高清不卡二区三区| 精品国产av一区二区三区四区 | 国产三级视频在线观看国产| 黄片视频免费观看蜜桃| 国产日产欧洲系列| 熟妇与小伙子matur老熟妇e | 亚洲精品一区二区三区大桥未久| 国内精品久久久久久久亚洲| 国产人澡人澡澡澡人碰视频| 丰满熟妇人妻av无码区 | 亚洲av不卡免费在线| 免费a级毛片18以上观看精品| 丝袜足控一区二区三区| 亚洲av永久久无久之码精| 中文字幕日韩有码国产| 亚洲中文字幕无码不卡电影| 人妻少妇av无码一区二区| 99热高清亚洲无码| 亚洲女同系列在线观看| 少妇人妻中文字幕hd| 亚洲粉嫩高潮的18p| 在线无码免费看黄网站| 青青草中文字幕在线播放| 亚洲国产精品无码久久| 夜夜揉揉日日人人|