亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BIRCH 聚類算法的高維傳感器數(shù)據異常檢測?

        2022-02-05 06:01:14
        傳感技術學報 2022年12期
        關鍵詞:誤報率高維聚類

        趙 嬌

        (綿陽職業(yè)技術學院電子與信息學院,四川 綿陽 621000)

        將傳感器節(jié)點分布在目標范圍中,利用節(jié)點收集的周邊環(huán)境參數(shù)[1],能有效挖掘自然環(huán)境內的突發(fā)事件和傳感器網絡的運行狀態(tài)。高維傳感器數(shù)據流具有數(shù)據量大、無法準確估測的特點,為增強無線傳感網絡的可靠性,對其采集的傳感器數(shù)據實施異常檢測變得格外重要[2]。和處理一般低維數(shù)據不同,高維數(shù)據處理具有更高的時間復雜度[3],異常檢測時會面臨極大挑戰(zhàn)。

        相關學者對此問題的研究內容如下:神顯豪等[4]在歸一化處理數(shù)據后,將其擬作卷積神經網絡輸入值,改進卷積層特征面與全連接層參數(shù),通過卷積層學習異常數(shù)據特征。此方法在數(shù)據量采集時需要消耗大量時間,無法完成實時檢測預期目標。席亮等[5]使用無向圖結構提取樣本關聯(lián)特征,利用雙路自編碼器融合樣本初始特征和關聯(lián)特征,提出基于高斯混合模型的估計網絡,通過閾值計算實現(xiàn)數(shù)據異常檢測。但方法融合樣本特征時沒有消除冗余數(shù)據,異常檢測結果精度不高。Kim D 等[6]提出無監(jiān)督異常檢測方法,該方法使用來自船用發(fā)動機的傳感器流來檢測異常系統(tǒng)行為,基于集成的異常檢測方法,并行訓練幾個具有不同超參數(shù)的異常檢測器,然后在異常檢測階段組合其結果。該方法的準確性較高,但耗時較長。

        針對上述方法存在的問題,提出一種基于使用層次結構的平衡迭代約簡和聚類(Balanced Iterative Reducing and Clustering using Hierarchies,BIRCH)的高維傳感器數(shù)據異常檢測方案。使用線性回歸法采集高維傳感器數(shù)據并實施歸一化處理,通過BIRCH聚類分析數(shù)據屬性特征,將傳感器數(shù)據序列轉變成球形簇單元,獲得高質量異常檢測結果。

        1 基于分簇處理的高維傳感器數(shù)據采集方法

        高維傳感器數(shù)據采集即傳感器從待測目標環(huán)境中得到數(shù)據并安置在節(jié)點存儲器內,節(jié)點處理器利用某種方法在存儲器中獲取數(shù)據的流程。具體來說,數(shù)據采集就是在節(jié)點處理器傳遞采集指令后,智能傳感器板塊接收采集指令并實施采集工作。在此過程中,使用線性回歸法采集數(shù)據,經過如下:

        部署于監(jiān)控區(qū)域的傳感器節(jié)點,可按照節(jié)點信息的關聯(lián)性分割為多個簇,并假設處于相同簇內的兩個隨機節(jié)點數(shù)據為顯著線性關聯(lián)。設定傳感器網絡一個簇中涵蓋i個節(jié)點,每個節(jié)點同時采集,采集獲得長度是N的信號矢量,則節(jié)點相對的一階差分信號序列為:

        式中,xi(k)代表節(jié)點i第k個時段的信號,Δxi(k)表示節(jié)點i第k個時段的一階差分信號。

        若節(jié)點i、j為處在相同簇的節(jié)點,因相同簇內隨機兩個節(jié)點的數(shù)據為顯著線性關聯(lián),節(jié)點j的一階差分信號序列和節(jié)點i的完全相等,記作:

        式中,α0、α1均表示回歸指數(shù),b是節(jié)點元素順從均值為0 的高斯分布。

        節(jié)點i使用等間隔策略[7]采集高維傳感器數(shù)據,將采集后的信號矢量xi通過多跳路由傳輸?shù)骄W關節(jié)點,使用高斯隨機矩陣Φ投影節(jié)點j的一階差分信號,計算公式為:

        式中,zj是針對采集值組成的矢量。

        倘若處于監(jiān)控范圍的傳感器節(jié)點數(shù)量為B,則網關節(jié)點接收的數(shù)據可采用N×B矩陣來描述:

        矩陣X的各列代表一個傳感器節(jié)點采集獲取的信號矢量,矩陣X的各行代表全部傳感器節(jié)點相同時段采集值組成的信號矢量。網關節(jié)點接收到數(shù)據后,可得到隨機兩個節(jié)點間的相關指數(shù)[8],記作:

        為驗證節(jié)點i、j之間是否存在線性關聯(lián),使用樣本的相關指數(shù)dij創(chuàng)建一個驗證統(tǒng)計指標:

        使用平均相關度衡量節(jié)點i和多個節(jié)點集合D={d1,d2,…,dn}的相關程度:

        將節(jié)點i、j依次劃分至2 個簇內,空間相關性強的傳感器節(jié)點被分割在相同簇中,執(zhí)行以上步驟就能夠將一個規(guī)模較大的簇分割成若干個小簇,直至各個簇中節(jié)點之間符合相關性需求為止,以此完成高維傳感器數(shù)據采集任務。

        2 基于分割點選擇與區(qū)間標準化的數(shù)據歸一化處理

        采集傳感器節(jié)點數(shù)據后,通常會對數(shù)據實施預處理,預處理涵蓋數(shù)據清洗、特征提取、歸一化等操作。歸一化是數(shù)據分析領域中的核心技術,能去除特征屬性之間的量綱影響,本文使用分割點選擇與區(qū)間標準化兩個步驟完成傳感器數(shù)據歸一化處理[9]。

        利用分割點預設獲取傳感器數(shù)據特征屬性內的u-1 個候選分割點,利用式(8)推算候選分割點聯(lián)合信息增益,信息增益最大值所對應的分割點為最佳分割點,提升歸一化整體質量。

        式中,γ表示信息增益系數(shù),H′()是連續(xù)特征屬性tx分割前的數(shù)據集信息熵,η是某數(shù)據集在全部數(shù)據集中的占比,H′(|left)是分割點左側信息熵,H′(|right)為分割點右側信息熵。

        對傳感器網絡異常數(shù)據的不同屬性特征實施標準化,記作:

        式中,f是離散值,K(Q)是數(shù)據信息熵,K(Q|f)代表離散值是f時,數(shù)據集類型的條件熵。

        選取分割點后,使用式(10)進行區(qū)間變換[10],完成數(shù)據歸一化全過程。

        3 BIRCH 聚類算法下高維傳感器數(shù)據異常檢測實現(xiàn)

        完成相關數(shù)據采集與處理工作后,將高維傳感器數(shù)據時間序列分割成多個時序組合,挑選出傳感器數(shù)據序列的孤立異常值[11],同時在檢測時剔除初始篩查異常中涵蓋的正常數(shù)據,得到所有異常數(shù)據。傳感器數(shù)據內的顯性異常一般在時間序列的離心邊緣,運用分層聚類策略研究數(shù)據性質,以最快速率挖掘異常數(shù)據。

        高維傳感器異常值通常為極大異常和極小異常,傳感器數(shù)據序列較高的觀測值證明數(shù)據內存在異?,F(xiàn)象,較低的觀測值為正常數(shù)據。極大異常對分割小型數(shù)據集合的數(shù)據擾動較大,但中位數(shù)不會受到分布數(shù)列的極值影響,更能呈現(xiàn)小型集合的數(shù)據特點。將傳感器數(shù)據序列的中位數(shù)異常作為異常檢測的判定條件,計算過程為:

        式中,Wlmp表示第m個子集內隨機p點的觀測值,MI(wlm)是第m個子集的中位數(shù)。若p點的觀測值高于中位數(shù),則傳感器節(jié)點數(shù)據存在異常;反之無異?,F(xiàn)象發(fā)生。

        為實現(xiàn)準確快速的高維傳感器數(shù)據異常檢測目標,提出基于BIRCH 聚類[12]的高維傳感器數(shù)據異常檢測方法。BIRCH 算法僅需一次掃描數(shù)據集即可達到聚類目標,聚類特征(Clustering Feature,CF)與聚類特征樹(CF 樹)是該算法最為重要的計算步驟。

        BIRCH 算法通過CF 描述不同節(jié)點簇的數(shù)據,假設某個簇內涵蓋F個N維數(shù)據點,此簇的聚類特征被設定為如下三元組:

        式中,F(xiàn)是此簇內數(shù)據點的總和,LC 表示數(shù)據點的線性總和,SST 為數(shù)據點的平方和。

        CF 樹保存了不同層次的聚類簇特征,是一棵高度平衡樹,CF 樹內包含根節(jié)點、枝節(jié)點與葉節(jié)點,樹的各節(jié)點是通過多個聚類特征構成。

        將傳感器數(shù)據序列Wl分割成P個簇:

        式中,wli表示簇內的因子,wlij是第i個簇的第j個觀測值。

        進一步拓展式(12),將線性總和與平方和分別記作:

        CF 樹內含三個參數(shù),依次為內部節(jié)點均衡因子B′、葉節(jié)點均衡因子L′與簇半徑臨界值R。第g個特征樹節(jié)點被定義成CFTg,如式(17)所示。

        式中,H表示子節(jié)點最大值,CFi是特征節(jié)點第i個聚類屬性,Childi代表當前節(jié)點的下個子節(jié)點。

        將簇半徑臨界值R表示為:

        通常情況下,數(shù)據聚類的結果被展現(xiàn)為球形簇狀架構,球形簇表示在數(shù)據空間內的s個數(shù)據因素勻稱分布且呈球狀。但高維傳感器數(shù)據序列無球形簇特征,因此要將其變換為球狀計算形式,創(chuàng)建中時特征矢量概念,將傳感器數(shù)據序列變換為球形簇單元,變換過程如式(19)~式(21)所示,進而輸出準確的異常檢測結果。

        式中,表示第i個聚類內第j個因素相對的方位角,J為聚類簇內的因素總和,是球形簇的質心,為簇半徑,即時間序列子集內的觀測值,Wlij是傳感器時序內各數(shù)據的特征矢量,由時序值wlij、簇質心與方位角共同構成。

        綜上可得,基于BIRCH 聚類算法的高維傳感器數(shù)據異常檢測流程圖如圖1 所示。

        圖1 基于BIRCH 聚類算法的高維傳感器數(shù)據異常檢測流程圖

        分析圖1 可知,通于BIRCH 聚類算法中的聚類特征樹描述不同節(jié)點簇的數(shù)據,獲取CF 樹內部節(jié)點均衡因子、葉節(jié)點均衡因子與簇半徑臨界值。將高維傳感器數(shù)據序列變換為球狀計算形式,實現(xiàn)高維傳感器數(shù)據序列均勻分布,再將傳感器數(shù)據序列的中位數(shù)異常作為異常檢測的判定條件,通過分層聚類挖掘異常數(shù)據,實現(xiàn)準確的高維傳感器數(shù)據異常檢測。

        4 仿真實驗

        4.1 實驗設置

        為驗證本文方法的有效性,設計高維傳感器數(shù)據異常檢測仿真實驗。仿真平臺為MATLAB R2010a,對比方法為文獻[4]方法、文獻[5]方法及文獻[6]方法。設網絡簇首壓縮比是0.3,節(jié)點分布范圍為300 m×700 m 的矩形區(qū)域,匯聚節(jié)點坐標是(150 m,350 m),實驗參數(shù)設定如表1 所示。

        表1 傳感網絡仿真實驗參數(shù)

        實驗采用車聯(lián)網高維數(shù)據M1,人工設定故障節(jié)點與誤差節(jié)點數(shù)據集,讓故障節(jié)點數(shù)據在較長時段內維持不變,誤差節(jié)點數(shù)據保持變化并和相同采集時間的正常節(jié)點數(shù)據有顯著偏差。為直觀展現(xiàn)方法對異常數(shù)據檢測的性能優(yōu)劣,從檢出率、誤報率、檢測時間三個方面在不同數(shù)據規(guī)模下進行測驗。檢出率是方法準確評估異常節(jié)點的概率,計算過程為:

        式中,C表示檢測輸出的異常節(jié)點個數(shù),r是異常節(jié)點的實際數(shù)量。

        誤報率是正常節(jié)點被判斷成異常節(jié)點的數(shù)量和傳感網絡正常節(jié)點的比值,記作:

        式中,S′是無線傳感網絡的全部節(jié)點,A′表示異常節(jié)點數(shù)量。

        4.2 實驗分析

        將節(jié)點異常概率作為檢出率與誤報率的衡量指標,從現(xiàn)實意義而言,在保證無線傳感網絡正常使用前提下,節(jié)點異常概率值通常為10%~30%。四種方法伴隨節(jié)點異常概率變化得到的異常數(shù)據檢出率結果如圖2 所示。

        圖2 四種方法異常檢測的檢出率對比

        從圖2 看出,隨著節(jié)點異常率的持續(xù)升高,四種方法均不同程度出現(xiàn)檢出率下降趨勢,在節(jié)點異常概率為30%時,本文方法的異常檢出率為95%,高于文獻方法,證明其受到外部節(jié)點異常干擾的影響較小,計算穩(wěn)定性強。

        圖3 為四種方法異常檢測誤報率對比。

        圖3 四種方法異常檢測的誤報率對比

        觀察圖3 可知,隨著節(jié)點異常概率的增多,誤報率也隨之升高,本文方法誤報率最小,最終穩(wěn)定在0.35%。文獻[4]方法在卷積層學習時會產生一定數(shù)量邊緣節(jié)點,并將部分邊緣點誤報成異常值,導致其誤報率偏高。文獻[5]方法利用無向圖結構提取樣本關聯(lián)特征時,沒有考慮樣本時間序列特征,無法完成預期檢測精度。文獻[6]方法的誤報率相對較低,但仍高于本文方法。

        圖4 為四種方法異常檢測時長對比的仿真結果,實驗次數(shù)為1 000 次,每200 次記錄一次數(shù)據。

        圖4 四種方法異常檢測耗時對比

        從圖4 能夠看出,相同實驗環(huán)境下,當數(shù)據量達到1 000 Mbyte 時,本文方法耗時為1.5 min,低于文獻對比方法。分析其原因為,本文方法通過分割點選擇與和區(qū)間標準化步驟歸一化處理傳感數(shù)據,能夠降低數(shù)據檢測計算量,從而縮減運算時間。

        5 結束語

        針對當前高維傳感器數(shù)據異常檢測效率慢、精度差等問題,提出基于BIRCH 聚類算法的高維傳感器數(shù)據異常檢測方法。所提方法在精準采集高維傳感器數(shù)據的同時,運用歸一化處理降低計算復雜度,使用BIRCH 聚類將數(shù)據特征分類,得到高維傳感器數(shù)據序列異常數(shù)據。實驗結果表明,本文方法對異常節(jié)點檢測的檢出率為95%,誤報率為0.35%,數(shù)據量為1 000 Mbyte 時本文方法耗時為1.5 min,與文獻對比方法相比,本文方法對高維傳感器數(shù)據異常檢測的性能更優(yōu),能夠實現(xiàn)預期的異常檢測目標。

        猜你喜歡
        誤報率高維聚類
        基于GRU-LSTM算法的物聯(lián)網數(shù)據入侵檢測分析
        基于SSA-SVM的網絡入侵檢測研究
        家用燃氣報警器誤報原因及降低誤報率的方法
        煤氣與熱力(2021年6期)2021-07-28 07:21:40
        一種改進的GP-CLIQUE自適應高維子空間聚類算法
        測控技術(2018年4期)2018-11-25 09:46:48
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        基于加權自學習散列的高維數(shù)據最近鄰查詢算法
        電信科學(2017年6期)2017-07-01 15:44:37
        基于改進的遺傳算法的模糊聚類算法
        神經網絡技術在網絡入侵檢測模型及系統(tǒng)中的應用
        一般非齊次非線性擴散方程的等價變換和高維不變子空間
        一種層次初始的聚類個數(shù)自適應的聚類方法研究
        人妻少妇乱子伦无码视频专区| 亚洲精品一区二区三区蜜臀| 爱爱免费视频一区二区三区| 亚洲国产精品综合久久网络| 成av免费大片黄在线观看| 最新无码国产在线播放| 亚洲视频精品一区二区三区| 国产一区二区三区激情视频| 免费无码一区二区三区蜜桃| 无码AV高潮喷水无码专区线| 色琪琪一区二区三区亚洲区| 亚洲免费一区二区三区四区| 亚洲日韩av一区二区三区中文| 日韩精品一区二区三区视频| 国产一区二区精品网站看黄| 中文字幕乱码亚洲三区| 欧美四房播播| 毛片免费在线播放| 女人一级特黄大片国产精品| 国产成人精品一区二三区孕妇| 色爱无码av综合区| 美女啪啪国产| 女同同成片av免费观看| 久久久久高潮综合影院| 国产精品熟女一区二区| 精品综合久久久久久8888| 日韩精品自拍一区二区| 免费不卡无码av在线观看| 久久久国产一区二区三区四区小说| 国产国拍亚洲精品永久69| 伊人久久大香线蕉av不变影院| 久久久无码精品亚洲日韩蜜臀浪潮| 日产精品久久久久久久| 日韩精品人妻少妇一区二区| 蜜桃传媒一区二区亚洲av婷婷| a级特黄的片子| 男性一插就想射是因为啥| 福利视频偷拍一区二区| 久久久久久九九99精品| 五月婷婷六月激情| 亚洲专区一区二区三区四区五区|