李祥民 白潔
摘要:聚類是一種無指導(dǎo)的學(xué)習(xí)過程,無需先驗知識即可完成特征分類。在層次化聚類算法基礎(chǔ)上,介紹聚類方法對異常行為檢測理論方法。對目標(biāo)樣本數(shù)據(jù)特征分析,建立了目標(biāo)運動特征異常的檢測工程模型?;诶鄯e數(shù)據(jù)聚類生成了特定區(qū)域目標(biāo)運動特征知識庫,對實時數(shù)據(jù)測試分析,計算得到了異常目標(biāo)集合。異常目標(biāo)運動特征數(shù)據(jù)可視化,驗證了目標(biāo)運動特征異常檢測模型的準(zhǔn)確性與可實現(xiàn)性。
關(guān)鍵詞:聚類;數(shù)據(jù)挖掘;異常檢測;航跡
中圖分類號:TP311文獻(xiàn)標(biāo)志碼:A文章編號:1008-1739(2018)14-62-3
Anomaly Detection of Target Behavior Based on Clustering
LI Xiangmin, BAI Jie
(The 54th Research Institute of CETC, Shijiazhuang Hebei 050081, China)
0引言
人工手段處理目標(biāo)活動海量數(shù)據(jù)的工作量比較繁重,而數(shù)據(jù)挖掘是一種發(fā)現(xiàn)海量數(shù)據(jù)隱含知識的技術(shù),是一種有效的數(shù)據(jù)應(yīng)用手段。聚類作為數(shù)據(jù)挖掘的重要方法,是一種無監(jiān)督的學(xué)習(xí)過程,聚類結(jié)果是不同數(shù)據(jù)分布特征的簇。異常數(shù)據(jù)占數(shù)據(jù)總體量較小,但蘊含信息量高。目標(biāo)特征聚類結(jié)果形成目標(biāo)行為知識庫,用于評估目標(biāo)行為是否正常,異常檢測結(jié)果有助于業(yè)務(wù)分析人員將有限精力集中于異常目標(biāo)數(shù)據(jù)的分析。
1聚類異常檢測原理
聚類可以發(fā)現(xiàn)強關(guān)聯(lián)的對象組,異常檢測是發(fā)現(xiàn)與正常對象不強相關(guān)對象簇的過程。異常簇同樣存在普遍運動特征,聚類可以用于異常檢測。聚類是一種無需指導(dǎo)的異常檢測技術(shù),在未標(biāo)記的數(shù)據(jù)集上進(jìn)行操作,將相似的數(shù)據(jù)劃分到同一個類中,根據(jù)數(shù)據(jù)分布特征查找異常類數(shù)據(jù)簇。
無監(jiān)督的異常檢測與有監(jiān)督的異常檢測相比,無監(jiān)督的異常檢測不需要訓(xùn)練數(shù)據(jù),只需要未經(jīng)加工的原始數(shù)據(jù),這是聚類模式運用到異常檢測的基礎(chǔ)。無監(jiān)督的異常檢測數(shù)據(jù)集中,正常數(shù)據(jù)的數(shù)目遠(yuǎn)大于異常數(shù)據(jù)的數(shù)目,大數(shù)據(jù)集聚類結(jié)果評估目標(biāo)正?;虍惓L卣鳌R虼?,基于聚類的異常檢測適用于無先驗知識的異常檢測。
1.1數(shù)學(xué)模型
1.2聚類算法及類間距
聚類算法可分為層次與劃分2類:①層次聚類是指產(chǎn)生一個嵌套的簇集。在層次體系中,每一層都有一些分開的簇,底層每個元組都組成一個單獨的簇,最高層所有的元組都屬于同一個簇,層次聚類中不必指定先驗簇的數(shù)目。層次聚類算法又可分為凝聚算法和分裂算法。②劃分聚類是指利用算法構(gòu)造一個簇集,其中簇的數(shù)目由用戶指定或系統(tǒng)指定。劃分方法聚類典型算法有-均值聚類、最近鄰算法及PAM算法等。
非層次聚類或劃分聚類一步就產(chǎn)生所有的簇,不需要多個步驟。各種算法中,可以在算法內(nèi)部產(chǎn)生幾個不同的簇,但劃分法聚類的結(jié)果只產(chǎn)生一個簇集。由于僅有一個簇集作為輸出,用戶必須輸入期望得到的簇的數(shù)目。此外,需要度量函數(shù)或準(zhǔn)則函數(shù)來判定解的優(yōu)劣程度。
不同的聚類算法產(chǎn)生的簇集都具有高簇內(nèi)相似性與低簇間相似性。聚類初始階段根據(jù)挖掘算法,定義聚類個數(shù)或相似度閾值。層次聚類算法中,調(diào)節(jié)相似度閾值可以得到對數(shù)據(jù)總體不同程度的劃分,本文采用層次聚類算法。
數(shù)據(jù)類型屬性通常由類別型變量和數(shù)值型變量組成。運動特征數(shù)據(jù)屬性一般表示為數(shù)值型變量。運動特征距離采用高斯相似度的距離函數(shù)。
調(diào)整相似度閾值,可以調(diào)整2類樣本之間的空間關(guān)系,增大或減小2類樣本的空間區(qū)分性,獲得有利于決策分析的檢測性能。
2目標(biāo)運動特征及預(yù)處理
大量傳感器獲取的海量目標(biāo)航跡點數(shù)據(jù),大數(shù)據(jù)可視化技術(shù)可以顯示目標(biāo)的軌跡,這些信息包含位置、路線、速度及屬性等維度信息。海量數(shù)據(jù)致使業(yè)務(wù)人員很難將有限的精力集中于更有意義的目標(biāo)信息。通過異常檢測,從海量運動目標(biāo)數(shù)據(jù)中抽取出異常數(shù)據(jù),異常數(shù)據(jù)出現(xiàn)頻率較小,信息含量高。決策分析人員的注意力可以集中于異常數(shù)據(jù),從而提高目標(biāo)的監(jiān)視效率。
聚類的基礎(chǔ)是運動特征建模,分析數(shù)據(jù)特征并且利用這些特征建立模型是問題的關(guān)鍵。目標(biāo)運動特征包含運動狀態(tài)信息(經(jīng)緯度、高度、速度、航向)和時間信息。在限定地理區(qū)域內(nèi),目標(biāo)運動航速和航向相對固定。受洋流、海洋地形等因素影響,不同區(qū)域目標(biāo)航向、航速呈現(xiàn)不同規(guī)律。對目標(biāo)活動空間區(qū)域進(jìn)行離散化處理,在柵格區(qū)域內(nèi)建立海上目標(biāo)運動模型,本文選取柵格區(qū)域為:經(jīng)度×緯度=1°×1°。
目標(biāo)運動屬性航向和航速符合正態(tài)分布,且通常認(rèn)為正常行駛的艦船通常占數(shù)據(jù)樣本遠(yuǎn)大于異常行駛目標(biāo)。正常目標(biāo)在特定時間粒度和特定區(qū)域內(nèi)目標(biāo)的運動規(guī)律較為穩(wěn)定。比如,一個月時間粒度內(nèi)出現(xiàn)在區(qū)域A的目標(biāo)具有相對穩(wěn)定的運動特征。
聚類運動特征模型作為一種知識庫,評估實時采集數(shù)據(jù)。使用高斯相似度函數(shù)度量數(shù)據(jù)與先驗知識簇的相似度,在滿足相似度閾值條件下,為數(shù)據(jù)標(biāo)記特征分類。運動目標(biāo)異常檢測模型如圖1所示。
3實時目標(biāo)異常檢測
目標(biāo)運動特征隨時間和地域的變化而變化,因此歷史數(shù)據(jù)的異常檢測得到知識庫用于評估新數(shù)據(jù)記錄時,需保證歷史目標(biāo)運動特征模型能反映待評估數(shù)據(jù)的運動特征。通常狀況下,歷年同一季節(jié)同一區(qū)域的目標(biāo)運動特征較類似,或臨近時間段內(nèi)數(shù)據(jù)中提取的目標(biāo)運動特征也較可靠。
對數(shù)據(jù)樣本航向、航速為特征量進(jìn)行聚類。聚類結(jié)果如表1所示。其中,結(jié)果含10個簇,每個簇中目標(biāo)運動屬性以航向、航速的均值和標(biāo)準(zhǔn)偏差分布特征描述。群體[3]、[1]合計約91%。即大多數(shù)運動目標(biāo)符合此類運動特征,航向均值分別為214°、35°,標(biāo)準(zhǔn)偏差分別為14、13.5;航速均值分別為26.5、24.4,標(biāo)準(zhǔn)偏差分別為8.8、9.3。群體[6]、[8]、[2]、[4]、[9]、[7]比例小,合計約9%,且在航速、航向?qū)傩陨媳憩F(xiàn)出較大異常,群體[5]、[7]中,航速的均值和航向標(biāo)準(zhǔn)偏差遠(yuǎn)大于其他群體。此類群體信息量更大。
選取上述時間粒度臨近時間段內(nèi)數(shù)據(jù),對該樣本數(shù)據(jù)進(jìn)行評估,得到目標(biāo)活動情況,評分結(jié)果如表2所示。每個目標(biāo)航跡點賦予了一種屬性標(biāo)示,為分析該目標(biāo)屬性提供參考。
目標(biāo)運動異常檢測結(jié)果如圖2所示?!癈→”所示艦船航跡為以航向和航速特征檢測的異常結(jié)果。圖中異常軌跡明顯偏離了正常航向。
4結(jié)束語
研究了基于聚類的海上目標(biāo)異常檢測方法,根據(jù)業(yè)務(wù)背景特點,選取適合目標(biāo)運動數(shù)據(jù)的聚類算法,建立異常檢測應(yīng)用模型。根據(jù)歷史數(shù)據(jù)聚類結(jié)果建立了目標(biāo)活動特征知識庫,對實時獲取的目標(biāo)航跡和數(shù)據(jù)評估,發(fā)現(xiàn)異常目標(biāo)的異常行為,應(yīng)用模型可廣泛應(yīng)用于各類目標(biāo)異常行為檢測。
參考文獻(xiàn)
[1]顏博,張佳驥,張鵬.??者\動目標(biāo)數(shù)據(jù)的時序及關(guān)聯(lián)規(guī)律挖掘[J].無線電工程,2008,38(12):12-13.
[2]陳勇.一種目標(biāo)航跡數(shù)據(jù)聚類挖掘分析方法[J].無線電工程, 2015,45(3):22-24.
[3]白潔,田瑞麗,張學(xué)軍.Apriori算法在用戶特性關(guān)聯(lián)分析中的應(yīng)用[J].計算機與網(wǎng)絡(luò),2016,42(12):70-72.
[4] Dunham M H.數(shù)據(jù)挖掘教程[M].郭崇慧,田鳳占等,譯.北京:清華大學(xué)出版社,2005.
[5] Tan P N, Steinbach M, Kumar V.數(shù)據(jù)挖掘?qū)д揫M].范明,范宏建等,譯.北京:人民郵電出版社,2006.