葉青張劍
(武漢數(shù)字工程研究所 武漢 430205)
隨著軍隊信息化程度的不斷提高,各種武器裝備、通信系統(tǒng)、指揮控制系統(tǒng)、情報處理系統(tǒng)都向數(shù)字化方式轉(zhuǎn)變,指揮員將面對全方位、多兵種、復(fù)雜環(huán)境下的高科技戰(zhàn)爭[1]。因此,如何處理大量戰(zhàn)場信息,給指揮員提供可靠、有用的戰(zhàn)場信息,幫助指揮員進行正確、有效的決策,成為取得戰(zhàn)場優(yōu)勢的關(guān)鍵[2]。從信息優(yōu)勢轉(zhuǎn)化為決策優(yōu)勢進而提高戰(zhàn)斗力,就需要對戰(zhàn)場信息進行快速、精準的處理。
戰(zhàn)場上在長期對遠距離域進行觀察和監(jiān)控后,獲得了大量的數(shù)據(jù),通過對這些數(shù)據(jù)的分析處理可以形成一種易于指揮員理解并能輔助其決策的電磁環(huán)境的表達方式。它包括輻射源目標態(tài)勢、裝備用頻狀態(tài)、電磁環(huán)境信息,它們可以為電子對抗、頻譜管控、航路規(guī)劃等指控功能提供準確的數(shù)據(jù)支撐,同時能為指揮員提供豐富且便于理解的信息表現(xiàn)形式,使其更好地認清和理解戰(zhàn)場電磁環(huán)境[3]。
在現(xiàn)代戰(zhàn)爭中,電磁頻譜是極其重要的戰(zhàn)爭資源,它影響甚至決定著戰(zhàn)爭的進程和結(jié)局。電磁頻譜是電磁信號在頻域的表現(xiàn)形態(tài),它將信號在時間域中的波形轉(zhuǎn)變?yōu)轭l率域的頻譜,進而可以對信號的信息作定量解釋[4]。電磁頻譜是唯一能支持機動作戰(zhàn)、分散作戰(zhàn)和高強度作戰(zhàn)的重要媒質(zhì),被稱為與地面、海洋、空間和太空并存的第五維戰(zhàn)場,所以,對戰(zhàn)場進行頻域分析是十分必要的[5]。為了能夠及時準確地發(fā)現(xiàn)戰(zhàn)場上地方電磁環(huán)境的突發(fā)變化并進行分析處理,達到預(yù)警敵方戰(zhàn)略的變化效果,就需要對電磁頻譜數(shù)據(jù)的異常變化進行分析。
本文選取通過偵察獲取到的數(shù)據(jù)中的戰(zhàn)場固定區(qū)域內(nèi)十一個頻段上目標數(shù)量的變化進行異常分析。
聚類分析是一種重要的異常數(shù)據(jù)檢測方法,它利用相似性度量,把樣本集組織成若干個有意義的子集,相似度較高的樣本歸為一類,相似度較小或不相似的樣本則在不同的類中[6]。通過這樣的劃分,可戰(zhàn)場固定區(qū)域內(nèi)十一個頻段上目標數(shù)量樣本集中的正常數(shù)據(jù)和異常數(shù)據(jù)區(qū)分開來。當前的聚類算法大多采用距離作為樣本間的相似性度量,這是一種樣本間的模糊關(guān)系、反映樣本間的相似程度[7]。
經(jīng)典的K均值聚類算法采用歐式距離度量不同樣本間的相似程度。一般來說,對于兩個n維向量X和Y,用歐式距離計算它們的距離:
但是,歐氏距離將樣本的不同屬性(即各指標或各變量)之間的差別等同對待,算法對于向量不同下標之間的關(guān)聯(lián)性和相似性沒有考慮,這一點有時不能滿足實際要求。因為對于一個目標的頻段變化,跨度大與跨度小所代表的實際意義,是有很大差別的,而通過歐式距離所算出的結(jié)果是一致的,這就導(dǎo)致結(jié)果產(chǎn)生了很大的偏差[8]。所以,針對上述缺點,本文對K-means聚類算法進行改進,將歐氏距離用二次型距離替代,以適應(yīng)我們所研究的場景。
2.2.1 K-means聚類算法
K-means算法又叫K-平均或K均值算法,是一種使用最廣泛的聚類算法。它將各個聚類子集內(nèi)的所有數(shù)據(jù)樣本的均值作為該聚類的代表點,算法的主要思想是通過迭代過程把數(shù)據(jù)集劃分為不同的類別,使得評價聚類性能的測度函數(shù)達到最優(yōu),從而使生成的每個聚類內(nèi)緊湊,聚類間獨立[9]。
算法的計算流程:首先從n個數(shù)據(jù)對象任意選擇k個對象作為初始聚類中心;而對于所剩下其它對象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復(fù)這一過程直到標準測度函數(shù)開始收斂為止。一般都采用均方差作為標準測度函數(shù)[10]。
2.2.2 基于二次型距離的K-means聚類算法
二次型距離源于統(tǒng)計學領(lǐng)域的Mahalanobis距離[11],其計算公式為
其中,X和Y為兩個n維向量,∑為向量各元素之間距離的協(xié)方差矩陣,要求逆矩陣存在。我們通常利用一個相關(guān)矩陣A來取代∑的逆矩陣,來反映向量中各元素之間的相關(guān)程度。A中的元素計算如下:
其中,dij為直方圖第i個子區(qū)間與第j個子區(qū)間之間的空間距離,即dij= ||i-j,dmax=max(dij),此時,上式變?yōu)槎涡途嚯x的標準形式:
特別的,當相似度矩陣為n階單位矩陣時,二次型距離即轉(zhuǎn)化為歐氏距離的平方,因為此時除對角線外的元素均為零,即不存在元素之間的相似性關(guān)系。
根據(jù)十一個頻段(HF,VHF,UHF,L,S,C,X,Ku,K,Ka,mm)的分類構(gòu)造相似性矩陣:
這種計算方式考慮了直方圖元素之間的相似性,可以讓結(jié)果更符合我們對直方圖距離的直觀感受。
2.3.1 選取數(shù)據(jù)集
為了判斷所要檢測的當天數(shù)據(jù)是否異常,我們需要可以參照的數(shù)據(jù)來進行對比,也就是歷史數(shù)據(jù)。但是歷史數(shù)據(jù)每天不斷產(chǎn)生,比較龐雜,這些數(shù)據(jù)中大多為正常數(shù)據(jù),但是也可能存在異常數(shù)據(jù),所以需要先將這些數(shù)據(jù)進行處理,篩選出可用于訓練的數(shù)據(jù)。此時采用基于二次型距離的K-MEANS聚類算法,得到可用的數(shù)據(jù)集。
由于戰(zhàn)場的形勢是在不斷變化的,選取過長的時間周期的數(shù)據(jù)進行處理可能產(chǎn)生較大的誤差,所以我們將待檢測數(shù)據(jù)前30天的數(shù)據(jù)作為一個周期。為了提高對比數(shù)據(jù)的合理性,將一天24小時的數(shù)據(jù)分為12段,統(tǒng)計從0點開始,每兩個小時段中各個頻段中的目標數(shù)量,將這30個數(shù)據(jù)作為一組數(shù)據(jù)集,從而得到一共12組數(shù)據(jù)集。
2.3.2 數(shù)據(jù)處理
通過基于二次型距離的K-MEANS聚類算法分別處理這12組數(shù)據(jù)。
在處理之前,需要先選取k值。針對K-means聚類算法需要事先給出k的初始值這一問題,考慮到只需要區(qū)分數(shù)據(jù)是否為異常,故可以將k的值固定設(shè)為2,僅將數(shù)據(jù)劃分為正常聚類和異常聚類。這樣既解決了每次執(zhí)行算法都要進行賦值的麻煩,又避免了算法重復(fù)執(zhí)行來選取最優(yōu)k值時不必要的時間花銷,從而簡化算法,減少能量消耗,提高效率。
然后開始數(shù)據(jù)處理。
第一步:通過改進后的K-means聚類算法進行分簇,分簇之后,得到正常值簇和異常值簇兩個簇,獲取正常值簇的簇心C。
第二步:計算所有數(shù)據(jù)與正常值簇的簇心之間的二次型距離:
其中,Xi表示第i個數(shù)據(jù)。
第三步,計算平均距離:
其中n表示數(shù)據(jù)的總數(shù)。
第四步:比較數(shù)據(jù)集中所有數(shù)據(jù)與簇心之間的二次型距離,若某個數(shù)據(jù)與簇心之間的二次型距離大于當前的平均距離,即
那么將該數(shù)據(jù)點歸入疑似異常點集。
第五步:計算該聚類內(nèi)全部數(shù)據(jù)點到簇心距離標準差:
第六步:比較所有疑似異常點到簇心的距離跟平均距離之差與該聚類內(nèi)全部數(shù)據(jù)點到簇心距離標準差S的1.67倍(取置信區(qū)間為90%),如果大于后者,即
則認為該數(shù)據(jù)為異常數(shù)據(jù)[12]。
第七步:檢測待測數(shù)據(jù)是否為異常值。計算待測數(shù)據(jù)與正常值簇心之間的二次型距離,根據(jù)第四步、第五步和第六步的步驟,判斷此待測數(shù)據(jù)是否異常。
本文所有實驗均在Matlab平臺上進行。
設(shè)定在一個固定域內(nèi),將連續(xù)30天的偵察數(shù)據(jù)分12組共360個樣本數(shù)據(jù)通過2.3.2節(jié)所述方法進行處理,仿真結(jié)果如表1所示。
表1 仿真結(jié)果
仿真結(jié)果符合預(yù)期,說明通過本文所述方法,良好地分析出戰(zhàn)場固定區(qū)域內(nèi)24小時各個時間段中各頻段上目標數(shù)量變化的異常情況。
針對戰(zhàn)場在對遠距離域進行觀察和監(jiān)控后,獲得大量數(shù)據(jù)在頻域上的異常數(shù)據(jù)分析處理問題,提出了一種將二次型距離與K-means聚類算法相結(jié)合的改進的K-means聚類算法以適用于我們所研究的場景。該方法表明通過數(shù)據(jù)分析計算后,良好地分析出戰(zhàn)場固定區(qū)域內(nèi)24小時各個時間段中各頻段上目標數(shù)量變化的異常情況,以達到預(yù)警的效果。然而在樣本數(shù)量較大時,聚類計算速度受到影響。因此如何改進計算方法以提高計算速度和減小誤差,今后仍應(yīng)該繼續(xù)深入研究。