魏浩然
(四川大學國家空管自動化系統(tǒng)技術重點實驗室,成都 610065)
數(shù)據(jù)有效性分析是數(shù)據(jù)挖掘中的一個重要方面,用來發(fā)現(xiàn)“小的模式”,即數(shù)據(jù)集中顯著不同于其他數(shù)據(jù)的對象,在很多領域都有其應用,如氣象預報、金融領域、網(wǎng)絡入侵檢測、藥物研究,等等。對數(shù)據(jù)集進行有效性分析,能夠找出那些異常的噪聲數(shù)據(jù),降低原始數(shù)據(jù)中的勘誤影響,提高數(shù)據(jù)質(zhì)量,從而提高計算精度。文獻[1]將數(shù)據(jù)有效性分析應用到計算語言清晰度的實驗中,并且對比了三種有效性檢驗方法的檢驗效果。文獻[2]采用C4.5算法定義各個傳感器所采集數(shù)據(jù)對目標傳感器的支持度以決定目標傳感器數(shù)據(jù)的有效性,結果表明,該算法能準確判斷目標傳感器數(shù)據(jù)的有效性和故障傳感器在時域中發(fā)生的位置。文獻[3]給出了仿真模型確認中的若干種數(shù)據(jù)有效性分析方法,用來保證仿真數(shù)據(jù)的正確性和可信度。文獻[4]提出一種基于自適應閾值的軌跡異常點檢測算法,有效檢測出全部異常點,大幅度提高軌跡數(shù)據(jù)的質(zhì)量。文獻[5]系統(tǒng)地對目前國內(nèi)外異常點檢測算法進行了較為全面的闡述,并就這些算法在數(shù)據(jù)流挖掘中的可用性進行了研究與探討。
針對多源航跡融合過程中的數(shù)據(jù)特性,本文考慮將數(shù)據(jù)有效性分析環(huán)節(jié)加入其中,通過基于距離的方法,檢測并處理融合數(shù)據(jù)集中的異常數(shù)據(jù),以提高融合結果的準確性。
多源航跡融合摒棄了單一傳感器局限且不穩(wěn)定的缺點,通過對同一目標的多個觀測值進行歸納、綜合,實現(xiàn)對目標更精確的識別,其處理過程[6]通常包含以下幾個重要步驟:
(1)時空配準:從時間角度說,由于各傳感器掃描周期不同,即便周期相同傳感器位置不同各自所掃描到的目標時間也都不同,所以要將各個傳感器報告的位置數(shù)據(jù)外推到同一時間點。從空間角度來說,每個傳感器可能報告大地坐標、極坐標、直角坐標,坐標中心也有可能不同,融合之前需要將這些位置數(shù)據(jù)換算到同一公共坐標系下。
(2)數(shù)據(jù)關聯(lián):其目的是為了尋找量測值之間的聯(lián)系,通過數(shù)據(jù)關聯(lián)我們可以將來自不同傳感器的同一目標的位置信息進行匹配,保證后續(xù)融合處理的合理性與正確性。
(3)融合估計:將融合關聯(lián)表中的各個位置信息納入計算,通過某種算法得出最終的狀態(tài)估計值,常見的航跡融合算法有加權平均融合法、自適應加權平均融合法等。
通過上述流程可以將來不同雷達探測到的來自同一目標數(shù)據(jù)的進行綜合,從而得到該目標更確的狀態(tài)。
融合估計的要點是要求參與估計的信息盡量準確,任何一個誤差大的觀測值都會對目標飛行狀態(tài)的估計產(chǎn)生影響。一方面,由于環(huán)境的復雜性和信號的不穩(wěn)定性,傳感器本身報告的目標位置信息可能存在較大的誤差,另一方面,經(jīng)過目標跟蹤模塊形成的航跡往往是一條鋸齒形的,特別是沒有經(jīng)過濾波、平滑處理[7]的航跡,“鋸齒現(xiàn)象”更加突出。若將跟蹤航跡中的這種異常數(shù)據(jù)輸入給多源航跡融合模塊進行融合估計,勢必會對融合結果產(chǎn)生不利影響。如圖1所示。
圖1 某時刻航跡關聯(lián)情況
點跡A和點跡B雖然在關聯(lián)門限內(nèi),但由于是航跡“鋸齒突出”點,會與其他的點跡數(shù)據(jù)相距較遠。經(jīng)典的加權平均融合法計算公式如下:
其中(xi,yi)代表第i個量測,ri為其權值。若航跡A、B權值很大的話,那融合估計結果受到的影響更大,所以消除這種異常位置數(shù)據(jù)十分有必要。
對于上述問題,我們需要一種有效的方法去檢測數(shù)據(jù)集中可能存在的異常值。在統(tǒng)計學中,數(shù)據(jù)有效性檢測最常用的方法就是標準差檢驗法[8],用不一致性來測試識別異常。
假設在本周期有n個點跡數(shù)據(jù)加入到融合列表中。(Xi,Yi)為第i個點的位置信息,其中i=1,2,…,n。先計算這 n個點的中心位置。
然后再計算這n個點到中心點的距離的標準差S。我們將離中心點三倍標準差距離的范圍確定為有效數(shù)據(jù)范圍,落在范圍之外的位置數(shù)據(jù)為異常數(shù)據(jù)。標準差檢驗法簡單、常用,但有效性檢測的精度不高,效果一般,并且必須保證數(shù)據(jù)集符合某種特定分布才行,具有局限性。
基于距離的方法是最先由Knorr和Ng[9]提出,其對異常點數(shù)據(jù)判定規(guī)則為:數(shù)據(jù)集T中的一個對象O稱為異常點,如果它滿足下列性質(zhì):數(shù)據(jù)集T中至少p*100%的對象與O的距離大于D。其實現(xiàn)算法流程如下:
該算法的重點是需要不斷調(diào)整參數(shù)D和p,尋找一個合適的值,使其符合實際場景。若r偏大,會檢測不出異常點;若r偏小,則可能把大部分數(shù)據(jù)都檢測為異常點。參數(shù)的可調(diào)整性使得基于距離的檢測方法能應用于不同場景。
檢測出異常點后,我們需要考慮如何處理這些異常數(shù)據(jù),一般有鄰值替代法,均值替代法或者直接剔除法[10]等。直接剔除法最為簡單(后續(xù)實驗中若不另外強調(diào),默認采用直接剔除法),但是沒有考慮到某些特殊場景,可能確實存在目標緊急情況下偏離軌跡的情況,異常點數(shù)據(jù)一定程度上也代表著真實數(shù)據(jù)可能偏向某一方的特性,所以理論上鄰值替代法會更加適合,即選擇一個離它距離最近的點進行替換。一方面,替代點與異常點距離最接近,替代前后引起的誤差最小,另一方面,替代數(shù)據(jù)與異常數(shù)據(jù)具有相似性質(zhì),都是樣本域的邊界點。因此,采用鄰近點數(shù)據(jù)替代異常數(shù)據(jù)是一種較好的處理方法。
用δ2代表報告位置與真實位置的距離方差,則δ2衡量了數(shù)據(jù)源的穩(wěn)定性,δ2越大的航跡越容易出現(xiàn)鋸齒點,δ2越小的航跡越貼近于真實軌跡。本實驗模擬了12部雷達在同一時間段下對同一目標進行跟蹤,總共持續(xù) 30個周期,δ2分別為(24.6,1.9,3.2,3.1,2.5,3.4,6.2,3.1,2.7,5.0,2.2,25.1)。
實驗假設這12條模擬航跡都位于同一目標的關聯(lián)航跡列表中,原始的方法只需把同一個周期內(nèi)的12個點跡進行融合即可,改進過的方法則需要在融合之前對這些點跡數(shù)據(jù)進行異常點檢測、處理。
我們在同一場景下進行了15次實驗,比較原始處理方法、標準差檢驗法、基于距離的檢驗方法(在r=8,p=60%的情況下)三種處理方式下的最終融合效果。檢測到異常點后將其直接剔除。15次實驗的結果如圖2所示。
圖2 三種方法的融合結果誤差比較
折線圖中的每一個點代表著某一次實驗下30個周期內(nèi)融合結果與真值距離誤差的平方和。從圖2中可以看出,在大多數(shù)情況下,加入了數(shù)據(jù)有效性分析環(huán)節(jié)的融合算法計算出的結果與真值的誤差更小,并且,基于距離的方法檢驗效果要強于標準差檢驗法。
為了驗證哪一種異常點處理方式更合適,我們在基于距離的異常點檢測方法下,對異常點分別進行了均值替代、直接剔除和鄰值替代三種處理,15次實驗對比結果如圖3所示。分析可知,80%的情況下,采用鄰近點替代異常點后,融合計算出的結果與真實位置的誤差最小,而均值替代的誤差介于直接剔除法和鄰值替代法之間,直接剔除法的總體誤差最大。
圖3 三種異常點處理方法誤差比較
本文從提高融合結果精度的角度出發(fā),提出了一種加入異常點檢測、處理的改進融合算法,并對數(shù)據(jù)有效性檢驗方法、異常點的處理方法作出了對比和分析,實驗結果表明,對于多源航跡融合,加入了異常點檢測、處理環(huán)節(jié)的改進融合算法比傳統(tǒng)融合算法的融合計算結果更加接近于真實值,并且基于距離的檢測法要比一般的標準差檢驗法檢測效果要好。在異常點處理方面,建議采用鄰值替代法。