靳慧斌,馮朝輝,張召悅,王志森
(中國民航大學(xué)a.安全科學(xué)與工程學(xué)院;b.空中交通管理學(xué)院,天津 300300)
廣播式自動(dòng)相關(guān)監(jiān)視(ADS-B,automatic dependent surveillance broadcast)是航空器周期性廣播自身位置及相關(guān)信息,供空管對(duì)其進(jìn)行監(jiān)視的一種監(jiān)視技術(shù)[1]。ADS-B 數(shù)據(jù)傳輸過程中可能會(huì)因?yàn)槎ㄎ辉O(shè)備故障、惡劣天氣、飛行姿態(tài)變化等因素導(dǎo)致部分報(bào)文數(shù)據(jù)缺失或數(shù)據(jù)跳點(diǎn),使地面站接收的ADS-B 軌跡數(shù)據(jù)出現(xiàn)缺失點(diǎn)、離群點(diǎn)等異常點(diǎn)[2]。異常點(diǎn)的產(chǎn)生不利于系統(tǒng)和相關(guān)用戶對(duì)軌跡位置數(shù)據(jù)進(jìn)行應(yīng)用分析,并有可能產(chǎn)生軌跡點(diǎn)間隙過大、錯(cuò)誤位置告警、圖形軌跡誤判等影響航空安全水平的事件。
為解決數(shù)據(jù)缺失問題,國內(nèi)外學(xué)者從不同方向展開了研究。鞠時(shí)光等[3]從連續(xù)性及保形性兩方面提出了用λ 參數(shù)三次樣條函數(shù)對(duì)等高線軌跡數(shù)據(jù)進(jìn)行修補(bǔ)論證,有效地解決了繪制地形圖過程中出現(xiàn)的等高線相交或缺失問題,但該方法只適用于線性函數(shù)。針對(duì)非線性數(shù)據(jù)插補(bǔ)修復(fù),Zamani[4]采用二次樣條函數(shù)處理函數(shù)邊界非線性問題;Farhan 等[5]建立了一種隨機(jī)多重插補(bǔ)(RMI,random multiple interpolation)方法來克服非線性軌跡不確定性問題。但兩種方法對(duì)于處理大量數(shù)據(jù)具有局限性。為解決大數(shù)據(jù)插補(bǔ)局限性問題,Peeters 等[6]評(píng)估了處理丟失數(shù)據(jù)的不同技術(shù),得到了對(duì)于大數(shù)據(jù)插補(bǔ)問題使用預(yù)測(cè)均值匹配的多重插補(bǔ)(MI,multiple interpolation)是最佳方法的結(jié)論。為提升ADS-B 數(shù)據(jù)完整性,鄒文華等[7]建立了一種引入時(shí)間序列的基于貝葉斯常均值模型的數(shù)據(jù)增廣算法,解決ADS-B 軌跡點(diǎn)回跳現(xiàn)象。此外為確保插補(bǔ)數(shù)據(jù)精度,Sun 等[8]構(gòu)建了一種使用最小二乘樣條逼近(LSB,least square b-spline)的軌跡數(shù)據(jù)重建算法,能夠避免因數(shù)據(jù)差值而導(dǎo)致插補(bǔ)誤差過大問題。
上述研究多側(cè)重從單一角度對(duì)數(shù)據(jù)缺失問題進(jìn)行插補(bǔ)分析,或以局部數(shù)據(jù)是否間斷為依據(jù)進(jìn)行插補(bǔ)驗(yàn)證,未考慮數(shù)據(jù)可能存在異常點(diǎn)的問題。針對(duì)這一情況,本文采用多約束條件篩選出航空器軌跡缺失點(diǎn)并將其清洗插入,然后利用改進(jìn)后的K 最近鄰(KNN,K-nearest neighbor)方法檢測(cè)ADS-B 異常點(diǎn),解決了ADS-B 樣本數(shù)據(jù)量過大帶來的聚類點(diǎn)權(quán)重分配不平衡而無法有效檢測(cè)異常點(diǎn)的問題,并對(duì)軌跡進(jìn)行多重回歸插補(bǔ)修復(fù),進(jìn)一步提高軌跡數(shù)據(jù)完整性,從而保障航空安全監(jiān)管水平。
為確保經(jīng)度、緯度和高度使用同一量綱(m),需要利用米勒投影完成經(jīng)緯度和平面坐標(biāo)的相互轉(zhuǎn)換[9]。轉(zhuǎn)換過程如圖1 所示。
圖1 經(jīng)緯度米勒投影轉(zhuǎn)換Fig.1 Miller projection conversion of longitude and latitude
圖1 中:ARP(aerodrome reference point)為機(jī)場(chǎng)基準(zhǔn)點(diǎn);L 為地球周長;W 為地球周長的平面展開,并將周長視為X 軸;H 為Y 軸,約等于地球周長一半(L/2);mill 為米勒投影常數(shù)。
ADS-B 地面接收機(jī)在同一時(shí)間接收不同航空器機(jī)載ADS-B OUT 發(fā)出的報(bào)文信息是有限的[10],中國民用航空局規(guī)定接收機(jī)標(biāo)準(zhǔn)是600 架飛機(jī)的解碼[11],一臺(tái)ADS-B OUT 發(fā)射全類型報(bào)文為4 次/s,則ADS-B地面接收機(jī)每秒最少接收2 400 條全類型報(bào)文。
假設(shè)一臺(tái)ADS-B OUT 單位時(shí)間T 內(nèi)發(fā)射報(bào)文次數(shù)為C,則每條報(bào)文時(shí)間間隔
從航路進(jìn)入終端區(qū)的進(jìn)近航路相對(duì)地面高度一般為6 000 m 左右,無線電傳播速度為299 792 458 m/s,因此在終端區(qū)范圍內(nèi),因距離而導(dǎo)致的接收延遲問題可以忽略。
一條全類型報(bào)文解碼平均時(shí)間長度為Ta。地面接收機(jī)接收?qǐng)?bào)文并完成解碼,傳入終端顯示界面的時(shí)間間隔為Tu,則同一航班的兩條報(bào)文時(shí)間間隔應(yīng)為
一條軌跡點(diǎn)的報(bào)文信息包括經(jīng)度、緯度、高度、地速、航向角、時(shí)間,所以設(shè)軌跡點(diǎn)P={Plo,Pla,Pal,Psp,Pha,Pt},軌跡點(diǎn)速度均為瞬時(shí)速度,因此將軌跡點(diǎn)之間的時(shí)間段位移作為平均速度位移,通過距離和時(shí)間差判斷是否有缺失點(diǎn),其判斷公式如下
式中:時(shí)間差Δt=Pt,i-Pt,i-1;速度差Δv=Psp,i-Psp,i-1;Px為兩點(diǎn)之間距離;i 為軌跡點(diǎn)序號(hào)。其缺失點(diǎn)判斷如圖2 所示,其中Pvt為同一架飛機(jī)t 時(shí)間段內(nèi)飛行的距離。
圖2 缺失點(diǎn)判斷示意圖Fig.2 Diagram of missing point judgment
當(dāng)兩點(diǎn)之間出現(xiàn)缺失數(shù)據(jù),應(yīng)插入空白軌跡點(diǎn),其插入軌跡點(diǎn)數(shù)目滿足
KNN 算法具有最近鄰特性,對(duì)于非線性數(shù)據(jù)篩選可避免偏離數(shù)據(jù)與正常數(shù)據(jù)出現(xiàn)較高擬合[12-13],因此適用于終端區(qū)ADS-B 數(shù)據(jù)檢測(cè)。
1.2.1 數(shù)據(jù)處理
在1.1 節(jié)中已經(jīng)完成缺失點(diǎn)的篩選和空白軌跡點(diǎn)插入。但在計(jì)算軌跡點(diǎn)相似度時(shí),需要賦予空白軌跡點(diǎn)標(biāo)簽,避免出現(xiàn)因無標(biāo)簽而導(dǎo)致分類錯(cuò)誤的問題,通過下三角距離矩陣對(duì)空白軌跡點(diǎn)進(jìn)行賦值,其矩陣如下
式中t 為軌跡點(diǎn)時(shí)間,當(dāng)矩陣中元素Wi,j<0 時(shí),對(duì)應(yīng)Pt,i為原數(shù)據(jù);當(dāng)Wi,j>0 時(shí),對(duì)應(yīng)Pt,i=0。因ADS-B 軌跡在界面只顯示二維坐標(biāo)軌跡,所以只需要插補(bǔ)經(jīng)度和緯度。
1.2.2 距離計(jì)算
KNN 距離度量有兩種,一種是歐氏度量(Euclidean metric),另一種是曼哈頓度量。歐氏度量用于衡量各點(diǎn)之間的絕對(duì)距離。如三維坐標(biāo)點(diǎn)M1(X1,Y1,Z1)和M2(X2,Y2,Z2),則M1和M2兩點(diǎn)之間的距離為
在n 維空間中,兩個(gè)n 維向量A=(X1,X2,…,Xn)、B=(Y1,Y2,…,Yn)間的歐式度量為
曼哈頓度量是向量之間距離的范數(shù)。如向量A=(X1,X2,…,Xn)和B=(Y1,Y2,…,Yn)之間的曼哈頓距離為
選擇歐氏度量或曼哈頓度量主要取決數(shù)據(jù)維度特征[13]。對(duì)于高維向量,曼哈頓度量比歐氏度量計(jì)算距離的效果更好;對(duì)于低維向量,歐氏度量要優(yōu)于曼哈頓度量。因軌跡點(diǎn)P 經(jīng)過篩選,只考慮經(jīng)度、緯度和時(shí)間,所以本文選擇歐式度量。
歐式度量適用于樣本向量的各個(gè)分量度量標(biāo)準(zhǔn)統(tǒng)一的情形。ADS-B 軌跡樣本各分量權(quán)重相同,當(dāng)時(shí)間與經(jīng)緯度波動(dòng)范圍量綱值差距較大時(shí),可能會(huì)引起各個(gè)分量分類不平衡問題[14]。因此可以通過標(biāo)準(zhǔn)化歐氏度量(standardized Euclidean metric)解決Pt和Plo、Pla分量差值問題。標(biāo)準(zhǔn)化歐氏度量是針對(duì)歐氏度量缺點(diǎn)的一種改進(jìn)。標(biāo)準(zhǔn)化歐氏度量的思路為:既然數(shù)據(jù)各維分量的分布不一樣,那先將各個(gè)分量都“標(biāo)準(zhǔn)化”到均值、方差相等[15]。假設(shè)樣本集X 的均值為m,標(biāo)準(zhǔn)差為s,X 的“標(biāo)準(zhǔn)化變量”表示為
標(biāo)準(zhǔn)化歐氏度量公式為
由式(10)可以得到不同軌跡點(diǎn)之間標(biāo)準(zhǔn)化歐氏度量為
式中z 為分量度量,因KNN 遵循最近鄰原則,為避免同一航班軌跡點(diǎn)之間不同分量差值較大,導(dǎo)致線性方差誤差過大,因此需要限制軌跡點(diǎn)方差樣本數(shù)目i -n1≤i≤i+n2,n1為第i 點(diǎn)前一個(gè)不相鄰異常點(diǎn)位置,n2為第i 點(diǎn)后一個(gè)不相鄰異常點(diǎn)位置,將式(11)的變量進(jìn)行如下改進(jìn),即
通過改進(jìn)后的KNN,檢測(cè)出缺失點(diǎn)和其他異常點(diǎn)的總集合{O1,O2,…,On},然后通過程序遍歷總集合,將異常點(diǎn)清洗為空白軌跡點(diǎn),便于后續(xù)插補(bǔ)。
多重回歸插補(bǔ)理論定義[16]為:設(shè)β 是從所要修復(fù)樣本數(shù)據(jù)X 中估計(jì)得到的參數(shù)向量,β 的先驗(yàn)分布為f(β),使用貝葉斯準(zhǔn)則可得到其后驗(yàn)概率分布為
式中Q 是分析樣本數(shù)據(jù)X 得到似然函數(shù)。
設(shè)Xp為X 中缺失信息的變量。pobs和pmis分別為p中的已存元素和缺失元素,并假設(shè)p 中的信息缺失機(jī)制為隨機(jī)丟失(MAR,missing at random)。
缺失數(shù)據(jù)樣本的參數(shù)向量期望值β|Xp,pobs為
Bernstein-von Mises 定理[17]將貝葉斯估計(jì)與經(jīng)典的最大似然估計(jì)聯(lián)系起來,總結(jié)這種關(guān)系如下
根據(jù)式(18),在二維多重插補(bǔ)隨機(jī)修復(fù)下(G=1,2),軌跡樣本數(shù)據(jù)的β|Xp,pobs計(jì)算公式如下
式(19)可以用于計(jì)算軌跡樣本的最終方差。通過從軌跡數(shù)據(jù)集中抽取多個(gè)隨機(jī)樣本,可以推斷出總體參數(shù)的均值和方差的無條件估計(jì)[18]。均值和方差-協(xié)方差矩陣計(jì)算如下
式中:Ex(β|X)為樣本數(shù)據(jù)X 中參數(shù)向量的期望;Varx(E(β|X))為Ex(β|X)期望的方差。軌跡缺失數(shù)據(jù)多重插補(bǔ)的步驟如下:
步驟1從要修復(fù)的軌跡數(shù)據(jù)隨機(jī)抽取部分樣本數(shù)據(jù)xg,g=1,2,…,G;
步驟2引入誤差項(xiàng)e 的方差,計(jì)算為
步驟5計(jì)算插入缺失值向量,如下
式中Z 為數(shù)據(jù)插補(bǔ)間可變性系數(shù),在多次插補(bǔ)步驟結(jié)束時(shí),可得到G 個(gè)完整的數(shù)據(jù)集。因航空器性能的影響,軌跡數(shù)據(jù)插補(bǔ)不應(yīng)以整個(gè)軌跡數(shù)據(jù)方差為系數(shù),為得到更加準(zhǔn)確的插補(bǔ)值,采用軌跡分隔和軌跡排序判斷對(duì)多重插補(bǔ)方法進(jìn)行改進(jìn),其過程如圖3 所示。
圖3 軌跡修復(fù)流程圖Fig.3 Flow chart of trajectory repair
因軟件界面只顯示航空器ADS-B 二維坐標(biāo)軌跡,所以只需要插補(bǔ)經(jīng)度和緯度即可。
本文選擇天氣狀況良好的時(shí)間段,排除天氣干擾因素,篩選出某機(jī)場(chǎng)終端區(qū)4 天內(nèi)軌跡坐標(biāo)數(shù)據(jù),如圖4 所示。
圖4 終端區(qū)不同維度軌跡顯示Fig.4 Trajectory display of different dimensions in terminal area
通過匹配機(jī)型,從中隨機(jī)挑選2 個(gè)不同機(jī)型的航班,其軌跡信息如表1 所示。
表1 樣本軌跡信息Tab.1 Information of sample trajectory
樣本軌跡數(shù)據(jù)通過米勒投影轉(zhuǎn)換和缺失點(diǎn)篩選得到結(jié)果如表2 所示。
表2 缺失點(diǎn)信息Tab.2 Information of missing points
每條全類型報(bào)文平均解碼時(shí)間Ta=1.12×10-4s,每條全類型報(bào)文發(fā)射間隔To=0.25 s,數(shù)據(jù)經(jīng)過處理傳入終端界面時(shí)間Tu<0.1,從表2 可以得到最小間隔Tmin<Ta+To+Tu均成立,說明缺失點(diǎn)判別模型算法正確。通過距離矩陣對(duì)缺失點(diǎn)賦值,便于改進(jìn)后的KNN算法檢測(cè)分類。
在軌跡點(diǎn)分類的具體應(yīng)用中,選擇適用的距離計(jì)算方法是決定KNN 分類結(jié)果質(zhì)量的關(guān)鍵性因素。常見的空間距離算法有歐氏度量和曼哈頓度量,如1.2節(jié)所述。本節(jié)將歐氏度量、曼哈頓度量和標(biāo)準(zhǔn)化歐氏度量進(jìn)行實(shí)驗(yàn)對(duì)比,通過對(duì)比3 種距離算法檢測(cè)ADS-B 異常軌跡點(diǎn)的結(jié)果,驗(yàn)證3 種不同算法檢測(cè)ADS-B 異常點(diǎn)的準(zhǔn)確率。所有樣本訓(xùn)練集與測(cè)試集比例設(shè)置為6 ∶4,每個(gè)樣本設(shè)置不同k 值(樣本包括780310、781181),交叉驗(yàn)證采用不同距離算法的KNN檢測(cè)ADS-B 異常軌跡點(diǎn),并計(jì)算每種算法檢測(cè)出的異常點(diǎn)數(shù)量與每個(gè)樣本異常點(diǎn)總數(shù)之間占比,其結(jié)果如圖5 所示。
圖5 算法結(jié)果對(duì)比Fig.5 Comparison of algorithm results
從圖5 可得標(biāo)準(zhǔn)化歐氏度量的精確度均高于歐氏度量和曼哈頓度量。通過對(duì)比不同k 值各算法準(zhǔn)確率,當(dāng)k=2 時(shí)為最佳選擇。通過同一終端區(qū)的不同航班軌跡、不同k 值和不同距離算法的交叉驗(yàn)證,驗(yàn)證了改進(jìn)后的KNN 算法檢測(cè)ADS-B 異常點(diǎn)是完全可行的。
在進(jìn)行插補(bǔ)修復(fù)前,需要將檢測(cè)出的異常值的經(jīng)度和緯度歸0,并賦值序號(hào)標(biāo)簽,方便插補(bǔ)算法識(shí)別需插補(bǔ)位置,以免忽略。完成賦值后,篩選出樣本中緯度和經(jīng)度將其作為修補(bǔ)序列C[X,Y]輸入多重插補(bǔ)算法中,其對(duì)比結(jié)果如圖6 所示。
圖6 實(shí)驗(yàn)結(jié)果對(duì)比Fig.6 Comparison of experimental results
由圖6 可知,ADS-B 軌跡包含線性軌跡與非線性軌跡,經(jīng)過缺失點(diǎn)篩選和改進(jìn)后的KNN 檢測(cè)出異常點(diǎn),將其清洗后通過多重插補(bǔ)能夠有效完善軌跡圖像,進(jìn)一步提高數(shù)據(jù)的完整性。
航空器ADS-B 技術(shù)的普及應(yīng)用,使得ADS-B數(shù)據(jù)成為當(dāng)前航空器交通流分析、軌跡監(jiān)管和空域運(yùn)行態(tài)勢(shì)分析的重要數(shù)據(jù)來源之一。然而ADS-B 數(shù)據(jù)的缺失及異常點(diǎn)的出現(xiàn)給相關(guān)系統(tǒng)及用戶的應(yīng)用分析造成一定困難。本文方法不僅可以有效判別是否存在缺失點(diǎn),而且可以有效檢測(cè)出除缺失點(diǎn)外的其他異常點(diǎn),能夠有效插補(bǔ)航空器ADS-B 軌跡,提升軌跡圖像連續(xù)性,降低因異常點(diǎn)或圖形問題而造成的不安全事件發(fā)生概率。針對(duì)ADS-B 數(shù)據(jù)缺失水平問題,應(yīng)進(jìn)一步研究ADS-B 數(shù)據(jù)質(zhì)量分析指標(biāo)體系,并根據(jù)用戶需求和實(shí)際應(yīng)用場(chǎng)景不斷改善和發(fā)展ADS-B 技術(shù),提高數(shù)據(jù)鏈傳輸質(zhì)量和地面站接收能力,從根本上解決數(shù)據(jù)缺失和異常點(diǎn)出現(xiàn)問題。