亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于機(jī)器學(xué)習(xí)的航空異常著陸事件檢測(cè)

2022-07-21 04:12:14蘇志剛楊金鋒張海剛

計(jì)算機(jī)工程與設(shè)計(jì) 2022年7期

楊雄，蘇志剛，楊金鋒，張海剛

(1.中國(guó)民航大學(xué) 電子信息與自動(dòng)化學(xué)院，天津 300300；2.中國(guó)民航大學(xué) 中歐航空工程師學(xué)院，天津 300300；3.深圳職業(yè)技術(shù)學(xué)院粵港澳大灣區(qū)人工智能應(yīng)用技術(shù)研究院，廣東深圳 518055)

0 引言

快速存取記錄器(quick access recorder，QAR)即是一種常見(jiàn)的飛行數(shù)據(jù)記錄設(shè)備[1]。目前，QAR數(shù)據(jù)越來(lái)越被民航安全專家所重視，這標(biāo)志著民航界從事故尋因這種預(yù)防航空危險(xiǎn)的被動(dòng)思維到日常監(jiān)控提升航空安全水平的主動(dòng)出擊思維的轉(zhuǎn)變。但目前實(shí)際應(yīng)用的閾值方法面臨著機(jī)型多樣性、地理多樣性和氣候多樣性的挑戰(zhàn)，很難兼顧每種條件設(shè)定閾值[2]，因此亟需一種有效的方法從航空高維數(shù)據(jù)中準(zhǔn)確地檢測(cè)出異常事件。

目前國(guó)內(nèi)外學(xué)術(shù)界對(duì)QAR數(shù)據(jù)應(yīng)用于航空異常事件的研究可分為基于擬合回歸的方法、基于聚類的方法和基于分類的方法?；跀M合回歸的方法是無(wú)監(jiān)督方法，不需要標(biāo)簽。擬合的方法使用多個(gè)自變量參數(shù)來(lái)擬合一個(gè)因變量，從而找出自變量和因變量之間的關(guān)系[3,4]。基于聚類的方法也屬于無(wú)監(jiān)督方法，與回歸方法不同的是基于聚類的方法首先會(huì)找一個(gè)聚類中心，計(jì)算其余點(diǎn)與中心點(diǎn)的相對(duì)距離，檢測(cè)出相對(duì)距離較大的點(diǎn)即為異常點(diǎn)[5,6]。基于分類的方法是有監(jiān)督方法，使用分類器通過(guò)異常標(biāo)簽來(lái)檢測(cè)異常[7,8]?；跀M合和聚類的方法根據(jù)不同的規(guī)則來(lái)分析航空數(shù)據(jù)，側(cè)重挖掘和利用數(shù)據(jù)間關(guān)系[9]，但因?yàn)闆](méi)有標(biāo)簽信息，無(wú)法統(tǒng)一比較這些算法的性能，因此很難評(píng)估這些算法在大規(guī)模數(shù)據(jù)應(yīng)用上的有效性。在另一方面，基于分類的方法優(yōu)勢(shì)在于可以充分利用標(biāo)簽屬性和有監(jiān)督模型學(xué)習(xí)到數(shù)據(jù)類別的判別邊界，但在航空領(lǐng)域標(biāo)簽信息很難獲取。

為了比較每一種算法的性能，本文克服標(biāo)簽獲取的困難，以飛機(jī)最常發(fā)生事故的著陸進(jìn)近階段為檢測(cè)目標(biāo)[10]，通過(guò)數(shù)據(jù)源匹配得到異常標(biāo)簽。針對(duì)航空高維數(shù)據(jù)的特點(diǎn)，提出了一種基于斯皮爾曼等級(jí)相關(guān)系數(shù)(spearman rank correlation coefficient，SRCC)特征處理、梯度提升樹(shù)(gradient boosting decision tree，GBDT)和遞歸特征消除(recursive feature elimination，RFE)經(jīng)過(guò)交叉驗(yàn)證(cross validation，CV)特征處理的混合特征選取方法，最后使用貝葉斯優(yōu)化改進(jìn)目標(biāo)函數(shù)的極限梯度提升樹(shù)(extreme gradient boosting，XGBoost)的異常檢測(cè)模型。

1 航空異常著陸事件檢測(cè)方案

航空異常著陸事件檢測(cè)方案主要包括以下過(guò)程：首先將QAR數(shù)據(jù)和參數(shù)監(jiān)控標(biāo)準(zhǔn)數(shù)據(jù)匹配，得到異常標(biāo)簽；再對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，處理數(shù)據(jù)匹配和數(shù)據(jù)重抽樣；然后使用混合特征選取的方法選擇合適的特征；隨后使用貝葉斯優(yōu)化的加權(quán)XGBoost算法訓(xùn)練出模型；最后在未做任何改變的測(cè)試集上模型評(píng)估。整個(gè)檢測(cè)方案的流程如圖1所示。

1.1 數(shù)據(jù)匹配

本文選用同一天氣狀況下一個(gè)月份的波音737-800和737-900ER的QAR數(shù)據(jù)作為實(shí)驗(yàn)基礎(chǔ)，總共861個(gè)航班。借助航空公司的譯碼軟件AirFase得到譯碼后的QAR數(shù)據(jù)和超限事件參數(shù)庫(kù)，超限事件參數(shù)庫(kù)是AirFase軟件根據(jù)民航法規(guī)設(shè)定的參數(shù)閾值[11]得到的航班超限異常，部分超限參數(shù)閾值見(jiàn)表1。

圖1 模型流程

表1 部分參數(shù)閾值及觸發(fā)條件

QAR數(shù)據(jù)中有航班注冊(cè)號(hào)、機(jī)型號(hào)、航班執(zhí)行日期、飛行時(shí)間和各參數(shù)記錄，超限事件參數(shù)庫(kù)里面有航班注冊(cè)號(hào)、機(jī)型號(hào)、異常階段、異常事件發(fā)生事件及異常程度等。通過(guò)匹配兩個(gè)數(shù)據(jù)源中的航班注冊(cè)號(hào)和航空公司注冊(cè)號(hào)，搜索超限異常參數(shù)數(shù)據(jù)源中的異常事件發(fā)生的時(shí)間在QAR數(shù)據(jù)中的航班執(zhí)行日期和時(shí)間，通過(guò)這些參數(shù)可以唯一確定哪個(gè)航班在哪個(gè)時(shí)間點(diǎn)發(fā)生了何種異常。最終通過(guò)正則化過(guò)濾、航班號(hào)匹配、異常時(shí)間定位等手段實(shí)現(xiàn)了QAR譯碼數(shù)據(jù)和標(biāo)準(zhǔn)超限參數(shù)庫(kù)的匹配從而得到異常標(biāo)簽。整個(gè)過(guò)程如圖2所示。

圖2 數(shù)據(jù)源匹配得到異常標(biāo)簽

將監(jiān)控參數(shù)標(biāo)準(zhǔn)庫(kù)與每個(gè)航班的QAR數(shù)據(jù)匹配，得到每個(gè)異常發(fā)生的時(shí)間點(diǎn)。再將一個(gè)航班中第一秒發(fā)生異常的時(shí)間點(diǎn)和最后一秒發(fā)生異常的時(shí)間點(diǎn)中間的時(shí)間段全部打上異常標(biāo)簽，即得到QAR異常參數(shù)數(shù)據(jù)集。

1.2 數(shù)據(jù)重抽樣

為了確保不同航班有相同的輸入長(zhǎng)度，對(duì)每個(gè)航班的數(shù)據(jù)樣本進(jìn)行重抽樣。對(duì)于每個(gè)航班f來(lái)說(shuō)，樣本數(shù)據(jù)可以表示為式(1)

(1)

對(duì)每個(gè)航班按相同的規(guī)則進(jìn)行重抽樣。飛機(jī)在剛著陸時(shí)，剎車會(huì)拉到最大以降低速度。將飛機(jī)剎車值突變的點(diǎn)設(shè)為著陸點(diǎn)，每個(gè)航班取著陸點(diǎn)前29點(diǎn)，著陸后取10點(diǎn)，每個(gè)航班總計(jì)40個(gè)時(shí)間戳，取值的范圍涵蓋了飛機(jī)在500英尺至在滑行跑道上的高度，因此總共有34 440行樣本。

1.3 航空著陸異常特征提取

在飛機(jī)飛行時(shí)，會(huì)有多個(gè)傳感器來(lái)記錄同一參數(shù)，以保證當(dāng)一個(gè)傳感器發(fā)生故障時(shí)其它傳感器還能繼續(xù)工作。這種冗余機(jī)制一方面保障飛機(jī)的安全，但另一方面在數(shù)據(jù)分析時(shí)卻會(huì)帶來(lái)不必要的麻煩。因此本文結(jié)合3種特征選取方式：過(guò)濾法(Filter)、包裹法(Wrapper)和嵌入法(Embedding)[12]，設(shè)計(jì)出一種針對(duì)航空高維數(shù)據(jù)的混合特征提取算法。混合特征選取算法首先對(duì)航空參數(shù)采取斯皮爾曼等級(jí)相關(guān)系數(shù)消除冗余特征，之后采用梯度提升算法選取與異常事件最相關(guān)的特征，其中使用遞歸特征消除。

1.3.1 斯皮爾曼冗余特征處理

斯皮爾曼等級(jí)相關(guān)系數(shù)特征處理是一種過(guò)濾的方法，它值的范圍從-1到1。值1表示強(qiáng)正相關(guān)，值-1表示強(qiáng)負(fù)相關(guān)，當(dāng)相關(guān)系數(shù)接近于0時(shí)，表示特征之間不存在相關(guān)關(guān)系。在當(dāng)前數(shù)據(jù)集種負(fù)相關(guān)和正相關(guān)都是相關(guān)，所以取相關(guān)矩陣的絕對(duì)值。斯皮爾曼等級(jí)相關(guān)系數(shù)表示為式(2)

(2)

其中，d為A、B兩個(gè)變量中元素對(duì)應(yīng)相減得到一個(gè)排行差分集合，其中di=Ai-Bi，N為單個(gè)元素總個(gè)數(shù)，在這為QAR數(shù)據(jù)的行數(shù)。如果兩個(gè)變量的相關(guān)系數(shù)越接近1，說(shuō)明兩個(gè)變量具有很強(qiáng)的相關(guān)性，可以認(rèn)為是冗余的，本文經(jīng)過(guò)實(shí)驗(yàn)將相關(guān)閾值設(shè)為0.95。經(jīng)過(guò)冗余值列處理后，著陸階段QAR數(shù)據(jù)的特征由152維降至78維。

圖3為原始數(shù)據(jù)和數(shù)據(jù)預(yù)處理后的熱力圖對(duì)比，右側(cè)從淺至深的漸變色表示相關(guān)系數(shù)從小到大的變化，顏色越深，說(shuō)明兩個(gè)變量之間的相關(guān)系數(shù)越大，這兩個(gè)變量更有可能互為冗余列。通過(guò)圖3(a)、圖3(b)可以看出經(jīng)過(guò)數(shù)據(jù)預(yù)處理之后，深色區(qū)域明顯變少，深色程度明顯變?nèi)酢?/p>

1.3.2 GBDT-RFE-CV關(guān)鍵特征選取

GBDT是集成學(xué)習(xí)Boosting的一種，Boosting方法以連續(xù)的方式訓(xùn)練一堆單獨(dú)的模型，每個(gè)單獨(dú)的模型都從前一個(gè)模型的誤差中學(xué)習(xí)。而GBDT每個(gè)模型采用基于分類與回歸樹(shù)(classification and regression trees，CART)，通過(guò)每個(gè)模型在上一輪模型的殘差基礎(chǔ)上進(jìn)行學(xué)習(xí)，學(xué)習(xí)的方向是前一個(gè)模型損失函數(shù)的梯度下降方向[13]。GBDT特征選取是一種基于模型的方法，設(shè)有K個(gè)CART樹(shù)的決策空間F,通過(guò)訓(xùn)練數(shù)據(jù)集，GBDT的每顆CART樹(shù)fk在不同特征上分裂節(jié)點(diǎn)(node)的次數(shù)之和為不同特征的重要度，之后通過(guò)設(shè)定特征數(shù)目閾值或者選取性能指標(biāo)選取合適的特征子集。

RFE[14]是一種Wrapper特征選取的方法，它的目標(biāo)是通過(guò)遞歸地考慮越來(lái)越小的特征集來(lái)選擇特征。首先，在初始特征集上訓(xùn)練估計(jì)器，得到每個(gè)特征的重要性。然后，從當(dāng)前的特征集合中剔除最不重要的特征。這個(gè)過(guò)程在修剪集上遞歸地重復(fù)，直到最終達(dá)到需要選擇的特征數(shù)。

GBDT特征選取和RFE方法組成了一組嵌入法特征選取方法。首先，GBDT模型在原始特征上訓(xùn)練，每個(gè)特征得到一個(gè)權(quán)重即特征重要度。之后，那些擁有最小絕對(duì)值權(quán)重的特征被移出特征集空間。如此遞歸重復(fù)，直至剩余的特征數(shù)量達(dá)到設(shè)定的特征數(shù)量閾值。為了讓算法自動(dòng)地選取合適的特征，本文采取交叉驗(yàn)證的方法，能夠自動(dòng)調(diào)整特征子集空間的特征數(shù)量，具體的算法流程如下所示。

圖3 數(shù)據(jù)預(yù)處理前后熱力圖對(duì)比

算法1：GBDT-RFE-CV特征選取

輸入：含有M個(gè)特征的訓(xùn)練集S，n折交叉驗(yàn)證，特征選取設(shè)定的閾值L

輸出：最佳特征子集

(1)將訓(xùn)練集分層抽樣劃分為n輪數(shù)據(jù)集，每輪n-1份為訓(xùn)練集，1份為測(cè)試集

(2)每一份數(shù)據(jù)集通過(guò)GBDT訓(xùn)練得到?jīng)Q策空間F

(4)根據(jù)每棵樹(shù)上特征node數(shù)目得到特征重要度

(6)在M特征空間遍歷刪除最不重要的特征，得到新的子集空間Mi

(7)使用Mi特征子集執(zhí)行交叉驗(yàn)證，得到驗(yàn)證分?jǐn)?shù)，并丟棄最不重要的特征，得到新的子集空間Mi+1

(8)end for

(9)end for

(10)統(tǒng)計(jì)最高的交叉驗(yàn)證分?jǐn)?shù)得到最佳特征子集

1.4 貝葉斯優(yōu)化的改進(jìn)XGBoost

1.4.1 改進(jìn)XGBoost

XGBoost的也是集成學(xué)習(xí)Boosting的一種，相比于GBDT，XGBoost對(duì)代價(jià)函數(shù)進(jìn)行二階泰勒展開(kāi)，并在代價(jià)函數(shù)中引入了正則項(xiàng)，用于控制模型的復(fù)雜程度。因此從原理上XGBoost的性能更好，更適合用作最終的異常檢測(cè)器。XGBoost的目標(biāo)函數(shù)[15]是由訓(xùn)練損失和正則化兩部分組成，訓(xùn)練損失函數(shù)的定義如式(3)所示，正則化即樹(shù)的復(fù)雜度定義如式(4)所示，目標(biāo)函數(shù)的定義如式(5)所示

(3)

(4)

(5)

對(duì)于二分類問(wèn)題，XGBoost的默認(rèn)損失函數(shù)為交叉熵?fù)p失(cross entropy loss，CE)，定義為

(6)

交叉熵?fù)p失明確了誤差越大損失越大的準(zhǔn)則，但是對(duì)于非平衡數(shù)據(jù)而言，總的交叉熵?fù)p失在多數(shù)類別樣本中更容易降低，對(duì)整個(gè)分類器性能卻沒(méi)多大提高。為了提高模型對(duì)少數(shù)類別樣本的學(xué)習(xí)能力，本文通過(guò)改變分類器的目標(biāo)函數(shù)，引入代價(jià)敏感學(xué)習(xí)(cost sensitive learning，CS)函數(shù)[16]和聚焦損失(focal loss，F(xiàn)L)函數(shù)，從而改進(jìn)分類器的性能。

代價(jià)敏感學(xué)習(xí)函數(shù)的定義為

(7)

(8)

式中：w為負(fù)例(negative，neg)多數(shù)樣本比正例(positive，pos)少數(shù)樣本的比例。代價(jià)敏感學(xué)習(xí)平衡了正負(fù)類的重要性，使得模型更加重視正樣本。

聚焦損失函數(shù)是由Lin等[17]提出，旨在解決one-stage目標(biāo)檢測(cè)器樣本的類別不平衡問(wèn)題和不同難易程度的樣本學(xué)習(xí)不平衡問(wèn)題，聚焦損失函數(shù)的定義為

(9)

式中：γ為調(diào)節(jié)因子，降低容易分類樣本的權(quán)重，使分類器聚焦于難樣本的訓(xùn)練。當(dāng)γ等于0時(shí)，聚焦損失函數(shù)為一般的交叉熵函數(shù)。

本文將代價(jià)敏感度學(xué)習(xí)函數(shù)與聚焦損失函數(shù)結(jié)合，因此整個(gè)模型的損失函數(shù)為

(10)

損失函數(shù)的一階導(dǎo)gi和二階導(dǎo)hi為

(11)

(12)

此時(shí)對(duì)應(yīng)近似的目標(biāo)函數(shù)為

(13)

將式(5)代入式(9)進(jìn)一步簡(jiǎn)化得到

(14)

式中：Gj和Hj分別是關(guān)于近似損失函數(shù)一階偏導(dǎo)數(shù)和二階偏導(dǎo)數(shù)的累加之和。

1.4.2 貝葉斯參數(shù)優(yōu)化

對(duì)于XGBoost的其它參數(shù)，如果單純靠手工調(diào)節(jié)參數(shù)，不但繁瑣復(fù)雜，而且算法也無(wú)法發(fā)揮出最好的性能。本文借助貝葉斯算法自動(dòng)調(diào)節(jié)參數(shù)使算法達(dá)到最好的效果。貝葉斯優(yōu)化[18]通過(guò)建立目標(biāo)函數(shù)的代理概率模型，利用它來(lái)選擇最優(yōu)的超參數(shù)，以對(duì)真實(shí)目標(biāo)函數(shù)進(jìn)行評(píng)估。貝葉斯優(yōu)化在選擇超參數(shù)集時(shí)會(huì)考慮到以往的評(píng)估，通過(guò)以這種有先驗(yàn)信息的方式選擇參數(shù)組合，模型將關(guān)注最有希望的驗(yàn)證分?jǐn)?shù)的參數(shù)空間區(qū)域。這種方法只需要較少的迭代次數(shù)就能獲得最佳的超參數(shù)值集，因?yàn)樗雎粤四切┎粫?huì)帶來(lái)任何影響的參數(shù)空間區(qū)域。改進(jìn)目標(biāo)函數(shù)后的XGBoost的流程如圖4所示。

圖4 貝葉斯優(yōu)化流程

2 實(shí)驗(yàn)結(jié)果與分析

2.1 評(píng)價(jià)指標(biāo)

本文研究的是航空異常事件的檢測(cè)與識(shí)別，因此真陽(yáng)性(true positive，TP)即為航空異常事件樣本預(yù)測(cè)為異常的實(shí)例數(shù)量，假陰性(false negatives，F(xiàn)N)即為航空異常事件樣本預(yù)測(cè)為正常事件的實(shí)例數(shù)量，真陰性(true negatives，TN)即為航空正常事件樣本預(yù)測(cè)為正常著陸事件的實(shí)例數(shù)量，假陽(yáng)性(false positive，F(xiàn)P)即為航空正常事件樣本預(yù)測(cè)為異常事件的實(shí)例數(shù)量?；煜仃囌f(shuō)明見(jiàn)表2。

表2 混淆矩陣說(shuō)明

對(duì)于非平衡數(shù)據(jù)而言，單一的準(zhǔn)確率指標(biāo)不足以反映模型的好壞，需要綜合考慮多數(shù)樣本和少數(shù)樣本分類的準(zhǔn)確性[19]。因此本文采用靈敏性和特異性來(lái)分析混淆矩陣，使用ROC曲線和PR曲線圍成的面積來(lái)評(píng)估分類器的性能。所有的指標(biāo)范圍都在[0,1]之間，越靠近1說(shuō)明算法性能越好，反之則說(shuō)明算法性能較差。各指標(biāo)說(shuō)明見(jiàn)表3。

表3 評(píng)價(jià)指標(biāo)說(shuō)明

2.2 實(shí)驗(yàn)過(guò)程

本文的GBDT-RFE-CV算法在特征選取過(guò)程中設(shè)置了不同特征數(shù)子集，圖為不同特征子集的數(shù)目和交叉驗(yàn)證分?jǐn)?shù)，圖中豎線與曲線交叉的點(diǎn)為交叉分?jǐn)?shù)最大的點(diǎn)，豎線所對(duì)應(yīng)的橫坐標(biāo)為所選取的最佳特征子集，在圖5中可以看出算法選取的最佳特征子集數(shù)為18，選取的特征參數(shù)如圖6所示，選取的特征反映了航空器的飛行狀態(tài)、飛機(jī)操縱和發(fā)動(dòng)機(jī)狀態(tài)。飛行狀態(tài)的參數(shù)如垂直下降速率、俯仰角、加速度、雷達(dá)高度等，飛機(jī)員操作參數(shù)如剎車、操縱舵等，飛機(jī)發(fā)動(dòng)機(jī)參數(shù)如低壓轉(zhuǎn)子N1、高壓轉(zhuǎn)子N2。

本文經(jīng)過(guò)貝葉斯參數(shù)調(diào)節(jié)后的XGBoost超參數(shù)見(jiàn)表4。

本文改進(jìn)XGBoost目標(biāo)函數(shù)是在原始XGBoost的基礎(chǔ)上導(dǎo)入由式(11)、式(12)推導(dǎo)出的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)，最終w取5，γ取2實(shí)驗(yàn)效果最好。

圖5 GBDT-RFE-CV特征選取的分?jǐn)?shù)與特征值數(shù)量

圖6 GBDT-RFE-CV選取的關(guān)鍵特征

表4 貝葉斯優(yōu)化后的參數(shù)值及含義

2.3 實(shí)驗(yàn)結(jié)果與分析

為了展示特征選取的必要性和對(duì)比經(jīng)過(guò)貝葉斯調(diào)參后的改進(jìn)XGBoost算法在航空異常事件檢測(cè)中的優(yōu)越性，本文統(tǒng)計(jì)了各算法的精度、查準(zhǔn)率、查全率、F1分?jǐn)?shù)、ROC_AUC、PR_AUC、特征選取時(shí)間和各模型運(yùn)行時(shí)間，繪制出各模型的ROC曲線和PR曲線。

2.3.1 改進(jìn)對(duì)比

表5和圖7展示了算法改進(jìn)的對(duì)比實(shí)驗(yàn)，總共分為6組改進(jìn)對(duì)比，分別為了對(duì)比混合特征選取、經(jīng)過(guò)目標(biāo)函數(shù)改變后的XGBoost和貝葉斯調(diào)參后的效果，其中本文的模型使用的是混合特征選取和貝葉斯優(yōu)化的改進(jìn)目標(biāo)目標(biāo)函數(shù)的XGBoost，整個(gè)模型流程首先使用SRCC刪除航空數(shù)據(jù)冗余特征，再結(jié)合異常標(biāo)簽使用GBDT-RFE-CV以提取關(guān)鍵特征，然后通過(guò)導(dǎo)入由式(11)、式(12)自定義XGBoost的目標(biāo)函數(shù)，最后使用貝葉斯算法來(lái)調(diào)節(jié)XGBoost的超參數(shù)。從表中可以從兩個(gè)方面看出算法改進(jìn)后的提升效果。首先是特征選取時(shí)間和算法訓(xùn)練時(shí)間，提升效果最明顯的對(duì)比是直接使用GBDT-RFE-CV關(guān)鍵特征選取和先使用SRCC刪除冗余再使用GBDT-RFE-CV混合的特征選取，特征選取時(shí)間從1 h 20 min降低到23 min 52 s，運(yùn)行時(shí)間降低了71%。且經(jīng)過(guò)特征選取后，對(duì)比原始數(shù)據(jù)模型訓(xùn)練時(shí)間和測(cè)試時(shí)間都有所縮短，原始數(shù)據(jù)需66.82 s才能訓(xùn)練模型，本文經(jīng)過(guò)特征提取后訓(xùn)練時(shí)間僅需24.56 s，訓(xùn)練時(shí)間縮短了63%。這些都顯示出混合特征算法的必要性。第二從算法性能上對(duì)比，可以看出SRCC雖然在性能方面提升不明顯，但是特征選取耗費(fèi)的時(shí)間上，SRCC僅需15 s就能刪除冗余特征，能很好降低特征選取時(shí)間。對(duì)比經(jīng)過(guò)混合特征選取、改進(jìn)XGBoost和貝葉斯調(diào)參后F1分?jǐn)?shù)分別較XGBoost在原始數(shù)據(jù)的模型提升了0.09、0.19和0.22，ROC曲線圍成的面積分別提升了0.007、0.011和0.017,PR曲線圍成的面積提升了0.034、0.051和0.068，說(shuō)明這3種改進(jìn)方式層層遞進(jìn)，顯示出這些改進(jìn)的有效性。

表5 算法改進(jìn)對(duì)比

圖7 改進(jìn)對(duì)比的ROC曲線和PR曲線

2.3.2 不同模型性能對(duì)比

表6展示了改進(jìn)目標(biāo)函數(shù)后的XGBoost模型和其它機(jī)器學(xué)習(xí)算法的對(duì)比。為了對(duì)比本文模型的有效性，在航空著陸異常數(shù)據(jù)集上通過(guò)相同的混合特征提取，選用經(jīng)典的5組機(jī)器學(xué)習(xí)算法作為對(duì)比實(shí)驗(yàn)，這些算法及改進(jìn)算法已經(jīng)在航空數(shù)據(jù)異常檢測(cè)中初步應(yīng)用，分別是K最近鄰[20](K-nearest neighbor，KNN)、決策樹(shù)(decision tree，DT)、隨機(jī)森林[6](random forest，RF)、多層感知機(jī)(multilayer perceptron，MLP)和邏輯回歸[3](logistic regression，LR)算法。對(duì)比算法都是直接從sklearn庫(kù)[21]中直接調(diào)用，本文的模型是在原始XGBoost庫(kù)的基礎(chǔ)上自定義目標(biāo)函數(shù)后經(jīng)過(guò)貝葉斯超參數(shù)調(diào)節(jié)得到。從中可以看出KNN、MLP、LR這些算法的Recall、F1分?jǐn)?shù)很低，說(shuō)明這些算法不能很好檢測(cè)出全部的異常。再對(duì)比幾種樹(shù)模型，可以看出單一樹(shù)來(lái)做異常檢測(cè)的決策樹(shù)算法在查準(zhǔn)率和查全率都比不上基于Bagging模型的隨機(jī)森林算法和基于Boosting模型的XGBoost算法，說(shuō)明單一的決策樹(shù)算法在航空數(shù)據(jù)異常檢測(cè)上效果并不好。此外還可以看出基于Bagging方式的隨機(jī)森林算法能大幅提升檢測(cè)效果，但是相對(duì)比于基于Boosting方式的XGBoost算法，隨機(jī)算法除了查全率之外其它指標(biāo)都比XGBoost要差。表6中也可以看出本文提出的模型異常檢測(cè)性能均優(yōu)于其它算法。

表6 不同模型性能對(duì)比

3 結(jié)束語(yǔ)

本文提出了一種基于機(jī)器學(xué)習(xí)的航空著陸異常事件檢測(cè)模型。相比于民航業(yè)常用在單維數(shù)據(jù)中使用閾值分析的方法，本文通過(guò)提取多維數(shù)據(jù)的特征，使用機(jī)器學(xué)習(xí)模型從航空數(shù)據(jù)中檢測(cè)異常。本文方法包括數(shù)據(jù)預(yù)處理、刪除冗余特征、提取關(guān)鍵特征、改進(jìn)XGBoost模型的目標(biāo)函數(shù)、超參數(shù)優(yōu)化、建模評(píng)估一系列過(guò)程。實(shí)驗(yàn)使用了數(shù)據(jù)匹配得到異常標(biāo)簽從而統(tǒng)一的評(píng)估各算法模型性能。經(jīng)過(guò)實(shí)驗(yàn)對(duì)比可以看出，本文提出了混合特征選取的方法對(duì)于航空高維數(shù)據(jù)是有效且必要的，節(jié)省了特征提取的時(shí)間。在異常檢測(cè)模型評(píng)估中，本文引入代價(jià)敏感學(xué)習(xí)函數(shù)和聚焦損失函數(shù)來(lái)改進(jìn)XGBoost目標(biāo)函數(shù)，并通過(guò)貝葉斯參數(shù)優(yōu)化XGBoost模型，實(shí)驗(yàn)結(jié)果表明，本文模型能夠有效的檢測(cè)出航空異常著陸事件。然而本文的工作仍存在一些不足，本文的工作僅僅是檢測(cè)異常，而從數(shù)據(jù)中發(fā)現(xiàn)可能導(dǎo)致異常的因素，從而挖掘出更有價(jià)值的信息是下一步的工作。