亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的航空異常著陸事件檢測(cè)

        2022-07-21 04:12:14蘇志剛楊金鋒張海剛
        關(guān)鍵詞:貝葉斯航空樣本

        楊 雄,蘇志剛,楊金鋒,張海剛

        (1.中國(guó)民航大學(xué) 電子信息與自動(dòng)化學(xué)院,天津 300300;2.中國(guó)民航大學(xué) 中歐航空工程師學(xué)院, 天津 300300;3.深圳職業(yè)技術(shù)學(xué)院 粵港澳大灣區(qū)人工智能應(yīng)用技術(shù)研究院,廣東 深圳 518055)

        0 引 言

        快速存取記錄器(quick access recorder,QAR)即是一種常見(jiàn)的飛行數(shù)據(jù)記錄設(shè)備[1]。目前,QAR數(shù)據(jù)越來(lái)越被民航安全專家所重視,這標(biāo)志著民航界從事故尋因這種預(yù)防航空危險(xiǎn)的被動(dòng)思維到日常監(jiān)控提升航空安全水平的主動(dòng)出擊思維的轉(zhuǎn)變。但目前實(shí)際應(yīng)用的閾值方法面臨著機(jī)型多樣性、地理多樣性和氣候多樣性的挑戰(zhàn),很難兼顧每種條件設(shè)定閾值[2],因此亟需一種有效的方法從航空高維數(shù)據(jù)中準(zhǔn)確地檢測(cè)出異常事件。

        目前國(guó)內(nèi)外學(xué)術(shù)界對(duì)QAR數(shù)據(jù)應(yīng)用于航空異常事件的研究可分為基于擬合回歸的方法、基于聚類的方法和基于分類的方法?;跀M合回歸的方法是無(wú)監(jiān)督方法,不需要標(biāo)簽。擬合的方法使用多個(gè)自變量參數(shù)來(lái)擬合一個(gè)因變量,從而找出自變量和因變量之間的關(guān)系[3,4]。基于聚類的方法也屬于無(wú)監(jiān)督方法,與回歸方法不同的是基于聚類的方法首先會(huì)找一個(gè)聚類中心,計(jì)算其余點(diǎn)與中心點(diǎn)的相對(duì)距離,檢測(cè)出相對(duì)距離較大的點(diǎn)即為異常點(diǎn)[5,6]。基于分類的方法是有監(jiān)督方法,使用分類器通過(guò)異常標(biāo)簽來(lái)檢測(cè)異常[7,8]?;跀M合和聚類的方法根據(jù)不同的規(guī)則來(lái)分析航空數(shù)據(jù),側(cè)重挖掘和利用數(shù)據(jù)間關(guān)系[9],但因?yàn)闆](méi)有標(biāo)簽信息,無(wú)法統(tǒng)一比較這些算法的性能,因此很難評(píng)估這些算法在大規(guī)模數(shù)據(jù)應(yīng)用上的有效性。在另一方面,基于分類的方法優(yōu)勢(shì)在于可以充分利用標(biāo)簽屬性和有監(jiān)督模型學(xué)習(xí)到數(shù)據(jù)類別的判別邊界,但在航空領(lǐng)域標(biāo)簽信息很難獲取。

        為了比較每一種算法的性能,本文克服標(biāo)簽獲取的困難,以飛機(jī)最常發(fā)生事故的著陸進(jìn)近階段為檢測(cè)目標(biāo)[10],通過(guò)數(shù)據(jù)源匹配得到異常標(biāo)簽。針對(duì)航空高維數(shù)據(jù)的特點(diǎn),提出了一種基于斯皮爾曼等級(jí)相關(guān)系數(shù)(spearman rank correlation coefficient,SRCC)特征處理、梯度提升樹(shù)(gradient boosting decision tree,GBDT)和遞歸特征消除(recursive feature elimination,RFE)經(jīng)過(guò)交叉驗(yàn)證(cross validation,CV)特征處理的混合特征選取方法,最后使用貝葉斯優(yōu)化改進(jìn)目標(biāo)函數(shù)的極限梯度提升樹(shù)(extreme gradient boosting,XGBoost)的異常檢測(cè)模型。

        1 航空異常著陸事件檢測(cè)方案

        航空異常著陸事件檢測(cè)方案主要包括以下過(guò)程:首先將QAR數(shù)據(jù)和參數(shù)監(jiān)控標(biāo)準(zhǔn)數(shù)據(jù)匹配,得到異常標(biāo)簽;再對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,處理數(shù)據(jù)匹配和數(shù)據(jù)重抽樣;然后使用混合特征選取的方法選擇合適的特征;隨后使用貝葉斯優(yōu)化的加權(quán)XGBoost算法訓(xùn)練出模型;最后在未做任何改變的測(cè)試集上模型評(píng)估。整個(gè)檢測(cè)方案的流程如圖1所示。

        1.1 數(shù)據(jù)匹配

        本文選用同一天氣狀況下一個(gè)月份的波音737-800和737-900ER的QAR數(shù)據(jù)作為實(shí)驗(yàn)基礎(chǔ),總共861個(gè)航班。借助航空公司的譯碼軟件AirFase得到譯碼后的QAR數(shù)據(jù)和超限事件參數(shù)庫(kù),超限事件參數(shù)庫(kù)是AirFase軟件根據(jù)民航法規(guī)設(shè)定的參數(shù)閾值[11]得到的航班超限異常,部分超限參數(shù)閾值見(jiàn)表1。

        圖1 模型流程

        表1 部分參數(shù)閾值及觸發(fā)條件

        QAR數(shù)據(jù)中有航班注冊(cè)號(hào)、機(jī)型號(hào)、航班執(zhí)行日期、飛行時(shí)間和各參數(shù)記錄,超限事件參數(shù)庫(kù)里面有航班注冊(cè)號(hào)、機(jī)型號(hào)、異常階段、異常事件發(fā)生事件及異常程度等。通過(guò)匹配兩個(gè)數(shù)據(jù)源中的航班注冊(cè)號(hào)和航空公司注冊(cè)號(hào),搜索超限異常參數(shù)數(shù)據(jù)源中的異常事件發(fā)生的時(shí)間在QAR數(shù)據(jù)中的航班執(zhí)行日期和時(shí)間,通過(guò)這些參數(shù)可以唯一確定哪個(gè)航班在哪個(gè)時(shí)間點(diǎn)發(fā)生了何種異常。最終通過(guò)正則化過(guò)濾、航班號(hào)匹配、異常時(shí)間定位等手段實(shí)現(xiàn)了QAR譯碼數(shù)據(jù)和標(biāo)準(zhǔn)超限參數(shù)庫(kù)的匹配從而得到異常標(biāo)簽。整個(gè)過(guò)程如圖2所示。

        圖2 數(shù)據(jù)源匹配得到異常標(biāo)簽

        將監(jiān)控參數(shù)標(biāo)準(zhǔn)庫(kù)與每個(gè)航班的QAR數(shù)據(jù)匹配,得到每個(gè)異常發(fā)生的時(shí)間點(diǎn)。再將一個(gè)航班中第一秒發(fā)生異常的時(shí)間點(diǎn)和最后一秒發(fā)生異常的時(shí)間點(diǎn)中間的時(shí)間段全部打上異常標(biāo)簽,即得到QAR異常參數(shù)數(shù)據(jù)集。

        1.2 數(shù)據(jù)重抽樣

        為了確保不同航班有相同的輸入長(zhǎng)度,對(duì)每個(gè)航班的數(shù)據(jù)樣本進(jìn)行重抽樣。對(duì)于每個(gè)航班f來(lái)說(shuō),樣本數(shù)據(jù)可以表示為式(1)

        (1)

        對(duì)每個(gè)航班按相同的規(guī)則進(jìn)行重抽樣。飛機(jī)在剛著陸時(shí),剎車會(huì)拉到最大以降低速度。將飛機(jī)剎車值突變的點(diǎn)設(shè)為著陸點(diǎn),每個(gè)航班取著陸點(diǎn)前29點(diǎn),著陸后取10點(diǎn),每個(gè)航班總計(jì)40個(gè)時(shí)間戳,取值的范圍涵蓋了飛機(jī)在500英尺至在滑行跑道上的高度,因此總共有34 440行樣本。

        1.3 航空著陸異常特征提取

        在飛機(jī)飛行時(shí),會(huì)有多個(gè)傳感器來(lái)記錄同一參數(shù),以保證當(dāng)一個(gè)傳感器發(fā)生故障時(shí)其它傳感器還能繼續(xù)工作。這種冗余機(jī)制一方面保障飛機(jī)的安全,但另一方面在數(shù)據(jù)分析時(shí)卻會(huì)帶來(lái)不必要的麻煩。因此本文結(jié)合3種特征選取方式:過(guò)濾法(Filter)、包裹法(Wrapper)和嵌入法(Embedding)[12],設(shè)計(jì)出一種針對(duì)航空高維數(shù)據(jù)的混合特征提取算法。混合特征選取算法首先對(duì)航空參數(shù)采取斯皮爾曼等級(jí)相關(guān)系數(shù)消除冗余特征,之后采用梯度提升算法選取與異常事件最相關(guān)的特征,其中使用遞歸特征消除。

        1.3.1 斯皮爾曼冗余特征處理

        斯皮爾曼等級(jí)相關(guān)系數(shù)特征處理是一種過(guò)濾的方法,它值的范圍從-1到1。值1表示強(qiáng)正相關(guān),值-1表示強(qiáng)負(fù)相關(guān),當(dāng)相關(guān)系數(shù)接近于0時(shí),表示特征之間不存在相關(guān)關(guān)系。在當(dāng)前數(shù)據(jù)集種負(fù)相關(guān)和正相關(guān)都是相關(guān),所以取相關(guān)矩陣的絕對(duì)值。斯皮爾曼等級(jí)相關(guān)系數(shù)表示為式(2)

        (2)

        其中,d為A、B兩個(gè)變量中元素對(duì)應(yīng)相減得到一個(gè)排行差分集合,其中di=Ai-Bi,N為單個(gè)元素總個(gè)數(shù),在這為QAR數(shù)據(jù)的行數(shù)。如果兩個(gè)變量的相關(guān)系數(shù)越接近1,說(shuō)明兩個(gè)變量具有很強(qiáng)的相關(guān)性,可以認(rèn)為是冗余的,本文經(jīng)過(guò)實(shí)驗(yàn)將相關(guān)閾值設(shè)為0.95。經(jīng)過(guò)冗余值列處理后,著陸階段QAR數(shù)據(jù)的特征由152維降至78維。

        圖3為原始數(shù)據(jù)和數(shù)據(jù)預(yù)處理后的熱力圖對(duì)比,右側(cè)從淺至深的漸變色表示相關(guān)系數(shù)從小到大的變化,顏色越深,說(shuō)明兩個(gè)變量之間的相關(guān)系數(shù)越大,這兩個(gè)變量更有可能互為冗余列。通過(guò)圖3(a)、圖3(b)可以看出經(jīng)過(guò)數(shù)據(jù)預(yù)處理之后,深色區(qū)域明顯變少,深色程度明顯變?nèi)酢?/p>

        1.3.2 GBDT-RFE-CV關(guān)鍵特征選取

        GBDT是集成學(xué)習(xí)Boosting的一種,Boosting方法以連續(xù)的方式訓(xùn)練一堆單獨(dú)的模型,每個(gè)單獨(dú)的模型都從前一個(gè)模型的誤差中學(xué)習(xí)。而GBDT每個(gè)模型采用基于分類與回歸樹(shù)(classification and regression trees,CART),通過(guò)每個(gè)模型在上一輪模型的殘差基礎(chǔ)上進(jìn)行學(xué)習(xí),學(xué)習(xí)的方向是前一個(gè)模型損失函數(shù)的梯度下降方向[13]。GBDT特征選取是一種基于模型的方法,設(shè)有K個(gè)CART樹(shù)的決策空間F,通過(guò)訓(xùn)練數(shù)據(jù)集,GBDT的每顆CART樹(shù)fk在不同特征上分裂節(jié)點(diǎn)(node)的次數(shù)之和為不同特征的重要度,之后通過(guò)設(shè)定特征數(shù)目閾值或者選取性能指標(biāo)選取合適的特征子集。

        RFE[14]是一種Wrapper特征選取的方法,它的目標(biāo)是通過(guò)遞歸地考慮越來(lái)越小的特征集來(lái)選擇特征。首先,在初始特征集上訓(xùn)練估計(jì)器,得到每個(gè)特征的重要性。然后,從當(dāng)前的特征集合中剔除最不重要的特征。這個(gè)過(guò)程在修剪集上遞歸地重復(fù),直到最終達(dá)到需要選擇的特征數(shù)。

        GBDT特征選取和RFE方法組成了一組嵌入法特征選取方法。首先,GBDT模型在原始特征上訓(xùn)練,每個(gè)特征得到一個(gè)權(quán)重即特征重要度。之后,那些擁有最小絕對(duì)值權(quán)重的特征被移出特征集空間。如此遞歸重復(fù),直至剩余的特征數(shù)量達(dá)到設(shè)定的特征數(shù)量閾值。為了讓算法自動(dòng)地選取合適的特征,本文采取交叉驗(yàn)證的方法,能夠自動(dòng)調(diào)整特征子集空間的特征數(shù)量,具體的算法流程如下所示。

        圖3 數(shù)據(jù)預(yù)處理前后熱力圖對(duì)比

        算法1:GBDT-RFE-CV特征選取

        輸入:含有M個(gè)特征的訓(xùn)練集S,n折交叉驗(yàn)證,特征選取設(shè)定的閾值L

        輸出:最佳特征子集

        (1)將訓(xùn)練集分層抽樣劃分為n輪數(shù)據(jù)集,每輪n-1份為訓(xùn)練集,1份為測(cè)試集

        (2)每一份數(shù)據(jù)集通過(guò)GBDT訓(xùn)練得到?jīng)Q策空間F

        (4)根據(jù)每棵樹(shù)上特征node數(shù)目得到特征重要度

        (6)在M特征空間遍歷刪除最不重要的特征,得到新的子集空間Mi

        (7)使用Mi特征子集執(zhí)行交叉驗(yàn)證,得到驗(yàn)證分?jǐn)?shù),并丟棄最不重要的特征,得到新的子集空間Mi+1

        (8)end for

        (9)end for

        (10)統(tǒng)計(jì)最高的交叉驗(yàn)證分?jǐn)?shù)得到最佳特征子集

        1.4 貝葉斯優(yōu)化的改進(jìn)XGBoost

        1.4.1 改進(jìn)XGBoost

        XGBoost的也是集成學(xué)習(xí)Boosting的一種,相比于GBDT,XGBoost對(duì)代價(jià)函數(shù)進(jìn)行二階泰勒展開(kāi),并在代價(jià)函數(shù)中引入了正則項(xiàng),用于控制模型的復(fù)雜程度。因此從原理上XGBoost的性能更好,更適合用作最終的異常檢測(cè)器。XGBoost的目標(biāo)函數(shù)[15]是由訓(xùn)練損失和正則化兩部分組成,訓(xùn)練損失函數(shù)的定義如式(3)所示,正則化即樹(shù)的復(fù)雜度定義如式(4)所示,目標(biāo)函數(shù)的定義如式(5)所示

        (3)

        (4)

        (5)

        對(duì)于二分類問(wèn)題,XGBoost的默認(rèn)損失函數(shù)為交叉熵?fù)p失(cross entropy loss,CE),定義為

        (6)

        交叉熵?fù)p失明確了誤差越大損失越大的準(zhǔn)則,但是對(duì)于非平衡數(shù)據(jù)而言,總的交叉熵?fù)p失在多數(shù)類別樣本中更容易降低,對(duì)整個(gè)分類器性能卻沒(méi)多大提高。為了提高模型對(duì)少數(shù)類別樣本的學(xué)習(xí)能力,本文通過(guò)改變分類器的目標(biāo)函數(shù),引入代價(jià)敏感學(xué)習(xí)(cost sensitive learning,CS)函數(shù)[16]和聚焦損失(focal loss,F(xiàn)L)函數(shù),從而改進(jìn)分類器的性能。

        代價(jià)敏感學(xué)習(xí)函數(shù)的定義為

        (7)

        (8)

        式中:w為負(fù)例(negative,neg)多數(shù)樣本比正例(positive,pos)少數(shù)樣本的比例。代價(jià)敏感學(xué)習(xí)平衡了正負(fù)類的重要性,使得模型更加重視正樣本。

        聚焦損失函數(shù)是由Lin等[17]提出,旨在解決one-stage目標(biāo)檢測(cè)器樣本的類別不平衡問(wèn)題和不同難易程度的樣本學(xué)習(xí)不平衡問(wèn)題,聚焦損失函數(shù)的定義為

        (9)

        式中:γ為調(diào)節(jié)因子,降低容易分類樣本的權(quán)重,使分類器聚焦于難樣本的訓(xùn)練。當(dāng)γ等于0時(shí),聚焦損失函數(shù)為一般的交叉熵函數(shù)。

        本文將代價(jià)敏感度學(xué)習(xí)函數(shù)與聚焦損失函數(shù)結(jié)合,因此整個(gè)模型的損失函數(shù)為

        (10)

        損失函數(shù)的一階導(dǎo)gi和二階導(dǎo)hi為

        (11)

        (12)

        此時(shí)對(duì)應(yīng)近似的目標(biāo)函數(shù)為

        (13)

        將式(5)代入式(9)進(jìn)一步簡(jiǎn)化得到

        (14)

        式中:Gj和Hj分別是關(guān)于近似損失函數(shù)一階偏導(dǎo)數(shù)和二階偏導(dǎo)數(shù)的累加之和。

        1.4.2 貝葉斯參數(shù)優(yōu)化

        對(duì)于XGBoost的其它參數(shù),如果單純靠手工調(diào)節(jié)參數(shù),不但繁瑣復(fù)雜,而且算法也無(wú)法發(fā)揮出最好的性能。本文借助貝葉斯算法自動(dòng)調(diào)節(jié)參數(shù)使算法達(dá)到最好的效果。貝葉斯優(yōu)化[18]通過(guò)建立目標(biāo)函數(shù)的代理概率模型,利用它來(lái)選擇最優(yōu)的超參數(shù),以對(duì)真實(shí)目標(biāo)函數(shù)進(jìn)行評(píng)估。貝葉斯優(yōu)化在選擇超參數(shù)集時(shí)會(huì)考慮到以往的評(píng)估,通過(guò)以這種有先驗(yàn)信息的方式選擇參數(shù)組合,模型將關(guān)注最有希望的驗(yàn)證分?jǐn)?shù)的參數(shù)空間區(qū)域。這種方法只需要較少的迭代次數(shù)就能獲得最佳的超參數(shù)值集,因?yàn)樗雎粤四切┎粫?huì)帶來(lái)任何影響的參數(shù)空間區(qū)域。改進(jìn)目標(biāo)函數(shù)后的XGBoost的流程如圖4所示。

        圖4 貝葉斯優(yōu)化流程

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 評(píng)價(jià)指標(biāo)

        本文研究的是航空異常事件的檢測(cè)與識(shí)別,因此真陽(yáng)性(true positive,TP)即為航空異常事件樣本預(yù)測(cè)為異常的實(shí)例數(shù)量,假陰性(false negatives,F(xiàn)N)即為航空異常事件樣本預(yù)測(cè)為正常事件的實(shí)例數(shù)量,真陰性(true negatives,TN)即為航空正常事件樣本預(yù)測(cè)為正常著陸事件的實(shí)例數(shù)量,假陽(yáng)性(false positive,F(xiàn)P)即為航空正常事件樣本預(yù)測(cè)為異常事件的實(shí)例數(shù)量?;煜仃囌f(shuō)明見(jiàn)表2。

        表2 混淆矩陣說(shuō)明

        對(duì)于非平衡數(shù)據(jù)而言,單一的準(zhǔn)確率指標(biāo)不足以反映模型的好壞,需要綜合考慮多數(shù)樣本和少數(shù)樣本分類的準(zhǔn)確性[19]。因此本文采用靈敏性和特異性來(lái)分析混淆矩陣,使用ROC曲線和PR曲線圍成的面積來(lái)評(píng)估分類器的性能。所有的指標(biāo)范圍都在[0,1]之間,越靠近1說(shuō)明算法性能越好,反之則說(shuō)明算法性能較差。各指標(biāo)說(shuō)明見(jiàn)表3。

        表3 評(píng)價(jià)指標(biāo)說(shuō)明

        2.2 實(shí)驗(yàn)過(guò)程

        本文的GBDT-RFE-CV算法在特征選取過(guò)程中設(shè)置了不同特征數(shù)子集,圖為不同特征子集的數(shù)目和交叉驗(yàn)證分?jǐn)?shù),圖中豎線與曲線交叉的點(diǎn)為交叉分?jǐn)?shù)最大的點(diǎn),豎線所對(duì)應(yīng)的橫坐標(biāo)為所選取的最佳特征子集,在圖5中可以看出算法選取的最佳特征子集數(shù)為18,選取的特征參數(shù)如圖6所示,選取的特征反映了航空器的飛行狀態(tài)、飛機(jī)操縱和發(fā)動(dòng)機(jī)狀態(tài)。飛行狀態(tài)的參數(shù)如垂直下降速率、俯仰角、加速度、雷達(dá)高度等,飛機(jī)員操作參數(shù)如剎車、操縱舵等,飛機(jī)發(fā)動(dòng)機(jī)參數(shù)如低壓轉(zhuǎn)子N1、高壓轉(zhuǎn)子N2。

        本文經(jīng)過(guò)貝葉斯參數(shù)調(diào)節(jié)后的XGBoost超參數(shù)見(jiàn)表4。

        本文改進(jìn)XGBoost目標(biāo)函數(shù)是在原始XGBoost的基礎(chǔ)上導(dǎo)入由式(11)、式(12)推導(dǎo)出的一階導(dǎo)數(shù)和二階導(dǎo)數(shù),最終w取5,γ取2實(shí)驗(yàn)效果最好。

        圖5 GBDT-RFE-CV特征選取的分?jǐn)?shù)與特征值數(shù)量

        圖6 GBDT-RFE-CV選取的關(guān)鍵特征

        表4 貝葉斯優(yōu)化后的參數(shù)值及含義

        2.3 實(shí)驗(yàn)結(jié)果與分析

        為了展示特征選取的必要性和對(duì)比經(jīng)過(guò)貝葉斯調(diào)參后的改進(jìn)XGBoost算法在航空異常事件檢測(cè)中的優(yōu)越性,本文統(tǒng)計(jì)了各算法的精度、查準(zhǔn)率、查全率、F1分?jǐn)?shù)、ROC_AUC、PR_AUC、特征選取時(shí)間和各模型運(yùn)行時(shí)間,繪制出各模型的ROC曲線和PR曲線。

        2.3.1 改進(jìn)對(duì)比

        表5和圖7展示了算法改進(jìn)的對(duì)比實(shí)驗(yàn),總共分為6組改進(jìn)對(duì)比,分別為了對(duì)比混合特征選取、經(jīng)過(guò)目標(biāo)函數(shù)改變后的XGBoost和貝葉斯調(diào)參后的效果,其中本文的模型使用的是混合特征選取和貝葉斯優(yōu)化的改進(jìn)目標(biāo)目標(biāo)函數(shù)的XGBoost,整個(gè)模型流程首先使用SRCC刪除航空數(shù)據(jù)冗余特征,再結(jié)合異常標(biāo)簽使用GBDT-RFE-CV以提取關(guān)鍵特征,然后通過(guò)導(dǎo)入由式(11)、式(12)自定義XGBoost的目標(biāo)函數(shù),最后使用貝葉斯算法來(lái)調(diào)節(jié)XGBoost的超參數(shù)。從表中可以從兩個(gè)方面看出算法改進(jìn)后的提升效果。首先是特征選取時(shí)間和算法訓(xùn)練時(shí)間,提升效果最明顯的對(duì)比是直接使用GBDT-RFE-CV關(guān)鍵特征選取和先使用SRCC刪除冗余再使用GBDT-RFE-CV混合的特征選取,特征選取時(shí)間從1 h 20 min降低到23 min 52 s,運(yùn)行時(shí)間降低了71%。且經(jīng)過(guò)特征選取后,對(duì)比原始數(shù)據(jù)模型訓(xùn)練時(shí)間和測(cè)試時(shí)間都有所縮短,原始數(shù)據(jù)需66.82 s才能訓(xùn)練模型,本文經(jīng)過(guò)特征提取后訓(xùn)練時(shí)間僅需24.56 s,訓(xùn)練時(shí)間縮短了63%。這些都顯示出混合特征算法的必要性。第二從算法性能上對(duì)比,可以看出SRCC雖然在性能方面提升不明顯,但是特征選取耗費(fèi)的時(shí)間上,SRCC僅需15 s就能刪除冗余特征,能很好降低特征選取時(shí)間。對(duì)比經(jīng)過(guò)混合特征選取、改進(jìn)XGBoost和貝葉斯調(diào)參后F1分?jǐn)?shù)分別較XGBoost在原始數(shù)據(jù)的模型提升了0.09、0.19和0.22,ROC曲線圍成的面積分別提升了0.007、0.011和0.017,PR曲線圍成的面積提升了0.034、0.051和0.068,說(shuō)明這3種改進(jìn)方式層層遞進(jìn),顯示出這些改進(jìn)的有效性。

        表5 算法改進(jìn)對(duì)比

        圖7 改進(jìn)對(duì)比的ROC曲線和PR曲線

        2.3.2 不同模型性能對(duì)比

        表6展示了改進(jìn)目標(biāo)函數(shù)后的XGBoost模型和其它機(jī)器學(xué)習(xí)算法的對(duì)比。為了對(duì)比本文模型的有效性,在航空著陸異常數(shù)據(jù)集上通過(guò)相同的混合特征提取,選用經(jīng)典的5組機(jī)器學(xué)習(xí)算法作為對(duì)比實(shí)驗(yàn),這些算法及改進(jìn)算法已經(jīng)在航空數(shù)據(jù)異常檢測(cè)中初步應(yīng)用,分別是K最近鄰[20](K-nearest neighbor,KNN)、決策樹(shù)(decision tree,DT)、隨機(jī)森林[6](random forest,RF)、多層感知機(jī)(multilayer perceptron,MLP)和邏輯回歸[3](logistic regression,LR)算法。對(duì)比算法都是直接從sklearn庫(kù)[21]中直接調(diào)用,本文的模型是在原始XGBoost庫(kù)的基礎(chǔ)上自定義目標(biāo)函數(shù)后經(jīng)過(guò)貝葉斯超參數(shù)調(diào)節(jié)得到。從中可以看出KNN、MLP、LR這些算法的Recall、F1分?jǐn)?shù)很低,說(shuō)明這些算法不能很好檢測(cè)出全部的異常。再對(duì)比幾種樹(shù)模型,可以看出單一樹(shù)來(lái)做異常檢測(cè)的決策樹(shù)算法在查準(zhǔn)率和查全率都比不上基于Bagging模型的隨機(jī)森林算法和基于Boosting模型的XGBoost算法,說(shuō)明單一的決策樹(shù)算法在航空數(shù)據(jù)異常檢測(cè)上效果并不好。此外還可以看出基于Bagging方式的隨機(jī)森林算法能大幅提升檢測(cè)效果,但是相對(duì)比于基于Boosting方式的XGBoost算法,隨機(jī)算法除了查全率之外其它指標(biāo)都比XGBoost要差。表6中也可以看出本文提出的模型異常檢測(cè)性能均優(yōu)于其它算法。

        表6 不同模型性能對(duì)比

        3 結(jié)束語(yǔ)

        本文提出了一種基于機(jī)器學(xué)習(xí)的航空著陸異常事件檢測(cè)模型。相比于民航業(yè)常用在單維數(shù)據(jù)中使用閾值分析的方法,本文通過(guò)提取多維數(shù)據(jù)的特征,使用機(jī)器學(xué)習(xí)模型從航空數(shù)據(jù)中檢測(cè)異常。本文方法包括數(shù)據(jù)預(yù)處理、刪除冗余特征、提取關(guān)鍵特征、改進(jìn)XGBoost模型的目標(biāo)函數(shù)、超參數(shù)優(yōu)化、建模評(píng)估一系列過(guò)程。實(shí)驗(yàn)使用了數(shù)據(jù)匹配得到異常標(biāo)簽從而統(tǒng)一的評(píng)估各算法模型性能。經(jīng)過(guò)實(shí)驗(yàn)對(duì)比可以看出,本文提出了混合特征選取的方法對(duì)于航空高維數(shù)據(jù)是有效且必要的,節(jié)省了特征提取的時(shí)間。在異常檢測(cè)模型評(píng)估中,本文引入代價(jià)敏感學(xué)習(xí)函數(shù)和聚焦損失函數(shù)來(lái)改進(jìn)XGBoost目標(biāo)函數(shù),并通過(guò)貝葉斯參數(shù)優(yōu)化XGBoost模型,實(shí)驗(yàn)結(jié)果表明,本文模型能夠有效的檢測(cè)出航空異常著陸事件。然而本文的工作仍存在一些不足,本文的工作僅僅是檢測(cè)異常,而從數(shù)據(jù)中發(fā)現(xiàn)可能導(dǎo)致異常的因素,從而挖掘出更有價(jià)值的信息是下一步的工作。

        猜你喜歡
        貝葉斯航空樣本
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        “閃電航空”來(lái)啦
        “閃電航空”來(lái)啦
        推動(dòng)醫(yī)改的“直銷樣本”
        貝葉斯公式及其應(yīng)用
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        基于貝葉斯估計(jì)的軌道占用識(shí)別方法
        村企共贏的樣本
        一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        達(dá)美航空的重生之路
        国产一级黄色录像| 午夜免费电影| 特黄特色的大片观看免费视频 | 疯狂做受xxxx高潮欧美日本| 国产妇女乱一性一交| 日本一区二区午夜视频| 黄色av一区二区在线观看| 少妇无码av无码专区| 2021国产最新在线视频一区| 国内精品极品久久免费看| 国产色视频一区二区三区不卡| 亚洲国产精品ⅴa在线观看| 中文字幕在线码一区| 国产一区二区三区影片| 二区三区三区视频在线观看| 曰韩无码二三区中文字幕| 久久精品这里只有精品| 琪琪av一区二区三区| 少妇性俱乐部纵欲狂欢少妇| 国产精一品亚洲二区在线播放 | 中文字幕日产人妻久久| 字幕网中文字幕精品一区| 国产裸体美女永久免费无遮挡| 男人边吃奶边做好爽免费视频| 亚洲精品国产综合久久一线| 日韩中文字幕久久久老色批| 97日日碰人人模人人澡| 国产男女猛烈无遮挡免费视频| 农村国产毛片一区二区三区女 | 久久人人爽爽爽人久久久 | 国产av久久久久精东av| 日韩av高清无码| 国产黄片一区视频在线观看| 国产亚洲精品品视频在线| 国产特级毛片aaaaaa| 国产美女一级做a爱视频| 国产自拍一区二区三区| 又嫩又硬又黄又爽的视频| 亚洲综合网在线观看首页| 偷拍与自偷拍亚洲精品| 中文字幕av中文字无码亚|