孫瑞山,李重鋒,2
(1.中國民航大學 民航安全科學研究所,天津 300300;2.中國民航大學 經(jīng)濟與管理學院,天津 300300)
2020年《中國民航航空安全報告(2019年)》[1]表明:2010—2019年,我國民航一共發(fā)生8起沖/偏出跑道事故,且沖/偏出跑道征候數(shù)位列總征候數(shù)的第3位。長著陸是造成飛機沖出跑道的重要因素,同時會減少跑道的可用比例,增加管制員工作負荷??茖W地對長著陸進行預警對于保障著陸階段的飛行安全具有重要意義。
目前鮮有學者給出飛機長著陸預警方法,相關研究主要探討長著陸的影響因素。例如,Sun等[2]基于QAR數(shù)據(jù)和K-W檢驗分析接地點遠超限事件,得出飛機在60.96~15.24 m處的地速和15.24 m處的發(fā)動機轉(zhuǎn)速是影響飛機接地點遠的顯著性因素;王冉等[3]指出飛機在15.24~0 m階段下降率對長著陸的影響最大,其次是俯仰角、駕駛桿位移和油門桿位移,并建議飛行員在著陸過程中柔和操作駕駛桿和油門,以防止過大的下降率。
從著陸不安全事件預警角度出發(fā),相關研究主要利用QAR數(shù)據(jù)并基于相關算法提出預警方法。例如,鄭磊等[4]利用卷積神經(jīng)網(wǎng)絡給出不同操作模式下飛機的重著陸預警結(jié)果;陳思等[5]基于自適應變異粒子群參數(shù)尋優(yōu)方法改進支持向量機分類模型,提出重著陸風險預警模型;汪磊等[6]基于飛行QAR數(shù)據(jù)和蒙特卡洛模擬方法建立擦機尾風險預測模型。從現(xiàn)有研究看,尚欠缺針對長著陸的預警方法,且現(xiàn)有部分預警算法存在參數(shù)調(diào)整困難,訓練過程復雜、易陷入過擬合等不足。隨機森林(Random Forest,RF)可以同時處理連續(xù)、離散數(shù)據(jù),運行效率高,具有較強的魯棒性、抗噪聲、防止過擬合、參數(shù)調(diào)整簡便等優(yōu)點。本文將隨機森林理論應用至飛機長著陸預警中,利用QAR數(shù)據(jù)構(gòu)建1個既能反映實際運行情況,又能達到較高召回率的飛機長著陸預警方法,并結(jié)合案例對模型進行驗證。
隨機森林分類器(Random Forests for Classifier,RFC)是Breiman[7]提出的集成分類算法。其通過Bootstrap法從訓練樣本中抽取樣本形成不同的訓練集,分別訓練決策樹并投票形成最終結(jié)果。RFC算法步驟如下:
1)生成k個決策樹。
2)將k個決策樹組合成隨機森林。
3)將隨機森林中所有決策樹的分類結(jié)果進行投票,投票結(jié)果為最終模型的分類結(jié)果。分類投票過程如式(1)所示:
(1)
式中:Y為輸出變量;H(x)為返回最多票數(shù)的Y;k為決策樹個數(shù);hi(x)為單個決策樹分類模型;I為示性函數(shù)。
利用RFC進行飛機長著陸預警有以下3個優(yōu)點:
1)RFC采用Bagging方法生成訓練集,該方法使得原始訓練集中有近37%的數(shù)據(jù)可能未被新訓練集所選中,因此這部分數(shù)據(jù)(OOB數(shù)據(jù))可以用來對模型的泛化性能進行估計,簡稱OOB估計。
2)隨著決策樹的增加,RFC的泛化誤差PE*將趨向于1個上界,也即RFC具有很好的收斂性和防止出現(xiàn)過擬合的能力[8]。
3)RFC在生成決策樹的過程中選擇部分特征進行構(gòu)建,可以有效避免大數(shù)據(jù)運算中可能出現(xiàn)的維度爆炸。
從飛行數(shù)據(jù)中篩選出影響長著陸的關鍵特征是對其進行預警的前提。從“人-機-環(huán)”角度確定長著陸預警的輸入特征。
1)人為因素的影響表現(xiàn)為飛行員在進近著陸階段對飛機狀態(tài)的控制,具體體現(xiàn)為下滑階段對高度和速度的控制[9];拉平階段拉桿時機、拉桿速度和拉桿量的把控,應防止出現(xiàn)拉平高、拉平低這2種著陸偏差[10];平飄階段操縱桿與油門桿的配合;接地階段的姿態(tài)控制和對地面效應處理等[11]。以上任一環(huán)節(jié)出現(xiàn)偏差均可能導致飛機長著陸。
2)從飛機的角度出發(fā),相同條件下不同機型的著陸平飄距離存在明顯不同。對于同一機型,著陸階段影響飛機長著陸的參數(shù)主要分為3個方面:飛機姿態(tài),包括俯仰角、滾轉(zhuǎn)角;與飛機速度相關的參數(shù),包括地速、下降率、速度比(下降率/地速)、縱向加速度、垂直加速度[12];飛機著陸質(zhì)量。
3)從環(huán)境角度出發(fā),可能影響飛機長著陸風險的環(huán)境因素包括機場標高、大氣溫度、能見度、風、結(jié)冰等。環(huán)境因素對長著陸的影響方式包括影響飛行員的判斷與操作,例如低能見度可能使飛行員對高度和姿態(tài)產(chǎn)生誤判,以及影響飛機空氣動力學特性和操作特性等,例如高原機場由于空氣稀薄造成飛機的著陸平飄距離增加。
綜上,選取無線電高度15.24 m處的飛機地速、縱向加速度、垂直加速度、下降率、俯仰角、滾轉(zhuǎn)角、外界大氣溫度、大氣壓力、縱向風速、下滑道偏離、著陸質(zhì)量作為長著陸預警模型的候選輸入特征。
著陸過程是指飛機從15.24 m以正常的運動軌跡、速度和正確的配平飛行并在無線電高度約6 m時開始拉平使得飛機平穩(wěn)接地的過程。其中,典型的拉平操作時間為4~8 s。為保證飛行員有足夠的時間做出反應,選取無線電高度15.24 m處作為飛機長著陸預警位置。從飛機歷史運營數(shù)據(jù)庫中選取非長著陸樣本和長著陸樣本數(shù)據(jù),提取飛機在無線電高度15.24 m位置的長著陸預警參數(shù)的QAR數(shù)據(jù),建立長著陸數(shù)據(jù)集D(x,y),x,y的取值如式(2)~(3)所示:
(2)
(3)
式中:x為預警參數(shù);GS為地速;LG為縱向加速度;VG為垂直加速度;IVV為下降率;PITCH為俯仰角;ROLL為滾轉(zhuǎn)角;TEM為外界大氣溫度;PRE為大氣壓力;LW為縱向風速;GD為下滑道偏離;GW為著陸質(zhì)量;y為長著陸結(jié)果。
為減少噪聲參數(shù)對長著陸預警模型性能的影響,需要對模型進行特征篩選。針對RFC,采用基尼指數(shù)的平均改變量來衡量特征重要度。模型節(jié)點m處的基尼指數(shù)GIm計算方法如式(4)所示:
(4)
式中:GIm為模型節(jié)點m處的基尼指數(shù);K為類別數(shù),本模型K=2;pmk為節(jié)點m中類別k所占的比例。
(5)
(6)
(7)
重要性評分歸一化結(jié)果VIMj如式(8)所示:
(8)
至此可獲得c個特征的特征重要性排序。首先選取重要度最高的參數(shù)構(gòu)成第1組預警參數(shù)集合,然后按照重要度依次加入特征構(gòu)成包含全部預警參數(shù)的集合。針對每1組長著陸預警參數(shù)集建立RFC并計算OOB誤差EOOB,EOOB最小的模型所對應的特征組合為最優(yōu)長著陸預警參數(shù)集。
RFC需要確定2個參數(shù)的最優(yōu)組合,分別是RFC中決策樹的數(shù)量ntree以及RFC的子樹在生成過程中,每個節(jié)點從所有特征中選擇用于分裂的特征個數(shù)ntry。
對于參數(shù)ntree,RFC的泛化誤差會隨著ntree的增加而收斂于1個上界,同時過多的ntree會增加模型的訓練時間。首先設定參數(shù)ntry為特征數(shù)的平方根,然后選取不同組的ntree建立RFC,最后觀察各組EOOB的走勢確定ntree的值。
對于參數(shù)ntry,隨機的特征選擇使樹之間的差異變大,提升模型的容噪能力和泛化能力。本模型在確定ntree的基礎上,分組選擇最優(yōu)的ntry使得模型的EOOB最小。
Breiman已證明使用OOB估計與使用相同樣本容量的測試集的精度一樣,即使用OOB估計時,就沒有必要再使用測試集[13]。同時計算RFC的預測精確率P、召回率R和綜合評價指標F1值,驗證模型的可用性。P表示被分為長著陸的樣本中實際為長著陸樣本的比例,P值越高,模型精確率越好;R表示對長著陸樣本的分類正確率,R值越高,模型長著陸預警效果越好;F1為模型綜合評價指標,F(xiàn)1越高,則說明試驗方法越有效。P,R與F1值的計算公式如式(9)所示:
(9)
式中:P為精確率;R為召回率;F1為綜合評價指標;TP為將正類預測為正類數(shù);FP為將負類預測為正類數(shù)。
從某B737-800機隊飛行員的歷史飛行數(shù)據(jù)中提取某機場128個歷史著陸樣本,包含69個長著陸樣本和59個非長著陸樣本。提取無線電高度15.24 m處的長著陸預警參數(shù)數(shù)據(jù),建立長著陸風險預警數(shù)據(jù)集。長著陸超限標準參考波音飛行品質(zhì)監(jiān)控[14]輕度超限取值為750 m。假設飛行員按照標準著陸程序進行操作,飛機著陸形態(tài)為襟翼30°,選取頂風分量小于10 m/s,順風分量小于5 m/s的樣本記錄進行分析。飛機在預警位置的部分數(shù)據(jù)見表1。原則上RFC算法對數(shù)據(jù)的單位和量綱并不敏感,所以不需要對整理好的數(shù)據(jù)進行歸一化處理[15]。
表1 QAR原始數(shù)據(jù)示例
根據(jù)式(8)計算出模型特征重要度的順序為PRE,VG,IVV,LW,TEM,GW,GD,GS,PITCH,LG,ROLL。隨后根據(jù)特征重要度高低依次組成預警模型參數(shù)集訓練RFC,結(jié)果見表2。
表2 各組預警參數(shù)集的EOOB
結(jié)果表明由大氣壓力、垂直加速度、下降率、縱向風速組成新的長著陸預警參數(shù)集的EOOB最小,故選取上述4個參數(shù)構(gòu)建新的數(shù)據(jù)集進行RFC參數(shù)尋優(yōu)、模型訓練與驗證等環(huán)節(jié)。
預設參數(shù)ntry為特征數(shù)的平方根,即ntry=2,設定不同組別的ntree建立RFC,各組EOOB如圖1所示,可知ntree=3 000時,模型EOOB趨于穩(wěn)定。在此基礎上,不同ntry取值下模型精度的變化情況如圖2所示,可知ntry=4時,模型EOOB最小。故模型最優(yōu)參數(shù)為ntree=3 000,ntry=4。
圖1 ntree與EOOB誤差之間的關系
圖2 ntry與模型EOOB誤差的關系
模型訓練完成后,模型OOB誤差降至13.42%。將預測結(jié)果以真實結(jié)果進行比對,繪制交叉表見表3,模型長著陸預警錯誤率為11.59%,說明預警模型具有一定的科學性與有效性。
表3 預警結(jié)果與真實結(jié)果交叉表
為全面評價模型的性能,計算出模型的預測準確率、召回率和綜合評價指標值見表4,進一步驗證模型的可靠性??梢钥闯觯陔S機森林分類的飛機長著陸預警模型具有較好的召回率和精確度。
表4 模型結(jié)果評價指標
1)為科學地對長著陸進行預警,構(gòu)建基于隨機森林分類器的飛機長著陸預警模型,包括模型輸入特征的選擇、模型參數(shù)的確定及模型的評價方法。基于實際QAR數(shù)據(jù)完成模型的訓練與驗證,結(jié)果表明模型具有較好的長著陸預警能力。
2)基于隨機森林構(gòu)建不安全事件預警模型的方法具有實現(xiàn)簡便、準確性高、綜合性能強等優(yōu)勢,可拓展應用至其他飛行品質(zhì)監(jiān)控項目預警工作,如重著陸等。
3)暫未全面考慮飛行員的操作特征對飛機長著陸預警性能的影響,未來可基于QAR數(shù)據(jù)挖掘影響長著陸的人為因素,以期提升長著陸預警模型的精度。