陳亞青,張可欣,李穎哲
(1.民航飛行技術(shù)與飛行安全重點(diǎn)實(shí)驗(yàn)室,廣漢 618307;2.中國(guó)民用航空飛行學(xué)院民航飛行技術(shù)與飛行安全科研基地,廣漢 618307;3.中國(guó)民用航空飛行學(xué)院空中交通管理學(xué)院,廣漢 618307)
隨著世界經(jīng)濟(jì)的發(fā)展,我國(guó)交通運(yùn)輸行業(yè)尤其是民航業(yè)前進(jìn)速度突出,隨之而來(lái)的運(yùn)行壓力也與日俱增。在此背景下,提高我國(guó)民航的運(yùn)行效率成為一個(gè)不可忽視的問(wèn)題,提高跑道運(yùn)行效率則是解決問(wèn)題的一種重要手段。提高跑道運(yùn)行效率最直接的方法是改擴(kuò)建,但土地價(jià)格激增以及征地難度上升都造成了改擴(kuò)建難以真正實(shí)現(xiàn)。行之有效的方法是研究并優(yōu)化跑道占用時(shí)間來(lái)提升跑道運(yùn)行效率。研究跑道占用時(shí)間需要構(gòu)建跑道占用時(shí)間預(yù)測(cè)模型,基于實(shí)際運(yùn)行數(shù)據(jù),分別利用人工神經(jīng)網(wǎng)絡(luò)(ANN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、極度梯度提升樹(shù)(XGBoost)、支持向量機(jī)(SVM)四種機(jī)器學(xué)習(xí)的方法構(gòu)建跑道占用時(shí)間預(yù)測(cè)模型,對(duì)比分析預(yù)測(cè)模型運(yùn)行結(jié)果。研究結(jié)果表明,基于RNN的跑道占用時(shí)間預(yù)測(cè)模型預(yù)測(cè)效果優(yōu)于其他三種模型,該結(jié)果可為后續(xù)研究跑道占用時(shí)間提供參考。
國(guó)外對(duì)跑道占用時(shí)間預(yù)測(cè)模型的相關(guān)研究可以追溯到1984 年,Weiss 等[1]研究了航空器的尾流類別和跑道表面條件對(duì)跑道占用時(shí)間的影響。1990 年,Ruhl[2]提出了一個(gè)根據(jù)航空器的不同類型參數(shù)來(lái)預(yù)測(cè)跑道占用時(shí)間的模型。2001 年,Martinez 等[3]利用人工采集數(shù)據(jù),對(duì)跑道占用時(shí)間進(jìn)行模擬,最后得出了不同機(jī)型的航空器著陸跑道占用時(shí)間存在明顯差距,輕型機(jī)的平均占用時(shí)間為45 s,中型機(jī)為50 s,這兩類機(jī)型占用時(shí)間標(biāo)準(zhǔn)偏差為10 s。重型機(jī)的平均占用時(shí)間則達(dá)到了55 s,且標(biāo)準(zhǔn)偏差為6 s。2008年,Capri等[4]研究出了一種新的仿真模型,該模型可以利用車輛來(lái)跟隨航空器,更加詳細(xì)地模擬了航空器的滑行運(yùn)動(dòng)軌跡,相比傳統(tǒng)的離散時(shí)間仿真模型來(lái)說(shuō)研究精度得到了很大的提升。2013年,Tamsa 等[5]從四個(gè)不同機(jī)場(chǎng)利用ADS-B 等設(shè)備提取了相關(guān)運(yùn)行數(shù)據(jù),經(jīng)過(guò)分析后得出了具有快速脫離道的跑道占用時(shí)間可以得到顯著的縮短,此外還證明了航空器的類型并不是著陸跑道占用時(shí)間的關(guān)鍵性影響因素。2017 年,歐控中心與代爾夫特理工大學(xué)基于法國(guó)戴高樂(lè)國(guó)際機(jī)場(chǎng)的航空器運(yùn)行數(shù)據(jù)[6],研究出了一種基于復(fù)合機(jī)器學(xué)習(xí)方法的跑道占用時(shí)間預(yù)測(cè)模型,該模型可以預(yù)測(cè)選定跑道30 分鐘之內(nèi)的航空器著陸次數(shù)以及每架航空器的跑道占用時(shí)間。
國(guó)內(nèi)在這方面也有一些研究,2016 年康瑞等[7]學(xué)者將跑滑結(jié)構(gòu)作為主要影響因素,通過(guò)建立跑道占用時(shí)間計(jì)算模型評(píng)估其對(duì)跑道容量的影響。2018 年高偉等[8]將跑道進(jìn)出口布局、起飛等待點(diǎn)布局、占用時(shí)間及機(jī)型等因素的影響考慮在內(nèi)利用蒙特卡洛方法仿真研究了起降航空器跑道運(yùn)行效率。2019年金京等[9]以B-737機(jī)型為研究對(duì)象,建立了航空器著陸跑道占用時(shí)間統(tǒng)計(jì)模型,并以QAR 實(shí)際運(yùn)行數(shù)據(jù)做對(duì)比驗(yàn)證了模型計(jì)算準(zhǔn)確性??傮w而言國(guó)內(nèi)對(duì)跑道占用時(shí)間的研究相對(duì)較少并且研究的內(nèi)容尚不夠全面,仍需進(jìn)一步推進(jìn)研究。為此擬基于機(jī)載QAR 數(shù)據(jù)采,建立四種基于機(jī)器學(xué)習(xí)的跑道占用時(shí)間預(yù)測(cè)模型并驗(yàn)證了模型的精度,提出一種預(yù)測(cè)效果更好的跑道占用時(shí)間預(yù)測(cè)模型。
機(jī)器學(xué)習(xí)(machine learning,ML)是一種基于大量的歷史數(shù)據(jù)集,利用計(jì)算機(jī)對(duì)其進(jìn)行分析學(xué)習(xí)并從中找到規(guī)律以便對(duì)未來(lái)的情況進(jìn)行預(yù)測(cè)的過(guò)程。機(jī)器學(xué)習(xí)算法根據(jù)歷史數(shù)據(jù)生成模型,并通過(guò)學(xué)習(xí)對(duì)模型進(jìn)行改進(jìn)使其精度不斷提升,模型成熟后可以根據(jù)新輸入數(shù)據(jù)來(lái)進(jìn)行預(yù)測(cè)結(jié)果的輸出。近些年,越來(lái)越多的成熟的機(jī)器學(xué)習(xí)改進(jìn)算法被各國(guó)學(xué)者研發(fā)推廣,已經(jīng)被廣泛應(yīng)用于生產(chǎn)生活的各個(gè)領(lǐng)域。機(jī)器學(xué)習(xí)可以按照訓(xùn)練數(shù)據(jù)集是否含標(biāo)簽分為監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)兩大類,本文采用的方法是監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)中包含神經(jīng)網(wǎng)絡(luò),極限學(xué)習(xí)機(jī),極度梯度提升樹(shù)等,本文采用以上算法建立跑道占用時(shí)間預(yù)測(cè)模型。
2.1.1 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)[10](artificial neural network,ANN)也是應(yīng)用廣泛的神經(jīng)網(wǎng)絡(luò),其原理結(jié)構(gòu)來(lái)自于生物神經(jīng)網(wǎng)絡(luò),人工神經(jīng)網(wǎng)絡(luò)被廣泛運(yùn)用在數(shù)值預(yù)測(cè)與計(jì)算估計(jì)。最基礎(chǔ)的人工神經(jīng)網(wǎng)絡(luò)處理單元是單層神經(jīng)網(wǎng)絡(luò),也被稱為人工神經(jīng)元,其模型如圖1所示。其中模型的輸入分別為元素X1、X2、X3,其對(duì)應(yīng)的權(quán)重為W1、W2、W3,在處理單元中包含輸入的函數(shù)圖>,以及激活函數(shù)f,輸出單元?jiǎng)t包括處理后輸出的結(jié)果函數(shù)f。
圖1 單層神經(jīng)網(wǎng)絡(luò)
2.1.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)[11](recurrent neural network,RNN)的基本來(lái)源是1982 年由Saratha Sathasivam提出的霍普菲爾德網(wǎng)絡(luò)。與一般的神經(jīng)網(wǎng)絡(luò)不同,循環(huán)神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)是多個(gè)基本組成相同的神經(jīng)元,每個(gè)神經(jīng)元直接互相影響,在循環(huán)神經(jīng)網(wǎng)絡(luò)的內(nèi)部存在很強(qiáng)的記憶性,每個(gè)神經(jīng)元的輸入依賴于其前一個(gè)神經(jīng)元的輸出,神經(jīng)元之間的連接具有重復(fù)性。整體的循環(huán)神經(jīng)網(wǎng)絡(luò)可以看作是一個(gè)單一的神經(jīng)元的輸出不斷作為其輸出循環(huán)的進(jìn)行運(yùn)算并得出最終的結(jié)果,具有非常強(qiáng)的時(shí)序性。經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 經(jīng)典循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
極度梯度提升樹(shù)算法[12](XGBoost算法)是梯度提升算法(Boost 算法)的一種實(shí)現(xiàn)方式。XGBoost 算法的基本思想就是不斷生成新的樹(shù),后一棵樹(shù)基于前一棵樹(shù)的結(jié)果和實(shí)際值yi的差值來(lái)進(jìn)行學(xué)習(xí),從而降低模型的偏差。
最終模型結(jié)果的輸出如下:
支持向量機(jī)[13(]support vector machine,SVM)是由Vapnik 等學(xué)者在二十世紀(jì)九十年代提出的算法。支持向量機(jī)的原理依據(jù)來(lái)自于統(tǒng)計(jì)學(xué)習(xí),尤其是其中的風(fēng)險(xiǎn)最小原理,其本質(zhì)是二元分類器的一種。支持向量機(jī)的結(jié)構(gòu)可以簡(jiǎn)單描述為輸入層、核空間以及輸出層。一般情況下支持向量機(jī)被用來(lái)處理回歸(support vector regression,SVR)問(wèn)題和分類(support vector classify,SVC)問(wèn)題。在處理分類問(wèn)題時(shí),支持向量機(jī)采用核函數(shù)將數(shù)據(jù)從低維度映射高維度空間后尋找一個(gè)最優(yōu)的超平面將向量充分分割,使分割后的兩部分?jǐn)?shù)據(jù)點(diǎn)離平面的距離最遠(yuǎn),降低了維度災(zāi)難和計(jì)算復(fù)雜度。分類過(guò)程的關(guān)鍵是利用核函數(shù)把復(fù)雜的分類過(guò)程通過(guò)映射轉(zhuǎn)化成一個(gè)線性可分問(wèn)題。利用核函數(shù)計(jì)算值K(xi,x)表達(dá)多維向量?jī)?nèi)積,計(jì)算t時(shí)間段內(nèi)的前m數(shù)據(jù)(即數(shù)據(jù)時(shí)間窗口為m),輸出預(yù)測(cè)結(jié)果,其原理如圖3所示。
圖3 支持向量機(jī)原理
處理回歸問(wèn)題時(shí)[14],支持向量機(jī)的訓(xùn)練集的實(shí)數(shù)域記為yi。此時(shí)計(jì)算訓(xùn)練數(shù)據(jù)與所建立的回歸函數(shù)之間的差值,若其差值小于等于ε,則認(rèn)為算法成立,其數(shù)學(xué)模型可表示為
圖4 支持向量機(jī)回歸原理
基于歷史運(yùn)行數(shù)據(jù),將不同影響因素考慮在內(nèi),分別采用人工神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、極度梯度提升樹(shù)以及支持向量機(jī)這四種不同種類機(jī)器學(xué)習(xí)方法,建立航空器跑道占用時(shí)間預(yù)測(cè)模型,比較不同預(yù)測(cè)模型預(yù)測(cè)精度。具體可以簡(jiǎn)要描述為以下三個(gè)步驟:①數(shù)據(jù)收集以及數(shù)據(jù)處理;②跑道占用時(shí)間預(yù)測(cè)模型的建立;③預(yù)測(cè)結(jié)果對(duì)比分析。
基于收集到的武漢天河機(jī)場(chǎng)、北京首都機(jī)場(chǎng)、重慶江北機(jī)場(chǎng)、太原武宿機(jī)場(chǎng)、海口美蘭機(jī)場(chǎng)、廣州白云機(jī)場(chǎng)等六個(gè)機(jī)場(chǎng)的空客320飛機(jī)機(jī)載QAR 數(shù)據(jù)。選取氣溫、風(fēng)速、風(fēng)向、能見(jiàn)度、滑行距離、脫離道口角度、跑道入口速度、跑道出口速度、機(jī)場(chǎng)標(biāo)高九種QAR 數(shù)據(jù),作為參數(shù)構(gòu)建跑道占用時(shí)間預(yù)測(cè)模型。
QAR 數(shù)據(jù)作為飛行分析常用數(shù)據(jù)源雖然有數(shù)據(jù)種類多、數(shù)據(jù)量大的優(yōu)點(diǎn),但其原始數(shù)據(jù)也存在數(shù)據(jù)缺失,數(shù)據(jù)單位不統(tǒng)一等缺點(diǎn),造成數(shù)據(jù)不可以直接使用。對(duì)數(shù)據(jù)進(jìn)行清洗[15],補(bǔ)充缺失數(shù)據(jù)、刪除不可用數(shù)據(jù)。清洗后對(duì)數(shù)據(jù)分布進(jìn)行分析,結(jié)果如圖5所示,可以看出各類數(shù)據(jù)的數(shù)值從十幾到上千差距很大,且數(shù)據(jù)分布不均。因此,在建立預(yù)測(cè)模型前,要對(duì)收集到的數(shù)據(jù)進(jìn)行降維處理,以保證去除數(shù)值對(duì)模型的貢獻(xiàn)程度差異過(guò)大而造成的計(jì)算誤差。
圖5 數(shù)據(jù)分布
對(duì)各影響因素的相關(guān)性進(jìn)行分析,結(jié)果見(jiàn)表1,發(fā)現(xiàn)各因素之間在0.01水平(雙側(cè))上顯著相關(guān),因此可以利用主成分分析法對(duì)數(shù)據(jù)進(jìn)行降維。對(duì)數(shù)據(jù)進(jìn)行總解釋方差分析發(fā)現(xiàn),九個(gè)影響因素可以轉(zhuǎn)換為四種主成分,其旋轉(zhuǎn)成分矩陣如表2所示。
表1 相關(guān)性
表2 成份矩陣
利用經(jīng)預(yù)處理并降維后的包括溫度、風(fēng)速、風(fēng)向、能見(jiàn)度、滑行距離、脫離道口角度、跑道入口速度、跑道出口速度、機(jī)場(chǎng)標(biāo)高在內(nèi)的數(shù)據(jù)作為參數(shù),分別采用人工神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、極度梯度提升樹(shù)以及支持向量機(jī)四種機(jī)器學(xué)習(xí)方法建立預(yù)測(cè)模型,其流程如圖6所示。
圖6 模型構(gòu)建流程
分別將建立的四種不同的預(yù)測(cè)模型所輸出的預(yù)測(cè)值與實(shí)際運(yùn)行數(shù)據(jù)進(jìn)行對(duì)比,對(duì)預(yù)測(cè)模型的準(zhǔn)確性進(jìn)行對(duì)比驗(yàn)證,選出最適宜用于建立跑道占用時(shí)間預(yù)測(cè)模型的機(jī)器學(xué)習(xí)方法,其對(duì)比結(jié)果分別如圖7—圖10所示。
圖7 基于ANN的跑道占用時(shí)間預(yù)測(cè)模型
圖8 基于RNN的跑道占用時(shí)間預(yù)測(cè)模型
圖9 基于XGBoost的跑道占用時(shí)間預(yù)測(cè)模型
圖10 基于SVM的跑道占用時(shí)間預(yù)測(cè)模型
從以上四張預(yù)測(cè)結(jié)果對(duì)比圖形可以看出,XGBoost模型、RNN模型預(yù)測(cè)值與實(shí)際值重合度更高。為了更好地對(duì)四種模型的預(yù)測(cè)效果進(jìn)行對(duì)比,本文進(jìn)一步計(jì)算了四種預(yù)測(cè)模型預(yù)測(cè)值的均方誤差,平均絕對(duì)誤差以及平均絕對(duì)百分比誤差進(jìn)行評(píng)價(jià),其結(jié)果見(jiàn)表3。
表3 模型誤差對(duì)比
從表3數(shù)據(jù)對(duì)比可以看出四個(gè)模型中,RNN模型的三種誤差都是相對(duì)較小的,基于RNN 的跑道占用時(shí)間計(jì)算模型的預(yù)測(cè)效果在所建立的四種預(yù)測(cè)模型中是最好的。
研究基于實(shí)際運(yùn)行數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行處理分析后,分別利用四種不同機(jī)器學(xué)習(xí)方法建立了跑道占用時(shí)間預(yù)測(cè)模型。將建立的四種預(yù)測(cè)模型預(yù)測(cè)結(jié)果以及預(yù)測(cè)誤差進(jìn)行對(duì)比分析后得出,RNN 模型的均方誤差、平均絕對(duì)誤差、平均絕對(duì)百分比誤差分別為21.5195、3.5130、0.0530,誤差相對(duì)較小,且其預(yù)測(cè)值與實(shí)際值的吻合度也相對(duì)較高;而基于SVM 的跑道占用時(shí)間預(yù)測(cè)模型的均方誤差達(dá)到了31.3156,由其預(yù)測(cè)值與實(shí)際值的對(duì)比圖也可以看出偏差較大,在建立的四種模型中精度最低。說(shuō)明基于RNN的跑道占用時(shí)間預(yù)測(cè)模型具有一定的優(yōu)越性,RNN 方法更適用于預(yù)測(cè)跑道占用時(shí)間,該結(jié)論可以為后續(xù)跑道占用時(shí)間預(yù)測(cè)模型的研究提供一定參考。