谷潤平,來靖晗,魏志強
(中國民航大學空中交通管理學院,天津 300300)
隨著航班量不斷增長,其延誤情況愈發(fā)嚴重,若不及時分析所潛在的影響因素與規(guī)律,并研究相關(guān)估計模型以盡可能減小延誤損失,將對民航業(yè)各方的效益造成不良后果。因此,對其針對性的研究是十分必要的,同時,延誤預測研究將為民航相關(guān)部門的航班運行決策提供理論參考[1]。
目前,已有多種算法[2-14]進行了延誤預測的相關(guān)研究。國外,Kim[2]等研究了容量和需求對紐約地區(qū)機場延誤水平的影響;Mukherjee[3]等采用邏輯回歸和決策樹模型,預測機場地面延誤的發(fā)生;Noboru[4]等利用淺層人工神經(jīng)網(wǎng)絡(ANN, artificial neural network)對機場空域進行延誤預測;Khanmohammadi[6]等引入多級輸入層神經(jīng)網(wǎng)絡算法處理航班數(shù)據(jù)中的名義變量,以預測延誤;Pyrgiotis等[7]進行了近似網(wǎng)絡延誤建模,并運用排隊論模型進行單個機場的延誤計算;Rebollo[8]等利用隨機森林方法預測航班的平均離港延誤;國內(nèi),徐濤[9]等針對空運需求與機場容量沖突條件,采用增量式排列支持向量機算法進行延誤預警;程華[10]等結(jié)合航班數(shù)據(jù)特點,構(gòu)建了基于C4.5決策樹方法的延誤預測模型;羅謙[11]等采用構(gòu)建的非線性回歸模型,預測了大型樞紐機場的航班延誤;吳薇薇[12]等運用加權(quán)馬爾科夫鏈模型,對關(guān)鍵機場的整體延誤狀態(tài)進行預測;吳仁彪[13]等進行基于Spark并融合氣象數(shù)據(jù)的并行化航班延誤預測;張敏[14]運用集對分析的方法,建立了航班延誤預警模型。
綜上,國內(nèi)外學者多以某一具體機場的延誤問題作為研究對象,且對延誤特性的統(tǒng)計量化規(guī)律研究有所欠缺;對延誤影響參數(shù)的優(yōu)化研究較少,忽視了其預測效率和結(jié)構(gòu)優(yōu)化;另外,延誤預測建模考慮的影響因素較為局限,多是僅考慮航班時刻表中的參數(shù)數(shù)據(jù),缺少全面性與系統(tǒng)性,在實踐應用中具有一定限制。近年來,面向大數(shù)據(jù)的深度學習方法廣泛應用于計算機視覺、語音識別、自然語言處理等方面,其性能明顯優(yōu)于傳統(tǒng)算法[15]。鑒于此,首先利用數(shù)據(jù)處理與統(tǒng)計方法,全面分析航班延誤影響因素與規(guī)律,之后采用灰色關(guān)聯(lián)算法,進行延誤相關(guān)性分析以篩選出關(guān)鍵因素,最終實現(xiàn)基于灰色GA-BP神經(jīng)網(wǎng)絡的延誤分析與預測建模方法,實現(xiàn)延誤的高精度估計,為提高航班正常率與運行效率提供研究思路,其方法示意圖如圖1。
圖1 航班延誤預測建模流程
航班延誤情況可能會出現(xiàn)明顯的差異性,即具有不同的延誤分布特性與規(guī)律[16,17],將航班延誤定義為實際起飛/到達相對于計劃起飛/到達時間的偏離,正值即為航班延誤時長。依據(jù)某航空公司2018全年的航班延誤統(tǒng)計數(shù)據(jù),運用數(shù)據(jù)統(tǒng)計與處理方法,獲得基于時空屬性的起飛與到達延誤統(tǒng)計分布曲線,以進行延誤特性分析。
2.1.1 月統(tǒng)計延誤分布
對起飛延誤和到達延誤在全年每個月中的平均延誤情況進行統(tǒng)計,結(jié)果如圖2。每月的延誤水平會有一定差異,即波動性較強;全年的延誤水平隨著季節(jié)差異性而變化,其中平均延誤時長的分布浮動在20~80min之間,且7月份延誤狀況最嚴重。另外,到達平均延誤時間整體大于起飛平均延誤,且變化趨勢相似。
圖2 月統(tǒng)計延誤分布
2.1.2 周統(tǒng)計延誤分布
星期屬性在航班延誤程度上也有一定波動性,每日平均延誤時長具有一定差異性,每周平均延誤時長整體穩(wěn)定在30~70min之間,如圖3。同時,在該條件下,航班到達延誤平均時間明顯較起飛延誤平均時間長。
圖3 周統(tǒng)計延誤分布
2.1.3 小時統(tǒng)計延誤分布
對于起飛與到達延誤水平,兩者變化規(guī)律趨于一致,且各時段隨著時間變量都具有明顯的強波動性,如圖4。另外,延誤時長較高的時段整體集中在8時和13時,即為繁忙時段。
圖4 小時統(tǒng)計延誤分布
2.1.4 空間分布統(tǒng)計分析
由圖5可知,由于不同機場規(guī)模以及發(fā)展水平等眾多因素的影響,導致不同機場的延誤水平具有較大差異性。因此,獲取所涉及機場的規(guī)模數(shù)據(jù)、正常性數(shù)據(jù)及其機場服務評級作為航班延誤的影響參數(shù)。
圖5 多機場統(tǒng)計延誤分布
由上述分布特性分析可知,航班延誤在時空屬性上具有強烈的關(guān)聯(lián)性。月份、星期和時段特征可以一定程度上來表征延誤分布特性及其航班延誤程度,同時考慮節(jié)假日的差異性,因此將是否節(jié)假日屬性與小時、星期和月份屬性作為時間影響參數(shù)。同時,各機場的起飛延誤和到達延誤具有明顯相似的變化趨勢,相關(guān)性較強,即起飛延誤會一定程度上影響到達延誤,是以將起飛延誤作為后續(xù)到達延誤估計模型的影響參數(shù)。
據(jù)此,結(jié)合民航航班正常統(tǒng)計辦法規(guī)定,以航空公司、機場、天氣和其它四個維度為出發(fā)點,基于航空公司歷史航班運行數(shù)據(jù)及獲取的相關(guān)影響參數(shù)數(shù)據(jù),建立航班延誤估計指標體系,如圖6。通過處理該延誤相關(guān)數(shù)據(jù),具體包括數(shù)據(jù)清洗、定量化及其多維匹配與融合,為后續(xù)延誤預測模型的構(gòu)建提供基礎(chǔ)。
圖6 航班延誤估計參數(shù)指標
由上述航班延誤的分布規(guī)律與影響因素分析可知,各參數(shù)都能夠不同程度地反映延誤度,比較容易建立建模數(shù)據(jù)庫。然而,因獲取的影響因素數(shù)據(jù)具有多樣性的特點,且各因素影響下的延誤情況具有一定差異性,與歷史運行數(shù)據(jù)進行匹配后構(gòu)建的數(shù)據(jù)庫,將會引入不必要的延誤預測誤差。因此,采用灰色關(guān)聯(lián)分析(Grey Relational Analysis,GRA)優(yōu)選參數(shù)建模數(shù)據(jù)庫,依據(jù)關(guān)聯(lián)度大小來厘定延誤參數(shù)建模數(shù)據(jù)庫的有效性。
GRA是一種基于關(guān)聯(lián)性分析的多因素量化分析方法,其主要思想是根據(jù)相關(guān)計算得到影響因子間的灰色關(guān)聯(lián)度,以此衡量各因子與研究對象的關(guān)聯(lián)與貢獻程度[18]。因子之間具有越為相似的變化態(tài)勢與程度,則表明其關(guān)聯(lián)性越強。灰色關(guān)聯(lián)建模具體流程如下:
1)確定分析序列
令某航班的到達延誤時間(X0)為參考序列,且影響延誤各個指標參數(shù)分別為:航班號(X1)、機號(X2)、機型(X3)、計劃起飛(X4)、計劃到達(X5)、起飛機場(X6)、到達機場(X7)、航班性質(zhì)(X8)、月份(X9)、星期(X10)、是否節(jié)假日(X11)、飛機狀態(tài)(X12)、起飛機場規(guī)模(X13)、到達機場規(guī)模(X14)、起飛機場正常性(X15)、到達機場正常性(X16)、起飛機場評級(X17)、到達機場評級(X18)、天氣狀況(X19)、延誤波及(X20)、流量控制(X21)、軍事活動(X22)、空管狀態(tài)(X23)、旅客(X24)、特殊事件(X25)、其它(X26)、起飛延誤(X27)為比較序列。
參考序列X0={X0(k)|k=1,2,…,n}與比較序列Xi={Xi(k)|k=1,2,…,n},(i=1,2,…,n)構(gòu)成的矩陣為
(1)
2)無量綱化
為了消除各序列數(shù)據(jù)的量綱差異,利用均值化法進行延誤數(shù)據(jù)及其相關(guān)影響因子數(shù)據(jù)的處理,公式為
(i=1,2,…,27;k=1,2,…,n)
(2)
3)計算序列間關(guān)聯(lián)系數(shù)
X0與Xi的關(guān)聯(lián)系數(shù)公式如下
(3)
4)計算序列間關(guān)聯(lián)度
將各關(guān)聯(lián)系數(shù)ξ0i集中體現(xiàn)在一個值,即為關(guān)聯(lián)度。其值越大,表明兩者的幾何曲線形狀越接近,相關(guān)性越強。公式如下
(4)
5)序列間關(guān)聯(lián)度排序
對各比較序列與參考序列的關(guān)聯(lián)度由高到低進行排序,得到各影響因素與延誤的相關(guān)性結(jié)果,例如:假設(shè)γ01<γ02,即表示X1與X0更為一致,X1與延誤的相關(guān)程度更高。
優(yōu)化模型的基本思路為:由于BP神經(jīng)網(wǎng)絡具有易陷入局部極小值等不足,將遺傳算法(Genetic algorithm,GA)作為其優(yōu)化方法,實現(xiàn)非線性與多維空間的全局尋優(yōu)。首先,將延誤預測網(wǎng)絡的初始權(quán)值與閾值作為其遺傳染色體基因進行相關(guān)編碼,完成GA算法的種群初始化;然后,計算遺傳過程中的個體適應度,經(jīng)由選擇、交叉和變異算子運行,得到高適應度的染色體并保留,繼而獲得新種群,直至達到算法終止條件[19]。
GA-BP網(wǎng)絡延誤預測模型構(gòu)建流程圖如圖7,其優(yōu)化建模的具體實現(xiàn)步驟如下所示:
(5)
式中:Xi為第i個數(shù)據(jù)樣本;Xmax為序列中的最大值,Xmin為其最小值。
2)GA參數(shù)設(shè)置及其種群初始化。標定遺傳中的種群規(guī)模為80,迭代次數(shù)為200,交叉及變異概率分別為0.6、0.08,并進行相關(guān)染色體基因編碼。
3)計算適應度。設(shè)定適應度為預測值和期望值之間的誤差平方和,公式為
(6)
式中:k為系數(shù);n為輸出個數(shù);yi為第i個神經(jīng)節(jié)點的期望值,oi為其實際值。
4)隨機性選擇種群個體,并進行交叉和變異,從而生成新染色體,保留優(yōu)化的染色體并遺傳至下一代得到新種群。
5)重復3)、4)步,當適應度收斂至迭代次數(shù)時,獲得最優(yōu)染色體,以此作為BP網(wǎng)絡模型的初始權(quán)值與閾值。
6)設(shè)置BP參數(shù)?;谶z傳進化得到的初始權(quán)值與閾值,標定延誤預測網(wǎng)絡模型中的學習算法為Trainlm,學習率為0.01,訓練次數(shù)與目標分別為1000和10e-5。
7)將GRA優(yōu)化的延誤影響因子數(shù)據(jù)與到達延誤時間數(shù)據(jù)輸入網(wǎng)絡。輸入層的神經(jīng)節(jié)點獲取延誤影響因子數(shù)據(jù)后,由激活函數(shù)fX計算得到Y(jié)″,之后輸出到隱含層神經(jīng)節(jié)點,并由激活函數(shù)gX計算得到Y(jié),其運行公式為
Y″=fX(WinY′+θin)
(7)
Y=gX(WoutY″+θout)
(8)
式中:Y′、Y″和Y分別為輸入層、隱含層與輸出層;Win和θin分別為輸入層到隱含層之間的權(quán)值與閾值;Wout和θout分別為隱含層至輸出層之間的權(quán)值與閾值;fX為Logsig函數(shù),gX為Purelin函數(shù),公式為
(9)
gX=X
(10)
式中:X為輸入樣本數(shù)據(jù)。
8)計算輸出Y與輸入到達延誤時間數(shù)據(jù)間的誤差δ。將δ反饋至前兩層神經(jīng)節(jié)點,分別修正每層神經(jīng)節(jié)點的權(quán)值與閾值,并基于新的權(quán)值與閾值對7)步進行循環(huán)運算,直至δ小于訓練目標10e-5。
圖7 GA優(yōu)化BP神經(jīng)網(wǎng)絡流程圖
根據(jù)獲取的某航空公司2018年1月1日-2018年12月31日全年實際延誤數(shù)據(jù)及其相關(guān)參數(shù)數(shù)據(jù),由式(1)對航班到達延誤及影響因素,取分辨系數(shù)ρ=0.5,根據(jù)式(2)、(3)、(4)計算關(guān)聯(lián)度,將特征按照關(guān)聯(lián)度由大至小排序,見表1。其中,關(guān)聯(lián)度閾值取0.8,即選擇灰色關(guān)聯(lián)度大于0.8的影響因子為主要影響因子,作為GA-BP網(wǎng)絡的輸入。
表1 延誤影響因子的灰色關(guān)聯(lián)分析結(jié)果
由表1中的灰色關(guān)聯(lián)度可知,航班號、機號、起飛機場規(guī)模及到達機場規(guī)模4個因子相比于其它因子而言與到達延誤的關(guān)聯(lián)度不大,表明該數(shù)據(jù)序列對到達延誤時間的影響能力不足,可作為無效數(shù)據(jù)點進行剔除。最終選取關(guān)聯(lián)度在0.8以上的23個影響因子作為GA-BP網(wǎng)絡模型的輸入神經(jīng)元,到達延誤時間作為輸出結(jié)果。
利用預處理后的延誤優(yōu)化參數(shù)數(shù)據(jù)庫,據(jù)經(jīng)驗公式并通過網(wǎng)絡性能測試,確定中間層設(shè)置6個神經(jīng)節(jié)點,進行灰色GA-BP網(wǎng)絡延誤預測模型構(gòu)建。令網(wǎng)絡訓練集為隨機選擇的7000個樣本數(shù)據(jù)集,檢驗樣本為其余300個樣本數(shù)據(jù)集,對其進行網(wǎng)絡模型的學習訓練與效能驗證對比。
首先,通過GA算法優(yōu)化延誤預測模型網(wǎng)絡,即獲得該網(wǎng)絡初始權(quán)值與閾值的最優(yōu)解。隨著代數(shù)增加,適應度函數(shù)在遺傳進化中的變化曲線如圖8。經(jīng)過多次迭代,種群個體的適應力得到增強,進化80代附近時個體適應度趨于穩(wěn)定。
圖8 GA算法進化曲線
該延誤預測模型網(wǎng)絡的訓練誤差結(jié)果如圖9,在較少的訓練次數(shù)下,達到最佳驗證性能;延誤預測與期望的對比曲線如圖10,由預測的擬合曲線可知,灰色GA-BP網(wǎng)絡模型在航班延誤預測應用中的擬合程度與預測精度較高。
圖9 灰色GA-BP網(wǎng)絡延誤預測訓練誤差圖
圖10 預測與期望對比
為了進一步評估此灰色GA-BP網(wǎng)絡性能的質(zhì)量與優(yōu)化效果,針對進行灰色關(guān)聯(lián)模型篩選的關(guān)鍵因子數(shù)據(jù)和未篩選的原始數(shù)據(jù),分別采用GA-BP網(wǎng)絡、BP網(wǎng)絡模型進行預測。將不同隨機數(shù)據(jù)組合分為5組進行試驗,運用相同模型參數(shù),選擇絕對誤差(MAE)以及擬合優(yōu)度(R2)作為模型性能指標,對該延誤預測模型的模擬和驗證結(jié)果進行評價與對比,結(jié)果見表2。
表2 模型指標評價結(jié)果
由表2可知,灰色GA-BP網(wǎng)絡延誤預測模型的擬合優(yōu)度平均值為0.938,且每組均不小于0.8,平均絕對誤差僅為12.027,與未進行GRA與GA優(yōu)化的延誤預測網(wǎng)絡模型相比,該模型性能與精度得到了提高,效果與適用性更好,驗證了其延誤估計的可靠性。
1)依據(jù)航空公司的實際延誤數(shù)據(jù),對其延誤分布進行了不同條件下的統(tǒng)計分析,全面、系統(tǒng)地分析了延誤因素的影響,建立了延誤影響指標體系,為后續(xù)建模參數(shù)的選擇提供基礎(chǔ)。
2)以灰色關(guān)聯(lián)分析方法進行航班延誤相關(guān)性的度量,對多個變量指標進行了定量計算與篩選,優(yōu)選了延誤影響參數(shù),由此確定23個主要的決定指標參數(shù)作為輸入,后續(xù)模型結(jié)構(gòu)得到簡化,網(wǎng)絡訓練效率得到提升。
3)灰色GA-BP延誤預測模型與優(yōu)化前的網(wǎng)絡模型相比,平均絕對誤差至少下降了5%,提升了模型穩(wěn)定性,優(yōu)化了模型性能與精度,可為航班延誤預估提供支撐,從而有力降低延誤損失。