屈景怡 張金杰 趙婭倩 李云龍
(1.中國民航大學天津市智能信號與圖像處理重點實驗室,天津 300300;2.上海民航華東通信網(wǎng)絡(luò)發(fā)展有限公司,上海 200355)
隨著空中交通流量的增加,航班延誤問題給民航的正常運轉(zhuǎn)帶來了挑戰(zhàn)。某一機場產(chǎn)生的航班延誤會在空中交通網(wǎng)絡(luò)內(nèi)部進行傳播,航線密集的樞紐機場一旦發(fā)生航班延誤,延誤更容易直接傳播至其他中小型機場[1]。提前對航班延誤波及問題進行準確的預(yù)測,可以提高航班延誤預(yù)警水平,減小航空公司和機場的經(jīng)濟損失,提高旅客出行滿意度。
在班延誤波及預(yù)測的問題上,國內(nèi)外學者們多結(jié)合航班延誤影響因素、機場繁忙程度、航班計劃等進行研究。目前已有的方法多基于概率論的方法來計算連續(xù)航班延誤落在不同區(qū)間的條件概率[2-4],文獻[5]考慮機場放行能力約束條件來對航班延誤波及進行分析,對延誤時長進行了定量預(yù)測,提升了預(yù)測準確率;文獻[6]通過馬爾科夫毯網(wǎng)絡(luò)建立了航班計劃的多個屬性和延誤波及變化的貝葉斯網(wǎng)絡(luò)模型,來研究航班計劃對于航班延誤波及傳播的影響。但以上大多是用小樣本數(shù)據(jù)對航班延誤波及問題產(chǎn)生的原因進行研究,面對數(shù)據(jù)量達到百萬級的航班數(shù)據(jù),如何有效的對航班延誤中復(fù)雜關(guān)系進行分析挖掘,深度學習是目前研究中使用最為廣泛的方法之一。文獻[7]使用SE-DenseNet模型加強了信息間的傳遞對航班延誤進行預(yù)測;文獻[8]提出基于區(qū)域殘差和LSTM 網(wǎng)絡(luò)有效提取機場延誤數(shù)據(jù)的時間相關(guān)性;文獻[9]使用時空圖卷積神經(jīng)網(wǎng)絡(luò)對離港延誤時長進行預(yù)測。雖然這些方法對單航班延誤程度的預(yù)測均有效提高了預(yù)測準確率,但并未考慮航班間的波及問題。近年來,逐漸有學者嘗試將深度學習用于航班延誤波及的研究中,文獻[10]構(gòu)建基于CBAM-CondenseNet 的航班延誤波及預(yù)測模型,文獻[11]提出雙向LSTMCatboost 的航班鏈式延誤預(yù)測模型,用Catboost 取代全連接層對航班波及延誤時長進行預(yù)測。航班延誤波及預(yù)測屬于基于時序信息的預(yù)測,又包含豐富的空間信息[12]。但這兩種模型并未對航班延誤波及中的時序與空間屬性同時進行特征提取。
長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),在時間維度上對先前時序信息能夠記憶的更為深刻,但使LSTM 中輸入的x和之前狀態(tài)hprev在輸入細胞前是相互獨立的,MogrifierLSTM 使這兩個輸入從完全獨立到自主交互很好的提升了網(wǎng)絡(luò)性能[13]。TCN 作為時間卷積網(wǎng)絡(luò)融合了膨脹卷積和ResNet 殘差結(jié)構(gòu),彌補了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)提取時序信息不足的缺點,但是需要足夠長的原始輸入信息才能保證獲取到歷史信息[14-17]。由于航班波及的航班數(shù)量有限,構(gòu)成時序數(shù)據(jù)集的序列長度有限,所以本文使用CNN 網(wǎng)絡(luò)與MogrifierLSTM 對航班延誤波及問題進行預(yù)測,并融合注意力模塊SimAM 來提高預(yù)測準確率。目前普遍使用的SE 模塊文獻為通道注意模塊,但其只針對通道而忽略了空間,CBAM 模塊在通道注意的基礎(chǔ)上增加了空間注意力,但兩者并不是同時進行;文獻[18]提出的Si?mAM不同于現(xiàn)有的通道空間注意力模塊,該模塊無需額外參數(shù)為特征圖推導出3D 注意力權(quán)值,可以更好對關(guān)鍵特征的提取進行同時強化。
針對航班延誤波及的空時特性,本文先后提出兩種不同類型的航班延誤波及數(shù)據(jù)集的構(gòu)造方法,又提出融合注意力機制SimAM 的CNN-MogrifierLSTM航班延誤波及預(yù)測方法,不僅采用了卷積神經(jīng)網(wǎng)絡(luò)在空間特征提取的優(yōu)勢又考慮了形變長短時記憶網(wǎng)絡(luò)在處理時序信息的優(yōu)越性,并用注意力機制模塊對特征矩陣進行重要神經(jīng)元增強。實現(xiàn)同一架飛機在執(zhí)行不同航班任務(wù)時,根據(jù)航班延誤波及的傳播規(guī)律對后續(xù)航班的延誤等級進行分類預(yù)測,為有關(guān)民航部門控制延誤波及提供相應(yīng)建議。
航班延誤具有時空分布的特性,當同一架飛機連續(xù)執(zhí)行不同的航班任務(wù)時,由于前一架飛機的延誤而導致后續(xù)航班繼續(xù)延誤的情況常有發(fā)生。定義同一架航空器在一定時間范圍內(nèi)第一次起飛的機場為一級機場。航空器從一級起飛機場執(zhí)行航班任務(wù)1 到達的機場稱為二級機場,也稱為一級到達機場或二級起飛機場。以此類推,多個機場由同一架航空器Z 在不同機場間執(zhí)行飛行任務(wù)聯(lián)系,從而構(gòu)成航班鏈,如圖1 所示。以“北京-上海-廣州”為例,定義北京為一級機場,同一架飛機執(zhí)行航班任務(wù)1 從北京飛往上海,上海就是航班鏈中的二級機場,也叫一級到達機場或二級起飛機場;該飛機又從上海出發(fā)執(zhí)行航班任務(wù)2 從上海飛往廣州,廣州就是航班鏈中的三級機場,也叫二級到達機場或三級起飛機場。
圖1 航班鏈模型Fig.1 Flight chain model
CNN 在預(yù)測中難以學習時序數(shù)據(jù)之間的關(guān)系,由于航班鏈數(shù)據(jù)具有時序性,因此對航班延誤波及問題進行預(yù)測需要循環(huán)神經(jīng)網(wǎng)絡(luò)系列方法的強化。CNN-LSTM 網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2(a)所示,本文提出的融合注意力機制SimAM 的CNN-MogrifierLSTM 網(wǎng)絡(luò)模型如圖2(b)所示。
本文網(wǎng)絡(luò)先通過四個融合SimAM 的結(jié)構(gòu)塊,每個結(jié)構(gòu)塊采用1×1 卷積,然后使用兩個3×3 卷積進行特征的提取,最后使用1×1卷積進行融合,每個卷積層都通過分組來保證其時序的獨立性,再通過Si?mAM 模塊進行通道和空間上的同步加權(quán)。卷積完成后通過平均池化篩選卷積層已提取的特征,最后數(shù)據(jù)經(jīng)過全連接層送入MogrifierLSTM 中預(yù)測,融合注意力機制SimAM 的CNN-MogrifierLSTM 網(wǎng)絡(luò)對針對強空間航班鏈數(shù)據(jù)集的網(wǎng)絡(luò)配置如下表1 所示,數(shù)據(jù)集具體構(gòu)造方法見本文4.2節(jié)。
表1 網(wǎng)絡(luò)結(jié)構(gòu)配置Tab.1 Network structure configuration table
圖2(b)中使用的SimAM 模塊如圖3(c)所示,改進了通道注意力如圖3(a)所示與空間注意力如圖3(b)所示無法同時進行的優(yōu)勢,C代表通道數(shù),M代表每個通道輸入H×W矩陣的維度。引用神經(jīng)科學中信息豐富的神經(jīng)元通常表現(xiàn)出與周圍神經(jīng)元不同的放電模式并會抑制周圍神經(jīng)元,具有空域抑制效應(yīng)的神經(jīng)元應(yīng)當賦予更高的重要性,定義了如公式(1)所示的能量函數(shù)。
圖2 網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.2 Diagram of network structure
圖3 注意力對比示意圖Fig.3 Attention contrast diagram
圖4 融合SimAM單個結(jié)構(gòu)塊Fig.4 Fusion of SimAM structural block
LSTM 一直被廣泛應(yīng)用在各類與時序相關(guān)的任務(wù)中[19],MogrifierLSTM 在不改變LSTM 本身的結(jié)構(gòu)下,讓上一時刻的隱藏層狀態(tài)hprev和當前時刻的輸入x在輸入當前神經(jīng)元前就進行了交互,增強了上下文的建模能力。交替地讓x和hprev交互進行QR分解如公式(3)所示。
其中Cprev代表前一個MogrifierLSTM 單元的細胞狀態(tài),hprev表示隱藏層狀態(tài)。定義為中上標最大的那個值,如公式(4)與公式(5)所示。Mog?rifierLSTM 架構(gòu)中的hprev,Cprev是前一個細胞的隱藏層狀態(tài),在初始化的時均采用從0初始化,以保持每個序列中互不干擾。但在更新隱藏層參數(shù)時,采用的是隨機初始化。
本文網(wǎng)絡(luò)的反向傳播過程通過梯度下降算法逐層迭代,根據(jù)誤差項實現(xiàn)更新參數(shù)直至網(wǎng)絡(luò)收斂。融合注意力機制SimAM 的CNN-MogrifierLSTM在反向傳播的過程中分為MogrifierLSTM 模塊與融合SimAM的CNN模塊,反向傳播過程如圖5所示。
圖5 網(wǎng)絡(luò)反向傳播圖Fig.5 Network back propagation
MogrifierLSTM 在不改變LSTM 本身的結(jié)構(gòu)下,根據(jù)梯度下降算法,先對MogrifierLSTM 網(wǎng)絡(luò)反向傳播過程中的誤差項進行推導,據(jù)誤差反向傳播原理,推導得出誤差沿網(wǎng)絡(luò)層數(shù)的反向傳播過程為式(6)所示。其中分別代表每個記憶細胞中各個門的誤差項如式(7)~(10)所示。依次表示輸入門、遺忘門、輸出門的權(quán)重矩陣。
其中f(·)為激活函數(shù),f(·)'為激活函數(shù)的導數(shù)。上標l代表當前層,下標t代表當前時刻。卷積模塊內(nèi)各個隱藏層的誤差計算如式(11)~(17)所示。其中δ1,δ2…δ7分別表示對應(yīng)層的誤差項,U1,U2,…U6為各層的輸出特征映射,W表示每層的之間的映射矩陣。
融合注意力機制SimAM 的CNN-MogrifierLSTM航班延誤波及結(jié)構(gòu)圖如圖6 所示,主要包括航班鏈數(shù)據(jù)集構(gòu)造、特征提取、分類預(yù)測三部分,下面主要對航班鏈數(shù)據(jù)集構(gòu)造與分類預(yù)測展開描述。
圖6 航班延誤波及預(yù)測模型總體結(jié)構(gòu)圖Fig.6 Overall structure diagram of flight delay ripple prediction model
本文所使用的航班數(shù)據(jù)為中國民用航空華東地區(qū)空中交通管理局所提供的2018年3月到2019年5月全國航班飛行數(shù)據(jù),其中關(guān)鍵的樣本屬性包括航班號、飛機編號、實際起飛/到達機場、飛行航跡、計劃出發(fā)/到達時間、實際出發(fā)/到達時間、目標/實際撤輪檔時間、計劃起飛/到達機場、計劃機型、巡航高度、巡航速度、軍方批號、保障種類、保障類型等38 個屬性。這些特征屬性都與該條航班是否延誤有密切的關(guān)聯(lián),不僅包含了重要的空間特征,也包含了豐富的時間信息。由于空管局所提供航班數(shù)據(jù)中有部分異常值與空值,所以先對原始航班數(shù)據(jù)集選擇目前主流的數(shù)據(jù)分析庫Pandas 進行數(shù)據(jù)清洗。
根據(jù)航班延誤波及的空時特點,本文首先嘗試了以空間信息為主的強空間航班鏈數(shù)據(jù)集的構(gòu)造方法,為了增強其時間上的關(guān)聯(lián)性又提出了強時序航班鏈數(shù)據(jù)集的構(gòu)造方法。在強空間航班鏈數(shù)據(jù)集中可以根據(jù)往日同一航班鏈延誤情況對延誤等級進行預(yù)測,強時序航班鏈數(shù)據(jù)集中上一次航班的延誤狀態(tài)會直接影響下一次航班的延誤程度。
4.2.1 強空間航班鏈數(shù)據(jù)集構(gòu)建
根據(jù)第2 章中航班鏈式模型的定義,每次執(zhí)行航班的到達機場與執(zhí)行下一次航班的起飛機場為同一機場,本文根據(jù)同一架航空器在24小時內(nèi)空間維度上的變化構(gòu)成強空間航班鏈數(shù)據(jù)集。首先選定飛機編號(航空器編號)、航班執(zhí)行日期、一級到達機場、二級起飛機場四個屬性作為數(shù)據(jù)融合的鍵值,對清洗后的航班數(shù)據(jù)集進行第一次數(shù)據(jù)融合,融合后去除二級機場起飛時間早于一級機場到達二級機場時間的異常航班鏈,此時航班鏈數(shù)據(jù)集中該飛行器執(zhí)行了兩次航班任務(wù),在空間上周轉(zhuǎn)了三個機場。延誤波及現(xiàn)象的產(chǎn)生有逐級傳遞的特性,以此類推本文對數(shù)據(jù)進行了三次融合,然后對融合后的航班鏈數(shù)據(jù)集根據(jù)一級機場的起飛時間對所有的航班鏈數(shù)據(jù)集進行時間軸上排序,構(gòu)成最終的強空間航班鏈數(shù)據(jù)集,每條數(shù)據(jù)中的航空器連續(xù)執(zhí)行了四次航班飛行任務(wù),空間維度涉及五個機場的中轉(zhuǎn)情況,航班鏈的延誤標簽為第4 次航班任務(wù)的延誤等級。大多數(shù)飛機在執(zhí)行完一次飛行任務(wù)后當日并不會再執(zhí)行其他的飛行任務(wù),隨著在同一天內(nèi)執(zhí)行飛行任務(wù)的增多,可研究的航班鏈數(shù)據(jù)集的數(shù)據(jù)量也會越來越少,所以本文主要研究由連續(xù)執(zhí)行四次航班任務(wù)構(gòu)成的航班鏈延誤波及情況。最后將強空間航班鏈數(shù)據(jù)集中的特征屬性劃分為數(shù)值型與離散型,數(shù)值型特征采用Min-Max 歸一化編碼,離散型特征采用Catboost編碼。
為了更清楚的對強空間數(shù)據(jù)集進行描述。定義強空間航班鏈數(shù)據(jù)集Fa中第i條航班鏈數(shù)據(jù)用fi=(fi1,fi2,fi3,fi4)表示。其中fi1,fi2,fi3,fi4分別代表這條航班鏈數(shù)據(jù)fi包含在時間維度上前后執(zhí)行航班任務(wù)的四條單航班信息。Fa數(shù)據(jù)集進一步可以用Fa={(f11,f12,f13,f14),(f21,f22,f23,f24),(f31,f32,f33,f34),…}(fn1,fn2,fn3,fn4) 表示。
4.2.2 強時序航班鏈數(shù)據(jù)集構(gòu)建
強空間航班鏈數(shù)據(jù)集的每條航班鏈數(shù)據(jù)中包含多級機場豐富的空間信息,但時序信息只包含在相鄰的航班鏈中,為了進一步研究航班鏈內(nèi)部的時序性,本節(jié)提出了第二種數(shù)據(jù)集構(gòu)造方法,如圖7強時序航班鏈數(shù)據(jù)集構(gòu)造圖所示。
圖7 強時序航班鏈數(shù)據(jù)集結(jié)構(gòu)圖Fig.7 Strong temporal flight chain data construction
由于每條航班鏈數(shù)據(jù)在時間維度上執(zhí)行航班任務(wù)有前后順序,前序航班的延誤會對后續(xù)航班的延誤會有較大的影響,所以對每條強空間航班鏈數(shù)據(jù)進行數(shù)據(jù)分割。為滿足不同情況下的預(yù)測需求,分別構(gòu)建強時序性航班鏈數(shù)據(jù)集Fb,F(xiàn)c,F(xiàn)d分別表示為:
其中強時序航班鏈數(shù)據(jù)集Fb只根據(jù)第一次航班與第二次航班的數(shù)據(jù)來預(yù)測第二次航班的延誤程度,融合注意力機制SimAM 的CNN-Mogrifier LSTM 網(wǎng)絡(luò)的步長設(shè)為2。強時序航班鏈數(shù)據(jù)集Fc根據(jù)第一次航班、第二次航班與第三次航班的數(shù)據(jù)來預(yù)測第三次航班的延誤程度,步長設(shè)為3。強時序航班鏈數(shù)據(jù)集Fd根據(jù)第一次航班、第二次航班、第三次航班與第四次航班的數(shù)據(jù)來預(yù)測第四次航班的延誤程度,步長設(shè)為4。不同的強時序航班鏈數(shù)據(jù)集可以訓練不同的網(wǎng)絡(luò)模型供空管部門使用,其數(shù)據(jù)集總量增至強空間數(shù)據(jù)集的2倍、3倍、4倍。
根據(jù)《航班正常管理規(guī)定》[20]中“航班延誤”的相關(guān)定義,將航班延誤情況進行細分得到五個延誤等級,并對不同的等級劃分延誤等級數(shù),其判定標準如表2中所示。等級標簽根據(jù)數(shù)據(jù)集中的計劃到達時間與實際到達時間進行差值計算,最終用Soft?max分類器得到航班延誤預(yù)測等級。
表2 航班延誤等級劃分Tab.2 Classification of flight delays
根據(jù)預(yù)測出的最大概率的延誤等級,決定模型輸出航班延誤波及的預(yù)測結(jié)果。為了評估融合注意力機制SimAM 的CNN-MogrifierLSTM 模型分類的效果,本文使用準確率作為評估指標,即模型預(yù)測結(jié)果正確的數(shù)量占數(shù)據(jù)總量的比值,如公式(18)所示。N代表航班鏈數(shù)據(jù)集樣本總量,L代表延誤程度的五種類別,Si代表驗證集中延誤等級為i時預(yù)測結(jié)果正確的航班鏈數(shù)據(jù)量。
實驗環(huán)境為戴爾PoweredgeR370 機架式服務(wù)器,16G 顯存,雙Intel XeonE5-2630 CPU,CPU 頻率為2.20GHz,GPU 加速顯卡為NVIDIA P100,軟件的運行環(huán)境為Ubuntu16.04 操作系統(tǒng)搭建的Pytorch深度學習框架。
本文實驗所使用的原始航班數(shù)據(jù)共1048576條,經(jīng)過數(shù)據(jù)清洗與航班鏈數(shù)據(jù)集構(gòu)造后,航班延誤波及預(yù)測實驗最終使用的強空間航班鏈數(shù)據(jù)集Fa的數(shù)據(jù)量為36287條;根據(jù)前一次航班延誤程度預(yù)測下一次航班延誤的強時序航班鏈數(shù)據(jù)集Fb的數(shù)據(jù)量為72574條;根據(jù)前兩次航班延誤程度預(yù)測下一次航班延誤的強時序航班鏈數(shù)據(jù)集Fc的數(shù)據(jù)量為108861條;根據(jù)前三次航班延誤程度預(yù)測下一次航班延誤的強時序航班鏈數(shù)據(jù)集Fd的數(shù)據(jù)量為145148條;訓練集和驗證集劃分比例為5∶1。在經(jīng)過多次實驗與參數(shù)調(diào)整后,融合注意力機制SimAM 的CNNMogrifierLSTM 網(wǎng)絡(luò)的實驗環(huán)境參數(shù)選取信息如表3所示。
表3 實驗環(huán)境參數(shù)Tab.3 Experimental environment parameters
融合SimAM 的CNN-MogrifierLSTM 卷積濾波器的數(shù)量為64 個,步長為默認值1,同時對邊界進行Padding 補0 填充保證輸入卷積層后輸出尺寸不發(fā)生變化;池化層采用平均池化方式,池化尺寸為2×2,步長也設(shè)為1;然后輸入一層MogrifierLSTM 網(wǎng)絡(luò)中,隱藏層維數(shù)256。
MogrifierLSTM 網(wǎng)絡(luò)在提取時間序列信息的過程中,序列的步長對最終的預(yù)測輸出有著直接的影響。如果輸入網(wǎng)絡(luò)的步長太短,可能會弱化數(shù)據(jù)之間的相關(guān)性,有效的時間信息不能被充分學習;反之輸入的步長太長,訓練過程中可能會存在梯度消失甚至梯度爆炸現(xiàn)象。表4列舉了對于強空間航班鏈數(shù)據(jù)集Fa使用融合SimAM 的CNN-MogrifierLSTM混合網(wǎng)絡(luò)模型不同步長對應(yīng)的準確率。
表4 強空間航班鏈數(shù)據(jù)集序列長度準確率對比Tab.4 Comparison of sequence length accuracy rates in strong space flight chain data
通過實驗結(jié)果發(fā)現(xiàn),強空間航班鏈數(shù)據(jù)集Fa的序列長度等于8 的時候,預(yù)測結(jié)果的準確率最高為78.79%。在步長選擇合適的情況下,在對未來航班延誤波及進行預(yù)測可以產(chǎn)生很好的時間相關(guān)性,但隨著步長增加,在時間維度上會學習到更多不需要的冗余數(shù)據(jù),造成準確率的下降。本文后續(xù)對強空間航班鏈數(shù)據(jù)集的航班延誤波及預(yù)測的步長取值均選用8。
強空間航班鏈數(shù)據(jù)集在時間上參考前序飛行計劃相同的航班鏈數(shù)據(jù),航班延誤波及信息更多在空間維度上體現(xiàn)。強時序航班鏈數(shù)據(jù)集直接根據(jù)同一架飛行器前幾次飛行任務(wù)情況來對后續(xù)執(zhí)行的航班進行延誤預(yù)測,時序性更強。在飛機實際執(zhí)行航班任務(wù)的時候,連續(xù)執(zhí)行兩次航班任務(wù)的情況比較多,連續(xù)執(zhí)行三次任務(wù)的情況會相對減少,連續(xù)執(zhí)行四次任務(wù)會更少為了使模型在實際預(yù)測中具有更好的適用性,針對這三種情況分別構(gòu)建了連續(xù)執(zhí)行兩次航班任務(wù)數(shù)據(jù)集Fb,連續(xù)執(zhí)行三次航班任務(wù)數(shù)據(jù)集Fc,連續(xù)執(zhí)行四次航班任務(wù)數(shù)據(jù)集的強時序數(shù)據(jù)集Fd,不同數(shù)據(jù)集的實驗結(jié)果對比如圖8所示,其中8(a)為延誤等級分類準確率對比,8(b)為損失值對比。
圖8 不同數(shù)據(jù)集對比Fig.8 Comparison of different data sets
從圖中可以看出三種強時序鏈數(shù)據(jù)集在準確率上相比強空間數(shù)據(jù)集有了很大的提升,準確率最好的是連續(xù)執(zhí)行四次航班任務(wù)的數(shù)據(jù)集Fd,準確率達到了93.16%,相比于強空間數(shù)據(jù)集Fa的準確率78.79%提升了14.37%,損失值也最低。將三種強時序航班鏈數(shù)據(jù)集進行對比發(fā)現(xiàn)隨著連續(xù)執(zhí)行航班次數(shù)的增多,時序性也在增強,預(yù)測準確率也在逐步提升。
交替輪數(shù)r值是MogrifierLSTM 網(wǎng)絡(luò)中一個重要的超參數(shù),r值越大x輸入LSTM 網(wǎng)絡(luò)前和之前細胞的狀態(tài)交互越充分,網(wǎng)絡(luò)更好挖掘時序信息之間的關(guān)聯(lián)性。但是r值每增加1,每次更LSTM 細胞狀態(tài)時就要多進行一次QR 矩陣分解,網(wǎng)絡(luò)計算量與訓練時間都會大幅度的增加。由于實驗硬件設(shè)施算力有限,所以實驗r最多設(shè)為6。表5 為交替輪數(shù)r增加時,航班延誤波及預(yù)測的準確率與每輪訓練時間在兩種數(shù)據(jù)集上的實驗結(jié)果。本文實驗對訓練模型耗時要求不是很高,所以優(yōu)先考慮對準確率的影響,故強空間航班鏈數(shù)據(jù)集Fa的r值設(shè)為6,強時序航班鏈數(shù)據(jù)集Fd的r值也設(shè)為6。
表5 交替輪數(shù)r對準確率與訓練時間的對比Tab.5 Alternating rounds r for accuracy and training time
空間復(fù)雜度與時間復(fù)雜度是表示算法復(fù)雜度的兩個重要指標??臻g復(fù)雜度用來計算資源的消耗程度,模型參數(shù)用Params 衡量,算法越復(fù)雜,參數(shù)量越多。時間復(fù)雜度用浮點運算次數(shù)FLOPs 衡量,算法復(fù)雜度越高,模型訓練和預(yù)測的時間都會變長。表6 為本文融合注意力機制SimAM 的CNNMogrifierLSTM 模型與其他幾種模型的復(fù)雜度對比,其中MogrifierLSTM 簡寫為MLSTM。從表6 中可以看出,MLSTM 相比于LSTM 算法復(fù)雜度并無很大增加,在CNN-MLSTM 中融入注意力機制SimAM 模塊后參數(shù)量增基本不發(fā)生變化,進一步驗證了SimAM模塊的無參特性。并使用1000 條驗證集數(shù)據(jù)對模型進行了預(yù)測時間分析,結(jié)果如表6 所示。不同模型平均每條航班的預(yù)測時長差值都在0.001 秒以內(nèi),證明了該模型雖然復(fù)雜度有所增加,但實際預(yù)測耗時并無很大變化??展芫謱︻A(yù)測實時性的要求為預(yù)測一條數(shù)據(jù)在一秒以內(nèi),所以犧牲復(fù)雜度提高準確率在實際運用中是可行的。
表6 不同網(wǎng)絡(luò)模型算法復(fù)雜度對比Tab.6 Network model algorithm comcexity comparison
為了測試融合SimAM 注意力機制的CNN-MogrifierLSTM 網(wǎng)絡(luò)的性能,本節(jié)在強空間數(shù)據(jù)集Fa與強時序數(shù)據(jù)集Fd兩種數(shù)據(jù)集上分別使用CNN、LSTM、MogrifierLSTM、CNN-LSTM、CNN-MogrifierLSTM五種模型與本文提出的SimAM-CNN-MogrifierLSTM網(wǎng)絡(luò)模型進行準確率與損失值的對比實驗。對于強空間數(shù)據(jù)集Fa不同模型的對比實驗結(jié)果如圖9所示,強時序數(shù)據(jù)集Fd不同模型的準確率對比實驗結(jié)果如圖10 所示,(a)為準確率對比,(b)為損失值對比。
圖9 強空間數(shù)據(jù)集不同模型性能對比Fig.9 Strong spatial data set comparison
圖10 強時序數(shù)據(jù)集不同模型性能對比Fig.10 Strong sequential data set comparison
從實驗結(jié)果可以看出在時序的基礎(chǔ)上加上卷積思想后的CNN-MogrifierLSTM 網(wǎng)絡(luò)在兩種數(shù)據(jù)集上相比單獨的CNN網(wǎng)絡(luò)或LSTM網(wǎng)絡(luò)的準確率都有了明顯的提升,在強空間數(shù)據(jù)集上,相比CNN 網(wǎng)絡(luò)提升了2.38%,相比LSTM 網(wǎng)絡(luò)提升了2.24%;在強時序數(shù)據(jù)集上,分別提升了16.46%與2.16%。本文對CNN-MogrifierLSTM 加入SimAM 注意力機制模塊后,在強空間數(shù)據(jù)集上相比CNN-MLSTM 又提升了0.62%達到了78.79%,在強時序數(shù)據(jù)集上提升了0.53%達到了93.16%,明顯高于其他五種網(wǎng)絡(luò)的準確率,損失函數(shù)值也最低。綜合說明本文提出的融合注意力機制SimAM 的CNN-MogrifierLSTM 網(wǎng)絡(luò)在進行航班延誤波及預(yù)測時,預(yù)測出的航班延誤波及分類結(jié)果與實際最為接近,網(wǎng)絡(luò)性能最優(yōu)。
為了進一步驗證運用深度學習模型在大數(shù)據(jù)基礎(chǔ)上對航班延誤預(yù)測的準確率相比于傳統(tǒng)算法有很大提升。分別用幾種不同的航班預(yù)測模型[21-23]與本文模型進行對比,實驗對比如表7 所示。傳統(tǒng)的機器學習是屬于小樣本學習,對于大數(shù)據(jù)的訓練效果不是很好。從數(shù)據(jù)的屬性分析,航班數(shù)據(jù)其屬性之間具有依賴性,而傳統(tǒng)的如C4.5在選擇屬性是沒有考慮到屬性間的相關(guān)。支持向量機通過求解凸二次規(guī)劃問題得到一個局部最優(yōu)解,也為全局最優(yōu)解,而航班數(shù)據(jù)的每一條之間其差異性較小。貝葉斯網(wǎng)絡(luò)使用的前提是屬性之間相互獨立,而該假設(shè)并不適用于本數(shù)據(jù)集。人工神經(jīng)網(wǎng)絡(luò)的可以充分的學習屬性之間的相關(guān)性,但是無法估計每條數(shù)據(jù)之間的關(guān)聯(lián)性。本文模型同時考慮到了數(shù)據(jù)屬性之間與數(shù)據(jù)序列間的關(guān)系,采用CNN 融合注意進行空間的特征融合,采用MogrifierLSTM 對每條數(shù)據(jù)間的時序性進行特征提取,因此本文所提出的網(wǎng)絡(luò)模型更適用于對航班延誤波及等級進行預(yù)測。
表7 傳統(tǒng)模型準確率對比Tab.7 Accuracy comparison of traditional models
本文針對航班延誤波及問題提出了一種融合SimAM 注意力機制的CNN-MogrifierLSTM 航班延誤波及預(yù)測方法。通過SimAM 注意力機制模塊對重要特征進行通道與空間的同步加強,并結(jié)合CNN 提取空間信息與MogrifierLSTM 提取時間信息的優(yōu)勢,對融合空時信息的航班鏈數(shù)據(jù)進行充分的特征提取,通過大量實驗驗證了該網(wǎng)絡(luò)模型的有效性。
(1)通過分析航班延誤波及的傳播規(guī)律,提出兩種航班鏈數(shù)據(jù)集的構(gòu)造方法。首先對數(shù)據(jù)清洗后的航班數(shù)據(jù)進行三次復(fù)雜融合,提出強空間數(shù)據(jù)集的構(gòu)造方法;為了進一步增強時序性提高預(yù)測準確率,對強空間數(shù)據(jù)集進行順序分割,提出強時序航班鏈數(shù)據(jù)集的構(gòu)造方法,增強預(yù)測的適用性,可以根據(jù)波及的次數(shù)選擇適用于網(wǎng)絡(luò)訓練的不同數(shù)據(jù)集。
(2)基于航班鏈數(shù)據(jù)集的空時特性,提出融合SimAM 注意力機制的CNN-MogrifierLSTM 網(wǎng)絡(luò)模型。首先使用CNN 網(wǎng)絡(luò)層對空間信息進行提取,然后通過SimAM 注意力機制模塊進行空間和通道的同步注意對重要特征進行增強,最后輸入Mogrifi?erLSTM 進一步提取航班延誤波及中的時序特性,有效提升了航班延誤波及預(yù)測的準確率。
對航班延誤波及問題提前進行準確的預(yù)測,可以有效提升低質(zhì)量航班質(zhì)量,減少航班延誤波及的發(fā)生。在下一階段,將考慮如何使用回歸模型來對延誤的具體時間進行預(yù)測,同時在數(shù)據(jù)允許的情況下,增加天氣等影響因素對航班延誤波及進行分析。