陳昱君, 孫樊榮, 沐瑤, 許學(xué)吉, 胡熾
(南京航空航天大學(xué)民航學(xué)院, 南京 211100)
2010年以來(lái),隨著經(jīng)濟(jì)發(fā)展的不斷提升,我國(guó)的民用航空業(yè)也穩(wěn)健地快速發(fā)展。而民航快速發(fā)展帶來(lái)空中交通流量日益增多。與此同時(shí)機(jī)場(chǎng)容量、天氣狀況、空中交通管制情況、航空公司內(nèi)部原因等原因造成的航班延誤數(shù)量和時(shí)間也逐漸增加[1]。航班延誤的預(yù)測(cè)與控制已成了機(jī)場(chǎng)和航司為了提高效率與控制成本的主要研究目標(biāo)。
數(shù)年來(lái),國(guó)內(nèi)外專家致力于研究航班延誤的預(yù)測(cè)以及減少延誤等問(wèn)題。大量的科研成果為航空公司和機(jī)場(chǎng)的日常運(yùn)作提供了重要的指導(dǎo)作用,取得的效果明顯。國(guó)外航空事業(yè)的崛起和成長(zhǎng)早于中國(guó),在航班延誤問(wèn)題上的研究也略微早于中國(guó)。在延誤的傳遞性發(fā)面,文獻(xiàn)[2-4]分析了在共用飛機(jī)資源的情況下,后續(xù)航班出發(fā)延誤與航班到達(dá)延誤之間的強(qiáng)相關(guān)性,并且證明了計(jì)劃過(guò)站時(shí)間能夠吸收到達(dá)延誤,但由于模型中涉及的考慮因素較少,又是在基于某種理想化的假設(shè)前提下,并不是特別適用于實(shí)際情況。在延誤的預(yù)測(cè)方面,文獻(xiàn)[5-7]通過(guò)構(gòu)建航班延誤預(yù)測(cè)模型,發(fā)現(xiàn)影響延誤的因素主要包括時(shí)間、日期、天氣等,但存在預(yù)測(cè)的精度不夠高,考慮的影響因素比較片面,在實(shí)時(shí)動(dòng)態(tài)條件的改變的情況下,模型并不能較好的適用的問(wèn)題[5-7];劉博等[8]通過(guò)文獻(xiàn)綜述總結(jié)了用于解決飛行延遲預(yù)測(cè)問(wèn)題的方法,描述了航班延誤研究方法的發(fā)展趨勢(shì)及未來(lái)研究方向。和國(guó)外對(duì)延誤展開(kāi)的研究相比,中國(guó)對(duì)航班延誤方面的研究起步較晚。在延誤的傳遞方面,丁建立等[9]在文獻(xiàn)[1]基礎(chǔ)上,對(duì)延誤傳遞過(guò)程的研究選取了動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)。從分析結(jié)果中看出,位于上游的航班在有延誤的情況下,延誤發(fā)生與否,取決于飛機(jī)過(guò)站時(shí)間大小。在延誤預(yù)測(cè)方向,吳仁彪等[10]通過(guò)分析航班延誤在航空網(wǎng)絡(luò)內(nèi)產(chǎn)生的延誤波及現(xiàn)象,確定會(huì)受前序延誤航班影響的航班鏈,然后對(duì)選定的航班鏈數(shù)據(jù)進(jìn)行清洗,將航班信息與機(jī)場(chǎng)信息進(jìn)行數(shù)據(jù)融合和特征提取,提出一種基于CBAM-CondenseNet的航班延誤波及預(yù)測(cè)模型。
在影響延誤的因素方面,徐海文等[11]考慮了數(shù)據(jù)的時(shí)效對(duì)航班延誤預(yù)測(cè)時(shí)效的影響,提出一種基于時(shí)效信息的離場(chǎng)航班延誤預(yù)測(cè)模型;謝華等[12]采用時(shí)間序列特征對(duì)機(jī)場(chǎng)航班離港延誤時(shí)間進(jìn)行預(yù)測(cè),研究了氣象因素和少量管制因素對(duì)延誤的影響;李雨吟等[13]在丁建立等[9]的研究基礎(chǔ)上,采用時(shí)間序列關(guān)聯(lián)性衡量方法分析機(jī)場(chǎng)延誤時(shí)間特征,將持續(xù)可變的時(shí)間規(guī)整距離與發(fā)生延誤總時(shí)間及氣象因素結(jié)合,發(fā)現(xiàn)氣象因素對(duì)于機(jī)場(chǎng)延誤時(shí)間的長(zhǎng)短有較大影響,但是忽略了其他方面的影響;續(xù)長(zhǎng)青等[14]主要分析了雙流機(jī)場(chǎng)航班延誤時(shí)間隨能見(jiàn)度變化的規(guī)律,對(duì)不同能見(jiàn)度情況下的航班延誤時(shí)間做出預(yù)測(cè);周潔敏等[15]建立彈性神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,探究了航班運(yùn)行的常規(guī)數(shù)據(jù)集對(duì)延誤的影響。
綜合上述國(guó)內(nèi)外研究現(xiàn)狀,通過(guò)對(duì)比發(fā)現(xiàn)以上研究存在以下幾個(gè)問(wèn)題:
(1)對(duì)影響航班延誤的因素考慮不夠全面。
(2)模型預(yù)測(cè)延誤的準(zhǔn)確率還有待提高。
(3)研究存在局限性,只以時(shí)間閾值作為衡量指標(biāo)。
針對(duì)國(guó)內(nèi)外在航班延誤方面研究的不足,本文中運(yùn)用BP(back propagation)神經(jīng)網(wǎng)絡(luò)模型,并對(duì)其做出一定的優(yōu)化來(lái)解決預(yù)測(cè)精度不足以及研究因素不全面的問(wèn)題,具體工作如下。
以浦東機(jī)場(chǎng)為背景,建立離港航班延誤時(shí)間預(yù)測(cè)模型。首先分析影響離場(chǎng)航空器延誤的因素,并分析其關(guān)聯(lián)性;考慮到使用數(shù)據(jù)結(jié)構(gòu)的非線性特征,采用BP神經(jīng)網(wǎng)絡(luò)對(duì)離港航班延誤時(shí)長(zhǎng)進(jìn)行預(yù)測(cè);并針對(duì)基本BP網(wǎng)絡(luò)全局收斂速度緩慢、易出現(xiàn)局部極小值等情況,對(duì)模型采用多種改進(jìn)方法進(jìn)行優(yōu)化,從而建立對(duì)離港航班延誤時(shí)間預(yù)測(cè)效果更佳的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型。其次構(gòu)建基于支持向量機(jī)回歸的預(yù)測(cè)模型進(jìn)行預(yù)測(cè)。最后以浦東機(jī)場(chǎng)2019年航班運(yùn)行數(shù)據(jù)及2019年航空例行天氣報(bào)告(meteorological terminal aviation routine weather report, METAR)為實(shí)例研究對(duì)象,將優(yōu)化之后的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型與支持向量機(jī)預(yù)測(cè)模型的預(yù)測(cè)結(jié)果進(jìn)行比較,選擇最優(yōu)預(yù)測(cè)模型。
通過(guò)對(duì)國(guó)內(nèi)外關(guān)于航班延誤研究情況的文獻(xiàn)綜述和航班離港的實(shí)際情況可知,影響離港航班延誤的主要因素有:地面風(fēng)向、風(fēng)速、主導(dǎo)能見(jiàn)度、天氣現(xiàn)象、云底高、云量、溫度、露點(diǎn)、修正海平面氣壓(query normal height, QNH)、航班所屬航空公司、目的地、起飛使用跑道、停機(jī)位、起飛航班所處航站樓、航班類型、滑行時(shí)間、推出時(shí)刻、推出序列、計(jì)劃離港時(shí)刻、實(shí)際起飛時(shí)間等。下面分析這20個(gè)影響因素與離港延誤時(shí)間的相關(guān)程度。
1.2.1 數(shù)據(jù)來(lái)源
本文數(shù)據(jù)來(lái)源于浦東機(jī)場(chǎng)統(tǒng)計(jì)的2019年1月8日—11月24日的各大航空公司173 193 條歷史離港航班信息,以及2019年浦東機(jī)場(chǎng)METAR報(bào)文。
1.2.2 METAR報(bào)文解析
結(jié)合航空氣象相關(guān)知識(shí),對(duì)收集到的METAR報(bào)文進(jìn)行解析,解析屬性包括:地面風(fēng)向、風(fēng)速、主導(dǎo)能見(jiàn)度、天氣現(xiàn)象、云底高、云量、溫度、露點(diǎn)、QNH。
具體的報(bào)文解析方法如下:
(1)METAR報(bào)文的發(fā)布時(shí)間間隔是30 min,在本研究采用每小時(shí)中整點(diǎn)小時(shí)數(shù)的METAR報(bào)文數(shù)據(jù)作為整個(gè)小時(shí)的天氣數(shù)據(jù)。
(2)根據(jù)METAR報(bào)文的具體格式,提取其中出現(xiàn)的地面風(fēng)向、風(fēng)速、主導(dǎo)能見(jiàn)度、溫度、露點(diǎn)、QNH的數(shù)值。例如,報(bào)文中的風(fēng)向340°,風(fēng)速3 m/s,能見(jiàn)度大于10 km(CAVOK),溫度4 ℃,露點(diǎn)-6 ℃,QNH 102 700 Pa,并將其對(duì)應(yīng)為340,03,9 999,4,-6,1 027。
(3)依據(jù)METAR報(bào)文,提取具體的云底高、天空云量。其中,天空云量分為七種情況,依次是FEW(占1~2個(gè)八分量)、SCT(占3~4個(gè)八分量)、BKN(占5~7個(gè)八分量)、OVC(占8個(gè)八分量)、SKC(無(wú)云)、NSC(無(wú)云)、CAVOK(無(wú)云),依據(jù)專家經(jīng)驗(yàn)建議,將其分為五個(gè)等級(jí),分別是0:SKC/CAVOK,1:FEW,2:SCT,3:BKN,4:OVC;云底高采用報(bào)文中的具體數(shù)值乘以30(m)進(jìn)行換算,其中CAVOK、SKC、NSC均采用1 500(m)作為云底高。
(4)提取METAR報(bào)文中出現(xiàn)的天氣現(xiàn)象,并對(duì)其進(jìn)行語(yǔ)義的轉(zhuǎn)換。針對(duì)METAR報(bào)文中有關(guān)天氣現(xiàn)象的縮寫(xiě),可參考專家經(jīng)驗(yàn)建議將其分為0~3四個(gè)等級(jí),其中0級(jí)表示天氣狀況理想,無(wú)影響;1級(jí)表示暫存影響飛行的輕度天氣狀況;2級(jí)表示存在影響飛行的中度天氣狀況;3級(jí)表示存在影響飛行的惡劣天氣狀況。具體天氣狀況所對(duì)應(yīng)的等級(jí)如表1所示。
1.2.3 歷史航班數(shù)據(jù)與METAR報(bào)文融合
將浦東機(jī)場(chǎng)2020年歷史航班數(shù)據(jù)中的航班計(jì)劃離港時(shí)刻,按照對(duì)應(yīng)整小時(shí)的METAR報(bào)文時(shí)間,進(jìn)行融合。以航班號(hào)CQH8843為例,其融合后的航班數(shù)據(jù)如表2所示。
表1 各天氣情況對(duì)應(yīng)的等級(jí)Table 1 The level corresponding to each weather condition
表2 融合后的歷史航班數(shù)據(jù)Table 2 Historical flight data after fusion
表2中的航班基本數(shù)據(jù)還需進(jìn)行語(yǔ)義的轉(zhuǎn)化。其中,所屬航司和目的地對(duì)應(yīng)的多位大寫(xiě)字母利用ONE-HOT編碼將其全部進(jìn)行數(shù)字化;計(jì)劃離港時(shí)刻、實(shí)際離港時(shí)刻、推出時(shí)刻均轉(zhuǎn)化為12位純數(shù)字,前4位為年份,中間5、6位為月份,其次的7、8位為日期,最后4位為小時(shí)與分鐘;航班類型的轉(zhuǎn)化按照表2變?yōu)閷?duì)應(yīng)數(shù)字;滑行時(shí)間和延誤時(shí)間取其單位前數(shù)字。
1.2.4 數(shù)據(jù)預(yù)處理
數(shù)據(jù)的預(yù)處理過(guò)程分為以下三步。
(1)缺失值處理:針對(duì)本文中使用的數(shù)值性質(zhì)的缺失值,采取該值在附近時(shí)間內(nèi)所有對(duì)象中的取值的平均數(shù)值來(lái)填充該丟失的屬性值;針對(duì)其他非數(shù)值性質(zhì)的缺失值,根據(jù)數(shù)理統(tǒng)計(jì)數(shù)學(xué)中的眾數(shù)原理,用該屬性在同一小時(shí)內(nèi)其他所有對(duì)象出現(xiàn)頻率最高的值來(lái)填補(bǔ)該缺失的屬性值。
(2)異常值處理:若該條數(shù)據(jù)中的異常值較多,則刪除該條含有異常值的數(shù)據(jù);若該條數(shù)據(jù)中的異常值較少,則將異常值視為缺失值,使用缺失值處理方法來(lái)處理。
(3)標(biāo)準(zhǔn)化處理:數(shù)據(jù)分析的結(jié)果會(huì)受不同因素間的量綱和單位影響,為了規(guī)避這種影響,在進(jìn)行相關(guān)性分析和后期預(yù)測(cè)前需要對(duì)數(shù)據(jù)采取標(biāo)準(zhǔn)化(歸一化)處理。轉(zhuǎn)換函數(shù)為
(1)
2.1.1 神經(jīng)網(wǎng)絡(luò)基本原理
BP神經(jīng)網(wǎng)絡(luò)是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)[16]。其運(yùn)行計(jì)算流程圖如圖1所示。
BP網(wǎng)絡(luò)的優(yōu)點(diǎn)體現(xiàn)在:①在解決非線性問(wèn)題時(shí)具有卓越的映射能力;②具有卓越的自主學(xué)習(xí)以及自主適應(yīng)能力;③具有卓越的容差能力。但其也存在以下缺點(diǎn):①存留局部極小化問(wèn)題;②網(wǎng)絡(luò)收斂速度慢;③預(yù)測(cè)能力和訓(xùn)練能力的沖突,可能出現(xiàn)“過(guò)擬合”現(xiàn)象。
圖1 BP神經(jīng)網(wǎng)絡(luò)計(jì)算流程圖Fig.1 BP neural network calculation flowchart
2.1.2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化
對(duì)于2.1.1節(jié)中提到的BP神經(jīng)網(wǎng)絡(luò)現(xiàn)存的缺陷,國(guó)內(nèi)外學(xué)者也一直在探究各種優(yōu)化的措施,目前的研究主要集中在:①優(yōu)化網(wǎng)絡(luò)收斂速度怠慢的問(wèn)題;②優(yōu)化出現(xiàn)局部極小點(diǎn)的情況。本節(jié)針對(duì)上述兩個(gè)問(wèn)題提出兩種優(yōu)化方案。
(1)BP神經(jīng)網(wǎng)絡(luò)活化函數(shù)設(shè)計(jì)。為了使神經(jīng)網(wǎng)絡(luò)性能發(fā)生相應(yīng)的改變,可以通過(guò)替換隱含層到輸出層的活化函數(shù)來(lái)實(shí)現(xiàn),常用的活化函數(shù)有:線性(飽和線性)活化函數(shù)、Sigmoid活化函數(shù)、徑向基活化函數(shù)、雙曲正切活化函數(shù)、閾值或階躍活化函數(shù)以及Gaussian活化函數(shù)等。
(2)基于AutoEncoder的BP算法優(yōu)化。自動(dòng)編碼器(AutoEncoder)是依照人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)具有特定層系結(jié)構(gòu)這一特點(diǎn),設(shè)定其輸出與輸入是一致的,然后用不帶標(biāo)簽數(shù)據(jù)訓(xùn)練從而整合網(wǎng)絡(luò)參數(shù)的方法。自動(dòng)編碼器的一個(gè)重要應(yīng)用是為輸入的影響因素得到低維的隱向量編碼,因此本文中采用自動(dòng)編碼器對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行后續(xù)的優(yōu)化工作??紤]到變分自動(dòng)編碼器(variational auto-encoder,VAE)通常被用來(lái)完成圖像生成任務(wù),而降噪自動(dòng)編碼器(denoising auto-encoder,DAE)的目的是利用編碼器的輸入元素得到一個(gè)容差模型,并且相較于變分自編碼器,模型結(jié)構(gòu)的相對(duì)不復(fù)雜是降噪自編碼器的優(yōu)勢(shì),獲得影響因素特征向量的時(shí)間較短。因此本文中選用降噪自動(dòng)編碼器來(lái)進(jìn)行基本BP網(wǎng)絡(luò)算法優(yōu)化。
基于DAE優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)模型的具體結(jié)構(gòu)如圖2所示。
圖2 DAE-BP模型結(jié)構(gòu)Fig.2 DAE-BP model structure
2.1.3 DAE模型訓(xùn)練
(2)
式(2)中:NN為經(jīng)DAE結(jié)構(gòu)轉(zhuǎn)換的特征向量的映射。
延誤影響因素的降噪自動(dòng)編碼器模型結(jié)構(gòu)如圖3所示。
圖3 自動(dòng)編碼器模型結(jié)構(gòu)Fig.3 Automatic encoder model structure
(3)
f(x)=max(0,x)
(4)
(5)
式(5)中:z表示編碼器的輸入;W2表示編碼器的權(quán)重矩陣;b2表示偏移值。
損失函數(shù)為
(6)
在式(6)中添加正則化以規(guī)避模型中可能產(chǎn)生過(guò)度擬合的情況,完成更新之后的損失函數(shù)為
(7)
式(7)中:k為輸入數(shù)據(jù)時(shí)就已存在交叉的標(biāo)志選擇;W為該網(wǎng)絡(luò)整體的權(quán)重矩陣;λ為正則參數(shù)則選取。DAE模型當(dāng)中最優(yōu)參數(shù)值的選取依靠的是選用梯度下降算法。
2.1.4 特征向量生成
當(dāng)完成上述DAE模型的訓(xùn)練之后,對(duì)模型的結(jié)構(gòu)再進(jìn)行更改,更改后新的模型結(jié)構(gòu)如圖4所示。
圖4 特征向量生成過(guò)程Fig.4 Feature vector generation process
將上述完成訓(xùn)練后的DAE模型解碼器部分除去,將延誤影響因素的向量作為DAE編碼器的輸入,通過(guò)編碼器編碼過(guò)程,即可獲取全新的延誤影響因素的隱藏層特征向量。把該延誤影響因素的特征向量作為輸入,進(jìn)行BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練環(huán)節(jié)。經(jīng)過(guò)上述網(wǎng)絡(luò)權(quán)重參數(shù)的初始化過(guò)程后,即能處理隨機(jī)初始化參數(shù)導(dǎo)致的原BP網(wǎng)絡(luò)局部極小情況的缺點(diǎn)。
2.2.1 支持向量機(jī)原理
支持向量機(jī)(support vector machine, SVM)是一種基于統(tǒng)計(jì)訓(xùn)練學(xué)習(xí)理論和凸優(yōu)化的機(jī)器學(xué)習(xí)方法,能完美地解決非線性以及局部極小點(diǎn)等情況。SVM中心思想是組建一個(gè)用以分類的決策超平面曲面,其中涉及的最優(yōu)分類函數(shù)為
(8)
式(8)中:i=1,2,…,n,n為L(zhǎng)agrange乘子,Lagrange的完整表示式為
(9)
(10)
式(10)中:xr和xs表示上述兩個(gè)類別中隨機(jī)一對(duì)支持向量。
非線性SVM經(jīng)過(guò)非線性轉(zhuǎn)換方法,用一個(gè)位于高維空間的新的線性問(wèn)題去取代原本的非線性問(wèn)題,即用轉(zhuǎn)化后的新空間內(nèi)積[φ(xi)φ(yj)]替代原先的空間內(nèi)積(xiyj)。將核函數(shù)采用K(xixj)=[φ(xi)φ(xj)]標(biāo)記,其中求解最優(yōu)分類函數(shù)、Lagrange乘子為
(11)
(12)
采用的徑向基(RBF)核函數(shù)為
(13)
構(gòu)造離港航班延誤預(yù)測(cè)模型的SVM算法結(jié)構(gòu)如圖5所示。
圖5 SVM結(jié)構(gòu)圖Fig.5 SVM structure diagram
使用2019年浦東機(jī)場(chǎng)的歷史航班數(shù)據(jù)和METAR報(bào)文作為實(shí)際算例;將1.2節(jié)解讀出的20個(gè)影響因素作為模型的輸入變量,結(jié)合2.1節(jié)和2.2節(jié)所提到的兩種算法,分別構(gòu)建基于改進(jìn)BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型以及支持向量機(jī)預(yù)測(cè)模型;檢驗(yàn)基于優(yōu)化后的BP模型和基于SVM模型對(duì)離港航班延誤時(shí)間預(yù)測(cè)的效果,并進(jìn)行模型對(duì)比評(píng)價(jià)。
將1.2節(jié)得到20個(gè)影響因素作為輸入;以起飛延誤時(shí)間作為輸出;隱藏層1層,隱藏層節(jié)點(diǎn)數(shù)的選取可運(yùn)用經(jīng)驗(yàn)公式計(jì)算,即
(14)
式(14)中:j為隱藏層節(jié)點(diǎn)個(gè)數(shù);n1為輸入節(jié)點(diǎn)個(gè)數(shù),本文中n1=20,n2為輸出節(jié)點(diǎn)個(gè)數(shù),本文中n2=1,a取9,由此計(jì)算可得j=13。
在搭建神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)后,使用2.1.2節(jié)中提到的兩種優(yōu)化方法對(duì)基本BP網(wǎng)絡(luò)進(jìn)行設(shè)計(jì),使其擁有更好的性能。
首先探討不同的活化函數(shù)排列組合對(duì)網(wǎng)絡(luò)性能影響。通過(guò)采用6種常見(jiàn)的活化函數(shù)(logsig、tansig、satlin、tribas、radbas、purelin函數(shù))的兩兩組合來(lái)進(jìn)行設(shè)計(jì),一共有36中組合,其對(duì)BP網(wǎng)絡(luò)性能的影響如圖6所示。
從圖6可以看出,在不同的活化函數(shù)的組合下,除了16、28、35組均方誤差(MSE)明顯變大之外,其余組的(MSE)的變化情況不明顯。因此,在除去這三組之后,著重比較訓(xùn)練樣本相關(guān)度系數(shù)R和測(cè)試樣本R的大小??梢钥闯龅?組的訓(xùn)練樣本R=0.850 53最高,且測(cè)試樣本R=0.850 53也位居36組中的前列,因此采用第2組的活化函數(shù)組合,即選用tansig作隱藏層活化函數(shù),選用logsig作輸出層活化函數(shù)。
圖6 各活化函數(shù)組合下BP網(wǎng)絡(luò)的性能Fig.6 Performance of BP networks with each combination of activation functions
然后進(jìn)行輸入特征重構(gòu),將運(yùn)用降噪自編碼器,標(biāo)記DAE-BP為DAE優(yōu)化的BP網(wǎng)絡(luò)。其中DAE模型使用2層多層感知器(multilayer perceptron, MLP)網(wǎng)絡(luò)作為編碼器與解碼器的神經(jīng)網(wǎng)絡(luò)。MLP1層神經(jīng)元數(shù)量設(shè)定20,MLP2(DAE隱藏層)層節(jié)點(diǎn)數(shù)量設(shè)定15,解碼器的MLP1層神經(jīng)元數(shù)量同樣設(shè)定20。加噪層的加噪比例設(shè)定為0.25。模型批量大小設(shè)定5 000,迭代層數(shù)設(shè)定50次。BP網(wǎng)絡(luò)結(jié)構(gòu)為3層網(wǎng)絡(luò),網(wǎng)絡(luò)參數(shù)設(shè)定為:影響因素的特征向量作為輸入;以起飛延誤時(shí)間作為輸出;隱藏層1層,隱藏層節(jié)點(diǎn)數(shù)為13;選用tansig作為隱藏層活化函數(shù),選用logsig作為輸出層活化函數(shù),選用列文伯格-馬夸爾特算法(Levenberg-Marquardt, LM)。
從圖7和圖8中可以得出DAE-BP模型訓(xùn)練集R=0.974 38,測(cè)試集R=0.974 38,MSE=0.002 288 6,預(yù)測(cè)精密度有著明顯提高。
圖7 DAE-BP網(wǎng)絡(luò)對(duì)樣本的擬合程度Fig.7 Performance of BP networks with each combination of activation functions
圖8 DAE-BP網(wǎng)絡(luò)的訓(xùn)練誤差曲線Fig.8 Training error curve of DAE-BP network
使用MATLAB 2016軟件里的libsvm-matlab工具箱與有關(guān)自主編代碼來(lái)構(gòu)建支持向量機(jī)預(yù)測(cè)模型。將1.2節(jié)得到的20個(gè)影響因素作為輸入?yún)?shù);以起飛延誤時(shí)間作為輸出;核函數(shù)采用徑向基(radial basis function, RBF);選用libsvm工具箱進(jìn)行網(wǎng)絡(luò)的訓(xùn)練。隨機(jī)分類1.2.4節(jié)中預(yù)處理完成后的173 192條歷史航班數(shù)據(jù),其中80%的樣本歸入訓(xùn)練集,20%的樣本歸入測(cè)試集。
RBF核函數(shù)可以實(shí)行非線性映射,但參數(shù)中的目標(biāo)函數(shù)的懲戒因子c以及核函數(shù)參數(shù)值γ所選定的值的差異會(huì)改變最終判定情況的正確率。采取網(wǎng)格搜索法以及k折交叉驗(yàn)證(k-fold cross validation,k-CV)的方法尋找來(lái)取得理想的判別正確率,以此規(guī)避過(guò)度擬合和欠缺擬合情況的發(fā)生。
在進(jìn)行正式的訓(xùn)練前,隨機(jī)抽取了1 000、5 000、10 000個(gè)樣本數(shù)據(jù)進(jìn)行了算法測(cè)試,可以得出,在三次測(cè)試中不管是訓(xùn)練集還是測(cè)試集的預(yù)測(cè)結(jié)果,MSE均小于0.05,R2均在0.96以上,可以看出這三次測(cè)試樣本均能取得較好的預(yù)測(cè)結(jié)果。
然后將17萬(wàn)余條數(shù)據(jù)樣本全部放入SVM模型中進(jìn)行訓(xùn)練,訓(xùn)練耗時(shí)120多個(gè)小時(shí)仍然未能完成,為了提高模型的訓(xùn)練效率,將原先的17萬(wàn)余條數(shù)據(jù)樣本改為隨機(jī)抽取5萬(wàn)條數(shù)據(jù)樣本進(jìn)行模型的訓(xùn)練,耗時(shí)3.972 h完成訓(xùn)練,最終得到如圖9所示的結(jié)果。從圖9中可以看出,不管是訓(xùn)練樣本還是測(cè)試樣本MSE都為0.001 1、R2都為0.97,雖然較樣本數(shù)據(jù)10 000條時(shí)的性能略微有所下降,但整體仍處于十分理想的情況,可以說(shuō)該預(yù)測(cè)模型能取得特別成功的結(jié)果。
圖9 基于SVM的最終預(yù)測(cè)結(jié)果Fig.9 Final prediction results based on SVM
由3.2節(jié)可知,SVM預(yù)測(cè)模型無(wú)法處理17萬(wàn)余條數(shù)據(jù),所以將隨機(jī)抽取的5萬(wàn)條數(shù)據(jù)輸入優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,對(duì)輸出結(jié)果進(jìn)行性能的對(duì)比。
由表3可以看出兩種模型的預(yù)測(cè)性能都不相上下,能取得比較理想的預(yù)測(cè)效果。但是SVM預(yù)測(cè)模型無(wú)法預(yù)測(cè)體量太大的數(shù)據(jù),并且在相同體量的數(shù)據(jù)下,優(yōu)化后的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型性能略好于SVM預(yù)測(cè)模型,并且在預(yù)測(cè)時(shí)間上有絕對(duì)的優(yōu)勢(shì)。結(jié)
表3 BP神經(jīng)網(wǎng)絡(luò)和SVM預(yù)測(cè)性能對(duì)比Table 3 Comparison of BP neural network and SVM prediction performance
合民航數(shù)據(jù)體量大的特點(diǎn)和預(yù)測(cè)的時(shí)效性要求,基于優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的離港航班延誤預(yù)測(cè)模型既能滿足預(yù)測(cè)精密度的要求,又能有更高效的訓(xùn)練效率,具有更好的準(zhǔn)確性和高效性。
為研究離港航班延誤時(shí)間預(yù)測(cè)的方法,首先對(duì)METAR報(bào)文進(jìn)行了語(yǔ)義轉(zhuǎn)換,并將其與歷史航班數(shù)據(jù)相融合得到初始數(shù)據(jù);然后構(gòu)建了基于BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的延誤時(shí)間預(yù)測(cè)模型,并對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行了優(yōu)化,得到精度更高的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型;最后對(duì)兩種模型的運(yùn)行性能和預(yù)測(cè)精度進(jìn)行了對(duì)比和評(píng)價(jià),經(jīng)分析得出:基于優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的離港航班延誤時(shí)間預(yù)測(cè)模型具有更高的精度和更高的運(yùn)行效率,是一種高效的延誤預(yù)測(cè)方法。
本文研究的內(nèi)容還存在一定欠缺:樣本數(shù)據(jù)采集不夠充分;影響因素考慮不夠全面;模型未考慮延誤的傳遞。后續(xù)的研究可以考慮延誤傳遞的因素,在模型中加入前序航班延誤情況和過(guò)站時(shí)間,使模型更加完善。