何 洋,朱金福,周秦炎
(南京航空航天大學(xué)民航學(xué)院,南京 211106)
近年來,由于空中交通需求與交通容量的矛盾愈發(fā)突出,航班延誤頻現(xiàn)。及時(shí)準(zhǔn)確預(yù)測(cè)空中交通擁擠狀態(tài),實(shí)施有效的流量管理策略,有利于減緩擁擠程度,提高空中交通的安全性與通暢性[1]。目前民航信息管理系統(tǒng)中已有大量歷史數(shù)據(jù),通過對(duì)數(shù)據(jù)的學(xué)習(xí)得到預(yù)測(cè)模型,即可預(yù)測(cè)某機(jī)場(chǎng)當(dāng)天航班起降可能的延誤情況,幫助機(jī)場(chǎng)及時(shí)發(fā)布延誤預(yù)警信息并調(diào)整運(yùn)行調(diào)度策略,以降低由于航班延誤導(dǎo)致的各種負(fù)面影響[2]。
目前國(guó)內(nèi)外已有相關(guān)學(xué)者對(duì)航班延誤的預(yù)測(cè)方法進(jìn)行了研究。針對(duì)航班延誤傳播問題,文獻(xiàn)[3]利用貝葉斯網(wǎng)絡(luò)分析航班延誤在銜接時(shí)的傳播過程,可用于預(yù)測(cè)下游機(jī)場(chǎng)延誤情況。文獻(xiàn)[4]發(fā)現(xiàn)到港延誤時(shí)間序列存在混沌特性,對(duì)其進(jìn)行相空間重構(gòu),結(jié)合算例證明差分進(jìn)化算法能夠有效預(yù)測(cè)航班延誤。針對(duì)在某一特定機(jī)場(chǎng)起降的航班延誤問題,文獻(xiàn)[2,5]主要考慮機(jī)場(chǎng)的進(jìn)港航班延誤預(yù)測(cè),分別利用決策樹方法與融合先驗(yàn)知識(shí)的支持向量機(jī)回歸方法建立預(yù)測(cè)模型。文獻(xiàn)[6]將問題由確定性推廣到不確定性,將多時(shí)段進(jìn)離港需求概率分布模型與進(jìn)離港容量曲線相匹配,建立了機(jī)場(chǎng)擁擠風(fēng)險(xiǎn)預(yù)測(cè)模型,其擁塞預(yù)測(cè)的準(zhǔn)確率較確定型有所提升。文獻(xiàn)[7]將基于樸素貝葉斯的特征選擇方法與氣象和飛行性能數(shù)據(jù)相結(jié)合,為乘客提供航班延誤預(yù)測(cè)。文獻(xiàn)[8]以有向無環(huán)圖的形式表示航班計(jì)劃,基于最短路徑算法對(duì)延誤時(shí)間進(jìn)行推理分析,但并未考慮延誤狀態(tài)。
綜上所述,目前有關(guān)航班延誤的研究主要分為兩類:一類是針對(duì)航班延誤及其傳播問題,利用銜接機(jī)場(chǎng)間的航班數(shù)據(jù)對(duì)單架飛機(jī)建立延誤模型;二是從需求角度入手,根據(jù)機(jī)場(chǎng)容量曲線來評(píng)估機(jī)場(chǎng)擁塞程度,而影響機(jī)場(chǎng)容量的因素較多且不易計(jì)算,給延誤預(yù)測(cè)帶來困難。因此,本文旨在通過統(tǒng)計(jì)理論和機(jī)器學(xué)習(xí)的方法,以有效預(yù)測(cè)機(jī)場(chǎng)進(jìn)離港航班延誤程度為目標(biāo),通過對(duì)機(jī)場(chǎng)運(yùn)行歷史數(shù)據(jù)的學(xué)習(xí),研究導(dǎo)致航班延誤的特征因素,建立基于支持向量機(jī)(SVM,support vector machine)的機(jī)場(chǎng)單位小時(shí)延誤航班數(shù)與延誤時(shí)長(zhǎng)預(yù)測(cè)模型,并通過其他預(yù)測(cè)模型擬合效果的對(duì)比,證明了支持向量機(jī)回歸方法用于解決延誤預(yù)測(cè)問題的準(zhǔn)確性較高。上述預(yù)測(cè)結(jié)果可以幫助機(jī)場(chǎng)對(duì)下一時(shí)段的航班起降延誤情況做出預(yù)測(cè),及時(shí)發(fā)布延誤預(yù)警信息并調(diào)整機(jī)場(chǎng)運(yùn)行調(diào)度策略,減少航班延誤帶來的負(fù)面影響。
由于引起航班延誤的影響因素較多,故如何提取對(duì)延誤產(chǎn)生較大影響的一些特征因素,組成模型的輸入量,是建立延誤預(yù)測(cè)模型的首要問題。一般來說,篩選預(yù)測(cè)變量子集的算法包括最優(yōu)子集選擇算法和逐步模型選擇算法[9]。假設(shè)與延誤預(yù)測(cè)模型可能相關(guān)的預(yù)測(cè)變量有p個(gè),最優(yōu)子集選擇的搜索空間由2p個(gè)可能模型構(gòu)成,向后逐步選擇則以包含全部p個(gè)變量的全模型為起點(diǎn),逐次迭代,每次移除一個(gè)對(duì)延誤預(yù)測(cè)模型擬合結(jié)果最不利的變量。向后逐步選擇算法如下:
1)記包含全部p個(gè)延誤預(yù)測(cè)變量的全模型為¥p。
2)對(duì)于 k=p,p-1,…,1:
在k個(gè)模型中進(jìn)行選擇,并在此基礎(chǔ)上減少一個(gè)變量,則模型只含有k-1個(gè)變量;
在k個(gè)模型中選擇RSS最小或R2最大的為延誤預(yù)測(cè)最優(yōu)模型,記為¥k-1。
3)根據(jù)交叉驗(yàn)證預(yù)測(cè)誤差A(yù)IC或者調(diào)整R2,從¥0,…,¥p個(gè)模型中選出一個(gè)最優(yōu)模型。
因此,向后逐步選擇只需對(duì)全模型及第m次迭代包含的p-m個(gè)模型進(jìn)行擬合,擬合次數(shù)為減少了計(jì)算時(shí)間。
在進(jìn)行多元回歸時(shí),通過計(jì)算t統(tǒng)計(jì)量來測(cè)量第j個(gè)預(yù)測(cè)變量的系數(shù)估計(jì)值偏離0的標(biāo)準(zhǔn)誤差,通過計(jì)算p-value來反映預(yù)測(cè)變量與響應(yīng)變量之間的相關(guān)強(qiáng)度。在本文中,采取計(jì)算預(yù)測(cè)變量的p-value是否小于5%作為判斷預(yù)測(cè)變量是否顯著的標(biāo)準(zhǔn)。此外,當(dāng)使用最小二乘線性回歸(OLS,ordinary least squares)模型對(duì)數(shù)據(jù)集進(jìn)行擬合時(shí),也需要識(shí)別出常見的非線性的響應(yīng)-預(yù)測(cè)關(guān)系、共線性等問題。但如果真實(shí)關(guān)系是非線性的,預(yù)測(cè)精度會(huì)顯著降低。殘差是指實(shí)際觀察值與擬合值之間的差,利用殘差所提供的信息來考察模型假設(shè)的合理性及數(shù)據(jù)可靠性稱為殘差分析。繪制殘差與第i次預(yù)測(cè)值的散點(diǎn)圖可用于識(shí)別非線性關(guān)系。理想情況下,殘差圖顯示不出明顯的規(guī)律。
共線性是指兩個(gè)或多個(gè)預(yù)測(cè)變量高度相關(guān),存在共線性將難以分離出單個(gè)變量對(duì)響應(yīng)值的影響。方差膨脹因子(VIF,variance inflation factor)可用來評(píng)估多重共線性。VIF是擬合全模型時(shí)的系數(shù)和單變量回歸中的方差比值。若VIF的值為1,表示完全不存在共線性;超過5或10則表示有共線性,其計(jì)算方法為
給定某機(jī)場(chǎng)航班起降樣本T={(x1,y1),(x2,y2),…,(xm,ym)},m 為樣本容量,xi是輸入向量,即各小時(shí)計(jì)劃進(jìn)離港航班數(shù)和實(shí)際起降數(shù)等信息,行代表一條觀測(cè)記錄,列代表對(duì)應(yīng)的具體指標(biāo)信息。yi為相應(yīng)目標(biāo)輸出數(shù)據(jù),即單位小時(shí)延誤航班數(shù)和延誤總時(shí)間。若這些樣本點(diǎn)呈線性關(guān)系,則估計(jì)函數(shù)f為
然而,航班起降數(shù)據(jù)樣本多呈非線性關(guān)系,采用支持向量機(jī)的基本思想是通過一個(gè)非線性映射φ將數(shù)據(jù)xi映射到高維特征空間,并在此空間進(jìn)行線性回歸,于是,SVM問題形式可化為
SVM的參數(shù)選取主要涉及到核函數(shù)及其對(duì)應(yīng)系數(shù)的選取。核函數(shù)的選取對(duì)預(yù)測(cè)的精確度影響很大,常用的核函數(shù)有[10]:
1)多項(xiàng)式核函數(shù)(poly)
2)徑向核函數(shù)(racial basic function)
RBF核函數(shù)又稱徑向核函數(shù)或高斯核函數(shù)。SVM算法的每個(gè)徑向基函數(shù)的中心對(duì)應(yīng)一個(gè)支持向量,其結(jié)構(gòu)由算法自動(dòng)確定,即
若選取徑向核函數(shù),則還需確定3個(gè)相關(guān)參數(shù):核函數(shù)參數(shù)σ、不敏感參數(shù)ε和懲罰系數(shù)C。在基于SVM的航班延誤預(yù)測(cè)模型中,核參數(shù)σ用于控制最終解的復(fù)雜性;不敏感參數(shù)ε(松弛變量),其作用是允許訓(xùn)練觀測(cè)中有部分?jǐn)M合誤差;懲罰系數(shù)C是所有ε之和的上界,用于調(diào)節(jié)SVM對(duì)經(jīng)驗(yàn)誤差的懲罰,以改善預(yù)測(cè)模型的推廣性。
通過Grid-Search法和交叉檢驗(yàn)法[11-13]確定參數(shù)和C取值,即首先在和C的取值區(qū)間內(nèi)劃分若干網(wǎng)格并遍歷取值,而后采用10折交叉驗(yàn)證法,在對(duì)其所有取值中對(duì)應(yīng)的均方誤差平均值最小的一組即為最優(yōu)參數(shù)對(duì)。
根據(jù)定義,美國(guó)聯(lián)邦航空局(FAA)將晚于計(jì)劃時(shí)間15 min以上的進(jìn)離港航班定義為延誤航班。本文研究?jī)?nèi)容之一即根據(jù)某機(jī)場(chǎng)歷史起降數(shù)據(jù),挖掘出與該機(jī)場(chǎng)延誤情況最為相關(guān)的若干因素。
由于引起航班延誤的因素較多,根據(jù)經(jīng)驗(yàn)來選擇無法體現(xiàn)出各影響因素的重要程度,而將所有相關(guān)因素都作為輸入?yún)?shù),雖然提高了預(yù)測(cè)精度,但增加了SVM的訓(xùn)練時(shí)間且降低了泛化性能。因此,如何選擇輸入變量是建模的關(guān)鍵。
根據(jù)FAA中航空系統(tǒng)性能指標(biāo)數(shù)據(jù)庫(ASPM,aviation system performance metrics)中的機(jī)場(chǎng)分析模塊(airport analysis),其中與機(jī)場(chǎng)航班起降有關(guān)的數(shù)據(jù)字段主要有以小時(shí)為單位的機(jī)場(chǎng)進(jìn)離港架數(shù)、進(jìn)離港延誤架數(shù)、平均延誤時(shí)間等,數(shù)據(jù)形式及含義如表1所示。為體現(xiàn)上一時(shí)刻起降及天氣情況對(duì)當(dāng)前時(shí)刻航班起降的影響,對(duì)已有數(shù)據(jù)形式進(jìn)行補(bǔ)充和修改,具體形式及含義如表2所示。
表1 ASPM機(jī)場(chǎng)分析模塊數(shù)據(jù)形式Tab.1 Data format of airport analysis module in ASPM
表2 補(bǔ)充數(shù)據(jù)形式Tab.2 Supplementary data format
考慮到機(jī)場(chǎng)存在宵禁,0~5點(diǎn)機(jī)場(chǎng)內(nèi)起降航班較少,因此選取6~24點(diǎn)內(nèi)的起降數(shù)據(jù)作為樣本。其中,單位小時(shí)離/進(jìn)港總延誤時(shí)間是指1 h內(nèi)所有離/進(jìn)港延誤航班的延誤時(shí)間總和。通過對(duì)影響機(jī)場(chǎng)單位小時(shí)延誤航班數(shù)的潛在因素進(jìn)行回歸分析,將該機(jī)場(chǎng)的D(t-1)+A(t-1)、V(t)作為其影響因素,利用向后逐步選擇算法判斷上述變量與本時(shí)段延誤情況的相關(guān)性。本時(shí)段延誤情況主要考察和項(xiàng)。
首先將某機(jī)場(chǎng)一定時(shí)期內(nèi)的所有航班實(shí)際起降數(shù)據(jù)作為原始數(shù)據(jù),映射為輸入樣本向量,然后對(duì)輸入樣本向量進(jìn)行數(shù)據(jù)預(yù)處理,以單位小時(shí)航班延誤數(shù)和延誤時(shí)間為響應(yīng)變量,通過訓(xùn)練SVM模型尋找最佳參數(shù),并以O(shè)LS模型作為對(duì)比,最后輸入預(yù)測(cè)樣本對(duì)航班延誤進(jìn)行預(yù)測(cè),對(duì)比真實(shí)值分析預(yù)測(cè)效果,如圖1所示。
圖1 航班延誤情況的回歸預(yù)測(cè)流程Fig.1 Flowchart of regression prediction of flight delays
其中,數(shù)據(jù)集需進(jìn)行預(yù)處理,具體實(shí)驗(yàn)設(shè)計(jì)如下:
1)學(xué)習(xí)樣本集歸一化。歸一化公式為
其中:X、Y分別為歸一化前后的值;Xmin和Xmax分別是樣本的最小值和最大值。
對(duì)表2、表3中數(shù)據(jù)分別按式(6)進(jìn)行歸一化處理[14],以避免計(jì)算特征向量時(shí)內(nèi)積過大引起數(shù)值災(zāi)難,歸一化后得到的學(xué)習(xí)樣本集為
表3 具有顯著性的預(yù)測(cè)變量Tab.3 Predicting variables with significance
2)SVM類型及核函數(shù)的選取。經(jīng)過對(duì)訓(xùn)練性能的比較,采用RBF核函數(shù)作為ε-SVR回歸機(jī)的核函數(shù)。
本文選取均方根誤差RMSE、平方相關(guān)系數(shù)R2和最小信息準(zhǔn)則AIC作為回歸模型對(duì)樣本數(shù)據(jù)擬合效果的檢驗(yàn)指標(biāo),其表達(dá)式如下
RMSE值既能反映預(yù)測(cè)曲線的誤差大小,又能定量地描述誤差分布的集中度與離散度,其值越小,表示測(cè)量精度越高,其中i是響應(yīng)變量的估計(jì)值。RMSE%表示均方誤差占響應(yīng)變量均值百分比。R2是響應(yīng)值和模型擬合值的相關(guān)系數(shù)的平方,若R2接近于1,則表明該模型能解釋響應(yīng)變量的大部分方差,其中i是響應(yīng)變量均值。AIC建立在熵的概念基礎(chǔ)上,可以衡量所估計(jì)模型的復(fù)雜度和此模型擬合數(shù)據(jù)的優(yōu)良性,AIC值越小,模型擬合效果越好,其中:L是響應(yīng)值的極大似然函數(shù)估計(jì);k是模型中獨(dú)立參數(shù)的個(gè)數(shù)。
平均絕對(duì)誤差(MAE)是所有單個(gè)觀測(cè)值與算術(shù)平均值偏差的絕對(duì)值的平均,由于離差被絕對(duì)值化,不會(huì)出現(xiàn)正負(fù)相抵的情況,能更好地反映預(yù)測(cè)值誤差的實(shí)際情況,其定義表示如下
本文采用的美國(guó)洛杉磯國(guó)際機(jī)場(chǎng)(IATA:LAX)航班起降數(shù)據(jù)來自于上述FAA機(jī)場(chǎng)分析模塊,并從中提取出LAX機(jī)場(chǎng)2015年上半年航班起降數(shù)據(jù),選取1~2月的數(shù)據(jù)作為訓(xùn)練集,3~4月作為測(cè)試集。本文實(shí)驗(yàn)平臺(tái)為R Studio,處理器為Intel Core i7-6600U@2.60 GHz,內(nèi)存為 8 GB。
從對(duì)D(dt)的擬合結(jié)果(如圖2所示)中可以發(fā)現(xiàn),D(st)、A(st)、D(dt-1)、A(dt-1)、D(t-1)+A(t-1)這5項(xiàng)的顯著性較強(qiáng),且排除掉兩個(gè)預(yù)測(cè)變量。同理,對(duì)以及 TA(dt)進(jìn)行回歸分析,擬合過程如圖2~圖5所示,擬合結(jié)果如表3所示。
圖2 離港延誤航班數(shù)擬合情況Fig.2 Fitting of departure delay flight number
圖3 進(jìn)港延誤航班數(shù)擬合情況Fig.3 Fitting of arrival delay flight number
圖4 離港總延誤時(shí)間擬合情況Fig.4 Total duration fitting of departure delay
圖5 進(jìn)港總延誤時(shí)間擬合情況Fig.5 Total duration fitting of arrival delay
通過分別繪制上述若干預(yù)測(cè)變量的殘差圖,可以判斷出兩個(gè)殘差圖不具有明顯的規(guī)律,如圖6和圖7所示,線性模型可作為預(yù)測(cè)航班延誤情況的一種方法,但擬合準(zhǔn)確度還需進(jìn)一步討論。通過計(jì)算其方差膨脹因子,如表4所示,上述預(yù)測(cè)變量的VIF值均小于5,不存在共線性。
圖6 進(jìn)離港航班延誤數(shù)殘差圖Fig.6 Residual plot of delay number
圖7 進(jìn)離港航班延誤時(shí)間殘差圖Fig.7 Residual plot of arrival and departure delay duration
表4 預(yù)測(cè)變量的方差膨脹因子Tab.4 Variance inflation factor of predictive variable
對(duì)于測(cè)試集樣本,針對(duì)上述影響進(jìn)離港航班延誤數(shù)和延誤時(shí)間的若干預(yù)測(cè)變量,對(duì)LAX機(jī)場(chǎng)的Dd(t)、Ad(t)擬合效果如表5、表7所示的擬合效果如表6、表8所示。
表5 離港延誤航班數(shù)擬合誤差指標(biāo)Tab.5 Fitting error indices of departure delay number
表6 離港航班延誤總時(shí)間擬合誤差指標(biāo)Tab.6 Fitting error indices of departure delay total time duration
表7 進(jìn)港延誤航班數(shù)擬合誤差指標(biāo)Tab.7 Fitting error indices of arrival delay number
從表5~表8中可以看出,本文所述的SVM回歸模型對(duì)Dd(t)、Ad(t)預(yù)測(cè)的誤差大多可以控制在1架次,誤差比例控制在15%以內(nèi)預(yù)測(cè)誤差控制在1 h,誤差比例控制在15%以內(nèi),且較OLS模型的預(yù)測(cè)更為準(zhǔn)確和平滑。上述預(yù)測(cè)結(jié)果體現(xiàn)了基于SVM延誤模型的預(yù)測(cè)模型具有一定準(zhǔn)確性,可以幫助機(jī)場(chǎng)對(duì)當(dāng)天下一時(shí)段的起降延誤情況做出預(yù)測(cè),及時(shí)調(diào)整機(jī)場(chǎng)運(yùn)行調(diào)度策略,減少航班延誤帶來的影響。
表8 進(jìn)港航班延誤總時(shí)間擬合誤差指標(biāo)Tab.8 Fitting error index of arrival delay total duration
為方便體現(xiàn)不同時(shí)段延誤數(shù)的變化,將測(cè)試集的預(yù)測(cè)結(jié)果按一天中06:00-23:00點(diǎn)進(jìn)行分類,并對(duì)比了不同預(yù)測(cè)模型下的擬合效果,Dd(t)與Ad(t)預(yù)測(cè)結(jié)果如圖8和圖10所示如圖9和圖11所示。
圖8 LAX機(jī)場(chǎng)離港延誤航班數(shù)Fig.8 Number of departure delay in LAX
圖9 LAX機(jī)場(chǎng)離港延誤總時(shí)間Fig.9 Total duration of departure delay in LAX
圖 8~圖 11 中,在 06:00~07:00 的始發(fā)時(shí)刻,由于上一時(shí)刻起降數(shù)據(jù)缺失,對(duì)擬合的準(zhǔn)確性產(chǎn)生較大影響,延誤數(shù)量和總時(shí)間的擬合效果均一般。在機(jī)場(chǎng)運(yùn)營(yíng)高峰時(shí)刻,SVM的擬合效果較好,能夠?qū)⒄`差控制在2架次以內(nèi),延誤時(shí)間誤差控制在30 min以內(nèi),能夠?yàn)闄C(jī)場(chǎng)運(yùn)行控制方面提供參考。對(duì)比訓(xùn)練集和測(cè)試集的數(shù)據(jù),SVM的擬合效果均優(yōu)于OLS,且沒有出現(xiàn)過擬合或欠學(xué)習(xí)的現(xiàn)象。
圖10 LAX機(jī)場(chǎng)進(jìn)港延誤航班數(shù)Fig.10 Number of arrival delay in LAX
圖11 LAX機(jī)場(chǎng)進(jìn)港延誤總時(shí)間Fig.11 Total duration of arrival delay in LAX
此外,分析預(yù)測(cè)結(jié)果與實(shí)際故障數(shù)誤差產(chǎn)生的原因主要有:部分時(shí)刻起降數(shù)據(jù)的缺失導(dǎo)致誤差;極端惡劣天氣情況下的數(shù)據(jù)沒有單獨(dú)處理;沒有將航班取消情況考慮進(jìn)去。
本文采用的上海浦東國(guó)際機(jī)場(chǎng)(IATA:PVG)航班起降數(shù)據(jù)來自于浦東機(jī)場(chǎng)CDM系統(tǒng),提取出2016年下半年起降數(shù)據(jù),其中11月為預(yù)測(cè)集,12月為測(cè)試集。通過對(duì)PVG機(jī)場(chǎng)的多變量特征選擇,預(yù)測(cè)變量的選擇結(jié)果與LAX機(jī)場(chǎng)基本相同,且排除了非線性和共線性情況。本節(jié)主要討論上節(jié)預(yù)測(cè)模型對(duì)PVG機(jī)場(chǎng)是否適用。
LAX與PVG均屬于大型樞紐國(guó)際機(jī)場(chǎng),2016年旅客吞吐量分別為8 092萬與6 598萬人次。跑道構(gòu)型方面,LAX與PVG目前均采用4條平行跑道構(gòu)形方式中2組跑道窄距運(yùn)行的方式。跑道容量方面,根據(jù)FAA與民航局公布的資料,2015年LAX機(jī)場(chǎng)跑道系統(tǒng)容量在目視條件下為167~176架次/h,儀表?xiàng)l件下為133~143架次/h;PVG機(jī)場(chǎng)在目視條件下為92~102架次/h,儀表?xiàng)l件下為80~88架次/h?;谏鲜黾夹g(shù)指標(biāo)與統(tǒng)計(jì)數(shù)據(jù),認(rèn)為L(zhǎng)AX機(jī)場(chǎng)的總起降航班量略大于PVG,且運(yùn)行模式上具有相似性。
根據(jù)3.1節(jié)訓(xùn)練所得的LAX機(jī)場(chǎng)單位小時(shí)進(jìn)離港延誤航班數(shù)和總延誤時(shí)間的OLS與SVM回歸預(yù)測(cè)模型,分別在PVG機(jī)場(chǎng)測(cè)試集數(shù)據(jù)對(duì)進(jìn)離港延誤航班數(shù)和總延誤時(shí)間進(jìn)行擬合。另外,針對(duì)上述若干預(yù)測(cè)變量,在PVG機(jī)場(chǎng)訓(xùn)練集樣本上進(jìn)行訓(xùn)練,獲得SVM回歸模型最優(yōu)參數(shù)對(duì)以及OLS模型的影響系數(shù),并在PVG機(jī)場(chǎng)對(duì)測(cè)試集數(shù)據(jù)進(jìn)行擬合。為了比較LAX延誤預(yù)測(cè)模型和PVG延誤預(yù)測(cè)模型在PVG測(cè)試集上的擬合效果,對(duì)不同時(shí)段平均絕對(duì)誤差(MAE)的繪制如圖12~圖15所示。
圖12 LAX與PVG離港延誤航班數(shù)擬合誤差Fig.12 Number of departure delay in LAX/PVG
圖13 LAX與PVG離港延誤總時(shí)間擬合誤差Fig.13 Total departure delay duration of LAX/PVG
圖15 LAX與PVG進(jìn)港延誤總時(shí)間擬合誤差Fig.15 Total arrival delay duration of LAX/PVG
對(duì)于離港延誤航班數(shù)和延誤時(shí)間的擬合,LAX機(jī)場(chǎng)的SVM與OLS模型應(yīng)用于PVG機(jī)場(chǎng)均產(chǎn)生較大誤差。對(duì)于進(jìn)港延誤情況,LAX模型擬合情況較好,尤其在A(dt)的擬合方面。用SVM訓(xùn)練出的PVG預(yù)測(cè)模型在預(yù)測(cè)PVG機(jī)場(chǎng)的方面效果最佳??傮w而言,預(yù)測(cè)進(jìn)港延誤情況較預(yù)測(cè)離港延誤精度更高;在對(duì)預(yù)測(cè)準(zhǔn)確度要求不高時(shí),A(dt)和的 OLS預(yù)測(cè)模型可用于同類型機(jī)場(chǎng);SVM方法更適用于基于某特定機(jī)場(chǎng)歷史起降數(shù)據(jù)的進(jìn)離港航班延誤預(yù)測(cè)問題,且擬合準(zhǔn)確度優(yōu)于OLS模型。
本文針對(duì)機(jī)場(chǎng)延誤情況難以預(yù)測(cè)以及歷史數(shù)據(jù)沒有有效利用這一現(xiàn)象,提出了利用回歸分析方法對(duì)下一時(shí)刻機(jī)場(chǎng)進(jìn)離港延誤航班數(shù)和延誤總時(shí)間的預(yù)測(cè)問題進(jìn)行研究,并利用歷史航班起降數(shù)據(jù)挖掘出與延誤顯著相關(guān)的因素。
依據(jù)本文所提出的方法,基于LAX機(jī)場(chǎng)歷史起降數(shù)據(jù)構(gòu)建了一個(gè)單位小時(shí)進(jìn)離港延誤航班數(shù)以及延誤時(shí)間的預(yù)測(cè)模型,與OLS擬合結(jié)果的對(duì)比表明,經(jīng)Grid-Search與交叉檢驗(yàn)法對(duì)參數(shù)尋優(yōu)后的SVM回歸模型用于解決非線性問題較多元線性回歸模型預(yù)測(cè)精度更高,從而驗(yàn)證了本文所提方法的有效性。此外,將LAX延誤預(yù)測(cè)模型用于同類型的PVG機(jī)場(chǎng),表明進(jìn)港延誤預(yù)測(cè)效果優(yōu)于離港延誤,且較OLS方法,SVM方法更適用于基于某特定機(jī)場(chǎng)歷史起降數(shù)據(jù)的進(jìn)離港航班延誤預(yù)測(cè)問題。該研究成果在一定程度上可為機(jī)場(chǎng)運(yùn)行控制人員監(jiān)控機(jī)場(chǎng)擁擠程度、預(yù)測(cè)未來時(shí)刻航班延誤情況等提供有益參考,以幫助機(jī)場(chǎng)及時(shí)發(fā)布延誤預(yù)警信息并減少延誤損失。未來的工作主要有:①可考慮多增加幾種預(yù)測(cè)方法,如采用組合預(yù)測(cè)法等,使得模型達(dá)到多樣性,從而改善預(yù)測(cè)效果;②針對(duì)機(jī)場(chǎng)起降數(shù)據(jù)以統(tǒng)計(jì)性數(shù)據(jù)為主,屬性不夠全面,可細(xì)化航空公司、國(guó)際國(guó)內(nèi)狀態(tài)、機(jī)型等信息,進(jìn)一步改進(jìn)模型從而提高準(zhǔn)確率。
[1]黃榮順,謝世娜,羅 曉,等.基于回歸分析的機(jī)場(chǎng)擁擠預(yù)測(cè)問題研究[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2015,45(2):89-96.
[2]程 華,李艷梅,羅 謙,等.基于C4.5決策樹方法的到港航班延誤預(yù)測(cè)問題研究[J].系統(tǒng)工程理論與實(shí)踐,2014,34(S1):239-247.
[3]李俊生,丁建立.基于貝葉斯網(wǎng)絡(luò)的航班延誤傳播分析[J].航空學(xué)報(bào),2008,29(6):1598-1604.
[4]羅赟騫,陳志杰,湯錦輝,等.采用支持向量機(jī)回歸的航班延誤預(yù)測(cè)研究[J].交通運(yùn)輸系統(tǒng)工程與信息,2015,15(1):143-149.
[5]劉小飛.基于數(shù)據(jù)挖掘的航班延誤預(yù)測(cè)模型及方法的研究[D].南京:南京航空航天大學(xué),2010.
[6]李善梅,徐肖豪,王 飛.基于需求不確定性的機(jī)場(chǎng)擁擠風(fēng)險(xiǎn)預(yù)測(cè)模型與方法[J].西南交通大學(xué)學(xué)報(bào),2013,48(1):154-159.
[7]HELLWIG M D.Predicting Irregular Flight Operations Using a Binary Machine Learning Approach Based on National Meteorological Data[D].Dissertations&Theses,2014.
[8]ABDELGHANY K F,SHAH S S,RAINA S,et al.A model for projecting flight delays during irregular operation conditions[J].Journal of Air Transport Management,2004,10(6):385-394.
[9]加雷斯·詹姆斯.統(tǒng)計(jì)學(xué)習(xí)導(dǎo)論[M].北京:機(jī)械工業(yè)出版社,2015.
[10]孫德山.支持向量機(jī)分類與回歸方法研究[D].長(zhǎng)沙:中南大學(xué),2004.
[11]XIAO T,REN D,LEI S,et al.Based on Grid-Search and PSO Parameter Optimization for Support Vector Machine[C]//Intelligent Control and Automation,IEEE,2014.
[12]王健峰,張 磊,陳國(guó)興,等.基于改進(jìn)的網(wǎng)格搜索法的SVM參數(shù)優(yōu)化[J].應(yīng)用科技,2012,39(3):28-31.
[13]徐永俊.基于混沌和SVR的短時(shí)交通流預(yù)測(cè)方法研究[D].成都:西南交通大學(xué),2011.
[14]黃舒寧.基于數(shù)據(jù)挖掘技術(shù)的短期電力負(fù)荷預(yù)測(cè)[D].福建:華僑大學(xué),2007.