劉銘基,田雅楠,張 亮,金 博
(1.東北財(cái)經(jīng)大學(xué) 國(guó)際商學(xué)院,遼寧 大連 116025;2.大連理工大學(xué) 創(chuàng)新創(chuàng)業(yè)學(xué)院,遼寧 大連 116024)
民航周轉(zhuǎn)量是衡量民用航空運(yùn)輸生產(chǎn)的主要經(jīng)濟(jì)指標(biāo),研究其準(zhǔn)確預(yù)測(cè)對(duì)國(guó)內(nèi)民用航空運(yùn)輸業(yè)的發(fā)展建設(shè)具有重要意義。通過(guò)對(duì)民航周轉(zhuǎn)量的預(yù)測(cè),有助于合理制定基礎(chǔ)設(shè)施建設(shè)規(guī)劃,完善其管理和運(yùn)行方式,使其很好地適應(yīng)日益增長(zhǎng)的航空運(yùn)輸需求,有效促進(jìn)民航貨運(yùn)的快速發(fā)展。2021年全國(guó)民航工作會(huì)議、全國(guó)民航安全工作會(huì)議介紹到在2020年,在新冠肺炎疫情對(duì)全球民航業(yè)造成巨大沖擊的情況下,由于中國(guó)疫情防控措施得力有效,中國(guó)民航在全球率先觸底反彈,成為全球恢復(fù)最快、運(yùn)行最好的航空市場(chǎng)。
數(shù)據(jù)顯示,2020年全年民航完成運(yùn)輸總周轉(zhuǎn)量、旅客運(yùn)輸量、貨郵運(yùn)輸量798.5億噸公里、4.2億人次、676.6萬(wàn)噸,相當(dāng)于2019年的61.7%、63.3%、89.8%。中國(guó)民航旅客運(yùn)輸量連續(xù)15年穩(wěn)居世界第二。中國(guó)民航業(yè)的快速發(fā)展使得有關(guān)民航指標(biāo)科學(xué)預(yù)測(cè)成為大勢(shì)所趨。
《中國(guó)民航發(fā)展階段評(píng)估報(bào)告》也指出,目前中國(guó)基本具備了單一航空運(yùn)輸強(qiáng)國(guó)特征,將開(kāi)啟多領(lǐng)域民航強(qiáng)國(guó)建設(shè)新征程,這意味著中國(guó)民航基本實(shí)現(xiàn)了從航空運(yùn)輸大國(guó)向單一航空運(yùn)輸強(qiáng)國(guó)的“轉(zhuǎn)段進(jìn)階”。面對(duì)這一成就,需要繼續(xù)強(qiáng)化中國(guó)民航運(yùn)輸航空領(lǐng)域基本特征成熟度,鞏固航空運(yùn)輸強(qiáng)國(guó)地位。然而,在交通運(yùn)輸尤其是航空運(yùn)輸?shù)念A(yù)測(cè)時(shí),預(yù)測(cè)模型需要克服這個(gè)行業(yè)特有的周期性強(qiáng)、受天氣和季節(jié)的影響大、易受突發(fā)事件的干擾等挑戰(zhàn)。是否在模型中巧妙地解決這些問(wèn)題也成為衡量預(yù)測(cè)模型的標(biāo)準(zhǔn)之一。
基于以上背景,對(duì)民航周轉(zhuǎn)量的預(yù)測(cè)方法的研究十分必要,提高預(yù)測(cè)精度成為首先要解決的問(wèn)題。在模型的選取上,截止至2021年2月18日,在知網(wǎng)上以“Prophet模型”為主題進(jìn)行檢索,去除無(wú)關(guān)內(nèi)容(網(wǎng)絡(luò)通信中的專業(yè)名詞Prophet),共有32篇。涉及領(lǐng)域廣泛,涵蓋經(jīng)濟(jì)學(xué)、醫(yī)學(xué)、工學(xué)、氣象學(xué)等領(lǐng)域。證明了Prophet模型具有普適性強(qiáng)的特點(diǎn),然而Prophet模型在國(guó)內(nèi)相關(guān)研究及運(yùn)用較少,在民航預(yù)測(cè)相關(guān)領(lǐng)域還處于一個(gè)接近空白的階段。NeuralProphet模型則是在2020年提出的,是由Prophet模型優(yōu)化改造的新模型。所以該文將以該模型為核心進(jìn)行探討,首先從單個(gè)模型間的比較入手,選出準(zhǔn)確性最高的模型,其次討論組合模型在民航周轉(zhuǎn)量預(yù)測(cè)上的準(zhǔn)確性,最后挑選出最適合的預(yù)測(cè)模型并提供不同權(quán)重下的預(yù)測(cè)效果。
在預(yù)測(cè)民航總周轉(zhuǎn)量時(shí)采用的單一模型主要分為傳統(tǒng)統(tǒng)計(jì)預(yù)測(cè)方法和基于機(jī)器學(xué)習(xí)的預(yù)測(cè)方法。蔡文婷等建立航空客運(yùn)量多元回歸模型,并通過(guò)歷史數(shù)據(jù)檢驗(yàn)以及與傳統(tǒng)模型比較檢驗(yàn), 發(fā)現(xiàn)多元回歸模型適合進(jìn)行民航客運(yùn)量的中短期預(yù)測(cè)。劉楊對(duì)線性模型的預(yù)測(cè)能力進(jìn)行了評(píng)估,并得出使用半?yún)?shù)部分線性回歸方法建立的民航客運(yùn)量的預(yù)測(cè)模型最佳的結(jié)論。李明捷等運(yùn)用灰色預(yù)測(cè)方法對(duì)未來(lái)的旅客周轉(zhuǎn)量進(jìn)行預(yù)測(cè),考慮到了系統(tǒng)性和動(dòng)態(tài)性的特點(diǎn)。齊子薇應(yīng)用時(shí)間序列分析方法,利用民航客運(yùn)量2016年6月—2018年4月的逐月數(shù)據(jù)進(jìn)行分析并建立預(yù)測(cè)模型,利用2018年5月客運(yùn)量對(duì)模型進(jìn)行檢驗(yàn)后發(fā)現(xiàn),自回歸移動(dòng)平均模型ARIMA(1,0,0)能較好地模擬中國(guó)民航客運(yùn)量的變化趨勢(shì),有良好的預(yù)測(cè)效果。陳聰聰?shù)然趪?guó)內(nèi)生產(chǎn)總值、外國(guó)人入境游客、定期航班航線里程、鐵路客運(yùn)量、第三產(chǎn)業(yè)增加值等影響民航客運(yùn)量的主要因素,利用超極限學(xué)習(xí)機(jī)的算法模型對(duì)民航客運(yùn)量進(jìn)行預(yù)測(cè),結(jié)果表明基于ELM預(yù)測(cè)模型具有較好的預(yù)測(cè)精度。Rafael等提出SARIMA阻尼趨勢(shì)灰色預(yù)測(cè)模型(SDTGM),SDTGM根據(jù)歷史數(shù)據(jù)計(jì)算季節(jié)性阻尼因子,與傳統(tǒng)的DTGM相比,不確定度更小。李偉等利用LSTM神經(jīng)元的記憶特性,從客運(yùn)歷史數(shù)據(jù)中查找和構(gòu)建特征空間,提取客運(yùn)量時(shí)間序列的非線性特征,通過(guò)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練學(xué)習(xí)和超參數(shù)優(yōu)化,使模型能夠?qū)γ窈娇瓦\(yùn)數(shù)據(jù)進(jìn)行高精度的擬合以及對(duì)未來(lái)運(yùn)輸高峰的精準(zhǔn)預(yù)測(cè)。張良勇等基于BP神經(jīng)網(wǎng)絡(luò)從經(jīng)濟(jì)、旅游、競(jìng)爭(zhēng)、機(jī)場(chǎng)運(yùn)營(yíng)能力四個(gè)方面構(gòu)建影響北京民航客運(yùn)量的指標(biāo)體系,通過(guò)相關(guān)分析最終將得到8個(gè)影響北京民航客運(yùn)量的因素作為BP神經(jīng)網(wǎng)絡(luò)的輸入節(jié)點(diǎn),發(fā)現(xiàn)當(dāng)BP神經(jīng)網(wǎng)絡(luò)的隱含層為11個(gè)時(shí)模型的性能最優(yōu)。Marc 等基于協(xié)整理論,構(gòu)建了可以直接預(yù)測(cè)德國(guó)機(jī)場(chǎng)的客運(yùn)量和航班量的模型,將其與經(jīng)典模型方法進(jìn)行對(duì)比后得出新模型更優(yōu)的結(jié)論,并用于評(píng)估2016-2018年英國(guó)脫歐對(duì)德國(guó)機(jī)場(chǎng)交通量的影響。Tobias等提出了兩種城市間航空客運(yùn)量估算的重力模型。模型包含描述總體經(jīng)濟(jì)活動(dòng)和城市對(duì)地理特征的變量,而不是描述航空服務(wù)特征的變量。因此,這兩種模型都適用于目前沒(méi)有航空服、歷史數(shù)據(jù)無(wú)法獲得,或描述當(dāng)前航空運(yùn)輸服務(wù)水平的因素?zé)o法獲得或無(wú)法準(zhǔn)確預(yù)測(cè)的城市對(duì)。Jieh-Haur Chen等利用k均值聚類和決策樹(shù)C5.0分類,研究空中交通量與宏觀經(jīng)濟(jì)發(fā)展之間的內(nèi)在關(guān)系,為預(yù)測(cè)模型確定影響因素提供新的思路。
不少學(xué)者也采用了組合模型的方式對(duì)不同問(wèn)題進(jìn)行了預(yù)測(cè)。葛娜等運(yùn)用了加權(quán)集合的方式調(diào)整Prophet和LSTM神經(jīng)網(wǎng)絡(luò)模型的權(quán)重,形成組合模型后對(duì)某企業(yè)銷售量進(jìn)行預(yù)測(cè),發(fā)現(xiàn)結(jié)果優(yōu)于單項(xiàng)預(yù)測(cè)模型。趙英等同樣利用Prophet和LSTM兩個(gè)模型對(duì)機(jī)房溫度進(jìn)行建模,不同的是他采用BP神經(jīng)網(wǎng)絡(luò)對(duì)兩種模型的預(yù)測(cè)結(jié)果進(jìn)行非線性組合來(lái)確定個(gè)模型權(quán)重,并得到了較好的預(yù)測(cè)結(jié)果。除了權(quán)重法和非線性組合法,María等利用1990-2013年數(shù)據(jù)將多種時(shí)間序列模型比較后得出,相比于其他時(shí)間序列預(yù)測(cè)模型,在預(yù)測(cè)美國(guó)航空客運(yùn)量時(shí)“ARIMA+GARCH+Bootstrap”表現(xiàn)最佳。常恬君等則采用以Prophet為基礎(chǔ)模型,利用隨機(jī)森林算法對(duì)模型進(jìn)行優(yōu)化的方式形成新的優(yōu)化模型。以上文獻(xiàn)為筆者創(chuàng)建組合模型提供了靈感和方向。
Prophet是一個(gè)基于STL分解思想的預(yù)測(cè)時(shí)間序列數(shù)據(jù)的機(jī)器學(xué)習(xí)框架,由Facebook公司在2017年進(jìn)行開(kāi)源。在這個(gè)模型中,非線性趨勢(shì)與年、周、日季節(jié)性,加上節(jié)假日效應(yīng)進(jìn)行擬合。它對(duì)具有強(qiáng)烈的季節(jié)性效應(yīng)和幾個(gè)季節(jié)的歷史數(shù)據(jù)的時(shí)間序列擬合效果較好。此外,Prophet對(duì)數(shù)據(jù)缺失和趨勢(shì)變化具有很強(qiáng)的穩(wěn)健性,通常能很好地處理異常值。Prophet工作流程如圖1所示。
圖1 Prophet模型運(yùn)行流程
Prophet使用了一個(gè)可分解的時(shí)間序列模型,該模型有三個(gè)主要的模型組成部分:趨勢(shì)、周期性和節(jié)假日,將它們結(jié)合可構(gòu)成這個(gè)模型。
y
(t
)=g
(t
)+s
(t
)+h
(t
)+ε
(1)
其中,y
(t
)為時(shí)間序列在時(shí)間t
的觀測(cè)值;g
(t
)為趨勢(shì)項(xiàng),模擬了時(shí)間序列值的非周期性變化;s
(t
)為周期項(xiàng),代表了周期性變化(例如,每周、每月和每年的季節(jié)性);h
(t
)為節(jié)假日項(xiàng),代表了在一天或多天的潛在不規(guī)則時(shí)間表上發(fā)生的假期影響;ε
為誤差項(xiàng),假定為正態(tài)分布的噪聲因子。g
(t
)的公式為:(2)
其中,C
為飽和值,或者說(shuō)是承載能力、容量;k
為增長(zhǎng)率;b
為偏移量;t
為時(shí)間,明顯地隨著t
的增長(zhǎng),1+e(-(-))趨近于1,于是1+e(-(-))趨近于C
。s
(t
)的公式為:(3)
其中,T
為周期;n
為周期數(shù)的一半。h
(t
)的公式為:(4)
Z
(t
)=[1(t
∈D
),…,1(t
∈D
)]h
(t
)=Z
(t
)k
k
~N
(0,σ
)其中,Z
(t
)為指示函數(shù);L
為節(jié)假日個(gè)數(shù);k
為節(jié)假日的影響范圍。使訓(xùn)練集和預(yù)測(cè)的相同節(jié)假日設(shè)置為一個(gè)虛擬變量,D
為第i
個(gè)虛擬變量;k
為窗口期中設(shè)定的節(jié)假日的影響。該文使用python的fbprophet包進(jìn)行Prophet模型的實(shí)現(xiàn)。
NeuralProphet用于基于神經(jīng)網(wǎng)絡(luò)對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行建模。它基于PyTorch運(yùn)行,并吸收Facebook Prophet和AR-Net的特點(diǎn)。
其組成部分有趨勢(shì)、季節(jié)性、自動(dòng)回歸、特殊事件、未來(lái)回歸項(xiàng)和滯后回歸項(xiàng)。其中,前幾部分與Prophet模型類似,趨勢(shì)通過(guò)使用變化點(diǎn)來(lái)建立線性或逐個(gè)線性趨勢(shì)的模型。季節(jié)性使用傅里葉項(xiàng)建模,因此可以處理高頻率數(shù)據(jù)的多種季節(jié)性。自動(dòng)回歸使用AR-Net的實(shí)現(xiàn)來(lái)處理,AR-Net是一個(gè)用于時(shí)間序列的自動(dòng)回歸前饋神經(jīng)網(wǎng)絡(luò)。未來(lái)回歸因子是指在預(yù)測(cè)期有已知未來(lái)值的外部變量。滯后回歸因子是指只有觀察期有值的外部變量,使用單獨(dú)的前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行建模。未來(lái)的回歸項(xiàng)和特殊事件都被建模為模型的協(xié)變量,并有專門(mén)的參數(shù)。
從名字不難看出,它和Prophet有密切聯(lián)系,相比較于Prophet,其優(yōu)勢(shì)有:
(1)使用PyTorch作為后端進(jìn)行優(yōu)化的梯度下降法。
(2)使用AR-Net對(duì)時(shí)間序列的自相關(guān)進(jìn)行建模。
(3)使用seepearate前饋神經(jīng)網(wǎng)絡(luò)對(duì)滯后回歸者進(jìn)行建模。
(4)可配置的FFNNs非線性深層。
(5)可調(diào)整到特定的預(yù)測(cè)范圍(大于1)。
(6)自定義損失和指標(biāo)。
NeuralProphet模型在GitHub進(jìn)行開(kāi)源,目前處于開(kāi)發(fā)階段,有些功能還不是很完善。該文使用的為2021年1月最新的0.27版本。在后續(xù)版本中,會(huì)有更多的更新內(nèi)容,如為預(yù)測(cè)增加置信區(qū)間,為趨勢(shì)項(xiàng)增加邏輯斯蒂增長(zhǎng)模型(Logistic growth model)以及增加對(duì)面板數(shù)據(jù)的支持等。
t
時(shí)刻的預(yù)測(cè)值為P
(t
),ARIMA模型的預(yù)測(cè)值為A
(t
),t
=1,2,…,N
,并分別給兩個(gè)模型分別賦予動(dòng)態(tài)權(quán)值w
和w
。此時(shí),定義集成后的Prophet-ARIMA組合預(yù)測(cè)模型為:(5)
其中,t
為預(yù)測(cè)值出現(xiàn)的時(shí)間,PA(t
)為Prophet模型和ARIMA的預(yù)測(cè)數(shù)據(jù)通過(guò)權(quán)重相加得到的結(jié)果。該文選取民航貨物周轉(zhuǎn)量、民航貨郵周轉(zhuǎn)量、民航旅客周轉(zhuǎn)量和民航總周轉(zhuǎn)量于2005年至2017年的月度數(shù)據(jù)作為訓(xùn)練集,預(yù)測(cè)2018年1月至2019年6月的月度數(shù)據(jù)。數(shù)據(jù)來(lái)自中經(jīng)網(wǎng)統(tǒng)計(jì)數(shù)據(jù)庫(kù)。
圖2為Prophet擬合歷史數(shù)據(jù)及預(yù)測(cè)未來(lái)的情況。垂直虛線的位置為趨勢(shì)變化點(diǎn),在趨勢(shì)變化點(diǎn)處趨勢(shì)項(xiàng)進(jìn)行改變。
圖2 Prophet模型預(yù)測(cè)情況
在對(duì)參數(shù)進(jìn)行調(diào)整時(shí),乘法季節(jié)性(seasonality_mode='multiplicative')是一個(gè)重要參數(shù)。時(shí)間序列具有明顯的周期性,但季節(jié)性并不像先知所假設(shè)的那樣是一個(gè)恒定的加法因子。這時(shí)可以使用乘法季節(jié)性來(lái)進(jìn)行調(diào)整。
圖3為NeuralProphet擬合歷史數(shù)據(jù)及預(yù)測(cè)未來(lái)的情況。在對(duì)參數(shù)進(jìn)行調(diào)整時(shí),這里有一個(gè)重要的參數(shù),趨勢(shì)變化點(diǎn)的范圍(changepoints_range)。模型默認(rèn)設(shè)置為0.8,即趨勢(shì)變更點(diǎn)只對(duì)時(shí)間序列的前80%進(jìn)行推斷,以便有足夠的空間(runway)來(lái)預(yù)測(cè)未來(lái)的趨勢(shì),并避免在時(shí)間序列結(jié)束時(shí)過(guò)度擬合波動(dòng)。這個(gè)默認(rèn)值在很多情況下有效,但不是所有情況。經(jīng)過(guò)試驗(yàn),由于這里將其設(shè)置為0.9,擴(kuò)大了趨勢(shì)變更點(diǎn)的覆蓋范圍,以便更好地適應(yīng)數(shù)據(jù)變化情況。
圖3 NeuralProphet模型預(yù)測(cè)情況
w
和w
,取系數(shù)w
為[0.05,0.95]遞增的19個(gè)數(shù)值,因w
+w
=1,所以對(duì)應(yīng)的權(quán)重系數(shù)w
為[0.95,0.05]遞減的19個(gè)數(shù)值。將19組權(quán)值系數(shù)w
和w
分別與各自對(duì)應(yīng)的模型在各時(shí)刻下的預(yù)測(cè)結(jié)果相乘,然后將同一時(shí)刻兩模型對(duì)應(yīng)的帶有權(quán)值系數(shù)的預(yù)測(cè)結(jié)果相加,最后輸出經(jīng)帶權(quán)系數(shù)相加后的組合模型預(yù)測(cè)結(jié)果、對(duì)應(yīng)的權(quán)值系數(shù)w
和w
以及時(shí)刻t
。經(jīng)過(guò)以上流程的循環(huán)計(jì)算,得到19組加權(quán)集成后的預(yù)測(cè)結(jié)果,記為:
PA(t
),i
=1,2,…,19,t
=1,2,…,n
(6)
w
和w
的組合情況如表1所示。表1 組合模型及對(duì)應(yīng)權(quán)值
采用以下評(píng)價(jià)指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià),數(shù)值越低表明誤差越小。
MSE(Mean Squared Error,均方誤差):
(7)
RMSE(Root Mean Squared Error,均方根誤差):
(8)
MAE(Mean Absolute Error,平均絕對(duì)誤差):
(9)
MAPE(Mean Absolute Percentage Error,平均絕對(duì)百分比誤差):
(10)
SMAPE(Symmetric Mean Absolute Percentage Error,對(duì)稱平均絕對(duì)百分比誤差):
(11)
為進(jìn)一步驗(yàn)證模型的應(yīng)用性能,該文選取Triple Exponential Smoothing(三次指數(shù)平滑法)、ARIMA作為對(duì)比模型。并使用五種評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比,各模型評(píng)估對(duì)比結(jié)果如表2所示,表中黑色加粗處為本列最小指標(biāo)。各單獨(dú)模型與組合模型的預(yù)測(cè)結(jié)果對(duì)比如圖4所示。
圖4 預(yù)測(cè)結(jié)果對(duì)比
表2 不同模型性能對(duì)比
續(xù)表2
從圖4可以看到,通過(guò)模型的不斷組合,預(yù)測(cè)也逐漸接近真實(shí)值。需要注意,由于使用5種評(píng)價(jià)指標(biāo),計(jì)算方法不同,存在5種不同評(píng)價(jià)指標(biāo)的最小值不同時(shí)存在于同一模型的情況,這是很正常的。這時(shí)可以同時(shí)考慮5種指標(biāo)來(lái)選擇最佳模型。
通過(guò)對(duì)民航貨物周轉(zhuǎn)量、民航貨郵周轉(zhuǎn)量、民航旅客周轉(zhuǎn)量和民航總周轉(zhuǎn)量四種民航周轉(zhuǎn)量構(gòu)建不同模型并運(yùn)用5種評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比,得到最優(yōu)模型,如表3所示。
表3 模型對(duì)比
就單一模型來(lái)看,相較于傳統(tǒng)的Triple Exponential Smoothing 和ARIMA模型,Prophet模型和NeuralProphet模型表現(xiàn)較優(yōu),可以方便地根據(jù)實(shí)際問(wèn)題調(diào)整參數(shù)以適應(yīng)實(shí)際不同的數(shù)據(jù),這給時(shí)間序列數(shù)據(jù)本身進(jìn)行STL分解進(jìn)行建模的思想進(jìn)行民航預(yù)測(cè)提供了一種新思路。在進(jìn)一步研究后發(fā)現(xiàn),在應(yīng)對(duì)不同種類的周轉(zhuǎn)量時(shí),被賦予不同權(quán)重的Prophet-ARIMA組合模型在預(yù)測(cè)效果上最佳。但以上模型無(wú)法準(zhǔn)確地預(yù)測(cè)突發(fā)事件下的周轉(zhuǎn)率等指標(biāo)。因此,如何通過(guò)改進(jìn)或者融合使得模型能較好地預(yù)測(cè)突發(fā)事件有待進(jìn)一步思考與研究。
計(jì)算機(jī)技術(shù)與發(fā)展2022年2期