徐 濤 孫媛媛 盧 敏
1(中國民航大學(xué)計算機科學(xué)與技術(shù)學(xué)院 天津 300300)2(中國民航信息技術(shù)科研基地 天津 300300)3(民航旅客服務(wù)智能化應(yīng)用技術(shù)重點實驗室 北京 101318)
近年來,隨著旅客出行需求的逐步增長,越來越多人選擇飛機出行。實現(xiàn)航線客流量的準確預(yù)測,對航空公司而言,無論是對運力安排、市場拓展、未來發(fā)展等作出重要決策,還是制定航班計劃和機隊規(guī)劃都是必不可少的[1]。
國內(nèi)外關(guān)于航線客流量預(yù)測研究從早期的統(tǒng)計模型和計量經(jīng)濟學(xué)模型到現(xiàn)階段的時間序列模型[2]、神經(jīng)網(wǎng)絡(luò)模型[3]、支持向量機模型[4]以及組合模型[5]等。這些模型大都只是基于旅客訂票歷史數(shù)據(jù)進行預(yù)測,鮮見考慮民航旅客出行的隨機性及航線旅客流量的非線性特征。由于民航行業(yè)的特殊性,較難準確獲取旅客在航線上的具體信息,因而對客流量預(yù)測影響較大的因素(如折扣、機型、艙位等)與客流量之間的關(guān)系分析不足。
綜上,現(xiàn)有對航線客流量的研究存在以下問題:(1) 鮮見對航線客流量數(shù)據(jù)特征作準確分析,根據(jù)數(shù)據(jù)特征選用合適模型進行預(yù)測;(2) 缺乏對航線客流量影響較大因素的分析,影響預(yù)測精度。
針對上述問題,本文對航線客流量數(shù)據(jù)的非線性及隨機性進行分析,同時驗證平均折扣率對航線客流量的影響。運用灰色理論弱化航線客流量數(shù)據(jù)的隨機性,再結(jié)合非線性處理能力較強的BP神經(jīng)網(wǎng)絡(luò),構(gòu)建灰色神經(jīng)網(wǎng)絡(luò)模型對航線的客流量進行預(yù)測,避免了選用模型的盲目性以及對客流量影響較大因素的疏忽。
本文的數(shù)據(jù)來源是中國民航旅客訂票記錄(Passenger Name Record,PNR),旅客的一次出行記錄為一條信息,記錄中包含旅客訂票的航班、艙位、折扣等重要屬性。數(shù)據(jù)集中屬性含義如下:
身份證號:為保護旅客個人隱私,根據(jù)真實身份證號通過加密算法進行處理。
航空公司:為保護航空公司的隱私,航空公司的名稱采用數(shù)字代號表示。
航班號:由真實航班號信息進行填充,用于區(qū)分不同航班信息。
起飛日期:表示旅客具體出行時間(年月日),出于對旅客出行信息的保護,年份采用201X表示。
起飛機場、目的機場:采用國際航空運輸協(xié)會規(guī)定的機場“三字碼”表示。
艙位:區(qū)分旅客出行的艙位等級。如:F艙表示頭等艙,C艙表示商務(wù)艙,Y艙表示經(jīng)濟艙,W艙表示折扣普通艙。
折扣:表示旅客購買機票時的折扣信息。
數(shù)據(jù)示例如表1所示。
表1 PNR數(shù)據(jù)示例
選取201X年及次年某航空公司每天北京飛三亞航線的旅客流量、折扣等指標作為本文研究的對象。
將數(shù)據(jù)進行整合分析,以天為單位統(tǒng)計北京飛三亞航線的旅客流量、平均折扣率,記Ys為該航線第s天的旅客流量:
(1)
式中:m表示該航線的航班數(shù);nj表示該航線第j個航班的旅客人數(shù)。
不同航班不同艙位對應(yīng)折扣的含義不同,對含航班艙位等級的平均折扣率Diss計算如下:
(2)
式中:l表示該航線有l(wèi)種艙位;zjk表示乘坐第j個航班第k種艙位的旅客人數(shù);Pjk表示第j個航班上第k種艙位的價格(根據(jù)航空公司、航班號及艙位結(jié)合現(xiàn)有訂票軟件統(tǒng)計得到各個艙位的價格);Gjki表示第i位旅客在第j個航班上乘坐第k種艙位的折扣。
根據(jù)式(1)-式(2),可以得到北京飛三亞航線的旅客流量、平均折扣率等指標數(shù)據(jù)。
航空客流量受不同因素影響,通常表現(xiàn)出不同的變化特征[6]。對航空公司航線客流量進行建模首先要對航線客流量的數(shù)據(jù)特征進行分析,根據(jù)表現(xiàn)出的特征構(gòu)建合適的模型進行預(yù)測。
根據(jù)北京飛三亞航線客流量的分布特征,淡旺季區(qū)分較明顯,每年的十月至次年的四月三亞氣候適宜,這段時間客流量明顯高于其他月份。淡季客流量變化相對平穩(wěn),本文主要針對該航線旺季(201X年十月下旬至次年三月下旬)進行分析預(yù)測,航線客流量通常表現(xiàn)出很強的非平穩(wěn)非線性特征。
首先,對航線客流量序列進行單位根檢驗以驗證序列是否平穩(wěn)以及對序列的自相關(guān)性進行分析,驗證序列的非線性特征。據(jù)表2航線客流量序列的單位根檢驗可知,概率值(P值)大于10%,不能拒絕原始假設(shè),因此序列為非平穩(wěn)序列[7],說明民航旅客訂票隨機性較強。
表2 航線客流量序列的單位根檢驗
其次,對航線客流量序列進行一階差分并進行單位根檢驗,由表3檢驗結(jié)果知,序列一階差分后概率值(P值)小于10%,證明差分后的序列已平穩(wěn)。且表3中自相關(guān)、偏相關(guān)圖與右邊自相關(guān)系數(shù)與偏相關(guān)系數(shù)相關(guān),“*”代表其超出置信空間,而“·”代表在置信空間內(nèi)。通過對一階差分后的序列進行自相關(guān)、偏相關(guān)分析后發(fā)現(xiàn),自相關(guān)系數(shù)和偏相關(guān)系數(shù)三階后快速收斂于置信區(qū)間內(nèi),故存在三階截尾,所以對差分后的序列建立自回歸積分滑動平均模型ARIMA(3,3,1)。
表3 一階差分序列的相關(guān)性檢驗
最后,對序列殘差以及殘差的平方進行自相關(guān)分析(見表4、表5),自相關(guān)系數(shù)與零存在顯著的差異,說明序列殘差及殘差的平方均存在自相關(guān)性。因此,航線客流量序列具有非線性特征。
表4 序列殘差的相關(guān)性檢驗
表5 序列殘差平方的相關(guān)性檢驗
式(2)平均折扣率的計算中包含了旅客訂票的航班以及艙位等信息,故將平均折扣率作為航線客流量的影響因素較為全面。兩者相關(guān)性通過相關(guān)系數(shù)進行分析。
相關(guān)系數(shù)是反映變量之間密切程度的一種統(tǒng)計指標[8],它的主要目的是分析兩個或多個變量之間的相關(guān)程度。1代表兩個變量完全正相關(guān),0代表兩個變量不相關(guān),-1代表兩個變量完全負相關(guān)。對航線客流量Ys和平均折扣率Diss建立相關(guān)系數(shù)表進行相關(guān)性分析。由表6可知,航線客流量Ys與平均折扣率Diss的相關(guān)性系數(shù)為-0.667 91,說明這兩個變量呈負相關(guān)關(guān)系。平均折扣率降低意味著折扣力度增大,旅客會更偏向于乘坐該航線,使得航線客流量增大。
表6 相關(guān)系數(shù)表
航線客流量預(yù)測是具有不確定性的復(fù)雜系統(tǒng),受許多因素的制約?;疑到y(tǒng)理論是一種處理“部分信息已知、部分信息未知”的“小樣本、貧信息”不確定性的理論[9],該理論認為通過生成變換可以將無規(guī)律的數(shù)據(jù)序列變成有規(guī)律的數(shù)據(jù)序列,弱化數(shù)據(jù)的隨機性。通過1.3節(jié)對航線客流量數(shù)據(jù)的特征分析發(fā)現(xiàn),航線上旅客流量具有隨機性的特征,符合灰色理論的特點。并且航線客流量具有很強的非線性特征,BP神經(jīng)網(wǎng)絡(luò)具有較強非線性映射能力[10],所以運用灰色系統(tǒng)理論和BP神經(jīng)網(wǎng)絡(luò)組合對航線客流量進行預(yù)測,具有較強的針對性。
灰色神經(jīng)網(wǎng)絡(luò)是在灰色系統(tǒng)理論中融入了神經(jīng)網(wǎng)絡(luò)的思想,通過網(wǎng)絡(luò)反饋的形式不斷地進行學(xué)習(xí)[11]。具體的算法流程如圖1所示。
圖1 灰色神經(jīng)網(wǎng)絡(luò)模型流程圖
(3)
(4)
式(4)的時間響應(yīng)式為:
(5)
令:
式(5)可作如下轉(zhuǎn)化以映射到BP神經(jīng)網(wǎng)絡(luò):
(6)
將變換后的式(6)映射到擴展的BP神經(jīng)網(wǎng)絡(luò)中,得到n-1個輸入?yún)?shù)、1個輸出參數(shù)的灰色神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)拓撲結(jié)構(gòu)如圖2所示。
圖2 灰色神經(jīng)網(wǎng)絡(luò)拓撲結(jié)構(gòu)
(7)
LD層輸出節(jié)點的閾值為:
(8)
由航線客流量與平均折扣率的相關(guān)性分析可知,后者對前者存在較強的影響,故將平均折扣率作為影響因素加入航線客流量的預(yù)測。所以灰色神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為1-1-2-1,即LA層有1個節(jié)點,輸入為時間序列t,LB層有1個節(jié)點,LC層有2個節(jié)點,第2個為平均折扣率,輸出為航線客流量預(yù)測值,灰色神經(jīng)網(wǎng)絡(luò)的訓(xùn)練流程如下:
1) 網(wǎng)絡(luò)初始化。根據(jù)訓(xùn)練數(shù)據(jù)特征確定網(wǎng)絡(luò)拓撲結(jié)構(gòu),初始化參數(shù)a、b和學(xué)習(xí)速率μ。
2) 據(jù)式(7)計算網(wǎng)絡(luò)權(quán)值ω。
3) 計算各層輸出。對每一個輸入序列(t,X(1)(t)),t=1,2,…,N,計算各層輸出。
LA層:a=ω11t。
LD層:d=ω31c1+ω32c2-θ。
4) 計算誤差。計算網(wǎng)絡(luò)預(yù)測輸出與期望輸出的誤差。
LC層誤差:δ1=δ2=δ0(1+e-ω11t)。
5) 根據(jù)誤差更新權(quán)值和閾值。
更新LA到LB的連接權(quán)值:ω11=ω11-atδ3。
6) 判斷訓(xùn)練是否結(jié)束,若沒有結(jié)束,返回步驟3。
以某航空公司北京飛三亞航線數(shù)據(jù)為例,該公司在本條航線上每日有4個班次,濾除訂票后退票即沒有實際乘坐的訂票數(shù)。選取北京飛三亞航線201X年11月17日至次年1月17日(除元旦節(jié)假日)旅客流量及平均折扣率作為歷史數(shù)據(jù),對次年1月18日-1月31日航線客流量進行預(yù)測。
由于旅客訂票數(shù)據(jù)量巨大,傳統(tǒng)數(shù)據(jù)庫進行操作速度緩慢,故航線客流量的統(tǒng)計通過搭建Hadoop偽分布式平臺,采用Map-Reduce技術(shù)對大規(guī)模旅客訂票數(shù)據(jù)進行處理,如圖3所示。
圖3 Map-Reduce數(shù)據(jù)處理
通過采用Map-Reduce技術(shù)將數(shù)據(jù)處理集處理成北京-三亞航線上起飛日期-航線客流量記錄文檔的形式如表7所示。出于對數(shù)據(jù)的保密,對涉及到的航線客流量作了單位化處理。平均折扣率根據(jù)上面的計算得出,最終基于灰色神經(jīng)網(wǎng)絡(luò)的輸入樣例如表8所示。
表7 日期-航線客流量記錄文檔
表8 基于灰色神經(jīng)網(wǎng)絡(luò)的輸入樣例
用預(yù)測客流量與真實的客流量的相對誤差對實驗結(jié)果進行評價。其計算公式如下:
(9)
根據(jù)輸入信息的特征以及期望輸出,確定灰色神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)為1-1-2-1,因累加的數(shù)據(jù)具有單調(diào)增加的趨勢,BP神經(jīng)網(wǎng)絡(luò)的非線性激活函數(shù)易逼近,故LB層神經(jīng)元激活函數(shù)為Sigmoid型函數(shù),其他層激活函數(shù)取線性函數(shù)。設(shè)置訓(xùn)練次數(shù)為100,學(xué)習(xí)速率u為0.001。
為驗證灰色神經(jīng)網(wǎng)絡(luò)模型在航線客流量預(yù)測方面的有效性,與灰色模型GM(Grey Model)、BP神經(jīng)網(wǎng)絡(luò)模型作對比實驗。
根據(jù)上面的討論,將平均折扣率作為影響因素加入到航線客流量預(yù)測中,建立灰色GM(1,2)模型和輸入節(jié)點為2,輸出節(jié)點為1的BP神經(jīng)網(wǎng)絡(luò)模型作對比實驗,采用相同的航線客流量數(shù)據(jù)進行實驗。圖4給出了三種模型的客流量預(yù)測結(jié)果,以相對誤差QRE為評價指標。
圖4 北京-三亞航線客流量預(yù)測相對誤差對比圖
由圖4可知,灰色GM(1,2)模型因結(jié)合航線客流量隨機性的數(shù)據(jù)特征,預(yù)測相對誤差較低,控制在7%以內(nèi),但預(yù)測穩(wěn)定性較差,如在1月21日預(yù)測相對誤差在3%左右,而1月30日預(yù)測相對誤差卻在6.5%左右。因BP神經(jīng)網(wǎng)絡(luò)模型結(jié)合航線客流量非線性的數(shù)據(jù)特征,預(yù)測相對誤差較低,控制在6%以內(nèi),但預(yù)測穩(wěn)定性也相對較差。
相比于BP神經(jīng)網(wǎng)絡(luò)模型和灰色GM(1,2)模型,灰色神經(jīng)網(wǎng)絡(luò)模型結(jié)合了航線客流量非線性和隨機性的數(shù)據(jù)特征,預(yù)測相對誤差更低,而且預(yù)測穩(wěn)定性更高。同時平均相對誤差(表9)比其他兩種模型提高了1%左右,說明灰色神經(jīng)網(wǎng)絡(luò)模型更適用于航線客流量預(yù)測。
表9 模型對比
航線客流量預(yù)測對于提高航空公司收益有重要意義。本文對平均折扣率與航線客流量的相關(guān)性進行分析,結(jié)果表明,平均折扣率與航線客流量呈負相關(guān)關(guān)系,即隨著平均折扣率的降低,折扣力度增大,旅客會更偏向于乘坐該航線,使得航線客流量增大。同時在對航線客流量數(shù)據(jù)特征分析的基礎(chǔ)上,將弱化航線客流量數(shù)據(jù)隨機性的灰色理論以及非線性處理能力強的BP神經(jīng)網(wǎng)絡(luò)模型組合為灰色神經(jīng)網(wǎng)絡(luò)模型對航線客流量數(shù)據(jù)進行預(yù)測。在相同數(shù)據(jù)集下的實驗結(jié)果表明,針對航線客流量預(yù)測,灰色神經(jīng)網(wǎng)絡(luò)模型具有更高的預(yù)測準確率和更強的預(yù)測穩(wěn)定性。