徐勤蘭, 樊重俊, 張 鵬
(上海理工大學(xué)管理學(xué)院,上海 200093)
貨郵吞吐量是機(jī)場吞吐量的重要組成部分,是 機(jī)場運(yùn)營管理的重要依據(jù)之一,是實現(xiàn)機(jī)場資源有效配置的基本依據(jù).隨著我國航空業(yè)的迅速發(fā)展,機(jī)場貨郵吞吐量也增長迅猛,為實現(xiàn)機(jī)場及航空公司的有效管理,提高貨郵吞吐量的預(yù)測精度越來越成為人們關(guān)注的重點.傳統(tǒng)的預(yù)測方法按性質(zhì)大致可分為兩類[1-2]:定性預(yù)測法和定量預(yù)測法.定性預(yù)測法注重事物發(fā)展性質(zhì)方面的預(yù)測,具體方法主要有德爾菲法、主觀概率法、專家會議法,這些方法有較大的靈活性、操作簡單、可靠性好,但受主觀因素影響較大.定量預(yù)測法關(guān)注事物在數(shù)量上的變化,主要包括時間序列法、趨勢外推法、計量經(jīng)濟(jì)法、重力模型法、灰色預(yù)測法、神經(jīng)網(wǎng)絡(luò)法等,但神經(jīng)網(wǎng)絡(luò)預(yù)測法具有較強(qiáng)的經(jīng)驗色彩,受網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度和樣本復(fù)雜度的影響較大,會出現(xiàn)泛化能力差和過學(xué)習(xí)等現(xiàn)象.這些傳統(tǒng)的預(yù)測方法通常在處理線性數(shù)據(jù)時有較好的應(yīng)用,但在處理非線性數(shù)據(jù)時常常不能滿足人們的要求.隨著人們對數(shù)據(jù)處理的精度要求越來越高,而單一的預(yù)測模型必然存在某方面的盲區(qū),因此,利用組合預(yù)測模型進(jìn)行數(shù)據(jù)處理,優(yōu)勢互補(bǔ),提高預(yù)測精度,成為一種研究的趨勢.本文重點關(guān)注灰色系統(tǒng)與支持向量回歸機(jī)組合模型的研究以及在機(jī)場貨郵吞吐量預(yù)測中的應(yīng)用.
灰色系統(tǒng)理論是我國著名學(xué)者鄧聚龍于1982年創(chuàng)立的一門學(xué)科,以“部分信息已知,部分信息未知”的“小樣本”、“貧信息”不確定系統(tǒng)為研究對象.GM(1,1)模型是灰色系統(tǒng)理論的重要組成部分,具有建模所需數(shù)據(jù)少的特點[3].支持向量機(jī)(support vector machines,SVM)是Vapnik等在統(tǒng)計學(xué)習(xí)理論(statistical learning theory,SLT)的基礎(chǔ)之上提出的一種新的機(jī)器學(xué)習(xí)方法[4].它基于結(jié)構(gòu)風(fēng)險最小化原則來提高泛化能力,有效解決了小樣本、非線性、高維數(shù)、局部極小點等實際問題,具有良好的推廣性和較好的分類精確性.
將灰色系統(tǒng)與支持向量機(jī)組合起來得到灰色支持向量機(jī)模型,此模型既具有灰色系統(tǒng)在處理“小樣本”、“貧信息”數(shù)據(jù)方面的優(yōu)勢,又具有支持向量機(jī)在處理不規(guī)則、混沌等非線性數(shù)據(jù)方面的自適應(yīng)能力.
灰色預(yù)測的實質(zhì)是將“隨機(jī)過程”當(dāng)作“灰色過程”,“隨機(jī)量”當(dāng)作“灰色量”,并以灰色系統(tǒng)理論中的GM(1,1)模型為主進(jìn)行數(shù)據(jù)分析處理.GM(1,1)模型的主要建模過程如下:
令非負(fù)原始序列為x(0),對x(0)作一次累加生成得到1-AGO序列,即
則x(0),x(1)符合灰導(dǎo)數(shù)條件,將x(0),x(1)各時刻數(shù)據(jù)代入灰色微分方程
其中
支持向量機(jī)模型已在模式識別、回歸分析、文章分類等領(lǐng)域得到了應(yīng)用,并取得了較好的效果,其基本思想如下:
這時非線性回歸問題的優(yōu)化方程轉(zhuǎn)化為
其中,ξi,ξ*i≥0,i=1,2,…,n,且約束于
約束于
求解此對偶問題,可得到回歸決策函數(shù)為
機(jī)場貨郵吞吐量的產(chǎn)生受多種因素的影響,而許多影響因素在做數(shù)據(jù)預(yù)測時不易定量處理或有些因素尚不明確,因此本文嘗試結(jié)合灰色模型與支持向量機(jī)模型各自的優(yōu)點,建立灰色支持向量機(jī)模型,基本思想如下:
a.設(shè)原始序列為
其中,x(0)(k)≥0,k=1,2,…,n,利用上述G(1,1)模型對原始序列進(jìn)行分析預(yù)測,得到預(yù)測值
b.設(shè)原始序列值X(0)(k)與G(1,1)模型預(yù)測值X⌒(0)(k)的比值為d(0)(k),k=1,2,…,n.從比值序列中選取模型的訓(xùn)練樣本集和測試樣本集.
c.選擇適當(dāng)?shù)暮撕瘮?shù)K(xi,x)及參數(shù).
d.用支持向量機(jī)方法求解比值序列優(yōu)化問題的Lagrange對偶問題,并構(gòu)造回歸決策函數(shù)f(x).
e.利用回歸決策函數(shù)f(x),計算出比值序列d(0)(k)的預(yù)測值
以上海浦東機(jī)場和上海虹橋機(jī)場2009年9月~2010年12月貨郵吞吐量數(shù)據(jù)為研究對象,數(shù)據(jù)見表1.
表1 2009年9月~2010年12月年上海機(jī)場貨郵吞吐量Tab.1 Cargo and mail throughput of the Shanghai airport in 2009.9~2010.12 萬t
首先,利用表中01~12的數(shù)據(jù)建立灰色G(1,1)模型,并利用此模型對2010年9月~2010年12月的吞吐量進(jìn)行分析預(yù)測,其預(yù)測結(jié)果及誤差見表2.
表2 模型預(yù)測值及誤差Tab.2 Predictive value and error of the model萬t
其次,利用支持向量機(jī)與灰色支持向量機(jī)理論建立分析預(yù)測模型,其間需要做如下工作:
a.選取訓(xùn)練樣本與測試樣本 支持向量機(jī)選取原始數(shù)據(jù)中01~12的數(shù)據(jù)作為訓(xùn)練樣本,13~16的數(shù)據(jù)作為測試樣本.灰色支持向量機(jī)選取比值序列中01~12的數(shù)據(jù)作為訓(xùn)練樣本,并利用均值生成法處理編號為06的異常數(shù)據(jù),13~16的數(shù)據(jù)作為測試樣本.
b.選擇核函數(shù) 由于徑向機(jī)基函數(shù)具有較好的普適性,且在處理時間序列問題時表現(xiàn)一般比其它核函數(shù)更好,因此,選用徑向基函數(shù)K(xi,xj)=作為灰色支持向量機(jī)模型與支持向量機(jī)模型的核函數(shù).
c.選擇最優(yōu)參數(shù) 需要確定的參數(shù)有不敏感損失誤差ε、懲罰系數(shù)C以及核函數(shù)參數(shù)σ.然而,對這3個參數(shù)的選擇,目前尚沒有較好的方法,也沒有較成熟地選取理論與指導(dǎo)原則[9],其主要的選擇算法有留一法、交叉驗證法、試湊法、網(wǎng)格搜索法、梯度下降法和免疫算法等.本文選取計算精度較高的交叉驗證法作為參數(shù)的選擇算法,其基本原理為:將訓(xùn)練數(shù)據(jù)集分成k份相等的子集,每次將其中k-1份數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),而將另外一份數(shù)據(jù)作為測試數(shù)據(jù).這樣重復(fù)k次,根據(jù)k次迭代后得到的均方誤差平均值來估計期望泛化誤差,最后選擇一組最優(yōu)的參數(shù)[10].
經(jīng)計算得支持向量機(jī)的最優(yōu)參數(shù)為C=4.0、σ=8.0、ε=0.001;灰色支持向量機(jī)的最優(yōu)參數(shù)為C=256.0、σ=0.001、ε=0.001.
最后,分別利用支持向量機(jī)與灰色支持向量機(jī)對數(shù)據(jù)進(jìn)行分析預(yù)測,預(yù)測及對比結(jié)果分別見表2和圖1.
圖1 灰色支持向量機(jī)分析結(jié)果與實際值的比較Fig.1 Compare gray support vector machine prediction results with the actual value
從結(jié)果及誤差可以看出灰色支持向量機(jī)模型在分析預(yù)測機(jī)場貨郵吞吐量方面明顯優(yōu)于灰色及支持向量機(jī)模型.灰色模型與支持向量機(jī)模型的融合彌補(bǔ)了單一模型在數(shù)據(jù)處理方面的缺陷,盡管組合模型中有個別數(shù)據(jù)擬合誤差偏大,但從整體預(yù)測效果看,仍然優(yōu)于單一的灰色模型或支持向量機(jī)模型.
由于機(jī)場貨郵吞吐量的產(chǎn)生受多種因素影響,包括宏微觀經(jīng)濟(jì)發(fā)展、貿(mào)易發(fā)展、資源狀況等因素等,因此,預(yù)測機(jī)場貨郵吞吐量時,不應(yīng)僅僅考慮時間因素,也應(yīng)綜合考慮社會經(jīng)濟(jì)等綜合因素,以建立更準(zhǔn)確地預(yù)測模型,這也是以后要進(jìn)一步深入研究的方向.
[1] 王芳.基于支持向量機(jī)的航段運(yùn)量預(yù)測研究[D].江蘇:南京航空航天大學(xué),2007.
[2] 張慧,王喆.機(jī)場吞吐量預(yù)測方法探討[J].中國民用航空,2008,10(94):67-68.
[3] 鄧聚龍.灰理論基礎(chǔ)[M].武漢:華中科技大學(xué)出版社,2002.
[4] Vapnik V.The nature of statistical learning theory[M].New York:Springer,1999.
[5] 董雁萍.支持向量機(jī)預(yù)測模型的構(gòu)建及其應(yīng)用[D].西安:西安理工大學(xué),2010.
[6] 梁路宏,艾海舟,張鈸.基于模板匹配與支持向量機(jī)的人臉檢測[J].計算機(jī)學(xué)報.2002,25(1):22-29.
[7] Thissen U,Brakel R,Weijer A P,et al.Using support vector machines for tiem series prediction[J].Chemometrics and Intelligent Laboratory System,2003,69(1):35-49.
[8] Gavrishchaka V V,Ganguli S B.Volatility forecasting from multiscale and high-dimensional market data[J].Neurocomputing,2003,55(1):285-305.
[9] 朱家元,張喜斌.多參數(shù)裝備費(fèi)用的支持向量機(jī)預(yù)測[J].系統(tǒng)工程與電子技術(shù),2003,25(6):701-703.
[10] 奉國和.SVM分類核函數(shù)及參數(shù)選擇比較[J].計算機(jī)工程與應(yīng)用,2011,47(3):123-128.