耿立艷
(石家莊鐵道大學(xué) 經(jīng)濟管理學(xué)院,石家莊 050043)
基于GRA與KPCA的LSSVM物流需求預(yù)測
耿立艷*
(石家莊鐵道大學(xué) 經(jīng)濟管理學(xué)院,石家莊 050043)
為降低物流需求建模中最小二乘支持向量機(LSSVM)的結(jié)構(gòu)復(fù)雜性、進一步提高LSSVM對物流需求的預(yù)測精度,提出一種基于灰色關(guān)聯(lián)分析(GRA)與核主成分分析(KPCA)的LSSVM預(yù)測方法.首先利用GRA找出物流需求的主要影響因素;然后利用KPCA提取主要影響因素的非線性主成分,消除因素之間的多重相關(guān)性;最后,將提取出的非線性主成分作為LSSVM的輸入變量,構(gòu)建物流需求預(yù)測模型,并采用改進粒子群(IPSO)算法調(diào)整LSSVM參數(shù).運用該方法對我國物流需求進行實例分析,結(jié)果表明,該方法有效減少了LSSVM輸入變量個數(shù),簡化了LSSVM結(jié)構(gòu),并且在一定程度上提高了物流需求預(yù)測精度.
物流工程;預(yù)測方法;最小二乘支持向量機;物流需求;預(yù)測精度
物流需求預(yù)測在物流系統(tǒng)的規(guī)劃與設(shè)計、物流產(chǎn)業(yè)發(fā)展政策的制定等方面具有重要意義.影響物流需求的因素很多,各因素的影響作用錯綜復(fù)雜,導(dǎo)致物流需求與各因素之間呈現(xiàn)復(fù)雜的非線性關(guān)系.目前,物流需求預(yù)測方法主要有傳統(tǒng)預(yù)測方法、灰色預(yù)測方法和人工智能預(yù)測方法三類.傳統(tǒng)預(yù)測方法和灰色預(yù)測方法由于自身的局限性,預(yù)測效果不佳.人工智能預(yù)測方法主要包括神經(jīng)網(wǎng)絡(luò)和支持向量機.神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)能夠很好地描述物流需求與其影響因素間的非線性關(guān)系.但NN所需數(shù)據(jù)樣本較大,在物流數(shù)據(jù)較少時,無法保證預(yù)測精度.Vapnik[1]提出的支持向量機(Support Vector Machines,SVM)是一種基于統(tǒng)計學(xué)習(xí)理論的機器學(xué)習(xí)算法,可有效解決小樣本、非線性等復(fù)雜系統(tǒng)問題.駱世廣等[2]、胡燕祝等[3]將SVM應(yīng)用于物流需求預(yù)測,發(fā)現(xiàn)SVM在有限樣本數(shù)據(jù)下可獲得較高的預(yù)測精度.但標(biāo)準(zhǔn)SVM算法需要求解二次規(guī)劃方程,計算復(fù)雜性較大.Suykens等[4]提出的最小二乘支持向量機(Least Squares Support Vector Machines,LSSVM)通過等式約束將SVM求解的二次規(guī)劃方程轉(zhuǎn)換成一組線性方程,減少了算法的復(fù)雜性,更適合于物流需求這種復(fù)雜系統(tǒng)的預(yù)測研究[5,6].
影響物流需求的因素廣泛而復(fù)雜,若LSSVM輸入變量過多,將導(dǎo)致模型結(jié)構(gòu)復(fù)雜,且不重要的因素還會降低物流需求的預(yù)測精度.耿立艷等[7]利用灰色關(guān)聯(lián)分析(Grey Relational Analysis,GRA)從眾多影響因素中選取主要影響因素,構(gòu)建LSSVM物流需求預(yù)測模型.GRA雖然降低了模型的復(fù)雜性,但無法消除影響因素之間的多重相關(guān)性.梁毅剛等[8]將核主成分分析(Kernel Principal Component Analysis,KPCA)提取的非線性主成分作為LSSVM的輸入變量預(yù)測物流需求,獲得了較高的預(yù)測精度.
為進一步簡化LSSVM結(jié)構(gòu)、提高物流需求預(yù)測精度,提出一種GRA、KPCA、LSSVM相結(jié)合的預(yù)測方法,先采用GRA選擇物流需求主要影響因素,再利用KPCA提取主要影響因素的非線性主成分,將其作為輸入變量,建立LSSVM預(yù)測模型,最后利用Xu等[9]提出的改進粒子群(Improved Particle Swarm Optimization,IPSO)算 法優(yōu)化LSSVM參數(shù).通過對我國物流需求的實例研究檢驗新方法的有效性.
2.1 灰色關(guān)聯(lián)分析
GRA根據(jù)各因素序列幾何形狀的相似程度,判斷各因素對系統(tǒng)發(fā)展的重要程度,具體分析步驟如下:
(2)在時刻 t'(t'=1,2,…,N),計算{Q0(t')}與{Qi(t')}的關(guān)聯(lián)系數(shù):
(3)計算{Q0(t')}與{Qi(t')}的關(guān)聯(lián)度:
式中 r0i∈(0,1].再依據(jù)關(guān)聯(lián)度由小到小排列出關(guān)聯(lián)序.
2.2 核主成分分析
設(shè)樣本集為X={xm∈Rq|m=1,2,…,N},通過非線性函數(shù)φ:Rq→F,將樣本xm映射為高維特征空間(F空間)中的數(shù)據(jù)φ(xm).計算協(xié)方差矩陣:
式中 φ(xm),m=1,2,...,N具有零均值.定義核函數(shù)矩陣 K,Kmg=K(xm,xg)=φ(xm)?φ(xg),m,g=1,2,…,N,將 F空間的內(nèi)積運算轉(zhuǎn)化為輸入空間運算. K(xm,xg)為滿足Mercer條件的核函數(shù).若φ(xm)均值不為零,通過以下處理將K變換為中心化矩陣:
式中 AN為N階矩陣;amg=1/N,m,g=1,2,…,N.
式中 λ=[λ1,λ2,...,λN]為的特征值;β=[β1,β2,...,βN]為對應(yīng)的特征向量.由此得到CF的特征向量,則第r個非線性主成分為
由特征值的累積貢獻率,選取前 p<N個非線性主成分.
2.3 LSSVM算法
給定訓(xùn)練樣本集{zl,yl},l=1,2,…,n,其中,zl∈Rd為輸入變量,yl∈R為輸出變量,LSSVM優(yōu)化問題為
式中 Φ()為一非線性映射函數(shù),用于實現(xiàn)樣本在高維特征空間中的線性擬合;ω為權(quán)向量;b為偏差量;γ為正則化參數(shù);el∈R為誤差變量.用Lagrange法求解以上優(yōu)化問題,轉(zhuǎn)化為以下線性問題:
式中 1=[1,1,…,1]T為n個1組成的向量;I為n階單位矩陣;Hli=Φ(zl)TΦ(zi)=K(zl,zi),l,j=1,2,…,n;α=[α1,α2,…,αn]T為 Lagrange乘子向量;y=[y1, y2,…,yn]T;最后得到LSSVM模型為
GRA-KPCA-LSSVM預(yù)測模型將GRA、KPCA與LSSVM相結(jié)合,首先利用GRA從定量角度分析各因素對物流需求的影響程度,進而篩選物流需求的主要影響因素;然后通過KPCA提取主要影響因素的非線性主成分,消除各主要影響因素之間的多重相關(guān)性;再以非線性主成分作為LSSVM輸入變量,建立預(yù)測模型.
LSSVM的預(yù)測精度取決于核函數(shù)的選取及參數(shù)的確定.若選擇泛化能力較強的RBF核函數(shù),則需要確定的參數(shù)為:正則化參數(shù)γ和核參數(shù)σ2.一般采用交叉驗證法確定兩參數(shù),但交叉驗證法是一種經(jīng)驗法,具有人為選擇的隨機性,難以得到最優(yōu)參數(shù).為此,本文利用IPSO算法搜索LSSVM最優(yōu)參數(shù),步驟如下:
步驟1設(shè)定IPSO算法參數(shù):群體規(guī)模S,學(xué)習(xí)因子c1和c2,最大、最小慣性權(quán)重wmax和wmin,最大進化代數(shù)kmax.隨機生成粒子的初始位置和初始速度.
步驟2定義適應(yīng)度函數(shù)為LSSVM預(yù)測誤差:
步驟3 根據(jù)式(11)計算各粒子適應(yīng)度值,更新粒子個體最優(yōu)位置和粒子群全局最優(yōu)位置.慣性權(quán)重w按下式自動更新:
式中 k為當(dāng)前進化代數(shù).
步驟4 若所有粒子的進化代數(shù)滿足預(yù)先設(shè)定值,計算結(jié)束,此時全局最優(yōu)位置即為LSSVM最優(yōu)參數(shù);否則,k=k+1,轉(zhuǎn)步驟3.
步驟5利用最優(yōu)參數(shù)建立LSSVM模型并進行預(yù)測,再通過反歸一化獲得原始數(shù)據(jù)的預(yù)測值.
4.1 指標(biāo)的選取
物流需求的度量指標(biāo)中,現(xiàn)有研究主要使用貨運量[6]和社會物流總費用[7]兩種,貨運量從貨運規(guī)模角度衡量物流需求,但整個物流活動中除了貨物運輸,還涉及其他多個緊密相關(guān)環(huán)節(jié),貨物運輸量難以完全代表物流需求.而社會物流總費用從核算角度定義物流需求,指一定時期內(nèi)社會經(jīng)濟各方面在物流活動中各項費用支出,該指標(biāo)是體現(xiàn)物流需求的最綜合指標(biāo),因此,本文選取社會物流總費用為物流需求量化指標(biāo).
關(guān)于物流需求影響因素目前還沒形成統(tǒng)一觀點.文獻[3]將物流需求的影響因素概括為6項經(jīng)濟指標(biāo):經(jīng)濟總量指標(biāo)、產(chǎn)業(yè)結(jié)構(gòu)類指標(biāo)、交通運輸類指標(biāo)、貿(mào)易類指標(biāo)、郵電業(yè)務(wù)類指標(biāo)、消費類指標(biāo).這些指標(biāo)僅考慮了經(jīng)濟相關(guān)因素的影響,對其他相關(guān)因素未作考慮.文獻[7]不僅考慮了經(jīng)濟影響因素,還將物流行業(yè)因素納入物流需求影響因素.但以上研究均未考慮價格水平、人口數(shù)量和信息技術(shù)的影響,這三類因素對物流需求也會產(chǎn)生重要影響.不同市場的商品價格水平差異會促進物流需求增加;一個國家人口數(shù)量越大,消費需求越多,對物流的需求也增加;信息技術(shù)的發(fā)展可以提升物流的服務(wù)質(zhì)量和需求范圍,進而增加對物流的需求.
根據(jù)以上分析,考慮到指標(biāo)數(shù)據(jù)可得性,初步選取17項指標(biāo)作為物流需求的影響因素,并將這17項指標(biāo)分為經(jīng)濟影響因素與非經(jīng)濟影響因素兩大類,經(jīng)濟影響因素包括9項指標(biāo):國內(nèi)生產(chǎn)總值GDP(P1),固定資產(chǎn)投資總額(P2),第一產(chǎn)業(yè)總產(chǎn)值(P3),第二產(chǎn)業(yè)總產(chǎn)值(P4),第三產(chǎn)業(yè)總產(chǎn)值(P5),貨物進出口總額(P6),社會消費品零售總額(P7),居民消費水平(P8),商品零售價格指數(shù)(P9);非經(jīng)濟影響因素包括8項指標(biāo):郵電業(yè)務(wù)總量(P10),貨運量(P11),貨物周轉(zhuǎn)量(P12),物流行業(yè)就業(yè)人員數(shù)(P13),民用載貨汽車擁有量(P14),國家鐵路貨車擁有量(P15),民用貨運船舶擁有量(P16),總?cè)丝跀?shù)(P17).
選取1991~2011年相關(guān)數(shù)據(jù)為樣本進行實例分析.其中,社會物流總費用根據(jù)國家發(fā)改委、國家統(tǒng)計局、中國物流與采購聯(lián)合會相關(guān)資料,按當(dāng)年價格計算;影響因素數(shù)據(jù)來源于《中國統(tǒng)計年鑒1992-2012》,經(jīng)濟影響因素中除商品零售價格指數(shù)按不變價格計算,其余指標(biāo)均按當(dāng)年價格計算.
4.2 物流需求影響因素的GRA與KPCA分析
設(shè)社會物流總費用(P0)為系統(tǒng)特征行為序列、17項指標(biāo)Pi(i=1,2,…,17)為相關(guān)因素序列.根據(jù)式(1)對兩類序列作均值化處理,取分辨系數(shù)ξ=0.4 ,根 據(jù) 式 (2)和 式 (3)計 算 P0與Pi(i=1,2,…,17)的關(guān)聯(lián)度,并進行排序,結(jié)果如表1和表2所示.
由表1和表2可知,經(jīng)濟影響因素的關(guān)聯(lián)度分布在0.851 7~0.986 0之間,非經(jīng)濟影響因素的關(guān)聯(lián)度分布在0.778 0~0.913 1之間,表明經(jīng)濟因素對物流需求的影響程度大于非經(jīng)濟因素.經(jīng)濟影響因素中的P2和非經(jīng)濟影響因素中的P10,P11,P13,P16關(guān)聯(lián)度沒超過0.9,表明它們對物流需求的影響程度較小,應(yīng)去掉這5項指標(biāo).因此,選擇關(guān)聯(lián)度大于0.9的12項指標(biāo)作為物流需求的主要影響因素.進一步分析表明,非經(jīng)濟因素中P14,P15,P17對物流需求的關(guān)聯(lián)度較高,文獻[3]憑經(jīng)驗僅選取了經(jīng)濟類相關(guān)指標(biāo),而文獻[7]盡管考慮了非經(jīng)濟類相關(guān)指標(biāo),但忽略了P14,P15,P17指標(biāo),這都將造成物流需求預(yù)測效果不佳.另外,經(jīng)比較發(fā)現(xiàn),本文指標(biāo)的關(guān)聯(lián)度與文獻[7]中相同指標(biāo)的關(guān)聯(lián)度不同,但關(guān)聯(lián)度的排序與文獻[7]相同,這是由于關(guān)聯(lián)度與分辨系數(shù)取值有關(guān),而關(guān)聯(lián)度的排序與分辨系數(shù)取值無關(guān).因此,本文各相同指標(biāo)對物流需求的重要程度排序與文獻[7]相同.
表1 物流需求與經(jīng)濟影響因素GRA結(jié)果Table 1 Results of GRA between logistics demand and economic factors
表2 物流需求與非經(jīng)濟影響因素GRA結(jié)果Table 2 Results of GRA between logistics demand and non-economic factors
KPCA分析時,選取RBF函數(shù)為核函數(shù),分別計算12項指標(biāo)的特征值、貢獻率及累積貢獻率,結(jié)果如表3所示.KPCA的降維效果明顯,前2個非線性主成分包含了原12項指標(biāo)95%的特征信息,可用于代替原12項指標(biāo).文獻[8]基于累積貢獻率大于85%,選取了前1個非線性主成分代替原始13項指標(biāo).根據(jù)KPCA理論,累積貢獻率越大,包含原始數(shù)據(jù)的信息越多,相比于文獻[8],本文在保留原始指標(biāo)更多特征信息基礎(chǔ)上獲得了較好降維效果,能實現(xiàn)更好的替代作用.
表3 物流需求主要影響因素KPCA結(jié)果Table 3 Results of KPCA to major factors of logistics demand
4.3 物流需求的LSSVM預(yù)測
根據(jù)KPCA結(jié)果,以前2個非線性主成分組成的向量為輸入,以P0為輸出構(gòu)建LSSVM模型.將數(shù)據(jù)樣本歸一化到[0,1],并分為兩組:1991~2005年的數(shù)據(jù)作為訓(xùn)練樣本,2006~2011年的數(shù)據(jù)作為檢驗樣本.設(shè)定IPSO算法自身參數(shù):S=10;兩個學(xué)習(xí)因子 c1=c2=2;wmax=0.9,wmin=0.1;kmax=30.為減少隨機性產(chǎn)生的影響,用IPSO算法連續(xù)10次優(yōu)化LSSVM,選擇最優(yōu)參數(shù)構(gòu)建LSSVM模型并進行物流需求預(yù)測.
4.4 結(jié)果分析
將GRA-KPCA-LSSVM預(yù)測結(jié)果與GRALSSVM、KPCA-LSSVM、LSSVM模型相比較.其中,GRA-LSSVM以GRA選取的12項主要影響指標(biāo)作為LSSVM輸入變量;KPCA-LSSVM以17項指標(biāo)提取的非線性主成分作為LSSVM輸入變量;LSSVM以17項指標(biāo)直接作為LSSVM輸入變量.選取平均相對誤差(Average Relative Error,ARE)、標(biāo)準(zhǔn)化均方誤差(Normalized Mean Squared Error, NMSE)、標(biāo)準(zhǔn)化平均絕對誤差(Normalized Mean Absolute Error,NMAE)評價模型的預(yù)測性能,以上指標(biāo)值越小,預(yù)測性能越優(yōu).比較如表4和圖1所示.
表4 不同輸入變量預(yù)測結(jié)果比較Table 4 Comparison of forecasting results of different input variables
由表4結(jié)合圖1可知,GRA-KPCA-LSSVM較其他三個模型更好地預(yù)測出物流需求變化趨勢,其最大與最小相對誤差、ARE、NMSE、NMAE分別小于其他三個模型的對應(yīng)值,有力證明該方法在物流需求預(yù)測方面的有效性.表明由GRA結(jié)合KPCA選取LSSVM輸入變量,不僅降低了輸入變量維數(shù)、簡化了模型結(jié)構(gòu),而且比單一GRA和單一KPCA更能提高LSSVM的物流需求預(yù)測精度.此外,GRA-KPCA-LSSVM模型2006-2007年的預(yù)測相對誤差較小,僅分別為-0.20%和-0.66%, 2008-2011年預(yù)測相對誤差明顯增大,特別是2011年預(yù)測相對誤差已達到6.90%,說明該模型更適合于物流需求的短期預(yù)測.
為驗證IPSO算法的有效性,利用自適應(yīng)慣性權(quán)重粒子群(Adaptive Inertia Weight PSO, AIWPSO)算法和隨機慣性權(quán)重粒子群(Stochastic Inertia Weight PSO,SIWPSO)算法優(yōu)化選擇LSSVM參數(shù),分別記為GRA-KPCA-LSSVM1和GRA-KPCA-LSSVM2,預(yù)測結(jié)果與本文比較如表5所示.
由表5可知,總體上IPSO算法優(yōu)化的LSSVM比其他兩算法具有更高的物流需求預(yù)測精度,表現(xiàn)在GRA-KPCA-LSSVM的ARE、NMSE、NMAE均小于其他兩個模型的對應(yīng)值;除2008年外,GRA-KPCA-LSSVM的相對誤差小于其他兩個模型的對應(yīng)值.這主要是由于IPSO算法通過使慣性權(quán)重隨進化過程快速變化,有效改善了粒子的收斂性和搜索精度,從而提高了LSSVM預(yù)測精度.而AIWPSO算法和SIWPSO算法進化過程中慣性權(quán)重變化較慢,對LSSVM參數(shù)優(yōu)化能力弱于IPSO算法.
圖1 不同模型預(yù)測結(jié)果比較Fig.1 Comparison of results of different models
表5 不同粒子群算法預(yù)測結(jié)果比較Table 5 Comparison of forecasting results of different PSO algorithms
本文將GRA、KPCA與LSSVM相結(jié)合預(yù)測物流需求,先用GRA選取物流需求的主要影響因素,再通過KPCA消除主要影響因素之間的多重相關(guān)性,提取出的非線性主成分作為LSSVM輸入變量,并采用IPSO算法優(yōu)化調(diào)整LSSVM參數(shù).對我國物流需求的實例分析表明,該方法降低了LSSVM模型結(jié)構(gòu)復(fù)雜性,提高了物流需求的預(yù)測精度,適用于樣本數(shù)據(jù)較少條件下的短期物流需求預(yù)測,具有一定推廣應(yīng)用價值.
[1]Vapnik V N.An overview of statistical learning theory[J].IEEE Transactions on Neural Networks,1999, l0(5):988-999.
[2]駱世廣,葉賽,胡蓉.基于多輸出支持向量機的物流量預(yù)測研究[J].華東交通大學(xué)學(xué)報,2010,27(5):67-71. [LUO S G,YE S,HU R.A research of forecasting the logistics amount based on multi-output support vector regression[J].Journal of East China Jiaotong University, 2010,27(5):67-71.]
[3]胡燕祝,呂宏義.基于支持向量回歸機的物流需求預(yù)測模型研究[J].物流技術(shù),2008,27(5):66-68.[HU Y Z,LU H Y.Study on logistics demand forecast model based on support vector regression[J].Logistics Technology,2008,27(5):66-68.]
[4]Suykens J T,Van G I.Least squares support vector machines[M].Singapore:Singapore Word Scientific, 2002:13-15.
[5]李泓澤,郭森,李春杰.果蠅優(yōu)化最小二乘支持向量機混合預(yù)測模型——以我國物流需求量預(yù)測為例[J].經(jīng)濟數(shù)學(xué),2012,29(3):103-106.[LI H Z,GUO S,LI C J.A hybrid forecasting model based on fruit fly optimization algorithm and least squares support vector machine:the case of logistics demand forecasting ofChina[J].Journal of Quantitative Economics,2012,29 (3):103-106.]
[6]耿立艷,趙鵬,張占福.基于二階振蕩微粒群最小二乘支持向量機的物流需求預(yù)測[J].計算機應(yīng)用研究, 2012,29(7):2558-2560.[GENG L Y,ZHAO P,ZHANG Z F.Logistics demand forecasting based on LSSVM optimized by two-order oscillating PSO[J].Application Research of Computers,2012,29(7):2558-2560.]
[7]耿立艷,丁璐璐.基于灰關(guān)聯(lián)分析的最小二乘支持向量機物流需求預(yù)測[J].物流技術(shù),2013,32(10):130-132,135.[GENG L Y,DING L L.Forecast of logistics demand based on grey correlation analysis and least square SVM[J].Logistics Technology,2013,32(10): 130-132,135.]
[8]梁毅剛,耿立艷,張占福.基于核主成分-最小二乘支持向量機的區(qū)域物流需求預(yù)測[J].鐵道運輸與經(jīng)濟, 2012,34(11):63-67.[LIANG Y G,GENG L Y, ZHANG Z F.Forecast of regional logistic demand based on KPCA-LSSVM[J].Railway Transportation and Economy,2012,34(11):63-67.]
[9]Hongbo Xu,Guohua Chen.An intelligent fault identification method of rolling bearings based on LSSVM optimized by improved PSO[J].Mechanical Systems and Signal Processing,2013,35:167-175.
Forecast of Logistics Demand Using LSSVM Combining GRA with KPCA
GENG Li-yan
(School of Economics and Management,Shijiazhuang Tiedao University,Shijiazhuang 050043,China)
To reduce the complex structure of least squares support vector machine(LSSVM)in logistics demand modeling and improve the forecasting accuracy of LSSVM for logistics demand further,based on the grey relational analysis(GRA)and the kernel principal component analysis(KPCA),a LSSVM forecasting method is proposed.First,GRA is used to choose the main influential factors of logistics demand. Then,the KPCA is applied to extract the nonlinear principal components,which can eliminate the correlation in the main influential factors.Finally,the extracted nonlinear principal components are selected as the input variables of LSSVM to construct the logistics demand forecasting model.And the parameters of LSSVM are adjusted by the improved particle swarm optimization(IPSO).Using this method,China’s logistics demand is analyzed.The results indicate that the proposed method effectively reduces the number of the input variables in LSSVM and simplifies the structure of the LSSVM.The forecasting accuracy of logistics demand is improved to some degree.
logistics engineering;forecasting method;LSSVM;logistics demand;forecasting accuracy
1009-6744(2015)01-0137-06
:U268.6
:A
2014-10-11
:2014-12-09錄用日期:2014-12-22
河北省高等學(xué)校青年拔尖人才計劃項目(BJ2014097).
耿立艷(1979-),女,天津人,副教授,博士. *
:gengliyan_28117@163.com