譚逸萍
(長安大學(xué)汽車學(xué)院,陜西 西安 71000)
基于主成分分析法的公路客運(yùn)量預(yù)測模型分析
譚逸萍
(長安大學(xué)汽車學(xué)院,陜西西安71000)
譚逸萍(1990—),女,工學(xué)碩士,研究方向:汽車工程。
摘要:文章基于主成分分析的基本理論與模型,采用SPSS 軟件,對影響四川省公路客運(yùn)量的相關(guān)因素進(jìn)行主成分分析,克服多重共線性的問題,構(gòu)建出四川省公路客運(yùn)量預(yù)測模型。根據(jù)預(yù)測結(jié)果顯示,該模型具有較高的精度,適用于影響因素指標(biāo)較為明確的短期客運(yùn)量預(yù)測,能夠滿足四川省目前公路客運(yùn)量預(yù)測的需要,對四川地區(qū)的公路旅客運(yùn)輸發(fā)展也有著一定的指導(dǎo)作用,具有一定的科學(xué)性與有效性。
關(guān)鍵詞:主成分分析;多重共線性;公路客運(yùn)量;預(yù)測;模型分析
0引言
公路運(yùn)輸是國民經(jīng)濟(jì)的基礎(chǔ)性、服務(wù)性產(chǎn)業(yè),公路運(yùn)輸?shù)陌l(fā)展關(guān)系到我國經(jīng)濟(jì)社會發(fā)展的全局[1]。近年來,隨著公路運(yùn)輸?shù)目焖侔l(fā)展,公路客運(yùn)量已經(jīng)成為衡量公路運(yùn)輸發(fā)展水平的重要指標(biāo),同時(shí)也在很大程度上反映當(dāng)今社會經(jīng)濟(jì)的發(fā)展現(xiàn)狀和人民的生活水平。公路客運(yùn)量預(yù)測是交通運(yùn)輸規(guī)劃的基礎(chǔ),其預(yù)測質(zhì)量的好壞不僅會影響交通運(yùn)輸規(guī)劃與社會經(jīng)濟(jì)發(fā)展的適應(yīng)性,也在一定程度上影響交通運(yùn)輸設(shè)施的投資與運(yùn)營效益[2]。影響公路客運(yùn)量的因素主要有社會經(jīng)濟(jì)發(fā)展水平、經(jīng)濟(jì)結(jié)構(gòu)、人口數(shù)量、城鎮(zhèn)化水平、人民物質(zhì)文化生活水平、產(chǎn)業(yè)布局、交通運(yùn)輸網(wǎng)絡(luò)拓展程度等[3]。目前客運(yùn)量的預(yù)測主要有定性與定量兩種預(yù)測方法[4]。定性預(yù)測主要有專家預(yù)測法、德爾菲法、類推法等,定量預(yù)測法包括回歸分析法、指數(shù)平滑法、彈性系數(shù)法、灰色預(yù)測等。但在這些預(yù)測方法中,由于影響因素過多,導(dǎo)致很多因素都存在較高的相關(guān)性,即通常的多重共線性,從而出現(xiàn)回歸系數(shù)不能通過顯著性檢驗(yàn),甚至有的回歸系數(shù)所帶符號與實(shí)際意義不符[5],大大降低了預(yù)測模型的精度,本文在以前預(yù)測方法的基礎(chǔ)上,簡單介紹了主成分分析的基本理論,并通過SPSS統(tǒng)計(jì)軟件,根據(jù)2003-2012年四川省各市的指標(biāo)數(shù)據(jù),精確選取影響公路客運(yùn)量的各個(gè)因素,并分別對各個(gè)因素進(jìn)行主成分分析,克服多重共線性的問題,從而建立四川省公路客運(yùn)量的預(yù)測模型,提高預(yù)測精度。
1主成分分析的基本理論及模型
主成分分析是對多個(gè)變量因素進(jìn)行線性變換,以選出較少個(gè)數(shù)的重要變量的一種多元統(tǒng)計(jì)分析方法,又稱為主量分析。主成分分析是一種數(shù)學(xué)降維的思想,找出幾個(gè)綜合的變量即主成分來代替原來的眾多變量的信息量,而且各綜合變量之間互不相關(guān)[6]。每個(gè)主成分都包含原來變量的絕大部分信息,且這些信息都互不重疊。
主成分分析的原理是將原來眾多的具有一定相關(guān)性的變量重新組合成新的且不相關(guān)的綜合變量。將選取的第一個(gè)線性組合即第一個(gè)綜合變量(設(shè)共有n個(gè)指標(biāo))記為Z1,協(xié)方差為Var(Z1),主成分分析是通過線性組合的協(xié)方差來表達(dá)的,因此主成分分析僅取決于變量的協(xié)方差矩陣[7]。協(xié)方差越大,則第一個(gè)主成分Z1包含的信息便越多,在所有的線性組合中,Z1的協(xié)方差是最大的。如果第一個(gè)主成分不足以代表原來n個(gè)變量的信息,那么再考慮選取第二個(gè)主成分,為了有效反映原來的信息,F(xiàn)1已有的信息不需要出現(xiàn)在F2中,即COV(Z1,Z2)=0。從而依次類推得到第3、4、5…n個(gè)主成分[6]。
對于一個(gè)樣本資料,觀察n個(gè)變量x1,x2,…xn,m個(gè)樣本的數(shù)據(jù)資料陣為:
主成分分析就是將n個(gè)觀測變量綜合成為n個(gè)新的變量(綜合變量),即:
簡寫為:Zj=αj1x1+αj2x2+…+αjnxn
j=1,2,…n
主成分分析法的模型應(yīng)滿足以下條件:
(1)Zi,Zj互不相關(guān)(i≠j,i,j=1,2…n)
(2)Z1的方差大于Z2的方差,Z2的方差大于Z3的方差,依次類推[6]。
(3)ak12+ak22+…+akn2=1,k=1,2,…n
于是,稱Z1為第一主成分,Z2為第二主成分,依次類推,一共有n個(gè)主成分。an為主成分系數(shù),則上述模型用矩陣表示為Z=AX,其中:
A成為主成分系數(shù)矩陣。
通過主成分分析建立預(yù)測模型的主要步驟如下:
(1)選取與選題相關(guān)的指標(biāo)和數(shù)據(jù);
(2)對指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理;
(3)建立協(xié)方差矩陣,對指標(biāo)之間的相關(guān)性進(jìn)行判斷;
(4)根據(jù)協(xié)方差矩陣求出特征值、主成分貢獻(xiàn)率和累積貢獻(xiàn)率,從而確定主成分個(gè)數(shù);
(5)建立初始因子載荷矩陣,解釋主成分Zj;
(6)建立并求解主成分回歸模型。
2影響四川省公路客運(yùn)量的因素
隨著近年來四川省公路客運(yùn)的快速發(fā)展,很多因素都會直接影響到公路客運(yùn)量,綜合各個(gè)因素的影響程度,本文主要選取了四個(gè)方面的影響因素:社會經(jīng)濟(jì)結(jié)構(gòu)、經(jīng)濟(jì)發(fā)展水平、居民收入與消費(fèi)、運(yùn)輸設(shè)施建設(shè)水平。認(rèn)真分析這些影響因素,消除因素之間的共線性,選取最適合的指標(biāo)建立四川省公路客運(yùn)量預(yù)測模型,對提高客運(yùn)量的預(yù)測精度有著十分重要的意義。
圖1 影響公路客運(yùn)量的因素圖
公路客運(yùn)量在很大程度上受到經(jīng)濟(jì)發(fā)展水平的影響,人口數(shù)量、地區(qū)的生產(chǎn)總值的變化都會使客運(yùn)量發(fā)生相應(yīng)的變化。而居民收入與消費(fèi)水平在很大程度上反映了城鎮(zhèn)居民的消費(fèi)與購買能力,與交通出行之間有著一定的聯(lián)系[8]。運(yùn)輸設(shè)施的建設(shè)水平在很大程度上反映了道路運(yùn)輸行業(yè)的發(fā)展?fàn)顩r。本文中所選取的影響四川省客運(yùn)量的具體影響因素如圖1所示。
3實(shí)例分析
通過SPSS回歸分析多個(gè)指標(biāo),最終確定選取地區(qū)生產(chǎn)總值(X1)、社會消費(fèi)品零售總額(X2)、旅游人數(shù)(X3)、公路總里程(X4)、農(nóng)村家庭人均純收入(X5)、公路營運(yùn)載客汽車擁有量(X6)、第二產(chǎn)業(yè)比重(X7)、高速公路總里程(X8)、人均地區(qū)生產(chǎn)總值(X9)九個(gè)相關(guān)指標(biāo)進(jìn)行主成分分析,在保留大部分原信息的前提下,對這些變量進(jìn)行簡化分析,轉(zhuǎn)化為不相關(guān)的少數(shù)變量,綜合這些變量建立回歸模型。
本文采用四川省2003-2012年的統(tǒng)計(jì)年鑒數(shù)據(jù)進(jìn)行分析[9],根據(jù)統(tǒng)計(jì)年鑒所查數(shù)據(jù),四川省各年的具體指標(biāo)值如表1中所示。Y表示年公路客運(yùn)量。采用SPSS軟件對指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理,表2為相關(guān)系數(shù)矩陣,由表2中可以看出各指標(biāo)的相關(guān)系數(shù)均>0.5,因此這些指標(biāo)可以用來進(jìn)行預(yù)測,模型是準(zhǔn)確的。
表1 2003-2012年四川省相關(guān)指標(biāo)值表
表2 相關(guān)系數(shù)矩陣表
由相關(guān)性系數(shù)矩陣表(見表2)可以看出自變量數(shù)目眾多,且變量之間存在明顯的相關(guān)性,因此在建立模型時(shí)會存在嚴(yán)重的多重共性問題。為了驗(yàn)證是否存在多重共線性的問題,先通過SPSS軟件建立因變量與自變量的多元線性回歸模型[10]。
表3 多重共線性診斷表
通過SPSS軟件進(jìn)行回歸分析檢驗(yàn)多重共性,選取容差和各自變量的方差擴(kuò)大因子為多重共線性統(tǒng)計(jì)量,由診斷結(jié)果(見表3)可以明顯看出,所有自變量的方差擴(kuò)大因子均>10,容差均<0.1。說明各自變量之間存在嚴(yán)重的多重共線性,這樣在很大程度上影響預(yù)測精度,因此應(yīng)采用主成分分析法對其進(jìn)行簡化分析,將原來眾多的彼此相關(guān)的指標(biāo)變量轉(zhuǎn)化為一組新的互不相關(guān)的指標(biāo)變量,并再一次通過回歸分析,建立公路客運(yùn)量預(yù)測模型,進(jìn)行科學(xué)準(zhǔn)確的預(yù)測。
通過SPSS軟件對現(xiàn)有自變量X1,X2,…X9進(jìn)行主成分分析,得到總方差解釋表(見下頁表4)。由表4中可以看到提取的兩個(gè)主成分的特征值均>1,第一主成分的特征值為6.992,方差為77.693%;第二主成分的特征值為1.018,方差為11.314%。前兩個(gè)主成分的累積貢獻(xiàn)率>85%,達(dá)到了89.007%,這說明前兩個(gè)主成分已經(jīng)反映了原來九個(gè)變量的89.007%的信息,原有的9個(gè)變量可以簡化為這兩個(gè)主成分進(jìn)行簡化分析。圖2為碎石圖,從圖中可以看出,從第三個(gè)主成分開始,特征值已經(jīng)趨于平穩(wěn),因此第二個(gè)主成分是合理的,則選取前兩個(gè)主成分建立預(yù)測模型即可。
表5為初始因子載荷矩陣,即成分矩陣,從表中可以看出地區(qū)生產(chǎn)總值(X1)、旅游人數(shù)(X3)、公路總里程(X4)、農(nóng)村家庭人均純收入(X5)、公路營運(yùn)載客汽車擁有量(X6)、第二產(chǎn)業(yè)比重(X7)、高速公路總里程(X8)、人均地區(qū)生產(chǎn)總值(X9)在第一主成分上有很高的載荷,社會消費(fèi)品零售總額(X2)、在第二主成分上占有很高的載荷,因此兩個(gè)主成分基本可以反映這9個(gè)變量的全部信息,從而可以用這兩個(gè)新變量代替以前的相關(guān)變量。
表4 總方差解釋表
表5 初始因子載荷矩陣表
圖2 碎石圖
然而只通過因子載荷矩陣還不能得出主成分的表達(dá)式,還需要把初始因子載荷中的每列系數(shù)除以相應(yīng)主成分的特征根的平方根后才能得到主成分的系數(shù)向量。將標(biāo)準(zhǔn)化之后的數(shù)據(jù)與得到的特征向量相乘,可以得到主成分表達(dá)式[11]。特征向量為:
Z1=0.37*ZX1+0.22*ZX2+0.27*ZX3+0.37*ZX4+0.37*ZX5+0.29*ZX6+0.37*ZX7+0.34*ZX8+0.347ZX9
Z2=-0.16*ZX1+0.69*ZX2+0.25*ZX3+0.09*ZX4+0.18*ZX5+0.51*ZX6+0.08*ZX7+0.32*ZX8+0.17ZX9
以標(biāo)準(zhǔn)化之后的ZY為因變量,將Z1、Z2得到的評價(jià)值與ZY做多元線性線性回歸分析,得到回歸模型為:
ZY=0.376Z1+0.007Z2
(1)
得到標(biāo)準(zhǔn)誤差估計(jì)如表6所示,其為0.996,調(diào)整后的R2為0.994,標(biāo)準(zhǔn)估計(jì)誤差為0.076,說明該模型的總體擬合效果是良好的,并且該回歸模型能夠通過F檢驗(yàn)與t檢驗(yàn),在統(tǒng)計(jì)學(xué)中是具有意義的,能夠?qū)瓦\(yùn)量做出合理的預(yù)測。
表6 回歸模型誤差分析表
由于提取的兩個(gè)主成分與原始的自變量X1,X2,…X9存在著線性關(guān)系,經(jīng)過相關(guān)轉(zhuǎn)換,用X1,X2,…X9代替主成分Z1與Z2,得到因變量Y(四川省公路客運(yùn)量)與原始變量X1,X2,…X9的線性回歸方程:Y=0.92*X1+1.513*X2+7 725.52*X3+815.95*X4+3.65*X5+3 684.43*X6+141 436.11*X7+63 712.18*X8+0.74*X9+32 899.82
分別將2003-2012年各年四川省的相關(guān)指標(biāo)數(shù)據(jù)(即X1,X2,…X9)代入主成分回歸模型中,可以求得各年的公路客運(yùn)量預(yù)測值,并將預(yù)測值與實(shí)際值進(jìn)行比較,如圖3所示,主成分回歸模型得到的預(yù)測值與實(shí)際值的擬合較好,最高誤差僅為3.04%,10年的平均誤差為1.08%,基本上能夠滿足公路客運(yùn)量的預(yù)測需要。
圖3 由主成分回歸模型得到的四川省公路客運(yùn)量預(yù)測值與實(shí)際值比較圖
4結(jié)語
從文中的實(shí)例可以看到影響公路客運(yùn)量的因素是眾多的,全面準(zhǔn)確地把握這些影響因素對公路客運(yùn)量的預(yù)測十分關(guān)鍵。但由于眾因素的較大多重共線性,直接采用多元回歸分析已經(jīng)不具有較大的意義,主成分回歸分析將多個(gè)相關(guān)變量轉(zhuǎn)化為互不相關(guān)的變量的優(yōu)點(diǎn)在對公路客運(yùn)量的預(yù)測中具有一定的應(yīng)用價(jià)值。
本文在對四川省公路客運(yùn)量的預(yù)測中,考慮了影響客運(yùn)量的諸多因素,因此預(yù)測精度較高,但是由于各時(shí)期的變量因素會發(fā)生變化,預(yù)測模型也會相應(yīng)發(fā)生變化,因此主成分回歸模型適用于因素指標(biāo)發(fā)展較為明確的短期預(yù)測。
參考文獻(xiàn)
[1]交通部綜合規(guī)劃司.國家公路運(yùn)輸樞紐布局規(guī)劃[R].北京:中華人民共和國交通部,2007.
[2]馬銀波.公路運(yùn)量長期預(yù)測的質(zhì)量與模型[J].西安交通大學(xué)學(xué)報(bào),2000(20):74-77.
[3]姚新勝,蘇延升,孫金玲.公路客運(yùn)短期運(yùn)量預(yù)測研究[J].公路交通科技,2005,22(11):155-188.
[4]陸化普.交通規(guī)劃理論與方法[M].北京:清華大學(xué)出版社,1998.
[5]賈元華,敖谷昌,等.基于主成分回歸的公路客運(yùn)量預(yù)測模型研究[J].交通標(biāo)準(zhǔn)化,2009(9):106.
[6]朱星宇,陳勇強(qiáng).SPSS多元統(tǒng)計(jì)分析方法及應(yīng)用[M].北京:清華大學(xué)出版社,2011.
[7]Gao Haibo,Hong Wenxue,Cui Jianxin,etc.Optimization of Principal Component Analysis in Feature Extration[C]Harbin Proceedings of the 2007 IEEE in ternational conference on Mecha-tronice and Automation,2007(8):3128-3132.
[8]李為博.華東六省公路客運(yùn)量預(yù)測研究[J].交通與運(yùn)輸,2013(1):69-72.
[9]四川省統(tǒng)計(jì)局.四川統(tǒng)計(jì)年鑒-2012[M].北京:中國統(tǒng)計(jì)出版社,2012.
[10]高王翠,單飛,楊宇翔.基于SPSS主成分分析法在公路客運(yùn)量預(yù)測中的應(yīng)用[J].山東交通科技,2011(2):9-12,20.
[11]張文霖.主成分分析在SPSS中的操作應(yīng)用[J].市場研究,2012.12:32-35.
Analysis of Highway Passenger Volume Forecasting Model based on Princi-pal Component Analysis Method
TAN Yi-ping
(School of Automobile,Chang’an University,Xi’an,Shaanxi,71000)
Abstract:Based on the basic theories and models of principal component analysis,and by using SPSS software,this article conducted the principal component analysis on relevant factors affecting the Si-chuan highway passenger volume,overcame the multicollinearity problem,and built the forecasting model of Sichuan highway passenger volume.According to the forecast results,this model has higher accuracy,suitable for the short-term passenger volume forecast with clearer influencing factors and index,it can meet the current highway passenger volume forecast needs in Sichuan,and it has some guiding role for highway passenger transport development in Sichuan region and is scientific and ef-fective.
Key Words:Principal component analysis;Multicollinearity;Highway passenger volume;Forecasting;Model analysis
收稿日期:2015-02-08
文章編號:1673-4874(2015)02-0078-06
中圖分類號:U492.4+13
文獻(xiàn)標(biāo)識碼:A
DOI:10.13282/j.cnki.wccst.2015.02.020
作者簡介