張 鵬,陸 瑤
(1.黑龍江工程學(xué)院 汽車與交通工程學(xué)院,黑龍江 哈爾濱 150050;2.東北林業(yè)大學(xué) 交通學(xué)院,黑龍江 哈爾濱 150040)
公交站點(diǎn)客流量預(yù)測(cè)方法
張 鵬1,2,陸 瑤1
(1.黑龍江工程學(xué)院 汽車與交通工程學(xué)院,黑龍江 哈爾濱 150050;2.東北林業(yè)大學(xué) 交通學(xué)院,黑龍江 哈爾濱 150040)
公交作為城市交通的重要組成部分,是城市賴以生存的重要基礎(chǔ)設(shè)施之一。以哈爾濱104路公交車作為研究對(duì)象,對(duì)104路公交車在高峰時(shí)進(jìn)行集散量的隨車調(diào)查,運(yùn)用聚類分析法進(jìn)行距離計(jì)算,繪制出聚類分析圖。對(duì)公交站點(diǎn)進(jìn)行分類,然后通過(guò)逐步回歸法,應(yīng)用SPSS統(tǒng)計(jì)分析軟件建立同組各代表站點(diǎn)與其他站點(diǎn)的回歸方程式,對(duì)104路公交車高峰期的站點(diǎn)客流量進(jìn)行預(yù)測(cè),取得很好的效果。
聚類分析法;公共交通;回歸分析法;客流量;預(yù)測(cè)
公交客流量實(shí)時(shí)預(yù)測(cè)是公共交通實(shí)時(shí)調(diào)度的基礎(chǔ)。調(diào)度方式主要是基于客流量變化而確定的。在準(zhǔn)確提前掌握客流變化規(guī)律的情況下,企業(yè)才能做到科學(xué)地制定運(yùn)營(yíng)規(guī)劃,合理地調(diào)配使用人、車資源。但目前實(shí)際的運(yùn)營(yíng)調(diào)度管理中因?yàn)槿狈Χ窟m用的分析預(yù)測(cè)手段,大多依靠經(jīng)驗(yàn)和直覺來(lái)判斷客流的變化,預(yù)測(cè)的結(jié)果同實(shí)際往往有較大的區(qū)別[1-2]。本文根據(jù)哈爾濱市公共交通運(yùn)行現(xiàn)狀,以城市單條公交線路為研究對(duì)象,結(jié)合調(diào)研數(shù)據(jù)應(yīng)用聚類分析法和逐步回歸法對(duì)哈爾濱市104路公交車在客流高峰站點(diǎn)客流量進(jìn)行預(yù)測(cè),公交客流量的準(zhǔn)確預(yù)測(cè)對(duì)城市公交的高效經(jīng)濟(jì)運(yùn)行具有重要意義。
1.1 定義
聚類分析(cluster analysis)是對(duì)樣品或變量進(jìn)行分類的一種多元統(tǒng)計(jì)方法,目的在于將相似的事物歸類。通常分類一般限于單個(gè)度量,分類標(biāo)準(zhǔn)主要是由主觀偏好決定的,但有時(shí)樣品很多,分類無(wú)法可依,很難確定應(yīng)該選擇哪個(gè)度量作為分組的依據(jù),這時(shí)聚類分析便成為一種選擇[3]。
聚類的方法有系統(tǒng)聚類、模糊聚類、圖論聚類、聚類預(yù)報(bào)等多種方法,本文使用的就是應(yīng)用最廣泛的系統(tǒng)聚類,也稱譜系聚類。系統(tǒng)聚類的做法是在樣本基礎(chǔ)上定義點(diǎn)與點(diǎn)的距離,先將每個(gè)樣本自成一類,每次將距離最小的兩類合并,合并后重新計(jì)算類與類之間的距離,一直持續(xù)到所有樣品歸為一類,然后將此過(guò)程做成聚類譜系圖[4]。
1.2 系統(tǒng)聚類步驟
1.2.1 數(shù)據(jù)變換
在聚類分析處理過(guò)程中,為使不同量綱、不同數(shù)量級(jí)的數(shù)據(jù)能放在一起進(jìn)行比較,首先需要對(duì)原始數(shù)據(jù)進(jìn)行變換處理。變換的方法有總和標(biāo)準(zhǔn)化、標(biāo)準(zhǔn)差的標(biāo)準(zhǔn)化 、極大值標(biāo)準(zhǔn)化、極差的標(biāo)準(zhǔn)化等,本文采用的是標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理,通過(guò)標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化后每列數(shù)據(jù)的平均值為0,方差為1,這樣在抽樣樣本改變時(shí),它仍保持相對(duì)穩(wěn)定性,公式為
j=1,2,3,…,m.
(1)
式中:
1.2.2 相似系數(shù)的確定
相似系數(shù)的確定即選擇樣本相似性度量,系統(tǒng)聚類法應(yīng)用的是用距離作為相似系數(shù)。屬于同一類的樣本之間距離比較近,不同類的則要大很多。距離越小,相似性越大,親密程度越大。常用的距離公式[5]:
絕對(duì)值距離
(2)
切比雪夫距離
(3)
歐氏距離
(4)
明科夫斯基距離
(5)
式中:i,j=1,2,…,m;p≥1。當(dāng)p=1時(shí),它就是絕對(duì)值距離;當(dāng)p=2時(shí),它就是歐氏距離;當(dāng)p=∞時(shí),它就是切比雪夫距離,本文使用歐氏距離。
1.2.3 計(jì)算類間相似系數(shù)并進(jìn)行聚類
將各個(gè)樣品自成一類基礎(chǔ)上計(jì)算平方歐幾里得距離矩陣,將距離最小的兩類合并,再將類個(gè)數(shù)減1生成新的平方歐幾里得矩陣并且繼續(xù)并類,如果類的數(shù)量大于1,則繼續(xù)并類,直到都?xì)w為一類為止。
1.2.4 繪制系統(tǒng)聚類譜系圖
利用上述步驟得到的結(jié)果生成聚類譜系圖,如圖1所示[6]。
圖1 聚類譜系圖
2.1 定義
逐步回歸是按一定的統(tǒng)計(jì)程序,經(jīng)過(guò)多步擬合和檢驗(yàn),從一系列的可供建立回歸模型的自變量中,逐步引入回歸作用顯著的自變量,并從回歸模型中逐步回歸作用不再顯著的自變量,以最終求得“最優(yōu)”回歸模型的技術(shù)[7]。
2.2 步驟
逐步回歸預(yù)測(cè)具體計(jì)算步驟[8-9]:
1)設(shè)置引入、剔除變量以及回歸方程的F檢驗(yàn)的顯著性水平a=0.05;
2)設(shè)系統(tǒng)聚類分析共得到m組公交站點(diǎn),令j=1;
3)將第j組內(nèi)公交站點(diǎn)排序(不妨就按照聚類譜系圖從上至下的順序),令i=1,組內(nèi)公交站點(diǎn)總數(shù)為Nj(j=1,2,…,m,共聚類成m組);
4)取第i個(gè)公交站點(diǎn)作為因變量,其他站點(diǎn)設(shè)為自變量;
5)調(diào)用逐步回歸算法,利用F檢驗(yàn),依次引入或剔除變量,建立多元回歸方程;記錄第j組第i個(gè)回歸方程的Fij檢驗(yàn)值;
6)設(shè)i=i+1,判斷是否i>Nj?是則將第j組中Fij值最大的方程的自變量作為本組的代表站點(diǎn),并轉(zhuǎn)7),否則轉(zhuǎn)4);
7)設(shè)j=j+1,判斷是否j>m?是則轉(zhuǎn)8),否則轉(zhuǎn)2);
8)將每組中的代表站點(diǎn)作為自變量,建立其與組內(nèi)其他站點(diǎn)的回歸方程。
當(dāng)代表站點(diǎn)安裝有實(shí)時(shí)客流量采集設(shè)備時(shí),根據(jù)8)得到的回歸方程預(yù)測(cè)組內(nèi)其他站點(diǎn)的客流信息,為實(shí)時(shí)公共交通調(diào)度提供重要的基礎(chǔ)數(shù)據(jù)。當(dāng)然,需要對(duì)原始數(shù)據(jù)庫(kù)所建立的模型及時(shí)更新處理(通常是在每天所有公交車都停止運(yùn)營(yíng)后進(jìn)行次項(xiàng)工作。注意,所更新的模型備下周同一時(shí)間使用),以保證模型的實(shí)效性。
3.1 交通調(diào)查
哈爾濱市104路是從太平橋開往糖業(yè)研究所的公交線路,橫穿東西大直街,客流量非常大,平均日客流量可以達(dá)到2.5萬(wàn)人次,經(jīng)常處于擁擠狀態(tài)[10]。本文以哈爾濱市104路公交線路為研究線路,采用隨車調(diào)查法,于2012年4月在高峰期調(diào)查了上行的8輛車站點(diǎn)集散量情況,其中站名用i表示,車次用j表示,xij為第i個(gè)站點(diǎn)的第j輛車,見表1。
3.2 聚類分析預(yù)測(cè)
3.2.1 數(shù)據(jù)變換
根據(jù)式(1)及表1進(jìn)行標(biāo)準(zhǔn)化數(shù)據(jù)處理,如
33+37+33)=37.5,
表1 104路公交上行早高峰客流集散量匯總 人/車次
表2 經(jīng)標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理后的數(shù)據(jù)
續(xù)表2
3.2.2 計(jì)算歐幾里得距離并進(jìn)行聚類
根據(jù)式(4),計(jì)算平方歐幾里得距離矩陣并進(jìn)行聚類。平方歐幾里得距離是歐氏距離的平方值。
其他值不再贅述,以類間相關(guān)性盡量高,分類盡量少為分類原則,取平方歐幾里得距離8.450將站點(diǎn)進(jìn)行分類,共分為九類。第一類:太平橋;第二類:南通大街,市客車廠;第三類:哈爾濱工程大學(xué),秋林公司,建設(shè)街;第四類:煙廠,新中新集團(tuán);第五類:醫(yī)大一院,和興三道街,和興十一道街,哈爾濱醫(yī)科大學(xué);第六類:省博覽中心,通達(dá)街,和興路,九三五廠,哈達(dá)屯,糖業(yè)研究所;第七類:鐵路局,哈爾濱工業(yè)大學(xué),西大橋,哈師大附中,哈爾濱理工大學(xué),服裝城,電影機(jī)廠,機(jī)電工程學(xué)校;第八類:黑龍江大學(xué);第九類:醫(yī)大二院。
3.2.3 繪制系統(tǒng)聚類譜系圖
結(jié)合上述聚類過(guò)程,通過(guò)SPSS軟件繪制出最短距離聚類譜系圖2。
圖2 系統(tǒng)聚類譜系
3.3 基于逐步回歸分析進(jìn)行客流量預(yù)測(cè)
3.3.1 回歸模型建立
設(shè)置回歸方程的F檢驗(yàn)的顯著性水平α=0.05,根據(jù)經(jīng)驗(yàn)可知允許的方差比F在4~15之間,經(jīng)逐步計(jì)算,本文中代表站點(diǎn)為南通大街、煙廠、秋林公司、醫(yī)科大學(xué)、糖業(yè)研究所和哈爾濱師大附中。建立代表站點(diǎn)與其他站點(diǎn)之間的客流量預(yù)測(cè)模型如下
應(yīng)用SPSS統(tǒng)計(jì)分析軟件建立同組各代表站點(diǎn)與其他站點(diǎn)的回歸方程式(見表3)。根據(jù)回歸方程,當(dāng)代表站點(diǎn)安裝有實(shí)時(shí)客流量采集設(shè)備時(shí),可以預(yù)測(cè)組內(nèi)其他站點(diǎn)的客流。單個(gè)站點(diǎn)組成一類的只能利用觀測(cè)得到其客流信息。
表3 代表站點(diǎn)與組內(nèi)其他站點(diǎn)的回歸方程
3.3.2 預(yù)測(cè)效果檢驗(yàn)
隨機(jī)抽取第八組觀測(cè)的數(shù)據(jù)進(jìn)行預(yù)測(cè)檢驗(yàn):將得到的其他站點(diǎn)的預(yù)測(cè)值與觀測(cè)值進(jìn)行比較。圖3即為高峰時(shí)段站點(diǎn)預(yù)測(cè)值與觀測(cè)值的比較折線圖,該預(yù)測(cè)平均相對(duì)誤差8.3%,預(yù)測(cè)效果良好。
圖3 預(yù)測(cè)分析曲線
本文通過(guò)公交站點(diǎn)客流量預(yù)測(cè)模型的建立,實(shí)現(xiàn)客流量預(yù)測(cè)模型對(duì)主要公交線路站點(diǎn)的宏觀劃分,為規(guī)劃和決策部門制定合理的運(yùn)營(yíng)計(jì)劃提供理論依據(jù),進(jìn)而實(shí)現(xiàn)公交線網(wǎng)優(yōu)化,為公交智能調(diào)度提供基礎(chǔ),最終緩解交通擁擠、居民出行難等問(wèn)題,從而加快城市世界性發(fā)展的進(jìn)程。
[1]王春雨.公交客流數(shù)據(jù)分析的研究[D].石家莊:河北工業(yè)大學(xué),2006.
[2]韓霜南.發(fā)展公共交通智能調(diào)度系統(tǒng)方案的研究探討[J].安防科技,2006(11):21-22
[3]許麗莉.聚類分析的算法及應(yīng)用[D].長(zhǎng)春:吉林大學(xué),2010.
[4]劉艷霞.數(shù)據(jù)挖掘中聚類分析技術(shù)的研究與應(yīng)[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2008(6).
[5]朱曉蘭.模糊聚類在物流園區(qū)網(wǎng)絡(luò)布局規(guī)劃中的應(yīng)用[D].上海:上海交通大學(xué),2007.
[6]劉煒.聚類分析在高校就業(yè)工作中的應(yīng)用研究[D].哈爾濱:東北林業(yè)大學(xué),2011.
[7]方來(lái).基于逐步回歸方法對(duì)甘肅省投資環(huán)境落后的原因分析[D].蘭州:蘭州商學(xué)院,2007.
[8]韓雨萍.利用逐步回歸分析方法測(cè)算高職體育課運(yùn)動(dòng)量的研究[J].價(jià)值工程,2010(6).
[4]高倩倩,邢秀鳳,姚傳進(jìn).基于逐步回歸分析的糧食產(chǎn)量影響因素研究[J].當(dāng)代經(jīng)濟(jì),2010(9).
[10]張鵬.公交調(diào)度系統(tǒng)的軟件設(shè)計(jì)與實(shí)現(xiàn) [J].黑龍江工程學(xué)院學(xué)報(bào):自然科學(xué)版,2013,27(3):37-43.
Forecasting the passenger flow of public transit stations
ZHANG Peng1,2,LU Yao1
(1.Dept.of Automobile and Traffic Engineering,Heilongjiang Institute of Technology,Harbin 150050,China; 2.College of Transportation,Northeast Forestry University,Harbin 150040,China)
Bus,as an important part of the urban transportation,is one of the critical urban infrastructures.It studies the passenger collector-distributor volume of No.104 bus of Harbin during the rush hour,of which the cluster analysis is used to calculate the distance and draw the cluster trend diagram.Then it classifies the bus stations and adoptes the stepwise regression and SPSS statistical analysis software to establish the regression equation for the representative stations and other ones,aiming to forecast the passenger flow.The research has achieved good results.
cluster analysis; public transport; regression analysis; passenger flow; forecast
2013-12-09
黑龍江工程學(xué)院大學(xué)生創(chuàng)新訓(xùn)練項(xiàng)目(201311802069)
張 鵬(1979-),男,講師,博士研究生,研究方向:交通管理與控制;交通運(yùn)輸規(guī)劃與管理.
U491
A
1671-4679(2014)03-0027-05
郝麗英]