劉欣彤 黃小龍 謝秉磊
(哈爾濱工業(yè)大學(深圳)研究生院 廣東 深圳 518055)
隨著城市的不斷發(fā)展,公交優(yōu)先及公交都市等理念越來越深入人心,而更加高效及更具前瞻性的公交調度策略是公交優(yōu)先戰(zhàn)略的保障。短時公交客流作為公交資源配置及公交網(wǎng)絡規(guī)劃的重要依據(jù),其精確程度關乎公交運營調度策略的成敗[1-3]。研究表明,居民出行行為受降雨等不利天氣條件的影響較大,從而影響公交客流的變化規(guī)律。據(jù)統(tǒng)計,北上廣深四大一線城市的降雨天數(shù)占全年的占比都超過了20%,可見降雨是生活中最為常見的不利天氣。因此,研究雨天短時公交客流的變化規(guī)律,進而提高短時公交客流的預測精度,是提高公共交通系統(tǒng)運力和服務水平,滿足居民精細化多樣化交通需求的有效方式。
國外相關學者對于天氣對公交影響及短時公交客流預測等方面都開展了比較深入的研究,取得了較為豐碩的理論成果。部分學者從不同角度探究不利天氣與居民出行需求的聯(lián)系,如Cools等[4]從描述性分析和獨立性測試2個方面研究了天氣對出行需求的影響,結果表明不利天氣對居民的非剛性出行需求影響較大;Khattak等[5]研究了不利天氣條件對出行行為的影響,得出了出行者遇到不利天氣會改變其原有出行方式的結論;短時客流預測方面,Xue等[6]及Ma等[7]都提出了多模式深度融合的預測模型,事實證明混合預測模型預測精度優(yōu)于單個預測模型;Bai等[8]提出多模式深度融合的(MPDF)方法,將AP聚類分析與DBN相結合,提高了短時公交客流預測的精度,Teng等[9]分別用ARIMA模型和RBF模型預測短時公交客流的線性與非線性部分,實驗證明此種方法比單一的預測模型具有更高的準確率。
反之國內學者尚未將天氣因素與短時客流預測統(tǒng)籌考慮,研究也不成體系。天氣對出行行為影響方面,張本森[10]及王健等[11]研究了冰雪條件下居民的出行行為,指出冰雪天氣會影響居民的出行行為。短時公交客流預測方面,薛紅軍等[12]提出一種基于決策樹的非參數(shù)預測模型,具有較高的準確性和穩(wěn)定性;鄧滸楠等[13]和鄒巍等[14]分別用最小二乘、遺傳算法與小波神經(jīng)網(wǎng)絡結合的方法預測短時公交客流,具有良好的預測效果;袁堅[15]用貝葉斯模型從時間和空間2個不同角度進行預測,實用性較強。
短時公交客流預測作為客流預測的重要組成部分[16],近年來越來越受到國內外專家學者的重視,并取得了一系列研究成果。國內外學者的研究主要集中在公交客流的日變化規(guī)律,尚未考慮更短時間間隔的變化規(guī)律;對于不利天氣對公交客流的影響研究較少,且主要集中在交通流方向?,F(xiàn)有的研究都撇開具體影響因素而僅對數(shù)據(jù)進行簡單非參數(shù)回歸,時效性和準確性都有待提高。筆者提出了一種適用性強且時效性高的SVM-KNN預測模型,并用深圳市公交客流數(shù)據(jù)進行了效果驗證。
筆者以2014年深圳市南山區(qū)的部分公交線路前10個月公交IC卡數(shù)據(jù)為基礎數(shù)據(jù),通過對數(shù)據(jù)的預分析處理建立初始數(shù)據(jù)庫,其中日類型用“0”,“1”分別表示工作日及周末;天氣類型則記為無雨(“0”)及有雨(“1”);以0,1,2,3,…表示不同線路名稱;降雨等級記為w(1),w(2),…,w(n),時間間隔為15 min,分別用0,1,2,3,4,5代表6個等級代表雨量的大小,從0到5雨量依次增大;相應時段的客流量記為V(1),V(2),…,V(n),得到的分類標簽見表1。
表1 公交客流歷史數(shù)據(jù)庫
通過計算Pearson系數(shù)來探究降雨天氣對公交客流的影響,計算見式(1)。
(1)
其中,r>0,r<0及r=0分別表示正相關,負相關及不相關。為了消除時變性引起的差異,采用Kalkstein等[17]及Singha等[18]提出的“小時客流偏差率”eth為客流量。具體計算見式(2)。
(2)
按上述方法對數(shù)據(jù)進行分析,得表2。
表2 降雨天氣與客流量的相關性分析
由上表可知,工作日降雨天氣與公交客流存在較強的負相關關系,周末存在極強的負相關關系。對比r可知,不同日類型中,降雨對非工作日公交客流影響較大,這是因為工作日出行多為以工作為目的剛性通勤需求,剛性需求幾乎不受外界因素影響;而周末出行主要為旅游、購物等彈性需求,一旦出現(xiàn)降雨等不利天氣情況,居民大多會改變出行方式或者取消出行。
采用控制變量的方法從不同方面分析不同降雨量對公交總體客流的影響,并用平均差及顯著性進行檢驗,其中自變量為降雨強度,因變量為客流偏差率,此外,列出了m299及m369兩路公交車進行對比,見表3~4。
表3 不同日類型公交線路偏差客流量與各降雨等級的多重比較結果
表4 不同降雨量對公交客流的影響分析
由以上表3~4可以看出:在總體上,降雨天氣會減少居民的出行需求,隨著雨量的增大,對客流的不利影響也越大。從不同日類型分析,周末客流受降雨的影響較大,這是由于居民周末出行多為彈性出行,較易更換或取消;從不同出行時段分析,非高峰時段客流受降雨的影響較大;從不同公交線路分析,不同性質及重要程度的公交線路的客流受到降雨天氣的影響程度不同。
(支持向量機)SVM是一種基于統(tǒng)計理論基礎上的有監(jiān)督機器學習算法,其具有良好的分類效果,能將大量的數(shù)據(jù)進行快速有效的分類,但由于其在分界面上的分類具有易錯性,所以不能單獨用于預測短時公交客流;(K近鄰算法)KNN是一種較為成熟也容易實現(xiàn)的非參數(shù)回歸算法,其不僅可分類也可用于回歸預測,且預測精度高,無需參數(shù)標定,在各領域的非線性參數(shù)回歸分析中有廣泛的應用,但其需尋遍整個空間尋找K個最近鄰,計算量大且效率低下,在大數(shù)據(jù)樣本上的預測上效果不佳。
因此,本文采用SVM與KNN二者相融合的算法,將兩者的優(yōu)點相結合,既降地了錯誤率,提高了預測精度,又大大提高其計算效率。具體步驟如下。
1)子數(shù)據(jù)庫的生成。選用LibSVM對上文建立的歷史數(shù)據(jù)庫進行分類,其中核函數(shù)選取RBF核函數(shù),在訓練過程中采用GirdSearch尋找最佳的罰系數(shù)c和參數(shù)γ,將相同標簽的數(shù)據(jù)定義為一個子數(shù)據(jù)庫,并用SVM算法來識別搜索子數(shù)據(jù)庫,RBF核函數(shù)見式(3)。
(3)
2)基于KNN的模式識別。
(1)定義狀態(tài)向量。狀態(tài)向量一般指影響預測客流的相關影響因素,選取預測時段t的前m個時段的客流量為狀態(tài)向量1,用X1(t)表示,m的取值由自相關系數(shù)得出;由于本文考慮天氣因素,選取與客流關系較為密切的天氣變量定為狀態(tài)向量2,用X2(t)表示見式(4)~(5)。
X1(t)=[V(t-m+1)V(t-m+2) …V(t) ]
(4)
X2(t)=[w(t)w(t+1)…w(t+n-1) ]
(5)
(2)定義距離準則。采用加權歐氏距離,狀態(tài)向量1與狀態(tài)向量2的加權歐氏距離見式(6),其中d為總狀態(tài)向量的加權歐式距離。
(6)
3)客流預測。
(1)近鄰搜索。采用基于聚類分析的變K近鄰搜索算法,尋找K個最近鄰值;
(2)客流預測。各近鄰的權重大小取決于其對預測值的貢獻的大小,各近鄰權重見式(7)。
(7)
式中:di為第i個近鄰與狀態(tài)向量之間的歐式距離;d為各加權距離倒數(shù)之和。
(8)
依據(jù)上述算法原理及算法的基本步驟,在結合前人算法設計的基礎上,得出本算法流程圖,見圖1。
圖1 SVM-KNN預測算法流程示意圖Fig.1 Flow diagram about SVM-KNN prediction algorithm
據(jù)深圳市南山區(qū)氣象統(tǒng)計資料,選取降雨時長均超過8 h的7月18日、8月19日、8月20日和9月16日的長時間降雨天氣作為研究日期。同時為了避免片面性,除了選取m299路為主要研究對象之外,另外選取深圳市南山區(qū)36路、74路及m369路進行對比研究。
短時公交客流預測的目是優(yōu)化公交發(fā)車間隔,提高服務水平及居民出行的幸福感,因此需確保短時公交客流預測的時效性及準確性?;谝陨峡紤]本文采用平均絕對誤差(MAE)、平均相對誤差(MAPE)、均方誤差(MSE)及均方相對誤差(MSPE)大誤差指標來評價預測結果的可靠度。
為了分析預測結果,本文選取的預測時段為06:30—22:30,時間間隔為15 min。按照上述預測步驟,分別進行了實時預測。圖2為m299路公交車預測客流量與實際值對比結果圖,圖中橫坐標為6:00-22:30中每隔15 min的預測次數(shù)(橫坐標為1時代表6:15,依此類推),縱坐標為客流量;表5是根據(jù)預測各線路在不同日期的評價指標值對比結果。
圖2 m299路公交車預測客流量與實際值對比示意圖Fig.2 A schematic diagram of the comparison between the forecast passenger flow and the actual value of m299
公交線路MAEMSEMAPEMSPE7月18日366.2218.0360.0980.132748.72610.3710.0810.103m2996.0087.1640.0860.106m36911.74814.0260.1150.152平均8.1769.8980.0950.1238月19日368.74411.1190.1050.129748.75410.7170.0640.083m2996.5788.2120.0860.111m36912.07615.2320.1020.126平均9.03711.3210.0890.1138月20日366.9148.3380.0850.098749.44310.9740.0670.076 7m2997.2759.1150.0880.103m36912.82220.0670.0950.119平均9.11312.1240.0840.0989月16日366.2588.0810.0980.152747.7069.4690.0670.096m2994.1856.3510.0520.065m36911.54914.3270.1190.148平均7.4259.5570.0850.114 9
由表5可以看出,預測數(shù)據(jù)的MAE和MAPE都相對較小,結果具有較高的可靠度,可用于預測降雨條件下的短時公交客流預測。
(自回歸積分滑動平均模型ARIMA)及(徑向基函數(shù)RBF)也常用于短時客流預測,為分析SVM-KNN預測方法的優(yōu)劣,需要與以上2種方法進行橫向對比。本文選取m299路短時公交客流進行ARIMA及RBF預測,將預測結果與SVM-KNN算法進行對比,圖3和圖4分別為基于ARIMA和RBF對m299路短時公交客流預測的結果,表6為3種預測模型評價指標的對比。
圖3 ARIMA模型預測m299路 公交線路客流結果示意圖Fig.3 The result of passenger flow prediction about m299 by ARIMA model
圖4 RBF模型預測m299路 公交線路客流結果示意圖Fig.5 The result of passenger flow prediction about m299 by RBF model
預測方法MAEMSEMAPEMSPEARIMA(不考慮降雨因素)Min17.61920.7080.1830.220Max19.02424.9260.2290.292平均18.53823.1450.2110.268ARIMA(考慮降雨因素)Min12.63314.9040.1380.180Max14.44517.7690.1580.197平均13.36216.1530.1510.187RBFMin12.02113.8430.1240.157Max12.20814.8380.1440.185平均12.08314.3560.1340.168SVM-KNNMin7.4259.5570.0840.098Max9.11412.1240.0950.123平均8.43710.7250.0880.113
由以上分析,并結合3種預測模型的特點,可以得出結論如下。
1)在降雨天氣天氣條件下,考慮降雨因素的ARIMA模型由于引進合理的折減系數(shù),其各項評價指標明顯比不考慮降雨因素的ARIMA預測模型低,可見要提高客流預測的準確性就必須考慮降雨天氣。
2)從評價指標對比分析RBF和AMIMA 2種模型,RBF模型的預測結果的可靠度要高于AMIMA預測模型,可見RBF模型在精度上要優(yōu)于AMIMA模型。
3)SVM-KNN預測算法的MAE,MSE,MAPE及MSPE值均小于其他2種模型,可見基于多模式深度融合的SVM-KNN的預測精度比單一預測模型的預測精度高。
將SVM與KNN算法的優(yōu)點有機結合,分析了降雨與公交客流相關關系及不同降雨強度對公交客流的影響程度,提出了基于SVM-KNN的降雨天氣下短時公交客流預測模型,最后依據(jù)實際數(shù)據(jù)對模型的預測效果進行了驗證,結果表明,此算法具有較高的準確率,可以預測多條線路,且與其它預測模型(如ARIMA與RBF模型)相比具有更好的擬合效果。
由于空間上短時公交客流變化規(guī)律不盡相同,所以未來的研究可以結合公交GPS數(shù)據(jù)研究各個不同站點公交客流變化,進一步加強短時公交客流預測的模型的普適性。