何慶齡,裴玉龍,徐慧智,侯 琳
(東北林業(yè)大學(xué) 土木與交通學(xué)院,黑龍江 哈爾濱 150040)
公交客流波動趨勢與空間預(yù)測分析可為公交運營管理部門有針對性的制定公交車輛調(diào)度計劃及運營管理方案提供可靠依據(jù),提升公交運營效率,保障公交服務(wù)水平與質(zhì)量,并為公交乘客出行提供客流波動趨勢,以便合理規(guī)劃公交出行線路。
唐繼強等[1]提出了考慮季節(jié)特征分類的公交客流預(yù)測模型;陸百川等[2]使用公交IC卡數(shù)據(jù),構(gòu)建了RBF神經(jīng)網(wǎng)絡(luò)客流預(yù)測模型,該模型相較于傳統(tǒng)方法在預(yù)測精度上有所改善;黃益紹等[3]構(gòu)建了粗糙集和改進PSO-SVM的公交客流預(yù)測模型,該模型可有效簡化訓(xùn)練樣本,克服SVM參數(shù)選擇的盲目性,并提高預(yù)測精度;Q.OUYANG等[4]基于Xgboost模型提取公交客流出行特征,構(gòu)建了LSTM網(wǎng)絡(luò)客流預(yù)測模型,該模型能實時掌握公交客流動態(tài)變化情況,可為突發(fā)客流預(yù)警提供理論依據(jù);H.ZHAI等[5]提出了基于時間序列模型、深度信念網(wǎng)絡(luò)和改進增量極限學(xué)習(xí)機的分層混合預(yù)測模型,該模型通過對不同時間尺度的公交客流進行分層并預(yù)測,有效提高了預(yù)測精度。
C.LI等[6]運用聚類算法生成公交客流聚類區(qū)間,提出了基于聚類區(qū)間的PSO-SVM預(yù)測模型;W.LIU等[7]探析了區(qū)域公交站點的容量,構(gòu)建了區(qū)域公交站點客流預(yù)警模型;N.NAGARAJ等[8]提出了基于聚類劃分的LSTM網(wǎng)絡(luò)預(yù)測模型;陳維亞等[9]提出了基于K-means聚類算法的組合預(yù)測模型,該模型通過考慮天氣影響和不同時段公交客流數(shù)據(jù)的時變特征,提高了預(yù)測結(jié)果精度;T.TANG等[10]提出了基于梯度提升決策樹的客流預(yù)測模型,該模型不僅預(yù)測精度高,且能對公交客流影響因素進行排序,研究認為將天氣變量和個人出行特征作為影響因素可有效提高模型預(yù)測精度。
現(xiàn)有研究主要通過分析公交客流在不同時間尺度上的需求特征和天氣條件等因素對客流總量的影響,探究不同因素與公交客流的影響關(guān)系,構(gòu)建以提高公交客流點時間預(yù)測結(jié)果精度為目的模型,忽視了公交客流的波動趨勢與空間范圍。筆者運用模糊信息?;?fuzzy information granulation,FIG)和SVM,構(gòu)建公交客流波動趨勢與空間預(yù)測模型,將公交客流預(yù)測由點擴展到面,避免現(xiàn)有模型忽視公交乘客出行不確定性和模糊性造成精確時間點公交客流預(yù)測結(jié)果應(yīng)用的局限性。
公交客流波動特征是指在一定時間段內(nèi)公交客流變化的趨勢和空間范圍,公交客流波動特征分析可從不同層次和維度定量探究公交客流變化趨勢,有效識別公交運營調(diào)度及管控的薄弱環(huán)節(jié),揭示公交客流演化規(guī)律,為運營管理部門制定科學(xué)合理的車輛調(diào)度計劃及運營管理措施提供可靠依據(jù)。
公交客流波動特征反映的是公交線路客流的整體變化趨勢情況,由圖1公交客流出行特征可知,不同時間段內(nèi)不同卡類型的公交乘客波動特征趨勢與空間范圍不盡相同,但均具有以下特征:
1)時間屬性。公交客流波動是公交乘客在一定時間段內(nèi)出行需求變化的客觀反映,相同公交線路不同時間段內(nèi)公交客流波動亦不相同,故具有時間屬性。
2)空間屬性。公交客流波動受公交線路周邊土地利用特征影響,相同時間段內(nèi)不同土地利用特征周邊公交客流波動亦不相同,故具有空間屬性。
3)對象屬性。公交客流波動是從宏觀層面分析客流變化趨勢情況,是將公交線路全部客流視為整體而言。
4)條件屬性。公交客流波動反映的是公交乘客出行需求變化情況,只有公交乘客出行目的與次數(shù)改變才能導(dǎo)致新的公交客流波動變化。
5)結(jié)果屬性。公交客流波動是表征公交線路服務(wù)水平的定量指標(biāo),可根據(jù)公交乘客歷史出行特征數(shù)據(jù)預(yù)測波動趨勢與空間范圍,具有可預(yù)測性。
圖1 公交客流出行特征Fig. 1 Travel characteristics of bus passenger flow
選擇合理可行的影響因素進行公交客流預(yù)測,可有效減少前期數(shù)據(jù)預(yù)處理的工作量,提高預(yù)測模型精度。筆者通過以下原則進行影響因素的選擇。
1)直觀性。即公交客流影響因素的變化容易被理解和接受。如老年卡和普通卡類型客流的變化在不同時間段對公交客流總量的影響不同。
2)可獲取性。即所選公交客流影響因素能直接獲取,如通勤和非通勤客流可按老年卡和普通卡類型獲取。平均溫度、相對濕度和空氣質(zhì)量指數(shù)(AQI)可由相關(guān)天氣網(wǎng)站整理獲得。
3)靈敏性。即所選公交客流影響因素對公交客流總量影響較明顯,能影響并反映公交客流的波動趨勢。
鑒于以上原則,筆者選取平均溫度、相對濕度和空氣質(zhì)量指數(shù)(AQI)等因素作為公交客流的外部影響因素,其與公交客流總量的變化趨勢見圖2。
圖2 影響因素與公交客流變化趨勢Fig. 2 Influencing factors and change trend of bus passenger flow
筆者采用二元定距變量相關(guān)分析中Pearson簡單相關(guān)系數(shù)來探討公交客流影響因素間的相關(guān)程度。Pearson簡單相關(guān)系數(shù)r的取值范圍為[-1,1]。r的大小表示影響因素間線性相關(guān)程度的強弱。當(dāng)|r|≥0.7時,可認為兩因素間強相關(guān);當(dāng)0.4≤|r|<0.7時,可認為兩因素中度相關(guān);當(dāng)0.2≤|r|<0.4時,可認為兩因素弱相關(guān);當(dāng)|r|<0.2時,可認為兩因素極弱相關(guān)。Pearson簡單相關(guān)系數(shù)的公式為:
(1)
根據(jù)式(1)可計算得到公交客流總量、學(xué)生卡、普通卡、老年卡、平均溫度、相對濕度和AQI等影響因素間的相關(guān)系數(shù),具體見圖3。
注:*為P≤0.0.5,**為P≤0.01,***為P≤0.001。 圖3 公交客流影響因素相關(guān)程度Fig. 3 Correlation degree of influencing factors of bus passenger flow
由圖3可知,老年卡和普通卡的客流量與公交客流總量呈強正相關(guān),學(xué)生卡客流量與公交客流總量呈中度正相關(guān),主要是因為在IC卡數(shù)據(jù)中,以老年卡和普通卡客流量居多,學(xué)生卡客流量占比較少。平均溫度與公交客流總量呈弱正相關(guān),主要原因是平均溫度可作為間接衡量天氣好壞的因素,溫度較低的情況下,非通勤(老年卡)乘客出行減少。相對濕度與公交客流總量呈極弱正相關(guān),相對濕度是反映戶外環(huán)境相對于人體舒適度的指標(biāo),相對濕度較高,適合于戶外出行,非通勤公交客流量會增加。AQI指數(shù)與公交客流量呈負極弱相關(guān),該指數(shù)越高,戶外空氣質(zhì)量越差,可影響公交出行方式選擇。
信息?;菍?fù)雜的信息數(shù)據(jù)按照一定的特征分解為若干個子集并將子集視為信息粒進行研究。由于模糊集理論具有優(yōu)化整合信息不確定性和不完全性方面的優(yōu)勢,筆者選用模糊集理論的信息?;P瓦M行時間序列樣本數(shù)據(jù)的模糊粒化處理,其步驟可分為:劃分?;翱诤蜆颖緮?shù)據(jù)信息模糊化處理。
劃分?;翱谑菍r間序列樣本數(shù)據(jù)分割成若干個時間子序列作為模糊?;治龃翱?。樣本數(shù)據(jù)信息模糊化處理則是將已劃分的?;翱跁r間序列樣本數(shù)據(jù)進行信息模糊化處理,生成在已劃分窗口上建立的合理模糊信息粒,使其取代原窗口中時間序列樣本數(shù)據(jù)信息,降低模型空間。
模糊信息?;菍⒔o定時間序列樣本數(shù)據(jù)看成單窗口進行信息模糊化處理,目的是在時間序列樣本數(shù)據(jù)上建立模糊粒子P,以便合理的描述模糊概念G,信息模糊化關(guān)系式為:
gi?xisG
(2)
樣本數(shù)據(jù)信息模糊化處理是確定模糊概念G的隸屬函數(shù)的過程,即A=μG,以便用模糊粒子P代替模糊概念G,即P=A(x)。
用于模糊化處理樣本數(shù)據(jù)信息的隸屬函數(shù)主要有三角型、梯型、高斯型和拋物型等,其中以三角型較為常用,隸屬函數(shù)為:
(3)
式中:a、m、b為三角型模糊隸屬函數(shù)的參數(shù),用以表征原始樣本數(shù)據(jù)窗口?;蟛▌幼兓淖钚≈?、均值和最大值。
支持向量機(support vector machine,SVM)算法可通過少量樣本解決非線性高維空間問題,具有理論基礎(chǔ)完善,計算簡單,通用性和有效性較強的優(yōu)勢,具備很高的實際應(yīng)用與推廣價值。
支持向量機是將原樣本數(shù)據(jù)空間中非線性回歸問題轉(zhuǎn)化為高維空間線性問題,通過構(gòu)建核函數(shù),對樣本數(shù)據(jù)進行回歸預(yù)測的過程,其結(jié)構(gòu)見圖4。
圖4 支持向量機結(jié)構(gòu)Fig. 4 Support vector machine structure
對于給定數(shù)據(jù)樣本集合{(xi,yi);i=1,2,…,n},若將xi視為輸入數(shù)據(jù),yi視為輸出數(shù)據(jù),則可將高維特征空間中的線性回歸函數(shù)表示為:
f(x)=wx+b
(4)
為使其能夠?qū)颖炯M行回歸擬合,將損失函數(shù)定義為:
(5)
式中:f(x)為回歸函數(shù)的擬合值;yi為對應(yīng)實際輸出向量;ε為松弛變量。
選取K(xi,xj)=φ(xi)φ(xj)作為可將原非線性樣本數(shù)據(jù)從低維轉(zhuǎn)換為高維空間便于建模的核函數(shù)和適當(dāng)?shù)膽土P因子C,則用于函數(shù)逼近的支持向量機模型為:
(6)
(7)
模型的最優(yōu)解及相關(guān)參數(shù)可求解為:
(8)
(9)
(10)
式中:nsv為輸入數(shù)據(jù)個數(shù)。
由式(8)和式(10)可得回歸函數(shù)表達式為:
(11)
筆者將公交客流數(shù)據(jù),以一周作為窗口劃分長度,采用三角模糊函數(shù)對樣本數(shù)據(jù)進行模糊粒化處理后,使用SVM對模糊?;蟮臅r間序列數(shù)據(jù)進行擬合回歸,訓(xùn)練得到適用于公交客流波動趨勢與空間范圍預(yù)測模型?;贔IG-SVM的公交客流波動趨勢與空間預(yù)測模型流程見圖5,具體步驟如下:
1)公交客流影響因素選擇及數(shù)據(jù)樣本整理。
2)公交客流數(shù)據(jù)樣本窗口劃分,筆者采用一周作為窗口劃分的標(biāo)準(zhǔn),則窗口長度為原始數(shù)據(jù)樣本的長度除以7。
3)選用三角型模糊隸屬函數(shù)對公交客流窗口時間序列樣本數(shù)據(jù)進行信息模糊化處理。
4)計算得到模糊信息?;幚砗蟮拇翱跁r間序列樣本數(shù)據(jù)。
5)通過網(wǎng)格搜索交叉驗證尋優(yōu)的方式得到最優(yōu)核函數(shù)參數(shù)g和懲罰因子C。
6)訓(xùn)練得到最優(yōu)SVM擬合回歸預(yù)測函數(shù)。
7)確定公交客流波動趨勢和空間范圍,并驗證預(yù)測效果。
圖5 FIG-SVM模型預(yù)測流程Fig. 5 FIG-SVM model prediction process
筆者選用哈爾濱市1路公交IC卡數(shù)據(jù)和歷史天氣數(shù)據(jù)對FIG-SVM公交客流預(yù)測模型進行實證研究。將2021年3月1日至2021年10月31日,共計245 d的公交IC卡數(shù)據(jù)生成時間序列,見圖6。
圖6 公交客流時間序列Fig. 6 Time series of bus passenger flow
根據(jù)公交客流周期性波動特征,周一至周五通勤客流占比較高,周末雙休非通勤客流占比較多。筆者將245 d的公交客流樣本數(shù)據(jù)以7 d作為窗口長度進行劃分后,最終得到35個公交客流模糊?;翱?。鑒于筆者需用公交客流模糊粒化處理后窗口內(nèi)的最小值(LOW)、均值(R)和最大值(UP)信息,探析公交客流的波動趨勢和空間范圍,故選用三角型模糊隸屬函數(shù)對公交客流樣本數(shù)據(jù)進行模糊信息粒化處理,處理后的時間序列樣本數(shù)據(jù)見圖7,將模糊?;蟮臅r間序列樣本數(shù)據(jù)進行(0,1)區(qū)間歸一化后的時間序列樣本數(shù)據(jù)見圖8。
圖7 模糊信息?;梢晥DFig. 7 Visual diagram of fuzzy information granulation
圖8 歸一化后的粒化值Fig. 8 Normalized granulation value
筆者將公交客流時間序列樣本數(shù)據(jù)以周為長度進行窗口信息模糊?;幚砗蟮玫介L度為35的新時間序列樣本數(shù)據(jù),用前34周樣本數(shù)據(jù)訓(xùn)練得到預(yù)測模型擬合回歸函數(shù),將第35周樣本數(shù)據(jù)用以檢驗預(yù)測模型有效性。將LOW、R、UP這3組序列分別作為SVM的輸入,使用網(wǎng)格搜索交叉驗證尋優(yōu)方法得到擬合回歸預(yù)測模型懲罰因子C和核函數(shù)參數(shù)g,結(jié)果如下:
① LOW:交叉驗證均方誤差為5 258.45,最優(yōu)C為181.02,最優(yōu)g為0.044 2;② R:交叉驗證均方誤差為1 992.14,最優(yōu)C為181.02,最優(yōu)g為0.176 8;③ UP:交叉驗證均方誤差為1 558.25,最優(yōu)C為256,最優(yōu)g為0.088 4。
公交客流擬合回歸預(yù)測模型參數(shù)選擇結(jié)果等高線圖和3D視圖分別見圖9和圖10。
圖9 參數(shù)選擇結(jié)果等高線Fig. 9 Contour map of parameter selection results
圖10 參數(shù)選擇結(jié)果3D視圖Fig. 10 3D view of parameter selection results
利用最優(yōu)參數(shù)進行擬合預(yù)測,3個模糊粒子LOW、R、UP擬合結(jié)果與原始值見圖11~圖13,原始值與預(yù)測值的誤差結(jié)果見圖14。
運用FIG-SVM模型對第35周公交客流波動趨勢和空間進行預(yù)測,并將預(yù)測結(jié)果與時間序列模型ARMA和遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果的最小值、均值和最大值進行對比分析。預(yù)測效果采用絕對誤差、相對誤差和置信區(qū)間極差3項指標(biāo)進行分析,表1分別為FIG-SVM、ARMA和GA-BP模型的預(yù)測結(jié)果對比。
圖11 LOW原始值與預(yù)測值Fig. 11 LOW original value and predicted value
圖12 R原始值與預(yù)測值Fig. 12 R original value and predicted value
圖13 UP原始值與預(yù)測值Fig. 13 UP original value and predicted value
圖14 原始值與預(yù)測值誤差Fig. 14 Error between original value and predicted value
表1 客流預(yù)測結(jié)果比較Table 1 Comparison of passenger flow forecast results
由表1中數(shù)據(jù)對比分析可知,FIG-SVM對第35周內(nèi)公交客流波動特征最小值、均值、最大值和極差的預(yù)測相對誤差分別為8.42%、7.39%、3.65%、26.86%;ARMA預(yù)測相對誤差分別為44.55%、31.40%、19.48%、28.76%;GA-BP預(yù)測相對誤差分別為14.85%、9.98%、21.82%、35.24%。由此可見,筆者提出的模型在公交客流波動趨勢與空間預(yù)測效果方面具有良好性能,且該模型平均運行時間為6.69 s,遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)模型平均運行時間為88.68 s,具有預(yù)測時間較短的優(yōu)勢。
運用支持向量機對公交客流模糊信息粒子LOW、R、UP進行回歸預(yù)測,最終可得到第35周內(nèi)對應(yīng)模糊粒子值為925,1 215,1 591,該模型預(yù)測得到第35周內(nèi)每日公交客流的變化范圍結(jié)果精度較高,預(yù)測結(jié)果相較于前一周公交客流模糊粒子值631,1 004,1 575,整體呈上升趨勢,表明該模型預(yù)測結(jié)果可靠,能夠為相關(guān)決策提供依據(jù),具有一定的實用性。
FIG-SVM模型通過信息?;椒ㄔ诮档凸豢土鲿r間序列樣本數(shù)據(jù)時空復(fù)雜度的同時,保留了對細顆粒度下時間序列樣本數(shù)據(jù)的有效信息,運用SVM對模糊?;蟮臅r間序列樣本數(shù)據(jù)進行擬合回歸,預(yù)測得到公交客流的波動趨勢與空間范圍與實際相符,且預(yù)測效果優(yōu)于時間序列和遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)。
該模型是基于每日IC卡數(shù)據(jù)建立的,未考慮非刷卡客流和疫情影響等因素,模型有待進一步完善。