熊 浩,韓 印 (上海理工大學(xué) 管理學(xué)院,上海 200093)
隨著生活水平的提高車輛數(shù)量的增加,擁堵已成為大城市出行亟待解決的問題,提出公交城市提高公共交通的利用率,促進(jìn)公共交通,以解決大城市的交通擁堵問題。然而,低準(zhǔn)時率的公共交通影響了人們對出行方式的選擇。人工智能技術(shù)的進(jìn)步,智慧城市理念的普及,使得人們對于公共交通到站時間預(yù)測采用智能化和自動化的方案。
現(xiàn)有的公交到港時間預(yù)測模型可以分為三類:交通流理論模型,時間序列分析模型和機器學(xué)習(xí)模型,根據(jù)它們的不同原理。交通流理論模型精度低,校準(zhǔn)困難??柭鼮V波器模型具有較高的預(yù)測精度,較強的可操作性和在線預(yù)測,但對異常觀測的抗干擾性較差?;跈C器學(xué)習(xí)方法的預(yù)測模型具有較高的精度,神經(jīng)網(wǎng)絡(luò)模型具有良好的學(xué)習(xí)能力,能夠很好地跟蹤非線性,非平穩(wěn)時間序列數(shù)據(jù)。但它需要大量的歷史數(shù)據(jù),并且存在諸如學(xué)習(xí)或?qū)W習(xí)不足以及局部最小化等問題。支持向量機是一種通過優(yōu)化方法解決機器學(xué)習(xí)問題的新工具。近年來,它已被用于公交車行程時間預(yù)測,并且當(dāng)數(shù)據(jù)樣本很小且維數(shù)很高時,它仍然可以做出更好的預(yù)測。
綜上所述,支持向量機模型能基于小數(shù)據(jù)樣本,預(yù)測出較準(zhǔn)確的到站時間。因此,本文旨在建立基于支持向量機理論的公交通行時間綜合預(yù)測模型,并在此基礎(chǔ)上,使用BRT數(shù)據(jù)作為數(shù)據(jù)庫,在不同時間段實現(xiàn)BRT行程時間預(yù)測,并將預(yù)測結(jié)果與實際到達(dá)時間進(jìn)行比較,以驗證模型的準(zhǔn)確性。分析了所提出的預(yù)測模型在不同時間段的適用性。
將公交的行程時間分為相鄰兩站之間的運行時間和本站的駐站時間。
其中:ti+1為到達(dá)i+1站點的時間;ti為到達(dá)i站點的時間;si為在i站點駐站時間;Ti,i+1為車輛在i和i+1站點之間各段運行時間。
在路段運行時,運行時間受天氣、路段、交叉口、發(fā)車時間、上下行等因素影響;在站臺停留時,駐站時間受到車輛、客流量、站臺形式、天氣等因素影響。
SVM的主要思想是將訓(xùn)練數(shù)據(jù)集非線性地映射到高維特征空間(這個高維特征空間是希爾伯特空間)。此非線性映射的目的是在映射到高維特征空間之后將輸入空間中的線性不可分?jǐn)?shù)據(jù)集轉(zhuǎn)換為線性可分離的數(shù)據(jù)集。然后創(chuàng)建分類超平面作為決策表面,以使正例和負(fù)例之間的隔離邊最大化,是結(jié)構(gòu)風(fēng)險最小化的近似實現(xiàn)。它具有在各種功能集中構(gòu)建功能的多功能性,不需要特定的功能形式,并且可以用于非線性系統(tǒng),比如輸出變量(如公交車行駛時間)和輸入變量(如交通狀況,客流要求等)之間的復(fù)雜關(guān)系。
SVM算法是具有線性約束的二次優(yōu)化問題,結(jié)果是唯一且最優(yōu)的。沒有其他神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法需要非線性優(yōu)化,容易導(dǎo)致陷入局部最小值的風(fēng)險。給定一組數(shù)據(jù)點 (x1,y1)、 (x2,y2)、 (x3,y3)、 (xk,yk),X表示輸入向量空間,Y表示輸出變量空間。SVM具有以下的函數(shù)形式:
其中:φ(x)是一種非線性映射函數(shù),可以將輸入向量空間X映射到高維特征空間H。
系數(shù)ω和b通過最小化規(guī)則化風(fēng)險函數(shù)進(jìn)行計算:
其中:第一項||ω||2稱為正則化項,最小化||ω||2可使函數(shù)盡可能平滑,提高函數(shù)的泛化能力。第二項)稱為經(jīng)驗風(fēng)險函數(shù),即通過測量不敏感損失函數(shù)得到的實驗誤差;常數(shù)C用于平衡結(jié)構(gòu)風(fēng)險與經(jīng)驗風(fēng)險,通常C>0。通過引入松弛變量ξi和并將上述問題轉(zhuǎn)換為以下形式:
為了解決上述優(yōu)化問題,引入拉格朗函數(shù)將上述形式轉(zhuǎn)化為以下對偶問題:
其中:ai和叫做拉格朗日因子。
則:
將核函數(shù)K(xi,xj)引入式 (7),得:
核函數(shù)K(xi,xj)為向量xi和xj在特征空間φ(xi)和φ(xj)上的內(nèi)積。根據(jù)現(xiàn)有文獻(xiàn),本研究選擇徑向基核函數(shù)進(jìn)行預(yù)測。徑向基核函數(shù)如下:
為了獲得結(jié)果最好的SVM模型,分別采用交叉驗證、粒子群算法和遺傳算法尋找參數(shù)C和γ的最優(yōu)組合。
影響公交車出行時間的因素非常復(fù)雜,包括天氣狀況、公交車運行時間、交叉口延誤、路況、緊急情況等,這些都可能導(dǎo)致公交車行程時間的非線性變化。SVM模型具有很強的非線性預(yù)測能力,可以應(yīng)用于模型預(yù)測。
因此在路段運行時,運行時間的影響因素包括天氣、路段、交叉口、發(fā)車時間、發(fā)車站點、上下行。在站臺停留時,駐站時間的影響因素包括車輛類型、客流量、站臺形式、站臺編號、天氣、到站時間。
遺傳算法(Genetic Algorithm,GA)最初是由美國Michigan大學(xué)Holland教授于1975年首次提出的,并出版了專著“自然與人工系統(tǒng)的適應(yīng)”,遺傳算法的名稱逐漸為人所知,繼承是生物的普遍特征,自生命誕生以來,它已經(jīng)開始了漫長的進(jìn)化過程。父母將遺傳信息傳遞給后代,后代具有與父母相同或相似的特征;突變是遺傳過程中親本和后代之間性狀的差異。它尋找基于自然進(jìn)化規(guī)則的解決問題,例如適者生存,其特征不受搜索空間是連續(xù)還是略有不同的限制。它也適用于大規(guī)模并行計算,為傳統(tǒng)數(shù)學(xué)方法難以解決或明顯無效、復(fù)雜、非線性和優(yōu)化的問題提供了一種新的有效方法。
遺傳算法基于自然選擇和生物遺傳機制,用于全局優(yōu)化,分類和評估其他數(shù)據(jù)挖掘技術(shù)的適用性。它通常包括3個基本操作,即父母選擇、親子交叉和子代變異。具體步驟如下:
(1)確定參數(shù)編碼方案,并以二進(jìn)制編碼模式編碼SVM相關(guān)參數(shù)。
(2)確定適應(yīng)度函數(shù),交叉驗證模式中的準(zhǔn)確率是遺傳算法的適應(yīng)度函數(shù)。
(3)遺傳算法優(yōu)化操作。
(4)遺傳優(yōu)化后,得到支持向量機的最優(yōu)參數(shù),最終得到最佳分類結(jié)果。
整個算法流程如圖1:
為了便于引入模型,之后要使用的主要模型參數(shù)符號如表1所示。
圖1 遺傳算法—SVM模型預(yù)測行程時間圖
表1 符號和參數(shù)
為了驗證模型的有效性,以上海市71路中運量公交線路為例對模型進(jìn)行計算。71路中運量公交線路東起延安東路外灘,西至申昆路樞紐,共計25個站點,全長28.8km。該線路的公交車輛上面均裝配有以GPS裝置為主體的記錄設(shè)備,該設(shè)備能夠采集公交車的實時經(jīng)緯度坐標(biāo)、到站時刻、離站時刻、站點名稱、站點編號、設(shè)備編號等信息,并將信息實時傳輸。每輛公交車的設(shè)備編號是唯一的,可用作匹配路段行程時間的標(biāo)識。
數(shù)據(jù)是2017年11月21日到11月24日的上海市71路中運量公交各項數(shù)據(jù)??偣驳玫?06 854條數(shù)據(jù),經(jīng)過分析,有效數(shù)據(jù)有91 863條。數(shù)據(jù)類型見表2和表3。
表2 BRT站間運行數(shù)據(jù)類型
表3 BRT駐站時間數(shù)據(jù)類型
上海市71路中運量線路及站點如圖2所示:
對處理后數(shù)據(jù)進(jìn)行分析,7天的客流數(shù)據(jù)進(jìn)行小時時間段分布,如圖3所示,得出此線路公交車高峰運行時間在早上7:00~9:00和晚上5:00~7:00。在此基礎(chǔ)上,對此線路運行站點客流進(jìn)行分析,得出全天的客流呈現(xiàn)雙駝峰,但早高峰剛性出行人數(shù)較多,所以短時上下車客流較多。
本實驗使用Matlab用于測試遺傳算法優(yōu)化模型的準(zhǔn)確性。
3.1.1 評價指標(biāo)確定
為了確定所研究的遺傳算法優(yōu)化參數(shù)的SVM模型預(yù)測結(jié)果的準(zhǔn)確性,將前3天數(shù)據(jù)平均值和預(yù)測當(dāng)天實際值作為比較加入,并且使用以下3個評估指標(biāo)來評估預(yù)測結(jié)果:平均絕對誤差(Mean Absolute Error,MAE),平均絕對誤差百分比(Mean Absolute Percentage Error,MAPE) 和均方根誤差(Root Mean Square Error,RMSE)。其計算公式見公式(10) 至公式(12)。
圖2 上海市71路中運量線路及站點圖
圖3 上海市71路中運量上下客人數(shù)柱狀圖
其中,N為觀測值、預(yù)測值對數(shù)。
3.1.2 結(jié)果對比
利用matlab對數(shù)據(jù)進(jìn)行預(yù)測,將其預(yù)測結(jié)果與實際結(jié)果進(jìn)行對比。由表4可以看到,GA預(yù)測出的數(shù)據(jù)雖跟實際值有8%~10%左右的誤差,但相比使用前3天的平均值得出的結(jié)果,GA預(yù)測更加精準(zhǔn)。
GA-SVM預(yù)測出的駐站時間偏差相比運行時間稍大,這是因為71路大部分是專有路權(quán),運行中所受干擾較普通公交小。
圖4顯示了早高峰相鄰每站時間的結(jié)果對比。在GA-SVM模型和平均值對比下,GA-SVM算出的每站時間趨勢與實際值更加相近,且偏差不大。但平均數(shù)趨勢不甚明顯,可能是由于平均數(shù)綜合了全天的數(shù)據(jù),本次只是早高峰的數(shù)據(jù)。
圖5更是驗證了之前的結(jié)果。圖5在前5站由于人少、交通干擾少,兩種算法的行程時間值和實際值偏差不大。但到達(dá)第6站之后進(jìn)入市區(qū),平均值出現(xiàn)大幅偏差,而GA-SVM的值趨勢仍趨近真實值,但由于模型學(xué)習(xí)了3天的全天數(shù)據(jù),本次實驗只針對早高峰,導(dǎo)致部分時間預(yù)測出現(xiàn)偏差較大。
圖4 相鄰每站時間預(yù)測結(jié)果對比
圖5 行程時間預(yù)測結(jié)果對比
本文預(yù)測了上海中運量車的到達(dá)時間,并將到達(dá)時間分為車站間的運行時間和車站的駐站時間。根據(jù)天氣、時間、公交車類型和平臺類型等影響因素,建立支持向量機回歸預(yù)測模型,并通過matlab驗證模型的準(zhǔn)確性。通過數(shù)據(jù)分析,討論了3天到達(dá)時間數(shù)據(jù)對后一天到達(dá)時間預(yù)測的影響,為決策者更好地選擇公交到達(dá)時間預(yù)測模型提供了指導(dǎo)。研究結(jié)果表明:
(1)所建立的基于遺傳算法參數(shù)尋優(yōu)的支持向量機模型,經(jīng)過數(shù)據(jù)學(xué)習(xí)后,能預(yù)測出較為準(zhǔn)確的快速公交到站時間和行程時間。結(jié)果表明,遺傳算法尋優(yōu)參數(shù)更加準(zhǔn)確。
表4 時間對比
(2)GA-SVM針對小批量數(shù)據(jù)的學(xué)習(xí)能預(yù)測出比較準(zhǔn)確的駐站時間和運行時間。相比平均值法,得出的時間更加精準(zhǔn),更加適用。