吳少健,江秋楓,盧潔楚,李子晗,朱潤峰
(廣東工業(yè)大學機電工程學院,廣州 510006)
眾所周知,公共交通能提高交通效率,并且具有低碳、運量大、承載率高的優(yōu)點。實現(xiàn)智能公交是發(fā)展智能交通的重要內容。合理調度公交車以有效治理交通擁堵,其中需要能精確預測公交車到站時間的方法。
公交車在行駛過程中受到諸多因素的影響,到達指定站點的時間難以準確預測。一些模型的提出,可以探索出公交車運行的機理,從而準確預測。
從文獻[1]可以看到公交車到站預測主要分為三類:第一類是基于公交車GPS數(shù)據(jù)的研究;第二類是基于公交IC卡數(shù)據(jù)的研究[2-3];第三類是將2種數(shù)據(jù)融合綜合研究。其所用建模大同小異,常用的有時間序列模型、卡爾曼濾波模型、人工神經(jīng)網(wǎng)絡模型[4-5]和支持向量機模型[6]等。
本研究結合社會車對公交車的影響,運用決策樹和隨機森林等6個模型預測公交到站時間,根據(jù)公交到站時間預測的特征和6個預測模型的特征等提出了可拓預測模型。測試結果可以看出,該模型有效并可接受。
數(shù)據(jù)來源于廣州市2019年3月1日公交進出站數(shù)據(jù)和出租車GPS數(shù)據(jù)。
公交車GPS終端系統(tǒng)在依次報站的同時,對公交車進出站信息進行記錄。每一條記錄的內容包括了很多屬性,如表1所示。
表1 公交車數(shù)據(jù)屬性
出租車GPS數(shù)據(jù)記錄了出租車在廣州道路上行駛的情況,數(shù)據(jù)由出租車上的GPS發(fā)出,并在終端進行記錄。記錄周期為15 s左右1次。每一條記錄包括很多屬性,具體內容如表2所示。
公交路線140路經(jīng)過廣州大道、東風東路、黃埔大道等主干道,途經(jīng)珠江新城等客流車流大的商業(yè)密集區(qū),有較高的研究價值??紤]140路公交路線經(jīng)過的主要干道以及兩站點之間的距離等情況,最終選擇“石牌村站—冼村站—人民日報廣東分社站”3站之間的路段作為研究對象。
表2 公交車數(shù)據(jù)屬性
1.2.1 公交車進出站數(shù)據(jù)的預處理
(1)將數(shù)據(jù)導入數(shù)據(jù)庫,進行篩選。在SQL Server中,以ROUNT_NAME為140路為限制條件進行篩選,初步得到140路公交車進出站的所有數(shù)據(jù)。
(2)將篩選后的數(shù)據(jù)進行排序以及數(shù)據(jù)剔除,包括缺失值和重復值。進一步探究數(shù)據(jù),發(fā)現(xiàn)其中存在重復記錄到站的現(xiàn)象。在數(shù)據(jù)量較多的條件下,對此小部分數(shù)據(jù)進行數(shù)據(jù)剔除處理。
(3)將剔除后的數(shù)據(jù)進行相關計算,便可得到輸入變量和輸出值。
1.2.2 公交車進出站數(shù)據(jù)的預處理
(1)將數(shù)據(jù)導入數(shù)據(jù)庫,進行篩選。
(2)將站點GPS之間的路段進行點集化處理。
(3)進行路網(wǎng)匹配。由于出租車GPS數(shù)據(jù)本身存在漂移的現(xiàn)象,為了盡可能地匹配出足夠的數(shù)據(jù)量,需對不同的匹配距離(即出租車GPS點與點聚化的GPS點之間距離)做一個探究,可得到篩選數(shù)據(jù)量與匹配距離的關系,選擇匹配距離為0.000 4(*111 000 m)作為約束條件進行篩選。
(4)對數(shù)據(jù)進行相關計算,得到輸入變量。
公交車在實際運行中會受到各種隨機因素的影響,例如:時段、節(jié)假日、交通擁擠程度、交通意外等。要較準確預測公交到站時間,需要對不同的影響因素進行數(shù)據(jù)采集和挖掘分析??梢宰鳛樘卣飨蛄康挠幸韵?個:
(1)在“石牌村站”的??繒r間由公交進出數(shù)據(jù)選取站臺停留時間作為輸入樣本的變量,記為v1。
(2)在“石牌村站”與“冼村站”之間的行駛時間由公交進出數(shù)據(jù)選取兩站的行駛時間作為輸入樣本的變量,記為v2。
(3)社會車速度由出租車GPS數(shù)據(jù)選取在“石牌村站”與“冼村站”之間的行駛時間內,道路上的出租車速度的平均值作為輸入樣本的變量,記為v3。
目標值的選取由公交進出站數(shù)據(jù)得到,即“冼村站”到下一站“人民日報廣東分社站”之間的行駛時間作為輸出樣本的因變量,記為t。
3個特征向量與目標值進行皮爾遜相關性分析,如圖1所示,發(fā)現(xiàn)目標值t與v1呈現(xiàn)弱相關,與v2呈中等強度相關,與v3呈負的強相關。這說明特征向量的選取是合理的。
圖1 各特征向量皮爾遜相關性分析情況
(1)目標的確定
公交車到站時間預測,記為t0,可用物元形式[7]表示為:
(2)目標條件分析
公交車到站時間預測的依據(jù)記為L0,可用物元形式表示為:
(3)建立問題的可拓模型
根據(jù)所確定的目標和目標條件,可以發(fā)現(xiàn)問題的矛盾是復雜的自然環(huán)境、道路情況和現(xiàn)有的設施設備難以用已有的預測模型進行準確、穩(wěn)健、及時地預測。為了解決此矛盾問題,進行目標與條件的拓展與變換。
(4)已有預測模型的共軛分析
公交車到站時間預測的硬部是天氣情況、道路情況、紅綠燈情況等部分,這些部分之間的聯(lián)系屬于軟部。硬部可以采取相關技術獲得數(shù)據(jù),用數(shù)據(jù)來表征。軟部通過數(shù)據(jù)間的關系呈現(xiàn)出來。模型為描述刻畫數(shù)據(jù)間關系和規(guī)律的載體。所運用的6個模型呈現(xiàn)出數(shù)據(jù)在不同情況下的規(guī)律。
(5)對不相容問題進行拓展分析
根據(jù)模型的特點,對條件L0進行發(fā)散分析,從一物多征、一征多值、一值多征等角度描述公交車到站時間預測的特征,預測模型的特征等。對目標t0進行蘊含分析,借助已有預測模型和相關數(shù)據(jù)以實現(xiàn)目標。
多元線性回歸模型適用于規(guī)律性強的情況;ARIMA模型適用于短期的平穩(wěn)時段;SVM模型適用于長期樣本少的情況;BP神經(jīng)網(wǎng)絡模型適用于長期樣本多的情況;Decision Tree和Random Forest模型適用范圍廣泛。預測模型很大程度上解決了目標條件的不穩(wěn)定性和不確定性,使得預測效果有效可靠。
(6)創(chuàng)意方案的生成
6種預測模型適用于不同的數(shù)據(jù)情況,在數(shù)據(jù)增刪、擴縮、分解和組合后,匹配合適的模型后能生成多種創(chuàng)意方案?;诠宦肪€140路的研究,得到以下選擇模型的依據(jù):
(a)若數(shù)據(jù)量大,優(yōu)先使用決策樹;
(b)在平穩(wěn)條件下,預測到較近的站,優(yōu)先考慮時間序列模型;
(c)若數(shù)據(jù)量少,預測到較遠的站,優(yōu)先考慮SVM模型;
(d)在硬件支持的條件下,優(yōu)先考慮隨機森林模型;
(e)若道路等情況平穩(wěn),采用均值法或多元線性回歸模型。
(7)預測模型的最終選取
預測模型的選取依據(jù)主要看區(qū)分度和指標度。區(qū)分度體現(xiàn)在預測模型運用時的適用情況以及發(fā)生概率;在指標度選取了判定系數(shù)R-Squared,平均絕對誤差MAE和均方根誤差RMSE這3個指標為依據(jù)。
(1)目標
預測公交車從“石牌村站”到“冼村站”后,從“冼村站”到“人民日報廣東分社站”的時間。要求預測準確,保證誤差可接受,實現(xiàn)概率高。即預測值與實際值不能差別太大,而且預測值發(fā)生的概率不能過低。
(2)條件
數(shù)據(jù)來源于廣州市2019年2月16日至2019年2月22日公交進出站數(shù)據(jù)。根據(jù)這一周的數(shù)據(jù)量可以挖掘出特征向量在“石牌村站”的??繒r間,在“石牌村站”與“冼村站”之間的行駛時間。此外,已經(jīng)使用6個模型進行2019年3月1日當天的預測,已初步了解6個模型的適用情況。
(3)建立可拓模型
原本只有一天的數(shù)據(jù)量,現(xiàn)在有了一周的數(shù)據(jù)量。6個預測模型分別單獨用于預測,結果顯示誤差較大,沒有發(fā)揮出模型自身的優(yōu)勢。因此,對數(shù)據(jù)和模型進行雙向的選擇,建立可拓建模。
(4)拓展與變換
由數(shù)據(jù)支持,可進行置換變換和擴縮變換,一天可以分為高峰期和非高峰期,一周可分為工作日和非工作日,因此增加“是否工作日”和“是否高峰期”這2個特征向量。運用6個預測模型于不同的場合,得到如表3所示的結果。
表3 各模型在不同場合下的適用情況
(5)創(chuàng)意方案生成
根據(jù)模型的表現(xiàn)挑選不同具體情況下的模型,從而進行組合。組合方式多種多樣,這里給出一種方案,如表4所示。
表4 不同場合下的模型選取
將數(shù)據(jù)進行分組,代入相對應的模型進行預測,結果如下:
test r2_score:0.5463
mean_squared_error:0.508
mean_absolute_error:0.512
圖2 各模型的R方情況
可拓預測模型的優(yōu)點為區(qū)分度高和指標度好??赏仡A測充分考慮了數(shù)據(jù)的特征,從而企圖挖掘出數(shù)據(jù)背后的規(guī)律。可拓預測是利用大數(shù)據(jù)進行可拓變換,研究公交車到站時間機理的過程。指標度選取了R方,RMSE和MAE這3個依據(jù)。如圖2(圖中字母為各模型英語單詞的縮寫,如MLR表示多元線性回歸;EP表示可拓預測,下同)所示,可拓預測的R方并不高,但也不是最低,說明可拓預測擬合的效果一般。但圖3和圖4表現(xiàn)出,可拓預測的RMSE和MAE在所運用模型中是最低的,說明可拓預測的誤差是最可接受的,準確度是偏高的。整體來說,可拓預測模型是有效的。
圖3 各模型的RMSE情況
圖4 各模型的MAE情況
可拓預測模型的缺點為操作難度高和可移植性低。處理數(shù)據(jù)時會遇到記錄不完整、缺失或重復等問題,模型應用中需要尋找最優(yōu)的參數(shù);選取特征向量和目標值、多次運用模型結果取平均值等工作繁雜且量多??赏仡A測模型還不是一個成熟的模型,目前僅僅解決了廣州市公交路線140路公交車到站時間預測問題,如果更移到其他情境,需得重新審視一番,因為暫時還沒有形成一個統(tǒng)一、快速、標準和規(guī)范的系統(tǒng)來專門解決相關問題。因此,模型運用時有盲目性,無可避免地要去試錯。
公交車到站時間的機理以停靠時間、行駛時間和社會車速度等變量來審視,在決策樹、隨機森林等6個模型的基礎上提出了可拓預測模型。結果表明,可拓預測模型與單一模型相比是可接受的和有效的??赏仡A測模型是基于數(shù)據(jù)規(guī)律和模型特點的復合模型,其準確度比單一模型高。在實際運用方面,可拓預測模型具有操作難度高和可移植性低的缺點,有待未來改進。