王 偉
(河北交通投資集團(tuán)公司,河北 石家莊 050091)
高速公路作為我國重要的交通樞紐,對經(jīng)濟(jì)的發(fā)展起到了促進(jìn)的作用。截止到2015年,中國高速公路通車總里程達(dá)12萬km,管理和監(jiān)控難度又上了一個新的臺階。隨著我國高速公路不斷發(fā)展,高速公路收費系統(tǒng)逐步實現(xiàn)現(xiàn)代化建設(shè),高速公路的收費效率得到明顯的提高。同時,各個系統(tǒng)也產(chǎn)生了大量的數(shù)據(jù)。想要在高速公路交通安全應(yīng)急、出行服務(wù)、市場監(jiān)督、決策支持等方面進(jìn)行重點建設(shè),就需要對高速公路中的大數(shù)據(jù)進(jìn)行深入的分析,以便服務(wù)于決策者,提升高速公路的運營效率和管理水平。
高速公路大數(shù)據(jù)有4個主要特點,即規(guī)模大、變化多樣、價值密度低和高速性[1]。
a)數(shù)據(jù)規(guī)模 以河北省高速公路為例,車輛經(jīng)過收費站的時候,監(jiān)控系統(tǒng)都要拍照,每張圖片大小在500 k左右,每年就會產(chǎn)生上百T的數(shù)據(jù),加上各應(yīng)用系統(tǒng)、收費系統(tǒng)和視頻監(jiān)控累計的數(shù)據(jù)達(dá)到了PB級以上,并仍然持續(xù)增長中。
b)數(shù)據(jù)多樣 高速公路的數(shù)據(jù)種類繁多。有各應(yīng)用系統(tǒng)產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù),收費站出入口抓拍的非結(jié)構(gòu)化數(shù)據(jù)等。此外,還有地質(zhì)災(zāi)害、服務(wù)區(qū)數(shù)量等各類數(shù)據(jù)。
c)數(shù)據(jù)價值密度 數(shù)據(jù)量大,但是有用信息較少。監(jiān)控系統(tǒng)24 h監(jiān)控會產(chǎn)生大量的數(shù)據(jù),但是有用的數(shù)據(jù)只有很少的一段時間,通過對異常數(shù)據(jù)的監(jiān)測可以分析出路網(wǎng)的異常狀況。
d)高速性 收費站產(chǎn)生的數(shù)據(jù)要快速并及時到達(dá)結(jié)算中心。發(fā)生道路突發(fā)事件的時候,系統(tǒng)要可以及時獲取信息并快速進(jìn)行有效分析。
隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)分析的應(yīng)用已經(jīng)在高速公路數(shù)據(jù)的分析中占據(jù)了舉足輕重的地位,例如在運營管理系統(tǒng)、聯(lián)網(wǎng)收費分析業(yè)務(wù)、識別偷逃通行費和冒充綠通行為等方面。
通過分析收費數(shù)據(jù),對經(jīng)常計重逃費、綠通車輛違規(guī)加大檢查力度;也通過車牌抓拍系統(tǒng),對出入口車牌不一致、經(jīng)常性超時車輛,查找換卡車輛信息,實現(xiàn)增收。同時也可以通過分析周邊區(qū)域的經(jīng)濟(jì)形勢、人口狀況、產(chǎn)業(yè)結(jié)構(gòu),年均車流量變化進(jìn)行流量預(yù)測與收入分析[2]。
隨著我國高速公路的快速發(fā)展,聯(lián)網(wǎng)收費系統(tǒng)存儲了海量的收費數(shù)據(jù),使用數(shù)據(jù)挖掘這一新興技術(shù),能夠有效地從大量的歷史或在線數(shù)據(jù)中挖掘出隱含的內(nèi)在關(guān)聯(lián)、模式或趨勢。
現(xiàn)有數(shù)據(jù)挖掘技術(shù)的主要研究單位是和交通行業(yè)關(guān)系比較緊密的高校和研究所,而現(xiàn)有的研究成果主要是趨向于對整體架構(gòu)和一些整體方法的設(shè)計。很少有研究人員和單位能夠做到充分利用交通行業(yè)的特點,對收費數(shù)據(jù)中多個主題進(jìn)行深入廣泛研究,同時又可以挖掘出隱含在高速公路收費數(shù)據(jù)中有對決策支持的有價值數(shù)據(jù)。總的來說,雖然高速公路收費系統(tǒng)在不斷完善,并且已經(jīng)積累了大量的信息數(shù)據(jù),但是將這些資源充分利用的能力還是有待提高。
高速公路通行費的收入預(yù)測是高速公路路網(wǎng)建設(shè)的重要部分,對項目的可行性研究等方面甚至對國家的交通運輸都有著重要的意義。
80年代以后,隨著計算機(jī)技術(shù)的快速發(fā)展,新增了許多新方法和軟件進(jìn)行交通規(guī)劃,其中較普遍的有遺傳算法、數(shù)據(jù)挖掘、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、灰色理論等技術(shù)[3]。
我國高速公路起步較晚,發(fā)展速度相對緩慢。交通量的預(yù)測主要依據(jù)《公路建設(shè)項目交通量預(yù)測試行辦法》。提出了兩類預(yù)測方法,一類是包含類比法、平均增長率法、指數(shù)曲線等預(yù)測模型的定性預(yù)測方法;另一類是包含一元回歸曲線、多元回歸曲線、時間序列預(yù)測法、回歸分析預(yù)測法、趨勢曲線法、灰色模型法等預(yù)測型的定性預(yù)測方法。
隨著高速公路事業(yè)的飛速發(fā)展,高速公路的收費面臨許多問題,特別是計重收費實施后,司機(jī)逃費方式層出不窮,通行費存在流失。在新的收費環(huán)境下,有效地預(yù)測未來收費金額及金額走向,有助于管理人員更好地對高速公路車流量與收費進(jìn)行分析[4]。
我們以某一條高速公路的收費站為例,分析客車、貨車、綠通車車流的走向以及收費金額的變化。下面以客車為例進(jìn)行分析。
圖1 客車月平均車流折線圖
由圖1可以看出,客車一型的流量遠(yuǎn)高于其他幾種車型,雖然車型各不相同,車流量也各不相同,但是每種車型的客車月平均車流量均不斷上下波動,很難直觀地找到變化規(guī)律。
圖2 客車月平均收費額
將所有車型的收費收據(jù)進(jìn)行統(tǒng)計做出客車收費合計折線圖如圖2,由數(shù)據(jù)走向我們可以知道不同月份客車的收費金額存在較大差異,如何根據(jù)各類型車流量的變化去分析總收費金額的變化是本文接下來的研究重點。
回歸分析方法在預(yù)測中又稱為因素分析法[5],它是找出一個變量與某些視為變化原因的變量之間的數(shù)量關(guān)系,即建立模型。然后通過某種方法給出未來一段時間的外生變量的數(shù)值,代入模型,計算出變量的未來數(shù)值即預(yù)測值。
對于多元回歸預(yù)測模型還需要進(jìn)行R檢驗,F(xiàn)檢驗和t檢驗。
R說明一組變量X1~Xn與Y的相關(guān)程度,R值越接近1,說明回歸效果越好。復(fù)相關(guān)系數(shù)R的計算公式為:
F檢驗和t檢驗,分別給定顯著水平α,判斷是否存在顯著影響,存在顯性影響才能進(jìn)行下一步預(yù)測。
根據(jù)該高速公路收費站點的2014年6月份到2016年2月份的數(shù)據(jù),使用差分法對不同類型的客車流進(jìn)行數(shù)據(jù)處理,直到數(shù)據(jù)成為平穩(wěn)序列,以客車一型數(shù)據(jù)為例,進(jìn)行差分處理等一系列建模步驟,最終確定參數(shù)。以ARIMA(7,7)模型進(jìn)行時間序列預(yù)測,得到收費站在2016年3月份的客車一型車流量數(shù)據(jù),并與真實數(shù)據(jù)進(jìn)行對比,做出相對誤差曲線圖如圖3。
圖3 客車一型預(yù)測及殘差分析
由圖3可以看出,選取的時間序列模型基本達(dá)到了預(yù)測效果,圖中有個別原始數(shù)據(jù)變化趨勢異常,導(dǎo)致個別數(shù)據(jù)預(yù)測存在一定誤差。
使用相同方法,對其他幾種類型的客車流量數(shù)據(jù)進(jìn)行差分處理得到合適的預(yù)測模型參數(shù),進(jìn)行預(yù)測得到2016年3月份的客車類型的流量數(shù)據(jù)。
我們使用已有客車車流以及客車合計收費金額的歷史數(shù)據(jù)進(jìn)行多元回歸分析,得到了回歸方程,代入預(yù)測得到的數(shù)據(jù)進(jìn)行計算得到預(yù)測的客車合計收費金額,得到了與實際數(shù)據(jù)的相對誤差圖,見圖4。
圖4 相對誤差圖
最終,我們計算得到了2016年3月份的客車合計收費金額,并使用相同的方法計算貨車合計收費金額以及綠通合計減免金額,與實際數(shù)據(jù)進(jìn)行對比,得到表1。
表1 合計金額對比
在高速公路收費站的收費數(shù)據(jù)預(yù)測中,由于車輛流的不確定性和高度非線性,使用單一的預(yù)測方法,隨機(jī)干擾過大,不能得到很好的預(yù)測效果。本文使用ARIMA模型和多元回歸分析模型組合進(jìn)行預(yù)測,減少了隨機(jī)干擾帶來的誤差,對未來的收費金額進(jìn)行了較為準(zhǔn)確的預(yù)測,為高速公路管理單位的分析和管理提供了數(shù)據(jù)支持。如何選擇更加合適的模型和組合,解決隨機(jī)干擾,使得預(yù)測更加準(zhǔn)確,是值得進(jìn)一步研究的課題。