□ 文/孫同心 王世鯤
大數據背景下的高速公路流量預測實現
□文/孫同心王世鯤
21世紀是高速公路的時代,高速公路已經成為衡量一個國家經濟發(fā)展水平的尺度之一,近十幾年來隨著我國高速公路聯網運營里程的不斷增加,運營管理覆蓋范圍的不斷擴大,人們對交通科技提出了更高的期望,希望交通能夠步入智能化交通的時代,在掌握高速公路流量的基礎上對高速公路未來的車流量作出正確的預測,是我國進行交通建設、步入智能化交通領域的重要條件。
對于交通流量的預測現已成為智能交通領域的一個研究熱點,準確地預測結果不僅能夠為交通管理部門進行交通管制提供決策和支持,同時也能夠為出行者提供有效的路徑誘導服務,因此如何選用合適的預測方法從而提高流量預測的精度,具有十分重大的意義。
交通流量預測一直是智能交通領域的一個研究熱點,從上世紀中葉開始,國外就已經有學者利用其它領域的一些預測方法對交通流量進行預測,大約在上個世紀八十年代,我國一些學者也相繼開始在交通流量領域進行深入研究,迄今為止,國內外已經出現了許多較為成熟的交通流量預測算法。
1984年,Iwao Okutani[1]等提出了一種基于卡爾曼濾波理論的短時交通流量預測模型,通過最近幾次預測的誤差對模型參數進行動態(tài)調整,并以名古屋某路段的實測交通流量數據對該預測模型進行了實驗驗證,實驗結果表明該預測模型的平均絕對百分誤差小于9%,且最大絕對百分誤差小于30%。
1994年,A.G.Hobeika[2]等基于回歸分析建立了短時交通流量預測模型,該預測模型同時考慮了目標斷面當前時刻、目標斷面歷史時刻以及目標斷面上游當前時刻的流量數據,并采用了啟發(fā)式自適應權重的方法進行了權重分配,最后以紐約市長島高速公路1993年6月中22天工作日的實測流量數據(采樣周期為15min)對該預測模型進行了實驗驗證,結果表明該預測模型在進行高峰時期的交通流量預測時效果較好,且平均絕對百分誤差約為6%。
2003年,Billy M.Williams[3]等在分析了以往短時交通流量預測存在的不足的基礎上,提出了基于周期性的ARIMA預測模型。并分別以英國倫敦市M25環(huán)城高速公路和美國亞特蘭大市I-75高速公路的實測流量數據(采樣周期為15min)對預測模型進行了實驗驗證,并利用平均絕對誤差(MAPE)對預測結果進行了評價,實驗結果表明該預測模型能夠有效提高短時交通流量的預測精度,其MAPE僅為8.6%。
2004年,徐今強[4]等采用時間序列模型對短時交通流量進行了預測。首先通過對實測的交通流非平穩(wěn)時間序列進行差分變換及標準化處理,從而將其轉化為標準正態(tài)的平穩(wěn)時間序列,然后分別采用極大似然估計法和AIC準則進行了模型參數的估計和模型定階。最后對2003年3月21日珠海市某主干道的實測交通流量數據(采樣周期為5min)進行了實驗驗證,結果表明該ARMA模型能夠較好地擬合交通流時間序列,并可獲得較好的中短期預測精度。
2008年,王彥杰[5]等針對傳統(tǒng)的K近鄰非參數回歸預測方法在進行交通狀態(tài)預測時的不足,在進行狀態(tài)向量選取時采用主成分分析方法,并結合基于斜率表示的相似性度量方法,提出了改進的非參數回歸預測方法,最后以2006年10月31日至12月28日廈門市仙岳隧道處的線圈檢測器所采集到的實測交通流量數據(采樣時間間隔15min)對該方法進行了實驗驗證,結果表明改進后的非參數預測方法的平均相對誤差為33.2%,比改進前的方法提高了17.7%。
本文介紹的高速公路短時流量預測實現方法基于實時和歷史的收費站出入口流量數據,在大數據分析手段的基礎之上通過系統(tǒng)級的預測算法模型進行短時高速公路流量預測,并基于后續(xù)的實時流量數據對算法模型進行持續(xù)的訓練與優(yōu)化。
數據源介紹
系統(tǒng)實現的數據基礎來源于江蘇省全省約390個收費站的實時數據,數據類型主要包含了MTC出入口流量,ETC出入口流量數據。數據傳輸方式主要通過各收費站的收費系統(tǒng)準實時上傳收費數據,途徑收費站的每輛車均為一條獨立的流水數據,數據中包含了車輛入口收費站、車輛出口收費站、車道類型、車輛類型、車牌等相關信息。各收費站的數據統(tǒng)一上傳至上級行政單位江蘇省高速公路聯網營運管理中心,目前全省的一天車輛通行數據條數約為150萬條(不考慮特殊情況諸如節(jié)假日大流量等),而大數據分析源數據庫(非靜態(tài)備份中心)大約存儲了3年*365天*150萬≈16.4億條車輛通行數據,數據流轉示意圖如下圖所示:
▲數據流轉示意圖
在大數據分析數據庫中,原始數據存儲解決解決方案主要采用分表技術,該技術包含了以下幾個關鍵實現邏輯:
1、垂直分割:把主碼和一些列放在一個表,然后把主碼和另外的列放在另外一個表中。如果一個表中的某些列常用,而另外一些列不常用,則可以采用垂直分割,另外垂直分割可以使得數據行變小,一個數據頁就能存放更多的數據,在查詢時就會減少I/O次數。其缺點是需要管理冗余列,查詢所有數據需要進行join操作。
2、水平分割:聯網中心大數據分析數據庫(以下簡稱中心數據庫)中的水平分割主要采用了以下幾種方式:
①Range Partitioning分區(qū):即數據基于指定COLUMN的值范圍進行分區(qū),在上述垂直分割的主碼表的基礎上基于流水數據的時間進行分區(qū),對時間進行切片,將分屬不同時間片的數據存儲在不同的時間分區(qū)表中。
②Hash Partitioning分區(qū):即數據基于指定COLUMN的Hash算法的值進行分區(qū),給每一個分區(qū)近似相同的大小,要保證數據能平均分配,分區(qū)數一般是2N。
③List Partitioning分區(qū):即指定固定多少行屬于同一個分區(qū)。
中心數據庫綜合采用以上幾種分區(qū)技術,對主碼表數據采用了基于時間字段的Range Partitioning分區(qū),對副表采用了Hash Partitioning分區(qū),而對部分流水數據涉及到的一些基礎數據,非實時數據等采用了List Partitioning分區(qū)技術,綜合采用各種分區(qū)技術的作用在于能夠最大程度的提升中心數據庫的存儲及吞吐能力。
算法模型邏輯
①基礎離散數據
在統(tǒng)計學中,數據按照變量值是否連續(xù)可分為連續(xù)數據和離散數據。
性質:符號x如果能夠表示對象集合S中的任意元素,就是變量。如果變量的域(即對象的集合S)是離散的,該變量就是離散變量;如果它的域是連續(xù)的,它就是連續(xù)變量。
交通學中的單次車輛流量即可視為一個離散點,而同一個時間段內(實際采樣周期為5min)全網的車輛流量可視作相互獨立的數據離散點,而同時我們也可將該時間段內的流量數據視作有區(qū)間的數據集合。
根據多個全網的流水數據集合點我們即可以得出全網(或單收費站)的實時、歷史流量走勢圖。
而我們的流量預測的根基也正是建立在這樣的實時和歷史車流量的數據之上。
②加權平均數(權數)
即將各數值乘以相應的權數,然后加總求和得到總體值,再除以總的單位數。
平均數的大小不僅取決于總體中各單位的標志值(變量值)的大小,而且取決于各標志值出現的次數(頻數),由于各標志值出現的次數對其在平均數中的影響起著權衡輕重的作用,因此叫做權數。
交通學中的流量預測模型通常并不是單獨建立在某個點上的預測,通常某個點的預測會涉及到目標斷面(即本預測模型中的當前收費站)的當前流量數據,目標斷面的歷史流量數據,目標斷面的上游斷面(即本預測模型中當前收費的上游收費站)的當前流量數據。
目前中心的流量預測模型也一定程度上建立在當前收費站的歷史、實時流量,當前收費站的上游收費站的實時流量基礎之上,對不同的數據加之以不同的數據權重值進行分析預測。
③數據標準差
標準差(Standard Deviation)描述各數據偏離平均數的距離(離均差)的平均數,它是離差平方和平均后的方根,用σ表示。標準差是方差的算術平方根。標準差能反映一個數據集的離散程度,標準偏差越小,這些值偏離平均值就越少,反之亦然。標準偏差的大小可通過標準偏差與平均值的倍率關系來衡量。平均數相同的兩個數據集,標準差未必相同。
樣本標準偏差的計算步驟是:
步驟一、(每個樣本數據 減去樣本全部數據的平均值)。
步驟二、把步驟一所得的各個數值的平方相加。
步驟三、把步驟二的結果除以 (n - 1)(“n”指樣本數目)。
步驟四、從步驟三所得的數值之平方根就是抽樣的標準偏差。
在中心的交通流量預測模型中主要利用以往歷史數據的標準差來計算出不同年份的數據增長的離散度,根據此樣本標準偏差可作為數據增長率的權重值來得出不同的預測值。
④增長率的導數
導數定義為:當自變量的增量趨于零時,因變量的增量與自變量的增量之商的極限。在一個函數存在導數時,稱這個函數可導或者可微分。
在中心的交通流量預測模型中,基于往年歷史數據的基礎之上計算出同一個收費站的歷史相同時間點的流量數據的增長率,再對增長率進行求導,計算出增長率的增長幅度,在此基礎上計算出未來流程的增長率。
⑤尖峰降噪
借鑒信號學中時域、頻譜轉換濾波處理對預測后的數據進行波形降噪平滑處理;實際交通學中的流量是不會陡增或者陡降的,所以我們可以采用此種方法對部分流量波形中的突變流量進行平滑處理。
算法模型結合數據落地過程
以預測江陰南收費站2016年7月25日10點整的流量數據為例:
實際數據傳輸過程中的采樣周期為5m i n,即2016/07/25 10∶00∶00節(jié)點的車流量數據實際為2016/07/25 09∶55∶00~2016/07/25 10∶00∶00期間的總通行數據,該節(jié)點的通行數據內容包含以下內容:收費站ID、該周期結束時間點、MTC出口流量、MTC入口流量、ETC出口流量、ETC入口流量。
上述關鍵的6列數據利用上面“數據源章節(jié)”所介紹的垂直分割技術存儲在主數據表中,而主數據表又利用了水平分割技術中的“Range Partitioning分區(qū)”即基于時間字段對表進行分區(qū),在利用存儲過程、大數據分析公式等手段對數據分析時上述各種手段的利用能夠極大的提升數據的檢索速度;而其它的諸如客戶車出入流量、OBU流量等非關鍵數據存儲在附表中,附表中的數據和主表中的數據通過時間字段、收費站站點ID關聯匹配,附表中的數據主要采用了“List Partitioning分區(qū)”方法進行數據存儲;而對于一些基礎數據我們主要采用了“Hash Partitioning分區(qū)”方法進行數據存儲。
江陰南收費站在2016/07/25 09∶55∶00的MTC出口流量值為36,ETC出口流量值為26即總出口流量為62;同理我們查詢出不同年份江陰南收費站的下一周期時間點的流量如下所示:
2015/07/25 10∶00∶00的MTC出口流量值為34,ETC出口流量值為23即總出口流量為57;
2014/07/25 10∶00∶00的MTC出口流量值為33,ETC出口流量值為23即總出口流量為56;
2013/07/25 10∶00∶00的MTC出口流量值為30,ETC出口流量值為21即總出口流量為51。
根據不同年份對應不同的權重(本文中的實例以10分制為參考),年份越久遠權重越小,初步可以得出的基礎計算結果如下所示:
與此同時我們計算該樣本的標準差,計算方法如下
在實際應用過程中,上述類似計算過程中得到的單收費站的流量標準差我們可以將其作為多重數據校驗的手段,首先不同年份相同時間點維度的數據(即上述計算結果)我們可以利用其作為檢驗單收費站流程增長幅度的依據,當后續(xù)章節(jié)計算出的流量增長率與該方差值不能較好的匹配,我們即可認為該收費站某個年份點的數據較為不可信,在這種情況下我們就需要根據其相鄰收費站(主要是上游斷面收費站)的歷史入口流量數據來重新推算出該收費站的歷史車流量的數值范圍,然后以此數值范圍來定位該收費站往年的車流量數據的錯誤;其次相同年份相鄰時間點維度的數據,例:江陰南收費站09∶55∶00的總出口流量為62,09∶50∶00的總出口流量為1,09∶45∶00的總出口流量為59,09∶45∶00的總出口流量為56,通過計算相鄰點的知該點的標準差與正常的的標準差相比較為異常,然后我們在根據不同時間點的值與平均值相比再結合各種組合三個點的平均數,我們可以發(fā)現該收費站在09∶50∶00的數據流量較為異常;在發(fā)現異常之后我們以多種數據的平均值代替該時間點的車流量,上述所述的手段即能夠達到“關鍵概念及技術點介紹”章節(jié)所描述的尖峰降噪的效果。實際應用過程中對比效果圖如下:
▲優(yōu)化前效果圖
▲優(yōu)化后效果圖
在計算流量的增長率時我們依然以江陰南收費站的數據為例,其2015/07/25 10∶00∶00的總出口流量為57,2014/07/25 10∶00∶00總出口流量為56,2013/07/25 10∶00∶00總出口流量為51;通過計算我們可以得知2014年的車流量增長率為9.804%,2015年的車流量增長率為1.785%,通過上述數據我們可以看出不同年份的車流量數是在不斷增長,但實際的車流量的增長率卻是在放緩,而在數據公式中關于求導的概念(即“關鍵概念及技術點介紹”章節(jié)描述的增長率的導數)明確提出“可導的函數一定連續(xù),但連續(xù)的函數不一定可導”,而實際交通學中的車流量是由一個個離散的流量點組成,車流量本身的函數是不可導的,但是在增長率的概念中我們引入了導數的概念,我們計算增長率的增長率的得出結果為-81.7%,然后我們推算出2016年的增長率大致應為0.327%,依此增長率我們從本維度推算出的江陰南收費站在2016/07/25 10∶00∶00的總出口流量大致為57~58的范圍。
在根據多個上游斷面收費站2016/07/25 09∶55∶00計算出另外一種維度的流量結果,計算公式 大寫的S表示最終的流量結果,n表示上游斷面收費站的個數,小寫的s表示某個上游斷面收費站的當前時刻的車流量,p表示該上游斷面收費站車流量的權重值(此處需要注意所有上游斷面的權重值p最后相加的結果因為1否則計算結果會有問題),根據上述計算出來的結果約為60。
根據上述計算過程中得出的權重計算結果59的車流量、增長率維度計算出58的車流量以及多個上游斷面收費站維度得出60的車流量;多重維度數據結合我們可以預測出江陰南收費站在2016/07/25 10∶00∶00的車流量應為59。而后期我們對此計算結果進行驗證,也能夠發(fā)現此結果較單維度預測的結果較為準確。
作者單位:上海電科智能系統(tǒng)股份有限公司