王 力,李 敏,閆佳慶,張玲玉,潘 科,李正熙
(北方工業(yè)大學,城市道路交通智能控制技術北京市重點實驗室,北京100144)
道路交通信息的完整性是城市智能交通管控系統(tǒng)運行的必要條件,一直以來對于路網(wǎng)缺失數(shù)據(jù)的補全方法研究是國內(nèi)外學者的研究熱點和難點[1].Jian-dong Zhao[2]等針對快速路交通流信息缺失和數(shù)據(jù)分布稀疏的問題,利用線性插補虛擬監(jiān)測點和時域分段方法來估計檢測點間的平均旅行時間,并用一種優(yōu)化的K近鄰算法來進行旅行時間預測;La?a I.等[3]建立了狀態(tài)預測模型與數(shù)據(jù)利用策略的統(tǒng)計關系,并利用機器學習方法來進行數(shù)據(jù)補全;郭敏等[4]以交叉口檢測器的交通流數(shù)據(jù)為研究對象,提出基于灰色殘差GM(1,N)模型的數(shù)據(jù)修復算法;Hua-chun Tan等[5]提出基于張量分解賦值法的交通信息補全方法,但上述方法對歷史數(shù)據(jù)的依賴性過強.Dai-heng Ni等[6]提出了采用馬爾科夫鏈—蒙特卡羅模型,但數(shù)據(jù)補全精度與路段狀態(tài)模型的精確性呈正相關關系.Qu L.等[7]提出了綜合路網(wǎng)交通流相關性的概率主成分分析方法,該方法對于城市道路多樣性交通場景數(shù)據(jù)的補全效果欠佳.Li L.等[8]利用交通路網(wǎng)時空關聯(lián)特性進行數(shù)據(jù)補全,但其前提為建立路網(wǎng)交通數(shù)據(jù)統(tǒng)計模型.
近年來,隨著深度學習算法的發(fā)展,基于機器學習算法的圖像數(shù)據(jù)補全研究有了長足進步.Dong Chao等[9]發(fā)展了一種面向端到端的圖像補全方法,可對單幀低信息圖像進行精細修復.Kappleler等[10]基于運動補償?shù)姆绞?,將多時刻圖像作為網(wǎng)絡擴展輸入實現(xiàn)二維信息的精細化補全.2014年,生成式對抗性網(wǎng)絡(Generative Adversarial Network,GAN)的提出和應用,為圖像化處理復雜場景的數(shù)據(jù)缺失問題提供了可能[11].
不難看出,現(xiàn)有城市道路交通數(shù)據(jù)補全研究主要以路段數(shù)據(jù)為對象,從統(tǒng)計方法、歷史數(shù)據(jù)和路網(wǎng)時空相關性等方面展開,但對交通路網(wǎng)和多樣性場景的信息補全能力不足,本文首先構建交通路網(wǎng)二維信息圖,基于空間—時間信息關聯(lián)特性采用生成式對抗網(wǎng)絡算法對路網(wǎng)交通流量數(shù)據(jù)進行補全研究,以滿足復雜路網(wǎng)和綜合交通場景下數(shù)據(jù)補全要求.
首先,從圖像分析的角度將城市路網(wǎng)抽象為鄰接的圖塊,即矩陣式的二維圖,以圖像化形式描述路網(wǎng)結構特性,以濰坊部分路網(wǎng)為例,如圖1所示.
圖1 路段編號與二維信息圖對應關系(無向網(wǎng)絡)Fig.1 The corresponding relation between the link number and the two-dimensional information graph(Undirected network)
對于雙向路段,如圖2所示,按照路段的空間位置關系,轉(zhuǎn)換為如圖2的規(guī)整形式.進一步,采用不同圖塊顏色表征路段5 min的采集流量,如圖3所示,其中,白色色塊為空間上不存在的路段,灰色色塊為數(shù)據(jù)缺失路段,圖3(a)中,“6-80”代表編號為6的路段流量為80 veh/5 min,其他同.
由于實際路網(wǎng)中存在著多樣化的異形交叉口,因此,將異形路口按照表1規(guī)則進行處理,以轉(zhuǎn)換成標準路口.
對于任意的路網(wǎng)拓撲,可以用關聯(lián)矩陣來描述其拓撲結構和路段間的連接關系,并綜合路網(wǎng)的流量特性、路段鄰接關系,以及路段車流轉(zhuǎn)向比例來構建路網(wǎng)關聯(lián)矩陣.當路段i與路段j相關聯(lián)時aij=p,p為轉(zhuǎn)向線性相關率,0<p≤1,轉(zhuǎn)向線性相關率表征某時間段車流的轉(zhuǎn)向關聯(lián)比例,由采集數(shù)據(jù)擬合得到;否則,aij=0.如圖2所示,以濰坊市東風街—濰州路交叉口東方向5天(2018-03-12~16)的地磁流量數(shù)據(jù)為例.如圖4所示,分別表征路段流量、采樣間隔(采樣周期為5 min)與轉(zhuǎn)向比例的關系,圖中上半部分代表直行轉(zhuǎn)向比,下半部分代表左轉(zhuǎn)轉(zhuǎn)向比.
圖2 路段編號與二維圖對應關系示意圖(有向網(wǎng)絡)Fig.2 The corresponding relation between the link number and the two-dimensional information graph(Directed network)
圖3 路網(wǎng)二維信息圖像化Fig.3 Road network 2D information visualization
圖4 路段流量、采樣周期與轉(zhuǎn)向比關系分布圖Fig.4 Distribution map of traffic flow,sampling period and steering ratio
由圖4可知,第70個采樣間隔前(凌晨時段)的交通流呈現(xiàn)強隨機特性,因此采用第70~288個采樣間隔的交通流數(shù)據(jù)均值來擬合路網(wǎng)關聯(lián)矩陣元素.進一步采用插值法來擬合流量、采樣間隔與轉(zhuǎn)向比的關系曲線,得到如圖5所示的曲面圖,最終得到路網(wǎng)特定時段對應流量條件下的關聯(lián)關系矩陣,如表2所示.
表1 異型路口(路段)圖像化處理Table 1 Image processing of abnormal intersections(links)
圖5 路段關聯(lián)關系取值圖Fig.5 Correlation diagram of segments
交通信息在空間和時間上具有相關性和連續(xù)性,采用空間—時間信息補償?shù)姆椒▽δ骋粍澐謺r段的低可信度的交通信息進行信息補償.具體方法為:
(1)以當前時段第1時刻的交通信息圖為基準,利用空間—時間估計參數(shù)對下一時刻的交通信息進行平滑補償.
表2 路段關聯(lián)關系矩陣Table 2 Links correlation matrix
(2)空間—時間交通信息補償可用機器學習的方法進行訓練,即對空間—時間交通信息網(wǎng)絡估計參數(shù)的最優(yōu)化訓練,將空間—時間交通信息變換表示為
(3)空間—時間信息補償網(wǎng)絡的損失函數(shù)使用正則化方法表示,其最優(yōu)化的參數(shù)估計方法為
式中:θ?為空間—時間信息參數(shù)的最優(yōu)化估計;λ為正則化參數(shù);L為拉普拉斯算子.
將式(2)右邊對θ?微分,并設其為0,采用最大梯度下降法進行迭代分析,最終可獲得最優(yōu)空間—時間信息參數(shù)θ?.
采用GAN算法作為路網(wǎng)數(shù)據(jù)補全的算法工具.GAN的核心思想來源于博弈論的納什均衡[11],算法的優(yōu)化過程是兩套神經(jīng)網(wǎng)絡(辨別器和生成器)的最大最小的游戲過程,即讓辨別器盡力分辨生成器偽造的樣本,生成器盡力制作一個偽造樣本使辨別器無法分辨的博弈過程,為了取得游戲勝利,這兩個游戲參與者需要不斷優(yōu)化,各自提高自己的生成能力和判別能力.GAN已被證明是一個極有效的生成模型,能夠面向多種任務,如圖像生成,圖像細節(jié)再現(xiàn),三維物體生成,視頻預測等領域.GAN的直接應用就是建模生成與真實數(shù)據(jù)分布一致的數(shù)據(jù)樣本,例如生成圖像、視頻等.
本文中信息缺失的交通信息序列經(jīng)過空間—時間信息補償之后,作為該網(wǎng)絡的輸入特征,經(jīng)生成器生成交通信息,然后由道路相關矩陣判別器對生成的交通信息進行判別,最后輸出補全后的交通信息.交通信息的補全網(wǎng)絡主要有加權卷積層和生成式對抗網(wǎng)絡構成,其示意圖如圖6所示.
圖6 GAN算法邏輯結構Fig.6 Logic structure of GAN
在給定生成器G的情況下,來優(yōu)化判別器D,訓練判別器也是最小化交叉熵的過程,其損失函數(shù)的數(shù)學表達式為
式中:Pr表示真實的數(shù)據(jù)類;Pg為生成的數(shù)據(jù)類.
將生成式對抗網(wǎng)絡應用到交通信息補全問題,其表達式為
式中:IRe表示信息補全的圖像;IMi表示信息缺失的圖像;θG為生成器參數(shù);θD為判別器參數(shù).
重建網(wǎng)絡的損失函數(shù)由均方誤差表示,則生成器網(wǎng)絡損失函數(shù)為
其中,
基于生成式對抗網(wǎng)絡的路網(wǎng)交通流數(shù)據(jù)補全算法流程如下.
算法輸入:路段流量、車道轉(zhuǎn)向比.
算法輸出:路段缺失流量,補全流量的偏差百分比.
Step 1路網(wǎng)信息圖像化.
根據(jù)路網(wǎng)拓撲和路段流量信息構造路網(wǎng)二維信息圖It+k和路網(wǎng)關聯(lián)矩陣P.
Step 2構造關聯(lián)矩陣.
構造路網(wǎng)關聯(lián)矩陣Tθ(It+k),利用1周的歷史數(shù)據(jù),基于轉(zhuǎn)向比例曲面圖計算關聯(lián)矩陣的相關系數(shù).
Step 3空間—時間信息補償.
經(jīng)過空間—時間變換Tθ(It+k)后的時段交通信息圖;采用空間—時間信息補償方法,進行參數(shù)優(yōu)化估計,,即可獲得最優(yōu)空間—時間信息參數(shù)θ?,最終生成補償后的路網(wǎng)二維信息圖
Step 4構造GAN算法結構.
Step 5數(shù)據(jù)補全.
以缺失信息的路網(wǎng)二維信息圖為輸入,利用Step3構造的生成器和辨別器,更新?lián)p失函數(shù),最終求得最優(yōu)解即為信息補全的結果輸出.
Step 6結束.
算法終止.
本文采集濰坊市區(qū)部分路網(wǎng)的實際地磁數(shù)據(jù)作為數(shù)據(jù)源,路網(wǎng)數(shù)據(jù)采集范圍包括交叉口20個,如圖7所示,采集時間為2017年8月15日~10月15日,采樣周期為5 min,采集交通流參數(shù)為交通量,如表3所示.為了驗證本文方法,假設地磁檢測器并不能覆蓋所有的路段,即設定某幾條路段的地磁數(shù)據(jù)丟失,通過本文方法修復的數(shù)據(jù)與采集的真實數(shù)據(jù)進行比較分析.
圖7 路網(wǎng)衛(wèi)星圖Fig.7 Road network satellite map
表3 路網(wǎng)地磁原始數(shù)據(jù)示例Table 3 The original data of geomagnetic detector
以路段為單位通過變換將路網(wǎng)切割成如圖8所示的二維圖,圖中每個方塊代表1個路段,以圖塊顏色表征路段流量.將流量數(shù)據(jù)導入相應的數(shù)據(jù)網(wǎng)格中,通過Matlab生成二維信息圖,如圖8所示,將采集的歷史數(shù)據(jù)作為訓練樣本應用于本文的補全方法.
為了驗證修復方法的有效性,本文采用交通流量的偏差百分比來對修復效果進行評價,即
式中:Vr為修復后的交通流量;Vo為交通信息未丟失之前的交通流量;N為交通信息丟失區(qū)域的交通圖像的色塊個數(shù);R即為歸一化的修復評價系數(shù).
圖8 分時段路網(wǎng)流量信息圖(訓練樣本)Fig.8 Time-division road network flow information graph(Training sample)
本文針對單點交通數(shù)據(jù)缺失、小范圍數(shù)據(jù)缺失和大范圍交通數(shù)據(jù)缺失3種情況,選用基于相空間重構的卡爾曼濾波方法作為傳統(tǒng)修復模型,與本文方法做對比.首先對歷史流量數(shù)據(jù)進行了歸一化處理,然后采用Matlab函數(shù)調(diào)用卡爾曼濾波工具包.數(shù)據(jù)修復結果如下.
4.2.1 單點交通數(shù)據(jù)缺失
如圖9所示,對于單點交通數(shù)據(jù)的缺失,使用本文方法略差于傳統(tǒng)方法.這是由于本文方法是根據(jù)交通路網(wǎng)間的相關概率獲得的,而傳統(tǒng)方法是基于交通流量模型的歷史特性推演關聯(lián)關系,使用概率的結果會影響GAN網(wǎng)絡生成器的性能.但本文方法的修復偏差百分比為94.56%,比傳統(tǒng)模型方法略遜一籌.
4.2.2 數(shù)據(jù)缺失低于10%的補全效果
如圖10所示,對于小范圍交通數(shù)據(jù)的缺失(本實驗數(shù)據(jù)缺失量低于10%),兩種方法的修復偏差百分比分別為:91.67%和68.12%,使用本文方法所獲得的修復交通數(shù)據(jù)會優(yōu)于傳統(tǒng)方法.這是由于傳統(tǒng)方法需要明確的交通流量關聯(lián)關系才可獲得準確的修復信息,而本文方法可以通過生成器的概率分析結合訓練樣本,獲得滿足該路網(wǎng)交通信息的修復圖像.
圖9 單點數(shù)據(jù)缺失補全效果圖Fig.9 Single point missing data completion drawings
4.2.3 數(shù)據(jù)缺失量高于10%且低于30%的補全效果
如圖11所示,實驗數(shù)據(jù)丟失點位高于10%且低于30%,對于數(shù)據(jù)大范圍缺失的情況,傳統(tǒng)方法出現(xiàn)了明顯的錯誤數(shù)據(jù),而本文所提方法的修復偏差百分比為72.48%.結果表明,在數(shù)據(jù)缺失量低于30%的情況下,GAN算法可以在一定程度上修復大范圍缺失的交通信息,但缺失面積過大會影響算法的補全精度.
圖10 缺失量低于10%缺失補全效果圖Fig.10 Less than 10%missing data completion drawings
4.2.4 與傳統(tǒng)方法的對比
通過多次實驗擬合出不同缺失比例數(shù)據(jù)修復的對比曲線,如圖12所示,結果表明:GAN算法的修復評價系數(shù)整體要比卡爾曼濾波的性能更好;大范圍缺失的條件下,GAN算法的精度也只能保持在85%,相同條件下卡爾曼濾波方法得到明顯的錯誤修復值.綜合比較,GAN算法優(yōu)于傳統(tǒng)算法.
圖11 高于10%且低于30%數(shù)據(jù)缺失補全效果圖Fig.11 Above 10%and below 30%missing data completion drawings
圖12 數(shù)據(jù)修復結果對比圖Fig.12 Comparison diagram of data repair results
本文以路段實際流量數(shù)據(jù)為基礎,首先提出交通路網(wǎng)信息二維圖理念,以具有顏色特征的色塊表征路段的交通信息,并利用顏色的變化表征數(shù)據(jù)的缺失情況;其次,計算考慮時空信息補償?shù)某鞘新肪W(wǎng)關聯(lián)矩陣,并以此建立路段間概率鄰接關系;再利用GAN算法對路網(wǎng)中的缺失數(shù)據(jù)進行補償或重構.最后,利用濰坊市交警支隊提供的路段地磁數(shù)據(jù)對本文方法進行了驗證并與經(jīng)典卡爾曼濾波方法進行了對比.結果顯示,在不同數(shù)據(jù)量缺失的情況下,本文方法補全精度較高.本文方法為下一步利用補全數(shù)據(jù)進行交叉口信號控制策略設計奠定了基礎.