代 亮,梅 洋,李曙光,錢 超,汪貴平
(長(zhǎng)安大學(xué)電子與控制工程學(xué)院,西安710064)
智能交通系統(tǒng)依賴于交通數(shù)據(jù)可用性和準(zhǔn)確性進(jìn)行交通狀態(tài)和系統(tǒng)性能評(píng)估.在交通基礎(chǔ)設(shè)施快速發(fā)展的驅(qū)動(dòng)下,隨著交通數(shù)據(jù)采集設(shè)備規(guī)模擴(kuò)大,交通流量數(shù)據(jù)缺失問(wèn)題成為智能交通系統(tǒng)領(lǐng)域面臨的挑戰(zhàn)之一.
交通流量數(shù)據(jù)修復(fù)的核心是從交通數(shù)據(jù)中發(fā)現(xiàn)隱藏的時(shí)空相關(guān)信息.基于交通數(shù)據(jù)低秩和時(shí)空相關(guān)性,文獻(xiàn)[1]提出基于低秩矩陣分解的交通流量缺失數(shù)據(jù)重構(gòu)方法.文獻(xiàn)[2]利用交通網(wǎng)絡(luò)的時(shí)空相關(guān)性和道路拓?fù)湫畔?,提出基于最?yōu)閉割的時(shí)空數(shù)據(jù)修復(fù)方法.文獻(xiàn)[3]提出交通流量時(shí)間序列數(shù)據(jù)多視圖學(xué)習(xí)缺失修復(fù)方法,并與長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)、支持向量回歸及協(xié)作過(guò)濾算法結(jié)合.文獻(xiàn)[4]利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)缺失交通流量數(shù)據(jù)進(jìn)行編碼,重建交通流量數(shù)據(jù).文獻(xiàn)[5]提出基于生成對(duì)抗網(wǎng)絡(luò)的數(shù)據(jù)修復(fù)方法,將交通量處理為二維信息圖,計(jì)算路網(wǎng)關(guān)聯(lián)矩陣并實(shí)現(xiàn)數(shù)據(jù)缺失修復(fù).文獻(xiàn)[6]將貝葉斯概率矩陣分解模型推廣到高階張量,并應(yīng)用于交通時(shí)空數(shù)據(jù)修復(fù)問(wèn)題.現(xiàn)有研究存在以下問(wèn)題:首先,基于時(shí)空相關(guān)性交通流量數(shù)據(jù)修復(fù)研究多針對(duì)較小規(guī)模的區(qū)域進(jìn)行[1-2,5-6],例如只考察路段的直接鄰接關(guān)系的多個(gè)路段(上下游),較小空間樣本的時(shí)空交通流信息難以實(shí)現(xiàn)大范圍路網(wǎng)交通流量數(shù)據(jù)修復(fù)的全局優(yōu)化,不能有效支持現(xiàn)代交通管控所需的大規(guī)模路網(wǎng)交通協(xié)同感知與聯(lián)動(dòng)控制;其次,將深度學(xué)習(xí)應(yīng)用于交通流量數(shù)據(jù)修復(fù),難以從數(shù)據(jù)中提取具體時(shí)空特征,如基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的模型(LSTM等)能為相鄰時(shí)刻的交通數(shù)據(jù)建立聯(lián)系,學(xué)習(xí)到交通流量序列長(zhǎng)期依賴關(guān)系[3],但只能從噪聲中捕捉時(shí)間特征,不能有效模擬交通路網(wǎng)空間結(jié)構(gòu).CNN 可通過(guò)學(xué)習(xí)交通路網(wǎng)空間結(jié)構(gòu)進(jìn)行交通數(shù)據(jù)修復(fù)[4],但其適合捕捉歐式空間關(guān)系,不適用于捕獲大規(guī)模路網(wǎng)空間特征.
針對(duì)能夠應(yīng)用于城市甚至更大空間范圍的高精度全域交通數(shù)據(jù)修復(fù)問(wèn)題,修復(fù)模型需要捕捉時(shí)空相關(guān)性及遠(yuǎn)距離空間相關(guān)性來(lái)完成對(duì)缺失數(shù)據(jù)精準(zhǔn)重構(gòu),且在面對(duì)高缺失率情況下能保證數(shù)據(jù)修復(fù)精度.本文提出基于RU-Net 的路網(wǎng)交通數(shù)據(jù)修復(fù)方法,利用模型編碼解碼能力壓縮路網(wǎng)交通數(shù)據(jù),減少冗余信息對(duì)修復(fù)的影響,從而高精度重構(gòu)缺失數(shù)據(jù).模型中殘差結(jié)構(gòu)能夠提高網(wǎng)絡(luò)深度,增強(qiáng)模型對(duì)原始數(shù)據(jù)的抽象能力,能捕捉交通數(shù)據(jù)遠(yuǎn)距離空間相關(guān)性,滿足大規(guī)模路網(wǎng)中不同缺失率和缺失模式下的交通數(shù)據(jù)修復(fù)場(chǎng)景.
U-Net的提出是為解決圖像分割問(wèn)題,其模型結(jié)構(gòu)[7]如圖1 所示,包含一個(gè)收縮路徑捕獲上下文語(yǔ)義,和一個(gè)對(duì)稱的擴(kuò)張路徑,擴(kuò)張路徑結(jié)合收縮路徑中各層信息和擴(kuò)張路徑的深層特征輸入還原細(xì)節(jié)信息,模型輸入尺寸為572×572 的圖像數(shù)據(jù),而交通路網(wǎng)中交通信息采集點(diǎn)的數(shù)量遠(yuǎn)小于高分辨率圖像像素?cái)?shù)量.輸入矩陣尺寸較小,僅通過(guò)較少次采樣,就會(huì)出現(xiàn)原始數(shù)據(jù)細(xì)節(jié)信息丟失的問(wèn)題.但簡(jiǎn)單地直接減少網(wǎng)絡(luò)深度,會(huì)降低模型對(duì)輸入張量語(yǔ)義信息的編碼能力,影響修復(fù)的精度.
圖1 U-Net 結(jié)構(gòu)Fig.1 U-Net architecture
為增加網(wǎng)絡(luò)深度且不影響網(wǎng)絡(luò)訓(xùn)練,在U-Net基礎(chǔ)上引入殘差網(wǎng)絡(luò).殘差網(wǎng)絡(luò)(ResNet)利用殘差單元模塊解決了隨網(wǎng)絡(luò)層次加深帶來(lái)的優(yōu)化問(wèn)題[8].殘差單元模塊通過(guò)將前向神經(jīng)網(wǎng)絡(luò)短路連接實(shí)現(xiàn),結(jié)構(gòu)如圖2所示,公式為
式中:x和y分別為殘差單元的輸入和輸出;F(x,W)為經(jīng)過(guò)卷積層后的輸出結(jié)果;W為權(quán)重參數(shù).
圖2 殘差單元模塊Fig.2 Residual unit
帶有短路連接的堆疊非線性層,將輸入x通過(guò)短路連接傳輸?shù)捷敵?,只需使非線性層F(x,W)的訓(xùn)練目標(biāo)逼近0值,便可使殘差單元模塊學(xué)習(xí)到恒等映射.加入短路連接后,公式為
式(2)中H(x)對(duì)x的偏導(dǎo)大于1,解決了梯度消失問(wèn)題.當(dāng)H(x)為恒等映射時(shí),消除了網(wǎng)絡(luò)層間僅能逐層傳遞信息的約束,使信息可以越過(guò)多層,解決了隨著網(wǎng)絡(luò)加深而出現(xiàn)的網(wǎng)絡(luò)退化問(wèn)題.對(duì)于高速公路、隧道及城市快速干道等較封閉的道路場(chǎng)景,可利用交通觀測(cè)點(diǎn)間遠(yuǎn)距離空間相關(guān)性提高路網(wǎng)交通流量數(shù)據(jù)修復(fù)精度.Moran指數(shù)能夠反映觀測(cè)點(diǎn)間的空間自相關(guān)性,圖3 為倫敦市M3 高速公路中長(zhǎng)55 km 路段的18 個(gè)交通流觀測(cè)點(diǎn)Moran 指數(shù)在6月1日的變化趨勢(shì).從圖3 中可以看出,一天中大部分時(shí)段Moran 指數(shù)小于-0.3,這表明即使觀測(cè)點(diǎn)間相距較遠(yuǎn),仍然具有較強(qiáng)空間相關(guān)性.
圖3 M3 高速公路Moran 指數(shù)日變化趨勢(shì)Fig.3 Daily trend of Moran Index of M3 freeway
RU-Net 在U-Net 基礎(chǔ)上引入殘差學(xué)習(xí)思想,模型結(jié)構(gòu)如圖4所示.具體體現(xiàn)在兩種短路連接的引入:一種是卷積層之間的短路連接,在增加網(wǎng)絡(luò)容量的同時(shí),能夠解決因卷積層加深出現(xiàn)的網(wǎng)絡(luò)退化問(wèn)題;另一種是對(duì)稱式短路鏈接,如圖4 中收縮路徑和擴(kuò)張路徑對(duì)稱點(diǎn)的黑色短路連接所示,能夠在增加模型深度的同時(shí),借助殘差單元易于學(xué)習(xí)到恒等映射的特性,防止因下采樣次數(shù)較多造成輸入交通流量信息丟失問(wèn)題.通過(guò)增加模型對(duì)數(shù)據(jù)的抽象能力,降低數(shù)據(jù)矩陣壓縮率,剔除冗余信息對(duì)模型的影響.兩種短路連接的作用本質(zhì)上都是增加模型深度,適應(yīng)于現(xiàn)實(shí)交通場(chǎng)景,加深的網(wǎng)絡(luò)結(jié)構(gòu)使模型夠更容易捕捉到路網(wǎng)交通數(shù)據(jù)遠(yuǎn)距離空間相關(guān)性.RU-Net 適合處理網(wǎng)格結(jié)構(gòu)數(shù)據(jù),將時(shí)空交通量矩陣作為模型輸入,實(shí)驗(yàn)選取路網(wǎng)中1 024 個(gè)交通信息采集點(diǎn),并將5 個(gè)歷史空間交通量矩陣堆疊至待修復(fù)空間交通量矩陣,輸入矩陣尺寸為32×32×6,輸出矩陣尺寸為32×32×1,即能夠一次生成整個(gè)路網(wǎng)交通流量數(shù)據(jù)的修復(fù)結(jié)果,提高修復(fù)效率.
圖4 RU-Net 結(jié)構(gòu)Fig.4 RU-Net architecture
采用英國(guó)政府發(fā)布的英格蘭高速公路交通流數(shù)據(jù)集[9]對(duì)基于RU-Net路網(wǎng)交通流量數(shù)據(jù)修復(fù)方法進(jìn)行性能驗(yàn)證.如圖5 所示,選取倫敦市及周邊1 024個(gè)交通數(shù)據(jù)觀測(cè)點(diǎn),2013年1月1日~6月30日共181 d的交通量數(shù)據(jù),數(shù)據(jù)采集頻率為15 min/次,共17 793 024條記錄.其中,80%數(shù)據(jù)用于訓(xùn)練集,10%用于驗(yàn)證集,剩余數(shù)據(jù)作為測(cè)試集.
圖5 倫敦交通數(shù)據(jù)觀測(cè)點(diǎn)Fig.5 Traffic data collector in London
RU-Net 基礎(chǔ)結(jié)構(gòu)為卷積網(wǎng)絡(luò),是一種專門處理具有網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò).為充分捕獲路網(wǎng)交通量數(shù)據(jù)的時(shí)間相關(guān)性和空間相關(guān)性,實(shí)驗(yàn)將1 024個(gè)交通觀測(cè)點(diǎn)網(wǎng)格化,根據(jù)空間位置順序構(gòu)造成32×32的交通量矩陣,共有17 376個(gè)空間交通量矩陣,如圖6 所示,使模型更易于捕獲交通量的空間相關(guān)性.圖6 分別展示了6月1日08:00 與20:00的路網(wǎng)交通量矩陣,可以看出,路網(wǎng)交通量數(shù)據(jù)分布相似.圖7采用Moran指數(shù)分析路網(wǎng)空間相關(guān)性:圖中區(qū)域1為圖6(b)中黑色虛線方框范圍內(nèi)共45 個(gè)交通流觀測(cè)點(diǎn),該區(qū)域在早高峰之前路網(wǎng)中交通量空間相關(guān)性不顯著,隨著早高峰來(lái)臨Moran指數(shù)始終低于-0.3且z值均低于-2.58,表明空間相關(guān)性較強(qiáng);區(qū)域2 為圖6(b)中黑色實(shí)線方框,該區(qū)域?yàn)閭惗叵K剂_機(jī)場(chǎng),機(jī)場(chǎng)周邊區(qū)域表現(xiàn)出更顯著的空間相關(guān)性,負(fù)相關(guān)性表明空間異質(zhì)特性較為顯著.
圖6 交通量矩陣Fig.6 Traffic volume matrix
圖7 Moran 指數(shù)日變化趨勢(shì)Fig.7 Daily trend of Moran Index
由于交通量周期性特點(diǎn),以周為時(shí)間單位選取待修復(fù)時(shí)間點(diǎn)前兩周同時(shí)間點(diǎn)交通量矩陣,堆疊至待修復(fù)交通量矩陣.為應(yīng)對(duì)交通突發(fā)事件,捕獲時(shí)序交通數(shù)據(jù)時(shí)間相關(guān)性,選取待修復(fù)時(shí)間點(diǎn)的前3個(gè)觀測(cè)間隔交通量矩陣,堆疊至待修復(fù)交通量矩陣.6個(gè)時(shí)間點(diǎn)的交通量矩陣構(gòu)成32×32×6的時(shí)空交通量矩陣,使模型容易捕獲交通量時(shí)間相關(guān)性.
為模擬現(xiàn)實(shí)交通環(huán)境中路網(wǎng)交通數(shù)據(jù)的缺失模式,采用3 種空間交通量矩陣生成缺失數(shù)據(jù)模式.圖8(a)為缺失率10%的隨機(jī)缺失模式,黑點(diǎn)表示缺失數(shù)據(jù),在32×32的交通量矩陣中以均勻分布隨機(jī)采樣一定數(shù)量觀測(cè)點(diǎn)作為缺失數(shù)據(jù),模擬因?yàn)榻煌〝?shù)據(jù)采集設(shè)備故障導(dǎo)致的隨機(jī)缺失現(xiàn)象;圖8(b)為一塊10×10 大小的區(qū)域缺失模式,在32×32的交通量矩陣中隨機(jī)位置選取某區(qū)域所有觀測(cè)點(diǎn)作為缺失數(shù)據(jù),缺失數(shù)據(jù)為n×n的交通量子矩陣(0 <n<32),模擬因區(qū)域電力、通訊故障造成的區(qū)域數(shù)據(jù)缺失;圖8(c)為混合缺失模式,同時(shí)包括前兩種缺失模式.此外,為消除隨機(jī)性影響,實(shí)驗(yàn)選取5次實(shí)驗(yàn)結(jié)果平均值作為最終實(shí)驗(yàn)結(jié)果.
圖8 不同缺失模式Fig.8 Different missing patterns
選用均方根誤差(RMSE),平均絕對(duì)誤差(MAE),平均絕對(duì)百分誤差(MAPE)對(duì)所提修復(fù)算法性能進(jìn)行評(píng)估,表達(dá)式分別為
式中:ERMSE為N個(gè)交通量觀測(cè)點(diǎn)的均方根誤差;EMAE為N個(gè)交通量觀測(cè)點(diǎn)的平均絕對(duì)誤差;EMAPE為N個(gè)交通量觀測(cè)點(diǎn)的平均絕對(duì)百分誤差;i為第N個(gè)交通量觀測(cè)點(diǎn);xi為交通量缺失數(shù)據(jù)修復(fù)值;yi為交通量數(shù)據(jù)觀測(cè)值;N為路網(wǎng)中缺失值數(shù)量.
圖9 為利用RU-Net 及U-Net 模型對(duì)不同缺失率的交通量數(shù)據(jù)進(jìn)行修復(fù)的結(jié)果.從圖9 可知:RU-Net 修復(fù)結(jié)果的RMSE 較低,即使數(shù)據(jù)完全缺失情況下僅為15.188 8,這表明修復(fù)值中極端誤差值較??;MAE 及MAPE 評(píng)價(jià)指標(biāo)結(jié)果表明,RUNet模型修復(fù)結(jié)果和真實(shí)值間偏差小,修復(fù)準(zhǔn)確率高.在數(shù)據(jù)缺失率極大的情況下:RU-Net模型仍然具有較強(qiáng)適應(yīng)性,可以保持較高的修復(fù)精度,即使無(wú)法從當(dāng)前空間相關(guān)的其他非缺失觀測(cè)點(diǎn)中獲取修復(fù)信息,仍能憑借歷史交通量數(shù)據(jù)的時(shí)空相關(guān)性對(duì)數(shù)據(jù)進(jìn)行修復(fù);U-Net模型在數(shù)據(jù)缺失率超過(guò)80%后,出現(xiàn)修復(fù)精度大幅下降的問(wèn)題.對(duì)比各評(píng)價(jià)指標(biāo)可知,RU-Net 模型修復(fù)結(jié)果均優(yōu)于U-Net模型,說(shuō)明RU-Net 模型對(duì)數(shù)據(jù)特征的提取,時(shí)空相關(guān)性的抽象能力較好,對(duì)于缺失數(shù)據(jù)修復(fù)具有較高的精度.
圖9 各評(píng)價(jià)指標(biāo)缺失數(shù)據(jù)修復(fù)效果對(duì)比Fig.9 Imputation effect comparison with different criterions
圖10為6月27~28日編號(hào)LM1010路段在數(shù)據(jù)完全缺失情況下的交通量數(shù)據(jù)修復(fù)結(jié)果.圖10(a)實(shí)線橢圓處,當(dāng)交通流量出現(xiàn)急劇變化時(shí),交通流量隨機(jī)性加強(qiáng),修復(fù)值易產(chǎn)生較大波動(dòng),出現(xiàn)修復(fù)精度下降問(wèn)題,但RU-Net 模型仍能較準(zhǔn)確地對(duì)數(shù)據(jù)進(jìn)行修復(fù);圖10(a)中虛線橢圓處,當(dāng)交通量處于高峰期間,RU-Net模型也能夠準(zhǔn)確描述數(shù)據(jù)分布,具有更低的修復(fù)誤差.
圖10 基于RU-Net 和U-Net 模型數(shù)據(jù)修復(fù)性能對(duì)比圖Fig.10 Performance comparison of data imputation between RU-Net and U-Net
圖11 為RU-Net 對(duì)不同數(shù)據(jù)缺失模式修復(fù)性能對(duì)比.區(qū)域缺失模式中,除缺失區(qū)域較小時(shí),均方根誤差均較相近,表明缺失區(qū)域較大時(shí),觀測(cè)點(diǎn)能找到高空間相關(guān)性的非故障觀測(cè)點(diǎn)較少,更趨向于從歷史數(shù)據(jù)中學(xué)習(xí)時(shí)空映射關(guān)系作為修復(fù)依據(jù).在相同數(shù)據(jù)缺失個(gè)數(shù)條件下,對(duì)比隨機(jī)數(shù)據(jù)缺失模式修復(fù)結(jié)果發(fā)現(xiàn),隨機(jī)缺失模式較區(qū)域缺失模式有更高的修復(fù)精度.這是因?yàn)殡S機(jī)缺失模式中的故障點(diǎn)更容易找到具有高空間相關(guān)性的非故障觀測(cè)點(diǎn),并利用其數(shù)據(jù)對(duì)故障點(diǎn)進(jìn)行修復(fù).混合缺失模式中接近1/2 采集點(diǎn)為區(qū)域缺失,剩余為隨機(jī)缺失,隨區(qū)域缺失采集點(diǎn)數(shù)量增多,混合缺失模式的修復(fù)誤差接近于區(qū)域缺失模式.圖12 為RU-Net 對(duì)100 個(gè)缺失采集點(diǎn)修復(fù)值MAE 的分布,區(qū)域缺失模式中上下邊界相差較大,缺失區(qū)域中心部分較少依賴于空間域上下文信息,造成修復(fù)誤差波動(dòng)較大.實(shí)驗(yàn)結(jié)果表明,RU-Net 對(duì)區(qū)域數(shù)據(jù)缺失模式同樣具有較高的修復(fù)精度,但區(qū)域數(shù)據(jù)缺失模式中,模型修復(fù)更依賴于交通流量的時(shí)間相關(guān)性.
圖11 RU-Net 不同數(shù)據(jù)缺失模式修復(fù)效果對(duì)比Fig.11 Imputation effect comparison of RU-Net with different data missing pattern
圖12 100 個(gè)缺失點(diǎn)修復(fù)值MAE 分布Fig.12 Distribution of mean absolute error for imputation
現(xiàn)代化交通系統(tǒng)中管理與決策依賴全域數(shù)據(jù)支持,路網(wǎng)中出現(xiàn)大面積數(shù)據(jù)缺失時(shí),無(wú)法提供動(dòng)態(tài)實(shí)時(shí)的路網(wǎng)交通數(shù)據(jù).本文將交通流量構(gòu)造為時(shí)空交通流量矩陣,使模型更易于捕捉交通流量的時(shí)空相關(guān)性;引入殘差網(wǎng)絡(luò),增強(qiáng)RU-Net 對(duì)交通流量數(shù)據(jù)的適應(yīng)性.在避免網(wǎng)絡(luò)退化的同時(shí)提高網(wǎng)絡(luò)深度,增強(qiáng)修復(fù)模型對(duì)高級(jí)語(yǔ)義信息的編碼能力,提高模型對(duì)遠(yuǎn)距離空間相關(guān)性的捕捉能力,進(jìn)一步提高修復(fù)精度.本文模型在面對(duì)交通數(shù)據(jù)不同缺失率和不同缺失模式時(shí)能夠得到較高精度修復(fù)值,修復(fù)結(jié)果可應(yīng)用于交通路網(wǎng)區(qū)域聯(lián)動(dòng)控制與管理中.下一步研究將考慮復(fù)雜多樣的交通環(huán)境對(duì)數(shù)據(jù)修復(fù)的影響,將天氣數(shù)據(jù)、道路及環(huán)境條件等量化并融入模型,進(jìn)一步提升修復(fù)模型性能.