李金龍 李若南 吳攀 于廣婧 許倫輝
摘 要:針對(duì)城市道路網(wǎng)絡(luò)環(huán)境下各種軟/硬件故障導(dǎo)致的交通數(shù)據(jù)缺失問(wèn)題,提出了一種基于時(shí)空殘差張量學(xué)習(xí)(spatial-temporal residual tensor learning,ST-RTL)的交通數(shù)據(jù)修復(fù)方法。該方法通過(guò)構(gòu)造帶缺失值的三維交通張量以最大程度表征原始路網(wǎng)時(shí)空信息;并在高斯分布假設(shè)基礎(chǔ)上,采用Gibbs采樣完成對(duì)缺失數(shù)據(jù)的CANDECOMP/PARAFAC(CP)張量分解與低秩重構(gòu)。考慮到張量修復(fù)過(guò)程產(chǎn)生的殘差值,研究設(shè)計(jì)一種可動(dòng)態(tài)迭代的雙向殘差優(yōu)化結(jié)構(gòu)以捕捉剩余時(shí)空依賴特性,實(shí)現(xiàn)對(duì)缺失交通數(shù)據(jù)的精準(zhǔn)修復(fù)。采用公開(kāi)的杭州地鐵客流數(shù)據(jù)進(jìn)行模型構(gòu)建與驗(yàn)證。結(jié)果表明,當(dāng)缺失率為10%~80%時(shí),三種缺失場(chǎng)景(隨機(jī)、聚類和混合缺失)對(duì)張量結(jié)構(gòu)破壞存在較大差異,其中聚類缺失的破壞程度最大,此時(shí),ST-RTL的評(píng)估指標(biāo)MAPE、RMSE和MAE分別位于3.1071~7.0371、16.3779~58.4286、3.7434~8.0135;且隨著缺失率遞增,ST-RTL模型各指標(biāo)呈加速增加趨勢(shì)。與HaLRTC、GAIN和BGCP等代表性基準(zhǔn)模型相比,所建立的ST-RTL模型在可接受計(jì)算代價(jià)范圍內(nèi)具有更低的性能指標(biāo)和更強(qiáng)的穩(wěn)定性,能為智能交通系統(tǒng)提供高質(zhì)量的基礎(chǔ)數(shù)據(jù)。
關(guān)鍵詞:智能交通; 數(shù)據(jù)修復(fù); 張量學(xué)習(xí); 高斯分布; 殘差優(yōu)化
中圖分類號(hào):U491.1+4 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2023)10-014-2972-06
doi:10.19734/j.issn.1001-3695.2023.03.0084
Traffic data imputation of urban road network based on
spatial-temporal residual tensor learning
Li Jinlong1, Li Ruonan2, Wu Pan3, Yu Guangjing1, Xu Lunhui1
(1.School of Civil Engineering & Transportation, South China University of Technology, Guangzhou 510641, China; 2.College of Computer Science & Technology, Harbin Institute of Technology (Shenzhen), Shenzhen Guangdong 518055, China; 3.College of Traffic & Transportation, Chongqing Jiaotong University, Chongqing 400074, China)
Abstract:To tackle the issue of traffic data loss due to various software/hardware failures in urban road network environments, this paper proposed a traffic data imputation method based on spatial-temporal residual tensor learning (ST-RTL). This method constructed a 3D traffic tensor with missing value to characterize original spatiotemporal attributes of road network maxi-mally. Then it adopted Gibbs sampling to perform a CANDECOMP/PARAFAC (CP) tensor decomposition and low-rank reconstruction of missing traffic data based on the assumption of Gaussian distribution. Considering the residual value produced by the tensor repair process, the study designed a bidirectional residual optimization structure with dynamic iterations to capture the residual spatiotemporal dependencies to enable the accurate repair of the missing traffic data. The experiments took a publicly available Hangzhou metro passenger flow for model construction and validation. The results indicate that when the missing rates are 10%~80%, the three missing scenarios (random, cluster and hybrid missing) have large differences on tensor structure damage, among which cluster missing has the greatest destruction and the evaluation indexes MAPE, RMSE and MAE of ST-RTL lied in 3.1071~7.0371, 16.3779~58.4286 and 3.7434~8.0135; and each indicator of ST-RTL model shows an accelerated increasing trend as the missing rate rises. Compared with the representative baseline models such as HaLRTC, GAIN and BGCP, the ST-RTL exhibits lower performance metrics and stronger stability in the acceptable computational costs, which can provide high-quality basic data for intelligent transportation systems.
Key words:intelligent transportation; data imputation; tensor learning; Gaussian distribution; residual optimization
0 引言
隨著城市智能交通系統(tǒng)(intelligent transportation system,ITS)所依賴的基礎(chǔ)運(yùn)行設(shè)施逐漸完善,采用傳感器技術(shù)、通信技術(shù)及數(shù)據(jù)存儲(chǔ)技術(shù)等收集到的交通數(shù)據(jù)日益紛繁復(fù)雜,也極易導(dǎo)致因突發(fā)天氣、設(shè)備老化或傳輸中斷等軟/硬件故障而發(fā)生交通數(shù)據(jù)異常或丟失[1]。例如,交叉口/區(qū)域/路網(wǎng)等不同尺度范圍內(nèi)的自適應(yīng)交通信號(hào)控制系統(tǒng)需要穩(wěn)定且高質(zhì)量的交通值(如流量、密度和速度)來(lái)進(jìn)行實(shí)時(shí)數(shù)據(jù)分析,以生成高效的控制指令與管理策略。如果存在缺失值,這不僅嚴(yán)重影響控制系統(tǒng)的正常運(yùn)轉(zhuǎn),甚至還加重城市路網(wǎng)的交通擁堵。因此,為了更好地開(kāi)展交通數(shù)據(jù)的分類、回歸預(yù)測(cè)、控制優(yōu)化與管理等基礎(chǔ)性工作,研究有必要對(duì)處在各種復(fù)雜缺失狀況下的交通數(shù)據(jù)進(jìn)行高精度修復(fù)[2]。
精準(zhǔn)的交通數(shù)據(jù)修復(fù)需要采用有效的算法與策略,通過(guò)充分挖掘路網(wǎng)異構(gòu)多源數(shù)據(jù)間客觀的時(shí)空依賴關(guān)系,從而建立起符合自然演化規(guī)律的數(shù)據(jù)修復(fù)模型[3]。為此,國(guó)內(nèi)外研究學(xué)者從理論分析與實(shí)際應(yīng)用角度出發(fā),采用各種方法建立了大量的交通數(shù)據(jù)修復(fù)模型。目前,主流修復(fù)算法分為插值類、預(yù)測(cè)類與統(tǒng)計(jì)類方法[1]。其中,早期的插值類方法,如歷史差值、樣條差值和回歸差值等,在填補(bǔ)向量形式的缺失交通數(shù)據(jù)時(shí)取得了不錯(cuò)的修復(fù)效果。然而,面對(duì)大規(guī)模缺失數(shù)據(jù)時(shí),插值類算法因相對(duì)簡(jiǎn)單的修復(fù)原理而失效。通過(guò)大量使用智能算法從交通數(shù)據(jù)中有效提取空間與時(shí)間特征,一些預(yù)測(cè)類方法在數(shù)據(jù)修復(fù)任務(wù)中取得了較高的修復(fù)精度。如Cui等人[4]設(shè)計(jì)了帶修復(fù)單元的SBU-LSTM循環(huán)結(jié)構(gòu)以自動(dòng)填補(bǔ)缺失交通值。Xu等人[5]開(kāi)發(fā)了一個(gè)新穎的深度學(xué)習(xí)框架GE-GAN以有效完成修復(fù)任務(wù)。盡管越來(lái)越多的研究使用預(yù)測(cè)算法修復(fù)缺失數(shù)據(jù),但該類方法的不可解釋性和高計(jì)算成本嚴(yán)重制約了此類研究的進(jìn)展[6]。統(tǒng)計(jì)類方法已被成功應(yīng)用于數(shù)據(jù)修復(fù)領(lǐng)域并取得了較好的結(jié)果,如矩陣分解算法通過(guò)數(shù)據(jù)降維與近似重構(gòu)在缺失交通值填補(bǔ)方面取得了大量的理論突破與應(yīng)用先例(如BPCA、PPCA、FPCA和KPPCA)。但考慮到現(xiàn)階段ITS中多源交通數(shù)據(jù)復(fù)雜的時(shí)空依賴關(guān)系,簡(jiǎn)單的二維矩陣結(jié)構(gòu)已無(wú)法充分表征具有高維特性的交通序列。因此,部分學(xué)者采用三維張量結(jié)構(gòu)來(lái)表示復(fù)雜路網(wǎng)環(huán)境下的多源時(shí)空交通序列,并通過(guò)低秩近似的方式完成對(duì)張量的分解與重構(gòu)。例如,Liu等人[7]提出了一個(gè)無(wú)分解結(jié)構(gòu)的高精度低秩張量完成(HaLRTC)算法估計(jì)缺失值;隨后,Ran等人[8]將其應(yīng)用于交通數(shù)據(jù)修復(fù)。Chen等人[9]將貝葉斯矩陣分解擴(kuò)展至更高階的貝葉斯高斯CANDECOMP/PARAFAC (BGCP)張量分解形式。通過(guò)學(xué)習(xí)時(shí)空交通數(shù)據(jù)潛在統(tǒng)計(jì)模式,該模型在大規(guī)模交通數(shù)據(jù)修復(fù)任務(wù)中取得了良好的效果。此外,Chen等人[10]還提出了一個(gè)低秩自回歸張量完成(LATC)算法,因同時(shí)考慮了交通數(shù)據(jù)的全局相關(guān)性與局部相關(guān)性,該算法的修復(fù)精度與穩(wěn)定性更高。
盡管上述研究證實(shí)這些算法在交通數(shù)據(jù)修復(fù)任務(wù)上的優(yōu)勢(shì),但它們卻很少涉及對(duì)大規(guī)模缺失數(shù)據(jù)的處理,且極少部分研究的修復(fù)結(jié)果仍然缺乏有效性;同時(shí),對(duì)于模型修復(fù)后大量存在的誤差值,相關(guān)工作明顯缺乏深入分析與后續(xù)處理,進(jìn)而阻礙了模型性能的提升??紤]到現(xiàn)階段修復(fù)方法存在的局限性,為進(jìn)一步提高缺少交通數(shù)據(jù)修復(fù)精度,本文構(gòu)建一種基于時(shí)空殘差張量學(xué)習(xí)(spatial-temporal residual tensor learning,ST-RTL)的大規(guī)模交通數(shù)據(jù)修復(fù)模型。該模型在高斯分布假設(shè)基礎(chǔ)上,通過(guò)Gibbs采樣完成對(duì)三階張量的CP分解與低秩重構(gòu),基本實(shí)現(xiàn)對(duì)已觀測(cè)數(shù)據(jù)的建模、缺失值生成及殘差計(jì)算。然后,為進(jìn)一步提取時(shí)空依賴特性,研究設(shè)計(jì)了一種新穎的雙向殘差優(yōu)化結(jié)構(gòu),以動(dòng)態(tài)迭代的方式不斷減少修復(fù)值與真實(shí)值間的差值,逐步提高模型的修復(fù)性能。
1 修復(fù)問(wèn)題描述
在城市路網(wǎng)G環(huán)境中,每個(gè)部署在特定區(qū)域內(nèi)的傳感器通過(guò)連續(xù)時(shí)段采樣收集到大量向量形式的交通數(shù)據(jù),所有傳感器數(shù)據(jù)基于時(shí)空維形成一個(gè)三維交通張量集X∈Euclid Math TwoRApI×J×K。其中:I表示空間維的傳感器數(shù);J表示時(shí)間維的采集天數(shù);K表示傳感器每天以固定時(shí)間間隔采集到的交通數(shù)據(jù)量。如圖1所示,張量X中單個(gè)元素xi,j,k代表第i個(gè)傳感器在第j天獲得的第k個(gè)交通值,其中i∈{1,2,3,…,I},j∈{1,2,3,…,J},k∈{1,2,3,…,K}。理論上,除人為干擾,數(shù)據(jù)缺失現(xiàn)象可以發(fā)生在張量X的任意位置且缺失率無(wú)法預(yù)估。為表征這種數(shù)據(jù)缺失情況,研究創(chuàng)建0-1掩碼張量M∈Euclid Math TwoRApI×J×K,式(1)表示其元素劃分標(biāo)準(zhǔn)。因此,路網(wǎng)實(shí)際采集的交通數(shù)據(jù)可表示為XΩ=X⊙M,其中Ω表示已觀測(cè)數(shù)據(jù)的索引集;符號(hào)⊙表示張量間的Hadamard積。
考慮到路網(wǎng)G中復(fù)雜的時(shí)空依賴關(guān)系,相鄰交通數(shù)據(jù)受傳感器空間位置與時(shí)間周期性的相互影響,研究對(duì)已觀測(cè)數(shù)據(jù)集XΩ∈Euclid Math TwoRApI×J×K進(jìn)行時(shí)空建模以修復(fù)X中的缺失值。
2 基于ST-RTL的路網(wǎng)交通數(shù)據(jù)修復(fù)模型
2.1 模型架構(gòu)
基于圖1中時(shí)空數(shù)據(jù)展示與式(2)的預(yù)期目標(biāo),研究從模型優(yōu)化角度出發(fā)提出了基于CP張量分解的ST-RTL修復(fù)模型,以完成對(duì)復(fù)雜缺失交通數(shù)據(jù)的精準(zhǔn)修復(fù)。具體而言,圖2展示了ST-RTL模型的修復(fù)過(guò)程,主要包括以下兩部分:a)三階CP張量分解完成缺失交通數(shù)據(jù)的低秩近似與基本重構(gòu);b)可迭代時(shí)空殘差優(yōu)化結(jié)構(gòu)減少模型誤差,實(shí)現(xiàn)路網(wǎng)缺失交通數(shù)據(jù)的精準(zhǔn)修復(fù)。其中,2.2節(jié)(對(duì)應(yīng)圖2中的①)介紹了高階CP張量分解原理與完成三階缺失交通張量低秩重構(gòu)的方法與過(guò)程;2.3節(jié)(對(duì)應(yīng)圖2中的②)提出了一種新穎的雙向殘差優(yōu)化結(jié)構(gòu)及其結(jié)合CP張量計(jì)算的具體應(yīng)用。對(duì)于修復(fù)后的完整張量,研究在實(shí)驗(yàn)部分采用了多種性能指標(biāo)和各種先進(jìn)的基準(zhǔn)模型綜合對(duì)比和評(píng)判ST-RTL的修復(fù)效果。
2.2 高維低秩張量分解
2.2.1 CANDECOMP/PARAFAC (CP)張量分解
作為矩陣奇異值分解的高階擴(kuò)展版本,CP張量分解在信號(hào)處理、圖像去噪及數(shù)據(jù)修復(fù)等各個(gè)方面取得了廣泛應(yīng)用。通常,該算法將高階張量分解為有限個(gè)秩1張量和,然后通過(guò)最小二乘法或梯度下降法進(jìn)行迭代計(jì)算和低秩還原。本研究利用CP分解作為基本工具以完成對(duì)缺失交通數(shù)據(jù)的精準(zhǔn)修復(fù)。具體如式(2)所示,研究首先采用CP分解將X轉(zhuǎn)換為R個(gè)秩為1的因子張量和,然后再對(duì)其數(shù)值優(yōu)化問(wèn)題求解。
2.2.2 低秩貝葉斯推斷
對(duì)于上述三階CP張量分解,研究采用貝葉斯方法近似求解各因子張量arbrcr。為方便描述,研究利用ur統(tǒng)一表示張量arbrcr且假設(shè)其向量u(d)r滿足多元高斯分布:
其中:tr(·)為跡函數(shù),表示方形矩陣主對(duì)角線上所有元素的和。實(shí)際上,被分解的張量X與其重構(gòu)值存在絕對(duì)誤差,研究假設(shè)觀測(cè)向量xi∈XΩ滿足獨(dú)立高斯分布xi~N(i,τ-1ε),τε為精度參數(shù),i為xi的CP分解重構(gòu)值。由于τε值大小反映了交通數(shù)據(jù)的噪聲程度,所以間接影響了CP分解的穩(wěn)健性。但理論上該值無(wú)法確定,研究只能采用共軛τε~Gamma(ξ,ζ)先驗(yàn)對(duì)其進(jìn)行估計(jì),其中ζ和ξ分別為形狀參數(shù)和速率參數(shù)。在高斯假設(shè)條件下,研究后續(xù)采用Gibbs采樣算法[9]對(duì)所有模型參數(shù)和超參數(shù)進(jìn)行估計(jì)并求其后驗(yàn)分布,最后通過(guò)次迭代計(jì)算交替更新完成貝葉斯推斷和CP張量分解。
2.3 時(shí)空殘差優(yōu)化建模
與傳統(tǒng)修復(fù)方法相比,上述低秩CP張量分解對(duì)簡(jiǎn)單缺失狀況具有一定的修復(fù)效果。然而,現(xiàn)階段大規(guī)模復(fù)雜缺失交通數(shù)據(jù)修復(fù)任務(wù)需要更為精準(zhǔn)且穩(wěn)定性更強(qiáng)的修復(fù)模型。考慮到實(shí)際修復(fù)過(guò)程中被忽視的計(jì)算殘差,研究從模型優(yōu)化角度出發(fā)設(shè)計(jì)了一個(gè)可高度模塊化的雙向時(shí)空殘差優(yōu)化結(jié)構(gòu)。具體而言,該結(jié)構(gòu)包含
3 實(shí)驗(yàn)與結(jié)果分析
3.1 實(shí)驗(yàn)數(shù)據(jù)與缺失情況描述
3.1.1 數(shù)據(jù)集描述
本研究選擇公開(kāi)可獲取的杭州地鐵客流交通數(shù)據(jù)集[9]驗(yàn)證ST-RTL模型的實(shí)際修復(fù)效果和可靠性。該數(shù)據(jù)集包含了杭州市80個(gè)地鐵站在2019年1月1日至1月25日采集到的所有進(jìn)站乘客流量,采樣間隔為10 min,即每10 min記錄站點(diǎn)客流的平均數(shù)量。依據(jù)城市地鐵運(yùn)行規(guī)律,地鐵站在00:00~06:00時(shí)段暫停服務(wù),因此,每個(gè)站點(diǎn)每天能收集108個(gè)數(shù)據(jù)值。根據(jù)時(shí)空屬性和研究目標(biāo),本文將上述杭州交通時(shí)序按張量模式“傳感器×天數(shù)×?xí)r間”重新轉(zhuǎn)換為“80×25×108”的三階張量形式。
3.1.2 復(fù)雜缺失張量構(gòu)建
在城市路網(wǎng)環(huán)境中,各種硬件/軟件故障導(dǎo)致交通數(shù)據(jù)缺失的方式和比率多樣,傳統(tǒng)研究?jī)A向于構(gòu)建單一模式下具有較低比率的缺失交通時(shí)序以完成修復(fù)任務(wù)。本研究在調(diào)查統(tǒng)計(jì)交通數(shù)據(jù)實(shí)際缺失狀況后,設(shè)計(jì)了三種能模擬真實(shí)狀況的修復(fù)場(chǎng)景:隨機(jī)缺失(random missing,RM)、聚類缺失(cluster mis-sing,CM)和混合缺失(hybrid missing,HM)[11]。針對(duì)這三種模式,研究隨機(jī)刪除一定比率的數(shù)據(jù)點(diǎn)、數(shù)據(jù)塊及其組合以滿足理論研究對(duì)缺失率的設(shè)計(jì)要求,保證其從10%開(kāi)始以間隔10%遞增至90%,基本全尺度覆蓋了所有可能的缺失情況。特別對(duì)于HM模式,研究通過(guò)同比率混合RM和CM模式下的缺失數(shù)據(jù)以形成HM模式下具有指定比率的缺失交通張量。
3.2 基本的實(shí)驗(yàn)設(shè)置
3.2.1 基準(zhǔn)對(duì)比模型
研究引入具有代表性的基準(zhǔn)模型進(jìn)行修復(fù)性能對(duì)比,各個(gè)對(duì)比模型介紹如下:
a)HaLRTC[7]:高精度低秩張量完成。它在張量核范數(shù)最小化基礎(chǔ)上,使用交替乘子法(ADMM)解決了多個(gè)約束間的依賴關(guān)系并對(duì)修復(fù)問(wèn)題進(jìn)行了有效求解。
b)GAIN[12]:生成對(duì)抗修復(fù)網(wǎng)絡(luò)。它的生成器利用部分觀測(cè)值輸出完整的交通時(shí)序,并通過(guò)對(duì)抗網(wǎng)絡(luò)逐步學(xué)習(xí)交通數(shù)據(jù)的真實(shí)分布以提高模型的修復(fù)精度。
c)BGCP[9]:貝葉斯高斯CP張量分解。它擴(kuò)展貝葉斯概率矩陣分解至更高階形式,然后通過(guò)馬爾可夫鏈蒙特卡羅學(xué)習(xí)潛在低秩因子矩陣的時(shí)空依賴性以修復(fù)缺失交通值。
d)LRTC-TNN[13]:帶截?cái)嗪艘?guī)范的低秩張量完成。它對(duì)缺失交通值實(shí)施基于截?cái)嗪艘?guī)范最小化的LRTC算法求解,且修復(fù)結(jié)果優(yōu)于許多先進(jìn)的基準(zhǔn)模型。
e)LATC[10]:低秩自回歸張量完成。它的低秩結(jié)構(gòu)能有效表征三階張量的全局一致性和變化趨勢(shì),所提出的自回歸項(xiàng)能捕捉到交通數(shù)據(jù)的局部時(shí)間趨勢(shì)。
所有基準(zhǔn)模型均在相同實(shí)驗(yàn)條件下完成模型構(gòu)建,模型參數(shù)預(yù)先經(jīng)由反復(fù)調(diào)優(yōu)確定。其中,對(duì)于HaLRTC,其RM、CM和HM場(chǎng)景下的學(xué)習(xí)率分別設(shè)置為10-4、10-4和10-5;對(duì)于GAIN,它的生成器與對(duì)抗器均為三層全連接神經(jīng)網(wǎng)絡(luò)且迭代次數(shù)設(shè)為1 000;對(duì)于BGCP,其RM、CM和HM模式下的CP秩分別設(shè)為110、80和40;對(duì)于LRTC-TNN,它在RM、CM和HM模式下的截?cái)鄥?shù)分別為0.3、0.05和0.05;對(duì)于LATC,設(shè)定它的模型學(xué)習(xí)率、截?cái)鄥?shù)和權(quán)衡系數(shù)分別為10-5、{5,10,15,20,30}和{1/10,1/5,1,5,10}。
3.2.2 模型評(píng)價(jià)指標(biāo)
為了量化和比較ST-RTL與上述修復(fù)模型的性能,研究采用平均絕對(duì)百分比誤差(mean absolute percentage error,MAPE)、均方根誤差(root mean square error,RMSE)和平均絕對(duì)誤差(mean absolute error,MAE)評(píng)估模型修復(fù)值與其真實(shí)值的差值。具體而言,三個(gè)評(píng)價(jià)指標(biāo)的計(jì)算公式定義如下:
其中:Ω代表已被觀測(cè)的交通值集合且|Ω|表示其模值;xi,j,k和i,j,k分別表示真實(shí)值及對(duì)應(yīng)修復(fù)值。一般而言,MAPE、RMSE和MAE值越小,表明模型的修復(fù)性能越好[14~16]。
3.3 ST-RTL參數(shù)調(diào)優(yōu)與模型評(píng)估
所有修復(fù)模型計(jì)算均在臺(tái)式計(jì)算機(jī)(CPU(Intel Core i7-7700K @4.20 GHz主頻,4個(gè)核心,56 GB內(nèi)存和64位Windows 10操作系統(tǒng))上進(jìn)行,使用Python第三方庫(kù)(如TensorFlow、NumPy和Pandas)與Python 3.6.7來(lái)搭建包括五種基準(zhǔn)算法在內(nèi)的所有城市地鐵客流修復(fù)模型。針對(duì)RM、CM和HM場(chǎng)景,研究靈活調(diào)整包括張量秩在內(nèi)的多個(gè)ST-RTL模型關(guān)鍵參數(shù)以期獲得更好的修復(fù)性能。以張量秩為例,圖3(a)~(c)分別展示了ST-RTL在RM、CM和HM場(chǎng)景下的不同張量秩R對(duì)修復(fù)性能的影響。理論上,模型設(shè)置的R值越大,張量分解與重構(gòu)所包含的時(shí)空依賴信息越豐富,對(duì)應(yīng)生成的缺失值越精確;實(shí)際上,ST-RTL的修復(fù)結(jié)果符合預(yù)定理論設(shè)想。據(jù)圖3可知,RM、CM和HM場(chǎng)景下修復(fù)模型的RMSE、MAPE和MAE隨著R值增加總體呈下降趨勢(shì),特別是后兩個(gè)指標(biāo)值的變化趨勢(shì)更加顯著。隨著R值逐漸增大,ST-RTL的三個(gè)評(píng)價(jià)指標(biāo)趨于穩(wěn)定,這種現(xiàn)象表明過(guò)大的R無(wú)法產(chǎn)生等價(jià)值的增益,反而可能降低模型修復(fù)效率。同時(shí),三種缺失場(chǎng)景在ST-RTL修復(fù)框架內(nèi)產(chǎn)生了不同的計(jì)算效果,這可能與杭州地鐵交通客流固有的極端時(shí)空屬性有關(guān)。因此,基于對(duì)修復(fù)精度與計(jì)算效率的雙重考慮,本研究設(shè)定ST-RTL模型在RM、CM和HM場(chǎng)景下的張量分解秩分別為15、30和20。
對(duì)于ST-RTL模型的其他實(shí)驗(yàn)參數(shù),研究通過(guò)大量定量對(duì)比實(shí)驗(yàn)完成了模型參數(shù)調(diào)優(yōu)。其中對(duì)于CP張量分解的迭代采樣參數(shù),在保證采樣頻率的情況下,研究設(shè)定為200,以最大限度減少算法復(fù)雜度;同時(shí)對(duì)于ST-RTL模型的殘差迭代次數(shù),研究經(jīng)過(guò)多次測(cè)試并在綜合考慮模型的修復(fù)精度和計(jì)算效率后設(shè)定其在RM、CM和HM場(chǎng)景下均為100。
在確定所有參數(shù)后,研究在圖3(d)~(f)中展示了ST-RTL模型在RM、CM和HM場(chǎng)景及10%~90%缺失率組合下的最佳性能指標(biāo)曲線。據(jù)曲線變化可知,隨著缺失率遞增,ST-RTL模型的RMSE、MAPE和MAE值變化總體符合理論上的增加趨勢(shì)。當(dāng)缺失率過(guò)高時(shí),模型的修復(fù)性能急劇下降;特別當(dāng)缺失率達(dá)到90%后,ST-RTL模型各性能指標(biāo)同時(shí)驟升,這表明研究所建立的ST-RTL近乎失效。同時(shí),ST-RTL對(duì)于有顯著缺失差異的RM、CM和HM場(chǎng)景產(chǎn)生了不同的結(jié)果。如圖3(d)~(f)所示,在低缺失率區(qū)間(<50%),ST-RTL對(duì)三種缺失場(chǎng)景產(chǎn)生了精確而有效的修復(fù),具體表現(xiàn)為各缺失率之間的性能指標(biāo)差異細(xì)微;而在高缺失率區(qū)間(>80%),三種場(chǎng)景因極端缺失而促使ST-RTL模型呈現(xiàn)出迥異的修復(fù)效果。其中,CM模式下的RMSE、MAPE和MAE值較其他場(chǎng)景具有更顯著的變化,這表明CM對(duì)張量結(jié)構(gòu)最具破壞性;相對(duì)而言,HM和RM模式下ST-RTL的修復(fù)性能依次減弱,這與其對(duì)數(shù)據(jù)集的結(jié)構(gòu)破壞方式有關(guān)。因此,在路網(wǎng)環(huán)境中,對(duì)交通數(shù)據(jù)的采集、傳輸與存儲(chǔ)應(yīng)避免出現(xiàn)CM場(chǎng)景下的極端情況。
3.4 實(shí)驗(yàn)結(jié)果分析與對(duì)比
為證實(shí)ST-RTL模型修復(fù)性能,表1~3列出其與五種先進(jìn)基準(zhǔn)模型對(duì)各種不完整張量修復(fù)后的性能指標(biāo)??紤]到圖3中ST-RTL對(duì)缺失率超過(guò)80%的修復(fù)任務(wù)產(chǎn)生的糟糕結(jié)果,本節(jié)模型分析與對(duì)比舍棄此極端情況,僅涉及10%~80%的缺失率。具體對(duì)不同缺失情況,各模型展現(xiàn)出差異十分顯著的實(shí)驗(yàn)結(jié)果,而本文的ST-RTL在絕大多數(shù)情況下均獲得了最佳的修復(fù)精度。其中,在RM模式下,生成模型GAIN的評(píng)價(jià)指標(biāo)RMSE、MAPE和MAE在所有缺失率范圍內(nèi)均遠(yuǎn)大于其他模型,這可能與其對(duì)地鐵客流設(shè)置過(guò)于理想的模型假設(shè)有關(guān);同為L(zhǎng)RTC類算法,早期的HaLRTC在交通數(shù)據(jù)修復(fù)領(lǐng)域展現(xiàn)了相當(dāng)?shù)母?jìng)爭(zhēng)力,特別對(duì)低缺失率(<50%)修復(fù)任務(wù)同時(shí)保持了不錯(cuò)的精度與效率;與HaLRTC相比,BGCP模型對(duì)各缺失率修復(fù)任務(wù)的性能指標(biāo)維持了較低水準(zhǔn),特別對(duì)于較高缺失率的實(shí)驗(yàn)證明了其較強(qiáng)的穩(wěn)定性;作為BGCP模型的擴(kuò)展,LATC對(duì)各缺失狀況的修復(fù)精度更高且明顯優(yōu)于HaLRTC;在低缺失率范圍內(nèi),LRTC-TNN與ST-RTL的修復(fù)效果較為接近且相對(duì)其他模型更優(yōu)。但隨著缺失率增加,前者的各評(píng)價(jià)指標(biāo)值逐漸呈加速擴(kuò)增趨勢(shì)。因此,充分對(duì)比表1中各指標(biāo)后表明,所建立的ST-RTL在RM場(chǎng)景下要優(yōu)于其他基準(zhǔn)模型,其在80%缺失率情況下的RMSE、MAPE和MAE值僅為6.570 2、29.840 0和5.850 0。
相同標(biāo)準(zhǔn)下,研究利用ST-RTL和基準(zhǔn)模型對(duì)CM和HM場(chǎng)景的缺失交通張量進(jìn)行修復(fù)。表2和3記錄了所有模型在兩種模式下的RMSE、MAPE和MAE。據(jù)表可知,盡管模型在兩種模式下的修復(fù)指標(biāo)大于RM模式,但它們的性能變化趨勢(shì)隨著缺失率增加符合上述RM模式的演化規(guī)律。其中,ST-RTL的修復(fù)性能在CM與HM模式下總體仍優(yōu)于五種主流基準(zhǔn)模型;且相同缺失率下ST-RTL對(duì)CM和HM模式的修復(fù)指標(biāo)值更大,這表明它們對(duì)張量結(jié)構(gòu)的破壞程度更嚴(yán)重,而且這種現(xiàn)象隨缺失率增加呈加速擴(kuò)張趨勢(shì)。同時(shí),隨缺失率增加,部分指標(biāo)因可觀測(cè)數(shù)據(jù)量改變而導(dǎo)致其與剩余指標(biāo)的變化不一致,但這不影響模型性能的總體變化規(guī)律。綜上所述,本文的ST-RTL模型利用三階CP張量分解生成缺失交通值,然后通過(guò)殘差優(yōu)化減少模型誤差以提高修復(fù)精度,較基準(zhǔn)模型而言,ST-RTL更能適應(yīng)復(fù)雜缺失環(huán)境,最終獲得了較好的修復(fù)精度和泛化能力。
3.5 修復(fù)效果可視化
為了直觀驗(yàn)證模型修復(fù)缺失交通值的能力,研究進(jìn)一步對(duì)ST-RTL模型的修復(fù)值及其殘差進(jìn)行可視化分析。如圖4~6所示,截取2019年1月1日到1月10日杭州交通數(shù)據(jù)集#1路段的真實(shí)客流作為基準(zhǔn)曲線,研究分別展示了ST-RTL模型與經(jīng)典的BGCP模型在50%缺失率及RM、CM和HM場(chǎng)景下的修復(fù)值曲線。據(jù)圖可知,修復(fù)模型對(duì)地鐵客流進(jìn)行了良好的擬合,能基本覆蓋各突變與平穩(wěn)時(shí)段的客流變化。但就修復(fù)能力而言, ST-RTL模型在圖4~6中對(duì)應(yīng)標(biāo)示的各殘差塊面積要明顯小于BGCP,這證實(shí)了所建立的ST-RTL模型具有更優(yōu)秀的修復(fù)性能。同時(shí),縱向?qū)Ρ葓D4~6后發(fā)現(xiàn),ST-RTL與BGCP模型修復(fù)三種缺失場(chǎng)景的難易程度正好符合3.3節(jié)和3.4節(jié)中的結(jié)論(即對(duì)張量結(jié)構(gòu)的破壞程度:CM>HM>RM)。因此,在路網(wǎng)交通數(shù)據(jù)采集過(guò)程中,應(yīng)盡量避免出現(xiàn)大面積/超時(shí)段的數(shù)據(jù)丟失情況。
4 結(jié)束語(yǔ)
針對(duì)路網(wǎng)交通數(shù)據(jù)修復(fù)問(wèn)題,本文從CP張量分解和模型殘差優(yōu)化角度出發(fā),提出了一種基于時(shí)空殘差張量學(xué)習(xí)ST-RTL的交通數(shù)據(jù)修復(fù)方法。在真實(shí)城市地鐵客流數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明:a)研究在確定RM、CM和HM場(chǎng)景下的張量秩分別為15、30和20后,利用CP分解低秩重構(gòu)不完整交通張量,實(shí)現(xiàn)了對(duì)缺失數(shù)據(jù)的有效修復(fù);b)設(shè)計(jì)的雙向殘差優(yōu)化結(jié)構(gòu)經(jīng)過(guò)100次迭代后促使低秩張量修復(fù)過(guò)程充分挖掘到殘差中的時(shí)空依賴關(guān)系,保證了ST-RTL在RM、CM和HM模式與10%~80%缺失率的不同組合下具有良好的修復(fù)效果;c)與GAIN、BGCP、LATC及LRTC-TNN等主流基準(zhǔn)模型相比,本文建立的ST-RTL模型具有更強(qiáng)的修復(fù)性能。在后續(xù)研究中,將考慮更多復(fù)雜的交通環(huán)境(如天氣、道路及環(huán)境條件等)對(duì)ST-RTL的影響,并采用更多城市路網(wǎng)交通數(shù)據(jù)對(duì)模型進(jìn)行測(cè)試和比較。
參考文獻(xiàn):
[1]武江南,張紅梅,趙永梅,等.基于張量奇異值理論的交通數(shù)據(jù)重構(gòu)方法[J].計(jì)算機(jī)應(yīng)用研究,2022,39(5):1449-1453,1459.(Wu Jiangnan, Zhang Hongmei, Zhao Yongmei, et al. Data reconstruction method based on tensor singular value theory[J].Application Research of Computers,2022,39(5):1449-1453,1459.)
[2]張偉斌,張蒲璘,蘇子毅,等.基于自注意力機(jī)制與圖自編碼器的路網(wǎng)交通流數(shù)據(jù)修復(fù)模型[J].交通運(yùn)輸系統(tǒng)工程與信息,2021,21(4):90-98.(Zhang Weibin, Zhang Pulin, Su Ziyi, et al. Missing data repairs for road network traffic flow with self-attention graph auto-encoder networks[J].Journal of Transportation Systems Engineering and Information Technology,2021,21(4):90-98.)
[3]Li Jinlong, Wu Pan, Li Ruonan, et al. ST-CRMF:compensated resi-dual matrix factorization with spatial-temporal regularization for graph-based time series forecasting[J].Sensors,2022,22(15):5877.
[4]Cui Zhiyong, Ke Ruimin, Pu Ziyuan, et al. Stacked bidirectional and unidirectional LSTM recurrent neural network for forecasting network-wide traffic state with missing values[J].Transportation Research Part C: Emerging Technologies,2020,118:102674.
[5]Xu Dongwei, Wei Chenchen, Peng Peng, et al. GE-GAN:a novel deep learning framework for road traffic state estimation[J].Transportation Research Part C: Emerging Technologies,2020,117:102635.
[6]Li Jinlong, Li Ruonan, Huang Zilin, et al. Dynamic adaptive generative adversarial networks with multi-view temporal factorizations for hybrid recovery of missing traffic data[J].Neural Computing and Applications,2022,35(10):7677-7696.
[7]Liu Ji, Musialski P, Wonka P, et al. Tensor completion for estimating missing values in visual data[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2012,35(1):208-220.
[8]Ran Bin, Tan Huachun, Wu Yuankai, et al. Tensor based missing traffic data completion with spatial-temporal correlation[J].Physica A:Statistical Mechanics and its Applications,2016,446:54-63.
[9]Chen Xinyu, He Zhaocheng, Sun Lijun. A Bayesian tensor decomposition approach for spatiotemporal traffic data imputation[J].Transportation Research Part C:Emerging Technologies,2019,98:73-84.
[10]Chen Xinyu, Lei Mengying, Saunier N, et al. Low-rank autoregressive tensor completion for spatiotemporal traffic data imputation[J].IEEE Trans on Intelligent Transportation Systems,2021,23(8):12301-12310.
[11]Li Jinlong, Xu Lunhui, Li Ruonan, et al. Deep spatial-temporal bi-directional residual optimisation based on tensor decomposition for traffic data imputation on urban road network[J].Applied Intel-ligence,2022,52(10):11363-11381.
[12]Yoon J, Jordon J, Schaar M. GAIN: missing data imputation using generative adversarial nets[C]//Proc of International Conference on Machine Learning.2018:5689-5698.
[13]Chen Xinyu, Yang Jinming, Sun Lijun. A nonconvex low-rank tensor completion model for spatiotemporal traffic data imputation[J].Transportation Research Part C: Emerging Technologies,2020,117:102673.
[14]Li Jinlong, Sun Laijun, Li Yingsong, et al. Rapid prediction of acid detergent fiber content in corn stover based on NIR-spectroscopy technology[J].Optik,2019,180:34-45.
[15]Li Ruonan, Qin Yang, Wang Jinbo, et al. AMGB: trajectory prediction using attention-based mechanism GCN-BiLSTM in IOV[J].Pattern Recognition Letters,2023,169,17-27.
[16]Li Jinlong, Sun Laijun, Li Ruonan, et al. Application of siSVR-Vis/NIR to the nondestructive determination of acid detergent fiber content in corn straw[J].Optik,2020,202:163717.
收稿日期:2023-03-02;修回日期:2023-04-25
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(52072130,11702099)
作者簡(jiǎn)介:李金龍(1993-),男,湖北荊州人,博士研究生,主要研究方向?yàn)槌鞘杏?jì)算、時(shí)空數(shù)據(jù)建模與交通信號(hào)控制;李若南(1993-),女,河南南陽(yáng)人,博士研究生,主要研究方向?yàn)槲锫?lián)網(wǎng)、邊緣計(jì)算與聯(lián)邦學(xué)習(xí);吳攀(1991-),女,重慶忠縣人,講師,博士,主要研究方向?yàn)榻煌ù髷?shù)據(jù)挖掘與分析;于廣婧(1999-),女,河北定州人,碩士研究生,主要研究方向?yàn)榻煌ò踩c數(shù)據(jù)挖掘;許倫輝(1965-),男(通信作者),江西南康人,教授,博導(dǎo),博士,主要研究方向?yàn)檐嚶穮f(xié)同、交通大數(shù)據(jù)分析與交通流理論及仿真(lhxu@scut.edu.cn).