苗 旭,王忠宇,鄒亞杰,吳 兵
(1.同濟(jì)大學(xué) 道路與交通工程教育部重點(diǎn)實(shí)驗(yàn)室,上海 201804;2.上海海事大學(xué) 交通運(yùn)輸學(xué)院,上海 201306)
固定交通檢測(cè)器的數(shù)據(jù)采集缺失現(xiàn)象對(duì)交通數(shù)據(jù)分析和挖掘等均帶來(lái)不利的影響,因此有必要進(jìn)行缺失數(shù)據(jù)修復(fù).常見(jiàn)的數(shù)據(jù)修復(fù)方法有歷史均值法[1-3]、插值法[4-5]、主成分分析法[6-8]、時(shí)間序列法[9]及機(jī)器學(xué)習(xí)算法[10-11].歷史均值法是最早發(fā)展起來(lái)的數(shù)據(jù)修復(fù)方法.陸化普等[1]提出了基于歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)加權(quán)平均的數(shù)據(jù)修復(fù)方法.姜桂艷等[2]利用相鄰時(shí)段及路段數(shù)據(jù)對(duì)故障數(shù)據(jù)進(jìn)行修復(fù).孫玲等[3]基于缺失數(shù)據(jù)的時(shí)空相關(guān)性將相關(guān)數(shù)據(jù)加權(quán)重構(gòu)作為缺失數(shù)據(jù)的修復(fù)值.插值法主要分為指數(shù)平滑法、樣條插值法及回歸方法.Smith等[4]基于相鄰時(shí)段數(shù)據(jù)的指數(shù)平滑值進(jìn)行故障數(shù)據(jù)修復(fù).Boyles[5]比較了簡(jiǎn)單線性回歸模型、多元線性回歸模型、局部和全局回歸模型、非正態(tài)貝葉斯線性回歸模型等方法后指出,雖然回歸算法簡(jiǎn)單且容易構(gòu)建,但是數(shù)據(jù)修復(fù)結(jié)果在不同交通狀態(tài)下不可靠.Qu等[6-7]和Li等[8]提出了概率主成分分析法、貝葉斯主成分分析法及核概率主成分分析法,指出該類方法數(shù)據(jù)修復(fù)精度優(yōu)于歷史均值法及樣條插值法.ARIMA(autoregressive integrated moving average model)是常用的時(shí)間序列數(shù)據(jù)修復(fù)方法.Ghosh等[9]比較了ARIMA與Holt-Winters指數(shù)平滑數(shù)據(jù)修復(fù)方法及隨機(jī)游走算法,指出ARIMA是一種有效的數(shù)據(jù)修復(fù)方法.近幾年,機(jī)器學(xué)習(xí)模型也逐漸應(yīng)用于缺失數(shù)據(jù)修復(fù).Tang等[10]提出基于模糊C均值與遺傳算法相結(jié)合的數(shù)據(jù)修復(fù)方法.Zhang等[11]衡量同一時(shí)刻不同地點(diǎn)交通參數(shù)的相關(guān)性,并提出基于最小二乘支持向量回歸的缺失數(shù)據(jù)修復(fù)方法.
對(duì)于上述數(shù)據(jù)修復(fù)模型,選擇解釋變量時(shí)的主要依據(jù)為交通流數(shù)據(jù)的時(shí)空相關(guān)性,所有檢測(cè)器均采用固定的解釋變量,但是不同檢測(cè)器數(shù)據(jù)與同一相關(guān)序列的相關(guān)性存在較大差異,解釋變量固定勢(shì)必影響部分檢測(cè)器缺失數(shù)據(jù)的修復(fù)精度,而且數(shù)據(jù)的連續(xù)缺失容易導(dǎo)致修復(fù)誤差的逐步傳遞和累積.另外,一個(gè)有效的數(shù)據(jù)修復(fù)方法既要考慮交通流數(shù)據(jù)的周期變化特性,又要捕捉復(fù)雜交通環(huán)境引起的交通流數(shù)據(jù)的實(shí)時(shí)變化,這對(duì)目前的研究仍具有較大的挑戰(zhàn).為避免連續(xù)數(shù)據(jù)缺失造成的誤差累積,基于數(shù)據(jù)的相關(guān)性及連續(xù)缺失情況為修復(fù)方法動(dòng)態(tài)地選擇解釋變量,并綜合考慮交通流數(shù)據(jù)的周期性變化趨勢(shì)和實(shí)時(shí)變化特性,提出一種改進(jìn)的數(shù)據(jù)修復(fù)方法.
本研究選取的數(shù)據(jù)為2017年3月6日—31日上海市南北高架東側(cè)徐家匯路至大沽路路段20個(gè)工作日內(nèi)固定檢測(cè)器采集的流量數(shù)據(jù).該段快速路長(zhǎng)度約為3 km,單向四車道,設(shè)計(jì)車速為80 km·h-1.主線共布設(shè)了7組完好的固定檢測(cè)器,采集字段為檢測(cè)器編號(hào)、采集時(shí)間、流量、平均速度、平均時(shí)間占有率等.其中,流量為5 min內(nèi)經(jīng)過(guò)檢測(cè)器所處斷面的車流量總數(shù).為滿足交通管理實(shí)時(shí)控制的需求,對(duì)修復(fù)時(shí)段t的缺失數(shù)據(jù),僅采用歷史時(shí)段(t-h)(h≥1)的數(shù)據(jù)進(jìn)行修復(fù).為方便說(shuō)明,將分析范圍內(nèi)的檢測(cè)器重新編號(hào),從南向北方向行駛的車輛依次經(jīng)過(guò)的檢測(cè)器為1號(hào)至7號(hào).檢測(cè)器空間位置分布如圖1所示.
圖1 上海市南北高架檢測(cè)器分布
所提出的綜合數(shù)據(jù)修復(fù)方法將檢測(cè)器采集的流量數(shù)據(jù)分成兩部分,即周期性變化趨勢(shì)與實(shí)時(shí)變化殘差值.描述周期性特征的函數(shù)主要有三角級(jí)數(shù)法[12]、簡(jiǎn)單平均值法(SAM)[13]及雙指數(shù)平滑法[14].選擇簡(jiǎn)單且常用的簡(jiǎn)單平均值法進(jìn)行周期性變化趨勢(shì)描述,采用動(dòng)態(tài)選擇解釋變量的支持向量回歸(DV-SVR)算法進(jìn)行實(shí)時(shí)變化殘差值的預(yù)測(cè).下文稱所提出的綜合數(shù)據(jù)修復(fù)方法為SAM-DV-SVR,計(jì)算式如下所示:
Y(t)=D(t)+R(t)
(1)
式中:Y(t)為t時(shí)段檢測(cè)器采集的流量實(shí)際值;D(t)為流量數(shù)據(jù)的周期性部分;R(t)為殘差值.
圖2為3號(hào)檢測(cè)器2017年3月份一周工作日的流量數(shù)據(jù)分布.可以非常明顯地看出,流量數(shù)據(jù)呈現(xiàn)出以24 h為一個(gè)周期的反復(fù)特性.計(jì)算每個(gè)檢測(cè)器3月份任意2個(gè)工作日的數(shù)據(jù)相關(guān)系數(shù),并進(jìn)一步得到相關(guān)系數(shù)均值,該均值可以反映檢測(cè)器的日變化趨勢(shì)的一致性.計(jì)算得出3號(hào)、4號(hào)、5號(hào)檢測(cè)器的流量數(shù)據(jù)相關(guān)系數(shù)均值分別為0.978、0.927、0.944,可以看出3號(hào)檢測(cè)器流量數(shù)據(jù)的日變化趨勢(shì)更為相似.假設(shè)連續(xù)采集N天的工作日數(shù)據(jù),每天采集樣本數(shù)為n,每天采集的流量數(shù)據(jù)可記為
(2)
簡(jiǎn)單平均值法計(jì)算式為
(3)
本研究選取3月6日至3月22日的13個(gè)工作日的數(shù)據(jù)計(jì)算周期趨勢(shì),因此N=13,n=288.
圖2 工作日流量的周期性分析
2.2.1備選相關(guān)序列構(gòu)建
每個(gè)檢測(cè)器每天采集的流量數(shù)據(jù)可組成288維的向量,將缺失數(shù)據(jù)所在的向量稱為目標(biāo)向量S,而由相關(guān)數(shù)據(jù)組成的向量稱為相關(guān)序列.根據(jù)以往研究結(jié)論[15],共選擇了8個(gè)備選相關(guān)序列,如表1所示.將目標(biāo)向量S分別與相關(guān)序列S1至S8進(jìn)行相關(guān)系數(shù)計(jì)算,可分別得到目標(biāo)向量與各相關(guān)序列的相關(guān)系數(shù),將相關(guān)系數(shù)的大小作為缺失數(shù)據(jù)修復(fù)模型解釋變量的重要選擇依據(jù).相關(guān)系數(shù)計(jì)算式為
(4)
2.2.2解釋變量動(dòng)態(tài)選擇
為充分考慮流量數(shù)據(jù)的時(shí)空相關(guān)性,解釋變量的選擇至少包括一個(gè)時(shí)間相關(guān)序列向量及一個(gè)空間相關(guān)序列向量.解釋變量動(dòng)態(tài)選擇的依據(jù)一是目標(biāo)向量與相關(guān)序列向量相關(guān)系數(shù)的大小,二是連續(xù)缺失數(shù)據(jù)的數(shù)量.首先,構(gòu)建相關(guān)序列S1至S8,若數(shù)據(jù)存在連續(xù)缺失現(xiàn)象,如檢測(cè)器(t-1)時(shí)段及t時(shí)段數(shù)據(jù)均缺失,則由(t-2)時(shí)段數(shù)據(jù)作為相關(guān)序列S1,記為S1,2,(t-3)時(shí)段數(shù)據(jù)作為相關(guān)序列S2,記為S2,3,依次類推;然后,計(jì)算相關(guān)系數(shù)R1至R8,根據(jù)相關(guān)系數(shù)大小選擇解釋變量來(lái)進(jìn)行缺失數(shù)據(jù)修復(fù).解釋變量選擇流程如圖3所示.圖3中,m為解釋變量的數(shù)量.
表1 相關(guān)序列描述
圖3 解釋變量選擇流程
2.2.3支持向量回歸模型
設(shè)訓(xùn)練樣本集M={(yi,Va,i,Vb,i,Vc,i,Vd,i),i=1,…,l},其中Va,i、Vb,i、Vc,i、Vd,i為動(dòng)態(tài)選取的輸入變量,yi為相應(yīng)的輸出值,本研究中yi為目標(biāo)檢測(cè)器的缺失數(shù)據(jù),l為訓(xùn)練樣本個(gè)數(shù).支持向量回歸模型的基本思想是尋找一個(gè)從輸入空間到輸出空間的非線性映射函數(shù)φ(x),通過(guò)該函數(shù)將訓(xùn)練樣本集映射到高維特征空間P,因此可在空間P中對(duì)原始問(wèn)題進(jìn)行線性回歸[16].映射關(guān)系如下所示:
f(x)=(w·φ(x))+b,w∈P
(5)
式中:w為權(quán)重值;(·)為內(nèi)積運(yùn)算;b為偏置項(xiàng).w和b通過(guò)最小化下列函數(shù)進(jìn)行估計(jì):
(6)
(7)
(8)
(9)
(10)
通過(guò)式(5)和式(9),可以將f(x)表示為
K(xi,x)=φ(xi)·φ(x)
(11)
式中:K(xi,x)為核函數(shù).核函數(shù)不同,模型決策函數(shù)的最終形式也不相同.SVR模型支持常見(jiàn)的線性、多項(xiàng)式、徑向基(RBF)、Sigmoid等4種核函數(shù),本研究選取最常用的RBF核函數(shù).
在ε-SVR的構(gòu)建時(shí),常數(shù)C作為懲罰系數(shù)控制損失的大小,模型求解中C可作為調(diào)節(jié)參數(shù),影響訓(xùn)練模型的分類性能.此外,RBF核函數(shù)中參數(shù)g的數(shù)值也會(huì)明顯影響模型的預(yù)測(cè)性能.在參數(shù)設(shè)置過(guò)程中,采用網(wǎng)格分析法及交叉驗(yàn)證法對(duì)支持向量回歸中的常數(shù)C及RBF核函數(shù)參數(shù)g進(jìn)行參數(shù)尋優(yōu).交叉驗(yàn)證法為:將原始數(shù)據(jù)均分成3組,對(duì)每組子集數(shù)據(jù)做1次驗(yàn)證集,其中2組子集數(shù)據(jù)作為訓(xùn)練集,最后得到3個(gè)模型,用這3個(gè)模型最終驗(yàn)證集的分類準(zhǔn)確率平均值作為性能評(píng)價(jià)指標(biāo).網(wǎng)格分析法是通過(guò)編程枚舉的方式對(duì)不同參數(shù)下的模型預(yù)測(cè)效果進(jìn)行對(duì)比.此處以數(shù)據(jù)缺失一個(gè)的情況為例介紹懲罰系數(shù)C及核函數(shù)參數(shù)g的選擇對(duì)SVR模型的影響.該實(shí)驗(yàn)采用均方誤差(αMSE)作為評(píng)價(jià)指標(biāo),計(jì)算公式為
(12)
式中:n1為修復(fù)數(shù)據(jù)個(gè)數(shù).
圖4為懲罰系數(shù)C及核函數(shù)參數(shù)g對(duì)SVR模型預(yù)測(cè)結(jié)果的影響.從圖4可以看出,懲罰系數(shù)C較小時(shí),SVR處于“欠學(xué)習(xí)”狀態(tài),預(yù)測(cè)誤差并不是最小,隨著C的增大,誤差減小隨后又逐漸增大,說(shuō)明當(dāng)C大于某一值后,SVR模型處于“過(guò)學(xué)習(xí)”狀態(tài).C在一定的區(qū)間內(nèi)時(shí),不同的取值得到的誤差相差不大,說(shuō)明對(duì)于固定的g,存在多個(gè)C可以使得SVR模型取得較好的預(yù)測(cè)能力.同樣,隨著g的增大,預(yù)測(cè)均方誤差呈現(xiàn)先減小后增大的兩邊大中間小的趨勢(shì),說(shuō)明當(dāng)g增大到一定程度之后,SVR模型呈現(xiàn)“過(guò)學(xué)習(xí)”現(xiàn)象.可見(jiàn),g的變化對(duì)模型的預(yù)測(cè)能力也有非常大的影響.通過(guò)網(wǎng)格學(xué)習(xí)方法,遍歷log2C及l(fā)og2g2個(gè)參數(shù)在-5到5之間的所有組合,選擇最優(yōu)的參數(shù)建立數(shù)據(jù)修復(fù)精度最高的回歸模型.另外,針對(duì)不同的檢測(cè)器選擇及不同的解釋變量輸入,SVR模型依據(jù)網(wǎng)格分析法及交叉驗(yàn)證法對(duì)2個(gè)參數(shù)進(jìn)行重新選擇.
圖4 C與g對(duì)SVR模型的影響
選擇編號(hào)為3號(hào)、4號(hào)、5號(hào)的檢測(cè)器作為模型測(cè)試對(duì)象.將3月6日—10日(周一至周五)數(shù)據(jù)作為相關(guān)序列構(gòu)建的基礎(chǔ)數(shù)據(jù),如3月13日缺失數(shù)據(jù)修復(fù)時(shí)的相關(guān)序列S4的構(gòu)建需要使用3月6日的歷史數(shù)據(jù).3月13日—22日的8個(gè)工作日數(shù)據(jù)作為模型訓(xùn)練數(shù)據(jù),用來(lái)進(jìn)行模型參數(shù)的標(biāo)定.3月23日—31日的7個(gè)工作日數(shù)據(jù)作為模型預(yù)測(cè)結(jié)果的測(cè)試數(shù)據(jù),用來(lái)評(píng)價(jià)模型的泛化能力.如前所述,數(shù)據(jù)采集時(shí)不僅存在單個(gè)數(shù)據(jù)缺失現(xiàn)象,還存在連續(xù)數(shù)據(jù)缺失現(xiàn)象.選取的3月6日—31日3個(gè)檢測(cè)器數(shù)據(jù)均為100%檢測(cè)無(wú)缺失數(shù)據(jù),將3月23日—31日的7天數(shù)據(jù)隨機(jī)剔除10%的數(shù)據(jù),分別構(gòu)建連續(xù)缺失1~10個(gè)數(shù)據(jù)的場(chǎng)景進(jìn)行數(shù)據(jù)修復(fù),進(jìn)而與采集的真實(shí)數(shù)據(jù)進(jìn)行比較,從而驗(yàn)證模型的修復(fù)精度.數(shù)據(jù)修復(fù)精度評(píng)價(jià)指標(biāo)包括平均絕對(duì)誤差(βMAE)、平均絕對(duì)百分比誤差(γMAPE)、均方根誤差(δRMSE).3個(gè)指標(biāo)的表達(dá)式如下所示:
(13)
首先,基于第2.1節(jié)所述簡(jiǎn)單平均值法計(jì)算3個(gè)檢測(cè)器的周期;其次,根據(jù)第2.2節(jié)所述方法構(gòu)建8個(gè)相關(guān)序列來(lái)計(jì)算相關(guān)系數(shù),并根據(jù)數(shù)據(jù)缺失情況及相關(guān)系數(shù)的大小動(dòng)態(tài)選擇解釋變量;然后,基于支持向量回歸模型預(yù)測(cè)缺失數(shù)據(jù)的殘差值;最后,將預(yù)測(cè)的殘差值與周期值相加組成缺失數(shù)據(jù)修復(fù)值.
(1) 解釋變量動(dòng)態(tài)選擇
圖5為3個(gè)目標(biāo)檢測(cè)器僅缺失一個(gè)數(shù)據(jù)且相鄰檢測(cè)器的相關(guān)數(shù)據(jù)完整時(shí)構(gòu)建的8個(gè)相關(guān)序列.可以看出,不同的檢測(cè)器與同一個(gè)相關(guān)序列的相關(guān)系數(shù)差異較大.3號(hào)檢測(cè)器與時(shí)間相關(guān)序列S1至S4的相關(guān)性明顯高于空間相關(guān)序列S5至S8.與4號(hào)和5號(hào)檢測(cè)器相關(guān)性最強(qiáng)的序列均為空間相關(guān)序列,4號(hào)檢測(cè)器與S6、S7相關(guān)序列的相關(guān)性最大,5號(hào)檢測(cè)器與S5、S8相關(guān)序列的相關(guān)性最大.可以看出,為所有的檢測(cè)器動(dòng)態(tài)選擇不同的解釋變量是非常有必要的.
圖5 相關(guān)序列的相關(guān)系數(shù)
圖6為3個(gè)檢測(cè)器的自相關(guān)系數(shù).橫坐標(biāo)1至9代表的是(t-1)至(t-9)時(shí)段,縱坐標(biāo)為t時(shí)段分別與(t-1)至(t-9)時(shí)段數(shù)據(jù)的相關(guān)系數(shù).可以看出,隨著時(shí)間距離的增加自相關(guān)系數(shù)逐漸減小.3號(hào)檢測(cè)器數(shù)據(jù)的自相關(guān)系數(shù)明顯大于4號(hào)與5號(hào)檢測(cè)器的自相關(guān)系數(shù).
圖6 檢測(cè)器數(shù)據(jù)的自相關(guān)系數(shù)
表2為目標(biāo)檢測(cè)器連續(xù)缺失1~10個(gè)數(shù)據(jù)且相鄰檢測(cè)器數(shù)據(jù)完整、歷史日期數(shù)據(jù)完整時(shí)解釋變量的選擇方案.因相鄰檢測(cè)器數(shù)據(jù)缺失或者歷史日期數(shù)據(jù)缺失時(shí)解釋變量的選擇方案較多,故此處不予列出.可以看出,對(duì)于不同的檢測(cè)器,解釋變量的選擇存在較大差異.其中,Si,k表示選取的(t-k)時(shí)段數(shù)據(jù)作為相關(guān)序列Si,S1S2S3S7表示選擇4個(gè)相關(guān)序列作為解釋變量,分別為相關(guān)序列S1、S2、S3、S7.
(2) 支持向量回歸模型
根據(jù)表2中連續(xù)缺失1~10個(gè)數(shù)據(jù)的條件下解釋變量的選擇方案來(lái)動(dòng)態(tài)選擇模型的輸入數(shù)據(jù),如3號(hào)檢測(cè)器某個(gè)需要修復(fù)的數(shù)據(jù)連續(xù)缺失數(shù)為1時(shí),則選擇S1、S2、S3、S74個(gè)相關(guān)序列的數(shù)據(jù)作為模型的輸入數(shù)據(jù),輸出數(shù)據(jù)為缺失數(shù)據(jù)的殘差值,再加上該時(shí)段對(duì)應(yīng)的周期值得到缺失數(shù)據(jù)的修復(fù)值.表3為3號(hào)檢測(cè)器根據(jù)表2選擇不同解釋變量時(shí)模型的懲罰系數(shù)C及核函數(shù)參數(shù)g的選擇方案以及殘差預(yù)測(cè)結(jié)果的平均絕對(duì)誤差.可以看出,解釋變量的動(dòng)態(tài)選擇,避免了預(yù)測(cè)誤差隨著連續(xù)缺失個(gè)數(shù)的增多而導(dǎo)致的誤差累積現(xiàn)象.
(3) 數(shù)據(jù)修復(fù)結(jié)果
將以往研究中提出的數(shù)據(jù)修復(fù)方法與本研究提出的綜合修復(fù)方法SAM-DV-SVR進(jìn)行修復(fù)精度對(duì)比.參與對(duì)比的修復(fù)方法包括雙指數(shù)平滑(DES)方法、常規(guī)SVR模型、歷史數(shù)據(jù)平均方法(HDAM)、多元線性回歸(MLR)方法、反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)模型、僅考慮周期趨勢(shì)的SVR(SAM-SVR)模型、僅考慮解釋變量動(dòng)態(tài)選擇的SVR(DV-SVR)模型及本研究提出的綜合數(shù)據(jù)修復(fù)模型SAM-DV-SVR.其中,歷史數(shù)據(jù)平均法為同一檢測(cè)器前4個(gè)時(shí)段值均值.常規(guī)SVR模型及MLR方法選取常用的4個(gè)解釋變量作為預(yù)測(cè)模型輸入,分別為目標(biāo)檢測(cè)器前2個(gè)時(shí)段數(shù)據(jù)(S1,S2)及前后斷面同時(shí)刻數(shù)據(jù)(S5,S6).為保證模型的可對(duì)比性,本研究提出的綜合模型同樣選擇4個(gè)解釋變量.為排除模型預(yù)測(cè)結(jié)果的偶然性,隨機(jī)剔除10%的數(shù)據(jù)并對(duì)結(jié)果驗(yàn)證過(guò)程進(jìn)行了3次重復(fù)實(shí)驗(yàn).圖7為5號(hào)檢測(cè)器3次重復(fù)實(shí)驗(yàn)的平均絕對(duì)誤差.可以看出,3次數(shù)據(jù)修復(fù)平均絕對(duì)誤差雖然數(shù)值大小有所差異,但各模型數(shù)據(jù)修復(fù)精度的排名基本保持一致.從圖7還可以看出,HADM及DES方法因僅考慮了交通流數(shù)據(jù)的時(shí)間相關(guān)性,只采用本身檢測(cè)器的歷史數(shù)據(jù)作為解釋變量,數(shù)據(jù)修復(fù)精度明顯低于其他幾種模型,并且隨著數(shù)據(jù)缺失個(gè)數(shù)的增加,修復(fù)誤差均明顯增加.因此,在下面的討論中,僅對(duì)其他6種模型的數(shù)據(jù)修復(fù)結(jié)果取平均值進(jìn)行深入分析.
表2 解釋變量選擇結(jié)果
表3 SVR模型參數(shù)選擇結(jié)果及數(shù)據(jù)修復(fù)平均絕對(duì)誤差
a 第1次實(shí)驗(yàn)
b 第2次實(shí)驗(yàn)
c 第3次實(shí)驗(yàn)
圖7 5號(hào)檢測(cè)器3次重復(fù)實(shí)驗(yàn)平均絕對(duì)誤差
Fig.7βMAEof 3 repeated experiments on No.5 detector
圖8~10分別為6種模型的數(shù)據(jù)修復(fù)平均絕對(duì)誤差、平均絕對(duì)百分比誤差及均方根誤差.分析3個(gè)檢測(cè)器的數(shù)據(jù)修復(fù)結(jié)果,可以看出:
(1) 相較于傳統(tǒng)的SVR模型,SAM-DV-SVR模型對(duì)缺失數(shù)據(jù)修復(fù)的精度顯著提升.
(2) 3號(hào)檢測(cè)器中SAM-SVR模型預(yù)測(cè)精度明顯優(yōu)于DV-SVR模型,而4號(hào)及5號(hào)檢測(cè)器則呈現(xiàn)相反的結(jié)論.原因?yàn)?號(hào)檢測(cè)器工作日每天流量的周期性變化趨勢(shì)更為一致,考慮周期性的SAM-SVR模型可充分利用流量數(shù)據(jù)的周期性更好地進(jìn)行缺失數(shù)據(jù)的修復(fù).同時(shí),3號(hào)檢測(cè)器的時(shí)間相關(guān)序列的相關(guān)系數(shù)明顯大于空間相關(guān)序列的相關(guān)系數(shù),采用DV-SVR模型在數(shù)據(jù)連續(xù)缺失達(dá)到7個(gè)時(shí)會(huì)選擇空間相關(guān)序列進(jìn)行數(shù)據(jù)修復(fù),數(shù)據(jù)修復(fù)精度明顯較低.4號(hào)和5號(hào)檢測(cè)器空間相關(guān)序列的相關(guān)性大于時(shí)間相關(guān)序列的相關(guān)性,采用動(dòng)態(tài)變量的DV-SVR模型可選擇相關(guān)性強(qiáng)的空間相關(guān)序列作為輸入變量以提升缺失數(shù)據(jù)修復(fù)精度.
a 3號(hào)檢測(cè)器
b 4號(hào)檢測(cè)器
c 5號(hào)檢測(cè)器
圖8 不同連續(xù)缺失數(shù)據(jù)個(gè)數(shù)下6種模型修復(fù)平均絕對(duì)誤差
Fig.8βMAEof 6 models for different numbers of continuous missing data
a 3號(hào)檢測(cè)器
b 4號(hào)檢測(cè)器
c 5號(hào)檢測(cè)器
圖9 不同連續(xù)缺失數(shù)據(jù)個(gè)數(shù)下6種模型修復(fù)平均絕對(duì)百分比誤差
Fig.9γMAPEof 6 models for different numbers of continuous missing data
a 3號(hào)檢測(cè)器
b 4號(hào)檢測(cè)器
c 5號(hào)檢測(cè)器
圖10 不同連續(xù)缺失數(shù)據(jù)個(gè)數(shù)下6種模型修復(fù)均方根誤差
Fig.10δRMSEof 6 models for different numbers of continuous missing data
(3) SAM-DV-SVR模型對(duì)5號(hào)檢測(cè)器的數(shù)據(jù)修復(fù)精度提升最為明顯,相較于傳統(tǒng)的SVR模型,在數(shù)據(jù)連續(xù)缺失1~10個(gè)的情況下,平均絕對(duì)誤差平均減小了25.23%,而且平均絕對(duì)百分比誤差均低于5%.原因?yàn)?號(hào)檢測(cè)器的流量數(shù)據(jù)既具有較為一致的日變化趨勢(shì),又與相鄰檢測(cè)器的空間相關(guān)序列具有較強(qiáng)的相關(guān)性.因此,相較于傳統(tǒng)的SVR模型,考慮周期性的SAM-SVR模型可提升數(shù)據(jù)修復(fù)精度,動(dòng)態(tài)選擇解釋變量的DV-SVR模型在數(shù)據(jù)連續(xù)缺失時(shí)也可利用相關(guān)性強(qiáng)的空間相關(guān)序列進(jìn)行數(shù)據(jù)修復(fù)以保證缺失數(shù)據(jù)的修復(fù)精度.SAM-DV-SVR模型將上述2種因素進(jìn)行綜合考慮,因此可較大幅度地提升5號(hào)檢測(cè)器的數(shù)據(jù)修復(fù)精度.
SAM-DV-SVR模型不僅為數(shù)據(jù)修復(fù)模型選擇了最佳的解釋變量,還綜合考慮了交通流數(shù)據(jù)的周期性變化趨勢(shì)和實(shí)時(shí)變化特征.與常用的幾種數(shù)據(jù)修復(fù)模型在數(shù)據(jù)連續(xù)缺失1至10個(gè)的條件下數(shù)據(jù)修復(fù)精度的對(duì)比結(jié)果可以看出,SAM-DV-SVR模型體現(xiàn)了更高的數(shù)據(jù)修復(fù)精度.
目前僅驗(yàn)證了快速路交通流數(shù)據(jù)中的流量數(shù)據(jù)修復(fù),未對(duì)普通道路的間斷交通流數(shù)據(jù)進(jìn)行模型應(yīng)用驗(yàn)證,在后期研究中予以考慮.另外,本研究采集的數(shù)據(jù)為斷面交通流數(shù)據(jù),因此在空間相關(guān)序列選擇時(shí)未考慮同一斷面相鄰車道情況,后續(xù)研究可補(bǔ)充該數(shù)據(jù)以進(jìn)行模型的驗(yàn)證.
同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版)2019年10期