高海燕,馬文娟,薛 嬌
(1.蘭州財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院;2.甘肅省數(shù)字經(jīng)濟(jì)與社會(huì)計(jì)算科學(xué)重點(diǎn)實(shí)驗(yàn)室,蘭州 730020)
智能交通系統(tǒng)(ITS)是緩解交通擁堵、提高交通效率的有效途徑。收集和分析車(chē)輛平均速度、車(chē)輛流量、平均車(chē)道占用率等實(shí)時(shí)交通監(jiān)控?cái)?shù)據(jù),不僅能快速發(fā)現(xiàn)交通異常,方便交通管理,而且挖掘數(shù)據(jù)潛在特征信息有助于提高交通管理運(yùn)行效率和道路通行能力。交通數(shù)據(jù)在ITS建設(shè)中具有至關(guān)重要的作用,是交通分析、規(guī)劃與設(shè)計(jì)的基礎(chǔ)。然而,由于臨時(shí)軟件或硬件故障、維護(hù)操作、探測(cè)器構(gòu)造、傳輸失真以及在ITS中傳輸期間數(shù)據(jù)包丟失等原因使得交通設(shè)備(如環(huán)路檢測(cè)器)收集的數(shù)據(jù)往往不完整[1]。這些缺失值不僅影響交通實(shí)時(shí)監(jiān)控,還會(huì)影響數(shù)據(jù)挖掘、推斷預(yù)測(cè)等數(shù)據(jù)分析的性能。因此,交通監(jiān)控?cái)?shù)據(jù)中缺失值的準(zhǔn)確插補(bǔ)具有重要價(jià)值和現(xiàn)實(shí)意義。
針對(duì)數(shù)據(jù)缺失問(wèn)題,學(xué)者們提出了諸多缺失插補(bǔ)方法?!熬殿?lèi)”插補(bǔ)方法[2,3](如均值插補(bǔ)、中位數(shù)插補(bǔ)、眾數(shù)插補(bǔ)等)以及K 近鄰算法[4]的插補(bǔ)性能有限。當(dāng)數(shù)據(jù)高度集中時(shí),熱卡插補(bǔ)法[5]填充效果差,并在模擬數(shù)據(jù)的分布特征時(shí)缺乏準(zhǔn)確性。多重插補(bǔ)[6]考慮了缺失數(shù)據(jù)的不確定性,插補(bǔ)效果雖好但計(jì)算量巨大,不適用于處理大規(guī)模缺失數(shù)據(jù)?;谧畲笏迫还烙?jì)(MLE)的方法[7,8]中,如概率主成分分析(PPCA)采用特定的參數(shù)模型,可以同時(shí)實(shí)現(xiàn)模型擬合和缺失數(shù)據(jù)插補(bǔ),但在估計(jì)模型參數(shù)時(shí),由于EM(Expectation Maximization)算法的固有特性,當(dāng)缺失率較高時(shí),PPCA插補(bǔ)效果較差[9]?;诨貧w的插補(bǔ)方法試圖構(gòu)建從已知屬性到缺失屬性的映射函數(shù)。其中局部最小二乘(LLS)插補(bǔ)[8]最為典型,當(dāng)出現(xiàn)大規(guī)模缺失時(shí),LLS 插補(bǔ)精度不高。近年來(lái),矩陣填充技術(shù)在機(jī)器學(xué)習(xí)領(lǐng)域得到了充分發(fā)展[10,11],其目標(biāo)是根據(jù)觀測(cè)數(shù)據(jù)對(duì)缺失數(shù)據(jù)進(jìn)行預(yù)測(cè)和恢復(fù),用以處理矩陣數(shù)據(jù)的大規(guī)模缺失問(wèn)題。與其他插補(bǔ)方法相比,矩陣填充技術(shù)的插補(bǔ)精度更高[6]。然而,經(jīng)典的矩陣填充把樣本看作一個(gè)整體,潛在地假設(shè)所有樣本數(shù)據(jù)同等重要,更加強(qiáng)調(diào)樣本的共性,從而忽略樣本數(shù)據(jù)內(nèi)的復(fù)雜結(jié)構(gòu),不可避免地降低了矩陣填充的性能。
隨著交通流數(shù)據(jù)采樣頻率的增加,其函數(shù)的特性變得越來(lái)越明顯。大規(guī)模交通流數(shù)據(jù)的外在表現(xiàn)形式雖是離散、稀疏的片段點(diǎn)集,但內(nèi)在結(jié)構(gòu)卻呈現(xiàn)連續(xù)、動(dòng)態(tài)的函數(shù)曲線(或曲面)特征。因此,函數(shù)型數(shù)據(jù)分析方法(Functional Data Analysis,F(xiàn)DA)[12]被廣泛用于交通流數(shù)據(jù)的研究中[1,13],能夠充分考慮交通數(shù)據(jù)相鄰時(shí)間、相鄰探測(cè)器之間的相關(guān)特征信息以及變化軌跡的潛在模式[14]。FDA 在處理缺失數(shù)據(jù)時(shí)具有優(yōu)勢(shì),它放松了數(shù)據(jù)采集的結(jié)構(gòu)約束和分布設(shè)定,能夠從交互的函數(shù)視角深層次挖掘數(shù)據(jù)潛在的動(dòng)態(tài)信息。函數(shù)型數(shù)據(jù)缺失處理的一種策略是忽略缺失數(shù)據(jù),在對(duì)數(shù)據(jù)分布進(jìn)行假定的基礎(chǔ)上對(duì)包含缺失值的數(shù)據(jù)直接進(jìn)行建模分析。這種做法屬于縱向數(shù)據(jù)分析方法,常采用混合效應(yīng)模型,利用EM 算法進(jìn)行處理;另一種策略是將缺失數(shù)據(jù)補(bǔ)齊,進(jìn)而針對(duì)完整數(shù)據(jù)展開(kāi)分析。當(dāng)缺失規(guī)模較大時(shí),函數(shù)型數(shù)據(jù)缺失處理可以轉(zhuǎn)化為曲線軌跡預(yù)測(cè)問(wèn)題,進(jìn)而轉(zhuǎn)化為矩陣填充問(wèn)題。在一定條件下,函數(shù)型數(shù)據(jù)修復(fù)問(wèn)題等價(jià)于秩約束的矩陣填充問(wèn)題[15],可通過(guò)對(duì)基函數(shù)施加連續(xù)型約束,并對(duì)觀測(cè)數(shù)據(jù)矩陣使用稀疏矩陣分解技術(shù)來(lái)進(jìn)行處理[16]。Kidziński 和Hastie(2018)[16]將矩陣填充和函數(shù)型數(shù)據(jù)擬合相結(jié)合,為函數(shù)型數(shù)據(jù)的缺失插補(bǔ)提供了兩種實(shí)現(xiàn)方法——SFI、HFI。然而,當(dāng)面臨非負(fù)函數(shù)型數(shù)據(jù)時(shí),以上缺失插補(bǔ)方法不能保證結(jié)果非負(fù),限制了這些方法的適用范圍。
本文試圖構(gòu)建非負(fù)函數(shù)型數(shù)據(jù)缺失處理的修復(fù)方法,通過(guò)引入非負(fù)約束,在函數(shù)型數(shù)據(jù)分析視角下,借助非負(fù)矩陣分解(Nonnegative Matrix Factorization,NMF)和類(lèi)信息,提出融合類(lèi)信息的函數(shù)型矩陣填充方法(Functional Matrix Completion Method with Class Information,CFMC)。CFMC 方法不僅考慮樣本數(shù)據(jù)之間的時(shí)空相關(guān)性以及潛在變化模式,還在整體學(xué)習(xí)框架下集成融合每條樣本的多個(gè)插補(bǔ)結(jié)果,可以進(jìn)一步提高插補(bǔ)性能。
設(shè)每天每個(gè)環(huán)路檢測(cè)器監(jiān)測(cè)到的交通流軌跡為受測(cè)量誤差污染的隨機(jī)函數(shù)的實(shí)現(xiàn),表示為L(zhǎng)2(T)中的隨機(jī)函數(shù)X,其中L2(T)表示封閉時(shí)間間隔T上平方可積函數(shù)的Hilbert 空間。假設(shè)yij(i=1,2,…,n;j=1,2,…,m)為函數(shù)xi(t)的第j個(gè)離散觀測(cè)值,由以下一般形式的回歸模型生成:
xi(t)可以在有限維度下近似表示為:
其中,?i(t)=[?i1(t),?i2(t),…,?ir(t)]T是給定空間中的一組基,αi=[αi1,αi2,…,αir]T是待估系數(shù)列向量。為了方便表示,將式(1)和式(2)改寫(xiě)為矩陣形式:
式(3)中,Y為函數(shù)型數(shù)據(jù)矩陣,Φ∈Rm×r為基矩陣,A=[α1,α2,…,αn]∈Rr×n為待估系數(shù)列向量形成的矩陣,E為誤差矩陣。式(4)中,?(t)是統(tǒng)一表示各交通流曲線的基函數(shù),曲線向量x(t)中元素之間的差異由系數(shù)矩陣A決定。
假設(shè)共有交通檢測(cè)器M個(gè),交通流量數(shù)據(jù)采集時(shí)間間隔為Δt,采集天數(shù)為d天,則交通流量樣本曲線總數(shù)n=M×d,觀測(cè)時(shí)間j=m1=m2=…=mn=m,觀測(cè)值個(gè)數(shù)N=n×m。定義為第i條交通流量樣本曲線觀測(cè)時(shí)間點(diǎn)的集合,i=1,2,…,n,S={ti1,ti2,…,tim}為第i條樣本曲線的已觀測(cè)時(shí)間點(diǎn)。假設(shè)第i條樣本曲線xi有觀測(cè)值{(tij,yij),j=1,…,m},則缺失值的觀測(cè)時(shí)間點(diǎn)集合為?=S/Si。交通流量數(shù)據(jù)缺失插補(bǔ)可由曲線軌跡預(yù)測(cè)問(wèn)題轉(zhuǎn)化為矩陣填充問(wèn)題,故本文交通流量缺失插補(bǔ)問(wèn)題可視為基于觀測(cè)矩陣Y,通過(guò)觀測(cè)值集合{yij|i=1,2,…,n,j∈S}預(yù)測(cè)缺失值集合
由于交通檢測(cè)點(diǎn)的分布不同以及人們的出行行為具有一定的規(guī)律性,因此各交通流量變化軌跡之間存在顯著的差異,考慮時(shí)空相關(guān)性,距離越近的檢測(cè)點(diǎn)同一時(shí)間段的觀測(cè)數(shù)據(jù)之間相關(guān)性越強(qiáng)。樣本之間的相關(guān)性是缺失值插補(bǔ)的重要依據(jù)[17],類(lèi)內(nèi)的交通流變化軌跡越相似、樣本之間的相關(guān)性越高,則局部的類(lèi)內(nèi)信息越有助于提高插補(bǔ)準(zhǔn)確性。
為了處理非負(fù)函數(shù)型數(shù)據(jù)缺失插補(bǔ)問(wèn)題,本文在函數(shù)型數(shù)據(jù)分析的框架下,充分考慮不同樣本之間的潛在差異、挖掘樣本之間的時(shí)空相關(guān)性,提出融合類(lèi)信息的函數(shù)型矩陣填充方法(CFMC)。首先,構(gòu)造函數(shù)型矩陣填充模型進(jìn)行初始插補(bǔ),以獲取完整數(shù)據(jù)集;其次,利用聚類(lèi)分析探索相關(guān)性強(qiáng)的同質(zhì)子群,將具有相似變化軌跡的樣本劃分到同一類(lèi)中;然后,對(duì)每一類(lèi)樣本利用類(lèi)間信息進(jìn)行插補(bǔ);最后,利用集成學(xué)習(xí)方法將不同類(lèi)別下每條樣本的插補(bǔ)結(jié)果融合,得到最終的插補(bǔ)值。CFMC方法具體實(shí)現(xiàn)步驟如下:
步驟1:構(gòu)建函數(shù)型矩陣填充模型(Functional Matrix Completion Model,F(xiàn)MC)對(duì)含缺失值的觀測(cè)矩陣Y進(jìn)行初始插補(bǔ)。
針對(duì)非負(fù)函數(shù)型數(shù)據(jù)缺失情況,引入非負(fù)約束,融合非負(fù)矩陣分解、矩陣填充等思想,構(gòu)建函數(shù)型矩陣填充模型FMC:
其中,Y∈Rm×n為函數(shù)型數(shù)據(jù)的離散觀測(cè)矩陣,O∈Rm×n是與Y同型的投影矩陣,即若Y中的條目可觀測(cè),則Oij=1;否則Oij=0。Φ∈Rm×r為通過(guò)B-樣條基函數(shù) 形成的 基 矩 陣,U∈為NMF 的 非 負(fù)基矩 陣,V∈為NMF 的非負(fù)系數(shù)矩陣,m為原始數(shù)據(jù)的變量數(shù)(維數(shù)),n為樣本量,r為曲線擬合基函數(shù)的數(shù)量,p為NMF的秩。FMC算法的具體執(zhí)行過(guò)程見(jiàn)下頁(yè)表1。
表1 FMC算法
步驟2:通過(guò)聚類(lèi)劃分引入樣本類(lèi)信息,使得每一類(lèi)樣本相似度盡量高,并借助類(lèi)內(nèi)樣本相關(guān)性插補(bǔ)缺失值。
借助聚類(lèi)結(jié)果挖掘函數(shù)型數(shù)據(jù)樣本曲線的時(shí)空相關(guān)性,進(jìn)一步提升插補(bǔ)精度。由于每一類(lèi)中的樣本相關(guān)性較強(qiáng)、具有相似的變化軌跡,因此在每一簇樣本中利用FMC方法進(jìn)行局部缺失填充,類(lèi)內(nèi)樣本的高相關(guān)性有助于提高FMC 方法的插補(bǔ)精度。具體地:(1)對(duì)步驟1 中的矩陣V應(yīng)用函數(shù)型聚類(lèi)算法(FNMF),將樣本劃分為k類(lèi)(k=1,2,…,K),設(shè)最終聚類(lèi)結(jié)果為{C1,C2,…,CK};(2)對(duì)每個(gè)同質(zhì)子群Ci應(yīng)用FMC 方法,得到對(duì)應(yīng)第i類(lèi)的插補(bǔ)結(jié)果并將k個(gè)插補(bǔ)結(jié)果排列組合為Y?k;(3)重復(fù)過(guò)程(1)和(2),直到k=K。最終得到Y(jié)的多個(gè)插補(bǔ)結(jié)果,記為
步驟3:采用自加權(quán)集成學(xué)習(xí)算法動(dòng)態(tài)賦權(quán)計(jì)算出最終插補(bǔ)值。
不同的聚類(lèi)數(shù)k會(huì)得到不同的插補(bǔ)結(jié)果,為充分利用不同聚類(lèi)里的插補(bǔ)結(jié)果以及降低k的影響,本文采用自加權(quán)集成學(xué)習(xí)算法動(dòng)態(tài)賦權(quán)對(duì)K個(gè)插補(bǔ)結(jié)果進(jìn)行融合,得到最終的插補(bǔ)結(jié)果?。以第l條樣本曲線為例,將樣本Y·l的K個(gè)插補(bǔ)結(jié)果融合得到最終的插補(bǔ)結(jié)果,滿(mǎn)足:
其中,ωk為權(quán)重,定義,根據(jù)聚類(lèi)數(shù)為k時(shí)插補(bǔ)值與真實(shí)值的誤差動(dòng)態(tài)調(diào)整。求解式(6)的優(yōu)化問(wèn)題,得樣本Y·l的最終插補(bǔ)結(jié)果為:
CFMC方法在FMC方法初始插補(bǔ)的基礎(chǔ)上,考慮交通流量樣本的相關(guān)性,利用函數(shù)型聚類(lèi)算法挖掘同一路網(wǎng)中交通流量樣本的時(shí)空相關(guān)性,嵌入類(lèi)內(nèi)信息,使得類(lèi)內(nèi)樣本相關(guān)性強(qiáng),在有效利用全局?jǐn)?shù)據(jù)特征的同時(shí)保留更多的局部信息。與FMC方法利用全局?jǐn)?shù)據(jù)特征信息插補(bǔ)缺失值的優(yōu)異表現(xiàn)相結(jié)合,由于NMF 的非負(fù)約束性與類(lèi)內(nèi)局部特征信息的提取,因此相比其他插補(bǔ)方法,CFMC 方法有更好的解釋性和準(zhǔn)確性。此外,CFMC方法采用自加權(quán)集成學(xué)習(xí)算法,不僅降低了聚類(lèi)數(shù)k對(duì)插補(bǔ)結(jié)果的影響,還對(duì)每條樣本曲線的多個(gè)插補(bǔ)結(jié)果進(jìn)行融合,有助于進(jìn)一步提高插補(bǔ)的有效性。
FMC方法的時(shí)間復(fù)雜度主要體現(xiàn)在U和V的更新迭代中。對(duì)于U的更新,需要O(2mnr+2nrp+mrp+mnp+rp)加法運(yùn)算、O(2mn+2mnr+2nrp+mrp+mnp+rp)乘法運(yùn)算、O(rp)除法運(yùn)算。則在一次迭代中,更新U的時(shí)間復(fù)雜度為O(2mn+4mnr+4nrp+2mrp+2mnp+3rp) 。同理,更新V的時(shí)間復(fù)雜度為O(mn+6mnr+6nrp+3np)。故FMC 方法迭代一次的時(shí)間復(fù)雜度為O(mn+mnr),當(dāng)?shù)螖?shù)為t時(shí),時(shí)間復(fù)雜度為O(t(mn+mnr))。在CFMC方法中,當(dāng)執(zhí)行K個(gè)FMC 局部填充時(shí),時(shí)間復(fù)雜度為O(Kt(mn+mnr))。
為了評(píng)估CFMC方法的插補(bǔ)性能,本文在實(shí)例數(shù)據(jù)集中進(jìn)行模擬插補(bǔ)實(shí)驗(yàn)。數(shù)據(jù)來(lái)源于公共交通數(shù)據(jù)集PeMS(http://pems.dot.ca.gov)美國(guó)加州路網(wǎng)中6 個(gè)檢測(cè)站①美國(guó)加州路網(wǎng)中的6個(gè)檢測(cè)站ID分別為:716421、716424、716440、716442、718155、716453。2014年5月和6月的交通流量數(shù)據(jù)。檢測(cè)器采集數(shù)據(jù)的時(shí)間間隔Δt為5min,每天每條數(shù)據(jù)包含m=288 個(gè)觀測(cè)值。考慮到交通流量在節(jié)假日與正常工作日之間有顯著差異,故不考慮節(jié)假日,只分析正常工作日的交通流量數(shù)據(jù),為便于比較,選取不含缺失值的連續(xù)30天觀測(cè)值,交通流量數(shù)據(jù)樣本總數(shù)n=180。
本文利用實(shí)例數(shù)據(jù)集驗(yàn)證所提CFMC 方法的有效性和優(yōu)越性。為便于比較,對(duì)完整數(shù)據(jù)集隨機(jī)生成缺失值,缺失率P分別設(shè)置為15%、20%、30%、40%、50%、60%、70%。本文將10種常用插補(bǔ)方法作為對(duì)比方法,分別是傳統(tǒng)多元插補(bǔ)方法,包括均值填充、線性插值、K 近鄰算法、熱卡填充、MICE;函數(shù)型插補(bǔ)方法,包括SFI[16]、HFI[16]、PACE[1]、FM[1]以及步驟1中的FMC方法。同時(shí),采用3個(gè)廣泛使用的定量指標(biāo)來(lái)評(píng)估插補(bǔ)性能:均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)、平均絕對(duì)百分比誤差(MAPE)。具體計(jì)算公式為:
其中,n0是包含人工缺失條目的曲線軌跡數(shù),mi是第i條曲線軌跡的缺失點(diǎn)數(shù),ti*j是第i條曲線軌跡第j個(gè)生成缺失的時(shí)間點(diǎn)。RMSE、MAE以及MAPE越小,說(shuō)明方法的插補(bǔ)精度越高,性能越好。實(shí)驗(yàn)主要通過(guò)R 4.1.3 實(shí)現(xiàn),實(shí)驗(yàn)的計(jì)算機(jī)環(huán)境為:Intel(R)Core(TM)i5-5200U CPU@2.20 GHz,內(nèi)存6GB,Windows 10 64位操作系統(tǒng)。
基于皮爾遜相關(guān)系數(shù)(r)計(jì)算不同交通流量樣本之間的相關(guān)性大小,如圖1所示。觀察圖1可知,交通流量數(shù)據(jù)具有較強(qiáng)的正相關(guān)性,且相關(guān)系數(shù)實(shí)際分布在一個(gè)較大范圍([0.4,1])內(nèi)。說(shuō)明對(duì)于不同檢測(cè)器和工作日,交通流量樣本的相關(guān)性波動(dòng)較大。隨機(jī)選取一條測(cè)試樣本,并尋找與其最相關(guān)以及最不相關(guān)的樣本,結(jié)果如圖2所示。測(cè)試樣本與最相關(guān)和最不相關(guān)樣本之間的皮爾遜相關(guān)系數(shù)分別為0.993 和0.366,顯然,最不相關(guān)樣本的變化軌跡呈現(xiàn)更復(fù)雜的形狀,說(shuō)明不同樣本之間的變化模式有顯著差異?;诮煌髁繕颖局g的相關(guān)性劃分不同的類(lèi)別,類(lèi)內(nèi)樣本具有相似的變化模式,相關(guān)性較大,最相似的樣本對(duì)于缺失值插補(bǔ)能提供更可靠的信息。
圖1 樣本間皮爾遜相關(guān)系數(shù)矩陣
圖2 最相關(guān)和最不相關(guān)交通樣本
在CFMC方法中,聚類(lèi)數(shù)k對(duì)缺失值的插補(bǔ)有顯著影響。k值越小,類(lèi)內(nèi)樣本方差越大,填充缺失值時(shí)可用相關(guān)信息越少,導(dǎo)致插補(bǔ)誤差越大;反之,k值越大,聚類(lèi)數(shù)越多,類(lèi)內(nèi)樣本方差越小,且各樣本相關(guān)性越強(qiáng),但同時(shí)也使類(lèi)內(nèi)樣本數(shù)減少,進(jìn)而影響FMC 算法的插補(bǔ)性能。此外,為說(shuō)明CFMC 算法中集成學(xué)習(xí)的有效性,還需研究無(wú)集成學(xué)習(xí)(即只進(jìn)行步驟1和步驟2)時(shí)填充方法的插補(bǔ)性能,故在不同缺失率下,分別比較所提方法在無(wú)集成學(xué)習(xí)與有集成學(xué)習(xí)時(shí),插補(bǔ)性能隨聚類(lèi)數(shù)k的變化,如圖3 所示。觀察圖3 可知,無(wú)集成學(xué)習(xí)時(shí),插補(bǔ)誤差隨k的增大而減小,但當(dāng)k超過(guò)某一值時(shí),插補(bǔ)誤差逐漸增大,表明過(guò)多的聚類(lèi)數(shù)反而會(huì)增大方法的插補(bǔ)誤差,降低插補(bǔ)性能;而有集成學(xué)習(xí)時(shí),插補(bǔ)誤差隨k的增大不斷減小,集成不同的插補(bǔ)結(jié)果比單一聚類(lèi)數(shù)下的插補(bǔ)誤差更小,意味著自加權(quán)集成學(xué)習(xí)算法顯著提高了插補(bǔ)精度。實(shí)驗(yàn)測(cè)試結(jié)果表明,當(dāng)k=9 時(shí)插補(bǔ)誤差趨于平穩(wěn),故確定CFMC方法在交通流量數(shù)據(jù)插補(bǔ)實(shí)驗(yàn)中的聚類(lèi)數(shù)為9。
圖3 不同缺失率下插補(bǔ)誤差RMSE隨聚類(lèi)數(shù)的變化曲線
為進(jìn)一步說(shuō)明交通流量樣本之間的相關(guān)性以及存在的潛在差異,選取9類(lèi)中的3類(lèi)可視化展示其部分樣本,如圖4所示,一橫排代表一類(lèi)。從圖4可以更加直觀地看到,不同類(lèi)別之間交通流量樣本的變化趨勢(shì)、達(dá)到車(chē)流量早晚峰時(shí)間以及持續(xù)時(shí)間等有顯著差異,而同一類(lèi)樣本的變化模式更相似,樣本軌跡基本相同。因此,聚類(lèi)結(jié)果展示了預(yù)期的效果,即類(lèi)間差異大、類(lèi)內(nèi)差異小。
圖4 CFMC方法聚類(lèi)的部分結(jié)果
不同缺失率下交通流量數(shù)據(jù)的插補(bǔ)結(jié)果如下頁(yè)表2、表3和表4所示,可以得到以下結(jié)論:
表2 不同缺失率下RMSE結(jié)果(10次重復(fù)模擬結(jié)果均值±標(biāo)準(zhǔn)差)
表3 不同缺失率下MAE結(jié)果(10次重復(fù)模擬結(jié)果均值±標(biāo)準(zhǔn)差)
表4 不同缺失率下MAPE(%)結(jié)果(10次重復(fù)模擬結(jié)果均值±標(biāo)準(zhǔn)差)
(1)傳統(tǒng)多元統(tǒng)計(jì)插補(bǔ)方法中熱卡填充、MICE的插補(bǔ)性能顯著優(yōu)于均值填充、線性插值、K近鄰算法,然而熱卡填充、MICE 的插補(bǔ)誤差受缺失率的影響較大,魯棒性差;在所有缺失率下,均值填充、線性插值的RMSE 均高出K近鄰算法4.93%~32.38%,其原因在于這兩種方法沒(méi)有充分考慮到交通流樣本曲線之間的相關(guān)性。
(2)函數(shù)型插補(bǔ)方法SFI、HFI、FPCA、FM 以及FMC 方法的插補(bǔ)誤差均低于傳統(tǒng)多元統(tǒng)計(jì)插補(bǔ)方法,說(shuō)明這5種方法在插補(bǔ)交通流函數(shù)型數(shù)據(jù)時(shí)具有一定的優(yōu)越性。同時(shí),由于FMC方法融合了函數(shù)型數(shù)據(jù)分析、矩陣填充以及非負(fù)矩陣分解等思想,因此其RMSE 比SFI、HFI、FPCA、FM低16.90%~67.11%,插補(bǔ)性能在5種方法中最優(yōu)。
(3)不同缺失率下CFMC 方法的RMSE 均顯著小于其他缺失值插補(bǔ)方法,插補(bǔ)性能最優(yōu)。此外,相較于FMC方法,CFMC 方法利用集成學(xué)習(xí)將多個(gè)插補(bǔ)結(jié)果進(jìn)行融合,RMSE 顯著降低了10.75%~14.16%。因此,通過(guò)探索交通流數(shù)據(jù)的潛在變化模式,利用樣本曲線之間的相關(guān)性以及差異性填充缺失值,并對(duì)不同插補(bǔ)結(jié)果進(jìn)行集成學(xué)習(xí),可以顯著提高CFMC方法的插補(bǔ)性能。
(4)為了進(jìn)一步比較插補(bǔ)性能,分別計(jì)算插補(bǔ)方法的RMSE、MAE、MAPE 曲線下面積(Area Under Curve,AUC)作為度量指標(biāo)[1]:
此處PL=0.15,PU=0.70。各個(gè)插補(bǔ)方法的AUC 插補(bǔ)誤差如圖5 所示。觀察圖5 可知,相較于其他方法,CFMC 方法的AUC 誤差最小,F(xiàn)MC 次之,說(shuō)明整體上CFMC方法的插補(bǔ)精度優(yōu)于其他方法。
圖5 不同插補(bǔ)方法的AUC誤差
(5)對(duì)比表2、表3、表4 可以發(fā)現(xiàn),所有插補(bǔ)方法的插補(bǔ)誤差RMSE、MAE、MAPE 均隨著缺失率的增多而增大,說(shuō)明函數(shù)型數(shù)據(jù)出現(xiàn)大規(guī)模連續(xù)缺失對(duì)缺失值的插補(bǔ)影響較大。通過(guò)觀察可以發(fā)現(xiàn),CFMC方法的插補(bǔ)結(jié)果在所有缺失率下都十分穩(wěn)定,RMSE、MAE、MAPE 平均變化僅為0.47%、0.37%、0.00%,故所提CFMC方法受缺失率P的影響較低,魯棒性較好。
(6)不同缺失率下各個(gè)插補(bǔ)方法運(yùn)行一次的時(shí)間消耗如表5 所示。觀察表5 可知,雖然CFMC 方法相較于均值填充、線性插值、K 近鄰算法、熱卡填充耗時(shí)顯著增加,但相比于MICE、PACE、FM 優(yōu)勢(shì)顯著,其中不同缺失率下經(jīng)典函數(shù)型插補(bǔ)方法PACE、FM 處理一次缺失值耗時(shí)為CFMC 方法的40.27~199.98 倍。實(shí)驗(yàn)表明,CFMC 方法相比其他方法插補(bǔ)精度更高,且處理時(shí)間可控,故CFMC 方法在處理大規(guī)模缺失數(shù)據(jù)方面具有顯著的優(yōu)勢(shì)。
表5 不同缺失率下各插補(bǔ)方法運(yùn)行一次的時(shí)間消耗 (單位:min)
為了處理交通流量數(shù)據(jù)的缺失問(wèn)題,本文提出一種融合類(lèi)信息的函數(shù)型矩陣填充方法(CFMC),通過(guò)類(lèi)信息挖掘交通流量數(shù)據(jù)的相關(guān)性,并利用相似樣本填充缺失值可以提高插補(bǔ)性能,同時(shí)應(yīng)用自加權(quán)集成學(xué)習(xí)算法融合不同聚類(lèi)數(shù)下的插補(bǔ)結(jié)果有助于進(jìn)一步提高插補(bǔ)方法的精度。本文還以公共交通數(shù)據(jù)集PeMS 中車(chē)流量數(shù)據(jù)為例,驗(yàn)證了CFMC方法的插補(bǔ)能力。結(jié)果表明,針對(duì)不同的缺失率(15%~70%),與K 近鄰算法、MICE、PACE 等10 種插補(bǔ)方法相比,本文提出的CFMC 方法具有優(yōu)越性,能夠保證插補(bǔ)的有效性和準(zhǔn)確性。均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)和平均絕對(duì)百分比誤差(MAPE)這3個(gè)量化指標(biāo)分別降低了10.75%~81.69%、0.34%~84.48%和12.5%~81.08%,且處理時(shí)間可控。因此,針對(duì)大規(guī)模稀疏交通流量數(shù)據(jù)研究時(shí),利用CFMC方法進(jìn)行插補(bǔ)處理可進(jìn)一步保障后續(xù)研究的準(zhǔn)確性。