亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于NB和DTW組合模型的稀疏浮動(dòng)車數(shù)據(jù)填充

        2019-08-02 11:50:16許倫輝陳凱勛郭雅婷
        關(guān)鍵詞:浮動(dòng)交通流路網(wǎng)

        許倫輝,陳凱勛,郭雅婷

        (華南理工大學(xué)土木與交通學(xué)院,廣東 廣州 510641)

        浮動(dòng)車數(shù)據(jù)(floating car data)是指從安裝了GPS模塊和無線通信模塊的出租車、公交車等車輛接收到的數(shù)據(jù),數(shù)據(jù)可包括時(shí)間、經(jīng)緯度、車輛編號(hào)、運(yùn)營狀態(tài)、速度等信息。浮動(dòng)車在20世紀(jì)90年代初開始投入使用,至今已經(jīng)被廣泛應(yīng)用于交通領(lǐng)域。浮動(dòng)車具有安裝使用方便、維護(hù)成本低、覆蓋面廣、數(shù)據(jù)量大、精度高且實(shí)時(shí)性強(qiáng)的特點(diǎn)。文獻(xiàn)[1]以浮動(dòng)車數(shù)據(jù)為單一數(shù)據(jù)來源,提出了基于廣義自適應(yīng)平滑方法(GASM)的在線交通流速度估計(jì)模型。文獻(xiàn)[2]引入置信點(diǎn),提出了基于浮動(dòng)車大數(shù)據(jù)的城市道路復(fù)雜度分析方法,并將該方法應(yīng)用于廣州市路網(wǎng)的復(fù)雜度分析。文獻(xiàn)[3]提出了基于浮動(dòng)車數(shù)據(jù)的城市不同等級(jí)道路通行能力評(píng)估方法,以較低的成本全面掌握城市交通狀態(tài)在空間和時(shí)間上的不同特征。文獻(xiàn)[4]利用道路實(shí)測(cè)數(shù)據(jù)建立了面向其應(yīng)用的輕型車尾氣排放實(shí)時(shí)測(cè)算模型,反映相同平均速度下的排放變化。文獻(xiàn)[5]提出一種基于HMM(Hid-den Markov model)的地圖匹配模型,并有效應(yīng)用于海量浮動(dòng)車數(shù)據(jù)地圖匹配。但,以上研究多基于完善的浮動(dòng)車數(shù)據(jù),所提出的模型在浮動(dòng)車數(shù)據(jù)缺失的情況下并不適用。近年來,各國學(xué)者也提出了一些解決浮動(dòng)車數(shù)據(jù)稀疏問題的方法。文獻(xiàn)[6]對(duì)比了PPCA和KPPCA方法,在適當(dāng)考慮時(shí)空相關(guān)性的前提下,證明了KPPCA方法顯著減少了對(duì)缺失數(shù)據(jù)估算的誤差。文獻(xiàn)[7]將季節(jié)性ARIMA交通流預(yù)測(cè)模型用于計(jì)算交通流數(shù)據(jù)的缺失,改善了對(duì)稀疏數(shù)據(jù)的不適應(yīng)性。文獻(xiàn)[8]將數(shù)據(jù)丟失事件看作是嚴(yán)重堵塞的情況下防止浮動(dòng)車進(jìn)入擁堵區(qū)域的狀況,以此建立了一種基于新的交通流運(yùn)行指標(biāo)的時(shí)間序列相似性測(cè)量方法,并將此方法作為定義動(dòng)態(tài)交通網(wǎng)絡(luò)瓶頸的基礎(chǔ)。文獻(xiàn)[9]提出了一種估計(jì)和修正方法對(duì)行程時(shí)間進(jìn)行估計(jì)與修正,得到了比改進(jìn)的內(nèi)插值法更接近實(shí)際的估計(jì)值。文獻(xiàn)[10]建立了一個(gè)微仿真模型,該模型考慮了多個(gè)誤差因素,通過對(duì)已有的稀疏浮動(dòng)車數(shù)據(jù)驅(qū)動(dòng)進(jìn)行增強(qiáng)來估計(jì)交叉路口的信號(hào)相位和時(shí)間。文獻(xiàn)[11]提出了一個(gè)三層神經(jīng)網(wǎng)絡(luò)模型,從浮動(dòng)車的歷史數(shù)據(jù)中獲取各路段的時(shí)空特性,以時(shí)空特性作為輸入,建立路段間的關(guān)聯(lián)關(guān)系來估計(jì)稀疏路段的行程時(shí)間。文獻(xiàn)[12]提出了一個(gè)樸素貝葉斯估計(jì)模型對(duì)缺失的路網(wǎng)交通流速度數(shù)據(jù)進(jìn)行估計(jì),在一定程度上緩解了數(shù)據(jù)稀疏帶來的影響。

        上述研究將偶然性和多發(fā)性的缺失統(tǒng)一為單一缺失狀態(tài)進(jìn)行填充,在實(shí)際的應(yīng)用中會(huì)出現(xiàn)對(duì)特殊缺失情況的不適應(yīng),從而導(dǎo)致填補(bǔ)效率降低。例如:文獻(xiàn)[12]所提出的模型在以時(shí)間維度的參數(shù)進(jìn)行估計(jì)時(shí),會(huì)因某個(gè)時(shí)段歷史數(shù)據(jù)的大量缺失而對(duì)估計(jì)效果產(chǎn)生很大影響,導(dǎo)致模型不再適用于此類型缺失情況?;趯?duì)真實(shí)數(shù)據(jù)缺失情況的分析,本文將數(shù)據(jù)缺失類型歸納為偶然性缺失和多發(fā)性缺失,并針對(duì)兩種數(shù)據(jù)缺失類型分別提出了基于NB和基于DTW的方法對(duì)路網(wǎng)交通流速度進(jìn)行估計(jì),以增強(qiáng)缺失數(shù)據(jù)的填充效果以及模型在實(shí)際應(yīng)用中的適用性,降低路網(wǎng)浮動(dòng)車數(shù)據(jù)缺失對(duì)實(shí)際應(yīng)用和理論研究帶來的影響。

        1 稀疏數(shù)據(jù)填補(bǔ)方法

        1.1 數(shù)據(jù)處理

        將地圖轉(zhuǎn)化為路網(wǎng)并鏈接浮動(dòng)車數(shù)據(jù),選擇適合區(qū)域進(jìn)行數(shù)據(jù)提取和分析。對(duì)于實(shí)時(shí)交通系統(tǒng),5 min是常用的信息發(fā)布時(shí)間間隔,本文以5 min作為數(shù)據(jù)采集間隔,將一天分為288個(gè)時(shí)段進(jìn)行采集與處理分析。以一條浮動(dòng)車數(shù)據(jù)為例,其數(shù)據(jù)格式為:

        由表1可知,若該路段某一時(shí)段的浮動(dòng)車數(shù)據(jù)丟失,速度數(shù)據(jù)也必然隨之丟失。以缺失速度數(shù)據(jù)的路段ID代替交通流速度作為索引對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)監(jiān)測(cè),可簡化缺失數(shù)據(jù)的查找過程且不影響數(shù)據(jù)的估計(jì)和填補(bǔ)工作,轉(zhuǎn)化過程可用式(1)表示。

        (1)

        表1 浮動(dòng)車數(shù)據(jù)格式Table 1 Format of floating car data

        式中,Vt為路網(wǎng)交通流速度矩陣;vrc為道路r在c時(shí)段的交通流速度數(shù)據(jù);Mt為路網(wǎng)各路段ID矩陣;mrc為道路r在c時(shí)段的路段ID,若數(shù)據(jù)缺失,則路段ID為0。

        1.2 偶然性缺失填補(bǔ)方法

        某一路段某一時(shí)刻的數(shù)據(jù)缺失具有偶然性,即歷史數(shù)據(jù)中該路段這一時(shí)段的數(shù)據(jù)較為完整或僅有少量缺失,實(shí)時(shí)查找出的缺失是偶然發(fā)生的,這樣的缺失多發(fā)生于較高等級(jí)的道路上。樸素貝葉斯分類方法簡單、快速,對(duì)于此類數(shù)據(jù)缺失有較好的填充效果。

        1.2.1 樸素貝葉斯模型 本文采用樸素貝葉斯方法對(duì)缺失數(shù)據(jù)進(jìn)行估計(jì),以平衡浮動(dòng)車數(shù)據(jù)在空間分布不均的問題。此方法中,速度數(shù)據(jù)從0 km/h開始每5 km/h為一組分為20個(gè)速度組,大于100 km/h的計(jì)入第20組,將速度轉(zhuǎn)化為20個(gè)離散值。用同一路段歷史交通流速度vH(同一時(shí)段數(shù)據(jù)平均值)和同一路段上一時(shí)段交通流速度vS作為樸素貝葉斯分類方法的兩個(gè)輸入?yún)?shù),估計(jì)當(dāng)前時(shí)段當(dāng)前路段的交通流速度v,公式如下:

        (2)

        式中,v為研究路段某時(shí)段的估計(jì)平均交通流速度;vH為同一路段歷史交通流速度;vS為同一路段上一時(shí)段交通流速度;P(v)為研究路段某時(shí)段的估計(jì)平均交通流速度為v時(shí)的概率;P(v|vH,vS)為研究路段歷史交通流速度為vH且上一時(shí)段交通流速度為vS的情況下,該路段當(dāng)前時(shí)段估計(jì)平均交通流速度為v的概率;P(vH,vS|v)為研究路段估計(jì)平均交通流速度為v的情況下同一路段歷史交通流速度為vH,且同一路段上一時(shí)段交通流速度為vS的概率。

        由于兩個(gè)引入的參數(shù)相互獨(dú)立,即其上一時(shí)段交通流速度與歷史交通流速度無直接聯(lián)系,而上式中的分母∑v∈VP(vH,vS|v)P(v)對(duì)所有的v都相同,在比較后驗(yàn)概率時(shí)可以省略其進(jìn)行計(jì)算,僅比較分子大小即可,所以在某時(shí)段缺失路段的交通流速度估計(jì)公式如下:

        (3)

        式中,P(vH|v)為研究路段估計(jì)平均交通流速度為v的情況下同一路段歷史交通流速度為vH的概率;P(vS|v)為研究路段估計(jì)平均交通流速度為v的情況下同一路段上一時(shí)段交通流速度為vS的概率。各參數(shù)的計(jì)算過程如式(4)~(6)所示。

        (4)

        式(4)中,N為前30天內(nèi)用于研究的所有速度數(shù)據(jù)量(第一個(gè)時(shí)段無vS,此時(shí)僅使用vH作為模型參數(shù));I(vi=v)為判斷vi=v的布爾值,若vi=v則I(vi=v)=1,否則為0;I(vS,vi=v)為判斷vi=v時(shí)vS單個(gè)統(tǒng)計(jì)量的布爾值,若vi=v時(shí)存在vS則I(vS,vi=v)=1,否則為0。

        (5)

        式(5)中,N為一天內(nèi)用于研究的所有時(shí)段;I(vi=v)為判斷vi=v的布爾值,若vi=v則I(vi=v)=1,否則為0;I(vH,vi=v)為判斷vi=v時(shí)vH單個(gè)統(tǒng)計(jì)量的布爾值,若vi=v時(shí)存在vH則I(vH,vi=v)=1,否則為0。

        (6)

        式(6)中,N為前30天內(nèi)用于研究的所有速度數(shù)據(jù)量;I(vi=v)為判斷vi=v的布爾值,若vi=v則I(vi=v)=1,否則為0。將式(3)中的參數(shù)逐一計(jì)算后,代回式(3)中關(guān)聯(lián)并遍歷,可得到最終的估計(jì)結(jié)果。

        1.2.2 樸素貝葉斯模型修正 假設(shè)選用參數(shù)vH、vS與速度v為正相關(guān)關(guān)系,并在模型可行性分析部分進(jìn)行驗(yàn)證,此正相關(guān)關(guān)系使得速度相差較大的范圍會(huì)出現(xiàn)P(vH|v)=0或P(vS|v)=0。為了避免出現(xiàn)概率值為0而影響最終估計(jì)結(jié)果的適應(yīng)性和準(zhǔn)確性,本文采用拉普拉斯修正(laplace correcting)對(duì)存在條件概率進(jìn)行修正處理,如下式(7)~(9)所示。

        (7)

        (8)

        (9)

        式中,M為速度取值數(shù)量。

        1.3 多發(fā)性缺失填補(bǔ)方法

        某一路段某一時(shí)刻的數(shù)據(jù)缺失具有多發(fā)性,即歷史數(shù)據(jù)中該路段這一時(shí)段的數(shù)據(jù)同樣存在大量的缺失,這樣的缺失多發(fā)生于低等級(jí)的道路上。這種情況下歷史數(shù)據(jù)的估計(jì)價(jià)值不高,估計(jì)結(jié)果也有較大偏差甚至無法進(jìn)行估計(jì),樸素貝葉斯分類方法不再適用于這種缺失類型。近年來,已有學(xué)者將相似性度量的方法應(yīng)用于信息補(bǔ)全、短時(shí)預(yù)測(cè)等研究。文獻(xiàn)[13]提出了一種基于時(shí)間序列相似性搜索的短時(shí)交通流量預(yù)測(cè)方法,并以高速公路交通流量數(shù)據(jù)證明該方法的預(yù)測(cè)性能優(yōu)于傳統(tǒng)方法。在相似性度量中,DTW算法已在語音識(shí)別等領(lǐng)域得到廣泛應(yīng)用,此算法支持不同長度的時(shí)間序列的相似性度量,定義了序列間的對(duì)齊匹配關(guān)系[14]。

        本文提出了基于DTW的相似度算法,求解匹配時(shí)累計(jì)差值最小的兩路段所對(duì)應(yīng)的規(guī)整函數(shù),以尋找最相似路段,并對(duì)多發(fā)性的數(shù)據(jù)缺失進(jìn)行填充。在尋找相似路段前,使用Daubechies(db4)小波獲取用于比對(duì)的低頻基波,4是小波的階數(shù),假設(shè)觀測(cè)數(shù)據(jù)由2部分組成:

        x(t)=s(t)+n(t)

        (10)

        式中,x(t)為觀測(cè)值;s(t) 為真實(shí)值;n(t)為噪聲,即n(t)=N(0,δ2)。

        在小波分解后的低頻信號(hào)中調(diào)取源路段,并標(biāo)記為序列Q=q1,q2,…,qi,…,qn,其中n為調(diào)取到的該路段交通流速度數(shù)據(jù)總量。依次調(diào)取研究范圍內(nèi)其他所有路段的低頻信號(hào),記為CLINKID=c1,c2,…,cj,…,cm。其中,LINKID為當(dāng)前調(diào)取的路段ID,m為調(diào)取到的其他路段的交通流數(shù)據(jù)總量。要計(jì)算每個(gè)搜尋路段與源路段序列的累計(jì)差值,首先要對(duì)序列實(shí)時(shí)匹配差值進(jìn)行計(jì)算,具體公式如下:

        (11)

        式中,D[i,j]為序列匹配至qi,cj時(shí)的累計(jì)差值;d(qi-cj)為兩數(shù)據(jù)點(diǎn)間的歐氏距離。當(dāng)計(jì)算過程執(zhí)行到序列的最后一個(gè)樣本時(shí),可得搜尋路段與源路段序列的累計(jì)差值:

        DTW(Q,C)=D[n,m]

        (12)

        使用27°-45°-63°的局部路徑約束,最佳的DTW路徑會(huì)跳過序列中的離群點(diǎn)[15],使得在計(jì)算時(shí)省掉了一些不需要計(jì)算的部分,如圖1所示。計(jì)算完成后,比較累計(jì)差值可得出源路段的相似路段,相似路段的低頻信號(hào)和隨機(jī)噪聲信號(hào)最終組成源路段的缺失時(shí)段數(shù)據(jù),并可將估計(jì)的速度轉(zhuǎn)化為對(duì)應(yīng)的分組數(shù)值,填充入數(shù)據(jù)缺失部分。

        圖1 離群點(diǎn)示意Fig.1 Diagram of outliers

        2 試驗(yàn)分析

        選擇深圳市南山區(qū)南海大道、濱海大道、創(chuàng)業(yè)路及后濱海路所框定的范圍作為研究區(qū)域,如圖2所示。所選區(qū)域覆蓋了各等級(jí)道路包括快速路、主干路、次干路、支路。調(diào)取的浮動(dòng)車樣本數(shù)據(jù)均來自深圳市城市交通規(guī)劃設(shè)計(jì)研究中心,數(shù)據(jù)時(shí)間范圍為2018年5月1日至5月31日,樣本總量約400萬條,采樣間隔為5 min。在Matlab平臺(tái)下,對(duì)樸素貝葉斯算法的參數(shù)相關(guān)性和DTW算法的相似性進(jìn)行評(píng)價(jià),并對(duì)組合模型的效率和準(zhǔn)確性進(jìn)行了驗(yàn)證,并將最終的數(shù)據(jù)填充效果通過地圖匹配展示到TransCAD、GIS等軟件的路網(wǎng)分布圖中。

        圖2 研究區(qū)域路網(wǎng)Fig.2 Network of study area

        2.1 模型可行性分析

        2.1.1 樸素貝葉斯參數(shù)評(píng)價(jià) 以選定范圍內(nèi)快速路的實(shí)時(shí)交通流速度v所處分組為橫坐標(biāo),同一路段前一時(shí)段的交通流速度vS所處分組為縱坐標(biāo)做相關(guān)性分析,結(jié)果如圖3(a)所示。圖3(a)中,兩個(gè)變量呈現(xiàn)出高度的正相關(guān)性,說明相鄰時(shí)段的速度相近甚至相等是大概率事件,用相鄰時(shí)間段的路網(wǎng)交通流速度數(shù)據(jù)作為估計(jì)缺失數(shù)據(jù)的一個(gè)條件參數(shù)是有效且可行的。

        圖3 條件參數(shù)與交通流實(shí)時(shí)速度的相關(guān)性Fig.3 Relationship between vS /vH and v

        以選定范圍內(nèi)快速路的實(shí)時(shí)交通流速度v所處分組為橫坐標(biāo),同一時(shí)間段的歷史速度vH所處分組為縱坐標(biāo)做相關(guān)性分析,結(jié)果如圖3(b)所示。圖3(b)中,高概率色格仍然更多集中于對(duì)角線附近,雖與圖3(a)相比更為分散,但仍能看出其正相關(guān)性。造成概率集中度不高的原因主要是歷史數(shù)據(jù)提取量有限,僅引入前30天的歷史數(shù)據(jù)進(jìn)行相關(guān)條件的概率計(jì)算,對(duì)結(jié)果產(chǎn)生了輕度的干擾。擴(kuò)大樣本容量進(jìn)行處理分析,可得出分布更加集中,更加接近正相關(guān)的圖形。從圖3(c)可以看出:同一路段前一時(shí)段的交通流速度vS與同一時(shí)間段的歷史速度vH相互獨(dú)立,沒有相關(guān)關(guān)系。

        2.1.2 DTW相似性評(píng)價(jià) 在使用DTW算法前,先調(diào)取所有路段前30天的歷史交通流速度數(shù)據(jù)并對(duì)其進(jìn)行小波濾波分析[16],采用Db小波的4階函數(shù)進(jìn)行小波分解,將噪聲部分表示為4組高頻信號(hào),對(duì)主流低頻變化信號(hào)以及高頻噪聲信號(hào)進(jìn)行重構(gòu),得到如圖4所示的原始序列、低頻序列、噪聲序列。

        圖4 基于Db4小波函數(shù)的信號(hào)分解結(jié)果Fig.4 Signal decomposition result based on Db4 wavelet function

        圖4中,原始序列是低頻序列和高頻噪聲序列疊加產(chǎn)生的信號(hào)圖形。小波分解可看作一個(gè)信號(hào)濾波的去噪過程[17],圖中的高頻信號(hào)在應(yīng)用中可視為主要噪聲源,其噪聲序列由不相關(guān)的隨機(jī)變量構(gòu)成,具有很強(qiáng)的隨機(jī)性。在去噪后,低頻序列仍保留了原始序列的周期、振幅、變化趨勢(shì)等特征,因此使用低頻序列進(jìn)行DTW的計(jì)算可以有效降低噪聲干擾,得到更加平穩(wěn)且符合實(shí)際規(guī)律的樣本數(shù)據(jù)[18]。利用低頻基波進(jìn)行相似路段的比對(duì),最終查找到與源路段相似的路段,取源路段和相似路段一周內(nèi)速度變化進(jìn)行對(duì)比分析,結(jié)果如圖5所示。

        圖5 源路段與相似路段速度變化對(duì)比Fig.5 Comparison of the speed of the original and similar sections

        圖5(a)中,虛線表示源路段,實(shí)線表示源路段的相似路段。截取了歷史數(shù)據(jù)中一周的數(shù)據(jù)進(jìn)行對(duì)比分析,可以看出相似路段的變化趨勢(shì)、振幅、周期等特性與源路段契合,但相似路段的可靠程度需將兩路段的實(shí)時(shí)偏差、偏差的峰值、波動(dòng)范圍等特性進(jìn)行進(jìn)一步比對(duì)才能得到驗(yàn)證。圖5(b)中以兩路段對(duì)應(yīng)樣本的差值組成序列,從這個(gè)序列中可以看出兩路段的相似程度較高,對(duì)應(yīng)點(diǎn)位的偏差峰值不超過+8和-5,其他差值多在更小的固定范圍內(nèi)波動(dòng),得到穩(wěn)定小范圍差值的原因是在執(zhí)行DTW算法時(shí),超出指定范圍的樣本已在路徑約束中作為離群點(diǎn)被剔除,因此以此方法篩選出的相似路段具有一定的可靠性。將研究范圍全部源路段與相似路段進(jìn)行比對(duì),對(duì)應(yīng)點(diǎn)位的偏差峰值不超過+10和-8,偏差峰值在+5和-5之間的點(diǎn)位占比83.67%。

        2.2 模型評(píng)價(jià)

        2.2.1 數(shù)據(jù)缺失程度劃分 為量化偶然性缺失和多發(fā)性缺失的定義對(duì)模型的準(zhǔn)確性及數(shù)據(jù)填補(bǔ)率的影響,本文將偶然性缺失分別定義為數(shù)據(jù)缺失程度小于10%、20%、30%、40%、50%,不滿足偶然性缺失條件的則為多發(fā)性缺失。對(duì)定義后的缺失進(jìn)行分別處理,用67.54%的低完整率源數(shù)據(jù)進(jìn)行驗(yàn)證,考量模型使用后估計(jì)結(jié)果的效果以確定數(shù)據(jù)缺失性質(zhì)的量化區(qū)分,具體對(duì)比如下圖6所示。

        圖6 數(shù)據(jù)缺失定義對(duì)模型影響Fig.6 The impact of data loss definition on the model

        圖6(a)中,經(jīng)過二次填充后路網(wǎng)交通流數(shù)據(jù)的完整程度均能達(dá)到90%以上,但第一次填充率的增大將會(huì)抑制第二次填充的效果。因?yàn)榈谝淮翁畛湓蕉?,第二次填充的樣本容量將?huì)減小,找到相似路段的幾率也會(huì)隨之減小。由圖6(b)可知,將過多數(shù)據(jù)定義為偶然缺失,使用樸素貝葉斯法或過度使用DTW法都會(huì)使模型的偏差值增大,即準(zhǔn)確度降低。這是因?yàn)椋簶闼刎惾~斯法采用過度缺失的歷史數(shù)據(jù)作為條件參數(shù),將會(huì)影響估計(jì)精度;而,DTW算法查找相似路段的方法采用歐氏距離,對(duì)噪聲較為敏感,若對(duì)計(jì)算過程產(chǎn)生過度影響,可能會(huì)造成噪聲干擾路段與非相似路段的混淆,導(dǎo)致計(jì)算結(jié)果產(chǎn)生偏差。以同樣的方式對(duì)76.33%和85.10%完整率的源數(shù)據(jù)進(jìn)行驗(yàn)證,結(jié)果表明:在數(shù)據(jù)修復(fù)的完整程度上各分組均表現(xiàn)良好;但,閾值定義為30%時(shí),偏差值可維持在2.2 km/h ~ 2.5 km/h。因此,本文選擇將數(shù)據(jù)缺失程度小于30%作為偶然性缺失的定義,在保證模型填充效率的同時(shí)提升模型估計(jì)結(jié)果的準(zhǔn)確性。

        2.2.2 模型對(duì)比 對(duì)三種模型進(jìn)行對(duì)比分析。模型一采用文獻(xiàn)[10]中的方法,僅使用樸素貝葉斯分類,以同路段的歷史交通流速度和前一時(shí)刻交通流速度作為輸入?yún)?shù)對(duì)缺失數(shù)據(jù)進(jìn)行估計(jì)填充;模型二中路網(wǎng)數(shù)據(jù)缺失情況不做區(qū)分,統(tǒng)一采用DTW方法對(duì)偶然性缺失和多發(fā)性缺失同時(shí)進(jìn)行填充;模型三為本文所采用的方法,先將數(shù)據(jù)缺失情況進(jìn)行劃分,再配合使用樸素貝葉斯方法和DTW方法分別對(duì)偶然性缺失和多發(fā)性缺失分別進(jìn)行估計(jì)填充。

        以路網(wǎng)30天內(nèi)的前20天數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),后10天數(shù)據(jù)作為測(cè)試數(shù)據(jù);測(cè)試數(shù)據(jù)將分別被視作缺失樣本進(jìn)行填充,并將真實(shí)數(shù)據(jù)與填充數(shù)據(jù)差值的絕對(duì)值作為本次填充的估計(jì)誤差;每個(gè)測(cè)試數(shù)據(jù)的填充及誤差計(jì)算過程相互獨(dú)立互不影響,最終所有測(cè)試樣本的平均絕對(duì)誤差(MAD)和均方誤差(MSE)的計(jì)算如式(13)~(14)所示:

        (13)

        (14)

        式中,n為測(cè)試數(shù)據(jù)的樣本總數(shù);obs為真實(shí)數(shù)據(jù)的觀測(cè)樣本;pre為模型填充的估計(jì)樣本。最終對(duì)模型的填充效果和估計(jì)準(zhǔn)確度進(jìn)行比較,結(jié)果如表2所示。

        表2 三種模型效果比較Table 2 Comparison of three models

        由上表可知,單獨(dú)使用DTW算法的模型二的平均絕對(duì)誤差和均方誤差均較大,平均絕對(duì)誤差超出了速度的一個(gè)組值范圍;而,模型一和模型三的平均絕對(duì)誤差均在一個(gè)組值的范圍內(nèi)。當(dāng)誤差在可接受范圍內(nèi)時(shí),模型三的填充率比模型一的高出13.08%,填充效果有較顯著的提升。因此,本文所提方法在保證估計(jì)結(jié)果準(zhǔn)確性的同時(shí)大幅提升了缺失數(shù)據(jù)的填充率,相比于單一使用樸素貝葉斯方法或DTW方法的模型更為優(yōu)化。在運(yùn)行時(shí)間方面,DTW方法尋找相似路段的過程耗時(shí)較長,但此步驟可提前離線完成,組合模型實(shí)時(shí)計(jì)算的平均時(shí)長為15.6 s。

        2.3 試驗(yàn)結(jié)果分析

        以2017年5月31日第96時(shí)段(7∶55到8∶00)的數(shù)據(jù)進(jìn)行模型的試驗(yàn)。數(shù)據(jù)填充前,路網(wǎng)交通流速度的原始分布如圖7所示,虛線表示該時(shí)段路網(wǎng)處在數(shù)據(jù)缺失的狀態(tài),顏色由淺至深表示速度由低到高。對(duì)路段ID矩陣M進(jìn)行統(tǒng)計(jì)分析,得到該時(shí)段路網(wǎng)的數(shù)據(jù)覆蓋率為62.68%,較高的數(shù)據(jù)缺失率和數(shù)據(jù)密度的分布不均給路網(wǎng)的交通流速度分布研究、交通流速度的預(yù)測(cè)等帶來了較大的困難。

        使用樸素貝葉斯分類方法對(duì)路網(wǎng)缺失數(shù)據(jù)進(jìn)行估計(jì),結(jié)果如圖8(a)所示。處理后,路網(wǎng)的數(shù)據(jù)覆蓋率達(dá)到了73.76%,比原始數(shù)據(jù)提升了17.68%,但路網(wǎng)中仍有部分路段存在數(shù)據(jù)缺失的現(xiàn)象。這一現(xiàn)象多存在于低等級(jí)道路上,說明低等級(jí)道路上歷史數(shù)據(jù)缺失大于30%的現(xiàn)象嚴(yán)重,導(dǎo)致樸素貝葉斯方法拋棄對(duì)這些路段的估計(jì),進(jìn)而采用DTW算法查找相似路段對(duì)估計(jì)結(jié)果進(jìn)行補(bǔ)充,結(jié)果如圖8(b)所示。經(jīng)過兩個(gè)步驟的處理之后,路網(wǎng)的數(shù)據(jù)覆蓋率達(dá)到了92.33%,比原始數(shù)據(jù)提升了47.30%。因此,將兩個(gè)方法搭配使用的填充效果顯著,很好地彌補(bǔ)了樸素貝葉斯方法對(duì)于多發(fā)性數(shù)據(jù)缺失估計(jì)的不足,也在一定程度上降低了使用DTW方法進(jìn)行預(yù)測(cè)帶來的誤差。

        圖7 路網(wǎng)交通流數(shù)據(jù)缺失現(xiàn)狀Fig.7 The current situation of data loss of traffic flow

        圖8 路網(wǎng)交通流速度數(shù)據(jù)修復(fù)對(duì)比Fig.8 Comparison of repair of traffic flow velocity data

        3 結(jié) 論

        本文構(gòu)建了一個(gè)稀疏數(shù)據(jù)的填充模型,將數(shù)據(jù)缺失的類型分為偶然性和多發(fā)性缺失,并配合使用樸素貝葉斯分類方法和DTW算法對(duì)缺失數(shù)據(jù)進(jìn)行填充。試驗(yàn)結(jié)果表明:該模型可以使路網(wǎng)的數(shù)據(jù)覆蓋率得到顯著的提升,并且混合模型在填充效果上明顯優(yōu)于僅使用樸素貝葉斯方法進(jìn)行數(shù)據(jù)填充;填充數(shù)據(jù)的準(zhǔn)確率相較于僅使用DTW算法也得到了一定程度的提升。填充后的浮動(dòng)車數(shù)據(jù)具有連續(xù)性強(qiáng)、準(zhǔn)確度高和數(shù)據(jù)密度分布均勻的特點(diǎn)。后續(xù)的工作仍需考慮以下情況以提升模型效率:

        (1)為減少模型的偶然性偏差,保證填充結(jié)果的準(zhǔn)確性和穩(wěn)定性,應(yīng)盡可能增加歷史數(shù)據(jù)樣本量,提升以歷史數(shù)據(jù)作為輸入?yún)?shù)之一的模型的估計(jì)準(zhǔn)確性;

        (2)不同路網(wǎng)的數(shù)據(jù)缺失情況不同,應(yīng)在模型使用前重新對(duì)偶然性缺失和多發(fā)性缺失的不同劃分情況所造成的影響進(jìn)行評(píng)估,確定劃分范圍,以確保模型填充效果得到保障;

        (3)應(yīng)進(jìn)一步考慮路網(wǎng)復(fù)雜性對(duì)模型效率和準(zhǔn)確性帶來的影響,尋找樣本量、準(zhǔn)確性和計(jì)算效率之間的平衡點(diǎn)。

        猜你喜歡
        浮動(dòng)交通流路網(wǎng)
        中國船級(jí)社(CCS)發(fā)布 《海上浮動(dòng)設(shè)施入級(jí)規(guī)范》(2023)
        一種用于剪板機(jī)送料的液壓浮動(dòng)夾鉗
        打著“飛的”去上班 城市空中交通路網(wǎng)還有多遠(yuǎn)
        帶有浮動(dòng)機(jī)構(gòu)的曲軸孔鏜刀應(yīng)用研究
        省際路網(wǎng)聯(lián)動(dòng)機(jī)制的錦囊妙計(jì)
        中國公路(2017年11期)2017-07-31 17:56:30
        首都路網(wǎng) 不堪其重——2016年重大節(jié)假日高速公路免通期的北京路網(wǎng)運(yùn)行狀況
        中國公路(2017年7期)2017-07-24 13:56:29
        路網(wǎng)標(biāo)志該如何指路?
        中國公路(2017年10期)2017-07-21 14:02:37
        交通流隨機(jī)行為的研究進(jìn)展
        路內(nèi)停車對(duì)交通流延誤影響的定量分析
        具有負(fù)壓力的Aw-Rascle交通流的Riemann問題
        久久久免费精品re6| 激情乱码一区二区三区| 人妻在线有码中文字幕| av无码小缝喷白浆在线观看| 骚小妹影院| 精品无码久久久久久久久粉色| 亚洲av精品一区二区| 极品人妻少妇av免费久久| 亚洲av日韩av无码污污网站| 欧美日韩国产一区二区三区地区| 亚洲黄色官网在线观看| 精品国产a一区二区三区v| 亚洲国产av精品一区二区蜜芽| 色老头一区二区三区| av最新版天堂在资源在线| 国产精品对白一区二区三区| 97人人超碰国产精品最新| 亚洲综合伊人制服丝袜美腿| 亚洲精品在线观看一区二区| 国产在线观看91一区二区三区| 熟女精品视频一区二区三区| 国产精品高潮无码毛片| 日本一区不卡在线观看| 国产精品私密保养| 在线va免费看成| 91免费国产| 99久久婷婷国产一区| 永久黄网站免费视频性色| 日韩中文无线码在线视频观看| 一区二区三区国产大片| 99re6在线视频精品免费下载| 无码人妻精品一区二区三区下载| 亚洲av在线播放观看| 白嫩少妇高潮喷水av| 亚洲国产精品久久电影欧美| 91精品国产综合成人| 亚洲综合精品一区二区三区| 久久久久高潮综合影院| 国产色a在线观看| 国产日韩AV无码免费一区二区| 91精品国产一区国产二区久久|