邵 鑫, 黃曉紅, 董斯琛
(1.華北理工大學(xué)人工智能學(xué)院, 唐山 063210; 2.華北理工大學(xué)人工智能學(xué)院, 唐山 063210; 3.海軍工程大學(xué)信息安全學(xué)院, 武漢 430032)
隨著中國智慧城市的發(fā)展,對交通流數(shù)據(jù)的質(zhì)量有了更高的要求,這也是為智能運輸系統(tǒng)(ITS)能夠做出正確決策提供更好的保障。因為毫米波交通雷達具備全天候、高分辨率、可測速、可測距等長處,被廣泛應(yīng)用于智能交通范疇。鑒于檢測的數(shù)據(jù)量大和采集周期不規(guī)律等因素,交通監(jiān)控中心經(jīng)常沉積著海量的交通流數(shù)據(jù)。為了能夠有效、快速、實時地進行交通管制和規(guī)劃,這就需要獲得高質(zhì)量的道路交通狀況的數(shù)據(jù)[1]。但當(dāng)毫米波交通雷達處于非正常工作狀態(tài)以及傳輸設(shè)備出現(xiàn)故障、環(huán)境變化等情況時,采集到的數(shù)據(jù)會有許多問題,影響后續(xù)的數(shù)據(jù)挖掘處理。針對異常數(shù)據(jù)如何進行識別和更正,從而對數(shù)據(jù)挖掘處理提供高質(zhì)量數(shù)據(jù),具有一定的研究意義[2-4]。因此,在數(shù)據(jù)處理方面,國內(nèi)外的研究人員有著相應(yīng)的研究成果。在進行數(shù)據(jù)管理時,系統(tǒng)闡述了幾種數(shù)據(jù)質(zhì)量問題并提出相應(yīng)的優(yōu)化方法[5]。在處理異常數(shù)據(jù)時,對其沖洗規(guī)則和步驟進行相應(yīng)的驗證[6]。在處理異常交通流數(shù)據(jù)時,對問題的產(chǎn)生、識別和修復(fù)方法進行相應(yīng)的研究[7]。在處理多種類別的交通流預(yù)測模型時,利用歷史平均模型進行效果對比,并進行相應(yīng)的分類[8-9]。上述文獻只是對單方面有問題的數(shù)據(jù)進行質(zhì)量問題的分析研究,對數(shù)據(jù)進行大批量的沖洗處理,有很大的誤差性。通過毫米波交通雷達獲得的數(shù)據(jù)也存在很多類型的質(zhì)量問題,如何有效地進行異常數(shù)據(jù)的識別、修復(fù)和減小數(shù)據(jù)的誤差性,有著很大的挑戰(zhàn)。
在上述的研究的基礎(chǔ)上,現(xiàn)針對城市道路中交通流數(shù)據(jù)質(zhì)量優(yōu)化及交通流變化規(guī)律的問題,將原始交通流數(shù)據(jù)分成三份,然后以三個步驟對其進行處理:第一步,采用組合檢驗和閾值檢驗規(guī)則,對異常數(shù)據(jù)進行識別,有問題的數(shù)據(jù)進行更正及缺失數(shù)據(jù)進行修補;第二步,采用交通流狀態(tài)基本圖理論以及線性插值等方法,建立時間與交通流參數(shù)之間以及各參數(shù)之間關(guān)系的模型;第三步,采用粒子群多層前饋(PSO-BP)神經(jīng)網(wǎng)絡(luò)模型和歷史均值法,建立交通流量預(yù)測模型,通過訓(xùn)練完成缺失數(shù)據(jù)的填補,最終得到完整的高質(zhì)量數(shù)據(jù),從而減小數(shù)據(jù)清洗帶來的較大誤差性,進而驗證其方法的有效性。
毫米波交通雷達,作為新型的信息檢測器,其工作頻率為30~300 GHz、波長為1 mm~1 cm。其工作原理是雷達發(fā)射出的射頻信號到空間并識別出由目標反射回來的回波信號,進而識別出目標的存在,通過比較回波信號和發(fā)射信號,以便測定目標的距離、速度、角度和目標狀況等相關(guān)信息。因此,毫米波交通雷達采用多傳感器融合技術(shù),利用高清攝像頭的功能,可以實現(xiàn)對車輛的測距、測速、流量統(tǒng)計等,并對車輛進行逆行報警、超速抓拍和擁擠檢測[10]。
在交通流檢測中,雷達的工作方式是將該天線波束與車道呈垂直形式進行工作,以便減小多普勒效應(yīng)對檢測的影響。雷達的電磁波束對道路通道進行全覆蓋,其水平方向的波束寬度略大于車輛長度,以便車輛經(jīng)過檢測區(qū)域,其回波信號發(fā)生相應(yīng)的變化。對于雷達回波信號的處理,為了精確估計檢測區(qū)內(nèi)車輛的運動參數(shù),利用卡爾曼濾波器對車輛的運動狀態(tài)進行預(yù)測,從而將該時刻的量進行濾波估計[11]。通過多目標跟蹤系統(tǒng),利用道路上設(shè)定的流量計算區(qū)間和車道的檢測線,對車輛進行有效的跟蹤,計算每條目標車輛航跡的長度,并對各個車道進行車流量統(tǒng)計,從而得到交通流參數(shù),即流量,速度,時間占有率[12]。
(1)交通流量:車輛計數(shù)q是在一個相對較短的時間內(nèi)完成的,所以,q的最小值為0,最大值為交通道路的通行能力C與特定時間段和更正系數(shù)fc的乘積。故交通流量的范圍為
(1)
式(1)中:C為道路通行能力,veh/h;T為數(shù)據(jù)采樣周期,min;fc為更正系數(shù),一般為1.3~1.5。
(2)平均速度:在較短的時間區(qū)間內(nèi),由于隨機誤差的存在,需要對速度v進行更正;同時,在實際的情況中,道路會有速度限制,若存在超速的情況,速度v需要進行調(diào)整,故平均速度合理范圍為
0≤v≤fvv1
(2)
式(2)中:v1為道路的限制速度;fv為更正系數(shù),一般取 1.3~1.5。
(3)占有率:即時間占有率O,目標在檢測器占有的時間與檢測器整體工作時間的比值,故定義時間占有率的正常范圍為
0≤O≤100%
(3)
在智能交通系統(tǒng)運行中,常常出現(xiàn)人為和通信故障等情況,導(dǎo)致收集的交通流數(shù)據(jù)出現(xiàn)異常。主要表現(xiàn)為參數(shù)類型混亂、未滿足設(shè)定的閾值以及格式錯誤等情形。如果不進行更正與識別,直接應(yīng)用到各類交通場景中,則會發(fā)生智慧交通運行異常以及總調(diào)度室產(chǎn)生誤判等情況。因此,將原始交通流數(shù)據(jù)分成3份,記為:data_1、data_2、data_3。
首先對所有數(shù)據(jù)進行數(shù)據(jù)清洗,一般步驟:數(shù)據(jù)特征分析、確定沖洗規(guī)則、檢驗沖洗方法、執(zhí)行沖洗構(gòu)件和數(shù)據(jù)更新5個階段[4]。然后進行異常數(shù)據(jù)識別,對原始收集的交通流數(shù)據(jù),采用交通流理論和閾值理論[12],擬定對應(yīng)規(guī)則,從而識別收集的交通流數(shù)值是否異常。
(1)閾值理論。①流量q:將道路通行能力設(shè)計為1 500 veh/h,則5 min內(nèi)流量大于187輛;②平均速度v:將道路的限制車速為60 km/h,則5 min內(nèi)平均速大于120 km/h;③占有率O:設(shè)定道路中 5 min 內(nèi)占有率大于90%。
(2) 交通流理論:①平均速度v為0,流量q不為0;②流量q為0,占有率O和平均速度v同時不為0;③速度v不為0,占有率O為0,流量q大于設(shè)定值。
因此,建立異常數(shù)據(jù)的識別與修復(fù)模型,首先,進行交通流參數(shù)組合性檢驗,然后,進行交通流參數(shù)閾值檢驗,通過前兩步的檢驗,識別出異常數(shù)據(jù),再進行數(shù)據(jù)清洗并采用線性插值方法進行缺失數(shù)據(jù)修補。最后,根據(jù)原始數(shù)據(jù)信息,選取數(shù)據(jù)data_1,即采集時間為2019年1月1—31日,采集頻率為 5 min 的數(shù)據(jù),并對其進行異常數(shù)據(jù)的識別與修復(fù)檢驗,該模型滿足系統(tǒng)中的通行速度可能會超出道路的速度限制。
按照交通流理論將交通流參數(shù)的各限制范圍組合一起,對收集的交通流數(shù)據(jù)進行篩選與檢驗,進而識別出異常數(shù)據(jù),其檢驗結(jié)果,如表1所示。
表1 交通流參數(shù)組合性檢驗結(jié)果
從表1可知:當(dāng)車流量為0,但時間占有率和平均速度存在非0值占總體數(shù)據(jù)的0.54%;當(dāng)時間占有率為0,但平均速度和車流量存在非0值占總體數(shù)據(jù)的0.28%,對其他條件檢驗并未發(fā)現(xiàn)異樣。
將數(shù)據(jù)data_1中的流量、速度和時間占有率進行閾值檢驗,其中該交通流數(shù)據(jù)的采集周期為5 min,共8 636條。其閾值檢測的結(jié)果,如表2所示。
表2 交通流參數(shù)閾值檢驗結(jié)果
從表2可知:在流量檢測中,未通過檢驗樣本數(shù)量為0;在速度檢驗中,大于120 km/h的樣本數(shù)量為791個,占總樣本的9.16%,比例居高;在時間占用率檢驗中,未通過檢驗樣本數(shù)量為1個,占總樣本的0.01%。綜上所述,本研究對超過閾值范圍的數(shù)據(jù)定義為異常數(shù)據(jù),并對其進行更正。
首先,對數(shù)據(jù)data_2實現(xiàn)數(shù)據(jù)清洗之后,分別在時間序列上,對該數(shù)據(jù)中的平均速度,流量,時間占有率3個參數(shù)進行擬合建模,求解各自的演化過程。采用“分天”的方式進行擬合,通過對每天的數(shù)據(jù)擬合出的圖像進行整理發(fā)現(xiàn):①速度存在先升后降(早高峰),再升,再降(晚高峰),再升的趨向;②流量存在升(早高峰),降(午間),升(晚高峰),再降的趨向;③時間占有率存在升(早高峰),降(午間),升(晚高峰),再降的趨向。
采用多項式擬合建模并選取其中較好的一天進行擬合可視化,所采用的擬合多項式函數(shù):f(x)=p1x6+p2x5+p3x4+p4x3+p5x2+p6x+p7,其中,設(shè)定參數(shù)p1=5.784×10-11;p2=-5.125×10-8;p3=1.737×10-5;p4=-0.002 803;p5=0.211 6;p6=-5.504;p7=57.8。
在時間維度上,采取均方差與確定系數(shù)對各交通流參數(shù)進行擬合評價。
均方差:
(4)
確定系數(shù):
(5)
(1)在速度進行擬合時,選取6次、8次以及12次多項式的擬合結(jié)果進行對比,得出6次和8次的擬合結(jié)果較好,最后基于模型的可視化,選擇6次多項式作為速度的擬合模型,如圖1(a)所示。
(2)在流量進行擬合時,選取6次、8次以及12次多項式進行比較,通過對擬合均方差差、確定系數(shù)(擬合優(yōu)度)的對比,選定6次多項式作為流量的擬合模型,如圖1(b)所示。
(3)在占有率進行擬合時,選取8次、10次以及12次多項式的擬合結(jié)果進行對比,得出10次和12次的擬合結(jié)果較好,最后基于模型的可視化,選定10次多項式作為占有率的擬合模型,如圖1(c)所示。
圖1 時間序列下的各交通流參數(shù)的擬合圖
綜上所述,在時間序列下,將速度、交通流量和時間占有率進行擬合,所得出擬合評價標準的結(jié)果,如表3所示。
表3 擬合評價標準結(jié)果
根據(jù)交通流狀態(tài)理論,將常見的交通流狀態(tài)分為自由流和擁擠流[13]。利用線性的速度-密度關(guān)系[12],演算出得到流量-速度的關(guān)系模型,如圖2所示。由圖2可以看出,當(dāng)車流量從開始歸零不斷增加到未飽和的情況,流量和速度均處于較高的水平。當(dāng)車流量達到C值時,路面狀況處于飽和狀態(tài),車流速度為臨界速度vm,此時路面的利用率最高。當(dāng)車流速度處于vf時,道路的車流量為0,該車流速度稱為自由流速度。
圖2 流量-速度關(guān)系理論圖
首先,利用數(shù)據(jù)data_2中的速度和時間占有率兩個參數(shù),進行聯(lián)合擬合,如圖3所示。
圖3 速度-占有率關(guān)系圖
由圖3可以看出,當(dāng)速度減小時,時間占有率增大,與時間占有率的定義相契合。然后,將數(shù)據(jù)data_2中的流量和時間占有率兩個參數(shù),進行聯(lián)合擬合,如圖4所示。
圖4 流量-占有率關(guān)系圖
由圖4可以看出,當(dāng)自由流狀況時,流量與時間占有率之間存在著線性關(guān)系;當(dāng)擁擠流狀況時,流量變化較大,時間占有率較高。然后,將數(shù)據(jù)data_2中的流量和速度兩個參數(shù),進行聯(lián)合擬合,如圖5所示。
圖5 流量-速度關(guān)系圖
由圖5可以看出,滿足交通流的基本圖理論,且與圖4的流量-速度的關(guān)系模型相符合。
綜上所述,當(dāng)自由流狀況時,交通流相對較少,道路上的車輛車輛可較快速度行駛。根據(jù)流量和占有率關(guān)系圖可以看出,當(dāng)自由流狀況時,占有率和車流量之間表現(xiàn)出線性關(guān)系;當(dāng)擁擠流狀況時,車輛行駛緩慢,車流量降低,時間占有率提升。
由于在訓(xùn)練過程中,BP網(wǎng)絡(luò)的能量函數(shù)無法收斂,訓(xùn)練樣本與網(wǎng)絡(luò)參數(shù)信息不匹配,樣本找不到合適的“著力點”,常常出現(xiàn)過擬合化發(fā)生[14],然而PSO算法與BP網(wǎng)絡(luò)相結(jié)合使用,可以大大提高網(wǎng)絡(luò)學(xué)習(xí)效率,使網(wǎng)絡(luò)快速收斂。因此,采用PSO-BP網(wǎng)絡(luò)算法對數(shù)據(jù)data_3進行預(yù)測并識別與修復(fù),從而得到高質(zhì)量數(shù)據(jù)。該模型實現(xiàn)步驟:①利用交通流理論對部分為空值(NA)的數(shù)據(jù)進行填補,并采用歷史均值法修復(fù)缺失的流量和時間占有率數(shù)據(jù);②訓(xùn)練預(yù)測速度的神經(jīng)網(wǎng)絡(luò)模型,并補全其速度值;③訓(xùn)練預(yù)測流量的神經(jīng)網(wǎng)絡(luò)模型,并采用歷史均值法進行更正和修復(fù)流量數(shù)據(jù);④訓(xùn)練預(yù)測占有率的神經(jīng)網(wǎng)絡(luò)模型,并采用歷史均值法進行更正和修復(fù)占有率數(shù)據(jù);⑤完成速度、流量和占有率的預(yù)測及對缺失數(shù)據(jù)的補全。
基于上述經(jīng)驗,觀察數(shù)據(jù)data_3可知:“NA型”數(shù)據(jù)存在兩類。第一類數(shù)據(jù)中速度、流量和占有率全為NA,而且缺失數(shù)據(jù)連續(xù),以及缺失一天以上的數(shù)據(jù);第二類數(shù)據(jù)是離散的缺失數(shù)據(jù),速度、流量和占有率并不同時為0,而且一般都有取0的參數(shù)。因此,首先對第二類離散的缺失數(shù)據(jù)進行分析,根據(jù)速度、流量和占有率其中存在一個為0,其他兩個也應(yīng)該為0的交通流理論,對存在0值的數(shù)據(jù)中的NA值用0值替代,這樣簡化了處理過程,也符合交通流理論的要求。
對預(yù)測的數(shù)據(jù)data_3進行可視化,繪制了時間分別與速度、流量和占有率3個交通流參數(shù)的變化圖,如圖6所示,可以看出早晚高峰時車流量變大、平均速度變慢和占有率升高,符合上述時間與交通流參數(shù)之間的變化規(guī)律。
圖6 時間-交通流參數(shù)關(guān)系圖
一類“NA型”數(shù)據(jù)的特點是連續(xù)缺失且3個交通流參數(shù)都為NA,首先采用相鄰6天相同時段的有實測數(shù)據(jù)的平均值對數(shù)據(jù)進行修復(fù),然后分別訓(xùn)練預(yù)測速度、流量和占有率的神經(jīng)網(wǎng)絡(luò)模型,從而更正使用歷史均值修復(fù)的數(shù)據(jù),最終完成預(yù)測,即對缺失數(shù)據(jù)的補全與修復(fù)。
同時,該天速度-占有率、流量-占有率、流量-速度的變化關(guān)系圖,如圖7~圖9所示。
圖7 速度-占有率關(guān)系圖
圖8 流量-占有率關(guān)系圖
圖9 流量-速度關(guān)系圖
由圖7可以看出,滿足交通流的基本圖理論,當(dāng)速度下降時,時間占有率上升。由圖8可以看出,滿足交通流的基本圖理論,當(dāng)?shù)竭_自由流和擁擠流的臨界區(qū)之前,占有率和流量之間存在著一定的線性關(guān)系;處于擁擠流狀態(tài)時,車速下降導(dǎo)致車流量降低,進而時間占有率提升。由圖9可以看出,滿足交通流的基本圖理論,當(dāng)路面受到自身通行能力的影響時,車流量處于C值之后,由于車流量逐漸增加,路面車輛處于排隊擁擠狀況,從而產(chǎn)生嚴重互擾情況發(fā)生。因此,擁擠車流不會以vm勻速緩解,而是將以小于vm的平均速度通過路面,故能檢測到的車流量最大值為C。如圖9所示,若除去離群點,速度-流量關(guān)系的變化趨勢基本與上面的理論模型吻合。因此,利用PSO-BP神經(jīng)網(wǎng)絡(luò)在時間序列下的速度、流量和占有率建模,觀察其變化規(guī)律,從而更正使用歷史均值法修復(fù)的數(shù)據(jù)并完成預(yù)測及對缺失數(shù)據(jù)的補全。
最后,采用層次分析法,對優(yōu)化前后的交通流數(shù)據(jù)進行質(zhì)量和完整性的定性分析和定量計算,其評價分析結(jié)果,如表4所示。
從表4可知:通過指標權(quán)重與優(yōu)化前后的權(quán)重相乘之和,所得比重分別為0.358 7和0.954 2,可以看出優(yōu)化后的數(shù)據(jù)比優(yōu)化前的數(shù)據(jù)在質(zhì)量和完整性上得到明顯改善。綜上所述,通過對交通流數(shù)據(jù)質(zhì)量優(yōu)化有著較好的可行性,從而加快大數(shù)據(jù)城市化進程和道路交通檢測與預(yù)警,實現(xiàn)數(shù)據(jù)利用價值最大化。
表4 評價分析結(jié)果
(1)提出了一種改進PSO-BP神經(jīng)網(wǎng)絡(luò)算法,對公路及城市道路中交通流數(shù)據(jù)清洗及交通流變化規(guī)律問題進行研究與分析,為數(shù)據(jù)處理方法優(yōu)化及算法的改進奠定了基礎(chǔ)。
(2)采用“三步法”對數(shù)據(jù)進行分析,首先,通過組合檢驗和閾值檢驗,對異常數(shù)據(jù)進行識別、更正與修補;然后,通過交通流狀態(tài)理論以及線性插值等方法,進行時間序列上交通流參數(shù)之間以及各參數(shù)之間關(guān)系的模型建立;最后,通過改進的PSO-BP神經(jīng)網(wǎng)絡(luò)算法,建立交通流量預(yù)測模型,通過訓(xùn)練完成缺失數(shù)據(jù)的填補,最終得到完整的高質(zhì)量數(shù)據(jù)。