趙遠(yuǎn)洋,薛運(yùn)強(qiáng),徐佳云,劉 銳
(華東交通大學(xué)交通運(yùn)輸與物流學(xué)院,江西 南昌 330013)
近年來(lái),傳感器技術(shù)蓬勃發(fā)展。特別是在交通運(yùn)輸領(lǐng)域,以道路檢測(cè)器為例,其可靠性得到了大幅度提升,并且所采集的數(shù)據(jù)量很大,便于后續(xù)進(jìn)行研究分析。目前,檢測(cè)器數(shù)據(jù)在交通運(yùn)輸領(lǐng)域的應(yīng)用大體上有以下幾類(lèi):一是基于一些算法(如小波分析、神經(jīng)網(wǎng)絡(luò)、聚類(lèi)算法等)進(jìn)行交通預(yù)測(cè)[1];二是關(guān)于道路交通參數(shù)的綜合研究[2];三是通過(guò)分析其自身的檢測(cè)屬性進(jìn)而優(yōu)化檢測(cè)器進(jìn)行物理布局[3?4]。當(dāng)前數(shù)據(jù)挖掘算法應(yīng)用廣泛,而且與傳統(tǒng)的時(shí)間序列算法相結(jié)合更有意義。特別是對(duì)于交叉口,由于其存在4個(gè)方向,各個(gè)方向之間的聯(lián)系十分緊密,僅根據(jù)交通流的時(shí)間分布及空間分布來(lái)研究其交通運(yùn)行特性是不夠全面的。國(guó)內(nèi)有很多關(guān)于交叉口交通運(yùn)行特性的研究,其中按交通流組成成分劃分,一類(lèi)是以機(jī)動(dòng)車(chē)為研究主體,討論交叉口的運(yùn)行指標(biāo)[5];另一類(lèi)是以非機(jī)動(dòng)車(chē)和行人作為研究整體,研究慢行交通對(duì)交叉口通行效率的影響等[6?7]。國(guó)外的一些研究還傾向于說(shuō)明交通參與者的行為對(duì)交通運(yùn)行特性的影響[8?9]。
為了更加全面地對(duì)道路交通運(yùn)行特性進(jìn)行研究分析,本文結(jié)合江西省南昌市青山湖區(qū)某交叉口的交通數(shù)據(jù),按短期、中期、較長(zhǎng)期3個(gè)階段分解交通流量,提出一種組合式交通流量特征研究方法,該方法不是簡(jiǎn)單地將交通流數(shù)據(jù)與某種數(shù)學(xué)算法結(jié)合而得出整體的流量特征,而是利用交通流數(shù)據(jù)本身所具有的狀態(tài)相似性和周期性,采用譜聚類(lèi)算法與快速獨(dú)立成分分析(Fast Independent Component Analysis,簡(jiǎn)稱(chēng)FastICA)算法分階段分析,并比較各進(jìn)口流量特征,最后得出研究結(jié)論。該研究結(jié)論可為交通管理部門(mén)制定更加有效的交通控制措施提供科學(xué)依據(jù)。
短期交通流量分布的隨機(jī)性較大,為了降低其對(duì)結(jié)果準(zhǔn)確度的影響,采用以幾何理論為背景的譜聚類(lèi)算法。在譜聚類(lèi)[10?12]算法中,能夠根據(jù)數(shù)據(jù)集合構(gòu)造出一個(gè)描述各數(shù)據(jù)點(diǎn)相似度的矩陣,并且計(jì)算矩陣的特征向量和特征值,然后選擇恰當(dāng)?shù)奶卣飨蛄繉?duì)不同的數(shù)據(jù)點(diǎn)聚類(lèi)。本文在處理全天流量數(shù)據(jù)時(shí),應(yīng)用譜聚類(lèi)算法,其具體實(shí)現(xiàn)步驟如下[13?16]:
(1)匯總各進(jìn)口道的流量數(shù)據(jù),共分為4個(gè)進(jìn)口道,每個(gè)數(shù)據(jù)單元代表每5min流量數(shù)據(jù),最終制作成288×4矩陣;
(2)先后對(duì)南北進(jìn)向、東西進(jìn)向分別利用K近鄰(K?Nearest Neighbors,簡(jiǎn)稱(chēng)KNN)方法將空間數(shù)據(jù)集轉(zhuǎn)化為K近鄰網(wǎng)絡(luò)(即構(gòu)建樣本的相似矩陣S);
(3)根據(jù)相似矩陣S構(gòu)建鄰接矩陣W和度矩陣D;
(4)計(jì)算拉普拉斯矩陣:
(5)構(gòu)造標(biāo)準(zhǔn)化后的拉普拉斯矩陣:
(6)計(jì)算Lsym降序的前K個(gè)特征值所各自對(duì)應(yīng)的特征向量f,其中K是期望的簇?cái)?shù);
(7)將特征向量f組成的矩陣按行進(jìn)行標(biāo)準(zhǔn)化,形成特征矩陣F;
(8)將F中的每一行作為一個(gè)樣本,應(yīng)用K均值(K?Means)聚類(lèi)方法聚類(lèi)。
交通流量變化在較長(zhǎng)時(shí)間內(nèi)會(huì)呈現(xiàn)出一定的規(guī)律性,而信號(hào)波形的變化往往呈一定的周期性,將交叉口交通流量變化與信號(hào)變化相類(lèi)比,發(fā)現(xiàn)它們?cè)跁r(shí)間上具有一定的相似性,由此為了減少無(wú)關(guān)因素對(duì)較長(zhǎng)期流量數(shù)據(jù)變化特征的影響,引入FastI?CA算法。FastICA算法是獨(dú)立成分分析(Indepen?dent Component Analysis,簡(jiǎn)稱(chēng)ICA)算法中適用范圍廣泛、分離準(zhǔn)確度較高的算法,它是基于定點(diǎn)遞推算法得到的。將其運(yùn)用至本文中,核心步驟如下。
定義信號(hào)源S(t)、混合矩陣A、觀察信號(hào)X(t)、解混矩陣WT。其中ICA 關(guān)系模型為[17?18]:
令y=WTX(t),則y=WTAS(t),由此可知y是S(t)的線(xiàn)性組合。當(dāng)WT接近A?1時(shí):
這樣將問(wèn)題轉(zhuǎn)化為最大化y的非高斯性進(jìn)而求解W。具體的算法實(shí)現(xiàn)步驟見(jiàn)圖1[19?21]。其中,數(shù)據(jù)集是依據(jù)1周的流量數(shù)據(jù)建立大小為2016×4的矩陣。
圖1 FastICA算法流程圖
算例交叉口位于江西省南昌市青山湖區(qū)(見(jiàn)圖2),其中東進(jìn)口與八一橋直接相連,滿(mǎn)足往來(lái)車(chē)輛及行人的過(guò)江交通需求;西進(jìn)口與廬山南大道地鐵站(地鐵一號(hào)線(xiàn)的停靠站之一)相連,南進(jìn)口方向可直通紅谷灘新區(qū),北進(jìn)口方向可達(dá)英雄大橋。此交叉口交通地位十分重要。
圖2 交叉口平面圖
選取該交叉口現(xiàn)有的9個(gè)車(chē)輛檢測(cè)器的檢測(cè)數(shù)據(jù)作為研究對(duì)象,時(shí)間為2017年10月9日—2017年10月15日(5個(gè)工作日加2個(gè)休息日),數(shù)據(jù)采樣間隔為5min。為了方便研究各進(jìn)口道的交通運(yùn)行特性,將數(shù)據(jù)劃分為4個(gè)單元(東、南、西、北)并經(jīng)匯總處理后,最終得到8 064個(gè)研究數(shù)據(jù)。根據(jù)交通量的時(shí)間分布特點(diǎn)分別選取1h,1d,1周的數(shù)據(jù)(見(jiàn)圖3)。
圖3 檢測(cè)器數(shù)據(jù)劃分圖
(1)關(guān)于短時(shí)交通流量的研究,分別選取2017年10月10日的早高峰小時(shí)、平峰小時(shí)、晚高峰小時(shí)的流量數(shù)據(jù),得到了流量的方向分布(見(jiàn)圖4)和對(duì)應(yīng)的變化細(xì)節(jié)(見(jiàn)圖5)。從圖4看出,東進(jìn)口的交通量不論是在高峰期還是在平峰期均維持在較高的水平,其他3個(gè)方向的流量占比較小。由此可知,在1d中的3個(gè)特殊小時(shí)時(shí)段內(nèi),八一橋?qū)υ摻徊婵诮煌ㄟ\(yùn)行狀態(tài)的影響程度基本相同。從圖5可知3個(gè)特殊時(shí)段各進(jìn)口的流量變化情況,西進(jìn)口的流量變化幅度比其他3個(gè)進(jìn)向大,雖然東進(jìn)口的流量一直居高不下,但流量的變化幅度較小。南北進(jìn)口的流量變化幅度不大。以上的分析是基于3個(gè)特殊小時(shí)流量數(shù)據(jù),屬于短期研究階段。
圖4 小時(shí)流量方向分布圖
圖5 小時(shí)流量變化箱線(xiàn)圖
(2)為了更好地研究對(duì)向交通流量實(shí)時(shí)變化情況,延長(zhǎng)檢測(cè)器數(shù)據(jù)的觀測(cè)時(shí)間,選取2017年10月10日全天的各進(jìn)口每5min流量數(shù)據(jù),并進(jìn)行歸一化處理,然后分別對(duì)東、西進(jìn)口和南、北進(jìn)口應(yīng)用譜聚類(lèi)分析法分析,最終得出了數(shù)據(jù)集的相似度圖(見(jiàn)圖6)。從圖6(a)和圖6(b)中可以看出,每個(gè)網(wǎng)絡(luò)均可以被虛線(xiàn)較為清晰地劃分為兩個(gè)子圖。按照對(duì)交叉口流量分析的基本主觀判斷,分類(lèi)數(shù)(即K值)應(yīng)該至少取2,存在高峰和平峰兩個(gè)基本特征流量類(lèi)。這里也分別計(jì)算出了其他聚類(lèi)數(shù)所對(duì)應(yīng)的輪廓值(見(jiàn)表1)。但發(fā)現(xiàn)不論是東、西進(jìn)口,還是南、北進(jìn)口流量聚類(lèi)的輪廓圖,K=2都比其他聚類(lèi)結(jié)果要好(即K=2比其他聚類(lèi)數(shù)目所得出的結(jié)果準(zhǔn)確度更高)。這說(shuō)明該交叉口高峰期與平峰期的流量特征存在較大差異。根據(jù)聚類(lèi)數(shù)為2時(shí)交通量聚類(lèi)分析(見(jiàn)圖7)及輪廓圖(見(jiàn)圖8),對(duì)各類(lèi)進(jìn)行研究。
圖6 相似度圖
表1 對(duì)向交通量聚類(lèi)效果輪廓值表
圖7 交通量聚類(lèi)分析(K=2)
圖8 交通量聚類(lèi)分析輪廓圖(K=2)
通過(guò)表1、圖7(a)和圖7(b)可知,它們各自聚類(lèi)中心連線(xiàn)的斜率基本趨近于1,由于聚類(lèi)數(shù)據(jù)是取同一時(shí)刻相同時(shí)間長(zhǎng)度(5min)各進(jìn)口道的交通量,反映了南、北兩個(gè)方向車(chē)輛到達(dá)的相對(duì)情況(東、西方向同理)。從南、北兩個(gè)方向聚類(lèi)流量點(diǎn)的分布可以看出,車(chē)輛在南進(jìn)口到達(dá)數(shù)比北進(jìn)口多。在A聚類(lèi)團(tuán)與B聚類(lèi)團(tuán)分界處(圖中虛線(xiàn))流量點(diǎn)排列較為規(guī)整,即兩個(gè)方向相似的車(chē)輛到達(dá)情況比較多。在圖的左下角,存在分布集中的流量點(diǎn),表明兩個(gè)進(jìn)口道在觀測(cè)日中存在一段時(shí)間車(chē)輛到達(dá)率很低的情況。從東、西兩個(gè)方向聚類(lèi)團(tuán)流量點(diǎn)的分布可以看出,由于存在東進(jìn)口車(chē)流量的客觀影響,使聚類(lèi)中心連線(xiàn)偏下,然而分界線(xiàn)周?chē)髁奎c(diǎn)分布稀疏,即兩個(gè)方向車(chē)輛到達(dá)數(shù)差異較大。雖然東進(jìn)口車(chē)輛到達(dá)數(shù)要大于西進(jìn)口,但西進(jìn)口車(chē)輛到達(dá)隨機(jī)性更大,最終造成D聚類(lèi)團(tuán)縱向離散程度高。
(3)針對(duì)交通流量的時(shí)間變化情況,為挖掘各進(jìn)向交通流量影響規(guī)律,選取2017年10月9日—2017年10月15日1周的流量數(shù)據(jù),進(jìn)行方向分類(lèi)得到圖9。根據(jù)圖9中數(shù)據(jù)趨勢(shì)的變化,各進(jìn)向流量分布特征和日變化特征相似,平均流量曲面基本上呈現(xiàn)出了該時(shí)間尺度下流量的分布情況。東進(jìn)口仍然是這個(gè)交叉口主要的流量輸入方向。西進(jìn)口短時(shí)流量變化幅度減弱,與其他進(jìn)口間的流量相比要更穩(wěn)定。對(duì)各進(jìn)口流量利用FastICA算法進(jìn)行降噪處理,分別得到處理前(見(jiàn)圖10(a))及處理后(見(jiàn)圖10(b))變化規(guī)律。在相同的描述范圍內(nèi),各向流量的變化特征更為明顯,存在一定的變化規(guī)律。比如,北進(jìn)口流量變化趨勢(shì)明顯,而其他3個(gè)方向所呈現(xiàn)的變化趨勢(shì)比較模糊,并且西進(jìn)口流量變化情況與短期流量變化情況相似,短期流量較大的東進(jìn)口呈現(xiàn)出較西進(jìn)口更為穩(wěn)定的流量分布。
圖9 交叉口各進(jìn)口5min交通流量統(tǒng)計(jì)圖(2017年10月9日—2017年10月15日)
圖10 1周內(nèi)交叉口各進(jìn)向流量變化圖
綜合上述分析,可得出如下結(jié)論:從宏觀角度看,本文所提方法融入了信號(hào)降噪算法,濃縮并提煉了數(shù)據(jù)的周期性特征,可以較好地把握交叉口各進(jìn)口流量的長(zhǎng)期變化趨勢(shì);從微觀角度看,該方法應(yīng)用譜聚類(lèi)算法,通過(guò)分析數(shù)據(jù)的幾何相似性特征,能夠避免短期流量突變而造成的結(jié)果失真,對(duì)保證研究結(jié)果準(zhǔn)確性具有十分重要的意義。算例的分析過(guò)程表明,該方法在理論計(jì)算上實(shí)現(xiàn)了多個(gè)時(shí)間角度的參照對(duì)比,使得結(jié)果更具代表性。最后,本文所提出的方法在理論上能夠得出交叉口交通運(yùn)行特征,為后續(xù)提高交叉口通行效率的研究奠定了理論基礎(chǔ)。由于該方法應(yīng)用的數(shù)據(jù)集較小,造成時(shí)間長(zhǎng)度的上限是1周,該時(shí)間單位對(duì)交叉口長(zhǎng)期交通運(yùn)行特性的把握還不夠全面,所以擴(kuò)大數(shù)據(jù)集和時(shí)間長(zhǎng)度是下一步研究的重點(diǎn)。