鄔群勇,胡振華,張 紅
(1.福州大學(xué)空間數(shù)據(jù)挖掘與信息共享教育部重點(diǎn)實(shí)驗(yàn)室,福州350108;2.衛(wèi)星空間信息技術(shù)綜合應(yīng)用國家地方聯(lián)合工程研究中心,福州350108;3.數(shù)字中國研究院(福建),福州350003)
隨著經(jīng)濟(jì)社會的快速發(fā)展,機(jī)動車的擁有量急劇增加,交通擁堵已經(jīng)成為大中城市一個(gè)亟待解決的問題[1].交通狀態(tài)的精細(xì)劃分和識別是改善交通擁堵的重要前提,對城市交通管理具有重要意義.近年來,隨著定位技術(shù)和無線通信的發(fā)展,裝載定位設(shè)備的浮動車可以實(shí)時(shí)產(chǎn)生城市交通流信息的軌跡數(shù)據(jù),這些數(shù)據(jù)覆蓋廣、成本低,被廣泛地用于城市交通狀態(tài)識別[2-4].
在單一數(shù)據(jù)源研究的基礎(chǔ)上,韋偉等[5]運(yùn)用時(shí)空Moran 散點(diǎn)圖結(jié)合層次聚類方法分析各路段交通狀態(tài)的時(shí)空特性;鄔群勇等[6]結(jié)合出租車軌跡數(shù)據(jù),提出了基于擁堵指標(biāo)的異常判別方法.隨著大數(shù)據(jù)時(shí)代的到來,基于多源大數(shù)據(jù)融合挖掘?qū)⒔鉀Q目前單一數(shù)據(jù)源覆蓋范圍和數(shù)據(jù)質(zhì)量不足的問題,大大提高交通運(yùn)行評估的精度和可靠性[7-8].出租車和公交車數(shù)據(jù)作為兩種不同的數(shù)據(jù)源,數(shù)據(jù)互補(bǔ)且獲取容易,為新時(shí)期城市交通狀態(tài)識別提供了可靠的數(shù)據(jù)基礎(chǔ).
以往對道路交通狀態(tài)的劃分主要基于整條路段[9]或者定長劃分路段[10].路段不同局部位置的交通狀態(tài)存在一定的差異,基于整條路段的研究將整條路段視為一種交通狀態(tài),沒有進(jìn)行劃分,難以區(qū)分路段各局部位置的交通狀態(tài).基于定長劃分路段的研究通過對路段進(jìn)行等間隔劃分,在一定程度上實(shí)現(xiàn)了交通狀態(tài)劃分,但存在劃分粒度過粗或者過細(xì)的可能,沒有真正將路面交通狀態(tài)相同、相近的段合在一起,難以靈活、精細(xì)地反映道路交通狀況的實(shí)際區(qū)別.為了實(shí)現(xiàn)交通狀態(tài)的合理劃分,付子圣[11]等研究了基于單一GPS軌跡的二次聚類的方法.
本文利用出租車和公交車軌跡數(shù)據(jù),研究一種基于多源軌跡數(shù)據(jù)的城市交通狀態(tài)精細(xì)劃分和識別方法,通過對道路交通狀態(tài)的精細(xì)劃分實(shí)現(xiàn)精細(xì)識別和分析,以廈門市公交和出租車軌跡數(shù)據(jù)為例進(jìn)行驗(yàn)證和分析.
研究流程如圖1所示.首先,對研究數(shù)據(jù)進(jìn)行處理;接著,對各路段上的軌跡點(diǎn)歸一化后的速度值和空間位置值分別進(jìn)行聚類;然后,對類簇進(jìn)行二次處理,得到各路段交通狀態(tài)精細(xì)劃分的分割點(diǎn)以劃分各交通狀態(tài)范圍;最后,分別統(tǒng)計(jì)各交通狀態(tài)包括的軌跡點(diǎn)速度歸一化值的均值,依據(jù)劃分的4個(gè)交通流狀態(tài)層級,精細(xì)識別路段局部位置的交通狀態(tài).
圖1 基于多源軌跡數(shù)據(jù)的城市交通狀態(tài)精細(xì)劃分和識別流程Fig.1 Urban traffic status fine division and recognition process based on multi-source trajectory data
本文所用數(shù)據(jù)包括廈門市出租車和公交車軌跡數(shù)據(jù),以及OpenStreetMap 的路網(wǎng)數(shù)據(jù).軌跡數(shù)據(jù)主要包括車輛編號、時(shí)間、位置、速度、出租車載客狀態(tài)、公交車所屬線路等基本信息,路網(wǎng)數(shù)據(jù)主要包括路段編號、路段長度等基本信息.以軌跡點(diǎn)的速度值和空間位置值為屬性數(shù)據(jù)對軌跡點(diǎn)進(jìn)行聚類,需要先計(jì)算每個(gè)軌跡點(diǎn)的空間位置值,由軌跡點(diǎn)距離相應(yīng)路段起點(diǎn)的距離表示,單位為m.
軌跡點(diǎn)的空間位置值為坐標(biāo)值,能夠達(dá)到成百上千,與速度值單位和量綱都不一樣.直接使用這兩種參數(shù)會對聚類的結(jié)果產(chǎn)生較大的影響.將各個(gè)軌跡點(diǎn)的速度值及其空間位置值進(jìn)行歸一化處理,轉(zhuǎn)化為無量綱的純數(shù)值,使得它們能夠用于聚類和融合.歸一化處理的計(jì)算公式為
式中:gbi、gti分別表示公交車、出租車軌跡點(diǎn)i速度歸一化后的值;vbi、vti分別表示公交車、出租車軌跡點(diǎn)i的實(shí)際速度值;分別表示在一個(gè)時(shí)間段Δt內(nèi)的所有公交軌跡點(diǎn)中的最大、最小車速值和出租軌跡點(diǎn)中的最大、最小車速值;xi表示軌跡點(diǎn)i在路段上ri的位置;lri表示路段ri的長度;lmax、lmin分別表示路網(wǎng)中各路段的最大和最小長度.
為盡可能對路網(wǎng)上不同路段的局部位置的交通狀態(tài)進(jìn)行分析,通過對路段上的交通狀態(tài)進(jìn)行動態(tài)精細(xì)劃分實(shí)現(xiàn)精細(xì)分析.“動態(tài)”主要指:①同一時(shí)間不同路段的交通狀態(tài)劃分結(jié)果不同,②同一路段的交通狀態(tài)在不同時(shí)間段劃分結(jié)果不同.交通狀態(tài)動態(tài)精細(xì)劃分主要包括相似軌跡點(diǎn)聚類、類簇二次處理和各交通狀態(tài)速度值計(jì)算等3個(gè)步驟.
1.2.1 相似軌跡點(diǎn)聚類
以5 min為時(shí)間間隔,在每條路段上進(jìn)行軌跡點(diǎn)聚類,通過軌跡點(diǎn)聚類得到路段不同位置的軌跡點(diǎn)簇.相同簇內(nèi)軌跡點(diǎn)的空間位置鄰近,且速度相近;不同簇的軌跡點(diǎn)空間位置相距較遠(yuǎn),且速度具有一定的差異.不同簇可表征路段不同位置的交通狀態(tài),進(jìn)而實(shí)現(xiàn)交通狀態(tài)的劃分.
設(shè)城市中共有q條路段{r1,r2,r3,…,}rq,一條路段由m個(gè)軌跡點(diǎn){p1,p2,p3,…,}pm組成,每個(gè)軌跡點(diǎn)的聚類特征參數(shù)為歸一化后的速度值和空間位置值,構(gòu)成的樣本矩陣P為
式中:pi,rq表示第rq路段的第i個(gè)軌跡點(diǎn).
將樣本矩陣P帶入聚類過程中,具體步驟如下:
Step 1輸入數(shù)據(jù),選取樣本矩陣P中的一行作為數(shù)據(jù)集,每行代表一條路段上的所有軌跡點(diǎn).
Step 2從數(shù)據(jù)集中隨機(jī)選取一個(gè)軌跡數(shù)據(jù)作為初始聚類中心c1.
Step 3計(jì)算每個(gè)軌跡點(diǎn)與當(dāng)前聚類中心的最短距離di,j,計(jì)算每個(gè)軌跡點(diǎn)被選為下一個(gè)聚類中心的概率,依據(jù)概率選擇新的聚類中心.最短距離采用歐式距離,計(jì)算公式為
式中:di,j表示軌跡點(diǎn)i和聚類中心j之間的距離;gi和gj分別表示表示軌跡點(diǎn)i和聚類中心j的速度歸一化值;xi和xj分別表示軌跡點(diǎn)i和聚類中心j的空間位置歸一化值.
Step 4重復(fù)Step 3直到選出k個(gè)聚類中心.
Step 6設(shè)置不同的k值,重復(fù)Step 1~Step 5,得到不同聚類結(jié)果的輪廓系數(shù),選取輪廓系數(shù)最大時(shí)的k值作為最終的聚類中心數(shù).
Step 7遍歷矩陣P中所有行,重復(fù)Step 1~Step 6,完成城市中所有路段上的軌跡點(diǎn)的聚類并輸出.
1.2.2 相鄰類簇的二次處理
設(shè)一條路段上的軌跡點(diǎn)經(jīng)過初步聚類得到n個(gè)類簇{ }Cy1,Cy2,Cy3,…,Cyn,每相鄰兩個(gè)類簇構(gòu)成相鄰類簇集Cx={(Cy1,Cy2),(Cy2,Cy3),…,(Cy(n-1),Cyn)},任意相鄰類簇(Cy(n-1),Cyn)之間可能存在如圖2所示的3種分布情況.部分重疊和完全覆蓋情形中的相鄰類簇存在交叉使得類簇分割點(diǎn)無法提取,進(jìn)而無法以類簇分割點(diǎn)精細(xì)劃分路段上的交通狀態(tài).針對該問題,通過對類簇進(jìn)行拆分和融合,得到各個(gè)分離的類簇,進(jìn)而提取出類簇的分割點(diǎn)進(jìn)行路段上交通狀態(tài)精細(xì)劃分.
以任意相鄰類簇(Cy(n-1),Cyn)的臨界點(diǎn)為初始分割點(diǎn)將(Cy(n-1),Cyn)拆分為i個(gè)類簇,2 ≤i≤3,拆分后的類簇集C={C1,C2} 或C={C1,C2,C3} ,如圖3所示,構(gòu)造最終的結(jié)果集Cf如下.
圖2 相鄰類簇位置關(guān)系示意圖Fig.2 Schematic diagram of location relationship of adjacent clusters
(1)統(tǒng)計(jì)各類Ci包含的軌跡點(diǎn)數(shù)Ni.
(2)從C1開始處理,判斷N1>5?路段上的軌跡點(diǎn)數(shù)達(dá)到一定的數(shù)目才能有效進(jìn)行交通狀態(tài)評估,文獻(xiàn)[9]取3個(gè)以上,為提高準(zhǔn)確度并結(jié)合實(shí)驗(yàn)效果,本文取5 個(gè).若是,則將C1從結(jié)果集C移至結(jié)果集Cf;否則,將C1與相鄰的下一個(gè)類C2融合,即C1=C1+C2,N1=N1+N2,更新類簇集C,令C中各元素Ci編號始終從1開始.
(8)五河尾閭區(qū)水系復(fù)雜,地勢平坦,泥沙淤塞河道、水流不暢現(xiàn)象依然存在。除信江尾閭貊皮嶺分洪道已實(shí)施,其他已納入規(guī)劃的尾閭河道和湖區(qū)洪道整治一直未進(jìn)行更深的研究,五河尾閭疏浚工程也于2005年后停止實(shí)施。
(3)依次遍歷類簇集C直至C中最后一個(gè)類C1,更新Cyn=C1,結(jié)束(Cy(n-1),Cyn)的二次處理.
(4)遍歷相鄰類簇集Cx={(Cy1,Cy2),(Cy2,Cy3),…,(Cy(n-1),Cyn)},完成所有類簇的二次處理,得到最終結(jié)果集Cf ={Cf1,Cf2,…,Cfk} ,k≤n.
(5)以Cf ={Cf1,Cf2,…,Cfk} 中任意兩相鄰類中前一個(gè)類的右邊界與后一個(gè)類的左邊界的中間點(diǎn)作為分割點(diǎn)對路段交通狀態(tài)進(jìn)行精細(xì)劃分.
圖3 相鄰類簇處理示意圖Fig.3 Schematic diagram of adjacent cluster processing
1.2.3 交通狀態(tài)速度計(jì)算
采用特征級融合的策略對路段上的各交通狀態(tài)ri包含的公交車和出租車軌跡點(diǎn)速度歸一化值gbi、gti進(jìn)行融合,利用兩者的均值Gri代表交通狀態(tài)ri的速度,公式為
式中:nb、nt分別為交通狀態(tài)ri上公交車、出租車的軌跡點(diǎn)數(shù)目.
結(jié)合《交通工程學(xué)》《城市道路交通管理評價(jià)指標(biāo)體系》和文獻(xiàn)[12],將交通狀態(tài)分為暢通、一般、擁堵、嚴(yán)重?fù)矶? 個(gè)層級,依次對應(yīng)自由流、穩(wěn)定流、擁擠流及堵塞流.
設(shè)樣本空間中共存在m個(gè)早高峰軌跡點(diǎn){p1,p2,p3,…,pm} ,任意軌跡點(diǎn)pi以速度歸一化值作為唯一特征,記為pi1.本文通過模糊聚類對聚類中心vk和隸屬度矩陣U進(jìn)行迭代,直至目標(biāo)函數(shù)最小,以此將樣本分為4個(gè)類,即C=4,分別對應(yīng)4個(gè)城市交通狀態(tài)層級.目標(biāo)函數(shù)為
式中:uk,i介于0~1,為第i個(gè)軌跡點(diǎn)屬于第k類的隸屬度;V是聚類中心矩陣;l為加權(quán)指數(shù),用于調(diào)整聚類的模糊性,一般取2;di,k是第i個(gè)軌跡點(diǎn)與第k個(gè)聚類中心的歐氏距離.
實(shí)驗(yàn)采用廈門島2015年6月15日(星期一)早高峰(07:00-09:00)的公交車和出租車軌跡數(shù)據(jù),經(jīng)過預(yù)處理后軌跡數(shù)據(jù)集達(dá)到511 401條,其中公交數(shù)據(jù)147 331 條,出租數(shù)據(jù)364 070 條.以5 min 為統(tǒng)計(jì)間隔劃分為24 個(gè)時(shí)間段.以鎮(zhèn)海路口和同安路口交界處的6 條路段作為實(shí)驗(yàn)路段,依次編號,如圖4所示.實(shí)驗(yàn)分別給出了以路段1為例的單一路段和路口多路段的交通狀態(tài)精細(xì)分析.
路段1 上的軌跡點(diǎn)經(jīng)聚類分為4 類,如圖5(a)所示,類Ⅰ和類Ⅱ完全分離,類Ⅱ被類Ⅲ完全覆蓋,類Ⅱ與類Ⅳ部分重疊.利用類簇二次處理方法,將4 個(gè)類簇融合成為3 個(gè),如圖5(b)所示,表明該路段上的交通狀態(tài)被精細(xì)劃分成3種,分別對應(yīng)路段上不同范圍內(nèi)的交通流速度情況.類Ⅰ的總體速度相對最高,類Ⅱ區(qū)間內(nèi)既有高速車流也有低速車流,總體速度值處于中間,類Ⅲ總體速度相對最低.該方法能夠較好地對路段上交通狀態(tài)進(jìn)行精細(xì)劃分,進(jìn)而實(shí)現(xiàn)路段不同位置的交通狀態(tài)的識別.
圖4 鎮(zhèn)海路和同安路路口路段分布Fig.4 Distribution of road sections of Zhenhai Road and Tong'an Road
圖5 相似軌跡點(diǎn)聚類及二次處理結(jié)果Fig.5 Results of similar trajectory point clustering and secondary processing
計(jì)算得出早高峰期間每5 min 交通狀態(tài)的局部演化情況,由圖6可知:
(1)路段1 在早高峰期各個(gè)位置基本完全處于擁堵或者嚴(yán)重?fù)矶聽顟B(tài).經(jīng)查詢,該路段附近分布有兩家大醫(yī)院、兩所中學(xué)和兩所小學(xué),人流和車流都非常密集,是廈門市擁堵最嚴(yán)重的幾個(gè)路段之一.
(2)在07:00-08:00期間,路段的后半段的擁堵更嚴(yán)重;08:00-09:00期間,嚴(yán)重?fù)矶赂嗟募性诼范蔚那鞍攵?結(jié)合POI 分布發(fā)現(xiàn),路段的后半段緊鄰廈門群惠小學(xué)和鎮(zhèn)海菜市場,07:00-08:00 正是學(xué)生上學(xué)及菜市場最繁忙的時(shí)間段,集中大量人流和車流,導(dǎo)致后半段的擁堵極為嚴(yán)重;隨著時(shí)間的推移,08:00 以后,學(xué)生全部到校,以及菜市場人流的逐漸下降,路段后半段的擁堵情況有所緩解;隨著路段前半段緊鄰的銀行、廈門市公安局出入境部門開始上班,08:00以后,路段的前半段的擁堵開始加重.
鎮(zhèn)海路和同安路路口路段早高峰交通狀態(tài)如圖7所示,由圖7可知:
(1)從擁堵的空間分布上來看,路段2~6 擁堵情況較為嚴(yán)重,路段3基本較為暢通.路段2和4的后半段擁堵相對于前半段更為嚴(yán)重,路段5的前半段擁堵會較為嚴(yán)重,而路段6 基本處于擁堵狀態(tài).結(jié)合POI發(fā)現(xiàn),路段2后半段分布的廈門市第一醫(yī)院,路段4后半段有地鐵站、大同中學(xué)及中山公園,而路段5 與路段6 夾著廈門實(shí)驗(yàn)小學(xué).這些POI 的分布對路段上的局部交通狀態(tài)具有較大的影響.
圖6 早高峰路段1 交通狀態(tài)圖Fig.6 Early peak traffic status map of section 1
(2)從擁堵的時(shí)間分布來看,基本集中在08:00左右,整體上隨著時(shí)間接近08:00 擁堵開始加重,08:00過后,隨著早高峰的逐漸結(jié)束,擁堵開始相對緩解.
通過對出租和公交軌跡數(shù)據(jù)進(jìn)行融合挖掘,提出一種全新的城市交通狀態(tài)精細(xì)劃分和識別方法,對道路上交通狀態(tài)進(jìn)行了動態(tài)精細(xì)劃分,進(jìn)而實(shí)現(xiàn)城市交通狀態(tài)的精細(xì)識別和分析.研究結(jié)論為:針對當(dāng)前單一FCD 數(shù)據(jù)質(zhì)量和數(shù)據(jù)量不足的問題,本文基于歸一化處理,在特征級建立了多源數(shù)據(jù)融合方法,實(shí)現(xiàn)出租和公交軌跡數(shù)據(jù)融合挖掘,有效地?cái)U(kuò)充了數(shù)據(jù)量,實(shí)現(xiàn)數(shù)據(jù)互補(bǔ),提高了結(jié)果的可信度;相比于傳統(tǒng)基于路段或者定長劃分路段的城市交通狀態(tài)識別方法,本文通過構(gòu)建相似性聚類算法,并結(jié)合類簇二次處理,對城市道路上交通狀態(tài)進(jìn)行了動態(tài)精細(xì)劃分,進(jìn)而實(shí)現(xiàn)了道路局部位置交通狀態(tài)的精細(xì)識別和分析,有效揭示了道路上交通狀態(tài)的演化情況,為城市交通擁堵改善和治理提供決策支持.
圖7 鎮(zhèn)海路和同安路路口路段早高峰交通狀態(tài)圖Fig.7 Early peak traffic status map of Zhenhai Road and Tong'an Road intersection
本文對城市道路交通狀態(tài)進(jìn)行了精細(xì)劃分和識別,但尚未對路口處進(jìn)行詳細(xì)研究.后續(xù)的研究將著重于交叉路口處的擁堵演化分析.