摘要:高速公路信息化建設(shè)日益完善,為了能夠更加詳盡地掌握高速公路的交通狀態(tài),以濟青高速為研究對象,通過挖掘門架數(shù)據(jù),設(shè)計了k均值聚類算法和基于密度的噪聲應(yīng)用空間聚類算法相結(jié)合的兩階段聚類方法來識別駛?cè)敕?wù)區(qū)車輛和異常行駛的車輛,再結(jié)合各車型流量占比加權(quán)的交通狀態(tài)指數(shù),從時間和空間維度分析高速公路路段交通狀態(tài)。研究結(jié)果表明,兩階段聚類算法有著很好的識別效果,通過交通狀態(tài)指標(biāo)發(fā)現(xiàn)在7:00—20:00時段高速公路存在3個交通狀態(tài)較擁堵的時段,精確地識別出高速公路中交通狀態(tài)較擁堵的路段,并且發(fā)現(xiàn)路段的大車混入率與交通擁堵程度呈現(xiàn)密切的正相關(guān)的趨勢,最后依據(jù)交通狀態(tài)指數(shù)將濟青高速路段交通狀態(tài)劃分為4個不同的等級,為交通管理部門提供了路段交通狀態(tài)評估的技術(shù)支持。
關(guān)鍵詞:門架數(shù)據(jù);交通狀態(tài);聚類算法;交通狀態(tài)指數(shù);大車混入率
中圖分類號:U491文獻標(biāo)志碼:A文章編號:1002-4026(2023)03-0100-08
Abstract∶To thoroughly investigate the traffic state of highways, Jiqing Highway was selected as the study case. By mining the gantry data, a two-stage clustering algorithm combining k-means and density-based special clustering of applications with noise (DBSCAN) algorithms were proposed. The method was used to identify vehicles entering the service area and driving abnormally. Subsequently, the filtered vehicle records were extracted to realize a traffic state index weighted by the vehicle type to analyze the traffic state of the highway in terms of spatiotemporal dimensions. Results indicate that the two-stage clustering algorithm performs very well in the identification. The traffic state index indicated three periods when the highway is defined as congested during 7:00—20:00. Furthermore, it accurately identifies the congested sections of the highway. Moreover, it shows out that the mixed rate of large vehicles and the degree of traffic congestion in a section have a close positive correlation. Finally, according to the evaluation index, the traffic state of the Jiqing Highway is divided into four levels, which provides technical support for the traffic authorities to evaluate and manage the highway sections.
Key words∶gantry data; traffic condition; clustering algorithm; traffic state index; mixed rate of large vehicles
截至2021年,我國高速公路里程數(shù)已經(jīng)達到16.91 萬公里,但是隨著我國汽車保有量的增加,高速公路仍然會出現(xiàn)擁堵問題。為更好地評估高速公路運行狀態(tài),門架系統(tǒng)應(yīng)運而生。目前,全國已建成了2.66 萬套門架系統(tǒng),記錄了海量的行車感知數(shù)據(jù)。隨著數(shù)據(jù)挖掘技術(shù)逐漸成熟,通過智能化手段從海量的門架數(shù)據(jù)中挖掘出復(fù)雜的交通流變化態(tài)勢是當(dāng)前交通研究的熱點與難點。在建成交通強國、智慧高速等背景下,研究高速公路路段時空維度的交通運行狀態(tài),對引導(dǎo)出行者出行、提高路段通行效率具有重要意義。
由于門架系統(tǒng)的建設(shè)周期較長,已有的高速公路交通管理研究對于大規(guī)模的門架數(shù)據(jù)仍少有涉及,劉群等[1]利用門架數(shù)據(jù)進行了交通流預(yù)測的研究;邢麗峰等[2]利用門架數(shù)據(jù)進行了高速公路各類車輛的交通量轉(zhuǎn)換的研究;曹波[3]在門架數(shù)據(jù)的基礎(chǔ)上提出區(qū)間擁堵指數(shù),用于估計路段交通狀態(tài)。在道路運行狀態(tài)估計方面,現(xiàn)階段采用的數(shù)據(jù)大致分為固定式交通檢測技術(shù)采集的數(shù)據(jù)(感應(yīng)線圈、微波檢測)[4-5],移動式交通檢測技術(shù)采集的數(shù)據(jù)(全球定位技術(shù)(global positioning system,GPS)[6]、手機信令采集技術(shù)[7]),以及收費站數(shù)據(jù)[8],無人機[9-10]、監(jiān)控視頻[11]檢測技術(shù)采集的數(shù)據(jù)。而門架數(shù)據(jù)相較這幾類數(shù)據(jù)具有如下優(yōu)勢:固定式交通檢測設(shè)備往往只在特定的路段布置,無法大規(guī)模地應(yīng)用,而門架設(shè)備布置規(guī)模非常之廣;移動式交通檢測技術(shù)往往會受到周圍環(huán)境的影響導(dǎo)致精確度大大下降,而門架數(shù)據(jù)精確度較高,幾乎不存在數(shù)據(jù)大批量缺失的現(xiàn)象;利用收費站數(shù)據(jù)進行交通狀態(tài)估計時,由于數(shù)據(jù)中僅僅記錄車輛進入和離開高速路網(wǎng)的數(shù)據(jù),所以數(shù)據(jù)處理過程相當(dāng)復(fù)雜,而門架系統(tǒng)記錄車輛經(jīng)過每一個路網(wǎng)路段的數(shù)據(jù),可以更好地檢測車輛在每一個路段的行駛狀態(tài),計算過程相對容易;無人機、監(jiān)控視頻數(shù)據(jù)雖然精度高、靈活性強,但是成本高、不利于推廣應(yīng)用,而門架數(shù)據(jù)獲取容易且維護成本也較低。綜上所述,門架數(shù)據(jù)具有應(yīng)用范圍廣、精度高、計算方便、成本低的特點。由于高速公路兩兩門架之間設(shè)有服務(wù)區(qū),在計算駛?cè)敕?wù)區(qū)的車輛平均行程速度時會偏低,根據(jù)梁奇[12]統(tǒng)計,高速公路服務(wù)區(qū)客車、貨車駛?cè)肼示?0%,但現(xiàn)有研究方法對此問題通常不予考慮,造成結(jié)果可靠性下降。賴見輝等[13]采用機器學(xué)習(xí)的方法對車輛是否駛?cè)敕?wù)區(qū)進行預(yù)測,而該方法存在一定的誤差,可解釋性差,并且還需進行問卷調(diào)查來獲取模型的訓(xùn)練數(shù)據(jù),增加了工作量。直接利用原始門架數(shù)據(jù),根據(jù)每個車輛的平均行程速度特性挖掘出駛?cè)敕?wù)區(qū)的車輛的方法準(zhǔn)確度高,可解釋性強。
研究本研究通過兩階段的聚類方法準(zhǔn)確地識別出路段中駛?cè)敕?wù)區(qū)的車輛和行駛異常的車輛,再利用交通狀態(tài)指數(shù)在時間和空間維度對濟青高速的交通狀態(tài)進行評價分析,挖掘其時空規(guī)律。最后根據(jù)交通狀態(tài)指數(shù)將濟青高速各個路段劃分為4個擁堵等級。為高速公路管理部門準(zhǔn)確了解高速公路運行狀態(tài),制定擁堵管理措施提供借鑒,進而提升高速公路的通行能力。
1異常速度識別方法
1.1k均值聚類算法
k均值聚類(k-means)算法[14]作為一種經(jīng)典的聚類算法,已經(jīng)廣泛地應(yīng)用于各個領(lǐng)域。本研究將k-means算法用于識別駛?cè)敕?wù)區(qū)的車輛,以時間維度和各個車輛平均行程速度vi為聚類指標(biāo),利用是否駛?cè)敕?wù)區(qū)的兩類車輛在平均行程速度上存在較大差異的特點解決了k-means算法難以確定初始聚類中心的問題,識別過程如下:
(1)指定聚類數(shù)目k和聚類中心(c1,c2,…,ci),由于本研究已經(jīng)非常明確地將數(shù)據(jù)集劃分為兩個類別,并且未進入服務(wù)區(qū)車輛和進入服務(wù)區(qū)車輛在平均行程速度上存在明顯的差異,所以將聚類數(shù)目k指定為2,聚類中心(c1,c2)指定為([t_,v_],[t_,s])。其中t_為目標(biāo)時段的中間時刻;v_為未駛?cè)敕?wù)區(qū)車輛的平均行程速度的經(jīng)驗值,本研究選取90 km/h;s為駛?cè)敕?wù)區(qū)車輛的平均行程速度的經(jīng)驗值,本研究選取20 km/h。
(4)重復(fù)(2)和(3)步驟,直到各個聚類中心ci不再發(fā)生變化,或者達到預(yù)設(shè)的迭代數(shù)。
1.2基于密度的噪聲應(yīng)用空間聚類算法
基于密度的噪聲應(yīng)用空間聚類算法(density-based special clustering of appliations with noise,DBSCAN)[15]可以在具有噪聲的數(shù)據(jù)集中發(fā)現(xiàn)任意形狀的簇。該算法最重要的兩個參數(shù)分別為鄰域密度閾值ρMinPts以及鄰域半徑REps。本研究利用該算法識別某一路段未進入服務(wù)區(qū)車輛的平均行程速度集合中的偏大或者偏小的離群數(shù)據(jù),相對于傳統(tǒng)的閾值篩選的方法更加靈活,識別過程如下:
(1)定義某一路段未駛?cè)敕?wù)區(qū)車輛的平均行程速度集合D,給定鄰域密度閾值ρMinPts和鄰域半徑REps,計算各個車輛平均行程速度vi的鄰域?qū)ο髠€數(shù)NEpsvi,若NEpsvi≥ρMinPts,則vi為核心對象。
(2)判斷各個核心對象是否在其他核心對象所構(gòu)成的鄰域里面,若在其中則該兩個核心對象構(gòu)成密度可達,密度可達的核心對象鄰域構(gòu)成的集合為一個簇,不在任何簇中的車輛平均行程速度則為異常數(shù)據(jù)。
2交通狀態(tài)評估指數(shù)
交通狀態(tài)指數(shù)(ITS)[16]可以用量化數(shù)值來表示道路交通狀態(tài),數(shù)值越大表示交通擁堵越嚴(yán)重,分為基本模型和加權(quán)模型。本研究使用各車型流量加權(quán)模型,計算公式如下:
式中,Tgij為路段i時間段j中g(shù)類車的ITS值,vgf為g類車的理想平均行程速度,vgij為路段i時間段j所有g(shù)類車的實際平均行程速度的平均值,Tij為路段i時間段j的ITS值。
交通狀態(tài)評估流程如圖1所示,首先利用兩階段聚類算法對車輛平均行程速度進行篩選,避免駛?cè)敕?wù)區(qū)車輛對路段平均行程速度計算的干擾,提高計算的可靠性,最后計算各路段ITS來評估路段交通狀態(tài)。
3實例分析
3.1數(shù)據(jù)概況與預(yù)處理
本研究所使用的數(shù)據(jù)來自山東省濟青高速濟南章丘—青島機場北樞紐段共26個門架路段,路段全長309.633 km,2021年9月6日至12日共一周的門架數(shù)據(jù)4 063 295條,刪除重復(fù)值和缺失值后還剩余4 051 105條數(shù)據(jù),字段信息如表1所示。
本研究以相鄰兩個門架組成的路段為研究路段,共25條,上游門架數(shù)據(jù)以trans_time和vehicle_plate字段為鍵,下游門架以last_gantry_time和vehicle_plate字段為鍵,進行數(shù)據(jù)拼接,拼接后的數(shù)據(jù)即為路段行車數(shù)據(jù),包括車牌號、經(jīng)過上下游路段時間、路段長度、車輛平均行程速度,其中某輛車經(jīng)過該路段的平均行程速度vi=lΔt,l為路段長度,Δt為經(jīng)過上下門架的時間差。濟南章丘—青島藍村的研究路段編號0~24,每個路段的交通量周變化情況如圖2所示,可以看出在這一周內(nèi)高速公路周一交通量最大,周三交通量最小,并且路段越往青島方向交通量越小。
3.2異常速度篩選
本研究以1 h為時間間隔,對設(shè)有服務(wù)區(qū)的路段采用k-means聚類算法將駛?cè)敕?wù)區(qū)的車輛識別出來后,再將未進入服務(wù)區(qū)的數(shù)據(jù)利用DBSCAN聚類算法進行二次篩選,識別出速度偏大和偏小的異常數(shù)據(jù),其中k-means聚類算法初始聚類中心([12,90],[12,20])的最大迭代數(shù)設(shè)置為300,DBSCAN聚類算法的鄰域半徑REps設(shè)置為1 km/h,鄰域密度閾值ρMinPts設(shè)置為3,篩選結(jié)果如圖3所示。從圖4可以看出,經(jīng)過篩選后的數(shù)據(jù)更趨近于正態(tài)分布。
3.3交通狀態(tài)評估
以行程速度為基礎(chǔ)的交通擁堵評價指標(biāo)是用于評估交通狀態(tài)的常用手段,例如路段延誤、TTI(travel time index)等,但往往在理想行程速度的取值上選取道路的最高限速[17-18],而不同車型之間的理想行程速度是存在差異的,所以本研究選取交通量占比較高的3種車型,如表2所示。計算3種車型流量加權(quán)求和后的ITS指標(biāo)來判斷某一路段的交通狀態(tài),研究時段選取旅客出行活動較為頻繁的上午7:00到晚上20:00,從時間和空間兩個維度對濟青高速進行交通狀態(tài)的評估。在時間維度方面,計算濟青高速研究時段的日平均ITS指標(biāo)變化情況,從圖5可以看出,在研究時段中存在3個ITS指標(biāo)高峰時段,分別為9:00—10:00、14:00—15:00、19:00—20:00,其中19:00—20:00時段ITS指標(biāo)最高。
從空間維度分析各個研究路段7天中8:00—20:00的平均ITS指標(biāo)的日變化情況,從圖6可以看出濟青高速中交通狀態(tài)最擁堵路段為9,從濟南開始的0~6路段較為擁擠,較為流暢的路段為12~14路段以及18~22路段,其余路段交通擁堵狀態(tài)較為一般。大車(中大型貨車)在交通流中的混入率與交通擁擠程度有著重要的關(guān)系[19],如圖7所示。大車混入率與ITS呈現(xiàn)正相關(guān)趨勢,并且兩者的皮爾遜系數(shù)為0.68,可見兩者線性關(guān)系十分密切,其中路段9為臨淄東—青州西路段,臨淄區(qū)為山東省重要的工業(yè)園區(qū),出入大車的數(shù)量會比較多,所以大車混入率較高,交通運行狀態(tài)也較為擁堵??梢詫Υ筌噷嵭幸归g時段通行費用折扣的措施,錯開小客車出行高峰時段,以此降低路段擁堵狀態(tài)。
根據(jù)以上情況將濟青高速線路的路段交通狀態(tài)劃分為4個等級,各個等級日平均ITS指標(biāo)范圍如表3所示。
4結(jié)論
本研究提出了一種基于門架數(shù)據(jù)的兩階段聚類方法來識別高速公路駛?cè)敕?wù)區(qū)的車輛和行駛速度異常的車輛,再利用各車型流量占比加權(quán)的交通狀態(tài)指數(shù)ITS,有效地識別路段異常的行程速度數(shù)據(jù),評估了濟青高速25個路段的交通狀態(tài),發(fā)現(xiàn)大車混入率與ITS呈現(xiàn)密切的正相關(guān)的關(guān)系,即大車混入率越高交通狀態(tài)越擁堵,并且將濟青高速路段交通狀態(tài)劃分為4個等級,本研究方法可以為交通管理部門發(fā)現(xiàn)高速公路瓶頸路段提供理論支持。但本研究所使用的的數(shù)據(jù)量較少,僅僅分析了交通狀態(tài)的日變化和周變化的情況,提取的交通參數(shù)數(shù)量以及精度方面也有待提高,在以后的研究中應(yīng)加大研究的數(shù)據(jù)量,分析更長周期的交通狀態(tài),利用更為先進的算法提取更多有意義的交通參數(shù)。
參考文獻:
[1]劉群, 楊濯丞, 蔡蕾. 基于ETC門架數(shù)據(jù)的高速公路短時交通流預(yù)測[J]. 公路交通科技, 2022, 39(4): 123-130. DOI: 10.3969/j.issn.1002-0268.2022.04.014.
[2]邢麗峰, 邱廷銓, 邢宇鵬. 基于ETC門架數(shù)據(jù)的高速公路交通量轉(zhuǎn)換探究[J]. 中國交通信息化, 2022(4): 94-96. DOI: 10.13439/j.cnki.itsc.2022.04.004.
[3]曹波. 基于門架數(shù)據(jù)的道路運行指數(shù)應(yīng)用研究[J]. 中國交通信息化, 2022(1): 110-113. DOI: 10.13439/j.cnki.itsc.2022.01.011.
[4]王光輝. 高速公路交通運行狀態(tài)判別方法研究[D]. 長春: 吉林大學(xué), 2015.
[5]NANTHAWICHIT C, NAKATSUJI T, SUZUKI H. Application of probe-vehicle data for real-time traffic-state estimation and short-term travel-time prediction on a freeway[J]. Transportation Research Record: Journal of the Transportation Research Board, 2003, 1855(1): 49-59. DOI: 10.3141/1855-06.
[6]趙千里. 基于車載GPS數(shù)據(jù)的城市交通狀態(tài)估計和出租車需求預(yù)測研究[D]. 上海: 上海交通大學(xué), 2016.
[7]劉超彪. 基于手機信令數(shù)據(jù)的交通路況預(yù)測的研究與實現(xiàn)[D]. 武漢: 華中科技大學(xué), 2019.
[8]YAO E J, WANG X W, YANG Y, et al. Traffic flow estimation based on toll ticket data considering multitype vehicle impact[J]. Journal of Transportation Engineering, Part A: Systems, 2021, 147(2): 04020158. DOI: 10.1061/jtepbs.0000488.
[9]KE R M, FENG S, CUI Z Y, et al. Advanced framework for microscopic and lane-level macroscopic traffic parameters estimation from UAV video[J]. Intelligent Transport Systems, 2020, 14(7): 724-734. DOI: 10.1049/iet-its.2019.0463.
[10]張新.基于無人機視頻的交通參數(shù)提取方法及應(yīng)用[D]. 上海:同濟大學(xué),2014.
[11]LI J L, XU Z G, FU L, et al. Domain adaptation from daytime to nighttime: a situation-sensitive vehicle detection and traffic flow parameter estimation framework[J]. Transportation Research Part C: Emerging Technologies, 2021, 124: 102946. DOI: 10.1016/j.trc.2020.102946.
[12]梁奇. 高速公路服務(wù)區(qū)滿意度與駛?cè)脒x擇行為研究[D]. 重慶: 重慶交通大學(xué), 2019.
[13]賴見輝, 齊悅, 王揚, 等. 基于收費數(shù)據(jù)的交通運行參數(shù)估計方法[J]. 中國公路學(xué)報, 2022, 35(3): 205-215. DOI: 10.19721/j.cnki.1001-7372.2022.03.017.
[14]楊俊闖, 趙超. k-means聚類算法研究綜述[J]. 計算機工程與應(yīng)用, 2019, 55(23): 7-14. DOI: 10.3778/j.issn.1002-8331.1908-0347.
[15]周玉, 朱文豪, 房倩, 等. 基于聚類的離群點檢測方法研究綜述[J]. 計算機工程與應(yīng)用, 2021, 57(12): 37-45. DOI: 10.3778/j.issn.1002-8331.2102-0167.
[16]吉靜, 顧承華, 翟希, 等. 基于交通狀態(tài)指數(shù)的城市道路交通擁堵評價體系研究[C]//中國智能交通協(xié)會第十一屆中國智能交通年會大會論文集. 重慶:中國智能交通協(xié)會,2016: 931-939.
[17]張南,黃正國,葉彭姚,等. 基于車牌數(shù)據(jù)的行程速度特性及交通狀態(tài)評估[J]. 綜合運輸,2019, 41(5):63-70.
[18]WANG Z J, ZANG C, YANG C L. Multi-indicator Road traffic state assessment based on path state[EB/OL].[2022-08-20]. http://dx.doi.org/10.12783/dtcse/icmsa2018/23259.
[19]胡建榮, 何磊. 基于尖點突變理論的高速公路交通流狀態(tài)判別方法[J]. 中國公路學(xué)報, 2017, 30(10): 137-144. DOI: 10.19721/j.cnki.1001-7372.2017.10.017.