張興強,劉 雪,朱藝焱,宋勇剛,王 欣,王學媛
(北京交通大學a.城市交通復雜系統(tǒng)理論與技術教育部重點實驗室;b.綜合交通運輸大數(shù)據(jù)應用技術交通運輸行業(yè)重點實驗室,北京100044)
城市道路交通事故一方面造成了人員傷亡和財產(chǎn)損失,另一方面也造成交通擁堵等損害后果.李雪等[1]基于交通安全因素分析,采用交通綜合死亡率、車速差和路面平整度,建立云模型評價方法以界定道路安全等級;H.A.S.Sandhu等[2]根據(jù)死亡、重傷、輕傷和財產(chǎn)損失數(shù)據(jù)建立事故嚴重度模型,運用GIS進行可視化,采用核密度估計法鑒別事故黑點;Dereli等[3]結合GIS的空間統(tǒng)計,對比泊松回歸、負二項回歸和經(jīng)驗貝葉斯法,提出經(jīng)驗貝葉斯方法更適于事故黑點鑒別.Park S.等[4]為提高交通事故預測的準確性,采用Hadoop處理大流量數(shù)據(jù),提出基于MapReduce的不平衡數(shù)據(jù)分類的數(shù)據(jù)挖掘過程;Hashmienejad S.H.A.等[5]結合用戶偏好,提出一種預測交通事故嚴重程度的多目標遺傳算法(NSGA-II),從支持度、置信度和準確性等指標的評估結果發(fā)現(xiàn)其更優(yōu)于ANN,SVM和常規(guī)DT等分類方法.但現(xiàn)有的地點交通安全評價沒有考慮城市交通事故會對交通產(chǎn)生影響的特點,同時較少利用互聯(lián)網(wǎng)數(shù)據(jù)的海量性、實時性來提高分析的準確性.因此本文基于互聯(lián)網(wǎng)文本事故數(shù)據(jù)結構化的基礎上,對事故屬性進行文本聚類,進行事故交通影響等級劃分.從事故頻率、后果損失、交通影響建立的城市道路等效事故模型,該模型通過交通影響的等效損失工日數(shù)標定模型參數(shù).建立了累計頻率曲線和K-means聚類組合模型,可以從事故易發(fā)位置、事故實際發(fā)生的次數(shù)、事故嚴重度、事故交通影響程度等多角度對城市道路地點安全度進行分析.
資源描述框架RDF是由W3C組織提出的為基于語義網(wǎng)的各種Web應用提供信息描述規(guī)范.1條RDF由主語、謂語和賓語構成,即Resource=〈Subject,Predicate,Object〉.主語常用統(tǒng)一資源標識符表示網(wǎng)絡上的某個實體;謂語表示實體的某一屬性類型;賓語表示對應的屬性值,常用URL、字面值如字符串或數(shù)字進行表示.圖1為互聯(lián)網(wǎng)事故數(shù)據(jù)的RDF示例.
圖1 互聯(lián)網(wǎng)事故數(shù)據(jù)RDF示例Fig.1 RDF example of internet accident data
結合圖1,定義互聯(lián)網(wǎng)數(shù)據(jù)事故屬性為
式中:DatFrm為互聯(lián)網(wǎng)事故數(shù)據(jù)形式,本文采用文本數(shù)據(jù);AccFreq為絕對事故次數(shù)(次);AccTime為事故發(fā)生時間;AccLoc為事故發(fā)生位置,如xx橋xx方向/xx路xx方向xx公里處;AccImpc為事故交通影響的文本關鍵詞描述;OcpLane為事故占用車道的位置及數(shù)量;AccDam為事故損害后果的文本描述;RdTyp為道路類型,如快速路、非快速路;AccTyp為事故類型;AccH為事故處理情況,包括未處理、正在處理、處理完畢等.
事故屬性中對地點交通產(chǎn)生影響的變量主要包括AccTime、OpcLane、RdTyp、AccH、AccImpc等,因此事故交通影響等級可表示為
城市交通事故的發(fā)生,一方面造成了如人員傷亡等直接損失,同時也造成大量交通延誤等間接損失.因此地點等效事故頻次是受事故發(fā)生次數(shù)AccFreq、事故交通影響I(AccLoc)、事故的損害后果AccDam影響,可以表示為
根據(jù)互聯(lián)網(wǎng)交通影響文本描述的模糊性,本文建立了基于模糊和系統(tǒng)聚類法的交通影響等級I(AccLoc),計算AccFreq詞頻和權重,以模糊聚類原始數(shù)據(jù)矩陣儲存交通影響頻數(shù).
式中:xij為第i個交通影響關鍵詞xi在第j年中出現(xiàn)的頻數(shù),i=1,2,…,n;j=1,2,…,m.
采用極差標準化變換進行數(shù)值行標準化,數(shù)值區(qū)間在(0,1)之間,標準差為1.
采用歐幾里得距離,界定類與類之間的距離為
計算新類Gr與其他類Gt間的距離為
依次得Di(i=1,2,…,(n-k)),從而聚為K類交通影響G(α α=1,2,…,K).
當交通影響文本描述AccImpc不明確時,事故交通影響主要受事故發(fā)生時間AccTime、事故占道OcpLane影響,則交通影響等級的判別規(guī)則為
由式(3),地點等效事故次數(shù)模型為
式中:Nri(i=1,2,3)分別為r事故地點的事故次數(shù)NAccFreq、損害后果的等效事故次數(shù)NAccDam、交通影響的等效事故次數(shù)NI(Acc)(次);n為第r個地點的事故次數(shù);L為事故交通影響等級;α1,α2分別為受傷、死亡事故的權重系數(shù);Prj,Qrj分別為第r個地點的第j次事故受傷、死亡數(shù)(人);Arjk為第r個地點的第j次事故產(chǎn)生第k級交通影響對應的單次損失時間(h),k=1,2,…,m;Crjl為第r個地點的第j次事故占用l條車道損失的通行能力(pcu/h);l為占用車道數(shù);T為事故持續(xù)時間(h);S為每輛車的載客人數(shù)(人);t為單日工作時間(h);D為死亡損失工作日(天).
本文建立了基于累計頻率曲線、K-means聚類的城市快速路地點安全組合分析方法,從城市快速路事故發(fā)生頻率及事故的交通影響及損失后果對城市快速路地點安全進行分析.
以F(Nr)為橫坐標,以f(F(Nr))為縱坐標,繪制累計頻率曲線圖,將事故累計頻率大于80%~95%的b個地點選定為事故多發(fā)地點.以數(shù)據(jù)矩陣形式儲存地點r(r=1,2,…,b)所發(fā)生的事故損害后果等效次數(shù)Ni2和交通影響等效次數(shù)Ni3.將r個地點設置為K個類別,選取K個初始聚類中心,劃分(α=1,2,…,K)類.
以北京市快速路為研究對象,利用Python中的Spyder編寫網(wǎng)絡爬蟲程序,從交通信息服務平臺、交通信息中心、微博和新聞媒體網(wǎng)站等挖掘出2012—2017年6 393組交通事故屬性文本數(shù)據(jù),其交通影響關鍵詞分為8類:①行駛緩慢,②繞行,③影響后車通行,④擁堵,⑤車流量大,⑥排隊,⑦行駛不暢、⑧不完備信息.對其進行詞頻和權重統(tǒng)計,得到各類交通影響關鍵詞頻數(shù),如表1所示.
表1 各類交通影響關鍵詞頻數(shù)Table 1 Frequency of various traffic impact keywords
交通影響關鍵詞聚類樹狀圖如圖2所示.由圖2可知事故交通影響分為4類:G1(8,即不完備信息),G2(1,即行駛緩慢)、G3(5、6,即影響后車通行、行駛不暢)、G4(2、3、7、4,即繞行、排隊、車流量大、擁堵).根據(jù)我國LOS水平的劃分,本文將城市道路交通事故發(fā)生后的等效交通狀態(tài)分為L1影響不大、L2行駛緩慢、L3擁堵、L4嚴重擁堵4個等級.對于G1,根據(jù)式(9)采用事故發(fā)生時間AccTime、事故占道情況OcpLane來判斷事故對交通影響的類別,如式(14)所示.
圖2 聚類樹狀圖Fig.2 Clustering tree graph
(1)模型參數(shù)標定.
①事故損害后果權重α1、α2:根據(jù)我國道路交通造成的死傷,以及對社會個人造成的影響大小,取[7]α1=0.5,α2=1.
②單次損失時間Arjk:采用調查問卷方式確定單次損失時間,調查結果如圖3所示.
根據(jù)圖3問卷結果,嚴重擁堵等級一般延誤時間為1 h,擁堵延誤時間為45 min,行駛緩慢延誤時間為20 min,影響不大延誤時間為10 min.
③事故持續(xù)時間T:根據(jù)北京122報警系統(tǒng)中交警記錄的事故持續(xù)時間[8],界定事故持續(xù)時間為30 min.
④車輛載客數(shù)確定S:根據(jù)北京市車輛組成比例(小車88.22%,客車11.78%)[9],界定載客數(shù)量為4人.
⑤損失通行能力Crjl:通過VISSIM仿真界定交通事故導致的道路通行能力的損失為Caccident1=0.4C,Caccident2=0.7C.其中Caccident1、Caccident2分別表示交通事故發(fā)生占用道路1條和2條車道的損失通行能力.
⑥死亡損失工作日D:根據(jù)我國工傷事故分類標準(GB6441—86)[10],界定死亡損失工日數(shù)為6 000天.
圖3 延誤時間問卷結果Fig.3 Traffic delay questionnaire results
(2)等效事故次數(shù).
對計算所得的北京六環(huán)內城市道路交通事故等效次數(shù)進行分組,統(tǒng)計事故地點結果如圖4所示.
圖4 北京市六環(huán)內交通事故地點Fig.4 Traffic accident locations within Beijing six ring
統(tǒng)計發(fā)生等效事故次數(shù)的地點頻率,繪制累計頻率曲線圖,如圖5所示.根據(jù)北京交通工程研究所[11]將道路黑點定義為5年發(fā)生50起以上交通事故的路口(段),圖5中事故數(shù)為50時,其累計頻率約為86%,以此為判定事故多發(fā)點的判定標準.這些地點一共發(fā)生3 614起交通事故,占全部事故的57%,其具體事故地點分布及事故次數(shù)總占比如圖6所示.
圖5 等效事故次數(shù)累計頻率曲線Fig.5 Cumulative frequency curve of equivalent accident
圖6 北京六環(huán)內交通事故多發(fā)位置Fig.6 Traffic accident-prone locations within Beijing sixth ring
根據(jù)損害后果和事故交通影響等效事故次數(shù),采用K-means聚類法將北京市事故多發(fā)位置的事故屬性進行聚類,聚類結果如表2所示.北京市事故多發(fā)位置可分為6類,每一類分別對應地點個數(shù)為17、12、2、4、7、3.在北京市事故多發(fā)地點中,事故交通影響與事故損害后果基本上呈現(xiàn)正相關,即損害后果小的事故地點,其事故交通影響也小(類別1和2),這些地點占總事故易發(fā)地點的64%.事故損害后果大的事故地點,其事故交通影響也大,這些地點占總事故易發(fā)地點的29%(類別3、4、5).但也有3個事故地點,其事故后果小但其交通影響大.
表2 北京市事故易發(fā)位置聚類結果Table 2 Clustering results of accident-prone locations in Beijing
各類事故易發(fā)地點具有如下特點:
(1)第1、2類事故易發(fā)位置一般發(fā)生在快速路路段、快速路與其他等級道路的立體交叉范圍內,占這兩類地點總數(shù)的79%,發(fā)生在高峰段的事故占64%,車輛運行速度慢,事故類型多為追尾和刮蹭,分別占46%和18%.
(2)第3、4、5類事故易發(fā)位置一般都位于快速路與快速路的立體交叉范圍內,這些地方一般交通量大,如四惠橋、健翔橋、國貿橋等;周邊有交通樞紐或吸引交通的建筑物,如國貿橋位于CBD中心、六里橋附近有客運主樞紐、北京西站位于蓮花池東路等;立體交叉形式復雜,如沙窩南橋、西直門橋等;貨運車輛多,如新發(fā)地橋.
(3)第6類事故易發(fā)位置數(shù)為3個,其位置為快速路與快速路的立體交叉附近、北京CBD中心,如上清橋、肖家河橋和京廣橋,這些地點發(fā)生的交通事故雖然損害后果較小,但其交通影響卻很大,這些地點日常交通量大,為北京市經(jīng)常擁堵的地點.
(1)基于RDF框架,構建城市道路交通事故屬性模型,并對事故地點交通影響和地點等效事故頻次的變量進行了界定.采用模糊系統(tǒng)聚類法對事故交通影響文本關鍵詞進行聚類,劃分了嚴重擁堵、擁堵、行駛緩慢和影響不大等4個交通影響等級.
(2)根據(jù)城市道路的特點,構建考慮了事故交通影響的等效事故次數(shù)模型,該模型考慮了事故交通影響對應的單次損失時間、車道損失的通行能力、事故持續(xù)時間等因素,以死亡損失工作日數(shù)進行事故次數(shù)的等效,并對其進行了參數(shù)標定.
(3)建立了基于等效事故數(shù)的城市快速路地點安全評價方法,該方法采用累計頻率曲線法進行事故易發(fā)地點鑒別,K-means聚類對事故易發(fā)地點的事故損害后果和交通影響進行聚類,分析結果表明,北京市快速路事故易發(fā)位置可分為6類,事故交通影響與事故損害后果基本正相關.