曾令秋,王瑞梅,韓慶文,曾 孜,朱穎祥,張 程
(1.重慶大學(xué)計(jì)算機(jī)學(xué)院,重慶400044;2.重慶大學(xué)通信工程學(xué)院,重慶400044;3.重慶市第七中學(xué)校,重慶400030)
事故熱點(diǎn)是影響道路通行時(shí)間和擁堵?tīng)顩r的重要因素,其產(chǎn)生原因復(fù)雜,例如,由于地形因素客觀成為事故熱點(diǎn)區(qū)域(南美玻利維亞北永加斯路被稱(chēng)為“死亡之路”)、由于高車(chē)流密度和人流量成為事故熱點(diǎn)區(qū)域的鬧市區(qū)。對(duì)駕駛?cè)嘶蜃詣?dòng)駕駛決策系統(tǒng)而言,不同成因的事故熱點(diǎn)的決策方案必然不同。因此,從提升道路交通安全的角度來(lái)看,需要為駕駛?cè)嘶蜃詣?dòng)駕駛決策算法提供與事故熱點(diǎn)相關(guān)的內(nèi)特性信息,即需要發(fā)掘事故熱點(diǎn)成因并以之為依據(jù)提供相關(guān)的控制決策信息。
熱點(diǎn)成因識(shí)別是一個(gè)歷史數(shù)據(jù)分析問(wèn)題,即通過(guò)分析海量歷史數(shù)據(jù),發(fā)現(xiàn)對(duì)象熱點(diǎn)中事故的生成共性因素,并以之為依據(jù)識(shí)別熱點(diǎn)成因。目前,中國(guó)描述交通事故的數(shù)據(jù)局限于某一城市或某一路段的統(tǒng)計(jì),并沒(méi)有公開(kāi)的權(quán)威數(shù)據(jù)庫(kù)可以提供相應(yīng)的數(shù)據(jù)。英國(guó)國(guó)家數(shù)據(jù)庫(kù)STATs19[1]記錄了自1926年起英國(guó)發(fā)生的所有交通事故,并通過(guò)82個(gè)屬性描述單個(gè)事故,STATs19是迄今為止英國(guó)記錄最詳細(xì)、最完整、最可靠的提供道路交通碰撞信息資源的數(shù)據(jù)庫(kù),并被廣泛應(yīng)用于道路交通安全評(píng)估。由于該數(shù)據(jù)庫(kù)能夠?yàn)闊狳c(diǎn)分析提供充足的事故數(shù)據(jù),本文基于該數(shù)據(jù)庫(kù)開(kāi)展研究。
從STATs19數(shù)據(jù)庫(kù)82個(gè)屬性變量中發(fā)掘成因因素需要進(jìn)行降維,本文采用較為經(jīng)典的降維法——主成分分析法實(shí)現(xiàn)事故熱點(diǎn)分析。文獻(xiàn)[2]采用主成分分析法評(píng)估高速公路交通安全狀況。文獻(xiàn)[3]將主成分分析納入道路交通事故預(yù)測(cè)中,消除一些重疊信息,并結(jié)合神經(jīng)網(wǎng)絡(luò)對(duì)道路交通事故進(jìn)行預(yù)測(cè)。文獻(xiàn)[4]提出評(píng)價(jià)區(qū)域交通安全的主成分分析模型,展現(xiàn)了主成分分析法在交通數(shù)據(jù)庫(kù)分析中的可行性。以上研究皆基于大區(qū)(如行政區(qū)域)展開(kāi),雖然分析結(jié)果能在一定程度上反映對(duì)象區(qū)域的特性,但是區(qū)域特性可能包含多個(gè)事故熱點(diǎn),熱點(diǎn)成因也有差異,分析結(jié)果難以體現(xiàn)事故熱點(diǎn)本身的特性,也難以生成針對(duì)特定事故熱點(diǎn)的合理控制決策。
熱點(diǎn)識(shí)別是成因分析的基礎(chǔ),在文獻(xiàn)[5]前序研究中筆者提出一種基于自然最近鄰聚類(lèi)的改進(jìn)算法DTH3N對(duì)事故區(qū)域的歷史事故點(diǎn)進(jìn)行識(shí)別,本文將以DTH3N算法識(shí)別的事故熱點(diǎn)為對(duì)象,探索一種新的事故熱點(diǎn)成因分析方法。
事故熱點(diǎn)指具有某種關(guān)聯(lián)特性的交通事故發(fā)生位置點(diǎn)的集合,即交通事故多發(fā)區(qū)域。區(qū)域內(nèi)的事故成因有內(nèi)在關(guān)聯(lián)性,區(qū)域具有不規(guī)則邊界,區(qū)域的覆蓋范圍與道路本身特征(例如交叉口等)有直接關(guān)系。
熱點(diǎn)是聚類(lèi)的結(jié)果。聚類(lèi)就是將需要處理的整個(gè)數(shù)據(jù)集劃分成多個(gè)不同的類(lèi)簇,類(lèi)簇與類(lèi)簇之間距離或者相異性盡量大,使得類(lèi)簇內(nèi)部盡量緊湊[6]。常用的聚類(lèi)算法有:1)基于距離的K-means,K-medoid和Nearese Neighbor Hierarchical Clustering等,這些方法聚合的空間對(duì)象是歐氏距離而非網(wǎng)絡(luò)距離,聚合的空間對(duì)象形成的區(qū)域形狀受限;2)基于密度的DBSSCAN和KDE等聚類(lèi)算法,可以發(fā)現(xiàn)任意形狀的簇類(lèi),但對(duì)閾值的設(shè)置比較敏感,例如半徑閾值和簇密度閾值;3)自然最鄰近聚類(lèi)算法(3N),克服了以上算法存在的問(wèn)題,但處理大面積區(qū)域時(shí)面臨熱點(diǎn)定位困難的問(wèn)題[5]。
本文采用文獻(xiàn)[5]中提出的一種基于自然最近鄰聚類(lèi)的改進(jìn)算法DTH3N,并結(jié)合具有區(qū)域約束等優(yōu)點(diǎn)的3N聚類(lèi)方法來(lái)識(shí)別事故熱點(diǎn)。圖1為多事故點(diǎn)按DTH3N算法聚類(lèi)生成事故熱點(diǎn)的示例,圖中黑色圓點(diǎn)表示事故點(diǎn),而多個(gè)相連接的事故點(diǎn)構(gòu)成一個(gè)事故熱點(diǎn)。
事故熱點(diǎn)成因具有多樣化特征,可歸結(jié)為兩個(gè)大類(lèi):道路物理成因和社會(huì)成因。道路物理成因指導(dǎo)致事故多發(fā)區(qū)域生成的道路因素,例如路況、道路設(shè)計(jì)和區(qū)域環(huán)境。社會(huì)成因指導(dǎo)致事故多發(fā)區(qū)域生成的社會(huì)因素,例如區(qū)域治安條件、人口素質(zhì)和人口密度。
事故熱點(diǎn)成因因素指影響事故發(fā)生的因素,本文根據(jù)STATs19數(shù)據(jù)庫(kù)提供的屬性參數(shù)定義5個(gè)因素:道路因素X1、行人因素X2、車(chē)輛因素X3、環(huán)境因素X4和管制因素 X5(見(jiàn)表1)。
圖1 事故熱點(diǎn)與事故點(diǎn)的關(guān)系Fig.1 Relationship between accident hotspots and accident points
根據(jù)事故熱點(diǎn)成因因素與道路物理成因和社會(huì)成因之間的貢獻(xiàn)關(guān)系設(shè)定貢獻(xiàn)權(quán)重,以此為依據(jù)構(gòu)造道路物理成因矩陣CR和社會(huì)成因矩陣CS。表1中道路因素X1僅與道路物理成因相關(guān),因此設(shè)置X1對(duì)應(yīng)的CR=1。相較于道路特性,區(qū)域的社會(huì)因素如犯罪率、人口密度等更容易獲取,因此本文從社會(huì)因素入手計(jì)算熱點(diǎn)成因貢獻(xiàn)權(quán)重。為了充分表現(xiàn)社會(huì)因素與道路事故的關(guān)聯(lián)性,選擇高社會(huì)因素區(qū)域和低社會(huì)因素區(qū)域進(jìn)行對(duì)比計(jì)算,具體方法如下:
1)對(duì)比區(qū)域選取。根據(jù)人口密度和犯罪率兩個(gè)社會(huì)因素,分別選擇高人口密度和高犯罪率、低人口密度和低犯罪率區(qū)域作為對(duì)比區(qū)域。
2)典型道路區(qū)域選取。分別從對(duì)比區(qū)域內(nèi)篩選高事故發(fā)生率主要道路作為典型道路區(qū)域。
3)分別統(tǒng)計(jì)典型道路區(qū)域的 X1,X2,X3,X4,X5對(duì)應(yīng)數(shù)據(jù)庫(kù)指標(biāo)涉及的總事故數(shù)A。
4)根據(jù)人口密度和犯罪率分別計(jì)算選擇區(qū)域的社會(huì)因子
表1 事故熱點(diǎn)成因因素Tab.1 Causation factors of accident hotspots
式中:Density(i)為典型道路區(qū)域i的人口密度/(人·km-2);DensityMAX為所有典型道路區(qū)域中人口密度最大值/(人·km-2);Crime(i)是典型道路區(qū)域i的犯罪率;CrimeMAX為所有典型道路區(qū)域中犯罪率最高值。
5)計(jì)算兩個(gè)典型道路區(qū)域的A比值和Fs比值,獲得社會(huì)因素貢獻(xiàn)權(quán)重。其中,A比值為不同區(qū)域中事故數(shù)的比值,即AccNum(i)/AccNum(j);Fs比值為不同區(qū)域社會(huì)因子的比值,即Fs(i)/Fs(j)。
在此選擇Islington區(qū)域和Sutton區(qū)域作為對(duì)比區(qū)域,根據(jù)公式(1)可得Fs(Islington)=1.91, Fs(Sutton)=0.77。選取Islington的A501道路區(qū)域和Sutton的Green Wrythe Lane道路區(qū)域進(jìn)行事故數(shù)統(tǒng)計(jì),統(tǒng)計(jì)時(shí)段為2011—2015年,統(tǒng)計(jì)結(jié)果見(jiàn)表2。
表2 典型道路區(qū)域事故數(shù)據(jù)統(tǒng)計(jì)Tab.2 Data statistics of accidents in typical road areas
表3 CS值Tab.3CSvalue
表4 事故熱點(diǎn)成因因素貢獻(xiàn)權(quán)重Tab.4 Contributing weight of causation factors at accident hotspots
表5 測(cè)試對(duì)象區(qū)域人口密度和犯罪率Tab.5 Population density and crime rate in the surveyed areas
社會(huì)因素權(quán)重CS表現(xiàn)為社會(huì)因子Fs對(duì)相關(guān)事故數(shù)的影響程度:
計(jì)算得到CS值與本文中實(shí)際取值如表3所示,進(jìn)而可得事故熱點(diǎn)成因因素貢獻(xiàn)權(quán)重(見(jiàn)表4)。
計(jì)算事故熱點(diǎn)成因因素是識(shí)別熱點(diǎn)成因的關(guān)鍵,計(jì)算方法為:
第一步:根據(jù)表1對(duì)STATs19屬性參數(shù)進(jìn)行整合計(jì)算,獲得X1,X2,X3,X4,X5。
第二步:計(jì)算X1,X2,X3,X4,X5的貢獻(xiàn)率,此處采用主成分分析法獲得,具體過(guò)程如下:
1)構(gòu)建原變量矩陣。
利用事故熱點(diǎn)成因因素Xj(j=1,2,…,5)構(gòu)造原變量矩陣;假設(shè)熱點(diǎn)中包含n個(gè)事故點(diǎn),基于此構(gòu)建參數(shù)矩陣
2)構(gòu)建參數(shù)矩陣X的標(biāo)準(zhǔn)歸一化矩陣
式中:為的元素值;X為參數(shù)矩陣Xj中列的平均值;Sj為參數(shù)矩陣X中每一列的方差。
3)構(gòu)建協(xié)方差矩陣
4)獲取協(xié)方差矩陣R的特征值矩陣λ1×5和特征向量矩陣V5×n,對(duì)特征值進(jìn)行排序使得λ1≥λ2≥…≥λ5。各成分與標(biāo)準(zhǔn)歸一化矩陣的線性組合為
式中:Vi為協(xié)方差矩陣R的第i個(gè)特征向量;λi為所對(duì)應(yīng)的特征值。
5)提取主成分個(gè)數(shù)m,計(jì)算公式為
圖2 倫敦市各行政區(qū)域人口密度和犯罪率Fig.2 Population density and crime rate in different administrative districts in Lond
表6 測(cè)試對(duì)象區(qū)域經(jīng)緯度范圍Tab.6 Longitude and latitude range of different surveyed areas
圖3 Islington事故熱點(diǎn)識(shí)別聚類(lèi)結(jié)果Fig.3 Results of accident hotspot clustering in Islington
表7 測(cè)試對(duì)象區(qū)域事故熱點(diǎn)數(shù)量Tab.7 Number of accident hotspots in the surveyed areas
圖4 各測(cè)試對(duì)象區(qū)域的Croad和CsocietyFig.4 CroadandCsocietyin different surveyed areas
基于主成分分析,得到主成分特征值矩陣 λ1×m(λ1≥ λ2≥ … ≥λm)所對(duì)應(yīng)的主成分特征向量矩陣V5×m。
6)獲取主成分特征值的方差貢獻(xiàn)矩陣
7)構(gòu)建事故熱點(diǎn)事故影響指標(biāo)綜合權(quán)重矩陣
F5×1矩陣相應(yīng)的5個(gè)權(quán)重是事故影響參數(shù)X1, X2, X3, X4, X5所對(duì)應(yīng)的貢獻(xiàn)率,即參數(shù)變量對(duì)事故熱點(diǎn)整體的貢獻(xiàn)率。
第三步:計(jì)算事故熱點(diǎn)成因因素。
為了檢驗(yàn)前文提出方法的有效性,基于STATs19數(shù)據(jù)庫(kù)事故歷史數(shù)據(jù)信息進(jìn)行驗(yàn)證。首先需要對(duì)數(shù)據(jù)進(jìn)行處理,包括實(shí)驗(yàn)區(qū)域篩選、基于區(qū)域事故點(diǎn)聚類(lèi)的熱點(diǎn)識(shí)別,以及成因因素計(jì)算。
文獻(xiàn)[3]闡述了基于道路物理成因和社會(huì)成因兩個(gè)因素預(yù)測(cè)中國(guó)道路交通事故發(fā)生的可行性。本文關(guān)注事故熱點(diǎn)的道路物理成因和社會(huì)成因,因此,實(shí)驗(yàn)區(qū)域的篩選可采用基于道路因素和基于社會(huì)因素兩種模式展開(kāi)。
基于道路因素的篩選以路況條件作為參照,路況條件不僅與道路本身有關(guān),也與道路地理特性相關(guān),較難獲得準(zhǔn)確的評(píng)價(jià)參數(shù)。
基于社會(huì)因素的篩選以區(qū)域社會(huì)因素(如區(qū)域人口密度、犯罪率及受教育程度)作為參照,這類(lèi)數(shù)據(jù)較易獲得,因此本文選擇基于社會(huì)因素的篩選模式?;赟TATs19數(shù)據(jù)庫(kù)選擇區(qū)域人口密度和犯罪率兩個(gè)社會(huì)因素進(jìn)行區(qū)域篩選。圖2為倫敦市32個(gè)行政區(qū)域的人口密度和犯罪率分布。
對(duì)人口密度和犯罪率進(jìn)行分析,篩選5個(gè)區(qū)域進(jìn)行實(shí)驗(yàn)測(cè)試(見(jiàn)表5)。在5個(gè)區(qū)域內(nèi),各選擇一片面積基本相等的測(cè)試對(duì)象區(qū)域,區(qū)域經(jīng)緯度如表6所示。
以上根據(jù)社會(huì)因素篩選獲得的5個(gè)測(cè)試對(duì)象區(qū)域,其道路特性也表現(xiàn)出多樣性,例如Sutton目標(biāo)區(qū)域?yàn)樯絽^(qū),而Westminster則為商業(yè)區(qū),滿(mǎn)足實(shí)驗(yàn)的基本條件。
采用DTH3N算法對(duì)5個(gè)測(cè)試對(duì)象區(qū)域進(jìn)行事故熱點(diǎn)聚類(lèi)識(shí)別,Islington聚類(lèi)結(jié)果如圖3所示,事故點(diǎn)發(fā)生的位置用(X,Y)來(lái)表示,X和Y分別為事故發(fā)生點(diǎn)的經(jīng)度和維度抽象后得到的數(shù)值型坐標(biāo),圖中不同顏色代表聚類(lèi)形成的不同的簇,同一顏色代表同一個(gè)簇。
文獻(xiàn)[5]中,對(duì)5個(gè)測(cè)試對(duì)象區(qū)域的事故點(diǎn)進(jìn)行聚類(lèi)獲取事故熱點(diǎn),聚類(lèi)后獲得各測(cè)試對(duì)象區(qū)域的熱點(diǎn)數(shù)量(見(jiàn)表7)。分析數(shù)據(jù)可知,區(qū)域的人口密度與事故熱點(diǎn)數(shù)量密切相關(guān),由此證明了區(qū)域篩選方法的合理性。
根據(jù)表1定義,從STATs19數(shù)據(jù)庫(kù)中篩選相關(guān)屬性參數(shù),累加計(jì)算可得道路事故熱點(diǎn)成因綜合權(quán)重指標(biāo)Croad和Csociety。
實(shí)驗(yàn)通過(guò)MATLAB對(duì)5個(gè)測(cè)試對(duì)象區(qū)域進(jìn)行事故熱點(diǎn)成因分析,驗(yàn)證本文提出的基于主成分貢獻(xiàn)度的道路事故熱點(diǎn)成因分析方法在事故熱點(diǎn)評(píng)估中的性能。
各測(cè)試對(duì)象區(qū)域中事故熱點(diǎn)成因綜合權(quán)重指標(biāo)Croad和Csociety如圖4所示。可以看出,Islington,Hillingdon,Westminster地區(qū)大部分事故熱點(diǎn)Csociety比Croad大,因此駕駛?cè)诵兄吝@些區(qū)域時(shí)需更多地注意社會(huì)成因?qū)π熊?chē)的影響;Wandsworth中一小部分事故熱點(diǎn)的Csociety和Croad差距比較明顯,其他部分相差不大,因此在此區(qū)域中行車(chē)需要注意社會(huì)成因和道路物理成因的影響;而Sutton中所有事故熱點(diǎn)的Croad大于Csociety,因此在此區(qū)域中行車(chē)更需注意道路物理成因的影響。
為了更深入地分析各事故熱點(diǎn)成因與其所在區(qū)域道路特性的聯(lián)系,計(jì)算分析各測(cè)試對(duì)象區(qū)域Csociety和Croad的均值及其方差均值(見(jiàn)圖5)。可以看出:區(qū)域人口密度相對(duì)較高的 Islington,Wandsworth 以及 Westminster,Csociety均值大于Croad均值,但Wandsworth的Csociety和Croad均值差距并不明顯。區(qū)域犯罪率相對(duì)較高的Islington和Westminster的Csociety方差均值遠(yuǎn)大于Croad方差均值;而區(qū)域犯罪率較低的Wandsworth中Csociety方差均值略大于Croad方差均值。因此,可以宏觀地認(rèn)為Islington和Westminster中事故熱點(diǎn)的形成主要受到Csociety影響,而Wandworth中事故熱點(diǎn)的形成受Csociety和Croad共同影響。此外,人口密度和犯罪率都相對(duì)較低的Sutton,Croad均值及其方差均值都遠(yuǎn)遠(yuǎn)大于Csociety,可以認(rèn)為Sutton事故熱點(diǎn)的形成主要受Croad影響;區(qū)域人口密度非常低而高犯罪的Hillingdon事故熱點(diǎn)的形成主要受到Csociety的影響。由圖5b可以看出,Hillingdon事故熱點(diǎn)成因綜合權(quán)重指標(biāo)的方差特性與Islington等高犯罪率區(qū)域類(lèi)似;圖4中Hillingdon的Csociety值大于Croad。因此可以推斷Hillingdon的Csociety較高是受到較高犯罪率的影響。因此,高犯罪率是測(cè)試對(duì)象區(qū)域事故熱點(diǎn)形成主要受社會(huì)成因影響的主要因素。
圖5 Croad和Csociety均值和方差均值Fig5 Mean and variance mean ofCroadandCsociety
在道路交通安全研究領(lǐng)域,事故熱點(diǎn)成因探究是解決交通安全問(wèn)題關(guān)鍵的一步。通過(guò)運(yùn)用事故熱點(diǎn)成因因素對(duì)事故熱點(diǎn)進(jìn)行評(píng)估,可以有效地指導(dǎo)駕駛行為決策和優(yōu)化交通管制。本文在DTH3N算法識(shí)別的事故熱點(diǎn)的基礎(chǔ)上提出事故熱點(diǎn)成因分析方法,對(duì)事故熱點(diǎn)進(jìn)行內(nèi)特性分析,并從倫敦市32個(gè)行政區(qū)域中選取5個(gè)測(cè)試對(duì)象區(qū)域驗(yàn)證方法的有效性。實(shí)驗(yàn)結(jié)果表明,獲取的內(nèi)特性參數(shù)Croad和Csociety能直觀地反映事故熱點(diǎn)形成的影響因素,指導(dǎo)駕駛?cè)诵熊?chē)中更多地注意相對(duì)危險(xiǎn)的內(nèi)特性參數(shù)對(duì)行車(chē)的影響。本文構(gòu)建的兩個(gè)熱點(diǎn)成因因素權(quán)重矩陣CR和CS只是一個(gè)近似估計(jì)值,在未來(lái)研究中需進(jìn)一步修正,同時(shí)熱點(diǎn)成因因素還有待進(jìn)一步完善。
:
[1]Yu Hao,Liu Pan,Chen Jun,et al.Comparative Analysis of the Spatial Analysis Methods for Hotspot Identification[J].Accident Analysis&Prevention,2014,66:80-88.
[2]薛大維,紀(jì)峻嶺,白竹.基于主成分分析法的高速公路交通安全評(píng)價(jià)[J].黑龍江工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2014(2):46-49.Xue Dawei,Ji Junling,Bai Zhu.Study on Traffic Safety Evaluation for Freeway Based on Principal Component Analysis[J].Journal of Heilongjiang Institute of Technology,2014(2):46-49.
[3]Yu Rende,Zhang Qiang,Zhang Xiaohong,et al.Traffic Accidents Forecasting Based on Neural Network and Principal Component Analysis[J].Research JournalofApplied Sciences Engineering&Technology,2013,6(6):1065-1073.
[4]Li Qiangwei.Evaluation Model of Region Traffic Safety Based on Principal Component Analysis[R/OL].2009[2016-07-10].https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnum ber=5168451.
[5]Han Qingwen,Zhu Yingxiang,Zeng Lingqiu,et al.A Road Hotspots Identification Method Based on Natural Nearest Neighbor Clustering[R/OL].2015[2016-07-10].https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7313189.
[6]黃金龍.基于自然最近鄰的無(wú)參聚類(lèi)算法研究[D].重慶:重慶大學(xué),2014.Huang Jinlong.Study on Non-Parametric Clustering Based on Natural Nearest Neighborhood[D].Chongqing:Chongqing University,2014.