鄒曉芳, 張俊杰, 楊培東
(1.招商新智科技有限公司, 北京 100070; 2.東南大學交通學院, 南京 211189)
隨著我國經濟的快速發(fā)展和機動車數量的不斷增加,道路交通事故頻發(fā),道路交通安全也面臨極大挑戰(zhàn). 世界衛(wèi)生組織2018年關于交通安全的統(tǒng)計報告結果顯示,中國因道路交通事故導致的死亡人數居世界第2,由此可見,我國的道路交通安全現狀非常嚴峻[1]. 截至2019年,我國高速公里通車里程達14.96萬km,位居世界第1[2]. 高速公路因其行車速度快、通行能力高等特點,更易發(fā)生嚴重交通事故,有研究表明其里程死亡率、事故死亡率分別是普通公路的4.51倍、2.21倍[3]. 橋梁作為高速公路瓶頸路段,通常也是事故多發(fā)路段,對該路段交通事故進行研究,對于改善高速公路行車安全具有十分重要的意義.
交通事故是1種具有隨機性、突發(fā)性的事件,其發(fā)生是1個極其復雜的過程,是包括駕駛員、車輛、道路及自然環(huán)境等多方面因素綜合影響的結果,國內外學者對交通事故特征及影響因素進行了大量研究. 馮雷等[4]選取4條交通氣象條件較好的霧天事故多發(fā)高速公路路段為研究對象,對霧天條件下交通事故特征進行研究,并將交通事故與能見度進行定量分析. 陸化普等[5]基于GIS技術對深圳市道路交通事故空間分布特征進行研究,發(fā)現交通事故發(fā)生頻率及嚴重度在城區(qū)與郊區(qū)分布存在差異. 王潔等[6]對河北省高速公路夏冬季事故時變特征進行研究,并基于二元Logistic回歸建立交通事故氣象預警模型. Hou等[7]借助詳細的交通事故、交通特征和高速公路幾何數據,對影響安全的因素進行研究,結果表明事故數隨著平曲線半徑的減小而增大. Tarko[8]研究了公路幾何結構對高速公路路段交通事故發(fā)生的安全影響,結果表明坡度是交通事故的影響因素,坡度越陡,交通事故發(fā)生的概率越高. Duckwon等[9]對美國加州I-880N高速公路45英里路段的交通事故和實時交通流數據進行分析,發(fā)現實時交通流是影響交通事故的主要因素. Cafiso等[10]通過廣義線性模型研究道路幾何線形、交通流與交通事故之間的關系,結果表明:平均車速與交通事故之間呈正相關性.
為研究道路交通事故特征,分析交通事故的成因,統(tǒng)計回歸模型被廣泛應用于交通事故預測研究中. Li等[11]基于低等級道路交通事故數據采用泊松回歸進行擬合,結果證明了泊松回歸在交通事故頻數建模中的適用性. Ramesh等[12]對比了廣義負二項回歸模型與負二項模型在數據擬合方面能力,結果表明廣義負二項回歸模型擬合效果更好. 段萌萌等[13]以高橋隧比高速公路為研究對象,采用多元非線性回歸分析法建立事故預測模型,結果表明該模型精度較高,可作為高橋隧比高速公路事故建模的參考. 為了解釋數據中零值出現頻次較多的問題,部分學者建立零膨脹回歸模型(ZINB)來降低零值對估計結果的影響. Qin等[14]采用零膨脹泊松回歸模型分析了雙車道公路不同類型事故數與車道寬度、交通量等因素的關系,研究表明該模型可較好反映交通事故數與年平均日交通量、路段長度之間的關系. Arief Rizaldi等[15]利用零膨脹負二項回歸模型對印度尼西亞事故數據進行研究,結果表明事故數與單位長度中央分隔帶開孔數、對行人和道路預留區(qū)的干擾程度呈正相關. Daniel等[16]基于城市主干道貨車事故數據建立零膨脹泊松和零膨脹負二項模型,結果表明路段長度和信號設置對貨車事故頻數有較為顯著的影響. Ayati等[17]基于城市道路交通事故數據,分別建立了泊松、負二項、零膨脹泊松、零膨脹負二項模型,結果表明,平均速度、交通流量、橫斷面車道數和出入口數量對事故數有顯著影響,同時發(fā)現在四類模型中零膨脹負二項模型的預測精度最高.
綜上,目前國內外學者對交通事故致因及事故預測模型進行了大量研究,但針對高速公路大橋路段的事故特征及預測模型研究較少. 因此,本文以G50高速公路K785+834—K800+984斷面為研究對象,在數據描述分析的基礎上,對高速公路大橋路段事故特征進行分析,并構建零膨脹負二項回歸模型對交通事故數據進行擬合,并借助R軟件對模型進行求解. 研究結果擬為提高相似道路條件下的交通安全水平,提升交通管理能力提供理論支撐和參考.
鄂東長江公路大橋位于湖北省長江黃石水道中下游,跨越繁忙的長江主航道,是G45、G50高速在湖北東部的共用過江通道,其基本走勢如圖1所示.
圖1 鄂東長江公路大橋基本走勢(滬渝向)
鄂東長江公路大橋全段共有4座立交,線路全長15.2 km,橋梁總長6.23 km. 大橋南北引橋全長5.886 km,其中跨江橋面段0.96 km. 南北引橋間為雙向六車道,其余主路雙向四車道. 全程客車限速(60~100) km/h,貨車限速(60~90) km/h.
以湖北省高速公路聯網中心反饋的路段流量數據及從轄區(qū)交警處獲取的路段事故數據為研究對象,在對數據預處理的基礎上對鄂東長江公路大橋路段事故特征進行分析,具體路段數據描述如表 1所示.
表1 鄂東長江公路大橋路段數據描述
以2016—2019年事故數據為研究對象,從事故類型、事故原因及事故車型3個角度分析鄂東長江公路大橋路段事故特性,各角度中位列前3的因素如表2所示.
表2 鄂東長江公路大橋路段事故概況
1.3.1 鄂東長江公路大橋路段事故特征分析
以2016—2019年鄂東長江公路大橋路段事故數據為研究對象,研究發(fā)現該路段在相鄰年內逐月及逐小時事故數量分布大體一致. 不失一般性,本節(jié)選取2017、2018年事故數據對鄂東長江公路大橋路段事故時間分布特性進行分析.
繪制如圖2所示的2017—2018年鄂東長江公路大橋段逐月事故變化趨勢圖. 由圖2可知,事故在逐月分布上呈現“單月激增,整體均衡”狀態(tài). 大橋轄區(qū)2月份事故最多,其次為1月份、10月份,其余月份流量較為均衡. 2017、2018年春節(jié)分別為 1月27日、2月15日,因此1、2月份事故高發(fā)與春節(jié)期間出行增多有密切關系. 10月事故數較臨近月份有所增加,這與國慶黃金周出行增多有關.
圖2 2017—2018年鄂東長江公路大橋段逐月事故變化
進一步分析大橋段事故在1 d內24 h的時段分布,繪制如圖3所示的變化趨勢圖. 由圖3可知,大橋路段1 d內事故呈現“M”型分布特征,事故主要集中在上午09:00—11:00,下午14:00—16:00,以及18:00—20:00時段,其余時段事故較少. 白天 2個時段事故較集中主要由長時間的駕駛疲勞以及注意力不集中導致,晚間18:00—20:00事故多發(fā)則因為夜色降臨,視線較差,駕駛員不易辨識前后車距離等導致.
圖3 2017—2018年鄂東長江公路大橋段事故24 h時段分布
1.3.2 鄂東長江公路大橋路段事故空間分布特征
分別繪制滬渝向及渝滬向事故空間分布柱狀圖,將事故空間分布柱狀圖與大橋段實際道路線形結合,形成如圖4所示的事故空間分布圖.
圖4 鄂東長江公路大橋事故空間分布
由圖4可知,滬渝向事故在一定范圍內較為集中,主要為散花收費站附近、北引橋起點附近、花湖互通附近,其余區(qū)間內事故較少;渝滬向事故分布沒有明顯的集中趨勢,在大橋段范圍各區(qū)域較為平均. 對于橋面段而言,滬渝向與渝滬向兩者事故數量均未較其他斷面有所增加,渝滬向橋面段事故稍多于滬渝向.
目前常用的路段單元劃分方法包括定長法及同質法2種[18-19]. 定長法即按照固定長度對研究路段進行劃分,同質法則以道路屬性的變化為劃分依據,常選取的指標包括交通量、限速和其他道路條件. 考慮路段實際及數據支撐情況,結合該路段平面及街景地圖,本文采用同質法與出入口分段結合的思想,在互通樁號點處、車道改變處、曲直分段點處,同時考慮出入口情況,將轄區(qū)G50路段雙向共分為 18個段面. 其中最短斷面508 m,最長斷面3 223 m,平均路段長度1 614 m,具體路段單元劃分結果如圖5所示.
為對該路段內事故數進行預測,以轄區(qū)2018年全年(除10月)217起事故為基礎,收集了包括交通事故、道路幾何設計及交通流3個方面的數據. 其中,事故數據包括事故發(fā)生時間、事故車型及經濟損失等,道路線形數據包括平面線形、車道數、路段長度及出入口類型,交通流量數據包括車流量及其行駛方向.
在對數據分析的基礎上,結合路段單元劃分結果,本文以交通流量和道路線形2類指標為自變量建立事故預測模型,具體備選自變量指標如表3所示.
表3 備選自變量
將收集的交通事故、道路線形及交通流量數據一一對應到劃分的18個路段研究單元上,生成198條數據記錄,即本文建模樣本. 為對該路段事故數進行預測,將事故頻數作為因變量,其余變量作為自變量,自變量中月均流量、貨車比、路段長度為連續(xù)變量,由于月均流量數值較大,故將其取對數處理. 車道數、線形、出入口形式為分類變量,其中車道數、線形(直線、曲線)為二分類變量,出入口形式為四分類變量,將其做啞變量處理,變量描述性統(tǒng)計如表4所示.
在198條事故數記錄中,110條記錄值為0,因變量事故頻數中0值較多,傳統(tǒng)的負二項回歸模型并不適用,因此考慮使用零膨脹負二項回歸模型.
零膨脹負二項回歸建模,將交通事故的發(fā)生看作2個過程:第1個過程對應零事件的發(fā)生,即未發(fā)生事故,此過程中個體取值只能為零,稱為零過程,這解釋了數據中為何存在過多零值;第2個對應事故的發(fā)生過程,此過程中個體的取值為正,該過程稱為計數過程.
零膨脹負二項回歸模型是將原數據集看做1個全為零的數據集與1個滿足負二項分布的數據集的集合,適用于零值較多、過度離散的數據[20-21].其概率分布P(Yi)可表達為:
(1)
式中,Pi為一定時間段內第i個路段未發(fā)生交通事故的概率;yi為第i個路段事故數觀測值;λi為第i個路段事故的期望值;K為離散系數;Г為伽馬函數.
零膨脹負二項回歸模型的均值E(Yi)及方差Var(Yi)分別為:
E(Yi)=(1-Pi)λi
(2)
(3)
當Pi=0時,變量Yi服從均值為λi,方差為λi(1+λi/K)的負二項分布.通常情況下可采用二元Logit模型預測零膨脹負二項回歸模型中事故發(fā)生的概率,因此零膨脹負二項回歸模型可表達為:
(4)
(5)
本文以月均流量、貨車比、路段長度、車道數、線形及出入口形式為自變量,月事故頻數為因變量,構建零膨脹負二項回歸模型.
構建模型時,自變量之間的強相關性可能導致變量間存在多重共線問題,進而影響模型中其余變量的顯著性,因此在建模型前應檢驗自變量間的相關性,以便更加精確地構建模型. 本文借助R軟件,利用Pearson相關系數衡量月均流量、貨車比、路段長度3個連續(xù)變量間的相關性,利用Spearman等級相關系數衡量車道數、線形及出入口形式3個分類變量之間及其與連續(xù)變量之間的相關關系. 自變量共線性檢驗結果矩陣如表5所示.
表5 自變量共線性檢驗結果矩陣
由表5可知,流量與貨車比、路段長度、車道數及出入口形式間存在較大相關性,貨車比與車道數及線形之間也有較大相關性. 將全部自變量代入模型,輸出結果表明流量、斷面長度、曲線與直線3個自變量顯著.
將顯著變量再次迭代至模型,但由于流量、路段長度和路段線形存在相關性,如同時存在將對模型結果產生影響. 因此最終得到2個模型,即模型1和模型2,其自變量分別為流量和路段長度,流量和路段線形. 具體模型輸出結果如表6、7所示.
表6 模型1輸出結果
由表6及表7可知,流量、路段長度、曲線vs直線對高速公路大橋路段事故影響顯著. 流量對路段交通運行有著重要影響,不同流量下的駕駛員駕駛行為也存在差異. 高速公路大橋路段事故數量隨著流量的增加而增加,因此流量是影響事故發(fā)生的因素之一,這與以往的研究結論[22-24]一致. 路段長度也與高速公路大橋路段事故數有關,大橋路段越長,事故數越多. 道路線形對駕駛員的負面影響是造成交通事故的主要原因之一(如彎道處視距不足等),這一結論與Ayati等[25]的結論一致.
表7 模型2輸出結果
1)本文對高速公路大橋路段事故特征及預測模型進行研究. 在對數據描述分析的基礎上,從時空角度對路段事故特征進行分析. 利用同質法與出入口分段結合的思想對路段單元進行劃分,根據收集的事故數據統(tǒng)計特征,選擇構建零膨脹負二項回歸模型對交通事故數據進行擬合,借助R軟件對模型進行求解.
2)研究結果表明,高速公路大橋路段事故在逐月分布上呈現“單月激增,整體均衡”的狀態(tài),在1 d內24 h的時段分布中呈現“M”型分布特征. 從空間角度,滬渝向事故在一定范圍內較為集中,渝滬向事故較為分散. 影響高速公路大橋路段事故發(fā)生的主要因素為流量、路段長度及線形. 流量對路段交通的運行有重要影響,不同流量下駕駛員駕駛行為存在差異. 路段長度也與高速公路大橋路段事故數有關,大橋路段越長,事故數越多. 道路線形對駕駛員有重要影響,如駕駛員可能在曲線處因視距不足而引發(fā)交通事故.
3)交通事故的發(fā)生是1個及其復雜的過程,是眾多因素作用的結果,由于數據限制,本文構建的零膨脹負二項回歸模型未考慮交通事故嚴重度等因素,這可能增大模型誤差且降低其遷移能力,后續(xù)可進一步完善數據資源,使零膨脹負二項回歸模型可用于其他相似道路條件下的交通事故預測.