劉亞洲
(招商局重慶交通科研設(shè)計院有限公司, 重慶 400067)
基于方差分析與Logistic回歸模型的公路交通事故率研究
劉亞洲
(招商局重慶交通科研設(shè)計院有限公司, 重慶 400067)
為了能夠?qū)方煌ㄊ鹿实陌l(fā)生進行有效控制,采用方差分析方法對交通事故率的相關(guān)因素進行統(tǒng)計分析,得知疲勞駕駛、車速、超載、道路幾何線形、車道寬度、交通流、交通密度、交叉口間距和氣象條件9個相關(guān)因素對交通事故率的影響較為顯著?;贚ogistic回歸模型理論,建立交通事故率回歸模型,定量分析各個影響因子對交通事故率的影響程度。結(jié)果表明:車道寬度、超載、車速、交叉口間距對交通事故率的影響程度最大。
交通事故;方差分析;Logistic;回歸模型
隨著高速公路建設(shè)的快速發(fā)展,我國高速公路交通安全問題成為研究的熱點。在人-車-路-環(huán)境系統(tǒng)體系中,由于某因素條件的改變可引起交通事故的發(fā)生,因此應(yīng)加強對公路交通事故率相關(guān)因素的探索與研究。景天然[1]依據(jù)大量交通事故數(shù)據(jù)與調(diào)查資料,分析了城市道路條件,包括交通飽和度、路面寬度、交叉口間距和交通量等,與交通事故率之間的關(guān)系。在交通事故率的相關(guān)因素研究過程中,一些研究學者分別從駕駛員、平面線形、氣象條件、交通流等幾方面對交通事故率進行了深刻研討[2-7]。王洪明、陳斌等[8-9]對我國公路交通事故現(xiàn)狀進行了特征分析,分析表明西部地區(qū)高速公路的交通事故仍呈增長趨勢。這些研究中,僅僅只考慮了單因素對交通事故率的影響,且不清楚各個單因素對交通事故率的具體影響程度。因此,本文采用方差分析方法對交通事故率的相關(guān)因素進行統(tǒng)計分析時,首先面臨的問題是對交通事故率的相關(guān)因素進行篩選,找出影響程度明顯的幾個因素,并將其作為代表變量,再利用這些主要影響因素對事故率進行回歸分析,探討其對事故率的綜合影響。
在人-車-路-環(huán)境道路體系中,根據(jù)專家調(diào)查法,可認為交通事故率的相關(guān)因素如表1所示。在獲取交通信息前,需對其數(shù)據(jù)進行預(yù)處理,將定性或定量變量進行規(guī)范化,以便于后期對其建模。
表1 交通事故率的相關(guān)因素
由于影響交通事故的因素很多,一些因素可能對交通事故率的影響程度不夠顯著,且變量太多可能會給后期構(gòu)建回歸分析結(jié)果帶來嚴重影響,因此,本文首先對交通事故率的影響因素進行顯著性篩選,剔除那些影響不夠顯著的因素。下面采用方差分析方法對人(包括年齡、性別、疲勞駕駛及車速)、車(包括超載和制動性)、道路(包括道路幾何線性、路面狀況、車道寬度、交通流、交通密度及交叉口間距)、環(huán)境(包括氣象條件和溫度)4大類變量進行顯著差異區(qū)分。
方差分析[10]實質(zhì)上就是對觀測值的變異情況進行數(shù)量分析。從變異性角度出發(fā),可將觀測值的總變異分解為如下2部分:
1) 由各因素水平改變引起的變異,稱為組間變異;
2) 由個體差異(隨機因素、誤差)引起的變異,稱為組內(nèi)變異。
實踐表明,任一事物的影響因素很多,因此,要想辨別出交通事故率具有哪些顯著性因素,且探索其顯著因素的邊際影響效應(yīng),是當前面臨的主要問題。
變量X組間變異的計算公式為:
(1)
變量X組內(nèi)變異的計算公式為:
(2)
變量X標準差的計算公式為:
(3)
式中:S是標準差;n為群組i和j數(shù)據(jù)個數(shù)的總和;n-1為整體數(shù)據(jù)的自由度。
將所有數(shù)據(jù)的離差平方和(SS)分解成組間的平方和(SSG)與誤差平方(SSE)2部分,計算公式分別為:
SS=SSE+SSG
(4)
(5)
(6)
因此,可由式(3)計算出整體數(shù)據(jù)的均方差(平方和與自由度的比值):
(7)
式中:MS為均方差;DF為自由度。
將總均方差分解為組間方差(MSG)和誤差方差(MSE)2部分,并利用統(tǒng)計量F來表示自變量對因變量影響的顯著性,計算公式為:
(8)
將該F值與統(tǒng)計分析得到的F值進行比較,若觀測的F值大于理論值,則可認為各因素水平之間存在顯著差異。
本文對重慶市某高速公路2011—2013年的交通事故信息進行了統(tǒng)計,對原始數(shù)據(jù)信息進行預(yù)處理后,應(yīng)用STATA軟件對其進行了方差分析,結(jié)果如表2所示。
表2 方差分析結(jié)果
由表2可以發(fā)現(xiàn),疲勞駕駛、車速、超載、道路幾何線形、車道寬度、交通流、交通密度、交叉口間距和氣象條件9個因子變量的概率P均小于0.05,表明9個因子變量對交通事故率的影響比較顯著。
3.1 模型建立
將交通事故看作二分因變量yi(yi=0表示該交通事故沒有發(fā)生,yi=1表示該交通事故發(fā)生),建立Logistic回歸模型[11],對因變量交通事故率和以上分類自變量進行回歸分析。 每個事故案例中,各個自變量X=(X1,X2…,Xn)可以被認定為定量或定性變量,也可以被認為是連續(xù)或離散變量。 將第i個事故案例會發(fā)生的概率P(Yi)簡寫為Pi,記為:
Pi=P(yi=1|X1,X2,…,Xn)
(9)
二分類Logistic回歸模型公式為:
(10)
因此,可以計算Pi值:
(11)
式中:α為常數(shù)項;βi為回歸系數(shù),其代表解釋變量與因變量的相關(guān)性。
通常,計算某事件發(fā)生的概率時應(yīng)采用事件發(fā)生和不發(fā)生概率的比值作為參考指標,也稱其為相對風險比,簡稱發(fā)生比。發(fā)生比的表達式為:
(12)
發(fā)生比率exp(β)是衡量相關(guān)因子變量對因變量事故率影響程度的重要指標。當因子變量每增加1個單位,因變量事故率將增加exp(βi)個單位。
3.2 結(jié)果分析
本文依托重慶市繞城高速公路G5001南彭鎮(zhèn)至復(fù)盛鎮(zhèn)段交通事故調(diào)查表,利用STATA對該路段在2011—2013年內(nèi)的交通事故數(shù)據(jù)進行了多元Logistic回歸,回歸分析結(jié)果如表3所示。另外,對模型的擬合優(yōu)度進行了ROC檢驗 ,ROC 檢驗值達到 0.75 以上,表明回歸模型模擬效果較好。
表3 Logistic回歸模型結(jié)果
注:t為統(tǒng)計量。
由表3可知,車道寬度、超載、車速、交叉口間距、交通流是交通事故率的主要影響因素;車速每增加1個單位,其會致使交通事故率增加exp(0.175 6)個單位。
對交通事故數(shù)據(jù)進行多元Logistic回歸時,將各自變量的回歸系數(shù)代入Logistic回歸模型中,可得:
本文對交通事故統(tǒng)計數(shù)據(jù)中所采集的相關(guān)因素進行了方差分析,找出其影響顯著的相關(guān)因素,并通過建立的Logistic回歸模型對顯著因素進行了Logistic回歸分析,以觀察各因素對因變量交通事故率的影響程度?;诒疚难芯?得出以下結(jié)論:
1) 對交通事故率具有顯著影響的相關(guān)因素為疲勞駕駛、車速、超載、道路幾何線形、車道寬度、交通流、交通密度、交叉口間距和氣象條件。
2) 交通事故率的相關(guān)因素對其的影響程度大小排序為:車道寬度>超載>車速>交叉口間距>交通流>交通密度>道路幾何線性>氣象條件>疲勞駕駛。
3) 對于交通不安全或危險路段,可從車道寬度、超載、車速、交叉口間距、交通流等幾方面采取相應(yīng)的搶險措施,及時疏通交通。
4) Logistic回歸模型可用于預(yù)測在不同因素條件下的交通事故率,進而評估某城市潛在危險路段的分布區(qū)域。
[1]景天然.城市道路條件與交通事故率的關(guān)系[J].同濟大學學報,1992,20(3):335-340.
[2]朱 嘉.對滬杭甬高速公路交通事故率影響因素的計量分析[J].公安大學學報(自然科學版),2002(1):58-60.
[3]郭應(yīng)時,付 銳,袁 偉,等.山區(qū)公路事故率與平面線形的關(guān)系[J].交通運輸工程學報,2012,12(1):63-71.
[4]白永清,何明瓊,劉 靜,等.高速公路交通事故與氣象條件的關(guān)系研究[J].氣象與環(huán)境科學,2015,38(2):66-71.
[5]陳雪梅,高 利,魏中華,等.駕駛員因素與交通事故率的關(guān)聯(lián)性[J].北京工業(yè)大學學報,2007,33(7):697-701.
[6]吳 勇,劉新榮,李 蕊.快速路分流區(qū)事故率與交通密度的關(guān)系[J].西南交通大學學報,2014,49(1):134-140.
[7]吳 勇,劉新榮.快速路路段類別事故率與交通流狀態(tài)關(guān)系[J].中國公路學報,2013,26(3):150-157.
[8]陳 斌,袁 偉,付 銳,等.連續(xù)長大下坡路段交通事故特征分析[J].交通運輸工程學報,2009,9(4):75-84.
[9]王洪明.我國公路交通事故的現(xiàn)狀及特征分析[J].中國安全科學學報,2009,19(10):121-126.
[10]楊小勇.方差分析法淺析-單因素的方差分析[J].實驗科學與技術(shù),2013,11(1):41-43.
[11]許月卿,田 媛,孫丕苓.基于Logistic回歸模型的張家口市土地利用變化驅(qū)動力及建設(shè)用地增加空間模擬研究[J].北京大學學報(自然科學版),2015,51(5):955-964.
Study on Road Traffic Accident Rate Based on Variance Analysis and Logistic Regression Model
LIU Yazhou
In order to effectively control the occurrence of road traffic accidents,this paper pays uses the variance analysis method to statistically analyze the relevant factors of traffic accident rate,and the results showed that there are nine factors of fatigue driving,speed,overload,road geometry,lane width,traffic flow,traffic density,intersection distance and weather conditions have obvious influence to traffic accident rate. Based on logistic regression model,this paper sets up traffic accidents regression model to quantitatively analyze the influence degree of each influence factor to traffic accidents rate. Results show that lane width,overload,vehicle speed and intersection distance have the most significant influence on traffic accident rate.
road traffic accident; variance analysis; Logistic; regression model
10.13607/j.cnki.gljt.2016.06.031
2016-07-28
劉亞洲(1984-),男,江蘇省泗陽縣人,本科,工程師。
1009-6477(2016)06-0144-04
U491.3
A