張宇杰 丁 劍 周文娜 李志斌
(東南大學交通學院 南京210096)
交通事故頻數(shù)建模是交通安全研究領域常用分析方法,可以定量評估道路幾何特征及交通流量等預測變量對于事故頻數(shù)的影響,其結果對于交通事故數(shù)量預測、控制事故發(fā)生影響因素從而降低事故數(shù)量及提高交通安全具有重要意義。傳統(tǒng)交通事故頻數(shù)建模采用多年平均年交通事故頻數(shù)分析已減少數(shù)據(jù)隨機性,并采用極大似然估計法對模型中變量參數(shù)值進行估計[1-3,13]。
由于交通事故數(shù)據(jù)在記錄與獲取方面的問題,發(fā)展中國家學者在進行事故頻次建模中往往受到小樣本量問題的約束,導致極大似然估計結果存在偏差[4]。將每年的事故數(shù)據(jù)作為獨立的觀測值進行建模在小樣本的情況下增加了數(shù)據(jù)量,但卻忽略了每年事故數(shù)之間內(nèi)在聯(lián)系。從統(tǒng)計學的角度來看,數(shù)據(jù)之間的時間相關性很可能對模型精度造成不利影響[5]。近年來,形成了很多解釋事故數(shù)預測模型中數(shù)據(jù)的時間相關性的算法,大多數(shù)研究表明帶有時間相關的數(shù)據(jù)預測模型優(yōu)于傳統(tǒng)模型,但這些模型并不一定能很好的解決發(fā)展中國家所遇到的問題[6]。因此,有必要結合發(fā)展中國家特定的交通安全研究需求,為其選擇合適的模型提供參考。
本文旨在評價廣義估計方程算法在解決發(fā)展中國家學者們在交通事故分析時遇到的小樣本數(shù)據(jù)和數(shù)據(jù)時間相關性之間的矛盾的效果。廣義估計方程算法已經(jīng)被應用于克服事故數(shù)據(jù)之間的時間相關性[5,7-8]。為達到研究目的,本研究采集了中國一條高速公路出口匝道的4年事故數(shù)據(jù),分別采用了基于累積統(tǒng)計值和逐年統(tǒng)計值的傳統(tǒng)廣義線性模型以及基于廣義估計方程算法的廣義線性模型對事故數(shù)進行了估計,并比較了不同模型之間的效果。本文研究成果能夠?qū)Πl(fā)展中國家相關領域的學者在建立精確的交通事故數(shù)估計模型和推斷事故統(tǒng)計值的影響因素方面提供有效信息。
廣義線性模型已被應用于交通事故數(shù)建模,而廣義估計方程也被用來說明縱向數(shù)據(jù)的時間相關性。累積剩余測試以及類分析也用于對模型的評價。
廣義線性模型是原始的線性回歸的一種靈活的擴展,它允許響應變量和說明變量是其預測值的函數(shù)。廣義線性模型最重要的性質(zhì)就是其指定隨機成分的概率分布的靈活性。在使用廣義線性模型進行分析交通事故數(shù)時,隨機成分多服從泊松分布或正態(tài)分布[4-5]。廣義線性模型用于交通事故數(shù)建模的基本形式如下式:
式中:E{μ}為出口匝道每年事故數(shù)的期望;F1和F2分別為主線和匝道的每年的日平均交通量;Xj為第j個按年度累積的說明變量(j=3,4,…,J);βj為第j個被估計的系數(shù) (j=0,1,…,J)。
廣義線性模型中的參數(shù)按最大似然估計法求出[4]。但是在面臨小樣本建模的情況時,通常采取縮短數(shù)據(jù)時間間隔的方法來擴大樣本。此時模型修改成以下形式
式中:E{ut}為第t年(t=1,2,3,4)出口匝道事故數(shù)的期望;F1(t)和F1(t)分別為主線和匝道的第t年的日平均交通量;XJ(t)為第t年的第j個說明變量。
式(2)中的每年的事故值之間有著一定的相關性,因此采用廣義估計方程來計算式(2)中的系數(shù)。方程如下。
式中:Di=u/β為關于回歸參數(shù)均值的倒數(shù)組成的J×T維矩陣;Vi為由下式定義的協(xié)方差矩陣[5]。
式中:Ai為以V(μit)作為第t個對角元素的對角矩陣;R(λ)為重復對象之間的時間相關性的一個T×T的矩陣;λ為相關性類型,其中λ=[λ1,…,λn-1];λi=Cov(Yt,Yk)(t,k=1,…,n-1,t≠k)(Cov為變量之間的協(xié)方差);T為年數(shù)。
在實際情況中,相關性矩陣的每一個元素難以確定,因此,Liang和Zeger[11]提出了一種“工作”矩陣的方法來解決基于廣義估計方程的上述模型。通常使用的相關結構有以下4種:獨立型、互換型、自回歸型以及無組織型。
傳統(tǒng)的擬合優(yōu)度試驗并不適合廣義估計方程,因此我們選擇殘差累積試驗和III型分析來評價各模型的效果。殘差累積試驗對連接函數(shù)的效果進行幾何和數(shù)值兩方面的檢驗。該方法不單純 依 賴 于 樣 本 數(shù) 目[7-8,10,12],如 果 模 型 是 正 確 的,殘差值一般在0值附近,且殘差關于任何坐標的圖像沒有系統(tǒng)的趨勢。該試驗的指標主要有:觀察累積的最大絕對值和柯爾莫戈洛夫型上確界試驗的p值。絕對值越小,p值越大,模型效果越好。III型分析主要用來確定變量的相對重要性[7-8]。其主要指標是每個變量的III型卡方。此外,較小的p值說明,變量較為重要。
由于廣義估計方程的算法已經(jīng)較為成熟,很多統(tǒng)計分析軟件都已經(jīng)具備相應的函數(shù)庫。本文的數(shù)據(jù)分析在SPSS17.0中實現(xiàn)。在軟件中,首先按以下步驟進入廣義估計方程菜單Analyze-Generalized Linear Models-generalized estimating equations,再根據(jù)數(shù)據(jù)分析的需要在Repeated、type of model等選項卡中設置參數(shù)即可進行相應的數(shù)據(jù)分析[9-10]。
本文建模事故數(shù)據(jù)來自于2006~2009年我國某高速公路的32個地點的出口匝道。交通事故的統(tǒng)計信息見表1??梢钥闯鍪鹿暑l數(shù)的方差明顯大于均值,因此本文事故數(shù)據(jù)存在明顯的過度分散特征,采用負二項分布來擬合事故頻次分布。而與事故發(fā)生相關的一些變量,如道路幾何條件、極端天氣比率以及道路設計速度等。
表1 獨立因變量數(shù)據(jù)匯總Tab.1 Statistics of dependent variables
由于本文所研究的事故數(shù)據(jù)具有離散性,采用隨機成分服從負二項分布的廣義線性模型較為合適。本節(jié)根據(jù)前文算法以及數(shù)據(jù),對基于累積事故數(shù)和逐年事故數(shù)的廣義線性模型以及基于廣義估計方程的廣義線性模型的建模效果分析。
2種廣義線性模型用于估計的數(shù)據(jù)有所不同。第1種模型(模型1)使用的是4年累計事故數(shù)的平均值,共32個樣本。第2種模型(模型2)將4年每年的事故數(shù)都用于建模。樣本量為128。根據(jù)式(1)和(2),研究謹慎選取了說明變量進行建模(至少在一個模型中有效,此變量才會用于建模)。分析結果發(fā)現(xiàn),在90%置信水平下,模型2估計結果表明,主線、匝道交通量,道路坡度,極端天氣率和右側(cè)路肩寬度這5類因素與事故的發(fā)生緊密相關,而模型1只估計到極端天氣率和右側(cè)路肩寬2個因素的重要性,這與直觀認識很不相符。
建模結果很有力的證明了樣本量的擴大對于事故估計精度提高的作用。上述分析結果表明,在對事故數(shù)目分析遇到樣本量較小的情況時,可以將每年的事故數(shù)看成一個獨立對象進行分析來擴大樣本量。這樣有利于獲得更加精確的預測模型,避免出現(xiàn)過大的偏差和錯誤的推斷。這樣的結論尤其對數(shù)據(jù)匱乏的發(fā)展中國家的學者有著重大意義。
傳統(tǒng)的廣義線性模型認為響應變量(本文中指事故統(tǒng)計值)是相互獨立的,其實對于在每個地點隨時間不斷重復的縱向數(shù)據(jù)而言卻并非如此。不同年份的事故數(shù)會受到與匝道固定性質(zhì)有關的一些未被重視的因素的影響而產(chǎn)生關聯(lián)性。但模型2并沒有考慮時間相關性的存在,所以仍然會使模型的估計存在一定的偏差。
基于廣義估計方程算法的廣義線性模型用以解決將每年事故數(shù)獨立化后產(chǎn)生的時間相關性問題。本研究對以下4種相關結構進行了實驗:獨立型、互換型、自回歸型以及無組織型。模型估計結果見表2。
不難看出,在不同結構下,說明變量的系數(shù)和標準差幾乎一致。這說明了廣義估計方程算法的健壯性較好,即在協(xié)方差矩陣不一定準確的情況下仍能進行較好的估計[5]。雖然估計結果相近,但不同結構對于模型預測影響仍然存在。
估計時使用的協(xié)方差矩陣表示見表3。
而且在表2中,互換式結構的結果的最大絕對值最小,p值最大。這些分析說明互換式的工作結構較為適合本研究的數(shù)據(jù)特性。
互換式結構假定在同一個匝道的多次觀測值之間相關性是不變的。表3中的2個連續(xù)觀測值之間的相關性一直用0.271意味著同一個匝道的不同年份的事故數(shù)之間有著很重要的時間相關性。而這一相關性不應在建模中被忽略[5,7-8]。
根據(jù)上述成果,不難得出以下結論:①當每年的事故觀測值獨立化之后,數(shù)據(jù)之間存在明顯的時間相關性;②互換式的工作結構是用廣義估計方程建模時最適合本研究所使用的數(shù)據(jù)的。
表2 廣義估計方程估計結果Tab.2 Model estimating results of GEEs
表3 估計的工作相關性結構Tab.3 Estimated working correlation structures
由于前文已經(jīng)對用累積的事故數(shù)和逐年的事故數(shù)建模的廣義線性模型作了比較分析,此處不再贅述。本節(jié)主要對比前文中模型2和基于廣義估計方程的廣義線性模型(模型3)的結果。
通過對比表2中的數(shù)據(jù),可以發(fā)現(xiàn),模型2和模型3的系數(shù)是相近的,但是前者的標準誤差明顯大于后者。這是數(shù)據(jù)間的時間相關性造成的,而且變量對于事故發(fā)生的重要性也會因此下降。
因此本研究進行了III型分析來評價來檢驗說明變量的相對重要性。結果如表4所示。
表4 不同模型的III型分析Tab.4 Type III analyses for different models
與模型2相比,模型3的III型卡方值總體上要小,p值也相對大。由此可見,未對數(shù)據(jù)的時間相關性進行處理會對變量的重要性做出過高的估計。
本研究的成果也說明,在建模過程中如果不對時間相關性做出合適的考慮,事故數(shù)的變化就會被錯誤的歸結于主要變量的變化,而非一些未被注意到的變量。傳統(tǒng)的廣義線性模型的預測效果實質(zhì)上是受到一些未被注意到的變量影響的,所以,即使傳統(tǒng)模型擬合的效果較好,該模型的論斷仍有可能存在偏差乃至錯誤。
在90%的置信水平下,右側(cè)路肩寬這一變量在模型2中重要性較高,但在模型3中卻不然。不難看出,雖然在路肩較窄的匝道上事故相對多,但這不一定是路肩寬度造成的,如不良的路面、不安全的道路幾何設計等不被注意的因素也會對事故的發(fā)生造成影響。如果路肩寬度這一因素在預測出口匝道的正常安全水平時沒有被正確考慮,那么,事故高發(fā)區(qū)也就不能被準確的確定。用廣義估計方程來解決數(shù)據(jù)的時間一致性提高了模型的精度和論斷的準確性,為道路安全工作者在危險匝道采取正確措施提供了寶貴參考。
研究結果表明,由于樣本容量的限制,基于累積統(tǒng)計值的模型預存費效果不佳。數(shù)據(jù)獨立化之后的模型表現(xiàn)要強于前者,但由此產(chǎn)生了數(shù)據(jù)之間的時間相關性。而互換式結構下的廣義估計方程模型準確把握了不同年份的事故數(shù)之間的相關性。
通過模型之間的對比,可以發(fā)現(xiàn),傳統(tǒng)模型容易低估說明變量的標準誤差,從而對變量的重要性做出錯誤的論斷。而基于廣義估計方程的廣義線性模型把握了數(shù)據(jù)之間時間相關性的特點,每個變量對事故的影響也被估計的更加精確。在當前數(shù)據(jù)集下,路肩寬度這一在傳統(tǒng)模型中較為重要的因素在改進模型中的重要性就有所降低。與出口匝道事故相關的其他因素包括主線日交通量、匝道日交通量、坡度和極端天氣率。
本研究的研究結果表明基于廣義估計方程的廣義線性模型對發(fā)展中國家的交通事故分析是合適有效的。它可以解決發(fā)展中國家交通事故數(shù)據(jù)不足的問題,也可以在數(shù)據(jù)時間相關性不明確的情況下建立合適簡便的事故預測模型。此外,很多統(tǒng)計軟件已具備相應的廣義估計方程的函數(shù)。本研究為準確估計各因素對事故的影響以及確定事故高發(fā)區(qū)提供了有效參考。
[1] Chen H,Liu P,Lu J J,et al.Evaluating the Safety Impacts of the Number and Arrangement of Lanes on Freeway Exit Ramps[J].Accident Analysis and Prevention,2009,41(3):543-551.
[2] Chen H,Zhou H,Zhao J,et al.Safety Performance Evaluation of Left-Side Off-Ramps at Freeway Diverge Areas[J].Accident Analysis and Prevention,2011,41(3):605-612.
[3] Liu P,Chen H,Lu J,et al.How arrangement of lanes on freeway mainlines and ramps affects safety of freeways with closely spaced entrance and exit ramps?[J].ASCE Journal of Transportation Engineering,2010,136(7):614-622.
[4] Washington S,Karlaftis M,Mannering F.Statistical and econometric methods for transportation data analysis[C]∥Floridar:Chapman & Hall/CRC,Boca Raton,F(xiàn)L,2010.
[5] Lord D,Persaud B N.Accident prediction models with and without trend:application of the generalized estimating equations procedure[J].Journal of the Transportation Research Board,2000(1717):102-108.
[6] Lord D,Mannering F.The statistical analysis of crashfrequency data:a review and assessment of methodological alternatives[J].Transportation Research Part A:Policy and Practice,2010,44(5):291-305.
[7] Wang X,Abdel-Aty M.Temporal and spatial analyses of rear-end crashes at signalized intersections[J].Accident Analysis and Prevention,2006,38(6):1137-1150.
[8] Wang X,Abdel-Aty M.Modeling left-turn crash occurrence at signalized intersections by conflicting patterns[J].Accident Analysis and Prevention,2008,40(1):76-88.
[9] 朱 玉,王 靜,何 倩.廣義估計方程在SPSS統(tǒng)計軟件中的實現(xiàn).[J].中國衛(wèi)生統(tǒng)計,2011,28(2):199-201.
[10] 張文彤,田曉燕.基于廣義估計方程的多重應答資料統(tǒng)計分析[J].中國衛(wèi)生統(tǒng)計,2004,21(3):139-141.
[11] Liang K Y,Zeger S L.Longitudinal data analysis using generalized linear models[J].Biometrika,1986,3(1):13-22.
[12] Hauer E.Statistical road safety modeling[J].Journal of the Transportation Research Board,2004(1897):81-87.
[13] 熊 惠,孫小端,賀玉龍,等.高速公路運行速度與交通安全關系研究[J].交通信息與安全,2012(6):48-51,56.