胡啟文
(中鐵第四勘察設(shè)計院集團(tuán)有限公司, 湖北 武漢 430063)
出入口管理技術(shù)是對出入口車道、中央分隔帶、中央分隔帶開口和輔助車道的位置、車道間距設(shè)計和運行進(jìn)行系統(tǒng)的管理與控制。其目的是在交通規(guī)劃中按照道路功能等級,改善道路與其兩側(cè)用地的交通聯(lián)系,以便提高交通系統(tǒng)的安全性和運行效率[1](特別是主干道和其他主要道路)。因此,出入口管理因素的識別,如信號燈間距、連接車道間距、中央分隔帶等,對于支持主干道進(jìn)行安全、高效的運行,并為道路兩側(cè)用地提供方便的接入起到重要作用。
目前在評價出入口管理技術(shù)對城市主干道出入口安全影響方面,仍存在兩個主要問題(即異質(zhì)性和內(nèi)在性)[2]。受到一些未觀測到的因素影響,不同時間、不同干道上都存在異質(zhì)性,而產(chǎn)生的事故率和運行速度間存在內(nèi)生性,所以為了處理這兩個問題,研究人員嘗試建立了各種模型和方法,但是到目前為止,還沒有統(tǒng)一的標(biāo)準(zhǔn)。而且,在建模之前做了太多的假設(shè),很可能違反模型本身自然屬性導(dǎo)致一些偏頗的推論。
在過去十年中,很多不同的方法和觀點都可以用于交通事故評估[3~6]。研究表明,異質(zhì)性問題可通過有限混合回歸模型和隨機(jī)參數(shù)模型進(jìn)行解決;其中考慮了由于未觀測因素而造成的數(shù)據(jù)或地點的異質(zhì)性,并進(jìn)一步改進(jìn)了估計結(jié)果和統(tǒng)計推斷。然而,在同一主干路發(fā)生的事故可能有共同的未觀測到的因素,估計隨機(jī)參數(shù)所需的分布假設(shè)可能不足以解決這一未觀察到的特征。
通常情況下,上述模型屬于均值回歸,其中模型假設(shè)很難擴(kuò)展到非中心位置,不能夠及時補充自然、真實的數(shù)據(jù),尤其是在同方差的情況下。這時就需要一個更合適和更完整的視域來分析比平均值和方差更廣泛的分布特性。
近年來,分位數(shù)回歸(Quantile Regression, QR)在社會學(xué)、經(jīng)濟(jì)學(xué)、金融學(xué)、醫(yī)學(xué)等領(lǐng)域受到越來越多的關(guān)注[7],但是在交通運輸領(lǐng)域的應(yīng)用仍處于初始階段。分位數(shù)回歸的主要優(yōu)勢是能提供更加完整的視域,并從廣義上對變量之間的關(guān)系進(jìn)行了高度綜合的分析。與均值回歸相比,分位數(shù)回歸并不要求數(shù)據(jù)遵循特定的分布,而是根據(jù)數(shù)據(jù)百分點的分布從不同回歸曲線評估多個方差。而且,因為最終的估計結(jié)果對異常值和多模式的敏感度較小,所以分位數(shù)回歸對于異常值更具有魯棒性。特別要指出的是,分位數(shù)回歸可以在不需要很多假設(shè)的前提下,處理不同地點、不同時間、不同來源數(shù)據(jù)的異質(zhì)性問題,這有助于更清晰地描述不同干道未觀測到的因素。
同樣,結(jié)構(gòu)方程模型作為一種多元分析工具,在社會科學(xué)、教育學(xué)、心理學(xué)、醫(yī)學(xué)等領(lǐng)域得到了廣泛的應(yīng)用[8],一些研究已經(jīng)應(yīng)用在交通領(lǐng)域。結(jié)構(gòu)方程模型的主要目的是利用測量方程和結(jié)構(gòu)方程研究外源/內(nèi)源變量與潛在變量之間的關(guān)系。測量方程主要探討潛在變量對外源/內(nèi)源變量的影響,而結(jié)構(gòu)方程則是衡量結(jié)果與潛在變量之間的關(guān)系。在結(jié)構(gòu)方程模型中,聯(lián)立方程模型是一種特殊情況,它能夠恰當(dāng)?shù)靥幚硗庠葱?內(nèi)源性變量與潛在變量之間的內(nèi)生性關(guān)系。
雖然分位數(shù)回歸和結(jié)構(gòu)方程模型在不同的領(lǐng)域都很流行,但這兩種模型很少被結(jié)合在一起。本文充分利用這兩個模型的優(yōu)點,將分位數(shù)回歸和結(jié)構(gòu)方程模型進(jìn)行整合構(gòu)建了分位結(jié)構(gòu)模型。在分位結(jié)構(gòu)模型中,測量方程是通過分位數(shù)回歸來實現(xiàn)的,它對非正常誤差具有更強(qiáng)的魯棒性,而結(jié)構(gòu)方程則結(jié)合了結(jié)果變量的分位數(shù),使得最終結(jié)果可以同時處理異質(zhì)性和內(nèi)生性問題。
分位數(shù)是將概率分布范圍劃分為具有相同概率的連續(xù)區(qū)間切分點。一些特殊的分位數(shù)是以區(qū)間的長度來指定的,例如,2-分位數(shù)是中位數(shù),4-分位數(shù)是四分位數(shù),10-分位數(shù)是十分位數(shù),100-分位數(shù)被稱為百分位數(shù)。設(shè)p是介于0~1之間的一個數(shù),然后用Q(p)表示連續(xù)隨機(jī)變量y分布的100百分位數(shù),可以表示如下:
(1)
其中,f(y)是密度分布函數(shù)。由方程式(1),Q(p)(0≤p≤1)進(jìn)行轉(zhuǎn)換,定義如下:
Q(p)=F-1(p)=inf{y:F(y)≥p}
(2)
式中:F-1(·)為累積分布函數(shù)的反函數(shù);inf為最大下限值。值得注意的是,Q(0.5)表示中位數(shù),第一和第三分位數(shù)分別為Q(0.25)和Q(0.75),而第95百分位表示為Q(0.95)。因此,Q(P)可以被認(rèn)為是將y的可能值分為兩個階段,即P(y≤Q(p))=p與P(y>Q(p))=1-p。
類似于隨機(jī)樣本的平均值,使得平方差之和最小,隨機(jī)變量y樣本{y1,y2,…,yn}為中位數(shù)導(dǎo)致絕對值偏差之和的極小值。因此,一般情況下,Q(p)可以被解釋為最小值大于或等于Q(p)樣本的加權(quán)平均值的最優(yōu)解。數(shù)值小于或等于Q(p)的樣本如下所示:
(3)
假設(shè)y是變量的線性函數(shù),則:
y=X′β+ε
(4)
式中:y為因變量;β為協(xié)變量;X為未知參數(shù)的向量;ε為隨機(jī)誤差。
因此,優(yōu)化問題可以轉(zhuǎn)化為求解β:
(5)
式中:R為空間矢量的集合;k為X的維度。
對于0與1之間的任意值p,可以看作p式回歸分位數(shù),使加權(quán)絕對殘差之和最小化。
結(jié)構(gòu)方程模型的一般形式如下所示:
(6)
式中:Y為一個實數(shù)因變量;X1為一個實數(shù)內(nèi)源性解釋變量;α1(τ),α2(τ)為未知函數(shù)的權(quán)益參數(shù);β1(θ),β2(θ)為要估計的未知參數(shù);X2,Z1,Z2為輸入變量的向量;ε0,μ0為未觀測值的隨機(jī)變量。為了方便識別,假設(shè)Z2中至少有一個向量不包含在Z1中,錯誤項均值為零,方差為1。正如Xu等[2]文中所述,可以使用兩階段最小二乘法對聯(lián)立方程組模型進(jìn)行估計,并可以適當(dāng)?shù)靥幚韮?nèi)生性問題。
具體而言,事故率(內(nèi)生變量)和平均行駛速度(內(nèi)生潛在變量)之間的相互依存關(guān)系可通過建立下列方程模型加以解決:
(7)
式中:Zi為影響事故率的因素或外源變量矩陣;Mi為影響運行速度的因素或外源變量矩陣;α2,β2為內(nèi)源變量的系數(shù)矩陣;α3為外源變量的系數(shù)矩陣;α1,β1為常數(shù);εi,μi為誤差項。
(8)
其中,η=εi+α2μi,通過這種方法,該方程探討了潛在變量對外因/內(nèi)因變量的影響,而結(jié)構(gòu)方程則探討了因變量與潛在變量之間的關(guān)系。
與方程(4)不同的是,方程(6)是一個均值型回歸模型。但是,如果需要在不同的反應(yīng)水平上更全面地看待因變量和自變量之間的關(guān)系,比如中間值、上尾值、下尾值,方程(6)就不能提供任何信息,此外,方程(6)中的隨機(jī)誤差可能因為不服從正態(tài)分布而違背了假設(shè)。因此,當(dāng)需要解釋自變量對因變量整個分布的影響,且隨機(jī)誤差不符合正態(tài)分布的假設(shè)時,分位結(jié)構(gòu)方程模型是對經(jīng)典結(jié)構(gòu)方程模型的最好選擇和補充。
綜上所述,分位結(jié)構(gòu)方程包括了一組多樣的模型、算法和統(tǒng)計方法,其中聯(lián)立方程組模型是一組線性聯(lián)立方程組的統(tǒng)計模型。我們考慮的分位結(jié)構(gòu)模型的形式如下:
(9)
Yi=α1[μ0+β1Z2]+α2Zi+η
(10)
式中:η=U+α1V。
為了作出α1和α2一致性估計,要求Qη|Z(z)獨立于Z。在此基礎(chǔ)上,利用分位數(shù)模擬方法研究了由于未觀察因素在不同時間不同干道出入口的異質(zhì)性以及導(dǎo)致的事故率與行駛速度之間的內(nèi)生性,并建立方程模型。關(guān)于計算程序的更多細(xì)節(jié),請參閱文獻(xiàn)[9,10]。
本文收集了美國內(nèi)華達(dá)交通運輸局網(wǎng)站中2013—2015年的交通事故數(shù)據(jù),而出入口管理和道路特征、年平均日交通流量AADT的數(shù)據(jù)則相應(yīng)地從Google Earth整合得到。目標(biāo)樣本位于拉斯維加斯大都市區(qū),如圖1所示,共抽樣了400條公路路段,包括27條主要和次要干線。分位數(shù)回歸是事故率,如圖2所示,事故率的分布是傾斜狀態(tài),考慮事故率計算涉及交通流量和道路長度等因素的影響,它比事故頻率更能夠準(zhǔn)確衡量個別駕駛員所面臨和感知的事故風(fēng)險。另一個原因是分位數(shù)回歸模型要求因變量是連續(xù)的,而事故本身是離散型數(shù)據(jù),所以不能被事故頻率所取代。此外,基于數(shù)據(jù)收集的過程,事故數(shù)據(jù)存在很大的異質(zhì)性。同樣,可以看出圖2中平均行駛速度的分布也是傾斜的。更重要的是,事故率與行車速度之間存在內(nèi)生性關(guān)系。因此,在分位結(jié)構(gòu)模型的估計步驟中討論了異質(zhì)性和內(nèi)生性問題。表1給出了主要變量的描述性統(tǒng)計分析。
圖1 拉斯維加斯的選擇路段
圖2 事故率和平均行駛速度統(tǒng)計直方圖
表1 主要變量的匯總統(tǒng)計
建模過程中,采用兩步估計方法對事故率與影響變量之間的關(guān)系進(jìn)行了評價,用Stata 14計算每個估計系數(shù)的置信區(qū)間。表2顯示了外源變量的關(guān)聯(lián)性檢驗,表3給出了在事故率分布的第25,50,65,75,90,95百分位數(shù)上具有統(tǒng)計意義變量的估計系數(shù)和95%的置信區(qū)間。因此,它對具有不同事故率的變量提出了一個更廣泛和完整的視域,也就是說,與其假設(shè)所有主干路之間的系數(shù)是固定的,還不如基于一些或全部的系數(shù)變量來解釋因為未觀測到的因素而造成的異質(zhì)性。
雙向和單向中央分隔帶的開口密度、每條車道的年平均日交通流量和中間變量因為沒有統(tǒng)計學(xué)意義而被忽略,由于商業(yè)用地密度與車道密度高度相關(guān),因此僅考慮車道密度的影響,如表2所示,更多的車道都位于商業(yè)用地。
表2 變量的關(guān)聯(lián)性檢驗
表3 分位結(jié)構(gòu)模型和聯(lián)立方程模型的估計結(jié)果
注:*表示在5%的顯著性水平上;括號中的數(shù)值為t值;PREDSP是根據(jù)分位結(jié)構(gòu)模型中運行速度方程的簡化形式預(yù)測出的運行速度;Intercept為截距
一般來說,每個分位數(shù)估計系數(shù)的總體模式和根據(jù)重要變量數(shù)量以及個別變量符號聯(lián)立的方程組模型相一致。與以往的研究類似,事故率隨著車道密度和中央分隔帶開口密度的增加而增加,而當(dāng)住宅用地密度越大時,車輛運行速度越低,事故率就越小。然而仔細(xì)研究估算系數(shù)的大小,就會發(fā)現(xiàn)分位數(shù)之間有一些相似之處和不同之處。首先,每條車道的AADT對事故率的影響并不顯著,所以為了讓公式具有意義,變量的單位盡量保持一致,事故率的計算采用每條車道的年平均日交通量AADT,而非該道路的AADT。
其次,與聯(lián)立方程組的結(jié)果一致,中央分隔帶開口密度和行程速度是影響分位數(shù)0.9的兩個最重要的因素。而車道密度從分位數(shù)0.65開始就不顯著,住宅用地密度從75%開始沒有顯著性差異,除中央分隔帶開放密度外,所有變量在分位數(shù)0.95都不顯著。大部分變量在分位數(shù)0.95時不顯著的原因不僅是因為獲得的事故數(shù)據(jù)影響較小,而且還存在所列出變量以外其他的影響因素,如車輛問題、駕駛員問題、甚至行車環(huán)境條件等等。這表明在評估城市干道出入口的安全影響時,可能需要考慮數(shù)據(jù)集的多樣性。
對于平均速度模型來說,信號間距和車道密度在所有分位數(shù)中都是顯著的,這意味著這兩個變量都是影響行車速度的關(guān)鍵因素。信號間隔越長,車道密度越低,行車速度越大。限制速度直到0.65的效果都是非常顯著的,表明較高的速度限制會提高行車速度。車道密度對行車速度具有負(fù)相關(guān)意義,這意味著較高的車道密度會降低行車速度。所有的重要變量都與聯(lián)立方程模型的結(jié)果相一致。
圖3顯示了所有顯著變量系數(shù)的估計結(jié)果。實線表示0.25,0.50,0.65,0.75,0.90的系數(shù),它們被表示95%置信區(qū)間的兩條虛線所包圍。由于某些變量在分位數(shù)0.95中不顯著,系數(shù)圖可能偏向直線趨勢,因此不做考慮。
圖3 變量系數(shù)的分位數(shù)變化圖
下面對圖3中的顯著變量進(jìn)行解釋:
從圖3a開始,連接車道密度直到0.65對事故率有顯著正相關(guān)性。這表明與具有相同車道特性的其它路段相比,連接車道密度的增加將使城市干道出入口的事故率發(fā)生顯著變化。然而,連接車道密度在0.75的影響較小,這表明連接車道密度的變化對事故率的影響甚微,從而導(dǎo)致圖3a中所有三條線的趨勢是不確定的。對這一發(fā)現(xiàn)的一個可能解釋是連接車道密度對事故率的影響是有限的,當(dāng)數(shù)值到達(dá)一個極限時,影響便無法確定。
對于圖3b中的中央分隔帶開口密度,它對事故率的整個分布趨勢都有顯著影響,表明中央分隔帶開口密度對事故率的影響是顯著的。中央分隔帶開口密度越大,沖突發(fā)生的次數(shù)就越多,從而導(dǎo)致更多的事故。
顯然,從圖3c可以看出,直到0.75,住宅用地使用密度與事故率之間存在負(fù)相關(guān)性。影響趨勢從0.25下降到0.75,這意味著對于居住用地密度較高的干道出入口,事故率顯著降低,但在這之后,下降趨勢是不確定的。這表明,住宅用地使用密度對事故率的影響也是有限的。
如預(yù)期的那樣,行車速度與圖3d中所有數(shù)據(jù)的事故率呈正相關(guān),效應(yīng)趨勢從0.25的1.02上升到0.90的10.845,這意味著高分位數(shù)下的事故率增幅大于低分位數(shù)時的事故率增幅,這與圖2中的行車速度直方圖相對應(yīng)。表明行車速度越高,事故率越大。特別是當(dāng)行車速度達(dá)到極限時,撞車可能失去控制。這就是為什么當(dāng)一些司機(jī)賽車時,如果發(fā)生撞車事故,其影響是災(zāi)難性的。
表4 分位結(jié)構(gòu)模型與一般結(jié)構(gòu)方程模型誤差比較
總的來說,可以發(fā)現(xiàn)分位結(jié)構(gòu)模型不僅提供了更全面和準(zhǔn)確的結(jié)果,可以更好地描述出入管理和其他影響因素對事故率的影響,同時還解決了異質(zhì)性和內(nèi)生性問題。
本文提出了分位數(shù)聯(lián)立方程模型作為分析事故率數(shù)據(jù)的一種方法,并針對城市交通中的異質(zhì)性和內(nèi)生性問題,確定了影響城市干道出入口管理的因素。兩個關(guān)鍵結(jié)論包括:(1)將分位數(shù)回歸與聯(lián)立方程模型相結(jié)合,聯(lián)立方程模型考慮了事故率與行車速度的內(nèi)生性關(guān)系,而分位數(shù)回歸不同于平均回歸,它估計了不同事故率的分位數(shù),并解釋了因為未觀測因素造成的異質(zhì)性,因此,內(nèi)生性和異質(zhì)性問題通過分位數(shù)聯(lián)立方程模型可以得到有效解決;(2)與一般的結(jié)構(gòu)模型相比,分位
數(shù)回歸避免了平均回歸的假設(shè)性,提供了更全面準(zhǔn)確的信息,闡述出入口管理和其他影響因素對事故率的影響。利用內(nèi)華達(dá)州交通運輸局的事故數(shù)據(jù)集(2013—2015年)來建立模型,與一般的聯(lián)立方程模型相比,該模型以不同的分位數(shù)分析了事故數(shù)據(jù)的詳細(xì)信息,并提供了更準(zhǔn)確的預(yù)測。
在未來的研究中,可以通過將離散變量轉(zhuǎn)化為連續(xù)變量來考慮事故的嚴(yán)重程度。此外,本研究結(jié)論僅限于上述數(shù)據(jù)集,以后可以補充更多的變量,以便于獲得更準(zhǔn)確的結(jié)果。