王 潔,曲曉黎,2,張金滿
(1.河北省氣象服務(wù)中心,河北 石家莊 050021;2.河北省氣象與生態(tài)環(huán)境重點實驗室,河北 石家莊 050021)
隨著經(jīng)濟的高速發(fā)展,我國高速公路通車里程、車流量逐年大幅持續(xù)增長,高速交通安全成為社會廣泛關(guān)注的熱點問題[1-2]。河北是京津冀現(xiàn)代化交通網(wǎng)絡(luò)系統(tǒng)樞紐,特殊地理位置的交通保障對京津冀協(xié)同發(fā)展至關(guān)重要,截至2018年,河北省高速公路里程數(shù)達7279 km,升至全國第二位,民用汽車保有量達1964萬輛,位居全國第五。然而,不利氣象條件是影響高速公路安全運行的重要因素之一[3-7],低能見度、暴雨、暴雪等極端天氣誘發(fā)的高速公路交通事故往往是災(zāi)難性的[8-10]。在全球氣候變暖背景下,極端天氣氣候事件越發(fā)頻繁,各類不利天氣條件對交通運輸安全、交通流量與效率的影響愈加凸顯,因此亟需開展與之相應(yīng)的高速公路氣象預(yù)報預(yù)警精細化研究。
近年來,針對氣象條件對交通事故的影響開展了諸多研究,主要以不同區(qū)域高速路段為對象,分析降水、能見度、溫度、風速等氣象要素對交通事故的影響比重和氣候變化特征[11-17],并基于能量輻射平衡法[18-19]、多元線性回歸[20]、邏輯回歸[21-23]、層次分析[24]等方法建立高速公路氣象預(yù)警模型,相應(yīng)開發(fā)了道路結(jié)冰、大霧、高溫等風險預(yù)警服務(wù)產(chǎn)品。然而,不同氣象要素間存在多重共線性問題,且不同地區(qū)氣候、地形地貌等差異較大,使得交通事故的影響因子不同,納入模型的因子也不同,故模型均具有一定的區(qū)域適用性。主成分分析法(principal component analysis,PCA ),是對原始觀測變量做降維簡化處理,可有效消除不同氣象要素間的多重共線性問題。
河北省地處中緯度沿海與內(nèi)陸交接地帶,自西北向東南依次為壩上高原、燕山和太行山地、河北平原三大地貌單元,高速路網(wǎng)織密,是京津冀交通一體化的關(guān)鍵環(huán)節(jié),高速公路沿線多橋梁、隧道等,受災(zāi)害性天氣和局地小氣候影響,河北省高速交通事故發(fā)生率極高,死亡人數(shù)位居全國前十。目前,結(jié)合地形、路網(wǎng)密度等,得到霧天河北高速公路通行預(yù)警指標[25],開展了路面溫度特征及預(yù)報模型研究[26],然而關(guān)于大風、強降水等對交通事故的影響尚未有定論。本文擬利用14種氣象要素觀測資料和交通事故數(shù)據(jù),通過主成分分析方法,篩選出貢獻率高的公因子引入二元Logistic回歸模型,探究不良天氣條件對河北交通事故的影響,分別構(gòu)建夏、冬半年河北高速公路交通事故氣象預(yù)警模型,以期為該省高速公路管理部門交通事故的預(yù)報預(yù)警提供技術(shù)參考。
使用河北省高速公路交警總隊提供的2015年10月至2018年10月全省高速公路109個路段(按照行政區(qū)域劃分)交通事故資料,包括事故的發(fā)生時間、起數(shù)、損失類型、所屬路段及樁號等信息。
1.2.1 Logistic回歸原理
Logistic模型是針對二分類因變量建立的一種概率回歸模型,根據(jù)樣本數(shù)據(jù),采用最大似然法估計各參數(shù)值,從而求出因變量取值的概率。本文以日交通事故發(fā)生概率為因變量y,對事故有顯著影響的氣象因素為自變量xi,交通事故發(fā)生的條件概率為P(y=1|xi)=Pi,建立的Logistic回歸模型如下[14,23,27]:
(1)
(2)
式中:Pi表示第i個觀測樣本交通事故發(fā)生的概率;1-Pi表示第i個觀測樣本交通事故不發(fā)生的概率;y表示交通事故有無發(fā)生,y=1表示發(fā)生,y=0表示不發(fā)生;xi為主成分分析篩選出的對交通事故影響較大的氣象公因子;α為常量;βi為模型擬合參數(shù),即第i個觀測樣本的事故發(fā)生概率;m為影響因變量的自變量個數(shù)。
1.2.2 高速事故預(yù)警建模方法的改進及檢驗
經(jīng)統(tǒng)計,2015年10月至2018年10月河北高速事故日發(fā)生量為1~49起,夏、冬半年事故日發(fā)生量的眾數(shù)均為1起,分別占各樣本總數(shù)的66.4%和68.9%。將日發(fā)生量不高于眾數(shù)1起的定義為事故低發(fā)路段,賦值為0,高于眾數(shù)1起的則定義為事故高發(fā)路段,賦值為1,將Logistic模型因變量y轉(zhuǎn)換成二分類變量。
為使構(gòu)建的模型具有穩(wěn)定性和通用性,分別對夏半年和冬半年的樣本數(shù)據(jù)按照7:3進行隨機抽樣,對應(yīng)作為訓練樣本和驗證樣本,其中夏半年訓練樣本7927個,驗證樣本3361個;冬半年訓練樣本5846個,驗證樣本2427個。然后,對與高速交通事故相關(guān)的14個氣象要素進行主成分分析(PCA),篩選對因變量影響較大的因子,提取夏、冬半年公共因子進入模型,利用訓練樣本估計模型系數(shù),構(gòu)建夏半年和冬半年高速交通事故氣象預(yù)警模型,并利用驗證樣本對模型進行預(yù)測效果檢驗。
從圖1看出,河北高速公路夏半年發(fā)生的交通事故明顯高于冬半年,夏半年事故頻數(shù)為冬半年的1.4倍,且存在明顯的月變化特征。其中,夏半年交通事故最多的是8月(4602起),事故點涉及29條高速公路的103個縣區(qū),而最少為6月(2331起),事故點涉及29條高速公路的99個縣區(qū);冬半年,除10月事故頻次(4905起)極高外(事故點涉及30條高速公路的102個縣區(qū)),其他月份基本在2000起上下波動,最少為12月(1396起),事故點涉及28條高速公路的95個縣區(qū)。
相關(guān)分析發(fā)現(xiàn),夏半年交通事故與相對濕度和降水量呈顯著正相關(guān)(通過0.05的顯著性檢驗),相關(guān)系數(shù)分別為0.81和0.82,且兩要素的月變化特征與交通事故基本一致,表明當夏半年相對濕度、降雨量增大時,會引起高速公路摩擦系數(shù)下降,導(dǎo)致交通事故增加。冬半年交通事故與能見度和降雨量呈顯著正相關(guān)(通過0.05及以上的顯著性檢驗),相關(guān)系數(shù)分別為0.90、0.96,且兩要素的月變化特征與交通事故高度一致,說明在冬半年出現(xiàn)降雨(雪)、霧霾等天氣過程時,會引起能見度下降,交通事故顯著增多。
圖2是河北省高速公路夏、冬半年交通事故日變化。可以看出,河北高速公路各時次均有事故發(fā)生,事故發(fā)生量具有明顯的日變化特征,白天遠多于夜間,且白天事故量變化顯著,呈“M”型分布,峰值出現(xiàn)在10:00和15:00,最高峰與次峰的數(shù)值差距不大。對比發(fā)現(xiàn),夏半年各時次的事故頻數(shù)高于冬半年(18:00除外),事故頻數(shù)相差105起,且最高峰和次峰值出現(xiàn)時間正相反,夏半年事故最高峰值出現(xiàn)在上午,次峰值出現(xiàn)在下午,而冬半年事故最高峰值出現(xiàn)在下午,次峰值出現(xiàn)在上午。
圖1 2015—2018年河北高速公路夏半年(a、b)和冬半年(c、d)交通事故與氣象要素的關(guān)系Fig.1 Relation between traffic accidents of expressway and meteorological elements in summer half year (a, b) and winter half year (c, d) in Hebei Province from 2015 to 2018
圖2 2015—2018年河北高速公路夏半年和冬半年交通事故日變化Fig.2 Diurnal change of traffic accidents of expressway in summer half year and winter half year in Hebei Province from 2015 to 2018
PCA是把多個相關(guān)變量通過線性變換轉(zhuǎn)化為幾個相互間完全獨立且基本能夠代替原有變量信息的綜合指標,這些綜合指標稱為主成分。對河北省高速公路交通事故的訓練樣本與氣象觀測數(shù)據(jù)進行主成分運算,得到夏、冬半年KMO(Kaiser-Meyer-Olkin)檢驗值分別為0.731、0.696,且Bartlett球形檢驗統(tǒng)計量的sig<0.01,表明14個氣象要素之間存在顯著相關(guān),各主成分的方差貢獻率和累積貢獻率如表1所示。主成分的方差貢獻率越大,表示該因子越重要;方差累積貢獻率越大,說明提取的主成分代表性越強[24]。為保證方差累積貢獻率達85%以上,在夏、冬半年均提取了前5個主成分(累積貢獻率分別為88.052%和89.977%)。
表1 夏、冬半年各主成分方差貢獻率和累積貢獻率Tab.1 Variance contribution rate of each principal component and their accumulative contribution rate in summer and winter half years 單位:%
主成分載荷是變量與主成分的相關(guān)系數(shù),載荷絕對值較大的主成分,其與變量的關(guān)系更密切,更能代表該變量,而旋轉(zhuǎn)后主成分的載荷分配較未旋轉(zhuǎn)更易解釋變量的意義,通過旋轉(zhuǎn)后載荷矩陣可以找到主成分上有顯著負載的變量,高負載變量對該主成分影響更大。
表2 夏半年前5個旋轉(zhuǎn)主成分載荷矩陣Tab.2 Load matrix of the first five rotated principal components in summer half year
表2是夏半年14個氣象要素對前5個主成分的負載矩陣。可以看出,主成分F1主要在溫度要素上有較大的負載值,包括日平均氣溫、日最高氣溫、日平均地面溫度,故F1主要解釋溫度類氣象要素,稱為溫度因子;主成分F2在濕度類要素上有較大的負載值,能較好地反映日平均相對濕度和日最小相對濕度2個變量,故F2主要解釋濕度類要素,稱為濕度因子;主成分F3在08:00—20:00降水量和20:00至次日20:00降水量2個變量上有較大的負載值,反映降水量對高速公路交通的影響,稱為降水量因子;主成分F4在日平均風速和日最大風速2個變量上有較大的負載值,故F4可解釋風速類要素,稱為風速因子;主成分F5在日平均氣壓上有較大的負載值,反映氣壓對高速公路交通的影響,稱為氣壓因子。
冬半年前5個主成分也有上述類似的結(jié)論(表略),只是溫度因子中除日平均氣溫、日最高氣溫、日平均地面溫度外,日最低氣溫對F1也有較大的負載值,因此冬半年高速交通事故的影響要素還應(yīng)包括低溫要素。
通過運算得到14個氣象要素變量標準化后得分,采用回歸法估計主成分得分系數(shù),分別得到夏半年(表3)和冬半年(表略)前5個主成分得分系數(shù)矩陣,從而構(gòu)建前5個主成分關(guān)于上述氣象要素的得分函數(shù),以F1為例,其公式為:
+0.192Ts-max+0.148Ts-min+0.024R08-20
+0.046vmax
(3)
利用5個主成分的方差貢獻率作為權(quán)重,對主成分得分進行加權(quán)求和,進而得到綜合主成分得分zF,其表達式為:
zF=0.37415F1+0.23023F2+0.12797F3+0.07931F4+0.06886F5
(4)
表3 夏半年前5個主成分得分系數(shù)矩陣Tab.3 Score coefficient matrix of the first five principal components in summer half year
基于訓練樣本,分別利用夏、冬半年前5個公因子作為自變量,與交通事故建立Logistic回歸模型。表4為進入Logistic回歸方程的變量及統(tǒng)計量,其中B為回歸模型的線性系數(shù)估計值;S.E為回歸系數(shù)的標準誤差;Wals為統(tǒng)計量,用來檢驗自變量對因變量的影響,其值越大表明自變量的作用越顯著;Sig.為顯著性水平,其值小于0.05才有統(tǒng)計學意義;Exp(B)反映自變量變動一個單位而引起的發(fā)生比Odds的變化率??梢钥闯?,夏半年主成分F1的Sig=0.743,未通過顯著性檢驗,說明在二元Logistic回歸方程中溫度因子與高速交通事故無顯著關(guān)系,在構(gòu)建夏半年高速公路事故Logistic氣象預(yù)警模型時,不予考慮該主成分;冬半年的5個公因子均通過顯著性檢驗,說明自變量對回歸方程的貢獻均顯著。因此,夏、冬半年的Logistic氣象預(yù)警模型可表示為:
(5)
(6)
式中:Ps、Pw分別表示夏、冬半年因氣象要素影響而發(fā)生高速交通事故的概率;Fi(i=1,…,5)為公因子得分。
在Logistic回歸模型檢驗前,以P=0.5為臨界點對驗證樣本進行判定,當P>0.5時,判定高速事故發(fā)生,當P≤0.5時則判定高速事故未發(fā)生。利用夏半年3361個事故驗證樣本對模型進行檢驗,發(fā)現(xiàn)在2249個低于或等于事故發(fā)生眾數(shù)的樣本中,有5個錯判,正確率99.8%,而在1112個高于事故發(fā)生眾數(shù)的樣本中,有663個錯判,正確率40.4%,綜合正確率為80.1%;針對冬半年2427個事故驗證樣本,在1662個低于或等于事故發(fā)生眾數(shù)的樣本中,有11個錯判,正確率99.3%,而在1112個高于事故發(fā)生眾數(shù)的樣本中,有663個錯判,正確率39.5%,綜合正確率為80.5%。
綜上可見,Logistic回歸模型對低于和等于事故發(fā)生眾數(shù)的樣本預(yù)測正確率極高,正確率均在99%之上,而對高于事故發(fā)生眾數(shù)的樣本,錯判率較高,這主要是該模型未考慮車道寬度、超載量、車速、車流量、疲勞駕駛、車況等因素的影響。盡管如此,Logistic回歸模型的綜合正確率均在80%以上,可在高速管理服務(wù)應(yīng)用中提供一定參考。
表4 進入Logistic模型的變量Tab.4 Variables entering Logistic model
(1)河北省高速公路交通事故存在明顯的日、月變化。夏半年事故發(fā)生量為冬半年的1.4倍,且夏半年事故量月變化幅度相對較小,最多月(8月)是最少月(6月)的1.97倍,而冬半年事故量月波動較大,最多月(10月)是最少月(12月)的3.51倍。夏、冬半年日交通事故均呈“M”型分布,白天遠高于夜間,峰值分別出現(xiàn)在10:00和15:00,且夏半年各時次事故量高于冬半年。
(2)主成分分析發(fā)現(xiàn),就氣象影響方面,夏半年和冬半年影響高速公路交通事故的5個主成分包括溫度因子、濕度因子、降水因子、風速因子和氣壓因子。由于夏半年的溫度因子未通過顯著性檢驗,在構(gòu)建夏半年Logistic氣象預(yù)警模型時應(yīng)不予考慮該主成分。
(3)高速交通事故Logistic氣象預(yù)警模型,對低于或等于事故發(fā)生眾數(shù)的樣本預(yù)測精度極高,正確率均在99%之上,而對高于事故發(fā)生眾數(shù)的樣本,錯判率較高,但夏、冬半年的綜合正確率均在80%以上,說明該模型對高速公路交通事故預(yù)警業(yè)務(wù)有一定參考價值。然而,高速公路交通事故影響因子眾多,本文事故資料缺少事故原因記錄,今后將利用更詳細的資料做進一步分析,以期提高模型預(yù)測準確率。