劉 鑫, 滕書華, 龍 帆, 馬俊朝, 李 媚
(湖南省交通科學研究院有限公司, 湖南 長沙 410015)
雨、雪、凍雨或霧滴遇到溫度低于0 ℃的地面而出現的結冰現象稱之為道路結冰。據統(tǒng)計,在所有交通安全事故中,道路結冰時的事故率是干燥路面事故率的10倍[1]。在我國,約70%的冬季道路交通事故是由于惡劣天氣導致的不良路面(冰雪路面)造成的。深入研究道路結冰預測模型,加強對惡劣天氣下道路安全與風險管理及突發(fā)事件后的預警系統(tǒng)研究,對提高道路交通安全水平具有至關重要的作用[2]。
國內外開展了很多關于氣象條件對道路交通安全的影響及交通氣象預報方法等方面研究,田琨等[3]論證了邏輯回歸對雷暴強度的潛勢預報具有指導意義;李蕊等[4]通過不同天氣條件下多種氣象要素對路面溫度進行多元線性回歸擬合;舒斯等[5]以湖北省高速公路沿線的87個交通氣象觀測站氣溫與路面溫度等實況資料為基礎,對各個高速路段的路面結冰頻率隨氣溫的變化規(guī)律進行了分析,發(fā)現均滿足邏輯回歸模型;白永清等[6]闡述了以路面溫度為單一影響因子的一元邏輯回歸分析在結冰預測中的應用?,F有結冰預測算法主要以路面溫度(或路基溫度)作為結冰影響因子建立一元的分析模型,而根據經驗數據分析,多種氣象參數均會對道路結冰狀態(tài)產生干擾,因此僅依靠單一影響因子建立的結冰預測模型精度有限,誤報率較高,國內有些研究機構對影響結冰的氣象和路面參數設置了不同的閾值,通過判斷提高了結冰預測準確性,但沒有形成技術體系,更缺乏科學有效的方法提供技術支撐。
本文提出一種基于多元邏輯回歸的結冰預測方法:首先,以傳感器采集到的路面狀況信息和氣象信息作為樣本,計算路面與氣象數據之間的相關系數,找出與冰層厚度相關性最大的幾個參數作為影響道路結冰的主要因素,并以此為影響因子建立多元邏輯回歸的初始預測模型;其次,通過對數變換,將多元邏輯回歸模型變換為多元線性回歸模型,引出超定方程組求解及病態(tài)方程組的問題;然后,采用Tikhonov正則化+L曲線準則的方法對病態(tài)矩陣方程組的求解進行分析,并通過迭代的方法提高結冰預測模型的準確性;最后,通過試驗分析,驗證多元邏輯回歸分析在結冰預測應用的有效性和準確性。
Logistics(邏輯)回歸分析,是一種廣義的線性回歸分析模型,常用于數據挖掘、疾病自動診斷、經濟預測等領域,主要用來解決二分類變量問題。由于邏輯函數的取值范圍為0~1,氣象上常用其來建立風險等級或概率預報模型。相關系數是反映變量之間相關關系密切程度的統(tǒng)計指標,相關系數的絕對值越大,相關性越強。為了得到準確的結冰概率,我們將氣象信息與結冰概率預測模型相結合,建立一個多元邏輯回歸結冰預測模型。通過計算參數之間的相關系數,從可能影響道路結冰的影響因素(如路面溫度、大氣壓強、大氣溫度、大氣濕度、路面濕滑度、積水量、降雨量等)中,選出與道路結冰相關性最大的參數作為輸入變量,建立多元邏輯回歸的數學模型,得出某一時刻路面結冰發(fā)生的概率,從而得到相應的結冰預測風險等級。
為得到結冰概率與影響因素之間的數學關系,需要建立一個以結冰概率為輸出變量(因變量)的數學模型。建模之前,必須考慮以下兩點: ① 路面結冰影響因素之間彼此關聯,彼此影響。路面溫度、濕度、濕滑度、積水量、降雨量等,每一個參數都會對路面結冰時間產生一定的影響,對不同狀態(tài)下的結冰造成的影響具有一定的差異,如當路面溫度高于0 ℃或者濕滑度為0.82時,通常不易發(fā)生結冰,而降雨和降雪時道路發(fā)生結冰的溫度也有所不同[7]。② 路面結冰概率與影響因素之間的關系為非線性關系,這就意味著用線性回歸的方法無法解決此類問題。為此,我們首先建立多元Logistic回歸模型,基本形式如式(1)所示:
P(Y=1|x1,x2,…,xk)=
(1)
式中: 因變量Y是一個二分類變量,Y值取1和0時分別表示道路結冰發(fā)生和未發(fā)生;影響Y取值的自變量x1、x2、…、xk分別代表路面溫度、積水量、濕滑度等氣象參數;P代表給定x1、x2、…、xk的條件下的結冰概率。
對式(1)進行對數變換得到:
(2)
(3)
令b=(y1,y2,…,ym)T,
X=(β0,β1,β2,…βn)T,得到方程組的矩陣形式如下:
Αm(n+1)X=b
(4)
至此,將多元邏輯回歸問題轉化為求解線性方程組ΑX=b的反問題。
對于線性方程組ΑX=b的反問題的求解,有3種情況: ① 無解;② 唯一解;③ 不唯一解。已有大量文獻對解的結構和求解方法進行了詳細闡述,在此不再一一贅述。本文僅針對第3種情況“不唯一解”,即m>n的超定方程組求解中遇到的特殊問題進行探討。一般而言,超定方程組是無解的,即不存在精確解,但針對實際工程問題都是有解的。求解超定方程組在實際工程中非常普遍,比較常用的方法是采用最小二乘法求解近似解,也可以稱之為超定方程的最小二乘解。
通常,氣象領域需要做大量的數據監(jiān)測和分析,數據量都比較大,方程組的數量往往遠大于未知數個數,因此,在求解過程中,很容易遇到方程存在病態(tài)的情況。本文針對結冰預測模型中求解病態(tài)方程組的方法進行如下討論。
假設超定方程組的系數矩陣為A,可以通過矩陣的條件數判斷矩陣A是否病態(tài),令矩陣A的條件數為k(A),當m≠n時:
(5)
式中:ATA表示矩陣A的轉置與A的乘積;λmax(ATA)和λmin(ATA)分別表示矩陣ATA特征值的最大值和最小值。
對條件數k(A)進行如下判定:
1) 當條件數k(A)較小時,矩陣A是良態(tài)矩陣,此時采用最小二乘法擬合出參數β0、β1、β2、…、βn,代入式(1)即可得到多元邏輯回歸的表達式;
2) 當條件數k(A)較大時,矩陣A是病態(tài)的,此時采用Tikhonov正則化+L曲線的方法可以求出參數β0、β1、β2、…、βn的近似解,同理,代入式(1)得到多元邏輯回歸的表達式。
下面詳細介紹Tikhonov正則化+L曲線準則的求解過程,針對矩陣A是病態(tài)的情況,構造如下函數:
(6)
式中:||表示2范數;α為常數。
從理論上可以證明,對y=f(x)求解即等價于求J(x)的最小值。根據Morozov偏差原理可知,α存在且唯一,并且α>0,對式(6)進行變換得到:
xα=x0+(αI+ATA)-1AT(y-Ax0)
(7)
式中:AT表示矩陣A的轉置;xα即為最優(yōu)解,而求xα的關鍵在于如何選取α。
分別令
u(α)=ln||Axα-y||
(8)
v(α)=ln||xα-x0||
(9)
ln表示自然對數,以u(α)為橫坐標,v(α)為縱坐標,根據Engl準則:從逼近的角度看,應使α越小越好;然而從數值計算穩(wěn)定的角度考慮,則參數α取得越大越好[8]。選取了一組正則化參數α如下:0.000 1,0.001,0.005,0.01,0.05,0.1,0.2,0.3,并對點的軌跡進行擬合,得到L曲線,如圖1所示。
圖1 L曲線示意
根據L曲線準則,確定最優(yōu)正則化參數的關鍵是找出曲線的“角點”,此時的正則化參數即為最優(yōu)。所謂曲線的“角點”即為曲率最大的點,分別對u(α)和v(α)求一階, 二階導數得到u′(α)、u″(α)、v′(α)、v″(α),通過離散點曲率公式:
(10)
將α取值分別代入式(10),即可得到每一點的曲率值,曲率最大值對應的α即為最優(yōu)正則化參數。
將α代入式(7)即可得到方程組的最優(yōu)解,再將方程的解代入式(1),得到多元邏輯回歸初始模型,將實時監(jiān)測的氣象參數代入該模型,即可得到實時結冰概率,通過試驗結果,得到不同概率對應的結冰預測等級如下:① 0.0≤P<0.1,道路無預警;② 0.1≤P<0.5,道路黃色預警;③ 0.5≤P<0.9,道路橙色預警;④P≥0.9,道路紅色預警。通過模型計算得出道路結冰風險等級,從而為道路是否采取、何時采取除冰措施提供建議。
為了驗證算法是否可行,分別在多個測試場地進行了現場測試,實地采集了大量路面信息和氣象數據,建立了相應的多元邏輯回歸模型,并對結果進行分析,以下為選取的比較有代表性的3次試驗分析結果。
試驗1選取了2020年12月18日17時13分至2020年12月25日21時55分某試驗場地實測數據,各個參數與冰層厚度之間相關系數見表1。
通常情況,當相關系數>0.5或<-0.5可以認為二者之間強正相關或強負相關。從表1可以看出,本試驗場地與冰層厚度相關系數滿足條件的參數分別有路面溫度、大氣壓強、大氣濕度、大氣溫度和濕滑度,以這5個參數作為多元邏輯回歸模型的影響因子,通過最小二乘法計算出多元邏輯回歸模型的系數為:
表1 試驗1各參數與冰層厚度之間相關系數路面溫度大氣壓強大氣濕度大氣溫度濕滑度積水量風力風向0.627-0.611-0.6010.629-0.926-0.3240.205-0.039
X=(-28.269 2,0.035 5,0.030 3,-0.000 1,
-0.112 4,-3.640 3)T
(11)
通過計算系數矩陣A的條件數可知,k(A)=4.411 71×1014,這顯然是一個病態(tài)矩陣,因此,上述最小二乘解并非該方程組的最優(yōu)解。根據式(8)和式(9)分別得到L曲線的橫坐標u(α)和縱坐標v(α),選取了一組正則化參數α分別取0.000 1、0.001、0.005、0.01、0.05、0.1、0.2、0.3,再根據式(10)得到離散點曲率值分別為440.777、484.464、17.374 3、2.383 9、0.019 6、0.0788、0.161 2、0.237 5,曲率最大值484.464對應的α為0.001,代入式(7)得到多元邏輯回歸模型的系數為:
X=(-0.003 6,0.032 4,0.001 8,0.004 4,
-0.116 7,-3.639 6)T
(12)
此即為該模型的最優(yōu)解。以路面溫度、大氣壓強、大氣濕度、大氣溫度和濕滑度作為影響因子建立了初始多元邏輯回歸模型,得到邏輯回歸模型標準形式為:
P(Y=1|x1,x2,…,x5)=
(13)
其中x1、x2、x3、x4、x5分別表示路面溫度、大氣壓強、大氣濕度、大氣溫度和濕滑度。隨機選取了試驗1部分數據作為輸入參數計算結冰概率,得到結果如表2所示。
表2 多元邏輯回歸試驗結果序號路面溫度/℃大氣壓強/hPa大氣濕度/%大氣溫度/℃濕滑度結冰概率當前路面狀況1-2.2992.322.45.30.550.302 5冰水混合物2-2.4992.322.65.40.550.298 9冰水混合物3-2.4992.322.05.40.550.298 3冰水混合物4-2.3992.322.35.30.560.294 1冰水混合物5-2.3992.322.65.20.570.289 3冰水混合物6-2.4992.322.65.20.570.288 6冰水混合物7-2.4992.322.75.20.460.377 3冰水混合物8-2.4992.322.85.30.460.374 6冰水混合物9-2.4992.322.75.30.470.366 0冰水混合物10-2.4992.322.45.30.470.354 7冰水混合物11-0.4978.891.02.20.010.665 3冰12-0.3978.790.82.40.010.709 8冰13-0.3978.790.72.40.010.669 6冰14-0.4978.790.72.50.010.681 0冰15-0.4978.790.62.50.010.715 8冰
從表2可以看出,隨機選取的15組數據結冰概率>0.1且<0.5的有10組,對應道路藍色預警;結冰概率>0.5且<0.9的有5組,對應道路黃色預警。根據現場采集數據可知,藍色預警時當前路面狀況為冰水混合物,而黃色預警時路面狀態(tài)為結冰,說明多元邏輯回歸計算結果符合實際道路狀況。
試驗2選取了2021年1月20日8時13分至2021年1月25日20時31分某試驗場地實測數據,各個參數與冰層厚度之間相關系數如表3所示。
表3 試驗2各參數與冰層厚度之間相關系數路面溫度大氣壓強大氣濕度大氣溫度濕滑度積水量風力風向0.559-0.626-0.3180.807-0.448-0.947-0.6030.584
從表3可以看出,本試驗場地與冰層厚度相關系數滿足條件的參數分別有路面溫度、大氣壓強、大氣溫度、濕滑度、風力和風向。以這6個參數作為多元邏輯回歸模型的影響因子,并計算出系數矩陣A的條件數為k(A)=6.237 04×1011,顯然也是一個病態(tài)矩陣,通過最小二乘法和Tikhonov正則化+L曲線準則計算出多元邏輯回歸模型的系數如表4所示。
表4 多元邏輯回歸模型的系數對比方法常數項路面溫度大氣壓強大氣溫度積水量風力風向最小二乘法69.923 60.831 0-0.074 50.054-3.452 4-0.027-0.003 6Tikhonov正則化+L曲線準則0.032 40.942 2-0.004 60.067 5-0.210 1-0.065 3-0.002 6
得到邏輯回歸模型標準形式為:
P∈(0,1)
(14)
式中:x1、x2、x3、x4、x5、x6分別表示路面溫度、大氣壓強、大氣溫度、積水量、風力和風向。隨機選取了試驗2部分數據作為輸入參數計算結冰概率,得到結果如表5所示。
表5 多元邏輯回歸試驗結果序號路面溫度/℃大氣壓強/hPa大氣濕度/%積水量/mm風力/(m·s-1)風向/(°)結冰概率當前路面狀況1-0.4978.991.80.090630.770 9冰2-0.4978.991.60.10.651340.725 5冰3-0.4978.991.40.110.451580.712 5冰4-0.3978.991.10.110.531610.724 8冰5-0.4978.991.10.110.261530.713 6冰6-0.4978.991.20.110.64900.742 2冰7-0.4978.991.40.120.011980.696 6冰8-0.3978.8910.130.351260.742 7冰9-0.3978.8910.130.321610.725 5冰10-0.4978.890.90.130.411230.723 7冰11-2.4992.322.60.00.322560.368 7冰水混合物12-2.4992.322.70.00.352250.357 6冰水混合物13-2.5992.322.90.00.942250.354 4冰水混合物14-2.5992.323.30..012480.357 5冰水混合物15-2.4992.322.90.00.62360.357 8冰水混合物
從表5可以看出,結冰概率>0.1且<0.5的有5組數據,對應道路藍色預警;結冰概率>0.5且<0.9的有10組,對應道路黃色預警。根據現場采集數據可知,藍色預警時當前路面狀況為冰水混合物,而黃色預警時路面狀態(tài)為結冰,說明多元邏輯回歸計算結果符合實際路面狀況。
試驗3選取了2021年3月20日20時33分至3月22日12時46分某試驗場地實測數據,各個參數與冰層厚度之間相關系數如表6所示。
表6 試驗3各參數與冰層厚度之間相關系數路面溫度大氣壓強大氣濕度大氣溫度濕滑度積水量風力風向-0.506-0.5170.534-0.55-0.7680.66-0.0660.027
從表6可以看出,本試驗場地與冰層厚度相關系數滿足條件的參數分別有路面溫度、大氣壓強、大氣濕度、大氣溫度、濕滑度和積水量。以這6個參數作為多元邏輯回歸模型的影響因子,計算系數矩陣A的條件數為k(A)=4.392 95×1011,顯然也是一個病態(tài)矩陣,采用Tikhonov正則化+L曲線準則求解方程組,得到邏輯回歸模型標準形式為:
P∈(0,1)
(15)
式中:x1、x2、x3、x4、x5、x6分別表示路面溫度、大氣壓強、大氣濕度、大氣溫度、濕滑度和積水量。
隨機選取了試驗3部分數據作為輸入參數計算結冰概率,得到結果如表7所示。
表7 多元邏輯回歸試驗結果序號路面溫度/℃大氣壓強/hPa大氣濕度/%大氣溫度/℃濕滑度積水量/mm結冰概率當前路面狀況1-2.6980.753.91.30.280.20.497 7冰水混合物2-2.6980.752.71.40.30.190.488 0冰水混合物3-2.6980.752.81.50.310.20.469 2冰水混合物4-2.6980.652.51.60.290.20.481 8冰水混合物5-2.6980.652.11.60.280.210.480 9冰水混合物6-2.6980.652.81.60.260.210.496 4冰水混合物7-2.6980.752.21.70.240.20.517 5冰水混合物8-2.6980.750.71.70.180.20.462 9冰水混合物9-2.6980.651.81.60.220.20.535 3冰水混合物10-2.7980.751.71.70.180.20.561 9冰11-2.7980.751.71.70.010.210.677 0冰12-2.7980.650.91.90.010.210.672 2冰13-2.7980.649.11.90.240.20.511 5冰水混合物14-2.6980.549.320.010.20.677 3冰15-2.6980.647.320.010.20.677 0冰16-2.5980.5472.10.010.20.674 8冰17-2.5980.547.52.30.010.20.670 2冰18-2.5980.546.32.40.010.20.667 7冰19-2.7980.545.62.40.010.20.667 3冰20-2.7980.545.72.30.010.210.662 1冰
與前兩次試驗結果不同,本次試驗有部分結果與現場采集數據結果有所差異,如數據7和數據9,模型計算的結冰概率分別為0.517 5和0.535 3,對應黃色預警,而此時路面狀況為冰水混合物。但通過查看當時路面數據可以發(fā)現,濕滑度分別為0.24和0.22,根據交通安全專家研究,正常干燥瀝青路面的摩擦系數為0.6,雨天降為0.4,雪天則為0.28,結冰路面只有0.18,因此,可以通過增加濕滑度的約束對結冰概率進行修正,濕滑度0.24和0.22均大于0.18,結合模型計算的結冰概率,可以判斷當時路面狀況為冰水混合物的可能性更大。
從試驗結果可以看出,多元邏輯回歸模型計算的結冰概率符合道路真實結冰狀況,且準確性較高,說明該模型對于道路結冰預測分析具有指導意義。3次試驗分析結果表明不同試驗場地各參數與冰層厚度之間相關系數大小有所不同,使得多元邏輯回歸模型中與結冰概率相關的影響因子也有所不同,最終分別得到了3個不同的模型結果,這說明因不同地域條件下路面和氣象信息有所差異,導致其對道路結冰的影響強弱也有所不同,無法用同一個模型結果匹配所有的應用場景,在實際應用中,需要針對不同地域、不同場景建立不同的多元邏輯回歸模型。
通過上述試驗發(fā)現,相比多元邏輯回歸模型在其他領域的應用,采用多元邏輯回歸模型計算道路結冰概率時很容易遇到病態(tài)矩陣的情況,這也導致模型無法計算精確解,在一定程度上增加了結冰預測模型的求解難度與不確定性,同時,當路面處于結冰臨界點(冰水混合物)時,多元邏輯回歸計算的結冰概率存在一定上下浮動值。值得注意的是,通過對部分參數進行約束可以進一步提高算法的準確性,如當濕滑度>0.6或路面溫度>2 ℃時,路面通常不可能結冰,此時無論計算結果如何,結冰概率必然為0;當濕滑度>0.18時,路面結冰概率應該<0.5。
提出了一種基于多元邏輯回歸算法的道路結冰預測方法,通過計算相關系數確定不同地域環(huán)境下道路結冰影響因素最大的路面和氣象參數,并以此作為多元邏輯回歸的影響因子,建立多元邏輯回歸模型,并計算出當前路段結冰概率,進而發(fā)布相應的預警信息,達到減少交通事故的目的。值得注意的是,多元邏輯回歸計算結果與傳感器采集數據精度密切相關,根據試驗結果分析,不同地區(qū)、不同路段結冰對應的環(huán)境因素有所差異,需要在不同路段建立不同的初始的多元邏輯回歸模型。如何提高初始模型的精度,提高初始結冰預測模型的準確率,還有待后續(xù)研究。