崔海蓉,費金峰,田 華,周林義
(1.南京信息工程大學(xué)管理工程學(xué)院,南京 210044;2.中國氣象局公共氣象服務(wù)中心,北京 100081;3.江蘇省氣象科學(xué)研究所,南京 210009)
隨著中國經(jīng)濟的發(fā)展,道路交通運營量和通車里程大幅增加,與此同時,道路阻斷事件也隨之上升[1]。道路交通阻斷降低了車輛通行效率,并對駕駛員的生命健康產(chǎn)生威脅,對社會和經(jīng)濟發(fā)展產(chǎn)生不利影響[2]。道路阻斷也日益受到交通部門的重視。目前,造成道路交通阻斷的因素有很多,包括施工養(yǎng)護、惡劣氣候、自然災(zāi)害和重大社會活動等[3]。其中,氣象因素對交通阻斷的影響日益凸顯,發(fā)生頻率和阻斷嚴重程度都高于其他因素[4]。因此,充分利用歷史交通阻斷數(shù)據(jù),發(fā)掘因氣象因素引起交通阻斷的潛在規(guī)律,完善道路運行機制,對維護中國安全和諧的道路交通環(huán)境具有十分重要的現(xiàn)實意義。
目前,已有學(xué)者對道路交通阻斷展開研究,針對高速公路的氣象災(zāi)害評估也逐漸增多,但關(guān)于氣象條件對道路阻斷影響的研究仍較少。劉曉紅等[5]基于靜態(tài)與動態(tài)空間面板模型研究發(fā)現(xiàn)霧霾污染與交通阻斷和交通壓力呈同方向變動;丘建棟等[6]利用氣象、交通指數(shù)和積水點預(yù)測系統(tǒng),分析評估臺風(fēng)“苗柏”對深圳道路交通運行的影響,指出了主要積水路段和擁堵區(qū)域,從片區(qū)級角度提出十大脆弱片區(qū)的綜合整治方案。隋琦等[7]提出了一種多源信息結(jié)合的雪災(zāi)交通風(fēng)險評估方法,計算出節(jié)假日期間降雪對高速公路道路擁堵的影響情況。
盡管有學(xué)者對氣象條件造成的交通阻斷進行研究,但都是針對某種特定的氣象因素,未見有基于多種氣象因素對于交通阻斷影響的綜合評估分析,在研究方法上也缺乏先進的智能化方法。近年來,關(guān)聯(lián)規(guī)則在道路事故和道路安全評估上應(yīng)用廣泛。牛毅等[8]基于Apriori算法對高速公路貨車交通事故影響因素展開研究;高紅麗等[9]運用數(shù)據(jù)關(guān)聯(lián)分析挖掘道路安全事故與駕駛員因素間的強關(guān)聯(lián)規(guī)則??梢钥闯?,關(guān)聯(lián)規(guī)則在分析事件屬性間的依存關(guān)系有較大優(yōu)勢,而道路交通阻斷事件中通常包含不同維度的信息,尤其是多種氣象因素的信息,因此探求各維度信息之間的依存關(guān)系可為有效提出針對性應(yīng)對措施提供幫助?;诖?,將關(guān)聯(lián)規(guī)則應(yīng)用到氣象條件對交通阻斷影響的評估分析中,運用數(shù)據(jù)挖掘技術(shù),采用模糊C-均值聚類算法(fuzzy C-means,F(xiàn)CM)和關(guān)聯(lián)規(guī)則(association rules,AR),構(gòu)建氣象條件對道路交通阻斷影響的綜合評估模型,對華東地區(qū)五省一市交通部門2019年上報的氣象交通阻斷數(shù)據(jù)進行詳細和深入地實證研究,發(fā)掘交通阻斷事件與各氣象因素間的關(guān)聯(lián)關(guān)系,給出可行的政策建議,為交通管理部門預(yù)防道路阻斷提供輔助支持。
FCM-AR模型的基本思想主要來自關(guān)聯(lián)規(guī)則分析,關(guān)聯(lián)規(guī)則分析是數(shù)據(jù)挖掘的重要方向[10],其主要思想是在交易數(shù)據(jù)或其他信息載體中,查找存在于項目集合或?qū)ο蠹现g的相關(guān)性或因果結(jié)構(gòu)[11]。Agrawal[12]提出的Apriori算法是經(jīng)典的關(guān)聯(lián)規(guī)則算法之一,被許多學(xué)者借鑒和使用。
按照Apriori算法的核心思想,將氣象因素導(dǎo)致的交通阻斷事件的集合記為T,T中所有事務(wù)的個數(shù)記為D。設(shè)X、Y為非空項集,且X?T,Y?T。關(guān)聯(lián)規(guī)則是形如X?Y的蘊含式,表示項集X和項集Y間的關(guān)聯(lián)關(guān)系,其中X為關(guān)聯(lián)規(guī)則的前項,Y為后項,且X∩Y=?。通常采用支持度Supp和置信度Confid2個指標作為關(guān)聯(lián)規(guī)則的衡量標準。其中,規(guī)則Supp反映了規(guī)則的普遍性,是事務(wù)X和事務(wù)Y同時出現(xiàn)的概率,通常用來刪去那些無意義的規(guī)則,其表達式為
(1)
式(1)中:Supp(X?Y)為X?Y的支持度;D為T中所有事務(wù)的個數(shù);σ{X,Y}為所有事務(wù)中同時包含項集X和Y的個數(shù)。
規(guī)則置信度是對準確度的測量,描述包含事務(wù)X中同時包含事務(wù)Y的概率,反映X出現(xiàn)條件下Y出現(xiàn)的可能性,使得規(guī)則推理具有可靠性,其表達式為
(2)
式(2)中:Confid(X?Y)為X?Y的置信度;σ(X)為所有事務(wù)中包含項集X的個數(shù)。
通常用戶應(yīng)設(shè)定最小支持度閾值Smin和最小置信度閾值Cmin,即滿足:
[Supp(X?Y)≥Smin]∩[Confid(X?Y)≥Cmin]
(3)
最小支持度和置信度的閾值沒有特定標準,設(shè)定過高難以找到滿足的規(guī)則,過低容易導(dǎo)致規(guī)則不具有指導(dǎo)意義。在設(shè)置時一般從大到小依次遞減,例如依次設(shè)置最小置信度閾值為70%、60%和50%,不斷找出合適的規(guī)則進行分析[13]。
根據(jù)中華人民共和國交通運輸部文件要求,各公路管理處上報的道路交通阻斷數(shù)據(jù)應(yīng)當(dāng)包括:上報單位、路線名稱及編碼、阻斷原因、阻斷里程、阻斷類型、處理措施、上報時間、發(fā)現(xiàn)時間以及實際恢復(fù)時間。這些原始數(shù)據(jù)對算法的支持度有限,因此需要對這類數(shù)據(jù)進行提取總結(jié),確定交通阻斷的有效屬性。主要涉及時間維度(發(fā)生季度和白晝情況)、空間維度(省份)、阻斷原因維度(氣象因素)、阻斷程度維度(阻斷里程、阻斷時長)、阻斷類型(交通中斷或阻塞)等方面信息。其中用于描述阻斷嚴重程度的兩個指標(阻斷里程和阻斷時長)數(shù)據(jù)離散化程度高,難以滿足規(guī)則支持度和置信度的要求,因此將聚類分析引入關(guān)聯(lián)規(guī)則。
聚類分析可以將大量的、無規(guī)則的數(shù)據(jù)按照某種原則劃分組別,使得組內(nèi)數(shù)據(jù)差別盡可能小,從而發(fā)現(xiàn)有用的信息[14]。目前常用的聚類算法包括K均值聚類、層次聚類、密度聚類和模糊聚類等。其中,模糊聚類,F(xiàn)CM會計算每個樣本對所有類的隸屬度,是一個可以驗證樣本分類結(jié)果可靠性的計算方法[15]。
FCM基于迭代最優(yōu)化目標函數(shù)實現(xiàn),從一個隨機的聚類中心開始,通過尋找滿足目標函數(shù)的最小點,不斷調(diào)整中心點以及每一個樣本的模糊隸屬度,最終將樣本數(shù)據(jù)劃分到相應(yīng)群組,使得目標函數(shù)最小化,可表示為[16]
(4)
dij(xj,ci)=‖ci-xj‖
(5)
式中:n為數(shù)據(jù)集中元素的個數(shù);k為分類數(shù);xj為第j個樣本;ci為第i類的聚類中心;uij為第j個樣本xj屬于第i類的隸屬值;m為模糊系數(shù),一般取值為2;d為距離;‖ci-xj‖為樣本點xj到聚類中心ci的距離[17-18]。
根據(jù)FCM的算法,分別計算阻斷里程和阻斷時長的模糊隸屬矩陣。表1顯示了阻斷里程的模糊隸屬矩陣樣式,以聚類中心個數(shù)C=3為例,將阻斷里程分為三類,聚類中心分別為U1、U2和U3。uij取區(qū)間(0,1)的隸屬值,表示各個阻斷事件的阻斷里程屬于某一類的程度。uij取值越接近于1,表明將其歸為這一類最合適。如第一個樣本對應(yīng)的u11=0.1,u21=0.7,u31=0.2,由于u21取值0.7最大,因此該樣本的阻斷里程應(yīng)歸為第二類U2。同樣的方法也可以應(yīng)用到阻斷時長,得到相應(yīng)的阻斷時長模糊隸屬矩陣。
表1 阻斷里程模糊隸屬矩陣Table 1 Fuzzy membership matrix of block mileage
FCM-AR模型的具體實施步驟如圖1所示。
圖1 FCM-AR模型實施步驟Fig.1 FCM-AR model implementation steps
步驟1獲取各交通部門上報的道路阻斷信息,并從中整理提取時間維度(發(fā)生季度和白晝情況)、空間維度(省份)、阻斷原因維度(氣象因素)、阻斷程度維度(阻斷里程、阻斷時長)、阻斷類型(交通中斷或阻塞)等方面的信息。
步驟2對阻斷里程和阻斷時長進行模糊聚類分析,得到對應(yīng)的隸屬矩陣,確定樣本中各阻斷里程和阻斷時長的分類情況。
首先確定聚類中心的個數(shù)C,輸入阻斷里程和阻斷時長的原始數(shù)據(jù);然后根據(jù)模糊聚類算法,計算阻斷里程和阻斷時長的隸屬度矩陣;最后確定各樣本阻斷里程和阻斷時長對應(yīng)的類別。
步驟3對不同維度的指標進行關(guān)聯(lián)規(guī)則分析,發(fā)現(xiàn)重點的關(guān)聯(lián)因素,分析交通事件各維度信息之間的依存關(guān)系,最終得到各氣象因素對交通阻斷事件的影響評估結(jié)果。
首先通過迭代法檢索出數(shù)據(jù)庫中所有的頻繁項集,并且使得該頻繁項集不低于用戶設(shè)定的支持度閾值;接著從頻繁項集中檢索出滿足置信度的規(guī)則,最后選擇具有指導(dǎo)意義的規(guī)則進行分析。
采用的數(shù)據(jù)為華東地區(qū)(江蘇省、浙江省、山東省、安徽省、福建省和上海市)公路管理處上報的2019年道路交通阻斷數(shù)據(jù),由交通運輸部路網(wǎng)監(jiān)測與應(yīng)急處置中心提供。表2為原始數(shù)據(jù)。2019年華東地區(qū)道路交通網(wǎng)共發(fā)生1 353起阻斷事件,其中江蘇省發(fā)生阻斷事件數(shù)最多,為1 088起。從氣象條件看,霧霾對道路阻斷的影響最為頻繁,共計1 194起。
表2 2019年華東地區(qū)道路阻斷事件分布Table 2 Distribution of road blocking events in East China in 2019
通過對原始數(shù)據(jù)進行篩選整理,提取出每件阻斷事件中5個維度的相關(guān)信息。根據(jù)阻斷發(fā)現(xiàn)時間得出事件發(fā)生的星夜維度,再結(jié)合道路實際修復(fù)時間得出阻斷時長;通過文本篩選得到阻斷類型維度信息。基于以上數(shù)據(jù)信息提取,將采用Rstudio和IBM SPSS Modeler 18.0軟件完成后續(xù)FCM-AR模型的綜合分析。
首先,運用FCM對阻斷數(shù)據(jù)中的阻斷里程和阻斷時長進行聚類,得到其模糊隸屬度矩陣。表3和表4分別顯示部分樣本阻斷里程和阻斷時長的隸屬矩陣。
表3 阻斷里程模糊隸屬矩陣Table 3 Fuzzy membership matrix of block mileage
表4 阻斷時長模糊隸屬矩陣Table 4 Fuzzy membership matrix of block duration
根據(jù)數(shù)據(jù)特征,將阻斷里程和阻斷時長分別按照三類劃分。其中阻斷里程聚類中心(表3)按照嚴重程度由低到高分別為32.649、108.376、261.102 km,通過隸屬值的大小確定各阻斷事件的阻斷里程分類情況。根據(jù)表3,樣本1和樣本2的阻斷里程屬于第一類,樣本3屬于第二類等。類似的,阻斷時長聚類中心(表4)按照影響時間長短由低到高可分為5.6、23.2、67.7 h三類,然后通過隸屬值確定各阻斷事件的阻斷時長分類。
由于道路管理部門可以根據(jù)道路阻斷事件的分布特征(地區(qū)、季度)和嚴重度情況兩方面,采取針對性的措施進行事前預(yù)防和事后處理工作,因此接下來將分別對阻斷事件的分布情況和阻斷嚴重程度進行關(guān)聯(lián)規(guī)則分析。
首先探求各氣象條件對道路阻斷影響的地區(qū)、季度分布情況。將氣象因素固定為規(guī)則的后項,其余維度固定為前項,依次設(shè)置最小支持度閾值20%、10%和1%,最小置信度閾值70%、60%和50%,然后計算出符合條件的相關(guān)規(guī)則,并從中篩選出具有指導(dǎo)意義的規(guī)則,結(jié)果如表5所示(按照置信度水平由大到小排列)。
表5 FCM-AR規(guī)則(阻斷分布分析)Table 5 FCM-AR rules (block distribution analysis)
從表5可以看出,華東地區(qū)對交通阻斷產(chǎn)生影響的氣象因素主要為霧霾、降雪(積雪)、降雨(積水)和臺風(fēng)。其中霧霾發(fā)生頻率最高,規(guī)則1~8和規(guī)則14顯示阻斷原因都是霧霾,江蘇省和山東省為霧霾的主要影響省份,且江蘇全年4個季度都會受到霧霾的影響。從時間維度來看,規(guī)則2表明華東地區(qū)第四季度阻斷因素以霧霾為主,規(guī)則置信度為99.126%,而規(guī)則6則表明霧霾產(chǎn)生影響的時間段主要集中在晚上,置信度為94.805%。規(guī)則4顯示了霧霾產(chǎn)生的阻斷類型以突發(fā)性阻塞為主,這可能是因為霧霾會導(dǎo)致能見度下降,對司機形成一定的干擾,從而惡化交通環(huán)境,降低車輛運行效率。
規(guī)則9和規(guī)則10反映了降雨(積水)對道路阻斷的影響。華東地區(qū)第二季度白天易發(fā)生降雨(積水)導(dǎo)致的道路阻斷事件,阻斷類型為突發(fā)性阻塞,主要影響省份是浙江省。這可能是因為第二季度華東地區(qū)正處于春夏季節(jié),雨水較為充沛,道路交通容易受到降雨(積水)影響。
規(guī)則11和規(guī)則12反映了降雪(積雪)對道路阻斷的影響。山東省易受到降雪(積雪)因素影響,時間維度上集中于第一季度晚上。此外,浙江省第三季度易遭受臺風(fēng)影響(規(guī)則13,置信度52.941%)。
然后,進一步識別和控制各氣象因素對交通阻斷影響的嚴重程度。將阻斷里程和阻斷時長引入規(guī)則,依次設(shè)置最小支持度閾值20%、10%和1%,最小置信度閾值70%、60%和50%,然后計算出符合條件的相關(guān)規(guī)則,并從中篩選出具有指導(dǎo)意義的規(guī)則(表6)。
表6通過阻斷里程和阻斷時長體現(xiàn)了主要氣象因素對道路阻斷嚴重度的影響。規(guī)則1~4和規(guī)則6表明,霧霾對交通阻斷里程的影響較大,阻斷里程可達108.376 km和266.102 km,說明霧霾不僅影響較為頻繁而且影響程度也最為嚴重,但影響時長相對較短,平均5.7 h可以恢復(fù)道路通行。規(guī)則5顯示山東省主要受到降雪(積雪)影響,且集中在第一季度,發(fā)生時長為5.7 h。規(guī)則7顯示了降雨(積水)對浙江省道路阻斷的影響,主要體現(xiàn)在阻斷時長較長,為23.2 h。
表6 FCM-AR規(guī)則(阻斷嚴重度分析)Table 6 FCM-AR rules(block severity analysis)
運用數(shù)據(jù)挖掘中的AR結(jié)合FCM,構(gòu)建了不同氣象因素對交通阻斷影響的綜合評估模型?;?019年華東地區(qū)公路管理處上報的交通阻斷信息進行實證研究,結(jié)果顯示FCM-AR模型可以有效發(fā)現(xiàn)數(shù)據(jù)的頻繁項集,挖掘有價值的參考規(guī)則,從而完善因氣象條件對道路交通阻斷影響的分析方法。得出如下結(jié)論。
(1)霧霾在阻斷里程上相較于其他因素較為突出,對江蘇和山東兩省影響尤為嚴重。因此各省氣象部門應(yīng)提前做好預(yù)報工作,尤其在第四季度需特別注意,江蘇省氣象部門全年都應(yīng)該關(guān)注霧霾的發(fā)生。當(dāng)霧霾發(fā)生時,道路管理部門應(yīng)在霧霾多發(fā)路段增加警示標志,必要時可以關(guān)閉高速公路進出口,完善應(yīng)急預(yù)案。
(2)降雨(積水)引起的道路阻斷主要發(fā)生在第二季度白天,且對浙江省道路阻斷影響最為嚴重,降雨(積水)產(chǎn)生的阻斷恢復(fù)時間也最長。因此各省氣象部門第二季度需重點關(guān)注降雨(積水)的預(yù)報工作,浙江省氣象部門尤其要重視。當(dāng)降雨(積水)引起道路阻斷時,道路管理部門需及時識別道路積水情況,做好積水清理工作,科學(xué)優(yōu)化道路排水設(shè)施,合理設(shè)計道路結(jié)構(gòu)的縱橫坡。
(3)第一季度山東省氣象部門應(yīng)重點關(guān)注降雪(積雪)的預(yù)報工作,道路管理部門要提前做好降雪(積雪)的路況預(yù)測與處理工作。浙江省氣象部門第三季度應(yīng)重點關(guān)注臺風(fēng)的預(yù)報工作,道路管理部門對于臺風(fēng)引起的路面積水、風(fēng)刮樹障等情況造成的交通阻斷,需要提前做好預(yù)測工作,事后及時清理路障。