楊博,段宗濤,左鵬飛,肖媛媛,王藝霖
融合異構(gòu)交通態(tài)勢的事故預(yù)測模型
楊博,段宗濤*,左鵬飛,肖媛媛,王藝霖
(長安大學(xué) 信息工程學(xué)院,西安 710064)( ? 通信作者電子郵箱ztduan@chd.edu.cn)
針對事故數(shù)據(jù)信息表達(dá)有限、數(shù)據(jù)不平衡以及數(shù)據(jù)中存在動態(tài)時空特性的問題,提出一種融合異構(gòu)交通態(tài)勢的事故預(yù)測模型。其中:時空狀態(tài)聚合模塊通過代表動態(tài)交通態(tài)勢的交通事件和天氣特征完成語義增強(qiáng),并聚合四種區(qū)域(單一區(qū)域、鄰近區(qū)域、相似區(qū)域和全局區(qū)域)的歷史多時段時空狀態(tài);時空關(guān)系捕獲模塊從微觀和宏觀角度捕獲事故數(shù)據(jù)局部與全局的動態(tài)時空特性;時空數(shù)據(jù)融合模塊進(jìn)一步融合多區(qū)域、多角度的時空狀態(tài),并完成下一時段的事故狀況預(yù)測任務(wù)。在US-Accident的5個城市數(shù)據(jù)集上進(jìn)行實驗,結(jié)果表明所提模型的正樣本、負(fù)樣本、加權(quán)正負(fù)樣本的平均F1分?jǐn)?shù)分別為85.6%、86.4%和86.6%,與傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)(FNN)模型相比,在三個指標(biāo)上分別提升了14.4%、5.6%和9.3%,能有效抑制事故數(shù)據(jù)不平衡對實驗結(jié)果的影響。構(gòu)建高效的事故預(yù)測模型有助于分析道路交通安全形勢,減少交通事故的發(fā)生,提高交通安全。
交通事故預(yù)測模型;交通事故數(shù)據(jù);時空特性;深度學(xué)習(xí);交通安全
道路交通事故不僅會造成大量的財產(chǎn)損失,而且會對人們的生命安全造成極大威脅[1]。為有效預(yù)防道路交通事故的發(fā)生,需要對城市道路交通安全形勢進(jìn)行分析研判。交通事故預(yù)測是道路交通安全形勢分析研判的主要部分,旨在利用歷史交通事故數(shù)據(jù),構(gòu)建交通事故預(yù)測模型,預(yù)測某個區(qū)域未來一段時期的事故發(fā)生狀況。
為提高交通事故預(yù)測模型的準(zhǔn)確性,需要充分考慮事故數(shù)據(jù)的自身特性。在確定一起交通事故時,需要在時間和空間維度上描述,顯然事故數(shù)據(jù)具備時間特性和空間特性。在時間上,事故數(shù)量隨著時間的變化而變化,如高峰期更容易發(fā)生交通事故[2];在空間上,由于鄰近地區(qū)的相互影響以及各個地區(qū)的物理空間差異,事故數(shù)據(jù)表現(xiàn)出空間依賴性和空間異構(gòu)性[3-4]。事故數(shù)據(jù)在時間和空間上的特性并不是相互獨立的,存在時空依賴性[5]。采集的交通事故數(shù)據(jù)一般包括事故基本信息、駕駛?cè)藛T信息和車輛基本信息,其中事故基本信息用于交通事故預(yù)測模型的構(gòu)建,另外兩類信息還可用于事故成因分析[6-8]。但是,事故基本信息本身表達(dá)的信息有限。因此在構(gòu)建交通事故預(yù)測模型時,如何在事故數(shù)據(jù)信息表達(dá)有限的前提下,從事故數(shù)據(jù)中捕獲它們的時空特性,并提高交通事故預(yù)測模型的準(zhǔn)確性是一個難點。
早期研究通常使用傳統(tǒng)機(jī)器學(xué)習(xí)方法構(gòu)建交通事故預(yù)測模型,如文獻(xiàn)[9]中使用負(fù)二項回歸模型和決策樹模型建立交通事故發(fā)生頻率預(yù)測模型,文獻(xiàn)[10]中通過近鄰方法構(gòu)建實時公路交通事故預(yù)測模型;但這類交通事故預(yù)測模型往往忽略了交通事故數(shù)據(jù)的時空特性。隨著深度學(xué)習(xí)的發(fā)展,一些研究開始使用可以捕獲鄰域信息的卷積神經(jīng)網(wǎng)絡(luò)和善于處理時序數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡(luò)來捕獲交通事故數(shù)據(jù)的時空特性[11]。文獻(xiàn)[12]中提出的DAP(Deep Accident Prediction)模型包含多個組件,其中循環(huán)網(wǎng)絡(luò)組件處理與時間相關(guān)的特征,全連接網(wǎng)絡(luò)組件處理與時間無關(guān)的特征,嵌入組件捕獲空間異構(gòu)性。文獻(xiàn)[13]中在研究區(qū)域上設(shè)置滑動窗口并利用循環(huán)神經(jīng)網(wǎng)絡(luò)分別對農(nóng)村區(qū)域、城市區(qū)域和混合區(qū)域建模。上述研究處理了局部區(qū)域的時空特性,但忽略了全局時空特性。圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)通過聚合鄰域信息來迭代更新節(jié)點信息,隨著迭代的進(jìn)行,每個節(jié)點會聚合圖上更大范圍的信息[14],可捕獲全局空間特性。文獻(xiàn)[15]中提出差分時變圖卷積網(wǎng)絡(luò)捕獲實時全局交通狀態(tài)和研究子區(qū)域的互相關(guān)性。但這些研究未能從多角度、多尺度捕獲事故數(shù)據(jù)的動態(tài)時空特性。
為彌補事故基本信息表達(dá)力有限的缺陷,各種不同的語義信息也被作為事故預(yù)測模型的輸入數(shù)據(jù),如天氣特征[9,12-13,15-16]、道路特征[9,13,15-16]、興趣點(Point Of Interest, POI)數(shù)據(jù)[12,16]、交通流[9,11,13,15]、GPS軌跡[15-17]、人口數(shù)據(jù)[18]等。不同研究通常將不同的語義信息作為事故基本信息的補充輸入給交通事故預(yù)測模型,而大多數(shù)語義信息都難以獲取,建立的模型難以應(yīng)用在其他區(qū)域。此外,靜態(tài)語義信息無法反映道路交通態(tài)勢,如道路特征、POI特征等。而動態(tài)語義信息可以反映真實路況,如天氣特征、交通事件等。在惡劣的天氣和道路環(huán)境狀況下,更易發(fā)生道路交通事故[19-20]。
現(xiàn)存研究構(gòu)建的交通事故預(yù)測模型分為分類預(yù)測模型和回歸預(yù)測模型。根據(jù)是否劃分事故嚴(yán)重等級,分類預(yù)測模型被劃分為二分類預(yù)測模型[12,16,18,21]和多分類模型[6-8]。根據(jù)是否為不同的事故嚴(yán)重程度賦予不同的風(fēng)險值,回歸預(yù)測模型被劃分為事故發(fā)生數(shù)量預(yù)測模型[2,13,15]和事故風(fēng)險等級預(yù)測模型[17]。其中,二分類預(yù)測模型預(yù)測未來一段時期某個區(qū)域是否會發(fā)生道路交通事故。由于事故基本信息只會在發(fā)生事故時被采集,因此二分類模型缺乏負(fù)樣本。文獻(xiàn)[18,21]通過隨機(jī)修改事故基本信息中的字段來生成負(fù)樣本。這種通過隨機(jī)生成的負(fù)樣本無法反映真實路況。
為解決上述問題,本文提出了一種融合異構(gòu)交通態(tài)勢的二分類事故預(yù)測模型(binary Accident Prediction model Fusing Heterogeneous Traffic Situation, AP-FHTS)。本文主要工作如下:
1)考慮了可反映真實路況的動態(tài)語義信息,包括交通事件信息、天氣特征、時間特征等交通態(tài)勢數(shù)據(jù);
2)設(shè)計時空狀態(tài)聚合模塊和時空關(guān)系捕獲模塊,以研究子區(qū)域為中心,聚合四種異構(gòu)地理區(qū)域歷史多時段時空狀態(tài),捕獲交通事故數(shù)據(jù)存在的動態(tài)時空特性;
3)在5個城市數(shù)據(jù)集上進(jìn)行了充分實驗,實驗結(jié)果表明動態(tài)捕獲多角度、多尺度的道路交通態(tài)勢可有效提高事故預(yù)測模型性能。
2)多分類模型通常將道路交通事故按照事故嚴(yán)重程度劃分為多個類別,對交通事故嚴(yán)重程度建模,通常使用具備可解釋性的機(jī)器學(xué)習(xí)方法,如決策樹和隨機(jī)森林,或使用敏感性分析法探索交通事故嚴(yán)重程度的主要影響因素。由于研究目標(biāo)不同,因此無法對多分類模型的標(biāo)簽進(jìn)行定義。
本文提出的模型包括時空狀態(tài)聚合模塊、時空關(guān)系捕獲模塊和時空數(shù)據(jù)融合模塊。AP-FHTS的模型框架如圖1所示,其中包括:長短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)、批量歸一化(Batch Normalization, BN)和前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network, FNN);AF為激活函數(shù)(Activation Function);Time代表交通事故數(shù)據(jù)的時間特征;Loss代表預(yù)測值和真實值之間的誤差。
圖1 AP-FHTS的模型框架
時空狀態(tài)聚合模塊由四部分組成,分別針對單一區(qū)域(Sin)、鄰近區(qū)域(Adj)、相似區(qū)域(Sim)和全局區(qū)域(SG)完成歷史交通事故時空狀態(tài)在局部與全局的空間依賴特性和空間異構(gòu)特性捕獲任務(wù)。單一區(qū)域、鄰近區(qū)域和相似區(qū)域部分以研究子區(qū)域為中心,分別獲取該區(qū)域、該區(qū)域鄰域和與該區(qū)域相似區(qū)域的歷史多時段交通事故時空狀態(tài),在微觀層面聚合研究子區(qū)域歷史時空狀態(tài)的局部空間特性。全局區(qū)域以整體研究區(qū)域為中心,獲取其歷史多時段總體交通事故時空狀態(tài),并將總體時空狀態(tài)映射到利用POI數(shù)據(jù)建立的空間相似圖上,在宏觀層面聚合研究子區(qū)域歷史時空狀態(tài)的全局空間特性。
時空關(guān)系捕獲模塊試圖從歷史多時段時空狀態(tài)和總體時空狀態(tài)中分別捕獲局部與全局的時空依賴性。針對歷史多時段時空狀態(tài),該模塊從歷史時段中逐步獲取研究子區(qū)域的時空狀態(tài)發(fā)展趨勢,對下一時段的時空狀態(tài)作出預(yù)測;針對總體時空狀態(tài),該模塊通過在空間相似圖上進(jìn)行多次信息傳遞,使各個研究子區(qū)域聚合相似區(qū)域的時空狀態(tài),利用更新后的研究子區(qū)域時空狀態(tài)預(yù)測下一時段的時空狀態(tài)。
3.1.1實驗數(shù)據(jù)
實驗數(shù)據(jù)源于US-Accident中5個城市在2018年6月1日—9月1日內(nèi)的所有交通事件數(shù)據(jù)和天氣數(shù)據(jù),以及5個城市的POI數(shù)據(jù)。實驗中的時間段間隔為1 h,每個研究子區(qū)域的大小為5 km×5 km。通過事故相關(guān)數(shù)據(jù)的經(jīng)緯度屬性將每條數(shù)據(jù)映射到對應(yīng)的研究子區(qū)域中。同一時間段內(nèi)存在多條數(shù)據(jù)時,二值屬性取并操作,連續(xù)屬性取平均值。交通事件數(shù)據(jù)Traffic_Event的基本信息包括交通事件的類型、發(fā)生時間和發(fā)生地點。天氣數(shù)據(jù)Weather包含氣象站的經(jīng)緯度、數(shù)據(jù)記錄時間和溫度、濕度、氣壓、可見度等6種類型的天氣數(shù)據(jù),以及雨天、雪天、霧天和冰雹4種天氣狀況,由4個二值屬性構(gòu)成。POI數(shù)據(jù)包括POI的類型、位置及數(shù)量。時間特征Hour,包含是/非節(jié)假日、日出/日落和所屬時段三種類型。是/非節(jié)假日由1個二值屬性構(gòu)成;日出/日落由1個二值屬性構(gòu)成;所屬時段將一天24 h分為5個時段[12],由5個二值屬性構(gòu)成。US-Accident數(shù)據(jù)集包含7種類型的交通事件和15種類型的POI,其中交通事故是交通事件的一種。具體實驗數(shù)據(jù)如表1所示。
表1 數(shù)據(jù)集詳情
3.1.2時間特性
實驗數(shù)據(jù)中,Houston在一天內(nèi)各個時段的周累積道路交通事故數(shù)量,體現(xiàn)出事故數(shù)據(jù)的時間特性,如圖2所示。
圖2 事故數(shù)據(jù)的時間特性
3.1.3空間特性
空間依賴性指鄰近區(qū)域會呈現(xiàn)出相似的交通事故狀況。空間異構(gòu)性側(cè)面反映地理空間相似區(qū)域會呈現(xiàn)出相似的交通事故狀況。各城市研究子區(qū)域在實驗研究范圍內(nèi)的道路交通事故數(shù)量,體現(xiàn)出事故數(shù)據(jù)的空間特性,如圖3所示。道路交通事故數(shù)量呈現(xiàn)出從中心向外擴(kuò)散的特點,表現(xiàn)出空間依賴性。地理空間相似區(qū)域(圖3中標(biāo)記點)的交通事故狀況也表現(xiàn)出空間異構(gòu)性。
圖3 事故數(shù)據(jù)的空間特性
3.1.4時空特性
事故數(shù)據(jù)在呈現(xiàn)出周期性的時間特性基礎(chǔ)上,鄰近區(qū)域和地理空間相似區(qū)域(圖4中標(biāo)記點)也分別呈現(xiàn)出空間上的依賴性和異構(gòu)性。實驗數(shù)據(jù)中,Houston前5周道路交通事故數(shù)量,體現(xiàn)出事故數(shù)據(jù)的時空特性,如圖4所示。
在交通事故預(yù)測問題中,非事故時段數(shù)量遠(yuǎn)大于事故時段數(shù)量。Atlanta城市數(shù)據(jù)在完成研究區(qū)域劃分和時間范圍劃分后,事故時段數(shù)量和非事故時段數(shù)量之比高達(dá)1∶60(如表1),因此該問題是一種典型的不平衡類問題。解決不平衡類問題的方式之一是對非事故數(shù)據(jù)進(jìn)行不充分抽樣,以改變數(shù)據(jù)集中事故數(shù)據(jù)和非事故數(shù)據(jù)的分布比例,使模型在訓(xùn)練過程中對事故數(shù)據(jù)得到更好的表示,提高模型在事故數(shù)據(jù)上的預(yù)測準(zhǔn)確度[22]。本研究對非事故數(shù)據(jù)進(jìn)行不充分抽樣,隨機(jī)抽取2%的非事故數(shù)據(jù)作為數(shù)據(jù)集的負(fù)樣本,而所有的事故數(shù)據(jù)作為數(shù)據(jù)集的正樣本。
在不充分抽樣完成后,將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,比例為5∶1。此外,為了防止過擬合,采取提前停止方式,隨機(jī)抽取10%的訓(xùn)練集作為驗證集。在訓(xùn)練次數(shù)迭代超過40次以后,每5次迭代計算一次驗證集的損失,當(dāng)驗證集的損失連續(xù)3次不再降低,則停止訓(xùn)練。
圖4 事故數(shù)據(jù)的時空特性
本文模型中3個模塊的具體結(jié)構(gòu)如下:
3)時空數(shù)據(jù)融合模塊:該模塊將單一區(qū)域、鄰近區(qū)域、相似區(qū)域和全局區(qū)域的32維表示向量,以及7維的時間特征向量進(jìn)行拼接,構(gòu)成135維的表示向量,輸入FNN模塊。FNN模塊包含2個隱含層,神經(jīng)元個數(shù)分別為256和64,輸出層神經(jīng)元個數(shù)為2,每層的激活函數(shù)為Tanh函數(shù),每兩層之間使用批量歸一化方法。
由于不同模型使用的數(shù)據(jù)存在差異等原因,很難將本文模型與其他事故預(yù)測模型進(jìn)行直接比較,所以選取下述4種模型與本文提出的模型進(jìn)行比較,如下所示:
1)Logistic回歸(Logistic Regression, LR)[23]。
2)隨機(jī)森林(Random Forest, RF)[24]。
3)前饋神經(jīng)網(wǎng)絡(luò):該模型包括3層神經(jīng)網(wǎng)絡(luò),神經(jīng)元個數(shù)分別為256、64和2,激活函數(shù)為ReLU。
4)Sin+Sim+Adj+G(SSAG):將本文提出的模型中的SG部分的輸出結(jié)果替換為圖卷積后所有研究子區(qū)域的狀態(tài)均值,并使用G代替。
LR、RF和FNN的輸入向量是單一區(qū)域、鄰近區(qū)域和相似區(qū)域的時空狀態(tài)向量和時間特征拼接生成的415維向量。LR、RF和FNN通過Scikit-learn機(jī)器學(xué)習(xí)庫[25]搭建,超參數(shù)優(yōu)化由Scikit-learn完成。SSAG模型的輸入向量和超參數(shù)優(yōu)化與本文提出的模型一致。
選取適合評價不平衡類問題的F1指標(biāo)作為模型的評價指標(biāo),分別計算正樣本F1分?jǐn)?shù)(Acc)、負(fù)樣本F1分?jǐn)?shù)(Non?Acc)及考慮正負(fù)樣本比例的加權(quán)平均F1分?jǐn)?shù)(Avg?Acc)。
為每個城市單獨訓(xùn)練一個事故預(yù)測模型,不同模型在不同城市數(shù)據(jù)集上的性能比較如表2所示。與所有的基準(zhǔn)方法相比,本文提出的AP-FHTS在三個指標(biāo)上均表現(xiàn)出最優(yōu)的性能,在5個城市數(shù)據(jù)集上的平均Acc、Non-Acc、Avg-Acc分別為85.6%、86.4%、86.6%,與FNN模型相比,在三個指標(biāo)上分別提升了 14.4%、5.6%和9.3%。與使用所有研究子區(qū)域狀態(tài)均值的SSAG模型相比,進(jìn)行節(jié)點選擇的模型(AP-FHTS)在三種指標(biāo)上均有明顯提升,表明使用所有研究子區(qū)域狀態(tài)均值未能考慮交通事故數(shù)據(jù)表現(xiàn)出的空間特性,而AP-FHTS可以捕捉到空間特性,提升模型在所有城市的Acc和Non?Acc,尤其是Dallas的Acc。與基準(zhǔn)方法相比,AP-FHTS在不同城市數(shù)據(jù)集上的指標(biāo)提升有所差異。例如,雖然AP?FHTS在Dallas的Acc低于其他4個城市,但相較于基準(zhǔn)方法Acc的提升卻大于其他4個城市,而且Noc-Acc也高于其余4個城市,再次證明AP?FHTS充分考慮了交通事故數(shù)據(jù)表現(xiàn)出的空間特性。AP?FHTS在Atlanta和Charlotte的Acc高于Non-Acc,在Austin的兩種指標(biāo)持平,在Dallas和Houston的Acc低于Non-Acc。這是因為Dallas和Houston原始數(shù)據(jù)集中的事故時段與非事故時段比值遠(yuǎn)小于其他城市數(shù)據(jù)集,因此負(fù)采樣后的數(shù)據(jù)集仍保留此現(xiàn)象,符合各個城市的現(xiàn)實情況。與基準(zhǔn)方法相比,AP-FHTS可有效提高各城市的Acc和Non-Acc,并減少二者之間的差異。
雖然本文使用的數(shù)據(jù)源于文獻(xiàn)[12]的公開數(shù)據(jù)集,但本文未將靜態(tài)語義信息作為特征輸入模型,如POI特征、事故文本描述信息等,因此使用的數(shù)據(jù)與文獻(xiàn)[12]存在差異,所以本文模型也無法直接與它進(jìn)行比較。但與DAP模型[12]相比,使用更少類型數(shù)據(jù)的AP-FHTS在不同城市的Acc均大幅提升,高效解決了事故數(shù)據(jù)中存在的不平衡性問題。
通過組件選擇方式分析AP-FHTS中各組件對不同城市預(yù)測模型性能的影響,如圖5所示。共設(shè)置5組實驗,構(gòu)建5種模型,記作A、B、C、D、E,其中:A僅使用單一區(qū)域組件(Sin);B使用單一區(qū)域和相似區(qū)域組件(Sin+Sim);C使用單一區(qū)域和鄰近區(qū)域組件(Sin+Adj);D使用單一區(qū)域、鄰近區(qū)域和相似區(qū)域組件(Sin+Sim+Adj);E使用單一區(qū)域、鄰近區(qū)域、相似區(qū)域和全局區(qū)域組件(AP-FHTS)。從A和B的結(jié)果看,Sim可提高4個城市的Acc,但降低了Austin的Acc指標(biāo);Sim在Charlotte和Dallas的Non-Acc有提升,在Atlanta的Non-Acc指標(biāo)下降,對其他城市的指標(biāo)無影響。從A和C的結(jié)果看,Adj可提高4個城市的Acc,對Austin指標(biāo)無影響;Adj在4個城市的Non-Acc有提升,在Atlanta則指標(biāo)下降。上述三組實驗的對比說明Sim和Adj組件對大部分城市預(yù)測模型性能的提升均有積極作用。從B、C和D的結(jié)果看,Sim和Adj組件在部分城市具有相容性。這種現(xiàn)象是正常的,因為鄰近區(qū)域的物理結(jié)構(gòu)往往很相似(如圖3所示)。最后,從D和E的結(jié)果看,全局區(qū)域組件可提高所有城市的Acc和Non-Acc。
通過特征選擇方式分析天氣數(shù)據(jù)(WE)、時間特征(H)和交通事件(TE)對不同城市預(yù)測模型性能的影響,如圖6所示。在原有5個城市模型的基礎(chǔ)上,構(gòu)建一個包含所有城市訓(xùn)練數(shù)據(jù)的模型(All),以探索是否有必要為每一個城市單獨訓(xùn)練一個事故預(yù)測模型。由于各個城市在物理結(jié)構(gòu)上不存在相鄰關(guān)系,因此選擇Sin+Sim+Adj模型探索特征的重要性。從結(jié)果上看,三種特征對模型性能均有提升作用,不同特征在不同城市對模型性能提升有差異。例如,僅使用天氣數(shù)據(jù)時,Austin的Acc低于Atlanta,在添加時間特征后,二者的Acc持平;僅使用天氣數(shù)據(jù)時,Austin的Non-Acc低于所有城市,在添加時間特征后,不僅Austin的Non-Acc大幅提升,僅低于Houston,而且Atlanta和Charlotte的Non-Acc也大幅提升。其次,交通事件有助于平衡Acc和Non-Acc,減少預(yù)測模型在各城市的性能差異。此外,為不同城市訓(xùn)練不同模型是必要的。雖然在使用全部特征時,All的Avg-Acc僅比Houston低,但為每個城市單獨訓(xùn)練模型仍是必要的,因為在集成所有城市訓(xùn)練數(shù)據(jù)后,負(fù)樣本比例過大,導(dǎo)致平均性能向負(fù)樣本性能傾斜;然而,對事故數(shù)據(jù)正確預(yù)測的意義遠(yuǎn)大于非事故數(shù)據(jù)。實際在使用全部特征時,All的Acc低于4個城市,Non-Acc低于2個城市。
表2 不同模型在5個城市數(shù)據(jù)集的性能比較
圖5 不同組件對不同城市的模型性能的影響
圖6 不同特征對不同城市的模型性能的影響
基于事故數(shù)據(jù)存在的時間周期性、空間依賴性和空間異構(gòu)性,本文提出了一種融合異構(gòu)交通態(tài)勢的事故預(yù)測模型AP-FHTS。與基準(zhǔn)方法相比,動態(tài)捕獲多角度、多尺度時空狀態(tài)的AP-FHTS可有效完成對事故數(shù)據(jù)動態(tài)時空特性的捕獲;而且AP-FHTS在同時提高Acc和Non-Acc的基礎(chǔ)上,能縮小二者的差距,抑制事故數(shù)據(jù)不平衡性對實驗結(jié)果的影響。事故預(yù)測模型性能的提高不僅可完成城市道路交通安全形勢分析研判任務(wù),還可根據(jù)模型的輸入特征及其使用的方法完成事故成因分析。消融實驗中,由于事故數(shù)據(jù)的空間依賴性,導(dǎo)致鄰近區(qū)域組件和相似區(qū)域組件在部分城市預(yù)測性能上表現(xiàn)出相容性。未來,將會研究鄰近區(qū)域和相似區(qū)域之間的事故狀況聯(lián)系,以及各個研究子區(qū)域的事故狀況演變趨勢,以進(jìn)一步提高事故預(yù)測模型性能。
[1] SILVA P B, ANDRADE M, FERREIRA S. Machine learning applied to road safety modeling: a systematic literature review[J]. Journal of Traffic and Transportation Engineering (English Edition), 2020, 7(6): 775-790.
[2] REN H, SONG Y, WANG J, et al. A deep learning approach to the citywide traffic accident risk prediction[C]// Proceedings of the 21st International Conference on Intelligent Transportation Systems. Piscataway: IEEE, 2018:3346-3351.
[3] ZIAKOPOULOS A, YANNIS G. A review of spatial approaches in road safety[J]. Accident Analysis and Prevention, 2020, 135: No.105323.
[4] JIANG W, LUO J. Graph neural network for traffic forecasting: a survey[J]. Expert Systems with Applications, 2022, 207: No.117921.
[5] AL HAMAMI M, MATISZIW T C. Measuring the spatiotemporal evolution of accident hot spots[J]. Accident Analysis and Prevention, 2021, 157: No.106133.
[6] YU H, YUAN R, LI Z, et al. Identifying heterogeneous factors for driver injury severity variations in snow-related rural single-vehicle crashes[J]. Accident Analysis and Prevention, 2020, 144: No.105587.
[7] ABELLáN J, LóPEZ G, DE O?A J. Analysis of traffic accident severity using Decision Rules via Decision Trees[J]. Expert Systems with Applications, 2013, 40(15): 6047-6054.
[8] ALOGAILI A, MANNERING F. Unobserved heterogeneity and the effects of driver nationality on crash injury severities in Saudi Arabia[J]. Accident Analysis and Prevention, 2020, 144: No.105618.
[9] CHANG L Y, CHEN W C. Data mining of tree-based models to analyze freeway accident frequency[J]. Journal of Safety Research, 2005, 36(4): 365-375.
[10] LV Y, TANG S, ZHAO H. Real-Time highway traffic accident prediction based on the k-nearest neighbor method[C]// Proceedings of the 2009 International Conference on Measuring Technology and Mechatronics Automation. Piscataway: IEEE, 2009: 547-550.
[11] TEDJOPURNOMO D A, BAO Z, ZHENG B, et al. A survey on modern deep neural network for traffic prediction: trends, methods and challenges[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 34(4): 1544-1561.
[12] MOOSAVI S, SAMAVATIAN M H, PARTHASARATHY S, et al. Accident risk prediction based on heterogeneous sparse data: new dataset and insights[C]// Proceedings of the 27th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. New York: ACM, 2019:33-42.
[13] YUAN Z, ZHOU X, YANG T. Hetero-ConvLSTM: a deep learning approach to traffic accident prediction on heterogeneous spatio-temporal data[C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2018: 984-992.
[14] HAMILTON W. 圖表示學(xué)習(xí)[M]. AI TIME,譯. 北京:電子工業(yè)出版社, 2021: 72-113.(HAMILTON W. Graph Representation Learning[M]. AI TIME, translated. Beijing: Publishing House of Electronics Industry, 2021: 72-113.)
[15] ZHOU Z, WANG Y, XIE X, et al. RiskOracle: a minute-level citywide traffic accident forecasting framework[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 1258-1265.
[16] YU L, DU B, HU X, et al. Deep spatio-temporal graph convolutional network for traffic accident prediction[J]. Neurocomputing, 2021, 423: 135-147.
[17] CHEN Q, SONG X, YAMADA H S, et al. Learning deep representation from big and heterogeneous data for traffic accident inference[C]// Proceedings of the 30th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2016:338-344.
[18] YUAN Z, ZHOU X, YANG T, et al. Predicting traffic accidents through heterogeneous urban data: a case study[C]// Proceedings of the 6th International Workshop on Urban Computing. New York: ACM, 2017:1-9.
[19] LOBO A, FERREIRA S, IGLESIAS I, et al. Urban road crashes and weather conditions: untangling the effects[J]. Sustainability, 2019, 11(11): No.3176.
[20] MALIN F, NORROS I, INNAMAA S. Accident risk of road and weather conditions on different road types[J]. Accident Analysis and Prevention, 2019, 122: 181-188.
[21] ROLAND J, WAY P D, FIRAT C, et al. Modeling and predicting vehicle accident occurrence in Chattanooga, Tennessee[J]. Accident Analysis and Prevention, 2021, 149: No.105860.
[22] TAN P N, STEINBACH M, KUMAR V. 數(shù)據(jù)挖掘?qū)д摚ㄍ暾妫跰]. 范明,范宏建,譯.北京:人民郵電出版社, 2011: 180-186.(TAN P N, STEINBACH M, KUMAR V. Introduction to Data Mining[M]. FAN M, FAN H J, translated. Beijing: Posts and Telecom Press, 2011: 180-186.)
[23] WALKER S H, DUNCAN D B. Estimation of the probability of an event as a function of several independent variables[J]. Biometrika, 1967, 54(1/2): 167-179.
[24] BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
[25] PEDREGOSA F, VAROQUAUX G, GRAMFORT A, et al.: machine learning in Python[J]. Journal of Machine Learning Research, 2011, 12: 2825-2830.
Accident prediction model fusing heterogeneous traffic situations
YANG Bo, DUAN Zongtao*, ZUO Pengfei, XIAO Yuanyuan, WANG Yilin
(,’,’710064,)
To address the problems of limited information expression, imbalance, and dynamic spatio-temporal characteristics of accident data, an accident prediction model fusing heterogeneous traffic situations was proposed. In which, the semantic enhancement was completed by the spatio-temporal state aggregation module through traffic events and weather features representing dynamic traffic situations, and the historical multi-period spatio-temporal states of four types of regions (single region, adjacent region, similar region, and global region) were aggregated; the dynamic local and global spatio-temporal characteristics of accident data were captured by the spatio-temporal relation capture module from both micro- and macro-perspectives; and the multi-region and multi-angle spatio-temporal states were further fused by the spatio-temporal data fusion module, and the accident prediction task in the next period was realized. Experimental results on five city datasets of US-Accident demonstrate that the average F1-scores of the proposed model for accident, non-accident, and weighted average samples are 85.6%, 86.4%, and 86.6% respectively, which are improved by 14.4%, 5.6%, and 9.3% in the three metrics compared to the traditional Feedforward Neural Network (FNN), indicating that the proposed model can effectively suppresses the influence of accident data imbalance on experimental results. Constructing an efficient accident prediction model helps to analyze the safety situation of road traffic, reduce the occurrence of traffic accidents and improve the traffic safety.
traffic accident prediction model; traffic accident data; spatio-temporal characteristic; deep learning; traffic safety
1001-9081(2023)11-3625-07
10.11772/j.issn.1001-9081.2022101619
2022?10?28;
2023?04?05;
陜西省重點研發(fā)計劃項目(2019ZDLGY17?08, 2019ZDLGY03?09?01); 陜西省“特支計劃”科技創(chuàng)新領(lǐng)軍人才項目(TZ0336)。
楊博(1999—),男,山西運城人,碩士研究生,CCF會員,主要研究方向:大數(shù)據(jù)、深度學(xué)習(xí); 段宗濤(1977—),男,陜西鳳翔人,教授,博士,CCF會員,主要研究方向:大數(shù)據(jù)智能、交通大數(shù)據(jù)分析; 左鵬飛(1997—),女,山西大同人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)、交通大數(shù)據(jù)分析; 肖媛媛(1997—),女,陜西西安人,博士研究生,主要研究方向:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘; 王藝霖(1999—),女,山西太原人,碩士研究生,主要研究方向:數(shù)據(jù)聚類、用戶畫像。
TP391; U491.31
A
2023?08?07。
This work is partially supported by Key Research and Development Program of Shaanxi Province (2019ZDLGY17-08, 2019ZDLGY03-09-01), Project of “Special Support Plan” Science and Technology Innovation Leading Talents of Shaanxi Province (TZ0336).
YANG Bo, born in 1999, M. S. candidate. His research interests include big data, deep learning.
DUAN Zongtao, born in 1977, Ph. D., professor. His research interests include big data intelligence, analysis of big traffic data.
ZUO Pengfei, born in 1997, M. S. candidate. Her research interests include machine learning, analysis of big traffic data.
XIAO Yuanyuan, born in 1997, Ph. D. candidate. Her research interests include machine learning, data mining.
WANG Yilin, born in 1999, M. S. candidate. Her research interests include data clustering, user portrait.