亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于機器學(xué)習(xí)的城市道路交通事故嚴(yán)重程度影響因素辨識研究

2020-07-15 09:35:00劉慶芳雷建明LIUQingfangCHENGWeiLEIJianming

物流科技 2020年7期

劉慶芳，成衛(wèi) ，雷建明 LIU Qingfang， CHENG Wei， LEI Jianming

（1. 昆明理工大學(xué) 交通工程學(xué)院，云南昆明 650504；2. 玉溪市公安局交通警察支隊，云南玉溪 653100）

(1. School of Traffic Engineering, Kunming University of Science and Technology, Kunming 650504, China; 2. Traffic Police Detachment of Yuxi Public Security Bureau, Yuxi 653100, China)

0 引言

近年來，隨著我國人均汽車保有量以及城市基礎(chǔ)建設(shè)工程數(shù)量的迅速增長，城市交通事故日益頻發(fā)。道路交通安全管理不僅是城市智能化交通管理平臺建設(shè)的重點工作內(nèi)容，同時也與國民的人身財產(chǎn)安全息息相關(guān)。為了城市道路交通進一步安全、快速的發(fā)展，如何采取科學(xué)的方法來減少城市道路交通事故的發(fā)生以及最大限度地降低事故嚴(yán)重程度，是值得每一位城市交通安全管理人員認(rèn)真思考的。

通過對國內(nèi)外學(xué)者在交通事故嚴(yán)重程度影響因素方面的研究分析后得知，目前主要有以下兩大方面的方法：第一種，基于經(jīng)典的統(tǒng)計模型方法[1-5]進行研究，其中運用比較多的有各類Logit 模型及其改進模型、主成分分析法等。第二種，便是基于機器學(xué)習(xí)的智能算法，例如支持向量機模型[6-7]、決策樹模型[8]、神經(jīng)網(wǎng)絡(luò)模型[9]等。2004 年Hang G B[10]提出了一種新的前饋神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法——極限學(xué)習(xí)機（Extreme Learning Machine，ELM）。ELM 結(jié)構(gòu)簡單，并具有良好的泛化能力，它只要獲得隱藏層和輸出層之間的權(quán)重系數(shù)（或連接系數(shù)），并據(jù)此構(gòu)建參數(shù)模型，就可以實現(xiàn)分類的目的，該方法目前已經(jīng)成功的應(yīng)用于食品檢測、故障監(jiān)測、交通事故預(yù)測[11-12]以及圖像處理等領(lǐng)域。

對以上已有研究總結(jié)分析后可以看出，國內(nèi)外學(xué)者大都采用經(jīng)典的統(tǒng)計模型方法來進行辨識，機器學(xué)習(xí)算法中雖然已經(jīng)有很多得到了應(yīng)用，但是基于機器學(xué)習(xí)算法缺點改進后的模型應(yīng)用并不是很多。對于本文所選用的極限學(xué)習(xí)機，在其原始模式下，隱藏層的節(jié)點數(shù)、隱藏層的隨機輸入?yún)?shù)以及數(shù)據(jù)噪聲會對預(yù)測精度造成影響，通過最小二乘調(diào)整的輸出權(quán)重往往會夸大離群點和噪聲的影響。針對以上缺點，國內(nèi)一部分學(xué)者[13-14]通過引入各種算法來優(yōu)化改進極限學(xué)習(xí)機，例如量子遺傳算法等?；谝陨涎芯砍晒?，本文在2015～2017 年某市城市道路交通事故統(tǒng)計報告的基礎(chǔ)上，提取可用的樣本數(shù)據(jù)集，然后對預(yù)測模型影響因素進行量化，包括時間因素、環(huán)境因素、駕駛員因素這幾個方面共14 個影響因素。將交通事故樣本數(shù)據(jù)集進行三分類，分別基于D-ELM、ELM 以及核極限學(xué)習(xí)機（K-ELM）[15]建立交通事故嚴(yán)重程度影響因素辨識模型進行對比分析。同時，根據(jù)模型所得到的影響因素制定相應(yīng)的安全管理措施。

1 極限學(xué)習(xí)機（ELM）學(xué)習(xí)原理

2004 年，南洋理工大學(xué)Huang G B 教授提出了ELM 分類算法，它是在傳統(tǒng)的單隱層前饋神經(jīng)網(wǎng)絡(luò)（SLFN）基礎(chǔ)上演變來的[10]，在它的訓(xùn)練過程中輸入層的權(quán)值和偏差是隨機輸入的，而輸出層的權(quán)重是經(jīng)過廣義逆矩陣?yán)碚撚嬎愕玫降?。?dāng)所有網(wǎng)絡(luò)節(jié)點上的權(quán)值和偏差都獲得后，ELM 的訓(xùn)練過程就結(jié)束了。然后，把測試集的數(shù)據(jù)輸入，利用已經(jīng)訓(xùn)練好的輸出層的權(quán)重便可以把網(wǎng)絡(luò)輸出計算出來，從而數(shù)據(jù)的預(yù)測便完成了。極限學(xué)習(xí)機的學(xué)習(xí)算法具體如下所示：

對于 N 個隨機樣本（xi， ti），其中 xi= ［xi1，xi2，…，xin］T∈Rn， ti= ［ti1，ti2，…，tim］T∈Rm。對于有L 個隱層節(jié)點的單隱層神經(jīng)網(wǎng)絡(luò)可以表示為：

式中：β 是隱含層和輸出層之間的權(quán)值，ξ 是輸出誤差，C 是訓(xùn)練誤差的懲罰因子，H 是隱含層的輸出矩陣，T 是類別標(biāo)簽，x 是樣本。

在ELM 分類過程中，輸出函數(shù)被分為兩類：

（1）當(dāng)訓(xùn)練樣本較少，輸出函數(shù)可以表示為：

式中：I 是辨識矩陣。

（2）當(dāng)訓(xùn)練樣本數(shù)目過多，遠遠大于特征個數(shù)時，輸出函數(shù)可以表示為:

2 深度極限學(xué)習(xí)機（D-ELM）

2.1 D-ELM 算法

D-ELM 算法的主要原理如下：

在傳統(tǒng)的 ELM 中，類別標(biāo)簽可以表示為 ti= ［-1，…，+1，…，-1 ］∈Rc，c 是類別數(shù)目，+1 的位置代表該樣本所為類別。在此過程中，把辨識因子A 矩陣提出去擴展類別間距離，使其值恒大于0。同時，引入一個協(xié)同矩陣Z，假設(shè)當(dāng)Tij=1，Zij=1，或者當(dāng) Tij=-1，Zij=-1。

D-ELM 具體的算法過程，以本文的三分類為例，表1 為改進后D-ELM 的擴展形式，辨識因子和協(xié)同矩陣的作用關(guān)系可以用哈達瑪積形式進行表示，表示形式如公式（5）：

在引入?yún)f(xié)同矩陣和辨識因子之前，前兩個隱含層的輸出形式可以表示為：

在引入之后，距離可以表示為：

表1 D-ELM 的擴展形式

因此，最優(yōu)化問題可以轉(zhuǎn)化為：

設(shè)W=T+Z⊙A，最優(yōu)化問題可以表示為：

在給定β 后，最優(yōu)化問題可以表示為：

設(shè)U=Hβ-T，公式（11）可以表示為：

根據(jù)哈達瑪積的計算形式，公式（12）可以轉(zhuǎn)換元素相乘形式，可以表示為：

最優(yōu)化問題進一步轉(zhuǎn)化為：

由于 Aij＞0，因此：

當(dāng)最優(yōu)β 和A 被獲得，輸出函數(shù)可以表述為：

為了優(yōu)化A 和β，設(shè)目標(biāo)誤差為10-4，當(dāng)：

獲得最優(yōu)參數(shù)。式中：k 為迭代次數(shù)，最大值為50。因此，W 被轉(zhuǎn)換為W'=T+Z⊙A，輸出函數(shù)可以表示為：

2.2 GA-D-ELM 模型建立

通過將D-ELM 作為道路交通事故嚴(yán)重程度三分類的分類器，利用GA 來進行因素辨識從而構(gòu)建GA-D-ELM 模型，具體過程如下：

（1）采用二進制編碼方式，其中因素數(shù)與染色體數(shù)一樣長。fi（i=1，2，…，n ）表示第n 個的選擇狀態(tài)，用1 表示因素被選，0表示沒有被選。

（2）根據(jù)解空間的大小合理設(shè)置初始種群，最大程度上保證包含影響因素集的各種解。

（3）利用公式（20）構(gòu)建適應(yīng)度函數(shù)，利用它計算初始種群中每個個體的適應(yīng)度，進行排序。即先將初始種群的個體由基因型表達方式轉(zhuǎn)變?yōu)楸憩F(xiàn)型方式；再通過所選擇的模型影響因素集，帶入數(shù)據(jù)訓(xùn)練樣本中，利用D-ELM 對數(shù)據(jù)進行分類，通過測試數(shù)據(jù)樣本計算分類精確度；最后，通過分類精確度及選擇的影響因素個數(shù)來計算各個個體的適應(yīng)度值。

式中：fitness 表示適應(yīng)度，ω1表示分類精度權(quán)重；ω2表示所選因素數(shù)權(quán)重；accuracy 表示分類精度。ω1與ω2的值可以根據(jù)實際情況進行調(diào)整，本文假設(shè)ω1=0.8， ω2=0.2。

（4）根據(jù)適應(yīng)度值排序結(jié)果，從高到低地挑選足夠數(shù)量的優(yōu)秀個體，直接到下一代。對最優(yōu)個體的適應(yīng)度進行評判，達到設(shè)定判斷值就停止進化，沒有則通過其他方式繼續(xù)優(yōu)化，計算下一代種群。

（5）利用步驟（3）的方法，計算新的一代中各個個體的適應(yīng)度，并找出適應(yīng)度最佳的個體。一直重復(fù)以上操作，直到某一代中的最佳個體適應(yīng)度值在一定的范圍內(nèi)不再變化，終止種群進化，從而得到最理想的影響因素集。

3 實例分析

3.1 數(shù)據(jù)來源

根據(jù)某市2015～2017 年城市道路交通事故報告，為了獲取完整、可靠的事故數(shù)據(jù)，本著完整性、隨機性、權(quán)威性三個原則，對這份報告中的數(shù)據(jù)進行篩選，最終獲得了共1 800 條可用樣本數(shù)據(jù)。

3.2 模型影響因素集構(gòu)建及量化

本文為了計算和說明的簡便，將城市道路交通事故嚴(yán)重程度劃分為三類，即為一般事故、重大事故、特大事故，一般事故包括輕微事故和一般事故。在以前關(guān)于城市道路交通事故嚴(yán)重程度影響因素的研究基礎(chǔ)上，結(jié)合搜集到的事故調(diào)查報告中記錄的信息完整程度，構(gòu)建包括時間因素、環(huán)境因素、駕駛員因素共三個方面14 個變量的模型影響因素集，如表2 所示。采取阿拉伯?dāng)?shù)字編碼制記錄事故變量信息，以“時間因素”中的季節(jié)變量為例，1～4 分別表示春季、夏季、秋季、冬季。

表2 模型影響因素及量化說明

當(dāng)某個自變量有k （k＞ 2 ）個分類時，在模型中引入（k- 1 ）個虛擬變量，將變量變?yōu)?-1 變量。以環(huán)境因素中的照明條件的變量為例，變量分為4 類，需要引入3 個虛擬變量，如表3 所示。

表3 照明條件的虛擬變量

3.3 樣本及參數(shù)設(shè)置

為了對比改進后的GA-D-ELM 的辨識性能，本文用基于傳統(tǒng)極限學(xué)習(xí)機以及核極限學(xué)習(xí)機理論的GA-ELM、GA-K-ELM模型進行對比分析。在這1 800 條數(shù)據(jù)中，三種不同的交通事故數(shù)據(jù)各有600 條。按2∶1 的比例將事故數(shù)據(jù)隨機地劃分成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集，即在三種不同的道路交通事故類型數(shù)據(jù)中，每種都隨機選擇其中400 個樣本作為訓(xùn)練集，剩余的200 個作為預(yù)測集。在各類ELM 分類過程中，懲罰項C 和隱含層神經(jīng)元個數(shù)L 是影響分類性能的兩個重要參數(shù)，所以本文對C 和L的取值進行參數(shù)搜索，其中C 是以0.02 為間隔在區(qū)間［0.0 2 ，100 ］的范圍內(nèi)進行搜索，L 以2 為間隔在區(qū)間［2，10 0 ］范圍內(nèi)進行搜索。為了消除隨機性的影響，每個模型運行20 次，取20 次的平均值作為最終的分類準(zhǔn)確率，在取得最佳準(zhǔn)確度的基礎(chǔ)上，將D-ELM、K-ELM、ELM 中的神經(jīng)元個數(shù)L 分別取值為5、8、10。

在GA-D-ELM、GA-ELM、GA-K-ELM 辨識模型里，令初始種群數(shù)量為50，個體適應(yīng)度判斷閥值為0.8，實驗證明，迭代50 次后最佳適應(yīng)度基本不發(fā)生變化，故最大進化代數(shù)為50。

3.4 識別結(jié)果及分析

采用Matlab 軟件來實現(xiàn)上述算法過程，最終得到的辨識因素和分類準(zhǔn)確率等如表4 所示：

表4 模型辨識因素結(jié)果及分類準(zhǔn)確率

綜上，在對三種辨識模型進行對比分析后，可以看出改進后的GA-D-ELM 要比GA-ELM、GA-K-ELM 辨識性能好。

4 結(jié) 論

首先，通過在ELM 的類別標(biāo)簽中，把辯識因子矩陣提出去擴展類別間距離，再引入?yún)f(xié)同矩陣，從而構(gòu)建出D-ELM；其次，通過GA-D-ELM、GA-ELM、GA-K-ELM 三種模型的對比分析，結(jié)果顯示：GA-D-ELM 模型可以識別出數(shù)量更為精簡的影響因子個數(shù)，極大程度上提高了分類的準(zhǔn)確率。最后，由于本文是通過歷史統(tǒng)計數(shù)據(jù)進行的研究分析，所以很多數(shù)據(jù)內(nèi)容記錄不全，許多影響因素并沒有加入模型中進行考慮，例如人車事故中的行人年齡、學(xué)歷以及車輛自身問題等。接下來的研究中應(yīng)當(dāng)擴大實驗樣本的數(shù)量，從而對城市交通事故嚴(yán)重程度的影響因素進行更為全面的研究，使結(jié)果更加準(zhǔn)確。