劉慶芳 ,成 衛(wèi) ,雷建明 LIU Qingfang, CHENG Wei, LEI Jianming
(1. 昆明理工大學(xué) 交通工程學(xué)院,云南 昆明 650504;2. 玉溪市公安局交通警察支隊,云南 玉溪 653100)
(1. School of Traffic Engineering, Kunming University of Science and Technology, Kunming 650504, China; 2. Traffic Police Detachment of Yuxi Public Security Bureau, Yuxi 653100, China)
近年來,隨著我國人均汽車保有量以及城市基礎(chǔ)建設(shè)工程數(shù)量的迅速增長,城市交通事故日益頻發(fā)。道路交通安全管理不僅是城市智能化交通管理平臺建設(shè)的重點工作內(nèi)容,同時也與國民的人身財產(chǎn)安全息息相關(guān)。為了城市道路交通進一步安全、快速的發(fā)展,如何采取科學(xué)的方法來減少城市道路交通事故的發(fā)生以及最大限度地降低事故嚴(yán)重程度,是值得每一位城市交通安全管理人員認(rèn)真思考的。
通過對國內(nèi)外學(xué)者在交通事故嚴(yán)重程度影響因素方面的研究分析后得知,目前主要有以下兩大方面的方法:第一種,基于經(jīng)典的統(tǒng)計模型方法[1-5]進行研究,其中運用比較多的有各類Logit 模型及其改進模型、主成分分析法等。第二種,便是基于機器學(xué)習(xí)的智能算法,例如支持向量機模型[6-7]、決策樹模型[8]、神經(jīng)網(wǎng)絡(luò)模型[9]等。2004 年Hang G B[10]提出了一種新的前饋神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法——極限學(xué)習(xí)機(Extreme Learning Machine,ELM)。ELM 結(jié)構(gòu)簡單,并具有良好的泛化能力,它只要獲得隱藏層和輸出層之間的權(quán)重系數(shù)(或連接系數(shù)),并據(jù)此構(gòu)建參數(shù)模型,就可以實現(xiàn)分類的目的,該方法目前已經(jīng)成功的應(yīng)用于食品檢測、故障監(jiān)測、交通事故預(yù)測[11-12]以及圖像處理等領(lǐng)域。
對以上已有研究總結(jié)分析后可以看出,國內(nèi)外學(xué)者大都采用經(jīng)典的統(tǒng)計模型方法來進行辨識,機器學(xué)習(xí)算法中雖然已經(jīng)有很多得到了應(yīng)用,但是基于機器學(xué)習(xí)算法缺點改進后的模型應(yīng)用并不是很多。對于本文所選用的極限學(xué)習(xí)機,在其原始模式下,隱藏層的節(jié)點數(shù)、隱藏層的隨機輸入?yún)?shù)以及數(shù)據(jù)噪聲會對預(yù)測精度造成影響,通過最小二乘調(diào)整的輸出權(quán)重往往會夸大離群點和噪聲的影響。針對以上缺點,國內(nèi)一部分學(xué)者[13-14]通過引入各種算法來優(yōu)化改進極限學(xué)習(xí)機,例如量子遺傳算法等?;谝陨涎芯砍晒?,本文在2015~2017 年某市城市道路交通事故統(tǒng)計報告的基礎(chǔ)上,提取可用的樣本數(shù)據(jù)集,然后對預(yù)測模型影響因素進行量化,包括時間因素、環(huán)境因素、駕駛員因素這幾個方面共14 個影響因素。將交通事故樣本數(shù)據(jù)集進行三分類,分別基于D-ELM、ELM 以及核極限學(xué)習(xí)機(K-ELM)[15]建立交通事故嚴(yán)重程度影響因素辨識模型進行對比分析。同時,根據(jù)模型所得到的影響因素制定相應(yīng)的安全管理措施。
2004 年,南洋理工大學(xué)Huang G B 教授提出了ELM 分類算法,它是在傳統(tǒng)的單隱層前饋神經(jīng)網(wǎng)絡(luò)(SLFN) 基礎(chǔ)上演變來的[10],在它的訓(xùn)練過程中輸入層的權(quán)值和偏差是隨機輸入的,而輸出層的權(quán)重是經(jīng)過廣義逆矩陣?yán)碚撚嬎愕玫降?。?dāng)所有網(wǎng)絡(luò)節(jié)點上的權(quán)值和偏差都獲得后,ELM 的訓(xùn)練過程就結(jié)束了。然后,把測試集的數(shù)據(jù)輸入,利用已經(jīng)訓(xùn)練好的輸出層的權(quán)重便可以把網(wǎng)絡(luò)輸出計算出來,從而數(shù)據(jù)的預(yù)測便完成了。極限學(xué)習(xí)機的學(xué)習(xí)算法具體如下所示:
對于 N 個隨機樣本 (xi, ti),其中 xi= [xi1,xi2,…,xin]T∈Rn, ti= [ti1,ti2,…,tim]T∈Rm。對于有L 個隱層節(jié)點的單隱層神經(jīng)網(wǎng)絡(luò)可以表示為:
式中:β 是隱含層和輸出層之間的權(quán)值,ξ 是輸出誤差,C 是訓(xùn)練誤差的懲罰因子,H 是隱含層的輸出矩陣,T 是類別標(biāo)簽,x 是樣本。
在ELM 分類過程中,輸出函數(shù)被分為兩類:
(1) 當(dāng)訓(xùn)練樣本較少,輸出函數(shù)可以表示為:
式中:I 是辨識矩陣。
(2) 當(dāng)訓(xùn)練樣本數(shù)目過多,遠遠大于特征個數(shù)時,輸出函數(shù)可以表示為:
D-ELM 算法的主要原理如下:
在傳統(tǒng)的 ELM 中,類別標(biāo)簽可以表示為 ti= [-1,…,+1,…,-1 ]∈Rc,c 是類別數(shù)目,+1 的位置代表該樣本所為類別。在此過程中,把辨識因子A 矩陣提出去擴展類別間距離,使其值恒大于0。同時,引入一個協(xié)同矩陣Z,假設(shè)當(dāng)Tij=1,Zij=1,或者當(dāng) Tij=-1,Zij=-1。
D-ELM 具體的算法過程,以本文的三分類為例,表1 為改進后D-ELM 的擴展形式,辨識因子和協(xié)同矩陣的作用關(guān)系可以用哈達瑪積形式進行表示,表示形式如公式(5):
在引入?yún)f(xié)同矩陣和辨識因子之前,前兩個隱含層的輸出形式可以表示為:
在引入之后,距離可以表示為:
表1 D-ELM 的擴展形式
因此,最優(yōu)化問題可以轉(zhuǎn)化為:
設(shè)W=T+Z⊙A,最優(yōu)化問題可以表示為:
在給定β 后,最優(yōu)化問題可以表示為:
設(shè)U=Hβ-T,公式(11) 可以表示為:
根據(jù)哈達瑪積的計算形式,公式(12) 可以轉(zhuǎn)換元素相乘形式,可以表示為:
最優(yōu)化問題進一步轉(zhuǎn)化為:
由于 Aij>0,因此:
當(dāng)最優(yōu)β 和A 被獲得,輸出函數(shù)可以表述為:
為了優(yōu)化A 和β,設(shè)目標(biāo)誤差為10-4,當(dāng):
獲得最優(yōu)參數(shù)。式中:k 為迭代次數(shù),最大值為50。因此,W 被轉(zhuǎn)換為W'=T+Z⊙A,輸出函數(shù)可以表示為:
通過將D-ELM 作為道路交通事故嚴(yán)重程度三分類的分類器,利用GA 來進行因素辨識從而構(gòu)建GA-D-ELM 模型,具體過程如下:
(1) 采用二進制編碼方式,其中因素數(shù)與染色體數(shù)一樣長。fi(i=1,2,…,n )表示第n 個的選擇狀態(tài),用1 表示因素被選,0表示沒有被選。
(2) 根據(jù)解空間的大小合理設(shè)置初始種群,最大程度上保證包含影響因素集的各種解。
(3) 利用公式(20) 構(gòu)建適應(yīng)度函數(shù),利用它計算初始種群中每個個體的適應(yīng)度,進行排序。即先將初始種群的個體由基因型表達方式轉(zhuǎn)變?yōu)楸憩F(xiàn)型方式;再通過所選擇的模型影響因素集,帶入數(shù)據(jù)訓(xùn)練樣本中,利用D-ELM 對數(shù)據(jù)進行分類,通過測試數(shù)據(jù)樣本計算分類精確度;最后,通過分類精確度及選擇的影響因素個數(shù)來計算各個個體的適應(yīng)度值。
式中:fitness 表示適應(yīng)度,ω1表示分類精度權(quán)重;ω2表示所選因素數(shù)權(quán)重;accuracy 表示分類精度。ω1與ω2的值可以根據(jù)實際情況進行調(diào)整,本文假設(shè)ω1=0.8, ω2=0.2。
(4) 根據(jù)適應(yīng)度值排序結(jié)果,從高到低地挑選足夠數(shù)量的優(yōu)秀個體,直接到下一代。對最優(yōu)個體的適應(yīng)度進行評判,達到設(shè)定判斷值就停止進化,沒有則通過其他方式繼續(xù)優(yōu)化,計算下一代種群。
(5) 利用步驟(3) 的方法,計算新的一代中各個個體的適應(yīng)度,并找出適應(yīng)度最佳的個體。一直重復(fù)以上操作,直到某一代中的最佳個體適應(yīng)度值在一定的范圍內(nèi)不再變化,終止種群進化,從而得到最理想的影響因素集。
根據(jù)某市2015~2017 年城市道路交通事故報告,為了獲取完整、可靠的事故數(shù)據(jù),本著完整性、隨機性、權(quán)威性三個原則,對這份報告中的數(shù)據(jù)進行篩選,最終獲得了共1 800 條可用樣本數(shù)據(jù)。
本文為了計算和說明的簡便,將城市道路交通事故嚴(yán)重程度劃分為三類,即為一般事故、重大事故、特大事故,一般事故包括輕微事故和一般事故。在以前關(guān)于城市道路交通事故嚴(yán)重程度影響因素的研究基礎(chǔ)上,結(jié)合搜集到的事故調(diào)查報告中記錄的信息完整程度,構(gòu)建包括時間因素、環(huán)境因素、駕駛員因素共三個方面14 個變量的模型影響因素集,如表2 所示。采取阿拉伯?dāng)?shù)字編碼制記錄事故變量信息,以“時間因素”中的季節(jié)變量為例,1~4 分別表示春季、夏季、秋季、冬季。
表2 模型影響因素及量化說明
當(dāng)某個自變量有k (k> 2 )個分類時,在模型中引入(k- 1 )個虛擬變量,將變量變?yōu)?-1 變量。以環(huán)境因素中的照明條件的變量為例,變量分為4 類,需要引入3 個虛擬變量,如表3 所示。
表3 照明條件的虛擬變量
為了對比改進后的GA-D-ELM 的辨識性能,本文用基于傳統(tǒng)極限學(xué)習(xí)機以及核極限學(xué)習(xí)機理論的GA-ELM、GA-K-ELM模型進行對比分析。在這1 800 條數(shù)據(jù)中,三種不同的交通事故數(shù)據(jù)各有600 條。按2∶1 的比例將事故數(shù)據(jù)隨機地劃分成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,即在三種不同的道路交通事故類型數(shù)據(jù)中,每種都隨機選擇其中400 個樣本作為訓(xùn)練集,剩余的200 個作為預(yù)測集。在各類ELM 分類過程中,懲罰項C 和隱含層神經(jīng)元個數(shù)L 是影響分類性能的兩個重要參數(shù),所以本文對C 和L的取值進行參數(shù)搜索,其中C 是以0.02 為間隔在區(qū)間 [0.0 2 ,100 ]的范圍內(nèi)進行搜索,L 以2 為間隔在區(qū)間 [2,10 0 ]范圍內(nèi)進行搜索。為了消除隨機性的影響,每個模型運行20 次,取20 次的平均值作為最終的分類準(zhǔn)確率,在取得最佳準(zhǔn)確度的基礎(chǔ)上,將D-ELM、K-ELM、ELM 中的神經(jīng)元個數(shù)L 分別取值為5、8、10。
在GA-D-ELM、GA-ELM、GA-K-ELM 辨識模型里,令初始種群數(shù)量為50,個體適應(yīng)度判斷閥值為0.8,實驗證明,迭代50 次后最佳適應(yīng)度基本不發(fā)生變化,故最大進化代數(shù)為50。
采用Matlab 軟件來實現(xiàn)上述算法過程,最終得到的辨識因素和分類準(zhǔn)確率等如表4 所示:
表4 模型辨識因素結(jié)果及分類準(zhǔn)確率
綜上,在對三種辨識模型進行對比分析后,可以看出改進后的GA-D-ELM 要比GA-ELM、GA-K-ELM 辨識性能好。
首先,通過在ELM 的類別標(biāo)簽中,把辯識因子矩陣提出去擴展類別間距離,再引入?yún)f(xié)同矩陣,從而構(gòu)建出D-ELM;其次,通過GA-D-ELM、GA-ELM、GA-K-ELM 三種模型的對比分析,結(jié)果顯示:GA-D-ELM 模型可以識別出數(shù)量更為精簡的影響因子個數(shù),極大程度上提高了分類的準(zhǔn)確率。最后,由于本文是通過歷史統(tǒng)計數(shù)據(jù)進行的研究分析,所以很多數(shù)據(jù)內(nèi)容記錄不全,許多影響因素并沒有加入模型中進行考慮,例如人車事故中的行人年齡、學(xué)歷以及車輛自身問題等。接下來的研究中應(yīng)當(dāng)擴大實驗樣本的數(shù)量,從而對城市交通事故嚴(yán)重程度的影響因素進行更為全面的研究,使結(jié)果更加準(zhǔn)確。