亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于集成學習的不平衡交通事故風險研究

        2022-01-13 06:29:32方,王
        關鍵詞:特征模型

        方 方,王 昕

        (北京信息科技大學 理學院,北京 100192)

        0 引言

        近年來,交通事故頻繁發(fā)生,人員傷亡不斷,但其發(fā)生并不是完全隨機的,而是受到多種因素的影響。因此,可以通過研究交通事故歷史數(shù)據(jù),對交通事故風險進行預測。

        國內外學者主要使用統(tǒng)計建模方法和機器學習方法展開研究。如二元Logit或Probit模型[1-2],多項式Logit或Probit模型[3-4]。此外,考慮到事故風險嚴重程度的有序性,有序Probit和Logit模型具有更好的性能[4-5]。Chen等[6]利用有序Probit模型確定影響上海越江隧道卡車事故嚴重程度的主要因素。Hu等[7]提出一種帶逐步變量選擇的廣義Logit模型識別影響鐵路交叉口事故嚴重程度的主要因素。Wang等[8]建立了Logistic回歸模型研究美國道路和環(huán)境因素對事故嚴重程度的影響。同時,基于樹的模型如隨機森林等用于事故嚴重程度建模和預測,其性能令人滿意[9]。Iranitalab等[10]不僅比較了4種統(tǒng)計和機器學習方法在事故嚴重程度預測中的性能,且研究了K均值聚類和潛類別聚類兩種聚類方法對預測模型性能的影響。Yu等[11]提出了一種基于隨機項模型的融合卷積神經(jīng)網(wǎng)絡來分析駕駛員受傷嚴重程度,其中子神經(jīng)網(wǎng)絡結構處理分類特征,多層卷積神經(jīng)網(wǎng)絡結構捕捉特征和嚴重程度之間潛在的非線性關系。Chen等[12]提出了一種數(shù)據(jù)驅動的Copula貝葉斯網(wǎng)絡,研究危險變道和跟馳兩種基本危險駕駛行為與事故風險的因果關系,該模型有效降低了過擬合,具有良好的預測性能。Wang等[13]利用了一個基于決策樹的系統(tǒng)機器學習框架來預測先前涉及違規(guī)/事故記錄的駕駛員的未來駕駛風險。

        然而,以往研究較少考慮到事故類別不平衡且含大量分類特征的情況。交通事故普遍存在樣本類別不平衡現(xiàn)象,即非嚴重事故比嚴重事故數(shù)量多,而將嚴重事故錯分為非嚴重事故比將非嚴重事故錯分為嚴重事故的代價高得多。若忽略了這一點,可能導致構建的預測模型有偏差,重采樣是解決這兩個問題的常見方法。傳統(tǒng)方法如簡單隨機欠采樣和過采樣[14-15]容易造成重要信息丟失和過擬合,改進的合成數(shù)據(jù)方法如合成少數(shù)類過采樣(synthetic minority oversampling technique,SMOTE)、自適應合成采樣(adaptive synthetic sampling,ADASYN)、NearMiss[16]等無法處理含大量分類特征的情況。已有研究表明,結合重采樣技術和集成學習的模型具有更好的預測性能[17]。且極端梯度提升(extreme gradient boosting,XGBoost)作為一種改進的梯度提升算法,具有運算速度快、魯棒性好、預測精度高等優(yōu)點,能較好地解決收斂速度慢、過擬合、易陷入局部最優(yōu)等問題[18]。

        針對不平衡交通事故中存在大量分類特征的情況,本文采用隨機欠采樣(random undersampling,RUS)結合XGBoost[19]構建一種基于RUS-XGBoost的類別不平衡事故風險預測模型,對事故嚴重程度進行預測,該模型還可給出影響事故風險的主要因素。

        1 模型構建

        1.1 XGBoost原理

        XGBoost是一種集成模型,可通過構建多個基學習器提升機器學習效果,提高預測精度。給定一個具有N個樣本和m個特征的數(shù)據(jù)集D={xi,yi}(│D│=N,xi∈m,yi∈),XGBoost定義為如下的K個CART回歸樹組成的加法模型:

        (1)

        τ={fk(X)=wq(X)}(q:m→{1,2,…,T},w∈T)

        (2)

        式中:τ為CART回歸樹的所有可能集合;q為樹模型,表示將一個樣本映射到相應的葉結點;T為樹q的葉結點個數(shù);wq(x)為樹q的所有葉結點權重組成的向量;每個子模型fk對應一棵獨立的樹模型q和葉結點權重w。其目標函數(shù)為:

        (3)

        (4)

        式中γ和λ為正則化參數(shù),能夠有效防止過擬合。

        采用前向分步算法學習模型,在第t步時,對目標函數(shù)進行二階泰勒展開:

        σ(ft)+c

        (5)

        (6)

        省去前t-1的常數(shù)項l(yi,(t-1))和c后,再令Ij={i|q(Xi)=j}為屬于第j個葉結點的所有樣本的集合。通過最小化(5)式可以求得第t個子模型的第j個葉結點的最優(yōu)權重和相應的最優(yōu)目標函數(shù)值:

        (7)

        且樹的結構由切分前后的增益值確定:

        (8)

        1.2 基于RUS-XGBoost的類別不平衡事故風險預測模型

        由于簡單地使用原始訓練集得到的多個基分類器的性能較差,而XGBoost作為集成模型相較于線性分類器,很容易通過擾動提高基分類器的精度和多樣性,因此本文進一步采取3種擾動方法:

        1)樣本擾動:采取5折交叉驗證,對于其中4個子集組成的不平衡訓練數(shù)據(jù)集,從多數(shù)類中隨機欠采樣與少數(shù)類樣本等量的樣本個數(shù),組成新的類別平衡訓練數(shù)據(jù)集;

        2)特征擾動:對特征空間的不同劃分提供了觀察數(shù)據(jù)的不同視角,因此對特征進行按比例隨機采樣;

        3)參數(shù)擾動:包括學習率范圍,樹的深度范圍,迭代次數(shù)范圍。

        本文提出的基于RUS-XGBoost的類別不平衡事故風險預測模型,主要包括3個部分:

        1)平衡訓練子集的構建。給定多數(shù)類數(shù)據(jù)集M和少數(shù)類數(shù)據(jù)集N,通過隨機欠采樣(不放回)的方式從M中采樣T個子集,使其與N中的樣本等量,即│Mi│=│N│,分別和全部少數(shù)類樣本構成平衡的訓練子集D1,D2,…,DT;

        2)子模型的構建。用不同的訓練子集,結合特征擾動和參數(shù)擾動,使用XGBoost訓練得到T個差異化的RUS-XGBoost子模型;

        3)子模型的集成。由于子模型的類型相近,因此使用簡單平均法整合T個子模型的預測概率。

        模型的整體結構如圖1所示。

        圖1 模型整體結構

        2 驗證與分析

        2.1 數(shù)據(jù)分布與預處理

        從英國政府公開的交通事故數(shù)據(jù)庫(dft.bov.uk)中收集了2017-2019年共370 153條事故記錄作為數(shù)據(jù)集,含53個與事故和車輛相關的特征,且提供了3個事故嚴重程度等級:1)致命傷害:至少有1人死亡;2)嚴重傷害:嚴重的人身傷害,需要在醫(yī)院待兩天以上;3)輕微傷害:在不到兩天的時間內可以很容易地用藥物治療。

        統(tǒng)計事故嚴重程度分布,如圖2所示,可以看出輕微傷害的事故最多,共296 027起;其次是嚴重傷害的事故,共69 121起;致命傷害的事故最少,只有5 005起。因此,該事故數(shù)據(jù)集是一個類別不平衡的數(shù)據(jù)集。

        圖2 事故嚴重程度分布

        因為與包含其他類型交通使用者和交通方式的事故相比,兩輛車的事故具有相對更同質的數(shù)據(jù)集,因此最終的數(shù)據(jù)集選擇了僅涉及兩輛車的事故。該數(shù)據(jù)集共245 588個樣本,由于致命傷害樣本太少,且本文僅關心事故是否嚴重,故與嚴重傷害合并為一類共41 789個樣本,輕微傷害共203 799個樣本。

        由于分類、聚類之類的算法常根據(jù)歐氏距離衡量不同樣本之間的相似性,為避免算法將分類特征的離散取值當作連續(xù)數(shù)據(jù)進行計算,采用one-hot編碼,即將一個分類特征替換為多個取值為0和1的新特征,轉化為圖3的稀疏型數(shù)據(jù)表形式,使得樣本的分類特征之間的距離都是0或1。

        圖3 one-hot編碼后的特征(以道路類型為例)

        2.2 特征選擇及評價指標

        對數(shù)據(jù)集中的53個特征進行特征選擇。首先,去除含有大量缺失值的特征;其次,一些較為復雜的地理位置特征如經(jīng)緯度、街道名稱、所屬管轄區(qū)等也被去除。最終得到了24個特征,分為4類:1)駕駛員因素:性別、年齡;2)車輛因素:車輛類型、車輛年齡、引擎容量等;3)道路因素:道路類型、道路限速、交叉口細節(jié)等;4)環(huán)境因素:光照條件、天氣條件等。

        對于類別不平衡問題,使用準確率評價模型的性能是不恰當?shù)?,假設訓練數(shù)據(jù)的非嚴重和嚴重事故樣本比為95∶5,分類器簡單地把所有樣本都分為非嚴重事故,能達到95%的準確率,這顯然不合理,因為其忽視了少數(shù)類對分類性能評價的影響。AUC即ROC曲線下面積,是獨立于類別分布的評價指標,適用于不平衡問題。AUC一般在0.5~1之間,越接近1分類器性能越好,越接近0.5性能越差。

        此外,根據(jù)錯分代價的不同,還應該使用代價敏感錯誤率作為評價指標。代價敏感錯誤率的定義依賴于代價敏感矩陣,如表1所示。

        表1 代價敏感矩陣

        設類別標簽為{0,1},分為兩類。其中c01表示為將非嚴重事故誤判為嚴重事故的懲罰代價系數(shù),c10表示將嚴重事故誤判為非嚴重事故的懲罰代價系數(shù),顯然有c01

        (9)

        2.3 模型訓練與預測結果分析

        本研究設計的基分類器的輸出結果為每個輸入樣本屬于嚴重事故的概率,即P(y=1)。對于得到的多個隨機欠采樣結合XGBoost的子模型,記為RUS-XGBoost子模型,具體步驟如下:

        輸入:多數(shù)類數(shù)據(jù)集M,少數(shù)類數(shù)據(jù)集N,且│N│<│M│;子模型的個數(shù)T;學習率范圍α,樹的深度范圍d,迭代次數(shù)范圍n,特征比例采樣范圍δ。

        過程:fori=1,2,…,T:

        1)從M中隨機不放回采樣一個子集Mi,使得│Mi│=│N│,且Mi∪N=Di;

        2)從α、d、n、δ中各隨機取一個值;

        3)將Di作為新的訓練數(shù)據(jù)集,使用上述參數(shù)和特征子集訓練一個子模型hi(x)。

        輸出:預測概率,并對結果進行分類。

        (10)

        測試數(shù)據(jù)集共49 116個樣本,其中嚴重事故40 759個,非嚴重事故8 357個。實驗時采用以下兩種模型進行對比:單模型:僅使用5折交叉驗證,包括Logistic回歸、隨機森林和XGBoost;集成模型:重新構建T個平衡的訓練子集,包括Logistic回歸集成、隨機森林集成和本文提出的RUS-XGBoost。

        經(jīng)過參數(shù)調優(yōu),XGBoost的學習率為0.07,樹的深度為6,迭代次數(shù)為120;RUS-XGBoost的子模型個數(shù)為T=30,學習率范圍α=[0.001,0.1],樹的深度范圍d=[6,8],迭代次數(shù)范圍n=[100,150],特征采樣比例范圍δ=[0.8,0.9]。此外,設c01和c10的代價比為5,即c01=1,c10=5??梢缘玫礁鱾€模型的AUC和代價敏感錯誤率如表2、表3所示。

        表2 各個模型的AUC

        表3 各個模型的代價敏感錯誤率

        由表2、表3可以看出:1)集成模型的預測效果比單模型好,這是因為使用隨機欠采樣構建新的平衡訓練集,極大地改善了少數(shù)類的預測,而不妨礙多數(shù)類的預測,從而提高模型的泛化能力和預測性能;2)本文提出的RUS-XGBoost模型具有最高的AUC為0.718 56,說明預測偏差小,預測效果優(yōu)于其他模型。當代價比為5,即將嚴重事故誤判為非嚴重事故的代價是將非嚴重事故誤判為嚴重事故代價的5倍時,RUS-XGBoost模型的代價敏感錯誤率最低為0.624 41,也可以說明當誤判代價不同時,其預測效果比其他模型好。

        最后,利用RUS-XGBoost模型計算的增益值,對輸入特征的重要性進行排序,如表4所示。

        表4 RUS-XGBoost的特征重要性

        重要性排前6的特征中,車輛操縱行為、第一撞擊點影響和車輛類型屬于車輛因素,交叉口細節(jié)、道路限速和交叉口位置屬于道路因素。由此可以看出,車輛因素和道路因素對交通事故嚴重程度的影響較大,這與我們直觀上的感受是一致的。

        3 結束語

        針對實際交通事故中存在的類別不平衡且含有大量分類特征的情況,本文建立一種基于RUS-XGBoost的類別不平衡事故風險預測模型。實驗結果表明:通過樣本擾動、特征擾動和參數(shù)擾動結合XGBoost得到多個差異化的子模型,預測結果與單模型如Logistic回歸、隨機森林和XGBoost,集成模型如Logistic回歸集成、隨機森林集成相比,具有較高的AUC和較低的代價敏感錯誤率,說明該模型能夠有效降低不平衡數(shù)據(jù)集對預測性能的負面影響,提高模型的泛化能力和預測性能,從而為制定道路安全政策提供參考,減少交通事故風險帶來的損失。

        特征選擇對模型的預測性能有一定的影響,因此是否應該選擇對少數(shù)類樣本更有利的特征,可以作為下一步研究的課題。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學特征認識
        重尾非線性自回歸模型自加權M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        男人的精品天堂一区二区在线观看 | 亚洲av高清一区二区三区| 成人欧美一区二区三区在线观看| 9lporm自拍视频区| 97在线视频免费| 国产一区二区在线观看av | 97碰碰碰人妻无码视频| 成人无码区免费a片www| 无码区a∨视频体验区30秒 | 少妇人妻偷人精品一区二区| 欧美v日韩v亚洲综合国产高清| 激情五月六月婷婷俺来也| 亚洲av无码日韩av无码网站冲| 色婷婷久久一区二区三区麻豆| 亚洲精品6久久久久中文字幕| 国产午夜精品综合久久久| 亚洲精品无码不卡在线播he| 艳妇臀荡乳欲伦交换在线播放| 青青国产成人久久91| 国产一区二区三区在线爱咪咪 | 国产午夜鲁丝片av无码| 免费AV一区二区三区无码| 一区二区三区少妇熟女高潮| 白白色白白色视频发布| 国产免费丝袜调教视频| 福利网在线| 亚州av高清不卡一区二区| 中文字幕日韩三级片| 国产尤物精品自在拍视频首页| 国产一区二区三区亚洲精品| 亚洲色图三级在线观看| 国产在视频线精品视频| 亚洲色偷偷综合亚洲AVYP| 亚洲av色精品国产一区二区三区| 色婷婷五月综合激情中文字幕| 国产精品亚洲成在人线| 国产av91在线播放| 免费国产调教视频在线观看 | 亚洲国产精品日韩av不卡在线 | 99热久久只有这里是精品| 午夜免费观看日韩一级视频|