單永航,張希,胡川,丁濤軍,姚遠(yuǎn)
(上海交通大學(xué)機(jī)械與動(dòng)力工程學(xué)院,上海 200240)
近年來(lái),隨著各國(guó)政府和企業(yè)的支持,車輛不斷朝著智能化方向發(fā)展。智能車輛因感知范圍廣、運(yùn)算能力強(qiáng)、避免駕駛員操作錯(cuò)誤等優(yōu)勢(shì),在一定程度上提高了車輛的安全性[1],但由于違規(guī)駕駛、道路、車輛、自然條件等因素,交通事故不能完全避免。當(dāng)前智能車輛更多地是關(guān)注如何去主動(dòng)避免碰撞,執(zhí)行一條安全且舒適的最優(yōu)軌跡,而在面對(duì)無(wú)法避免的交通事故時(shí),卻沒有更好的解決辦法。在這種條件下,如何預(yù)測(cè)車輛在不同行駛模式下的事故嚴(yán)重程度并做出正確的決策,從而在一定程度上避免事故或者降低事故嚴(yán)重程度就顯得尤為重要。
事故嚴(yán)重程度預(yù)測(cè)是車輛安全領(lǐng)域的重要研究方向之一,近年來(lái)受到了越來(lái)越多工業(yè)界以及學(xué)術(shù)界的關(guān)注。事故嚴(yán)重程度定義為事故造成的傷害或財(cái)產(chǎn)損失程度,傷害嚴(yán)重程度是評(píng)估安全性能的一個(gè)重要方面。事故嚴(yán)重程度模型構(gòu)建主要分為3 類:統(tǒng)計(jì)模型,機(jī)器學(xué)習(xí)模型與物理模型。統(tǒng)計(jì)模型是事故嚴(yán)重程度分析常用的模型[2],可解釋性好,便于分析自變量和因變量之間的關(guān)系。有序Probit模型[3-5]是研究者普遍用于事故嚴(yán)重程度分析的統(tǒng)計(jì)模型。此 外,Logit 統(tǒng)計(jì)學(xué)模型[6]、聯(lián)合概率方法[7]、聯(lián)立方程[8]、多元泊松回歸[9]等方法也常應(yīng)用在事故嚴(yán)重程度預(yù)測(cè)任務(wù)中。但使用統(tǒng)計(jì)模型需要預(yù)先定義一個(gè)良好的函數(shù)形式來(lái)描述碰撞發(fā)生和解釋變量之間的關(guān)系,不適用于復(fù)雜問題。
與統(tǒng)計(jì)學(xué)習(xí)模型相比,機(jī)器學(xué)習(xí)模型更靈活,其重點(diǎn)關(guān)注如何設(shè)計(jì)模型或目標(biāo)函數(shù),對(duì)處理異常值、缺失和噪聲數(shù)據(jù)具有更好的適應(yīng)性,適用場(chǎng)景更廣,在復(fù)雜問題上表現(xiàn)效果更優(yōu)。例如人工神經(jīng)網(wǎng)絡(luò)(ANN)[10]、決策樹(DT)[11]、支持向量機(jī)(SVM)[12]、隨機(jī)森林(RF)[13]、K 均值聚類(KC)[14]均廣泛應(yīng)用于事故嚴(yán)重程度預(yù)測(cè)以及交通安全研究。然而,目前各機(jī)器學(xué)習(xí)算法性能不同,相互獨(dú)立,難以優(yōu)勢(shì)互補(bǔ),在交通事故嚴(yán)重程度預(yù)測(cè)任務(wù)中表現(xiàn)不佳。為實(shí)現(xiàn)更高的預(yù)測(cè)精度,一些研究者利用元學(xué)習(xí)器融合不同個(gè)體學(xué)習(xí)器預(yù)測(cè)結(jié)果,構(gòu)建雙層Stacking 集成學(xué)習(xí)模型,融合各學(xué)習(xí)器優(yōu)勢(shì),提高預(yù)測(cè)性能[15-16]。雖然機(jī)器學(xué)習(xí)模型能夠?qū)崿F(xiàn)較好的預(yù)測(cè)精度,但是其可解釋性不好,不利于調(diào)校模型參數(shù)。
相比之下,物理模型能夠揭示車輛間碰撞機(jī)理,精細(xì)分析車輛碰撞全過(guò)程,但表示相對(duì)復(fù)雜。文獻(xiàn)[17]提出兩種最典型的物理模型方法,即碰撞中的速度變化方法(Delta-V)和估計(jì)車輛能量變化的等效能量速度(EES)方法。文獻(xiàn)[18]通過(guò)進(jìn)一步研究動(dòng)量定理,將動(dòng)量變化作為碰撞總嚴(yán)重程度的關(guān)鍵指標(biāo)。
在現(xiàn)實(shí)場(chǎng)景中,人、車、路系統(tǒng)高度復(fù)雜,且非線性、交通事故涉及因素眾多,難以采用統(tǒng)計(jì)學(xué)習(xí)模型與物理模型構(gòu)建高精度事故嚴(yán)重程度預(yù)測(cè)模型。為此,本文采用泛化性能更好的Stacking 雙層集成學(xué)習(xí)方法構(gòu)建事故嚴(yán)重程度預(yù)測(cè)模型。在第1 層中綜合預(yù)測(cè)表現(xiàn)與時(shí)間消耗確定最優(yōu)基學(xué)習(xí)器組合;在第2 層中考慮到模型的復(fù)雜度與魯棒性需求,采用邏輯回歸作為元學(xué)習(xí)器,整合第1 層基學(xué)習(xí)器的分類結(jié)果,糾正各基學(xué)習(xí)器分類偏差,提高Stacking 整體模型的泛化能力和準(zhǔn)確性。同時(shí),為保證模型能夠應(yīng)用在智能車輛中,本文研究采用真實(shí)交通事故數(shù)據(jù)集NASS-CDS,提取通過(guò)攝像頭、激光雷達(dá)、毫米波雷達(dá)感知處理能夠獲取的事故嚴(yán)重程度相關(guān)特征作為輸入,事故后乘員最大損傷等級(jí)作為輸出,完成交通事故嚴(yán)重程度預(yù)測(cè)模型的構(gòu)建;同時(shí)通過(guò)特征重要程度分析,得到事故嚴(yán)重程度重要影響因素,可幫助人們更好地理解交通事故,以采取有效措施。
本文采用美國(guó)高速公路安全局(NHTSA)公布的NASS-CDS 真實(shí)交通事故數(shù)據(jù)集[19]構(gòu)建模型,解決了現(xiàn)有研究利用仿真數(shù)據(jù)構(gòu)建事故嚴(yán)重程度預(yù)測(cè)模型存在車輛類型少、事故類型少等問題,有效提高預(yù)測(cè)模型在實(shí)際應(yīng)用場(chǎng)景中的可靠性和有效性。該數(shù)據(jù)集包含1988—2015 年的代表性事故詳細(xì)數(shù)據(jù),每年研究約5 000 起撞車事故,樣本充足,覆蓋范圍廣,被廣泛用于交通安全研究。數(shù)據(jù)集包含信息如表1 所示。
表1 NASS-CDS 數(shù)據(jù)集描述 Table 1 NASS-CDS dataset description
為使構(gòu)建的事故嚴(yán)重程度預(yù)測(cè)模型能夠應(yīng)用于智能車輛,本文提取NASS-CDS 中車輛能夠通過(guò)車載傳感器獲取的信息作為模型特征輸入。選定特征主要包括車輛特征以及道路、環(huán)境特征。初步提取的單一特征如表2 所示。
表2 初步特征 Table 2 Preliminary features
單一特征往往不能夠得到最優(yōu)的預(yù)測(cè)結(jié)果,在實(shí)際問題中,常需面臨多種高維特征。因此,本文還提取了車輛相關(guān)組合特征,以提升模型預(yù)測(cè)準(zhǔn)確度。車輛發(fā)生交通事故后,速度變化量越大,碰撞過(guò)程中車輛受到的沖擊力越大,對(duì)車輛造成的影響也就越大??紤]到自車與目標(biāo)車輛碰撞后瞬間兩車可視為剛體固結(jié),故通過(guò)動(dòng)量定理可以對(duì)速度變化量進(jìn)行估計(jì),估計(jì)模型如式(1)~式(5)所示:
其 中:m1、m2表示兩 車質(zhì)量;v1、v2表示兩 車速度;θ1、θ2表示為兩車航向角;ux、uy表示事故 后兩車速度;Δv1x、Δv1y表示事故后自車x、y方向上速度變化量;Δv1表示事故后自車速度變化量。
除絕對(duì)速度外,車輛間相對(duì)速度也是重要考慮的因素。本文僅考慮兩車之間交通事故情況,引入相對(duì)速度特征,計(jì)算公式如式(6)所示:
其中:v1x、v2x表示兩車沿x方向的速度;v1y、v2y表示兩車沿y方向的速度;vr表示相對(duì)速度。
相對(duì)航向角決定了車輛的碰撞類型,不同碰撞類型對(duì)應(yīng)的有效碰撞面積不同,碰撞過(guò)程中吸收能量也不同,在相同環(huán)境下造成的影響有較大差異。文獻(xiàn)[20]通過(guò)研究沃爾沃車輛事故數(shù)據(jù)得出結(jié)論:相比于全面積正碰,1/3 面積碰撞嚴(yán)重程度更大。因此,本文引入相對(duì)航向角特征,并通過(guò)標(biāo)簽編碼將相對(duì)航向角范圍分為4 個(gè)部分,如表3 所示。
表3 相對(duì)航向角特征Table 3 Relative heading angle feature 單位:(°)
不同類型車輛在交通事故中損害不同[21]。通常來(lái)講,小型車相較于大型車損害更為嚴(yán)重。依據(jù)重量以及尺寸,本文將NASS-CDS 數(shù)據(jù)集中車型分為4 類進(jìn)行標(biāo)簽編碼:(1)表示小型車,如轎車;(2)表示中小型車,如小貨車;(3)表示中大型車,如輕卡;(4)表示大型車,如重型貨車。定義車輛間碰撞強(qiáng)度因子(TYPESWET)如表4 所示,其中,(4)(1)表示4 類別的車輛與1 類別的車輛碰撞后,4 類別車輛的損傷情況(下同),特征值從1~7 代表強(qiáng)度遞增。可提取組合特征如表5 所示。
表4 碰撞強(qiáng)度因子特征 Table 4 Collision intensity factor features
表5 組合特征 Table 5 Combined features
本文選用簡(jiǎn)明損傷分級(jí)標(biāo)準(zhǔn)(AIS)評(píng)估交通事故嚴(yán)重程度。AIS 值從0~6 分別對(duì)應(yīng)未受傷害、輕微、輕度、中度、重度、嚴(yán)重和致死性損傷。NASSCDS 數(shù)據(jù)集中包含事故車內(nèi)各乘員AIS 受傷等級(jí),本文提取受傷嚴(yán)重程度最大的乘員AIS 等級(jí)作為事故嚴(yán)重程度預(yù)測(cè)標(biāo)簽。
為簡(jiǎn)化事故嚴(yán)重程度預(yù)測(cè)模型,將原七分類AIS 等級(jí)歸并為四分類,原0 等級(jí)對(duì)應(yīng)為0 等級(jí),原1、2 等級(jí)對(duì)應(yīng)為1 等級(jí),原3、4、5 等級(jí)對(duì)應(yīng)為2 等級(jí),原6 等級(jí)對(duì)應(yīng)為3 等級(jí)。
NASS-CDS 數(shù)據(jù)集中樣本分布不均,重傷與死亡類別樣本數(shù)量占比不到10%,導(dǎo)致模型在訓(xùn)練過(guò)程中更加偏向于未受傷以及輕傷類別。而模型對(duì)于重傷、死亡等嚴(yán)重程度較高類別的預(yù)測(cè)能力才是本文研究重點(diǎn),只有準(zhǔn)確預(yù)測(cè)這些類別,才能夠及時(shí)采取措施減緩事故損害。為解決數(shù)據(jù)不均衡問題,本文采用合成少數(shù)過(guò)采樣技術(shù)(SMOTE)算法[22]重點(diǎn)提升重傷及死亡樣本的數(shù)量,改善樣本分布均衡情況。
如圖1 所示,SMOTE 算法主要分為3 步:1)計(jì)算各少數(shù)類正方形樣本到其樣本集中所有樣本的歐氏距離,得到K 近鄰;2)合理設(shè)置采樣比例;3)對(duì)于樣本中的每一個(gè)xi與每一個(gè)近鄰,依據(jù)采樣比例進(jìn)行線性插值,以生成新的樣本,如式(7)所示:
圖1 SMOTE 算法圖解Fig.1 SMOTE algorithm diagram
數(shù)據(jù)集處理前后,樣本分布如表6 所示。
表6 數(shù)據(jù)集分布Table 6 Dataset distributions 單位:個(gè)
數(shù)據(jù)集中各特征量量綱不一,因此在模型訓(xùn)練前為避免某些特征的重要程度過(guò)大,需要對(duì)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理。本文研究采用StandardScaler 方法進(jìn)行轉(zhuǎn)化,如式(8)所示:
其中:μ為某特征所有樣本的均值;σ為某特征所有樣本的標(biāo)準(zhǔn)差。
Stacking 集成學(xué)習(xí)預(yù)測(cè)模型[23]在分類回歸任務(wù)中應(yīng)用廣泛,第1 層由多個(gè)基學(xué)習(xí)器構(gòu)成,基于原始數(shù)據(jù)集訓(xùn)練預(yù)測(cè),第2 層為元學(xué)習(xí)器,基于第1 層基學(xué)習(xí)器的輸出進(jìn)行第2 次訓(xùn)練。與Voting 集成學(xué)習(xí)模型[24]僅對(duì)多個(gè)基礎(chǔ)模型進(jìn)行一次訓(xùn)練,采用投票策略選擇投票最多的為最終的分類結(jié)果相比,具有更高的泛化精度。
Stacking 模型對(duì)第1 層基學(xué)習(xí)器存在兩個(gè)要求:模型預(yù)測(cè)性能的優(yōu)異以及模型表現(xiàn)的多樣性。優(yōu)異指各基學(xué)習(xí)器的預(yù)測(cè)性能要好,分類預(yù)測(cè)性能應(yīng)該在同一水平;多樣性指各基學(xué)習(xí)器預(yù)測(cè)應(yīng)存在較大的差異,從不同的角度學(xué)習(xí)訓(xùn)練,充分利用各模型優(yōu)勢(shì),以實(shí)現(xiàn)更好的性能。在第1 層中,通過(guò)實(shí)驗(yàn)對(duì)不同基學(xué)習(xí)器組合進(jìn)行訓(xùn)練,得到分類性能最優(yōu)的基學(xué)習(xí)器組合策略。
本文選擇多層感知機(jī)(MLP)、樸素貝葉斯(NB)、K 近鄰算法(KNN)、支持向量機(jī)(SVM)、隨機(jī)森林(RF)、自適應(yīng)提升樹(AdaBoost)、梯度提升決策樹(GBDT)、極度梯度提升樹(XGBoost)共8 種在分類任務(wù)中應(yīng)用較多的模型作為備選基學(xué)習(xí)器。將數(shù)據(jù)集按照7∶3 的比例分為訓(xùn)練集和測(cè)試集,同時(shí)為避免過(guò)擬合,采用K折交叉驗(yàn)證訓(xùn)練基學(xué)習(xí)器,如圖2所示,將訓(xùn)練集K等分,每次將其中一份用作驗(yàn)證集,剩下的用作訓(xùn)練集,以提高模型的準(zhǔn)確性與穩(wěn)定性。重復(fù)上述步驟K次,選出平均測(cè)試誤差最小的模型。通常來(lái)講,隨著交叉驗(yàn)證次數(shù)的增大,誤差減小,但計(jì)算量隨之增大。綜合耗時(shí)以及數(shù)據(jù)量?jī)煞矫嬉蛩?,最終K值取為5。
圖2 交叉驗(yàn)證示意圖Fig.2 Schematic drawing of cross validation
第2 層元學(xué)習(xí)器的選擇對(duì)Stacking 模型泛化性能影響較大[25],由于第1 層各基學(xué)習(xí)器的預(yù)測(cè)存在差異,因此需要選擇合適的元學(xué)習(xí)器才能夠使最終Stacking 模型預(yù)測(cè)性能達(dá)到最優(yōu)。Stacking 模型對(duì)元學(xué)習(xí)器存在4 個(gè)要求:1)算法性能,對(duì)底層模型的輸入進(jìn)行整合,需要較好的泛化性能和集成能力;2)魯棒性,可以避免在底層模型發(fā)生錯(cuò)誤或過(guò)擬合的情況下產(chǎn)生過(guò)度擬合的情況;3)穩(wěn)定性,不容易受到數(shù)據(jù)隨機(jī)性的影響,以確保其穩(wěn)健性;4)計(jì)算效率,可快速訓(xùn)練以及預(yù)測(cè)。
相比于第1 層中各基學(xué)習(xí)器從不同角度學(xué)習(xí),綜合各學(xué)習(xí)器優(yōu)勢(shì),第2 層元學(xué)習(xí)器重點(diǎn)考慮分類預(yù)測(cè)問題中的全面優(yōu)化,旨在糾正各基學(xué)習(xí)器分類偏差,提高Stacking 整體模型的泛化能力和準(zhǔn)確性[26]。
邏輯回歸(LR)方法[27]作為一種線性模型,其計(jì)算效率高,可解釋性強(qiáng),魯棒性強(qiáng),可適用于處理各種類型的數(shù)據(jù),并且易集成,泛化能力強(qiáng),能夠很好地避免過(guò)擬合問題,是應(yīng)用最廣泛的元學(xué)習(xí)器。在第1 層中已經(jīng)使用了復(fù)雜的非線性變換模型,這樣往往更容易造成過(guò)擬合的風(fēng)險(xiǎn)。為控制模型復(fù)雜度,降低計(jì)算耗時(shí),第2 層采用邏輯回歸方法,整合第1 層基學(xué)習(xí)器的分類結(jié)果,訓(xùn)練輸出最終預(yù)測(cè)結(jié)果,同時(shí)結(jié)合正則化方法進(jìn)一步降低過(guò)擬合。
本文構(gòu)建的Stacking 算法實(shí)現(xiàn)步驟如圖3 所示。使用訓(xùn)練集訓(xùn)練出Stacking 模型,并使用測(cè)試集對(duì)模型進(jìn)行預(yù)測(cè),最終將預(yù)測(cè)結(jié)果提供給后續(xù)事故嚴(yán)重程度減緩決策規(guī)劃模塊,依據(jù)不同行駛狀態(tài)下的事故嚴(yán)重程度先驗(yàn)信息,幫助智能車輛做出最優(yōu)的決策,當(dāng)交通事故無(wú)法避免時(shí),能夠有效減緩事故危害。其中決策規(guī)劃模塊將會(huì)作為后續(xù)研究?jī)?nèi)容。
圖3 Stacking 算法實(shí)現(xiàn)步驟Fig.3 Implementation steps of Stacking algorithm
對(duì)于含有N個(gè)樣本的數(shù)據(jù)集,準(zhǔn)確率(A)為模型預(yù)測(cè)正確樣本數(shù)所占的比例,如式(9)所示:
但是準(zhǔn)確率往往只能表征模型的整體性能,在實(shí)際情況中,會(huì)更加關(guān)注特定類別預(yù)測(cè)性能。針對(duì)本文研究問題,真實(shí)的交通事故數(shù)據(jù)集中重傷以及死亡數(shù)據(jù)量遠(yuǎn)少于未受傷害以及輕微傷害的樣本數(shù)據(jù)量,即使少量樣本被分錯(cuò),模型的準(zhǔn)確率也不會(huì)有明顯變化。故本文主要選擇精確率(P)、召回率(R)和F1 值(F1)作為性能評(píng)價(jià)指標(biāo),計(jì)算公式如式(10)~式(12)所示:
其中:TTP表示預(yù)測(cè)為正類的正樣本數(shù)量;FFP表示預(yù)測(cè)為正類的負(fù)樣本數(shù)量;FFN表示預(yù)測(cè)為負(fù)類的正樣本數(shù)量。
3.2.1 個(gè)體分類器的實(shí)驗(yàn)結(jié)果及分析
本文首先完成了學(xué)習(xí)器MLP、NB、KNN、SVM、RF、AdaBoost、GBDT、XGBoost 的訓(xùn)練,并采用網(wǎng)格搜索法對(duì)各學(xué)習(xí)器參數(shù)進(jìn)行優(yōu)化。網(wǎng)格搜索法是一種窮舉搜索的調(diào)參方法,通過(guò)事先設(shè)定好超參數(shù)的選值范圍和調(diào)整步長(zhǎng)進(jìn)行窮舉遍歷,嘗試所有的參數(shù)組合,將表現(xiàn)最好的參數(shù)組合作為超參數(shù)調(diào)參結(jié)果。同時(shí),為克服數(shù)據(jù)集噪聲的影響,對(duì)各學(xué)習(xí)器進(jìn)行5 次訓(xùn)練及預(yù)測(cè),計(jì)算各評(píng)價(jià)指標(biāo)平均值如表7所示。
表7 個(gè)體學(xué)習(xí)器預(yù)測(cè)結(jié)果 Table 7 Predicted results of individual learners %
分析結(jié)果發(fā)現(xiàn),集成學(xué)習(xí)器RF、AdaBoost、GBDT 與XGBoost 預(yù)測(cè)性能優(yōu)于其余個(gè)體學(xué)習(xí)器,通過(guò)集成決策樹可獲得比單一學(xué)習(xí)器更優(yōu)越的泛化性能。NB、MLP 與SVM 個(gè)體學(xué)習(xí)器預(yù)測(cè)性能最差。在本文問題中,特征數(shù)量較多且相關(guān)性較大,違背了NB 各屬性間獨(dú)立性假設(shè);而MLP 表現(xiàn)過(guò)于依賴于數(shù)據(jù)集,本文數(shù)據(jù)集樣本量偏少,不能充分利用MLP的優(yōu)勢(shì);SVM 在處理二分類問題時(shí)具有良好表現(xiàn),而當(dāng)面臨求解多分類問題時(shí),計(jì)算能力以及求解精確率受到限制。
3.2.2 集成模型的實(shí)驗(yàn)結(jié)果分析
為提高集成模型的精確率與泛化能力,應(yīng)選擇精確率較高且存在較大差異的模型作為基學(xué)習(xí)器,個(gè)體學(xué)習(xí)器MLP、NB 和SVM 表現(xiàn)較差,不滿足基學(xué)習(xí)器組合的優(yōu)異性原則,故在本研究中不做考慮。最終從KNN、RF、AdaBoost、GBDT 和XGBoost 中挑選基分類器進(jìn)行組合訓(xùn)練,考慮3~5 種基學(xué)習(xí)器組合形式,可以得到以下16 種基分類器組合策略,預(yù)測(cè)結(jié)果如圖4 所示,耗時(shí)情況如圖5 所示。
圖4 各基學(xué)習(xí)器組合預(yù)測(cè)表現(xiàn)Fig.4 Prediction performance of each base learners combination
圖5 各基學(xué)習(xí)器組合耗時(shí)情況Fig.5 Time consumption of each base learners combination
分析實(shí)驗(yàn)結(jié)果可得出如下結(jié)論:
1)各基學(xué)習(xí)器組合下的Stacking 模型預(yù)測(cè)準(zhǔn)確率均在81%以上,高于表7 中所有學(xué)習(xí)器,說(shuō)明對(duì)多種“優(yōu)而不同”的異質(zhì)算法進(jìn)行融合可改善預(yù)測(cè)效果。以精確率、召回率、F1 值作為評(píng)價(jià)指標(biāo),6 號(hào)組合策略,即KNN+AdaBoost+XGBoost 實(shí)現(xiàn)了最優(yōu)的預(yù)測(cè)性能,其分類準(zhǔn)確率達(dá)到85.01%,各項(xiàng)指標(biāo)均為最優(yōu)。2 號(hào)組合次之,11、12 號(hào)組合再次之,同時(shí)6 號(hào)組合耗時(shí)僅100 s 左右,低于2、11、12 號(hào)組合。綜合預(yù)測(cè)表現(xiàn)以及耗時(shí),將6 號(hào)組合作為最終選用的Stacking 模型基分類器組合。
2)從6 號(hào)到11 號(hào)再到16 號(hào)組合,每次增加一個(gè)基學(xué)習(xí)器,融合模型的精確率反而有所下降。說(shuō)明模型的精確率與基分類器的數(shù)量并非正比例關(guān)系,還與各基分類器的性質(zhì)、關(guān)聯(lián)性存在聯(lián)系。
3)包含GBDT 學(xué)習(xí)器的組合均具有較高的耗時(shí),在200 s 以上,說(shuō)明GBDT 學(xué)習(xí)器復(fù)雜度較大。同時(shí),對(duì)比組合1、2 和3 號(hào)性能表現(xiàn)以及耗時(shí)情況可以看出,KNN 與GBDT 為固定基分類器,將其分別與RF、AdaBoost、XGBoost 組合后,雖 然XGBoost 相對(duì)于RF 與AdaBoost 具有更優(yōu)的表現(xiàn),但3 號(hào)組合KNN、GBDT 與XGBoost卻獲得了最差的性能,說(shuō)明模型的精確率與基分類器的精確率并非正比例關(guān)系。
XGBoost 是一種針對(duì)GBDT 算法的優(yōu)化算法,其在優(yōu)化過(guò)程中將損失函數(shù)二階泰勒展開,引入二階導(dǎo)數(shù)信息,同時(shí)在損失函數(shù)中添加正則化項(xiàng)來(lái)抑制模型復(fù)雜度。XGBoost 與GBDT 底層工作原理類似,它們的組合不滿足基分類器多樣性要求,不能夠充分融合基學(xué)習(xí)器優(yōu)勢(shì),提升整體性能,只有選擇適合的基分類器組合才能夠獲得更好的表現(xiàn)性能。
3.2.3 最優(yōu)組合策略集成模型時(shí)效性分析
在緊急場(chǎng)景下,當(dāng)交通事故無(wú)法避免時(shí),事故嚴(yán)重程度預(yù)測(cè)模型的時(shí)效性非常重要,可以提高應(yīng)急響應(yīng)速度,降低事故風(fēng)險(xiǎn),在事故發(fā)生前的關(guān)鍵時(shí)間內(nèi)幫助車輛做出正確的決策以及提高安全水平。在第3.2.2 節(jié)中,最終確定的Stacking 模型推理平均耗時(shí)為每次1.48 ms,其可滿足L2輔助駕駛與L4自動(dòng)駕駛的實(shí)時(shí)性需求。
對(duì)于L2輔助駕駛車輛,駕駛員主導(dǎo)車輛運(yùn)行,駕駛員反應(yīng)時(shí)間通常為300 ms 左右,該模型在危急場(chǎng)景下可為駕駛員實(shí)時(shí)提供事故嚴(yán)重程度相關(guān)信息,幫助其做出更優(yōu)的決策。
對(duì)于L4自動(dòng)駕駛車輛,不需要駕駛員參與,當(dāng)事故無(wú)法避免時(shí),車輛決策規(guī)劃模塊一般依據(jù)其最大行駛能力,生成多條離散軌跡,以最小化事故對(duì)車輛和行人的影響。
離散軌跡的數(shù)量與路徑搜索時(shí)間、軌跡精確率和計(jì)算成本有關(guān),因此需要進(jìn)行權(quán)衡。一般來(lái)說(shuō),軌跡數(shù)量需要在保證足夠細(xì)化的情況下盡量少,以降低計(jì)算成本和縮短路徑規(guī)劃時(shí)間,并提高實(shí)時(shí)性。在大多數(shù)情況下,大約10 條離散軌跡即可以滿足實(shí)時(shí)性和精確率要求,并且不會(huì)帶來(lái)過(guò)多計(jì)算成本。
而自動(dòng)駕駛路徑規(guī)劃模塊更新頻率通常為幾百毫秒。以生成10 條軌跡為例,本文所提模型推理耗時(shí)要遠(yuǎn)小于路徑規(guī)劃模塊更新耗時(shí),通過(guò)并行計(jì)算可以進(jìn)一步縮減時(shí)間消耗,以最大程度地保證模型推理的實(shí)時(shí)性。本文研究所提出的事故嚴(yán)重程度預(yù)測(cè)模型滿足實(shí)際工程應(yīng)用中的實(shí)時(shí)性要求。
3.2.4 最優(yōu)組合策略集成模型預(yù)測(cè)表現(xiàn)分析
該模型最優(yōu)參數(shù)組合如表8 所示。
表8 學(xué)習(xí)器最優(yōu)參數(shù)組合 Table 8 Optimal parameters combination of the learner
模型訓(xùn)練集與測(cè)試集的準(zhǔn)確率分別為95.87%與85.01%,性能指標(biāo)精確率、召回率和F1 值如表9所示。
表9 精確率、召回率和F1 值結(jié)果 Table 9 Accuracy,Recall,and F1 value results %
在訓(xùn)練集中,未受傷類別精確率大于召回率,受傷類別召回率大于精確率。這表明本文所訓(xùn)練的模型更傾向于查找出所有受傷害樣本,而對(duì)于未受傷樣本,更傾向于準(zhǔn)確區(qū)分。這對(duì)于開展交通事故減緩的研究至關(guān)重要,因?yàn)橹挥袦?zhǔn)確預(yù)測(cè)受傷類別,才能夠及時(shí)采取措施降低事故嚴(yán)重程度,這要求在模型訓(xùn)練中提高對(duì)召回率的重視程度。
在測(cè)試集中,本文提出模型在各類別的表現(xiàn)均與訓(xùn)練集上的表現(xiàn)一致。此外,對(duì)于重傷以及死亡類別預(yù)測(cè)的精確率以及召回率遠(yuǎn)高于未受傷以及輕傷類別。受傷嚴(yán)重程度越大,模型預(yù)測(cè)越不容易出錯(cuò),這符合現(xiàn)實(shí)需求。F1 值作為一種精確率與召回率的綜合評(píng)價(jià)方式,重傷與死亡類別值也是遠(yuǎn)遠(yuǎn)高于未受傷與輕傷類別。
3.2.5 特征重要性分析
在事故嚴(yán)重程度預(yù)測(cè)模型中,不同的特征對(duì)最終的預(yù)測(cè)結(jié)果有不同的影響。為了評(píng)估不同特征在碰撞嚴(yán)重程度分析中的貢獻(xiàn),本文對(duì)所選14 個(gè)特征在3 種基分類器中的重要性進(jìn)行了分析,圖6~圖8 分別為3 種基分類器所對(duì)應(yīng)的特征重要程度分布,其中,KNN、AdaBoost 具有相似的特征分布,DVTOTAL 對(duì)事故嚴(yán)重程度影響最大,ALIGNMNT、SURCOND、RHEADING 與TYPESWET 對(duì)事故嚴(yán)重程度敏感度最小。而在XGBoost 特征分布圖中,除DVTOTAL、TRAVELSP、TRAVELSPOTHER 占有較大的比重外,其余特征重要程度近似。
圖6 KNN 特征重要程度分布Fig.6 Importance distribution of KNN feature
圖7 AdaBoost 特征重要程度分布Fig.7 Importance distribution of AdaBoost feature
圖8 XGBoost 特征重要程度分布Fig.8 Importance distribution of XGBoost feature
圖9 展示了特征平均重要程度分布,速度相關(guān)特征(DVTOTAL、RSPEED、TRAVELSP、TRAVELSPOTHER)、重量相關(guān)特征(CURBWGT、OTVEHWGT)、位姿相關(guān)特征(ANGTHIS、ANGOTHER)、外形相關(guān)特征(BODYTYPE、OTBDYTYP)對(duì)最終的碰撞嚴(yán)重程度影響較大。這符合現(xiàn)實(shí)情況,從動(dòng)量定理和能量守恒的角度來(lái)看,行駛速度、車輛質(zhì)量和車輛姿態(tài)是事故發(fā)生后對(duì)車內(nèi)乘員影響最大的幾個(gè)因素。此外,不同車輛的耐撞性不同,因此車型也是重要因素之一。
圖9 特征平均重要程度分布Fig.9 Importance distribution of feature average
在緊急情況下,事故嚴(yán)重程度預(yù)測(cè)模型可幫助車輛實(shí)時(shí)預(yù)測(cè)行駛風(fēng)險(xiǎn),但在L2輔助駕駛車輛與L4自動(dòng)駕駛車輛中具有不同的警示與減緩方式。在常規(guī)車輛安全模塊的基礎(chǔ)上,事故嚴(yán)重程度預(yù)測(cè)模型的應(yīng)用進(jìn)一步提升了車輛與乘員的安全性。
在L2輔助駕駛車輛中,目前主要是通過(guò)碰撞預(yù)警模塊減輕緊急情況下事故損害。在車輛行駛過(guò)程中實(shí)時(shí)計(jì)算與前方車輛的距離,若小于安全距離,則首先以預(yù)警的方式提醒駕駛員即將發(fā)生碰撞風(fēng)險(xiǎn),當(dāng)檢測(cè)到駕駛員在一定時(shí)間內(nèi)仍未采取有效措施時(shí),車輛自動(dòng)觸發(fā)緊急制動(dòng)行為,最大程度保證安全。但是,在該種緊急情況下,緊急制動(dòng)往往未必是最優(yōu)的決策行為,而且駕駛員在慌張情況下可能會(huì)做出更危險(xiǎn)的行為。本文所提預(yù)測(cè)模型可有效解決此類問題,通過(guò)預(yù)測(cè)與不同車輛碰撞風(fēng)險(xiǎn)損傷,在緊急情況下給駕駛員提供指導(dǎo)決策信息,例如左側(cè)車道車輛風(fēng)險(xiǎn)更低,則可提醒駕駛員采取向左變道措施。
在L4自動(dòng)駕駛車輛中,若車輛具有碰撞風(fēng)險(xiǎn)(可基于安全距離方式判定)或者車輛此時(shí)無(wú)有效決策時(shí),此時(shí)進(jìn)入到緊急狀態(tài)下事故嚴(yán)重程度減緩模塊,通過(guò)軌跡規(guī)劃方式生成一系列碰撞減緩軌跡,調(diào)用事故嚴(yán)重程度預(yù)測(cè)模型,計(jì)算不同軌跡對(duì)應(yīng)碰撞嚴(yán)重程度值,挑選最低碰撞嚴(yán)重程度軌跡作為最終執(zhí)行軌跡。
除此之外,預(yù)測(cè)結(jié)果同樣可以作為先驗(yàn)信息指導(dǎo)車輛自適應(yīng)調(diào)整乘員約束系統(tǒng)(安全帶、安全氣囊),與主動(dòng)碰撞減緩相結(jié)合,以更好地保證乘員安全。事故嚴(yán)重程度預(yù)測(cè)減緩系統(tǒng)如圖10 所示。在現(xiàn)有安全場(chǎng)景下自動(dòng)駕駛決策規(guī)劃模塊基礎(chǔ)上,本文考慮了事故無(wú)法避免場(chǎng)景下事故嚴(yán)重程度如何減緩,通過(guò)雙層防護(hù)最大程度地保證了車輛以及乘員的安全。
圖10 事故嚴(yán)重程度預(yù)測(cè)減緩系統(tǒng)結(jié)構(gòu)Fig.10 Structure of accident severity prediction mitigation system
以圖11 車輛跟隨場(chǎng)景為例,a車位于后方,速度為v1,b車輛位于前方,速度為v0,車輛間距為S0,則上述描述中兩車之間的安全距離可表示為:
圖11 車輛跟隨示意圖Fig.11 Schematic diagram of vehicle following
其中:v1、a1、amax分別為a車速度、加速度、最大加速度;v0、a0分別為b車速度、加速度;Δt為數(shù)據(jù)更新周期。若Sd>S0,則說(shuō)明車輛有碰撞風(fēng)險(xiǎn);反之,則車輛不具有碰撞風(fēng)險(xiǎn)。
以圖12 所示場(chǎng)景為例說(shuō)明事故嚴(yán)重程度預(yù)測(cè)模型在L4自動(dòng)駕駛車輛中是如何應(yīng)用的,其中,0 號(hào)車輛為自車,行駛在右側(cè)車道,左側(cè)車道前方2 號(hào)車速度較低,后方1 號(hào)車突然采取變道行為,插入到自車前方。在這種情況下,自車處境較為危險(xiǎn),當(dāng)繼續(xù)在本車道行駛時(shí)極易因過(guò)小的前車間距與1 號(hào)車輛發(fā)生碰撞,變道則可能與2 號(hào)車輛發(fā)生碰撞。
圖12 交通場(chǎng)景Fig.12 Traffic scenario
1 號(hào)車輛變道后各車輛參數(shù)如表10 所示。經(jīng)安全距離方式判定,若不具有碰撞風(fēng)險(xiǎn),則智能車輛可繼續(xù)采用常規(guī)的路徑規(guī)劃算法,利用搜索、采樣等方法生成一系列軌跡,并依據(jù)安全性、舒適性等指標(biāo)挑選一條最優(yōu)的安全軌跡執(zhí)行。若車輛具有碰撞風(fēng)險(xiǎn),則此時(shí)進(jìn)入到緊急狀態(tài)下事故嚴(yán)重程度減緩模塊,實(shí)時(shí)生成一系列碰撞減緩軌跡,對(duì)每條軌跡進(jìn)行碰撞檢測(cè),若此時(shí)仍存在無(wú)碰撞軌跡,則仍依據(jù)安全性、舒適性等因素挑選一條最優(yōu)的安全軌跡執(zhí)行。相反,若所有軌跡均發(fā)生碰撞,則將事故嚴(yán)重程度作為唯一的軌跡質(zhì)量評(píng)估標(biāo)準(zhǔn)。調(diào)用Stacking 事故嚴(yán)重程度預(yù)測(cè)模型,得到車輛執(zhí)行不同軌跡時(shí)對(duì)應(yīng)的碰撞嚴(yán)重程度,挑選最低碰撞嚴(yán)重程度軌跡作為最終執(zhí)行軌跡。由于預(yù)測(cè)模型輸出為四分類離散預(yù)測(cè)結(jié)果,因此此時(shí)會(huì)存在多條軌跡對(duì)應(yīng)同一碰撞嚴(yán)重程度的情況,不利于幫助車輛做出更細(xì)致的決策。
表10 1 號(hào)車變道后各車輛參數(shù)Table 10 The parameters of each vehicle after lane change of vehicle 1
為使模型應(yīng)用于智能車輛中,應(yīng)定義碰撞嚴(yán)重程度連續(xù)值,依據(jù)本文提出的預(yù)測(cè)模型輸出的各受傷嚴(yán)重程度等級(jí)以及對(duì)應(yīng)預(yù)測(cè)的最大概率加權(quán)得到受傷嚴(yán)重程度值(TAS),幫助做出最優(yōu)的決策,以解決危急場(chǎng)景下不同方案風(fēng)險(xiǎn)的精確量化問題。TAS表達(dá)式如式(14)所示:
其中:k為事故嚴(yán)重程度類別;K為事故嚴(yán)重程度最高類別;pk為事故嚴(yán)重程度類別為k的預(yù)測(cè)概率。
當(dāng)交通事故無(wú)法避免時(shí),該模型可為智能車輛決策規(guī)劃模塊提供先驗(yàn)信息,執(zhí)行相對(duì)最安全軌跡,有效提升車輛安全性。
本文提出一種應(yīng)用于危急場(chǎng)景下的雙層Stacking 集成模型,通過(guò)融合“優(yōu)而不同”的基學(xué)習(xí)器實(shí)現(xiàn)高精度事故嚴(yán)重程度預(yù)測(cè),在真實(shí)事故數(shù)據(jù)集上預(yù)測(cè)準(zhǔn)確率達(dá)到85.01%,同時(shí)具有較低的預(yù)測(cè)推理耗時(shí),精確率、召回率、F1 值3 項(xiàng)評(píng)估指標(biāo)均高于其他個(gè)體以及集成模型,提高機(jī)器學(xué)習(xí)方法對(duì)事故嚴(yán)重程度的識(shí)別能力。當(dāng)交通事故無(wú)法避免時(shí),模型預(yù)測(cè)結(jié)果可作為先驗(yàn)信息指導(dǎo)決策規(guī)劃模塊選擇最佳應(yīng)急軌跡或自適應(yīng)調(diào)整乘員約束系統(tǒng)(安全帶、安全氣囊),以降低事故損害。通過(guò)特征重要程度分析,得出對(duì)事故嚴(yán)重程度影響最大的因素,符合現(xiàn)實(shí)交通情況,對(duì)于后續(xù)事故預(yù)測(cè)減緩研究具有一定的指導(dǎo)作用。本文研究雖然能夠有效應(yīng)用于車輛安全領(lǐng)域,但目前仍然存在不足,下一步將主要解決以下問題:1)機(jī)器學(xué)習(xí)預(yù)測(cè)模型表現(xiàn)依賴于數(shù)據(jù)集的大小和完備性。數(shù)據(jù)的獲取是交通事故分析重要前提,目前仍缺乏豐富的交通事故數(shù)據(jù)集,未來(lái)應(yīng)提高事故數(shù)據(jù)的利用率,采用更完善的數(shù)據(jù)集訓(xùn)練模型,同時(shí)機(jī)器學(xué)習(xí)模型可解釋性不好,難以分析出發(fā)生事故時(shí)車輛間碰撞內(nèi)在機(jī)理情況,下一步將考慮構(gòu)建車輛碰撞物理模型,與機(jī)器學(xué)習(xí)模型相融合,實(shí)現(xiàn)精確率更高、可解釋性更好的預(yù)測(cè)系統(tǒng);2)本文研究?jī)H考慮了事故后自車乘員的損傷預(yù)測(cè),旨在最大程度地保證自車乘員安全,但是對(duì)他車的乘員安全情況考慮欠缺,未來(lái)應(yīng)該綜合事故后雙方損傷情況,幫助車輛做出更合理的決策。