趙 健 劉彥辰 朱 冰 李 揚(yáng) 李雅欣 孔德成 姜泓屹
(吉林大學(xué)汽車仿真與控制國家重點(diǎn)實(shí)驗(yàn)室,長春 130022)
盡管隨著經(jīng)濟(jì)科技水平的發(fā)展,城市和鄉(xiāng)村的路面鋪裝率都得到了提升[1],但非結(jié)構(gòu)化道路依然大量存在,一些特殊任務(wù)例如野外救援、軍事運(yùn)輸?shù)榷夹枰囕v在非結(jié)構(gòu)化道路上有良好的行駛性能[2].在結(jié)構(gòu)化道路上,路面平整、附著良好,路面環(huán)境相對(duì)單一而穩(wěn)定,車輛能夠順利行駛;而在越野環(huán)境中,路面情況復(fù)雜多變,不同類別路面的軟硬程度、附著條件、材質(zhì)都具有明顯的不同,如果車輛能夠感知到當(dāng)前所處路面的狀態(tài),就能對(duì)底盤各控制子系統(tǒng)參數(shù)進(jìn)行適當(dāng)?shù)恼{(diào)整,以獲得更好的通過性、平順性與操縱穩(wěn)定性等[3-8].
路面類型識(shí)別方法大體可以分為基于視覺的識(shí)別[9-11]與基于車輛動(dòng)力學(xué)特征[12-13]的識(shí)別兩大類,此外還有基于圖像和車輛動(dòng)力學(xué)信息的多傳感器融合識(shí)別方法[14-17].對(duì)基于車輛動(dòng)力學(xué)特征的識(shí)別方法而言,路面識(shí)別結(jié)果不會(huì)受到光照等外界復(fù)雜環(huán)境因素影響,同時(shí)由于分類模型本身就隱含了車輛與路面的相互作用機(jī)理,其識(shí)別結(jié)果對(duì)車輛控制也更具有應(yīng)用價(jià)值;而多傳感器融合的方法雖然能夠在考慮前方路面的紋理和顏色信息的同時(shí),兼顧車輪與地面間的相互作用機(jī)理,但受限于多傳感器融合方法的“木桶效應(yīng)”,車輛動(dòng)力學(xué)方法的識(shí)別精度仍然對(duì)融合精度有較大影響.
但是越野路面特征復(fù)雜多變,而車輛與不同類型的路面的作用機(jī)理難以準(zhǔn)確描述,因此近年來學(xué)者們開始采用數(shù)據(jù)驅(qū)動(dòng)的方法,利用機(jī)器學(xué)習(xí)算法對(duì)非線性問題進(jìn)行擬合.Brooks 等[18]采集了車輪的振動(dòng)信號(hào),然后從頻域的角度對(duì)信號(hào)分析并提取出了車輪振動(dòng)的功率譜密度特征,利用線性判別分析法實(shí)現(xiàn)了土路與沙地等路面的識(shí)別.Sadhukhan等[19]搭建了包括慣性導(dǎo)航系統(tǒng)、聲吶系統(tǒng)與輪速編碼器的車輛行駛數(shù)據(jù)采集平臺(tái),以車輛駛過由4 種路面組成的混合路面時(shí)的垂向加速度信號(hào)作為基礎(chǔ),提取信號(hào)的頻域特征,并將這些特征輸入到神經(jīng)網(wǎng)絡(luò)中,實(shí)現(xiàn)了路面的識(shí)別.楊帆等[20-21]采集了試驗(yàn)車在不同路面下行駛時(shí)車輪垂向力的信號(hào),并對(duì)信號(hào)進(jìn)行特征提取,利用支持向量機(jī)實(shí)現(xiàn)路面的分類.薛開等[22]在車輪架上安裝了傳聲器和加速度計(jì),采集車輛在各種路面上的振動(dòng)信號(hào),基于k-近鄰法實(shí)現(xiàn)了路面的分類.武維祥[23]通過從車輛CAN 總線得到的信號(hào)估計(jì)車輛的輪速波動(dòng)量與滾動(dòng)阻力,然后以輪速波動(dòng)量與滾動(dòng)阻力作為輸入,分別采用模糊規(guī)則與隨機(jī)森林完成了軟路面的識(shí)別.
雖然上述基于機(jī)器學(xué)習(xí)的路面分類模型表現(xiàn)優(yōu)秀,但其結(jié)構(gòu)復(fù)雜的特點(diǎn)使得人們難以清晰理解模型做出決策的過程,人們一般把這些模型當(dāng)作“黑盒”來處理[24],也就難以理解模型輸入對(duì)輸出的作用機(jī)制,若能對(duì)黑盒的路面分類模型加以解釋,并針對(duì)模型解釋結(jié)果對(duì)分類模型加以改進(jìn),可以使模型更加易于理解,提升模型的可靠性,實(shí)現(xiàn)路面類型的準(zhǔn)確識(shí)別.在機(jī)器學(xué)習(xí)中,可解釋性定義為對(duì)模型內(nèi)部機(jī)制的理解以及對(duì)模型輸出結(jié)果的理解[25].Zeiler等[26]提出了一種新穎的CNN 隱層可視化技術(shù),從信息提供性方面入手,通過特征可視化查看精度變化,將隱層轉(zhuǎn)化成人類可以理解的有實(shí)際含義的圖像,從而了解CNN 學(xué)習(xí)到怎樣的特征.Hinton 等[27]提出了一種知識(shí)蒸餾方法,通過訓(xùn)練單一的相對(duì)較小的網(wǎng)絡(luò)來模擬原始復(fù)雜網(wǎng)絡(luò)或集成網(wǎng)絡(luò)模型的預(yù)測(cè)概率來提煉復(fù)雜網(wǎng)絡(luò)的知識(shí),并且證明單一網(wǎng)絡(luò)能達(dá)到與復(fù)雜網(wǎng)絡(luò)幾乎同樣的性能.Lundberg 等[28]將博弈論與模型解釋聯(lián)系起來,提出了SHAP(Shapley additive explanation)解釋法,該方法是構(gòu)建一個(gè)線性可加模型并將特征歸因化,通過SHAP值來反應(yīng)出一個(gè)特征對(duì)模型輸出的影響的大小.Khaleel 等[29]提出一種文本解釋性的偽真值生成方法,并以之為基準(zhǔn)對(duì)6 種模型解釋方法進(jìn)行評(píng)價(jià),最終表明(layer-wise relevance propagation,LRP)對(duì)深度文本分類器的解釋性能更佳.全文君[24]提出了一種基于標(biāo)準(zhǔn)化數(shù)據(jù)挖掘過程(CRISP-DM)的可解釋性研究框架與一種原始數(shù)據(jù)理解流程,并結(jié)合認(rèn)知理論,提出了一種基于人分類學(xué)習(xí)的黑盒模型解釋法(HCLI).楊曄民等[30]設(shè)計(jì)了可視分析系統(tǒng)FORESTVis,這套分析系統(tǒng)包括多個(gè)可視化組件,利用該系統(tǒng)可以直觀地了解隨機(jī)森林的結(jié)構(gòu)特點(diǎn)和工作流程與機(jī)理,并對(duì)人們?cè)u(píng)估模型的性能提供了便利.
針對(duì)目前基于車輛動(dòng)力學(xué)特征的路面識(shí)別方法存在的輸入特征過多、可解釋性不足的問題,本文從模型解釋的角度提出SHAP-RF 路面識(shí)別算法設(shè)計(jì)框架.采集車輛在壓實(shí)土路、沙地、良好瀝青路與冰雪路上的行駛數(shù)據(jù),并設(shè)計(jì)3 個(gè)次級(jí)行駛特征特征的計(jì)算方法,進(jìn)而進(jìn)行信號(hào)的時(shí)域和頻域統(tǒng)計(jì)特征計(jì)算;基于全部特征建立高維隨機(jī)森林路面識(shí)別模型,采用SHAP-RF 路面識(shí)別算法設(shè)計(jì)框架,解釋分析高維模型中輸入特征對(duì)分類結(jié)果的影響并進(jìn)行有效的特征篩選,據(jù)此重新構(gòu)建基于隨機(jī)森林的降維路面分類模型,以期在使用較少分類特征的情況下保證車輛行駛路面類別的有效識(shí)別.
采用圖1 所示的數(shù)據(jù)采集系統(tǒng),試驗(yàn)車上安裝了RT3000 慣導(dǎo)系統(tǒng)、羅技Pro-C920 高清攝像頭、CAN 總線收發(fā)分析工具VN1630 A 和上位機(jī).其中,試驗(yàn)車為某款全尺寸SUV,搭載豐富的傳感器與電控系統(tǒng),通過CAN 總線與VN1630 A 進(jìn)行信號(hào)傳輸;RT3000 慣導(dǎo)系統(tǒng)用于車輛運(yùn)動(dòng)數(shù)據(jù)的采集與對(duì)照;攝像頭對(duì)車輛行駛過程進(jìn)行記錄,為后續(xù)的數(shù)據(jù)標(biāo)記與處理提供便利.
圖1 數(shù)據(jù)采集系統(tǒng)示意圖Fig.1 Data acquisition system
圖2 4 種典型路面Fig.2 Four typical road surfaces
數(shù)據(jù)采集系統(tǒng)采集的主要信號(hào)如表1 所示.本文所設(shè)計(jì)的算法需要識(shí)別壓實(shí)土路、沙地、良好瀝青路與冰雪路4 種典型路面,如圖2 所示,在保證通過性的情況下,對(duì)4 種路面分別選取試驗(yàn)工況進(jìn)行數(shù)據(jù)采集,為避免偶然因素造成數(shù)據(jù)集的污染,每種工況下都盡可能進(jìn)行多次試驗(yàn)以保證獲取足夠的有效數(shù)據(jù).
表1 采集的主要信號(hào)Table 1 Part of the collected signal
數(shù)據(jù)采集系統(tǒng)直接采集的每一種原始數(shù)據(jù)所體現(xiàn)的車輛在不同路面上行駛特征的直觀性不強(qiáng),且各個(gè)原始數(shù)據(jù)之間也存在一定程度的耦合,因而有必要進(jìn)行次級(jí)行駛特征的計(jì)算.本文考慮到算法識(shí)別的路面類別中存在軟硬程度和路面輪廓的差異,對(duì)車輛行駛阻力和車身振動(dòng)會(huì)產(chǎn)生不同程度的影響,因此設(shè)計(jì)了車輛滾動(dòng)阻力Ff、輪速波動(dòng)量Δ和垂向加速度系數(shù)acoe3 個(gè)次級(jí)行駛特征的計(jì)算方法.
1.2.1 車輛滾動(dòng)阻力Ff
汽車在不同路面行駛時(shí)受到的道路阻力有明顯差別,在沙地等松軟土壤上行駛時(shí)的道路阻力遠(yuǎn)大于硬路面,這一阻力可以作為路面識(shí)別的重要依據(jù).
在車輛直線行駛時(shí),受到的阻力由加速阻力、坡度阻力、空氣阻力和滾動(dòng)阻力4 部分構(gòu)成[31],車輛的縱向受力如圖3 所示.
圖3 車輛縱向受力示意圖Fig.3 Diagram of longitudinal force on vehicle
根據(jù)車輛的受力情況,可以得到驅(qū)動(dòng)力-行駛阻力平衡方程
式中,Ft為發(fā)動(dòng)機(jī)輸出的扭矩傳遞到車輪后所產(chǎn)生的驅(qū)動(dòng)力,Ff為車輪在路面滾動(dòng)時(shí)產(chǎn)生的阻力,Fw為空氣作用于車身上產(chǎn)生的空氣阻力,Fj為在加速時(shí)克服慣性產(chǎn)生的加速阻力.
根據(jù)式(1),可計(jì)算車輛的滾動(dòng)阻力為
式中,Teng為發(fā)動(dòng)機(jī)輸出的扭矩,可以通過發(fā)動(dòng)機(jī)的EMS 系統(tǒng)獲取,k為液力變矩器的變矩系數(shù),i0為主減速器的傳動(dòng)比,ig為變速器的傳動(dòng)比,it為分動(dòng)器的傳動(dòng)比,ηT為整個(gè)傳動(dòng)系統(tǒng)的傳動(dòng)效率,其大小會(huì)隨著液力變矩器的速比發(fā)生變化,r為車輪的滾動(dòng)半徑;CD為汽車的風(fēng)阻系數(shù),A為汽車在正面的投影面積的大小,u為車輛的行駛速度;M為整車的質(zhì)量,α為道路的坡度角;δ為旋轉(zhuǎn)質(zhì)量換算系數(shù).
由于車輛的平動(dòng)加速阻力和坡度阻力理論上并不相關(guān),而車輛搭載的加速度傳感器測(cè)量車輛行駛方向的加速度時(shí)會(huì)將兩者耦合,即
因此為了計(jì)算方便,將滾動(dòng)阻力的計(jì)算公式轉(zhuǎn)換為以下形式
式中,ax_car為車輛搭載的加速度傳感器測(cè)量的車輛行駛方向的加速度.
此外,為了消除滾動(dòng)阻力的抖動(dòng),真實(shí)地反映道路的滾動(dòng)阻力,對(duì)滾動(dòng)阻力Ff進(jìn)行濾波處理,得到濾波后的滾動(dòng)阻力Ff_flt,計(jì)算良好瀝青路面上的如圖4 所示.
圖4 滾動(dòng)阻力計(jì)算結(jié)果示例Fig.4 Example of rolling resistance
1.2.2 輪速波動(dòng)量Δ
當(dāng)車輛行駛在各種不平整的地面上時(shí),輪速會(huì)產(chǎn)生較大波動(dòng),而當(dāng)車輛在沙地或附著系數(shù)比較小的路面上行駛時(shí),由于土壤的表層破壞或者車輪到達(dá)附著極限,車輪也會(huì)抖動(dòng)甚至是打滑,如圖5 所示.因此將四個(gè)車輪的輪速波動(dòng)量作為識(shí)別的依據(jù).
在計(jì)算輪速波動(dòng)量時(shí),還需要考慮車輛轉(zhuǎn)向造成的左右側(cè)車輪輪速差異,如圖5 中局部放大部分所示,為消除這種輪速差異,采用圖6 所示的阿克曼轉(zhuǎn)向幾何模型對(duì)輪速進(jìn)行修正.
圖5 不同路面上的車輪輪速示例Fig.5 Example of wheel speed on different road
圖6 阿克曼轉(zhuǎn)向幾何模型Fig.6 Ackermann steering geometry
將每個(gè)車輪的輪速轉(zhuǎn)換成車輛后軸中心B點(diǎn)處的速度
式中vBfl,vBfr,vBrl,vBrr分別為汽車的左前輪、右前輪、左后輪、右后輪輪速等效至車輛后軸中心處的值,vfl,vfr,vrl,vrr分別為汽車的左前輪、右前輪、左后輪、右后輪的輪速,R為汽車后軸中心B點(diǎn)處對(duì)應(yīng)的轉(zhuǎn)彎半徑,W為輪距,L為軸距,δ為車輪的轉(zhuǎn)向角,忽略內(nèi)外側(cè)車輪轉(zhuǎn)向角差異.
定義輪速波動(dòng)量計(jì)算式為
圖7 不同路面上的輪速波動(dòng)量示例Fig.7 Example of wheel speed fluctuation on different road surfaces
1.2.3 垂向加速度系數(shù)acoe
路面在垂直方向上的高度變化是路面振動(dòng)激勵(lì)的主要成分,路面輪廓輸入可以用傅里葉級(jí)數(shù)表示為無數(shù)個(gè)正弦波的疊加形式[32],即
式中,Zr是地面輪廓的高度,fi是空間頻率,Ai和φi是空間頻率為fi的正弦波分量的幅值和相位偏移,v是行駛速度,t為時(shí)間.
將式(7)對(duì)時(shí)間t進(jìn)行兩次微分后可以得到
由式(8)可知,路面激勵(lì)下車輛垂向加速度響應(yīng)受到車輛行駛速度的影響,本文定義一個(gè)新的特征垂向加速度系數(shù)acoe來消除車速對(duì)車輛垂向加速度的影響,acoe定義式為
式中,az為車身的垂向加速度,n為一個(gè)常數(shù),在同一種路面下n的取值應(yīng)當(dāng)使acoe的波動(dòng)程度與車速的相關(guān)程度最小,n的取值通過試驗(yàn)數(shù)據(jù)計(jì)算獲得.良好瀝青路面上車輛行駛數(shù)據(jù)共46 段,每段數(shù)據(jù)長度不小于30 s,包括車速范圍2~ 100 km/h,采用如下步驟獲取n的值:
(1)將各數(shù)據(jù)段中的垂向加速度數(shù)據(jù)不重疊地劃分成每128 幀一組;
(2)對(duì)n的不同取值,計(jì)算每組數(shù)據(jù)中垂向加速度系數(shù)標(biāo)準(zhǔn)差σacoe與車速的均值vmean;
(3)計(jì)算n的不同取值下,σacoe與vmean的相關(guān)系數(shù),相關(guān)系數(shù)最接近0 時(shí),acoe的波動(dòng)程度與車速的相關(guān)性最小,此時(shí)n的值作為最終取值.
σacoe與vmean的相關(guān)系數(shù)隨n值變化曲線如圖8所示,最終取n=0.4,并計(jì)算垂向加速度系數(shù)示例如圖9 所示,可以看出與垂向加速度相比,其波動(dòng)程度與車速的相關(guān)性明顯減小.
圖8 相關(guān)系數(shù)隨n值變化情況Fig.8 Correlation coefficients with different nvalues
圖9 垂向加速度系數(shù)計(jì)算示例Fig.9 Example of vertical acceleration coefficient
基于機(jī)器學(xué)習(xí)算法設(shè)計(jì)路面分類器,特征選擇的合理性對(duì)算法的分類效果有決定性的影響.通常情況下,基于數(shù)據(jù)的時(shí)域和頻域統(tǒng)計(jì)計(jì)算可以獲得大量特征.然而使用大量特征會(huì)增加機(jī)器學(xué)習(xí)算法的復(fù)雜度,容易導(dǎo)致過擬合現(xiàn)象,分類模型的泛化能力變差,因此需要對(duì)數(shù)據(jù)特征進(jìn)行降維.本文所設(shè)計(jì)的SHAP-RF 路面識(shí)別算法框架,采用RF 方法設(shè)計(jì)路面分類器,并用SHAP 模型解釋方法實(shí)現(xiàn)降維操作.相比常用的數(shù)據(jù)降維方法,例如主成分分析(principal component analysis,PCA) 和因子分析(factor analysis,FA),采用的SHAP 模型解釋方法不對(duì)特征進(jìn)行變換,同時(shí)能夠獲得特征的重要性和對(duì)路面類別輸出的影響情況,從而為高維RF 模型的降維提供指導(dǎo).
本文所設(shè)計(jì)的SHAP-RF 路面識(shí)別算法框架如圖10 所示.首先進(jìn)行數(shù)據(jù)的時(shí)域和頻域統(tǒng)計(jì)特征計(jì)算,獲得大量待篩選特征;隨后采用隨機(jī)森林算法設(shè)計(jì)了一個(gè)采用全部待篩選特征的高維路面識(shí)別模型,基于SHAP 解釋法對(duì)高維模型進(jìn)行解釋,分析各特征對(duì)準(zhǔn)確識(shí)別結(jié)果的貢獻(xiàn)度和依賴度;以此為基礎(chǔ)縮減高維模型的輸入特征維度,完成降維隨機(jī)森林路面識(shí)別模型的設(shè)計(jì).
圖10 SHAP-RF 路面識(shí)別算法設(shè)計(jì)框架Fig.10 SHAP-RF road identification algorithm design framework
除了行駛特征本身的數(shù)值以外,行駛特征在一段時(shí)間內(nèi)的波動(dòng)情況也與路面類型有關(guān),因此對(duì)行駛特征數(shù)據(jù)進(jìn)行時(shí)域特征與頻域特征的提取,包括四輪輪速vfl,vfr,vrl,vrr,車身垂向加速度az和3 個(gè)次級(jí)行駛特征Ff,Δ和acoe.其中,4 個(gè)車輪的輪速在時(shí)間上的變化受到車輛加速與減速動(dòng)作的影響,因此只對(duì)4 個(gè)車輪輪速的頻域特征進(jìn)行提取,不提取時(shí)域特征.具體步驟如下.
(1)行駛條件判斷: 由于車輛速度較小的時(shí)候,受信號(hào)采集精度限制,行駛特征參數(shù)變化異常,因此進(jìn)行特征計(jì)算時(shí),只對(duì)車速大于2 km/h 的數(shù)據(jù)進(jìn)行計(jì)算.
(2)采用線性插值的方法,將傳感器數(shù)據(jù)的采樣頻率進(jìn)行同步.
(3)提取包括當(dāng)前時(shí)刻在內(nèi)的長度為128 的時(shí)間序列信號(hào).
(4)提取時(shí)間序列信號(hào)的時(shí)域特征和頻域特征.
最后,獲得由行駛特征原始值(包括車身垂向加速度az和3 個(gè)次級(jí)行駛特征Ff,Δ和acoe)、行駛特征濾波值(濾波后的滾動(dòng)阻力Ff_flt)以及行駛特征時(shí)域特征和頻域特征組成的共105 個(gè)路面識(shí)別特征,如表2 所示.
表2 特征編號(hào)列表Table 2 List of feature numbers
續(xù)表 2
2.3.1 高維隨機(jī)森林路面識(shí)別模型設(shè)計(jì)
隨機(jī)森林(RF)是基于決策樹的集成模型,通過隨機(jī)森林可以實(shí)現(xiàn)多種路面識(shí)別,相比更加復(fù)雜的機(jī)器學(xué)習(xí)算法,其結(jié)構(gòu)相對(duì)簡單,模型解釋的難度與計(jì)算量低.本文基于隨機(jī)森林算法構(gòu)建路面識(shí)別模型,采用105 個(gè)特征進(jìn)行高維路面識(shí)別模型訓(xùn)練,選取決策樹棵數(shù)為100,信息純度計(jì)算標(biāo)準(zhǔn)為gini,對(duì)樹的生長不做限制,隨機(jī)森林算法的流程圖如圖11所示.
圖11 隨機(jī)森林算法流程圖Fig.11 Flow chart of random forest algorithm
2.3.2 基于SHAP 解釋法的特征篩選
SHAP 解釋法參考合作博弈的分析方法,特征篩選步驟如下.
(1)對(duì)所有被解釋樣本,計(jì)算每個(gè)特征對(duì)路面識(shí)別的貢獻(xiàn),即SHAP 值,計(jì)算式為
式中,M為特征的個(gè)數(shù),F為所有的特征的集合,f為被解釋的模型,f(S)=E[f(x) |xS],xi為一個(gè)被解釋的特征向量實(shí)例,為特征向量中的第i個(gè)特征,S為F{}的子集,φi為第i個(gè)特征的SHAP 值.
(2)統(tǒng)計(jì)所有被解釋樣本的特征的SHAP 值絕對(duì)值的均值.
(3)選取對(duì)輸出貢獻(xiàn)較大的特征作為降維路面識(shí)別算法的輸入.
與基于隨機(jī)森林算法的高維和降維路面識(shí)別模型相對(duì)應(yīng),采用TreeSHAP,即基于樹模型的SHAP 值簡化計(jì)算方法[33],利用節(jié)點(diǎn)走向與節(jié)點(diǎn)中樣本的比重來計(jì)算特征貢獻(xiàn).E[f(x) |xS]的計(jì)算流程如圖12 所示,圖中j為節(jié)點(diǎn)索引,dj為在節(jié)點(diǎn)j中被利用的特征索引,w為節(jié)點(diǎn)的權(quán)重,vj為節(jié)點(diǎn)取值,aj,bj為節(jié)點(diǎn)j的子節(jié)點(diǎn),r為節(jié)點(diǎn)中的樣本數(shù)目.
圖12 E[f(x) | xS]計(jì)算流程Fig.12 Calculation process of E[f(x) | xS]
對(duì)全部樣本的解釋結(jié)果如圖13 所示,從解釋結(jié)果來看,車輛的滾動(dòng)阻力的時(shí)域特征(63,61,62,65,69 號(hào)特征)對(duì)模型輸出的貢獻(xiàn)最大,輪速波動(dòng)量的頻域信息(18,17,16 號(hào)特征)的貢獻(xiàn)度次之,垂向加速度系數(shù)(29,40,27,25,26,39,21 號(hào)特征)與垂向加速度(59,41,60 號(hào)特征)的統(tǒng)計(jì)信息的貢獻(xiàn)相對(duì)較小.解釋結(jié)果可以驗(yàn)證次級(jí)行駛特征輪速波動(dòng)量的有效性,此外,對(duì)比發(fā)現(xiàn)垂向加速度系數(shù)的貢獻(xiàn)遠(yuǎn)比垂向加速度大,再次驗(yàn)證了垂向加速度系數(shù)這一特征的有效性.
圖13 對(duì)全部樣本的解釋結(jié)果Fig.13 Interpretation results for all samples
由于本文研究的分類問題是屬于多分類問題,為了更清晰的觀察特征對(duì)于一類的識(shí)別結(jié)果的貢獻(xiàn),在指定路面類別下對(duì)所有樣本的解釋結(jié)果進(jìn)行輸出,得到的解釋結(jié)果用散點(diǎn)圖表示如圖14 所示.以SHAP 值等于0 為分界線,點(diǎn)分布在右側(cè)表示該特征取值會(huì)增高對(duì)應(yīng)路面類型的預(yù)測(cè)概率,反之則會(huì)降低對(duì)應(yīng)路面類型的預(yù)測(cè)概率,增高/降低的程度隨SHAP 值絕對(duì)值的增大而增大.
圖14 指定路面類別的SHAP 解釋結(jié)果Fig.14 SHAP interpretation results for specific road categories
圖14 指定路面類別的SHAP 解釋結(jié)果(續(xù))Fig.14 SHAP interpretation results for specific road categories(continued)
為了探尋特征之間的相互影響,利用SHAP 相互作用指標(biāo)φi,j來尋找影響因素,φi,j的計(jì)算式為
式中i與j為被解釋的特征且i≠j,δij的計(jì)算式為
對(duì)所有的特征進(jìn)行 φi,j計(jì)算便可以得到一個(gè)維度為M×M的矩陣,其中數(shù)值最大的數(shù)對(duì)應(yīng)的位置代表這兩個(gè)特征的相互影響最大.
對(duì)某一特征進(jìn)行具體分析,以土路類別識(shí)別中29 號(hào)特征(加速度系數(shù)均方根)的表現(xiàn)為例。圖15 為考慮29 號(hào)特征與40 號(hào)特征(垂向加速度系數(shù)頻率標(biāo)準(zhǔn)差)相互作用的部分依賴圖。從整體上看,29 號(hào)特征的SHAP 值隨著29 號(hào)特征值增大而增大,29 號(hào)特征值時(shí)小于0.1 時(shí),SHAP 值為負(fù),模型預(yù)測(cè)結(jié)果為土路的概率減小,29 號(hào)特征值大于0.1 時(shí)則會(huì)增大模型預(yù)測(cè)結(jié)果為土路的概率。另一方面,40 號(hào)特征的取值也會(huì)影響29 號(hào)特征的SHAP 值,即影響29 號(hào)特征對(duì)模型正確分類的貢獻(xiàn)。圖15 中樣本點(diǎn)的顏色表達(dá)40 號(hào)特征不同數(shù)值,偏紅表示40 號(hào)特征數(shù)值較大,偏藍(lán)表示40 號(hào)特征數(shù)值較小。由圖可見,在29 號(hào)特征值小于0.08 時(shí),29 號(hào)特征的SHAP 值隨40 號(hào)特征取值的增大而減小,對(duì)模型正確分類的負(fù)面影響增加,在29 號(hào)特征值大于0.08 時(shí),29 號(hào)特征的SHAP 值隨40 號(hào)特征取值的增大而增大,即提高模型正確識(shí)別為土路的可能性。
圖15 考慮相互作用的部分依賴圖Fig.15 Partial dependency diagram that consider interactions
對(duì)模型輸出影響較大的前20 個(gè)特征中,許多特征之間都存在相互作用的關(guān)系,在構(gòu)建路面識(shí)別模型時(shí)應(yīng)當(dāng)對(duì)這些特征予以考慮;而對(duì)于對(duì)模型輸出影響不大的特征則進(jìn)行剔除。本文最終選取對(duì)模型整體輸出影響排在前20 的特征 (63,61,101,62,65,69,29,18,17,16,40,59,27,25,26,41,39,60,21,3) 作為主要特征,由這些特征組成精簡特征向量,作為路面識(shí)別的依據(jù)。
2.3.3 隨機(jī)森林路邊識(shí)別模型改進(jìn)
以篩選后的20 個(gè)特征作為輸入,訓(xùn)練降維的隨機(jī)森林路面識(shí)別模型.根據(jù)隨機(jī)森林分類器在測(cè)試集上的準(zhǔn)確率最高的原則,選取決策樹棵數(shù)為100,信息純度計(jì)算標(biāo)準(zhǔn)為gini,樹的最大深度為13,最小葉節(jié)點(diǎn)數(shù)為3,進(jìn)行模型的訓(xùn)練.
從采集的車輛行駛數(shù)據(jù)中得到20 000 個(gè)樣本,對(duì)壓實(shí)土路、沙地、良好瀝青路和冰雪路4 種路面,每種路面包含的樣本數(shù)量均為5000 個(gè),對(duì)樣本集進(jìn)行隨機(jī)抽樣,抽取10 000 個(gè)樣本作為訓(xùn)練集,10 000 個(gè)樣本作為測(cè)試集.以精確率和召回率對(duì)算法進(jìn)行評(píng)價(jià),其中精確率評(píng)價(jià)算法的虛報(bào)程度,召回率則評(píng)價(jià)算法的漏報(bào)程度.高維路面識(shí)別模型在測(cè)試集上的分類結(jié)果評(píng)價(jià)如表3 所示.將樣本集內(nèi)不同路面的特征向量輸入到降維路面識(shí)別模型中,定義壓實(shí)土路、沙地、良好瀝青路與冰雪路對(duì)應(yīng)模型的輸出的值分別為1,2,3 和4,得到的輸出結(jié)果如圖16所示.降維路面識(shí)別模型在測(cè)試集上的分類結(jié)果評(píng)價(jià)如表4 所示.
圖16 降維路面識(shí)別模型的識(shí)別結(jié)果Fig.16 Recognition results of dimension reduction road identification model
表3 高維路面識(shí)別模型評(píng)價(jià)Table 3 Evaluation of full-dimension road identification model
表3 中,高維路面識(shí)別模型能夠達(dá)到較高的識(shí)別精度,表明其對(duì)數(shù)據(jù)中的信息充分利用,能夠支撐后續(xù)模型解釋的進(jìn)行,對(duì)比表3 和表4,由于特征減少,采用篩選后的特征訓(xùn)練的降維路面識(shí)別模型識(shí)別精度稍有下降,但下降幅度小,對(duì)各種路面的識(shí)別精確率和召回率普遍在96%以上,下降幅度相對(duì)較大的冰雪路識(shí)別精確率和良好瀝青路識(shí)別召回率的下降幅度也不超過3.2%,即降維路面識(shí)別模型依然保持較高的識(shí)別精度,表明文本采用的SHAP 模型解釋方法能夠有效篩選對(duì)路面識(shí)別有重要作用的特征,本文基于SHAP-RF 框架設(shè)計(jì)的路面識(shí)別算法能夠在使用較少分類特征的情況下保證車輛行駛路面類別的有效識(shí)別.
表4 降維路面識(shí)別模型評(píng)價(jià)Table 4 Evaluation of dimension reduction road identification model
對(duì)降維路面識(shí)別模型再次進(jìn)行SHAP 解釋,得到的解釋結(jié)果如圖17 所示.對(duì)比圖14 所示的高維模型解釋結(jié)果,相同的特征在降維路面識(shí)別模型與高維路面識(shí)別模型中的SHAP 值分布相似,特征的相關(guān)性與之前的解釋結(jié)果基本一致,表明SHAP解釋法對(duì)特征篩選有效且整體解釋較為清晰,再次驗(yàn)證了本文提出的SHAP-RF 框架的有效性.
圖17 路面識(shí)別模型的SHAP 解釋結(jié)果Fig.17 SHAP interpretation results of road recognition model
提出了一種SHAP-RF 路面識(shí)別框架,以實(shí)車行駛數(shù)據(jù)為基礎(chǔ)進(jìn)行特征計(jì)算和提取,訓(xùn)練高維路面識(shí)別模型,采用SHAP 解釋法對(duì)高維路面識(shí)別模型進(jìn)行解釋,獲取特征對(duì)模型預(yù)測(cè)結(jié)果的貢獻(xiàn)及影響,然后根據(jù)特征對(duì)模型影響的大小進(jìn)行特征篩選,形成精簡特征向量,基于隨機(jī)森林算法訓(xùn)練降維路面識(shí)別模型,通過仿真和數(shù)據(jù)回放測(cè)試驗(yàn)證了算法的有效性,最終的結(jié)果表明:
(1)采用的次級(jí)行駛特征: 滾動(dòng)阻力、輪速波動(dòng)量和垂向加速度系數(shù)在的隨機(jī)森林路面識(shí)別模型中起到重要作用,表明這3 個(gè)特征與路面類別間的強(qiáng)大關(guān)聯(lián)性,同時(shí)也證明了提出的輪速波動(dòng)量和垂向加速度系數(shù)的有效性.
(2)設(shè)計(jì)的SHAP-RF 路面識(shí)別算法設(shè)計(jì)框架,能夠在使用較少特征的情況下保證算法識(shí)別的準(zhǔn)確率,基于該框架設(shè)計(jì)的降維路面識(shí)別模型在測(cè)試集上的測(cè)試結(jié)果表明,模型在4 種路面上的識(shí)別精確率和召回率普遍在96%以上,而冰雪路識(shí)別精確率和良好瀝青路識(shí)別召回率分別為94.15%和93.45%,相對(duì)于高維路面識(shí)別模型的下降幅度不超過3.2%,表明降維的路面識(shí)別模型保留了原始特征中大部分的信息,證明了模型解釋的有效性,同時(shí)證明算法具有較高的識(shí)別精度.
(3)路面識(shí)別模型測(cè)試結(jié)果是基于隨機(jī)采樣的離線測(cè)試樣本進(jìn)行的,雖然達(dá)到了較高的識(shí)別精度,但對(duì)于車輛主動(dòng)控制而言,算法的實(shí)時(shí)運(yùn)行中可能產(chǎn)生的識(shí)別結(jié)果跳變也會(huì)對(duì)車輛控制產(chǎn)生一些影響,因此未來的研究工作中應(yīng)加強(qiáng)路面識(shí)別模型對(duì)于時(shí)序數(shù)據(jù)的處理,提高分類性能.