亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自然駕駛場景大數據的駕駛風格研究

        2022-09-22 10:45:12劉迪鄭建明覃斌張宇飛張建軍
        汽車技術 2022年9期
        關鍵詞:高斯均值駕駛員

        劉迪 鄭建明 覃斌 張宇飛 張建軍

        (1.中國第一汽車股份有限公司 研發(fā)總院,長春 130013;2.汽車振動噪聲與安全控制綜合技術國家重點實驗室,長春 130013)

        主題詞:駕駛風格辨識 大數據 主成分分析 高斯混合模型 隨機森林

        1 前言

        作為駕駛員長期駕駛方式的綜合評價指標,駕駛風格標簽的確定成為汽車智能算法實現個性化的先決條件。

        在駕駛風格識別領域,國內外學者開展了大量研究。在數據采集方面,一般采取填寫主觀問卷、在駕駛模擬器上模擬駕駛、在自然公開道路上駕駛等方式。主觀評價嚴重依賴歷史結果,駕駛模擬雖然簡單快速且不受天氣約束,但是難以預測并復現全部自然駕駛場景。

        由于數據來源廣泛,許多學者對場景進行了切片,開展了更為細致的分析。在評價指標選取方面,文獻[5]考慮了車流密度的影響,文獻[6]對分時租賃展開了研究,文獻[7]以營運車輛的駕駛速度為評價指標進行聚類。在數據處理方面:Constantinescu 等應用主成分分析、信度和效度檢驗相結合的方法提取駕駛標簽并進行分類;M.Gys 認為諸如無監(jiān)督式學習、循環(huán)神經網絡、支持向量機(Support Vector Machine,SVM)等人工智能算法具有更好的分類效果;文獻[10]設計了一套基于標準化駕駛表現和像空間重構的定性評估方法;文獻[11]構建多棵決策樹,引入隨機模型建立了辨識策略;蘇琛應用最大期望算法進行模型訓練,提出識別準確率和置信度的概念,計算了基于縱向激勵駕駛識別模型的最優(yōu)參數。

        然而,已有研究往往依賴主客觀對標的方法,難以獲得統一的樣本標簽和聚類標準,且評價指標維度很高,模型復雜,同時,聚類結果較為剛性,難以識別邊緣數據。為了全方位分析大數據信息,獲取更為柔性的聚類結果,建立準確有效的聚類器,本文搭建自然駕駛場景數據采集平臺,進行數據清洗和行列篩選,采取主成分分析和因子旋轉的方法實現評價指標降維,分析駕駛員的自然駕駛工況和超速及極端工況數據,分別建立聚類模型和辨識模型用于聚類多名駕駛員風格和辨識新樣本。利用無監(jiān)督學習方法,訓練基于K-均值聚類結果的高斯混合模型,通過迭代的方法尋找模型最佳參數,獲得聚類結果。最后利用監(jiān)督學習方法,訓練隨機森林模型并交叉驗證其有效性,實現駕駛風格辨識。

        2 自然駕駛場景數據采集平臺及數據提取方法

        本文選取某車型作為場景采集車,將GPS和慣性測量單元(Inertial Measurement Unit,IMU)組合成慣性導航系統,用來獲取時間信息、本車狀態(tài)和本車定位信息;搭載高清攝像頭、感知攝像頭、激光雷達、毫米波雷達獲取視頻數據、點云數據、目標種類及相對位置,如圖1所示。同時,以實時經緯度坐標作為輸入,匹配開源地圖數據庫(Open Street Map,OSM),獲取實時道路類型信息。

        圖1 傳感器的分布情況

        基于該采集平臺,選擇33 名駕駛員在全國開放道路上行駛并完成數據采集。數據采集耗時6個月,總里程5×10km,長時間的駕駛數據幾乎能覆蓋駕駛員在各種情況下的行為表現,具有很強的代表意義。采集過程中,可通過CAN總線和傳感器獲取80余類信號,數據采集結果可轉化為“4 億行×80 余列”的大型矩陣,供有效數據提取。

        2.1 篩選數據行

        為了激發(fā)駕駛員的差異化表現,并清洗數據,建立如下數據提取規(guī)則:

        a.速度區(qū)間為30~120 km/h,避免低速情況下城市道路頻繁起停、倒車的場景;

        b.提取本車正前方有目標車的場景,且碰撞時間(Time to Collision,TTC)在(0,10)s范圍內;

        c.提取道路類型包括城市(主要道路、次要道路、居住區(qū))、快速路(高架、機場進站、過江隧道、橋上)、高速公路。

        2.2 篩選數據列

        從原始數據的80余個字段中初選與駕駛風格有關的10個評價指標,包括3類信息:

        a.本車狀態(tài):速度、加速度、超速比例;

        b.駕駛員輸入:制動踏板激活狀態(tài)、節(jié)氣門開度、最大節(jié)氣門開度;

        c.與前車相對關系:相對速度、最大相對速度、相對距離(前車車尾與本車車頭的距離)、碰撞時間。

        和產生的條件較為苛刻,且距離大部分樣本較遠,即使同一駕駛員也很難復現,缺少代表性。本文選擇第90 分位點作為最大值,以剔除明顯不符合實際情況的或發(fā)生次數過少的樣本。

        設城市道路、快速路、高速公路限速分別為70 km/h、80 km/h、120 km/h,超速比例表示車速超過當前道路限速90%所持續(xù)的時長占總駕駛時長的比例:

        式中,、、分別為城市道路、快速路、高速公路上的超速時長;、、分別為城市道路、快速路、高速公路上的總時長。

        此步驟輸出“千萬行×10列”的矩陣。

        2.3 以速度為區(qū)段的分布式聚合方法

        以每10 km/h 為一個區(qū)段,將30~120 km/h 分為9段。在每段區(qū)間內,取各評價指標的眾數,即出現次數最多的值,再將9 組數據加權平均,得到單駕駛員有效數據:

        式中,C、d分別為每段區(qū)間的計數和眾數。

        重復此步驟33 次,得到33 名駕駛員的有效數據矩陣。

        以30~40 km/h為例,繪制、、、、分布情況(作為示例,此時未區(qū)分駕駛員),如圖2所示。

        圖2 30 km/h≤v<40 km/h車速范圍內各參數分布情況

        此步驟輸出“33行×10列”的矩陣。

        2.4 評價指標降維和標準化

        矩陣仍包含10 個列字段。數據集不帶標簽,且存在線性結構,故采用主成分分析(Principal Compo?nent Analysis,PCA)方法降維。PCA 能降低數據空間的維度,識別最重要的指標,保證信息損失最小化,解決多重共線問題,防止過擬合,并加快算法迭代速度。

        主成分的計算原理為:

        式中,D為第個主成分;X為第個原始數據;=1,2,…,;k為權重系數。

        任意2 個主成分的協方差為零,方向正交,相互獨立。

        經分析,該樣本的主成分分析效度檢驗指標KMO為0.718>0.6,Bartlett 檢驗對應值=0,比較適合進行主成分分析。表1所示為主成分提取情況。前3個主成分的特征根值均大于1,且累積方差解釋率為78.856%。一般認為累計解釋率達70%~80%即為有效,因此取3個主成分代表全部主成分。

        表1 主成分特征根矩陣

        因子旋轉可使載荷矩陣值向0 或1 靠近,使每個因子具有較高或較低的載荷。因此旋轉因子能代表的駕駛行為信息比主成分更為明確,本文采用最大方差旋轉法。

        主成分分析和因子旋轉后的載荷矩陣如表2 所示。如果載荷系數絕對值大于0.4,則說明該項與主成分有對應關系,且載荷系數越大,相關性越強。

        表2 載荷系數表格

        主成分PC1、PC2、PC3 能代表78.856%的原始數據。旋轉因子RC1 多與車輛自然狀態(tài)的平均值有關,RC2 代表駕駛過程最基本屬性(速度和節(jié)氣門開度),RC3與發(fā)生超速及碰撞等極端工況有關。因此,以RC1和RC2為研究對象分析駕駛員在自然工況下的駕駛風格,以RC2 和RC3 為研究對象分析駕駛員超速并接近前車的傾向。

        此步驟輸出“33 行×3 列”的矩陣。將其標準化,得到旋轉矩陣的成分得分,應用其進行聚類。

        3 無監(jiān)督學習聚類

        數據集不帶標簽,因此本次聚類屬于典型的無監(jiān)督學習。為提高準確度,本文綜合K-均值和基于K-均值結果的高斯混合模型作為最終聚類結果。

        3.1 K-均值聚類

        K-均值聚類具有方便快捷、魯棒性佳、適應性好的優(yōu)點。對于給定數據集=[…],K-均值聚類首先確定聚類數量,然后隨機選取聚類中心δ=(=1,2,…,),最后通過迭代計算使x與其最近的δ的歐氏距離之和最?。?/p>

        本文將駕駛風格分為3 類,因此取=3。代表了聚類結果的緊密程度,結果越小,聚合效果越好。

        然而,K-均值聚類結果只有“是”或“否”,僅根據到簇中心點的距離劃分數據,聚類結果沒有邊界值。如果數據維度較低,操作者可以觀察邊緣數據,但如果數據維度較高,則無法可視化,強行聚類可能得不到預期結果。因此,以K-均值聚類結果為基礎,構建高斯混合模型(Gaussian Mixture Modeling,GMM)。

        3.2 基于K-均值結果的高斯混合模型聚類

        GMM 的本質是密度估計算法,它的擬合結果是描述數據分布的概率模型。GMM由多個單高斯模型組合而成,輸出結果是樣本占據某一聚類的概率。正如均值和方差能確定單高斯模型,均值向量和協方差矩陣能確定高維度的GMM,它的概率分布可表示為:

        然而,GMM僅提供概率,如某個樣本所屬單高斯分布的概率接近,或者與K-均值聚類結果不統一,說明該樣本處于簇邊緣。對于此類樣本,應采取主客觀結合的方式進一步處理。

        正因如此,在本文中GMM 不能用于辨識新的未知駕駛員的駕駛風格,其意義在于識別邊緣數據。

        3.3 2種聚類結果對比

        3.3.1 自然駕駛工況

        選取旋轉因子RC1 和RC2 為研究對象,因此能可視化表達二維聚類結果,如圖3~圖5所示。

        圖3 自然工況中K-均值和高斯混合聚類結果比對

        圖4 自然工況中高斯模型等高線

        圖5 自然工況中高斯模型曲面

        由圖3可以看出,2種方法的聚類結果大致相同,僅有2 個樣本標簽出現了偏差。由圖4 可知,3 種標簽等高線迭代結果與樣本數據相符,數據均勻地分布在等高線周圍。2 個出現偏差的樣本恰好都在2 類等高線邊緣,而且概率相差不大。如果可獲取更多已知數據外的信息,則完全可以綜合考慮聚類結果,GMM 僅提供參考。圖5 在三維坐標系中直觀地刻畫了概率密度分布情況。

        表3 所示為混淆矩陣,可以看出高斯模型將1 個謹慎型數據分類為激進型,將1個激進型數據分類為一般型,與上述定性分析結果一致。表4所示為33名駕駛員最終聚類結果。

        表3 2種聚類方法的混淆矩陣

        表4 駕駛員聚類結果

        3.3.2 超速及極端工況

        與3.3.1 節(jié)研究方法類似,選取旋轉因子RC2 和RC3 為研究對象,依次繪制K-均值和高斯混合聚類結果比對圖、高斯模型等高線圖、高斯模型曲面圖,如圖6~圖8所示。

        圖6 極端工況K-均值和高斯混合聚類結果比對

        圖7 極端工況高斯模型等高線

        圖8 極端工況高斯模型曲面

        由圖6~圖8可知,一般型和激進型的概率密度產生了部分重疊。激進型由于有極端值存在,導致方差較大,概率密度三維圖較為平緩。與3.3.1 節(jié)中的聚類結果類似,也有2個樣本標簽出現了偏差。最終聚類結果如表5所示。

        表5 駕駛員標簽集

        3.3.3 樣本集聚類結果

        比較3.3.1和3.3.2節(jié)聚類結果,匯總至表6。有64%的駕駛員風格不變,36%的駕駛員在一般和激進間跳變。謹慎型駕駛員群體特別穩(wěn)定,從未發(fā)生變化,說明謹慎型駕駛員始終表現保守,與其他2種表現行為差異明顯。一般型和激進型之間存在差異,但無明顯閾值,部分駕駛員在遇到危險時,會因個體原因發(fā)生風格的變化。

        表6 2種工況下駕駛員標簽綜合分析

        4 利用監(jiān)督學習實現辨識

        聚類結果包含數據和標簽信息,因此可利用監(jiān)督學習構建機器學習模型,辨識未知駕駛員的駕駛風格。本文擬采用隨機森林模型作為分類器實現此功能。

        每棵樹的訓練特征集合是從全部特征中抽取的,因此適合處理高維數據。特征較少的樣本隨機性降低,可能得不到最佳辨識結果。同時,隨機森林能檢測特征間的作用,解決共線問題。因此在訓練模型時,樣本集為矩陣及對應標簽。

        4.1 訓練隨機森林模型

        隨機森林是升級版決策樹,每棵樹對訓練樣本進行投票,最后取最高票對應的標簽作為分類結果。圖9所示為隨機森林模型建立過程。

        圖9 隨機森林模型建立過程

        具體實現流程如下:

        a.隨機抽樣,訓練決策樹。有放回地隨機抽取多個樣本(即可存在重復樣本),形成樣本數據集1;

        b.隨機選取屬性作為節(jié)點分類屬性。假設訓練樣本集包含個屬性,隨機在每個分裂節(jié)點處選擇個屬性,并且<,節(jié)點分裂屬性不可重復;

        c.重復步驟b,直到不能再分裂為止;

        d.重復步驟a~步驟c,建立多棵決策樹,形成森林。

        4.2 交叉驗證隨機森林模型

        采用留一法評估隨機森林模型的有效性。將33名駕駛員樣本組成的測試集劃分為訓練集和驗證集,訓練集包含32份樣本,驗證集包含1份樣本。更換不同的驗證集,進行33次交叉驗證,得到組驗證結果。比對聚類結果和辨識結果,分別計算3 種標簽的辨識率,進而得出隨機森林模型的綜合辨識率。原理如圖10所示。

        圖10 交叉驗證法示意

        表7、表8所示為2種工況交叉驗證結果。經評估,基于隨機森林模型的辨識策略能正確識別100%自然工況的駕駛風格標簽,正確識別90.9%超速及極端工況的駕駛風格標簽。

        表7 隨機森林模型交叉驗證結果

        表8 隨機森林模型交叉驗證結果

        5 結束語

        本文建立了基于大數據的駕駛風格分類及辨識體系,構建了自然駕駛數據采集平臺,選取評價指標并利用主成分分析實現降維,利用無監(jiān)督學習方法設計K-均值聚類方法,同時訓練基于K-均值聚類結果的高斯混合模型,以此獲得更為柔性的分類結果。最后訓練隨機森林模型,用來快速辨識未知駕駛員的風格標簽。當數據量不斷擴大,對于這些不可預知的工況和風格標簽,本文提出的方法仍具有普適性。

        在實際駕駛中,不同場景(如起步、加速、減速、跟停)所表現出的風格可能不同,進一步細分場景得到多種標簽應作為下一步研究的課題。

        猜你喜歡
        高斯均值駕駛員
        小高斯的大發(fā)現
        基于高速公路的駕駛員換道意圖識別
        駕駛員安全帶識別方法綜述
        天才數學家——高斯
        均值不等式失效時的解決方法
        起步前環(huán)顧四周是車輛駕駛員的義務
        公民與法治(2016年4期)2016-05-17 04:09:26
        均值與方差在生活中的應用
        關于均值有界變差函數的重要不等式
        有限域上高斯正規(guī)基的一個注記
        對偶均值積分的Marcus-Lopes不等式
        亚洲一区二区三区ay| 久久久久久成人毛片免费看| 欧美精品中文| 日本一区二区三区的免费视频观看 | 好爽要高潮了在线观看| 亚洲国产日韩综一区二区在性色| 成人性生交大片免费看l| 综合五月激情二区视频| 欲色天天网综合久久| 国产成人亚洲精品91专区手机| 久九九久视频精品网站| 久久久精品国产亚洲av网麻豆| 成人一区二区免费中文字幕视频 | 男女av一区二区三区| 日本乱偷人妻中文字幕在线| 2022Av天堂在线无码| 无码AV无码免费一区二区| 日韩极品在线观看视频| 国产精品人人做人人爽| 免费精品无码av片在线观看| 久久久久久久久久91精品日韩午夜福利| 精品极品视频在线观看| 国产色在线 | 日韩| 久久精品国产亚洲av成人| 日韩亚洲中文图片小说| 青青视频在线播放免费的| 日韩av无码一区二区三区| 欧美日韩中文国产一区发布| 国产精品久久婷婷婷婷| 免费观看在线一区二区| 男女视频网站在线观看| 午夜爽爽爽男女污污污网站| 中文字幕av无码一区二区三区| 久久中文字幕日韩无码视频| 综合成人亚洲网友偷自拍| 国产视频自拍一区在线观看| 少妇无码太爽了不卡视频在线看 | av国产免费在线播放| 精品伊人久久大线蕉色首页| 麻豆国产人妻欲求不满| 92精品国产自产在线观看48页|