亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于逆向強(qiáng)化學(xué)習(xí)的縱向自動(dòng)駕駛決策方法*

        2022-08-04 07:19:26高振海閆相同
        汽車工程 2022年7期
        關(guān)鍵詞:本車方根逆向

        高振海,閆相同,高 菲

        (吉林大學(xué),汽車仿真與控制國家重點(diǎn)實(shí)驗(yàn)室,長春 130022)

        前言

        汽車縱向自動(dòng)駕駛決策策略研究是現(xiàn)階段自動(dòng)駕駛研究領(lǐng)域的核心方向之一。如何學(xué)習(xí)人的行為規(guī)律從而建立決策與控制規(guī)則,提高自動(dòng)駕駛車輛的乘坐體驗(yàn)是當(dāng)前研究的熱點(diǎn)。

        在前期的縱向自動(dòng)駕駛研究中,強(qiáng)化學(xué)習(xí)方法是主要研究方法之一。強(qiáng)化學(xué)習(xí)方法是一種用于描述和解決智能體(agent)在與環(huán)境的交互過程中通過學(xué)習(xí)策略達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的方法,與基于規(guī)則的系統(tǒng)相比,基于強(qiáng)化學(xué)習(xí)的系統(tǒng)不需要人為構(gòu)建規(guī)則庫,僅通過強(qiáng)化學(xué)習(xí)算法訓(xùn)練得到?jīng)Q策控制策略控制自動(dòng)駕駛汽車。Charles 等在協(xié)同自適應(yīng)定速巡航(cooperative adaptive cruise control,CACC)系統(tǒng)中使用強(qiáng)化學(xué)習(xí)方法,在仿真環(huán)境有效地實(shí)現(xiàn)CACC 的性能。高振海等在仿真場(chǎng)景中使用Q 學(xué)習(xí)算法建立縱向自動(dòng)駕駛決策策略,在多個(gè)工況中進(jìn)行了分析測(cè)試。Ye等將深度學(xué)習(xí)深度確定性策略梯度(deep deterministic policy gradient,DDPG)方法與車輛高保真模型結(jié)合起來,換道和跟車行為相結(jié)合,將訓(xùn)練模型擴(kuò)展到更復(fù)雜的任務(wù)中。朱美欣等基于DDPG 算法考慮安全性、效率和舒適性定義獎(jiǎng)勵(lì)函數(shù),建立了自適應(yīng)巡航控制算法,其效果優(yōu)于傳統(tǒng)的模型預(yù)測(cè)控制(model predictive control,MPC)算法。

        強(qiáng)化學(xué)習(xí)方法的獎(jiǎng)勵(lì)函數(shù)依然依靠專家的經(jīng)驗(yàn)設(shè)計(jì),擬人化程度不高,得到的策略與人類駕駛員仍然存在差距,使自動(dòng)駕駛車輛存在乘員舒適性不足、道路上其他駕駛員難以預(yù)測(cè)自動(dòng)駕駛車輛的行為等問題。因此,研究者們從不同的角度進(jìn)行了擬人化自適應(yīng)巡航控制算法設(shè)計(jì)。Zhu 等提出了一種模仿人類駕駛員跟車的DDPG 算法,通過比較駕駛員經(jīng)驗(yàn)曲線和仿真輸出的距離、速度定義獎(jiǎng)勵(lì)函數(shù),最終得到了和人類駕駛行為相似的控制效果。Chen 等基于神經(jīng)Q 學(xué)習(xí)算法開發(fā)了一種個(gè)性化自適應(yīng)巡航制的學(xué)習(xí)模型,在線學(xué)習(xí)并模擬人類駕駛員的駕駛策略,具有比傳統(tǒng)方法更好的駕駛舒適性。不過,以上研究的獎(jiǎng)勵(lì)函數(shù)依然需要人為設(shè)計(jì),設(shè)計(jì)較為主觀,需要大量的調(diào)試工作才能實(shí)現(xiàn)較好的控制效果。

        逆向強(qiáng)化學(xué)習(xí)(inverse reinforcement learning,IRL)是一種能夠從專家的演示數(shù)據(jù)中推斷出獎(jiǎng)勵(lì)函數(shù),并利用該獎(jiǎng)勵(lì)函數(shù)學(xué)習(xí)策略,使得在該獎(jiǎng)勵(lì)函數(shù)下學(xué)習(xí)得到的最優(yōu)策略與專家的策略接近的方法。它與強(qiáng)化學(xué)習(xí)一樣,也是在馬爾科夫決策過程的框架內(nèi)構(gòu)建的。獎(jiǎng)勵(lì)函數(shù)在強(qiáng)化學(xué)習(xí)任務(wù)中起著至關(guān)重要的作用。的設(shè)置直接確定智能體將采用的策略。逆向強(qiáng)化學(xué)習(xí)使用逆向思維,假設(shè)專家在完成某項(xiàng)任務(wù)時(shí),其決策往往是最優(yōu)的或接近最優(yōu)的,通過比較專家的交互樣本和強(qiáng)化學(xué)習(xí)交互樣本的差別,學(xué)習(xí)得到獎(jiǎng)勵(lì)函數(shù)。因此,逆向強(qiáng)化學(xué)習(xí)算法能更好地解決自動(dòng)駕駛?cè)蝿?wù)中獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)存在的問題,使自動(dòng)駕駛車輛的行為更接近駕駛員駕駛的車輛。Gao 等使用逆向強(qiáng)化學(xué)習(xí)方法,對(duì)駕駛員的跟車決策行為進(jìn)行了研究,得到了不同駕駛員各自的獎(jiǎng)勵(lì)函數(shù)。You 等使用逆向強(qiáng)化學(xué)習(xí)算法,通過專家駕駛員示例得到最佳的自動(dòng)駕駛汽車策略,解決交通環(huán)境中自動(dòng)駕駛汽車的規(guī)劃問題,以提高通行效率。唐明弘等設(shè)計(jì)考慮安全性舒適性的獎(jiǎng)勵(lì)函數(shù),通過逆向強(qiáng)化學(xué)習(xí)方法對(duì)獎(jiǎng)勵(lì)函數(shù)更新,得到擬人化的ACC決策策略。

        本文中提出了一種逆向強(qiáng)化學(xué)習(xí)汽車縱向自動(dòng)駕駛決策方法。使用駕駛員在駕駛模擬器上的軌跡數(shù)據(jù),基于最大邊際逆向強(qiáng)化學(xué)習(xí)算法并建立相應(yīng)的獎(jiǎng)勵(lì)函數(shù),得到仿駕駛員的縱向自動(dòng)駕駛決策策略,最后通過仿真試驗(yàn)對(duì)決策策略進(jìn)行測(cè)試,并與駕駛員數(shù)據(jù)和強(qiáng)化學(xué)習(xí)策略對(duì)比。

        1 最大邊際逆向強(qiáng)化學(xué)習(xí)駕駛員決策模型

        最大邊際逆向強(qiáng)化學(xué)習(xí)縱向自動(dòng)駕駛決策模型的框架如圖1所示。

        圖1 逆向強(qiáng)化學(xué)習(xí)縱向自動(dòng)駕駛決策算法

        首先使用駕駛模擬器采集駕駛員駕駛車輛跟隨目標(biāo)車輛行駛的軌跡數(shù)據(jù);

        然后對(duì)強(qiáng)化學(xué)習(xí)(Q 學(xué)習(xí))方法的獎(jiǎng)勵(lì)函數(shù)和值函數(shù)進(jìn)行初始化;

        之后訓(xùn)練得到該獎(jiǎng)勵(lì)函數(shù)下的控制策略和行駛軌跡,通過計(jì)算車輛模型軌跡的特征期望和駕駛員數(shù)據(jù)的特征期望之間的差距(梯度),更新獎(jiǎng)勵(lì)函數(shù),重新進(jìn)行強(qiáng)化學(xué)習(xí)(Q 學(xué)習(xí))訓(xùn)練,重復(fù)訓(xùn)練,直到梯度足夠小,獲得仿駕駛員的決策策略。

        本文使用最大邊際逆向強(qiáng)化學(xué)習(xí)方法,直接從駕駛員駕駛數(shù)據(jù)中學(xué)習(xí)尋找一個(gè)能夠使強(qiáng)化學(xué)習(xí)得到的最優(yōu)策略π控制的動(dòng)作與駕駛員軌跡中的動(dòng)作一致的獎(jiǎng)勵(lì)函數(shù)。假設(shè)獎(jiǎng)勵(lì)函數(shù)是特征值(,)與權(quán)重矩陣的線性組合:

        特征值(,)間接地代表了環(huán)境的感知狀態(tài)。因此,在策略下的動(dòng)作值函數(shù)Q(,)可以表示為

        其中:

        式中:為折扣因子,本文中值為0.99。μ被稱為策略的特征期望,它決定了根據(jù)該策略執(zhí)行的動(dòng)作的預(yù)期折扣獎(jiǎng)勵(lì)總和。

        對(duì)于不同的兩個(gè)策略和,如果它們擁有相同的特性期望,它們會(huì)擁有相同的動(dòng)作值函數(shù)Q1和Q。

        因此,為使逆向強(qiáng)化學(xué)習(xí)得到的決策策略與駕駛員的決策接近,可以通過最小化駕駛員數(shù)據(jù)的特征期望μ和學(xué)習(xí)模型策略的特征期望μ之間的差距方式來實(shí)現(xiàn)。

        1.1 狀態(tài)集和動(dòng)作集設(shè)計(jì)

        在進(jìn)行自動(dòng)駕駛的縱向決策任務(wù)時(shí),需要考慮本車的行駛狀態(tài)和本車與目標(biāo)車的相互運(yùn)動(dòng)關(guān)系。同時(shí),為了便于設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)、易于收斂,選擇的狀態(tài)集和動(dòng)作集所包含的參數(shù)不能過多。本文選取的狀態(tài)集和動(dòng)作集包含的元素為={,,v},={a},如表1所示。

        表1 狀態(tài)集和動(dòng)作集的設(shè)計(jì)

        狀態(tài)集大小為(即狀態(tài)的總數(shù)),動(dòng)作集大小為(即動(dòng)作的總數(shù))。

        1.2 特征值選取和特征期望計(jì)算

        式中s為狀態(tài)集中第個(gè)狀態(tài)。

        然后,我們可以在時(shí)刻通過狀態(tài)-動(dòng)作特征表示(s,a)來擴(kuò)展該狀態(tài)特征。它是大小為×的行向量:

        其中f(∈[1,]))為維行向量:

        式中a為動(dòng)作集中第個(gè)動(dòng)作。

        駕駛員數(shù)據(jù)特征期望即為平均每條采集到的駕駛員軌跡數(shù)據(jù)的特征值之和,如式(8)所示。

        同理,學(xué)習(xí)模型策略的特征期望即為模型輸出的軌跡特征值之和,如式(9)所示。

        式中M為模型輸出的軌跡狀態(tài)動(dòng)作對(duì)的數(shù)量。

        1.3 獎(jiǎng)勵(lì)函數(shù)更新

        在得到駕駛員數(shù)據(jù)特征期望和學(xué)習(xí)模型特征期望之后,就可以得到它們之間的差距(即梯度),如式(10)所示。

        獎(jiǎng)勵(lì)函數(shù)如式(1)所示,獎(jiǎng)勵(lì)函數(shù)的更新實(shí)際上是更新權(quán)重矩陣(權(quán)重矩陣的初始值為0-1之間的隨機(jī)數(shù)),本文通過梯度下降法更新權(quán)重矩陣:

        式中為學(xué)習(xí)效率,本文中=0.05。

        當(dāng)梯度小于一定值時(shí)結(jié)束訓(xùn)練,得到權(quán)重矩陣和相應(yīng)的獎(jiǎng)勵(lì)函數(shù),進(jìn)而可以使用該獎(jiǎng)勵(lì)函數(shù)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練獲得仿駕駛員決策策略。

        2 仿真測(cè)試和結(jié)果分析

        2.1 典型工況駕駛員駕駛數(shù)據(jù)采集

        城市快速路是自動(dòng)駕駛汽車主要的行駛環(huán)境之一,本文使用駕駛模擬器采集熟練駕駛員在3 種常見的城市快速路工況下(如表2 所示)的駕駛數(shù)據(jù)(本車速度、本車加速度、相對(duì)距離、相對(duì)速度等)共120組。其中,采集駕駛員駕車以80 km/h(22.22 m/s)的初速度從相對(duì)距離40 m 處接近并跟隨勻速行駛的目標(biāo)車數(shù)據(jù),目標(biāo)車車速40 km/h(11.11 m/s)和60 km/h(16.67 m/s)各采集40 組;采集駕駛員跟隨目標(biāo)車40 km/h 勻速行駛,隨后加速到60 km/h 勻速行駛,再減速至60 km/h 勻速行駛數(shù)據(jù)40 組。單組數(shù)據(jù)時(shí)長30-50 s。本實(shí)驗(yàn)中駕駛員為男性,27 歲,駕齡7年。

        表2 工況設(shè)計(jì)

        將采集到的真實(shí)駕駛員實(shí)驗(yàn)數(shù)據(jù)按照不同工況使用Matlab曲線擬合工具箱中的傅里葉曲線擬合法擬合相對(duì)距離時(shí)間曲線和本車速度時(shí)間曲線。如圖2和圖3所示,圖中黑色粗線為擬合的具有統(tǒng)計(jì)規(guī)律的駕駛員曲線,其他曲線為采集的真實(shí)駕駛員實(shí)驗(yàn)數(shù)據(jù)曲線。

        圖2 接近勻速行駛目標(biāo)車

        圖3 跟隨變速目標(biāo)車

        2.2 仿真測(cè)試工況與數(shù)據(jù)分析

        為了與逆向強(qiáng)化學(xué)習(xí)算法的效果形成對(duì)比,本文使用前期研究中設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)構(gòu)建了強(qiáng)化學(xué)習(xí)(Q 學(xué)習(xí))算法。使用CarSim&Simulink 聯(lián)合仿真,搭建車輛動(dòng)力學(xué)模型和仿真訓(xùn)練環(huán)境。分別設(shè)計(jì)3種仿真訓(xùn)練工況(即本車以80 km/h(22.22 m/s)的初速度接近40 km/h(11.11 m/s)勻速行駛的目標(biāo)車;本車以80 km/h(22.22 m/s)的初速度接近60 km/h(16.67 m/s)勻速行駛的目標(biāo)車;本車和目標(biāo)車初速度均為40 km/h,目標(biāo)車先加速至60 km/h 保持勻速行駛后減速至40 km/h保持勻速行駛)進(jìn)行強(qiáng)化學(xué)習(xí)和逆向強(qiáng)化學(xué)習(xí)訓(xùn)練,并在訓(xùn)練完成后在相應(yīng)的環(huán)境中執(zhí)行得到的決策策略,測(cè)試實(shí)驗(yàn)結(jié)果。

        2.2.1 目標(biāo)車60 km/h勻速行駛

        設(shè)置本車初始速度80 km/h(22.22 m/s),目標(biāo)車以60 km/h(16.67 m/s)勻速行駛,目標(biāo)車和本車初始相對(duì)距離40 m,仿真時(shí)長30 s,具有統(tǒng)計(jì)規(guī)律的駕駛員曲線、強(qiáng)化學(xué)習(xí)和逆向強(qiáng)化學(xué)習(xí)仿真結(jié)果如圖4所示。

        圖4 本車接近60 km/h勻速目標(biāo)車仿真結(jié)果

        強(qiáng)化學(xué)習(xí)決策策略與駕駛員曲線的相對(duì)距離最大差值為2.79 m,均方根誤差為6.96%,本車速度最大差值1.55 m/s,均方根誤差2.81%;逆向強(qiáng)化學(xué)習(xí)決策策略與駕駛員曲線的相對(duì)距離最大差值為0.92 m,均方根誤差為2.28%,本車速度最大差值為0.76 m/s,均方根誤差為0.99%。

        2.2.2 目標(biāo)車40 km/h勻速行駛

        設(shè)置本車初始速度80 km/h(22.22 m/s),目標(biāo)車以40 km/h(11.11 m/s)勻速行駛,目標(biāo)車和本車初始相對(duì)距離40 m,仿真時(shí)長30 s,具有統(tǒng)計(jì)規(guī)律的駕駛員曲線、強(qiáng)化學(xué)習(xí)和逆向強(qiáng)化學(xué)習(xí)仿真結(jié)果如圖5所示。

        圖5 本車接近40 km/h勻速目標(biāo)車仿真結(jié)果

        強(qiáng)化學(xué)習(xí)決策策略與駕駛員曲線的相對(duì)距離最大差值為2.74 m,均方根誤差為9.75%,本車速度最大差值為1.87 m/s,均方根誤差6.71%;逆向強(qiáng)化學(xué)習(xí)決策策略與駕駛員曲線的相對(duì)距離最大差值為1.66 m,均方根誤差為6.00%,本車速度最大差值為1.26 m/s,均方根誤差為2.80%。

        2.2.3 目標(biāo)車變速行駛

        目標(biāo)車初始速度為40 km/h(11.11 m/s),本車初始速度為40 km/h(11.11 m/s),初始相對(duì)距離為6 m,仿真時(shí)長40 s。目標(biāo)車開始時(shí)保持40 km/h 勻速行駛,10 s 后目標(biāo)車開始加速至60 km/h 并保持勻速行駛,25 s 后目標(biāo)車減速至40 km/h 之后保持勻速行駛。具有統(tǒng)計(jì)規(guī)律的駕駛員曲線、強(qiáng)化學(xué)習(xí)和逆向強(qiáng)化學(xué)習(xí)仿真結(jié)果如圖6所示。

        圖6 本車接近變速目標(biāo)車仿真結(jié)果

        強(qiáng)化學(xué)習(xí)決策策略與駕駛員曲線的相對(duì)距離最大差值為1.06 m,均方根誤差為5.20%,本車速度最大差值為0.83 m/s,均方根誤差2.24%;逆向強(qiáng)化學(xué)習(xí)決策策略與駕駛員曲線的相對(duì)距離最大差值為0.95 m,均方根誤差為4.96%,本車速度最大差值為1.01 m/s,均方根誤差為2.01%。

        2.2.4 結(jié)果分析

        強(qiáng)化學(xué)習(xí)決策策略、逆向強(qiáng)化學(xué)習(xí)決策策略的相對(duì)距離和本車速度與具有統(tǒng)計(jì)規(guī)律的駕駛員相對(duì)距離和本車速度曲線的最大差距如圖7 所示,均方根誤差如圖8 所示??梢钥闯?,與強(qiáng)化學(xué)習(xí)決策策略相比,逆向強(qiáng)化學(xué)習(xí)決策策略與駕駛員的接近程度更高,在完成仿駕駛員決策任務(wù)中表現(xiàn)更好。

        圖7 學(xué)習(xí)算法與駕駛員曲線的最大差距

        圖8 學(xué)習(xí)算法與駕駛員曲線的均方根誤差

        3 結(jié)論

        本文中提出了一種基于逆向強(qiáng)化學(xué)習(xí)的仿駕駛員縱向自動(dòng)駕駛決策算法,并在仿真環(huán)境下進(jìn)行了測(cè)試驗(yàn)證。

        (1)建立了反應(yīng)車輛狀態(tài)-動(dòng)作特征的特征矩陣并明確車輛狀態(tài)-動(dòng)作信息和特征值之間的映射關(guān)系,利用駕駛員軌跡數(shù)據(jù)的特征期望和執(zhí)行模型輸出的策略得到的軌跡的特征期望,通過梯度下降法學(xué)習(xí)得到獎(jiǎng)勵(lì)函數(shù)。

        (2)從實(shí)驗(yàn)結(jié)果來看,與強(qiáng)化學(xué)習(xí)算法相比,逆向強(qiáng)化學(xué)習(xí)算法訓(xùn)練后得到的決策策略在各個(gè)工況下與人類駕駛員數(shù)據(jù)的均方根誤差減小了0.23%~4.68%,差距更小,一致性更高。

        (3)本文中將逆向強(qiáng)化學(xué)習(xí)算法應(yīng)用于縱向自動(dòng)駕駛決策任務(wù)中,直接輸出期望加速度進(jìn)而實(shí)現(xiàn)車輛縱向控制,實(shí)驗(yàn)結(jié)果表明逆向強(qiáng)化學(xué)習(xí)算法能夠?qū)崿F(xiàn)仿駕駛員縱向自動(dòng)駕駛決策。在后續(xù)的研究中,針對(duì)現(xiàn)有的逆向強(qiáng)化學(xué)習(xí)算法存在的當(dāng)狀態(tài)空間包含的狀態(tài)過多時(shí)算法不易收斂、速度和距離出現(xiàn)波動(dòng)等問題,以神經(jīng)網(wǎng)絡(luò)代替連續(xù)狀態(tài)空間的值函數(shù),探索仿駕駛員深度逆向強(qiáng)化學(xué)習(xí)自動(dòng)駕駛決策算法。

        猜你喜歡
        本車方根逆向
        方根拓展探究
        基于車輛對(duì)道路不滿意度的微觀換道決策
        復(fù)雜工況下二階碰撞時(shí)間自動(dòng)緊急制動(dòng)模型
        逆向而行
        融合改善型可行性檢驗(yàn)?zāi)P偷膿Q道跟蹤方法
        逆向解答
        均方根嵌入式容積粒子PHD 多目標(biāo)跟蹤方法
        揭開心算方根之謎
        數(shù)學(xué)魔術(shù)
        出租車正能量
        放荡的美妇在线播放| 午夜一区二区三区在线视频| 亚洲福利网站在线一区不卡| 日韩精品在线免费视频| 亚洲国产日韩精品一区二区三区 | 亚洲国际无码中文字幕| 无码国产一区二区色欲| 一级老熟女免费黄色片| 国产人妻人伦精品1国产| 亚洲va欧美va国产综合| 亚洲精品午夜精品国产| 日本不卡一区二区三区在线视频| 玩弄丰满奶水的女邻居| 美女视频一区| 亚洲av有码精品天堂| 一区二区三区国产精品乱码| 无码福利写真片视频在线播放| 无码人妻少妇久久中文字幕蜜桃 | 国产三级精品av在线| 免费人成网站在线观看欧美| 精品人妻少妇一区二区不卡| 中文字幕亚洲精品第一页| 中文字幕一区二区中文| 久久国产劲暴∨内射| 精品国产亚洲一区二区三区演员表 | 国产综合开心激情五月| 亚欧中文字幕久久精品无码| 999久久久精品国产消防器材| 在线视频一区二区亚洲| 亚洲国产中文字幕在线视频综合| 亚洲精品午夜无码专区| 99久久人妻无码精品系列蜜桃 | 东京热东京道日韩av| 精品香蕉99久久久久网站| 久久久久亚洲av无码专区导航| 亚洲AV无码国产精品色午夜软件| 激情五月开心五月啪啪| 国内精品伊人久久久久网站| 一本久道久久综合婷婷五月| 日本成人三级视频网站| 插上翅膀插上科学的翅膀飞|