亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合類人駕駛行為的無人駕駛深度強化學(xué)習(xí)方法

        2020-09-28 10:15:38李慧云潘仲鳴
        集成技術(shù) 2020年5期
        關(guān)鍵詞:類人控制算法無人駕駛

        呂 迪 徐 坤 李慧云 潘仲鳴

        1(中國科學(xué)院深圳先進技術(shù)研究院 深圳 518055)

        2(深圳市電動汽車動力平臺與安全技術(shù)重點實驗室 深圳 518055)

        3(哈爾濱理工大學(xué) 哈爾濱 150000)

        1 引 言

        在人工智能所面臨的諸多任務(wù)中,無人駕駛是一個極具挑戰(zhàn)的場景。與圖像處理、自然語言理解等應(yīng)用場景相比,無人駕駛必須能應(yīng)對車-路(環(huán)境)交互頻繁、場景復(fù)雜多變、實時性要求高、容錯率低等挑戰(zhàn)[1]。

        近年來,學(xué)術(shù)界提出了基于深度強化學(xué)習(xí)(Deep Reinforcement Learning)方法的端到端無人駕駛策略,將具有感知抽象特征能力的深度學(xué)習(xí)與能實現(xiàn)自適應(yīng)決策的強化學(xué)習(xí)相結(jié)合。通過模擬人類認知映射行為,實現(xiàn)從感知輸入到控制輸出的端到端功能。深度 Q 網(wǎng)絡(luò)(Deep Q Network)[2]、深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)[3]、遞歸確定性策略梯度(Recurrent Deterministic Policy Gradients)[4]等深度強化學(xué)習(xí)方法逐漸被嘗試應(yīng)用到無人車輛的決策控制任務(wù)中。

        端到端的無人駕駛控制思想最早起源于 1989 年,卡耐基梅隆大學(xué)首先使用名為 ALVINN 的反饋神經(jīng)網(wǎng)絡(luò)進行了端到端的車輛運動規(guī)劃[5]。ALVINN 使用了一個 3 層反饋神經(jīng)網(wǎng)絡(luò),以攝像頭采集的信息作為輸入,直接決策出車輛的轉(zhuǎn)向角。2005 年,Lekhachev 等[6]提出了一個端到端的神經(jīng)網(wǎng)絡(luò),進行車輛避障所需的軌跡規(guī)劃,使用一個 6 層的卷積神經(jīng)網(wǎng)絡(luò),以左右攝像頭的信息作為輸入,直接輸出車輛的轉(zhuǎn)向命令。2017 年,中國科學(xué)院深圳先進技術(shù)研究院夏偉與李慧云[7]提出了一種基于深度強化學(xué)習(xí)的自動駕駛策略學(xué)習(xí)方法。該方法采用在線交互式學(xué)習(xí)方法對深度網(wǎng)絡(luò)模型進行訓(xùn)練,通過對狀態(tài)空間進行聚類再采樣,提高了算法的訓(xùn)練效率。2018 年,伯克利學(xué)院的 Chowdhuri 等[8]學(xué)者提出了 MultiNet 的多模態(tài)網(wǎng)絡(luò)架構(gòu),以解決直道、彎道、超車、停車等不同模式下的多參數(shù)設(shè)置問題,使端到端的規(guī)劃方法更具魯棒性。上述研究揭示了端到端控制在實現(xiàn)無人駕駛復(fù)雜決策控制方面的潛力。

        理想的無人駕駛策略的輸出應(yīng)該由一系列符合類人(Human-Like)駕駛邏輯的連續(xù)有序行為組成。這些連續(xù)有序駕駛行為除了具備確保車輛行駛安全的“正確性”外,還需具有一定的社會智能屬性[9]。然而,現(xiàn)有的無人駕駛策略過于強調(diào)感知-控制映射過程[10]的“正確性”,往往忽視了人類駕駛汽車時兼具一定社會智能的駕駛邏輯[9],這可能會導(dǎo)致嚴重的安全事故。例如,谷歌無人駕駛汽車曾在 2016 年發(fā)生與市政公交車的碰撞事故,起因是無人駕駛策略錯誤判斷實際沒有讓行意圖的公交車會讓行,這一判斷明顯不符合人類駕駛汽車時的駕駛邏輯,沒有實現(xiàn)人類駕駛員作決策時的社會智能[11]。即當(dāng)前的無人駕駛策略,并未考慮人類社會在長期駕駛經(jīng)驗中所積累的駕駛邏輯與決策智能。

        針對無人駕駛策略過于注重感知-控制映射過程的“正確性”而忽略“社會智能”[12]屬性的問題,有學(xué)者提出采用將端到端駕駛決策任務(wù)中的“決策-駕駛”任務(wù)分開處理的方式,來降低輸出駕駛行為的不合理性。通過對無人駕駛策略在某些重要時刻的邏輯判斷進行改進,使無人駕駛汽車在一些復(fù)雜的情況下具備類人決策和判斷能力[9-11]。Codevilla 等[10]引入條件反射概念,將“決策-駕駛”任務(wù)分開處理,以人類駕駛經(jīng)驗對無人駕駛的決策輸出進行先驗優(yōu)化。但該方法改進的仍然是無人車對關(guān)鍵駕駛行為的決策規(guī)劃問題,輸出依舊是對駕駛過程中某些重大決策事件做出的離散概率。Li 等[11]注意到現(xiàn)行無人駕駛決策算法中決策思維與人類思維不符合(AI 決策思維非類人化)的問題,并提出了一個類人駕駛系統(tǒng),通過先驗建立的車輛決策規(guī)則使無人駕駛汽車的決策思維更貼合人類思維。雖然該方法建立了類人化的先驗數(shù)據(jù)集與仿真環(huán)境,并在訓(xùn)練過程中對算法的策略邏輯進行了前驗約束。但是,這一研究改進的方面主要是在變道、超車等行為發(fā)生時,智能車所做出的決策判斷。因此其輸出的是離散的選取動作概率值,并未能在整個無人駕駛?cè)蝿?wù)中形成連續(xù)的合理動作序列。相較于基于強化學(xué)習(xí)的端到端控制,基于規(guī)則的無人駕駛策略擁有更符合類人邏輯的駕駛規(guī)則。Montemerlo 等[13]對車輛行為進行細分,建立了一個擁有 13 個狀態(tài)的有限狀態(tài)機組成的決策系統(tǒng)。但是基于規(guī)則的無人駕駛決策方式更側(cè)重于實現(xiàn)功能,而不是實現(xiàn)高駕駛性能[14]。而無人駕駛汽車數(shù)據(jù)來源的不確定性,使依賴精準環(huán)境判斷且基于規(guī)則的無人駕駛策略無法擁有足以應(yīng)對真實路面環(huán)境的決策魯棒性[15]。

        無人駕駛輸出的連續(xù)策略應(yīng)符合人類駕駛汽車時的駕駛邏輯,即無人駕駛策略應(yīng)具備“類人”駕駛行為的邏輯?,F(xiàn)實道路中的車輛駕駛行為是一個連續(xù)的過程,因此無人駕駛策略的輸出應(yīng)該由一系列符合類人邏輯的連續(xù)有序行為組成。此外,策略網(wǎng)絡(luò)輸出的應(yīng)該是貫穿整個駕駛?cè)蝿?wù)的連續(xù)規(guī)則,而并非只是在需要做出某些重大判斷時的離散概率[16]。因此,在保證駕駛?cè)蝿?wù)順利完成的同時,連續(xù)的、類人化的控制規(guī)則對正確的駕駛決策至關(guān)重要。

        為提高車輛在真實道路條件下的無人駕駛性能,本文主要針對現(xiàn)有算法缺乏類人社會智能的不足,結(jié)合深度確定性策略梯度算法,提出一種具備一定類人駕駛能力的無人駕駛策略。本研究的主要貢獻是:(1)在端到端無人駕駛控制算法中引入了基于類人邏輯的規(guī)則約束,建立了能夠輸出符合類人邏輯且具有連續(xù)有序行為的無人駕駛端到端控制網(wǎng)絡(luò)。同時通過基于環(huán)境與規(guī)則對網(wǎng)絡(luò)策略的多維度后驗反饋,成功降低了網(wǎng)絡(luò)的危險行為輸出率。(2)通過將駕駛過程中出現(xiàn)的稀疏的、災(zāi)難性的離散事件視為一個有狀態(tài)的連續(xù)過程,同時建立了在時序上連續(xù)的獎懲機制,從而避免了其產(chǎn)生的策略過擬合問題,并加速了訓(xùn)練策略向目標(biāo)函數(shù)的收斂。

        2 端到端控制的“感知-控制”映射問題

        2.1 “感知-控制”映射模糊性

        強化學(xué)習(xí)本質(zhì)上是一個序貫決策問題[17],即智能體(Agent)如何根據(jù)當(dāng)前可觀測到的狀態(tài)(State)選擇一個動作(Action),使獲得的累積回報(Reward)最大,并將狀態(tài)映射為動作的函數(shù)即為策略(π)。目前主流的端到端控制算法遵循如圖 1 所示的感知-控制的邏輯映射過程,其中控制器接收來自環(huán)境的觀測值ot和命令ct,并接收環(huán)境對當(dāng)前動作的反饋信息進入下一步??刂撇呗缘妮敵?,取決于智能體在此刻對于環(huán)境的觀測。這一狀態(tài)可描述為典型的馬爾可夫決策過程(Markov Decision Process)[18]。

        圖1 “感知-控制”映射過程概述Fig. 1 Overview of the “perception-control” mapping process

        在真實道路場景下,感知-控制的邏輯映射過程往往會具有模糊性,其主要原因是完成駕駛?cè)蝿?wù)所需的正確決策往往無法僅憑感知輸入單獨推斷獲取。在這種情況下,從信息輸入到控制命令輸出的映射不再是一個明確的映射函數(shù)。因此,算法策略梯度的擬合函數(shù)逼近必然會遇到困難。由于訓(xùn)練者無法直接控制網(wǎng)絡(luò)決策行為判斷的方式,即使現(xiàn)有算法的訓(xùn)練網(wǎng)絡(luò)可以解決部分映射中的模糊性問題,但仍無法推斷出最優(yōu)解。這種感知-控制映射過程中的模糊性,會造成控制網(wǎng)絡(luò)輸出不符合類人邏輯的危險動作。此時,應(yīng)用馬爾可夫決策過程的前提條件不再成立。

        感知-控制映射過程中的模糊性也無法通過拓展端到端控制算法至部分可觀察馬爾可夫決策過程的方式[4]完全解決。規(guī)則空間中的類人邏輯是人類社會經(jīng)過長期駕駛實踐獲取的經(jīng)驗法則,其不存在于無人駕駛系統(tǒng)此刻或任何之前時刻的觀測中,也無法通過車輛對自身駕駛行為的觀測統(tǒng)計得出。因此,通過記錄時序上的歷史狀態(tài)也無法真正解決感知-控制映射過程中的這一模糊性。當(dāng)前無人駕駛策略的輸出僅依賴感知信息,由于信息輸入的不完整,導(dǎo)致感知-控制的映射不再是一個明確的映射函數(shù)。而“感知-控制”映射具有模糊性,會使無人駕駛策略缺乏人類駕駛時所遵循的駕駛邏輯與社會智能。因此,如何實現(xiàn)無人駕駛的類人邏輯是無人駕駛端到端控制亟待解決的問題。

        2.2 現(xiàn)有策略的不合理行為

        在現(xiàn)有的無人駕駛控制算法中,輸出策略不符合類人邏輯的情況普遍存在(圖 2)。這種行為影響行車的安全性與舒適性,使無人車輛的駕駛行為像是“醉駕”。

        圖2 當(dāng)前端到端控制算法中存在的策略輸出不合理問題Fig. 2 The problem of unreasonable policy output in the current end-to-end control algorithm

        在無障礙直線場景下的巡航任務(wù)是體現(xiàn)無人駕駛策略是否擁有類人駕駛邏輯的典型驗證場景。 借助 Carla 無人駕駛仿真器,本文構(gòu)造了一條如圖 3 所示的直道,使用 DDPG 無人駕駛算法[10]控制無人車執(zhí)行巡航任務(wù)。圖 4 為無人車執(zhí)行巡航任務(wù)時的運動軌跡與控制過程。

        圖3 用以執(zhí)行巡航任務(wù)的直線場景Fig. 3 Straight line scene used to perform cruise tasks

        從圖 4 可看出,傳統(tǒng)的 DDPG 算法無法輸出連續(xù)合理的、具備類人邏輯的駕駛策略。但由于無人車執(zhí)行任務(wù)過程中并沒有出現(xiàn)碰撞、越出車道、壓線等異常表征行為。即使無人車在一條平直的道路上表現(xiàn)出了左搖右擺的“醉駕”行為,卻仍然獲得了較高的獎勵回報(圖 5)。因此,如何實現(xiàn)無人駕駛?cè)蝿?wù)中“貫穿整個駕駛過程且符合類人邏輯”的控制規(guī)則,使無人駕駛控制算法輸出“符合類人邏輯的連續(xù)有序行為”,也是無人駕駛端到端控制領(lǐng)域亟待解決的問題。

        2.3 對稀疏的災(zāi)難性事件的獎勵塑造

        基于深度強化學(xué)習(xí)的無人駕駛端到端控制是帶有獎勵函數(shù)的智能體與環(huán)境的交互過程。獎勵塑造(Reward Shaping)[21]方法為無人車駕駛策略的學(xué)習(xí)提供了確定性的解決方案。無人駕駛的駕駛場景中,危險性最高的意外情況是碰撞,同時碰撞事故也是失穩(wěn)、甩尾、側(cè)翻等所有意外工況的最終表征,且?guī)缀趺看闻鲎彩鹿识紩聿豢晒烙嫷膰乐睾蠊?/p>

        圖4 使用現(xiàn)有 DDPG 算法在圖3 所示場景中進行無人車巡航任務(wù)的軌跡Fig. 4 Results of the cruise task using existing DDPG algorithm

        圖5 巡航實驗獲得的獎勵回報Fig. 5 Rewards from cruise experiments

        本研究對現(xiàn)有的算法進行調(diào)研發(fā)現(xiàn),在當(dāng)前的訓(xùn)練環(huán)境中,現(xiàn)有研究通常將碰撞事故設(shè)置為稀疏的瞬發(fā)行為,對于碰撞懲罰的構(gòu)建都是在碰撞時刻所給出的一個較大的、稀疏的確定懲罰。但是這種稀疏的災(zāi)難性事件對策略網(wǎng)絡(luò)更新的回報方式只局限于優(yōu)化期望的控制目標(biāo),沒有對于風(fēng)險的具體建?;騼?yōu)化[22]。與駕駛行為一樣,在現(xiàn)實世界中,碰撞事故的產(chǎn)生同樣是一個帶有狀態(tài)的過程。車輛與碰撞對象之間的相互接近也是一個漸進而非瞬時的過程,危險存在于整個不符合邏輯的駕駛過程之中,而不是僅僅存在于產(chǎn)生碰撞的時刻。

        現(xiàn)有端到端控制算法的研究尚缺乏能夠有效處理災(zāi)難事件的概率(通常包括大的、負的回報函數(shù))方法。這些分布在 Episode 中的稀疏、離散的獎懲設(shè)置無法使用簡單的二次函數(shù)逼近器進行擬合。除了容易引發(fā)訓(xùn)練策略的過擬合外,還會引起策略向目標(biāo)函數(shù)逼近方向的偏離,進而影響算法的訓(xùn)練效率。因此,針對這些稀疏的、災(zāi)難性的事件,探尋能夠更貼合對目標(biāo)函數(shù)優(yōu)化期望,并能夠結(jié)合駕駛?cè)蝿?wù)更好地被智能體擬合并理解的獎勵塑造方式,對無人駕駛端到端控制算法的訓(xùn)練效率與策略效果非常重要。

        3 類人確定性策略梯度無人駕駛策略

        3.1 類人深度確定性策略梯度的無人駕駛決策方法

        在分析無人駕駛中的模糊性、不合理行為、以及稀疏災(zāi)難性事件獎勵塑造的基礎(chǔ)上,本文進一步提出了融合類人駕駛行為的無人駕駛深度強化學(xué)習(xí)方法(HL-DDPG)。算法整體流程如表 1 所示,該方法的核心包括類人邏輯駕駛約束和獎勵塑造。

        表1 HL-DDPG 算法流程Table 1 HL-DDPG algorithm

        3.2 符合類人邏輯的駕駛約束

        針對目前無人駕駛端到端控制算法的連續(xù)策略缺乏時序上的邏輯關(guān)系問題,建立了符合類人邏輯的駕駛約束。同時,將無人駕駛策略所依賴的“感知-控制”映射過程拓展為如圖 6 所示的“感知+駕駛邏輯-控制”映射??刂破鹘邮諄碜原h(huán)境的觀測值ot和命令ct,同時接收自身在之前時序上已產(chǎn)生的行為狀態(tài)at。在考慮駕駛邏輯后,輸出符合類人邏輯的有序行為,并接收環(huán)境對當(dāng)前動作的反饋信息進入下一步。

        圖6 “感知+駕駛邏輯-控制”映射過程概述Fig. 6 Overview of “perception + driving regulationcontrol” mapping process

        圖7 兩種智能體與環(huán)境的交互模式Fig. 7 Two modes of the interaction between agent and environment

        3.3 對稀疏的災(zāi)難性事件的獎勵塑造

        現(xiàn)有算法對稀疏的災(zāi)難性事件的獎勵塑造難以符合對目標(biāo)函數(shù)的優(yōu)化期望。本文將無人車在駕駛?cè)蝿?wù)中產(chǎn)生的一些稀疏災(zāi)難性事件構(gòu)建為一系列具有狀態(tài)函數(shù)的連續(xù)過程,以相對平滑且連續(xù)的獎勵塑造替代原有環(huán)境設(shè)置中大的稀疏離散懲罰。對于未表征出災(zāi)難性事件的潛在危險駕駛行為,添加了無人車自身的行為規(guī)范評價,以對未產(chǎn)生環(huán)境反饋的潛在危險駕駛行為進行懲罰。改進算法與原始算法對比如圖 8 所示。其中,圖 8(a)為原始評價方式,以對環(huán)境反饋的結(jié)果為基準,對智能體的行為構(gòu)造一些大的、稀疏的獎懲條件;圖 8(b)為改進后的獎懲評價方式,將無人車的駕駛行為視為一個連續(xù)的、有狀態(tài)的過程。改進方法通過使用駕駛邏輯去懲罰有安全隱患的危險行為,將災(zāi)難事件的概率構(gòu)造成連續(xù)的獎懲函數(shù),在碰撞風(fēng)險產(chǎn)生前就對策略輸出進行連續(xù)反饋。

        4 實驗結(jié)果

        4.1 仿真實驗設(shè)置

        圖8 兩種算法對駕駛行為的評價方法Fig. 8 Two evaluation methods of driving behavior

        本研究使用分支結(jié)構(gòu)對改進算法進行訓(xùn)練,分別對兩種基于 DDPG 端到端控制方法進行了對比,具體如圖 9 所示。圖 9(a)為原始 DDPG 算法;圖 9(b)為 HL-DDPG 算法,HL-DDPG 算法在原始 DDPG 算法的基礎(chǔ)上,使用駕駛邏輯對策略輸出量進行了約束。在分支結(jié)構(gòu)中,感知圖像、自身狀態(tài)、訓(xùn)練任務(wù)三個輸入由 3 個模塊獨立處理,分別為感知模塊I(i)、狀態(tài)模塊M(m)和任務(wù)模塊T(t)。感知模塊由卷積網(wǎng)絡(luò)實現(xiàn),狀態(tài)模塊和任務(wù)模塊為全連接網(wǎng)絡(luò)。所有模塊的輸出聯(lián)合表示為:

        其中,m為汽車的當(dāng)前狀態(tài)量;i為輸入的圖象數(shù)據(jù);t為當(dāng)前的駕駛?cè)蝿?wù)。所有網(wǎng)絡(luò)都由具有相同架構(gòu)的模塊組成[23],不同之處在于模塊和分支的配置。如圖 9 所示,感知模塊由 8 個卷積和 2 個全連接層組成。其中,第一層卷積核大小為 5,第二層為 3,第 1、3、5 個卷積層的步長為 2。通道的數(shù)量從首層 32 個遞增至末層 256 個,在卷積層之后進行歸一化處理。各全連接層包含 512 個單元。除感知模塊外,狀態(tài)模塊和任務(wù)模塊都實現(xiàn)為標(biāo)準的多層感知器。本研究使用對所有的隱藏層進行 ReLU 非線性處理,其中在全連接層后設(shè)置下采樣(Dropout)為 50%,在卷積層后設(shè)置下采樣為 20%。

        無人車輛輸出的動作是一組二維矢量:[縱向控制量,橫向控制量],給定一個預(yù)測動作a和一個真實動作agt,每個樣本的損失函數(shù)定義為:

        4.2 改進前后算法控制輸出對比

        為驗證本研究使用類人邏輯的規(guī)則對現(xiàn)有策略不合理行為的改進效果,對改進后算法的效果進行了實驗驗證,并與原始算法的實驗效果進行了對比。圖 10 為改進前后的算法執(zhí)行巡航任務(wù)時的運動軌跡與控制過程。平順的駕駛過程有利于行駛安全性與舒適性,并避免額外的能量損失,提高任務(wù)執(zhí)行效率[24]。從圖 10 數(shù)據(jù)曲線可直觀看出,具備類人邏輯的控制算法的控制曲線明顯比原始控制算法[10]更為平順。這表明所提出的算法在巡航任務(wù)中展現(xiàn)出了更合理的控制過程,并對任務(wù)表現(xiàn)出了更高的執(zhí)行效率。

        圖9 本文進行對比的兩種端到端控制方法Fig. 9 Two end-to-end control methods for comparison

        為更好地對實驗結(jié)果進行量化展示,本研究統(tǒng)計了兩種算法控制過程中橫向控制量的方差與標(biāo)準差,并對比了兩種算法完成任務(wù)所需的控制步數(shù),結(jié)果如表 2 所示。

        從表 2 可知,在對相同實驗任務(wù)的執(zhí)行過程中,改進后的算法比原始算法擁有更為平順的控制過程。具體體現(xiàn)為改進后算法的橫向控制輸出量的方差與標(biāo)準差都遠低于改進前的算法。此外,本研究所改進的算法完成相同任務(wù)所需時間為改進前算法的 93.1%,擁有更好的任務(wù)執(zhí)行效率。 為說明智能體的連續(xù)行為不合理的現(xiàn)象不是個例,本研究引入另一個仿真環(huán)境 Gazebo 對研究結(jié)果進一步說明,相應(yīng)實驗仍然基于已經(jīng)被廣泛驗證過的 DDPG 算法[19]。在 Gazebo 中取消了道路約束,搭建了一個如圖 11 所示的開放空間的移動機器人導(dǎo)航場景。

        表2 兩種算法直線巡航實驗的控制效果對比Table 2 Comparison of the control performance of the two algorithms in the straight line cruise task

        圖10 改進后算法與原始算法[9]在圖3 所示場景中進行巡航任務(wù)的效果對比Fig. 10 Comparison of the improved algorithm and the original algorithm for the cruise task in the scenario shown in figure 3

        圖11 在 Gazebo 中搭建的仿真環(huán)境 Fig. 11 Simulation environment built in Gazebo

        研究分別使用原始控制算法[19]與考慮類人駕駛邏輯的改進控制算法進行仿真實驗的驗證。實驗為兩個算法在完全相同的實驗環(huán)境下設(shè)置了相同的導(dǎo)航起點與終點,并詳細記錄了兩次實驗中移動機器人的運動軌跡與控制過程。在進行實驗之前,兩種算法都進行了訓(xùn)練并都已充分收斂。從圖 12 可以直觀地看出,具備類人邏輯的控制算法在實驗過程中明顯表現(xiàn)出比原始算法更合理的控制過程,并表現(xiàn)出更高的執(zhí)行效率。為更好地對實驗結(jié)果進行量化展示,本研究統(tǒng)計了兩種算法控制過程中橫向控制量的方差與標(biāo)準差,并對比了兩種算法完成任務(wù)所需的控制步數(shù)比,結(jié)果如表 3 所示。

        圖12 Gazebo 的仿真實驗結(jié)果Fig. 12 Gazebo’s simulation experiment results

        表3 兩種算法避障導(dǎo)航任務(wù)的控制效果對比Table 3 Comparison of the control performance of two algorithms for the obstacle avoidance navigation task

        結(jié)合表 2 和表 3 可以看出,在不同的仿真環(huán)境中,HL-DDPG 算法都比原始 DDPG 算法展示出了更平順的控制過程和更高的任務(wù)執(zhí)行效率。這不僅驗證了本研究對于算法策略輸出的改進效果,也說明了本研究的改進方式在不同仿真環(huán)境中都擁有良好的泛化性。

        4.3 平滑且連續(xù)的獎勵塑造的改進效果

        汽車事故種類繁多,產(chǎn)生碰撞的原因也不盡相同,但所有的事故都可以歸納描述為:發(fā)生→發(fā)展→結(jié)束的狀態(tài)過程,碰撞標(biāo)志著這一過程的結(jié)束,而非開始。為描述該問題,本文仍使用圖 3 所示的 Carla 環(huán)境模擬了汽車的碰撞過程,構(gòu)造了無人車在直線巡航場景下的碰撞實驗(圖 13)。

        圖13 無人車碰撞實驗Fig. 13 Unmanned vehicle collision test

        圖14 兩種獎勵塑造方式的擬合結(jié)果Fig. 14 Fitting results of two reward shaping methods

        在無人駕駛?cè)蝿?wù)中,單步獎勵只有帶入 Episode 中才有意義。本研究使用二次函數(shù)逼近器對圖 14 中兩種獎勵塑造方式進行了擬合。從圖 14 可以看出,改進后的獎勵塑造方式得出的獎勵曲線與擬合后的曲線更加貼近。

        為進一步量化說明,本研究對兩種獎勵塑造方式的ε值進行計算,獲得原始獎勵ε值為0.091 8,改進獎勵ε值為 1.052 6。記 |1-ε| 為實際獎勵與期望的偏離度,可見,改進前的獎勵塑造方式所帶來的擬合結(jié)果是完全失真的。相較于改進前的方式,本研究改進后帶有過程狀態(tài)的碰撞獎勵塑造方式對目標(biāo)函數(shù)優(yōu)化期望的近似程度提高了 85.57%。這種改進可以有效避免由稀疏獎勵帶來的過擬合現(xiàn)象,也使得智能體的優(yōu)化目標(biāo)更符合期望,為算法帶來了更快的收斂速度。

        4.4 算法的訓(xùn)練效率與控制效果

        本研究記錄了改進后的算法在訓(xùn)練中的收斂情況,并和原始算法[10]的收斂情況進行了對比,結(jié)果如圖 15 所示。

        從圖 15 可以看出,相比于改進前的原始 DDPG 算法,HL-DDPG 算法明顯展現(xiàn)出了更穩(wěn)定的收斂過程,并在算法收斂后具有更穩(wěn)定的策略表現(xiàn)。原始算法訓(xùn)練至基本收斂狀態(tài)耗時約2 900 步,HL-DDPG 算法訓(xùn)練至基本收斂狀態(tài)耗時約 2 400 步,訓(xùn)練效率提高了 21%。為對本研究改進后算法的控制效果進行更精確的量化展示,分別使用兩種算法進行了無人車巡航實驗,并對兩種算法的實驗結(jié)果進行了統(tǒng)計,具體如表 4 所示。從表 4 可以看出,相比于改進前的原始 DDPG 算法,HL-DDPG 算法任務(wù)成功率提高了 19%,任務(wù)執(zhí)行效率提高了 15.45%,并減少了碰撞事故。

        圖15 兩種算法在訓(xùn)練中的收斂情況對比Fig. 15 Convergence of two algorithms in training

        表4 兩種算法的控制效果對比Table 4 Comparison of control performance of two algorithms

        5 討論與分析

        在目前對無人駕駛端到端控制領(lǐng)域的研究工作中,對無人駕駛策略缺乏類人邏輯這一問題,大部分改進都集中在無人車對關(guān)鍵駕駛行為的決策規(guī)劃問題上[9-11]。因此其輸出的是對駕駛過程中某些重大決策事件做出的離散選取動作概率值,因此,這些改進都并未能在整個無人駕駛?cè)蝿?wù)中形成連續(xù)的合理動作序列。

        本研究提出一種具備類人邏輯的無人駕駛策略,使策略網(wǎng)絡(luò)能夠輸出符合類人駕駛邏輯的連續(xù)有序行為。但是無人駕駛規(guī)則空間中的類人邏輯是人類社會經(jīng)過長期駕駛實踐得來的經(jīng)驗法則,其引入到策略訓(xùn)練中的實際效果仍然取決于人為的先驗設(shè)置是否足夠精細。但是,過于嚴苛的駕駛規(guī)則設(shè)置又會影響無人車對環(huán)境與策略的探索,導(dǎo)致策略陷入局部極值。因此,如何在不影響智能體對環(huán)境自由探索的前提下,以盡可能小的工作量設(shè)置更合理的駕駛規(guī)則,仍需進一步的探索與研究。

        在智能體自身對策略的探索方面,長短時記憶模型(Long Short Memory Network)[25]解決了傳統(tǒng)的 RNN 模型在處理長時數(shù)據(jù)時,較遠序列梯度消失的問題,使得策略網(wǎng)絡(luò)對長時數(shù)據(jù)的理解成為可能。雖然由于規(guī)則空間中類人邏輯的不可觀測性,智能體無法直接通過對環(huán)境與狀態(tài)信息的連續(xù)觀測獲取駕駛邏輯。但是得益于長短時記憶模型對長時數(shù)據(jù)的理解能力,借助先驗建立的駕駛規(guī)則,使得無人駕駛策略在較長時序上的“觀測-邏輯”配對成為可能。因此,如何運用長短時記憶模型,對智能體在時序上的環(huán)境觀測信息賦予邏輯語義,并研究邏輯語義與環(huán)境觀測信息的配對網(wǎng)絡(luò)策略與訓(xùn)練的影響,也是值得繼續(xù)深入研究的問題。

        6 結(jié) 論

        現(xiàn)有無人駕駛策略過于依賴感知-控制映射過程的“正確性”,往往忽視了人類駕駛汽車時所遵循的駕駛邏輯。針對這一問題,本文研究了具備類人駕駛行為的無人駕駛策略(HLDDPG)。本研究在基于深度強化學(xué)習(xí)的端到端無人駕駛控制網(wǎng)絡(luò)中,施加類人駕駛的規(guī)則約束對智能體連續(xù)行為的影響,建立了能夠輸出符合類人駕駛邏輯的連續(xù)有序行為的無人駕駛端到端控制網(wǎng)絡(luò)。為增強端到端決策行為的安全性,采用對策略輸出進行后驗反饋的方式,降低了控制策略的危險行為輸出率。此外,針對訓(xùn)練過程中出現(xiàn)的難以被擬合的稀疏災(zāi)難性事件,提出了連續(xù)且更符合控制策略優(yōu)化期望的獎勵函數(shù),提高了算法訓(xùn)練的穩(wěn)定性。

        多個不同仿真環(huán)境的結(jié)果表明,控制網(wǎng)絡(luò)中添加規(guī)則約束改進的算法比原始算法控制性能更優(yōu)。改進后的獎勵塑造方式在評價稀疏的災(zāi)難性事件時,對目標(biāo)函數(shù)優(yōu)化期望的近似程度比改進前提高了 85.57%,訓(xùn)練效率比傳統(tǒng) DDPG 算法提高了 21%,任務(wù)成功率提高了 19%,任務(wù)執(zhí)行效率提高了 15.45%。這表明,采用本文所提出的類人端到端駕駛控制策略,顯著減少了碰撞事故,保證駕駛安全的同時提高了駕駛性能。

        猜你喜歡
        類人控制算法無人駕駛
        我們村的無人駕駛公交
        無人駕駛車輛
        科學(xué)(2020年3期)2020-11-26 08:18:28
        無人駕駛公園
        5類人跟泡腳“八字不合”
        基于ARM+FPGA的模塊化同步控制算法研究
        口頭禪暴露性格
        一種優(yōu)化的基于ARM Cortex-M3電池組均衡控制算法應(yīng)用
        一種非圓旋轉(zhuǎn)工件支撐裝置控制算法
        DI材橫向厚差自動控制算法及其應(yīng)用
        上海金屬(2013年4期)2013-12-20 07:57:17
        Ⅵ型類人膠原蛋白基因COL6A2的克隆及在畢赤酵母中的分泌表達
        在线视频制服丝袜中文字幕| 青青草视频国产在线观看| 高清成人在线视频播放| 精品人妻码一区二区三区红楼视频 | 午夜福利理论片在线观看| 国产亚洲视频在线观看网址| 99久久综合国产精品免费| 精品人妻av中文字幕乱| 在线中文字幕乱码英文字幕正常| 狠狠色噜噜狠狠狠狠色综合久| 少妇太爽了在线观看| 日韩中文字幕网站| av在线免费观看男人天堂| 天堂а在线中文在线新版| 欧美大香线蕉线伊人久久| 欧美亚洲国产精品久久久久| av天堂免费在线播放| 欧美又大又硬又粗bbbbb| 污污内射在线观看一区二区少妇| 亚洲中文欧美日韩在线人| 精品中文字幕久久久人妻| 日日麻批免费40分钟无码| 亚洲欧洲巨乳清纯| 亚洲综合国产成人丁香五月小说| 国产主播性色av福利精品一区| 极品少妇小泬50pthepon| 宅男噜噜噜| 性视频毛茸茸女性一区二区| 国产高颜值女主播在线| 少妇激情一区二区三区视频| 屁屁影院一区二区三区| 国产av熟女一区二区三区老牛| 亚洲国产精品不卡av在线| 成人免费看吃奶视频网站| 韩国女主播一区二区在线观看| 乳乱中文字幕熟女熟妇| 免费a级毛片18禁网站app| 国产在线高清视频| 97超碰中文字幕久久| 无码av中文一区二区三区| 18禁美女裸体网站无遮挡|