亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向強(qiáng)化學(xué)習(xí)決策的自動駕駛仿真平臺

        2022-12-05 12:19:16劉向東王曉光
        科學(xué)技術(shù)創(chuàng)新 2022年35期
        關(guān)鍵詞:客戶端服務(wù)器自動

        劉向東,王曉光,鄒 密

        (吉林大學(xué)公共計算機(jī)教學(xué)與研究中心,吉林 長春 130012)

        引言

        自動駕駛技術(shù)是近年來的研究熱點[1]。為了滿足車輛的安全性,可實用的自動駕駛系統(tǒng)需要根據(jù)不同的交通狀況進(jìn)行測試,美國蘭德智庫的估算,這需要110 億英里以上的實地驗證[2]。這意味著,如果100 輛測試車以時速25 英里每小時全天不停車測試,也要花費數(shù)百年的時間。所以通過仿真系統(tǒng),實現(xiàn)自動駕駛算法的驗證是技術(shù)落地的必經(jīng)之路。

        自動駕駛仿真系統(tǒng),需要為算法提供盡可能真實的場景,包括行人、車輛、障礙物等不同情況的交通模擬,還要允許在暴雨、強(qiáng)光和傍晚等不同天氣條件下進(jìn)行測試。自動駕駛算法則需要在環(huán)境中實現(xiàn)感知、定位、決策和控制等所有步驟?,F(xiàn)有的仿真系統(tǒng),大都追求全過程個性化模擬[3-4],缺乏對駕駛決策,這個自動駕駛算法的核心內(nèi)容的專向設(shè)計,從而提高了系統(tǒng)和實驗的復(fù)雜度。

        強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中,用來解決智能體在不確定的復(fù)雜環(huán)境中優(yōu)化決策以獲取最大化獎勵的問題。與傳統(tǒng)的決策算法相比,能夠處理無模型的動態(tài)規(guī)劃情況[5],非常適合在復(fù)雜環(huán)境下的實現(xiàn)自動駕駛決策。本研究基于UE5 引擎和Airsim 框架,針對自動駕駛的決策過程,設(shè)計并實現(xiàn)了仿真平臺和實驗情景,簡化了感知、定位和控制接口,使用python 語言為強(qiáng)化學(xué)習(xí)過程設(shè)計了代碼框架。仿真平臺實現(xiàn)了使用強(qiáng)化學(xué)習(xí)算法,針對從端到端的自動駕駛應(yīng)用的簡單測試流程,也可應(yīng)用于機(jī)器學(xué)習(xí)的教學(xué)和實驗。

        1 仿真平臺總體結(jié)構(gòu)

        為了達(dá)到L4 級別以上的自動化等級,需要被駕駛車輛能夠?qū)崟r監(jiān)測周圍路況,獲取圖像、距離、位置等信息,作為決策依據(jù),通過程序控制實現(xiàn)導(dǎo)航、避障等指定任務(wù),消除人工干預(yù)。由于在整個過程中,決策程序?qū)儆谟^察者的角色,而環(huán)境、車輛、交通、傳感器數(shù)據(jù)可以獨立的自主運行。所以,仿真實驗平臺被設(shè)計為服務(wù)器- 客戶端的運行模式,決策系統(tǒng)位于客戶端。

        服務(wù)器端在Unreal Engine5(UE5)游戲引擎上開發(fā),主要實現(xiàn)環(huán)境布局、模型展示和多種天氣條件等真實世界的模擬。UE5 提供了最先進(jìn)的渲染質(zhì)量和逼真的物理效果,讓虛擬環(huán)境在物理和視覺上都實現(xiàn)真實模擬。為了體現(xiàn)行人、車輛、交叉路口等交通情況的復(fù)雜性[6],服務(wù)器借助MassAI 組件生成大量可自主運動的人和車輛的智能體,以模擬交通系統(tǒng)。

        客戶端基于微軟的開源模擬器Airsim 實現(xiàn)對無人機(jī)器和交通系統(tǒng)的程序控制。Airsim 支持基于PX4[7]等飛控固件的實時在環(huán)仿真,可以對無人機(jī)、車輛模擬真實的手動控制[8]。Airsim 也提供了API 接口,通過TCP 協(xié)議與服務(wù)器端進(jìn)行通信。仿真平臺基于Airsim,為用戶在客戶端生成了Python 接口,用于服務(wù)器中的車輛的生成、傳感器設(shè)置和交通系統(tǒng)的控制。此外,為了實現(xiàn)強(qiáng)化學(xué)習(xí)算法測試,還需要為強(qiáng)化學(xué)習(xí)設(shè)計Python 接口以實現(xiàn)對自動駕駛和其他任務(wù)的訓(xùn)練和測試。

        最后,仿真平臺為強(qiáng)化學(xué)習(xí)決策設(shè)計了4 個實驗情景模塊:目標(biāo)識別、搜尋、避障、自動駕駛和手動控制,見圖1。其中,手動控制模塊是為強(qiáng)化學(xué)習(xí)中的模仿學(xué)習(xí)框架準(zhǔn)備的,可以應(yīng)用到其他實驗情境中,為其提供初始的動作決策。為了更有效的用于實驗和測試,平臺設(shè)計了像素流送和VR 演示方法,方便在桌面、移動設(shè)備或VR 設(shè)備上進(jìn)行體驗。

        圖1 自動駕駛仿真教學(xué)實驗平臺結(jié)構(gòu)

        2 服務(wù)器端設(shè)計

        2.1 虛擬場景設(shè)計

        理想的模擬器應(yīng)該盡可能的真實,全局環(huán)境的布局最好能來源真實地圖,對此平臺使用Cesium 軟件實現(xiàn)該想法。Cesium 是一款3D 地理空間開發(fā)系統(tǒng),根據(jù)真實地圖的提供了高精度的地形和影像服務(wù)。平臺先從Cesium 中依據(jù)經(jīng)緯度選擇目標(biāo)城市部分區(qū)域的地形和云端的3D 內(nèi)容作為虛擬場景模板,再用真實材質(zhì)和高精度模型替換模板中的失真和缺失信息。

        此外,由于UE5 中可以直接使用Quixel 三維模型庫,在Quixel 中可以找到數(shù)千個由真實世界掃描獲得的高仿真模型,用這些模型填補(bǔ)生成環(huán)境中的樹木、道路、房屋等復(fù)雜對象。使得靜態(tài)仿真環(huán)境更加的真實。同時,高仿真模型的渲染帶來的更多計算量的需求,為了優(yōu)化顯示過程,采用了UE5 中的Nanite 虛擬化幾何體系統(tǒng),通過將大量模型轉(zhuǎn)換為Nanite 網(wǎng)格體,減弱了對用戶硬件資源的需求。

        最后,自動駕駛的需求可能出現(xiàn)在不同天氣和光照條件下,對于基于圖像的駕駛策略訓(xùn)練來說,天氣模擬就顯得非常重要。平臺根據(jù)天氣和時間變換,提供了可定制的雨、雪、晴天、日初、夜晚等多種環(huán)境選項,可在開始菜單或客戶端腳本中設(shè)置。(見圖2)

        圖2 不同天氣條件下的仿真平臺

        2.2 人群和交通模擬

        為了讓仿真平臺具有更多的互動性,使虛擬世界活動起來,平臺采用了UE5 為大規(guī)模生成智能對象的MassAI系統(tǒng)。整個Mass 框架分為三部分:MassEntity,MassGameplay 和MassAI。其中MassEntity是一種面向數(shù)據(jù)的框架,將所有處理邏輯與數(shù)據(jù)構(gòu)成進(jìn)行分離,可以增強(qiáng)數(shù)據(jù)和代碼的一致性,簡化未來的并行執(zhí)行。Mass GamePlay 能夠?qū)⒋罅康膶嶓w帶入虛擬世界。包含生成可視化的Spawner 組件和LOD 機(jī)制。其中Spawner 通過區(qū)域圖確定實體的生成位置,通過區(qū)域圖連接在一起的逐點廊道結(jié)構(gòu),定義生成位置和AI 行為。

        在平臺設(shè)計過程中,需要為每條人形道路和行車路線分別定義區(qū)域圖,并指定不同顏色的標(biāo)簽,用于引導(dǎo)人群和車輛的生成,見圖3。最后通過MassAI 為智能體添加運行軌跡。為了體現(xiàn)真實環(huán)境中的隨機(jī)性,通過隨機(jī)生成區(qū)域圖和行為的方式,添加行人非正常交通。

        圖3 在場景中用區(qū)域圖實現(xiàn)人群和交通模擬

        在Mass 框架中,人群與交通系統(tǒng)存在著一定的區(qū)別。人群使用狀態(tài)樹,描述當(dāng)前實例可能出現(xiàn)的所有狀態(tài),即控制AI 的行為,如漫步、閑逛、避讓等。車輛交通系統(tǒng)中,則沒有使用狀態(tài)樹。所有行為都在Mass Processor 以編程的方式生成。如沿著車道陸續(xù)前進(jìn),會沿著車道排列車輛。為避免車輛相撞,車輛會檢測到前車的距離,并根據(jù)距離調(diào)整車速。

        3 客戶端設(shè)計

        客戶端是用于對虛擬環(huán)境進(jìn)行配置和程序控制的API 框架,使用python 語言通過TCP 協(xié)議與服務(wù)器端進(jìn)行通信。針對實驗情景,服務(wù)器端提供了默認(rèn)的情景生成:讓被控車輛和車載攝像頭、雷達(dá)、IMU、GPS 等多種傳感器的定點生成。同時也可以通過場景參數(shù)定制實驗情景,并提供簡單控制和基于PX4 固件的仿真控制兩種方案,以便獲取初始動作。

        客戶端需要服務(wù)器的支持才能運行,允許向服務(wù)器發(fā)送場景參數(shù),設(shè)置場景中的交通系統(tǒng)、天氣情況和傳感器等初始信息,發(fā)送油門、轉(zhuǎn)向等控制命令,同時通過傳反饋值,修正自動駕駛策略,以驅(qū)動無人機(jī)器完成指定任務(wù)。一個服務(wù)器可以同時支持多個客戶端在線運行,在場景中實現(xiàn)多用戶協(xié)同操作。

        3.1 實驗?zāi)K設(shè)計

        在仿真平臺中,為面向強(qiáng)化學(xué)習(xí)策略的自動駕駛設(shè)計了5 個情景任務(wù)模塊。包含任務(wù)目標(biāo)、達(dá)成目標(biāo)、默認(rèn)參數(shù)等信息。可以通過客戶端設(shè)計python 腳本完成任務(wù)。

        (1) 手動控制:場景中允許用戶直接控制服務(wù)器中車輛,完成目標(biāo)點A 到目標(biāo)點B 的有障礙駕駛,將用戶的操作記錄為初始動作,通過模仿學(xué)習(xí)優(yōu)化控制流程。

        (2) 自動導(dǎo)航:固定路線和非固定路線的自動駕駛,實現(xiàn)從目標(biāo)點A 到隨機(jī)目標(biāo)點B 的自動路徑規(guī)劃和駕駛,無移動障礙物,有時間限制。

        (3) 避障:開啟人群和車輛交通模擬后,從目標(biāo)點A 駕駛到隨機(jī)目標(biāo)點B,完成有移動障礙物的跟隨及自動導(dǎo)航,要求無碰撞,有時間限制。

        (4) 搜尋:在自動駕駛過程中,從攝像頭傳感器中識別并標(biāo)識出目標(biāo)對象,再通過程序控制車輛搜尋目標(biāo)對象。

        3.2 強(qiáng)化學(xué)習(xí)實驗接口設(shè)計

        強(qiáng)化學(xué)習(xí)算法本質(zhì)上,是通過在不斷試錯中獲取環(huán)境中的獎勵或懲罰,作為反饋從而指導(dǎo)智能體更好的與環(huán)境交互,最后獲得最大收益的過程[9],見圖4。由于強(qiáng)化學(xué)習(xí)具有與陌生環(huán)境獨特的試錯方法和反饋機(jī)制,所以很早就應(yīng)用到智能交通系統(tǒng),如結(jié)合多智能體的Q-Learning 算法解決交通信號控制問題。但傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法,應(yīng)用于情況復(fù)雜,擁有高維輸入數(shù)據(jù)的真實環(huán)境,實現(xiàn)具有連續(xù)動作空間的自動駕駛領(lǐng)域,效果就不夠理想。

        圖4 強(qiáng)化學(xué)習(xí)框架

        隨著深度學(xué)習(xí)在計算機(jī)視覺等領(lǐng)域取得了成功,使用深度神經(jīng)網(wǎng)絡(luò)對高維數(shù)據(jù)進(jìn)行降維,再完成強(qiáng)化學(xué)習(xí)過程,為解決復(fù)雜問題提供了更好的思路。實際上,使用深度強(qiáng)化學(xué)習(xí)算法,如DQN、DDPG 等,已成為訓(xùn)練一個從端到端的自動駕駛模型的常用方法。通過對圖像、深度傳感器和激光雷達(dá)等場景輸入數(shù)據(jù)提取特征,再控制車輛加速、轉(zhuǎn)向、制動等行為完成自動駕駛過程。

        如果要專注于決策過程,簡化感知、定位和控制等步驟的設(shè)置,無論采用哪種強(qiáng)化學(xué)習(xí)算法,都需要考慮訓(xùn)練目標(biāo)、訓(xùn)練方法和系統(tǒng)反饋的標(biāo)準(zhǔn)化。在客戶端中將服務(wù)器的通信結(jié)果標(biāo)準(zhǔn)化到如下的狀態(tài)-操作動作空間:

        (1) 允許強(qiáng)化學(xué)習(xí)算法發(fā)送動作指令操控車輛在仿真環(huán)境中行進(jìn)。在接口程序中為車輛提供油門、轉(zhuǎn)向和剎車3 個參數(shù),值域分別為【0,10】、(-1,1)、【0,1】。通過修改三個參數(shù)的值實現(xiàn)對車輛的程序控制。

        (2) 能夠獲取被控制車輛的實時狀態(tài)。車輛的速度、位置和是否碰撞等信息,不使用Slam 等定位方法,而是直接通過服務(wù)器直接傳遞被控車輛的狀態(tài)信息。

        (3) 能夠得到獎勵反饋。自動導(dǎo)航、避障和搜尋實驗都為半固定路線的自動駕駛場景,可以預(yù)先在服務(wù)器中及算出推薦的行進(jìn)路線,以速度快、偏離推薦路線少作為正向獎勵,以負(fù)數(shù)作為發(fā)生碰撞,反向行駛,超出預(yù)定時間的懲罰。獎勵函數(shù)如下

        其中,vx為車輛延預(yù)定道路縱向軸線的速度,θ 為車輛的航向角,ε 為偏移距離。

        強(qiáng)化學(xué)習(xí)的訓(xùn)練框架,也需要由python 定義一個Experiment 類實現(xiàn),其中包括用于重置環(huán)境的Reset函數(shù)、每輪訓(xùn)練的代碼接口Step 函數(shù),以及用于計算獎勵的Reward 函數(shù)等。訓(xùn)練過程的python 偽代碼如下

        4 結(jié)論

        本研究設(shè)計的自動駕駛仿真教學(xué)實驗平臺,通過建立高精度、可定制、高互動性的仿真環(huán)境,拉近了虛擬和現(xiàn)實的距離。既可以作為一個通用性的自動駕駛訓(xùn)練平臺,也為駕駛決策過程,實驗和測試算法,提供了簡化的、端到端的平臺。具有較強(qiáng)的實用性和可拓展性,為仿真平臺設(shè)計提供了一種思路。

        猜你喜歡
        客戶端服務(wù)器自動
        自動捕盜機(jī)
        通信控制服務(wù)器(CCS)維護(hù)終端的設(shè)計與實現(xiàn)
        縣級臺在突發(fā)事件報道中如何應(yīng)用手機(jī)客戶端
        傳媒評論(2018年4期)2018-06-27 08:20:24
        孵化垂直頻道:新聞客戶端新策略
        傳媒評論(2018年4期)2018-06-27 08:20:16
        基于STM32的自動喂養(yǎng)機(jī)控制系統(tǒng)
        電子測試(2018年10期)2018-06-26 05:53:36
        基于Vanconnect的智能家居瘦客戶端的設(shè)計與實現(xiàn)
        電子測試(2018年10期)2018-06-26 05:53:34
        得形忘意的服務(wù)器標(biāo)準(zhǔn)
        關(guān)于自動駕駛
        汽車博覽(2016年9期)2016-10-18 13:05:41
        計算機(jī)網(wǎng)絡(luò)安全服務(wù)器入侵與防御
        Stefan Greiner:我們?yōu)槭裁葱枰詣玉{駛?
        国产午夜三级精品久久久| 91免费在线| 国产91成人精品亚洲精品| 久久久久亚洲精品美女| 99久久精品国产自在首页| 亚洲av伊人久久综合性色| 日韩精品一区二区三区视频| 国产精品高清国产三级国产av| 性感女教师在线免费观看| 日本一区二区三区一级免费| 在线观看国产激情免费视频| 国产亚洲精品综合一区| 少妇高潮无套内谢麻豆传| 欧美黑吊大战白妞| 精品久久久久久久中文字幕| 国产在线91观看免费观看| 亚洲一区精品中文字幕| 国内精品嫩模av私拍在线观看| 精品精品国产三级av在线| 老熟女的中文字幕欲望| 精品水蜜桃久久久久久久| 99国产精品丝袜久久久久| 国产免费一区二区av| 久久久精品毛片免费观看| 亚洲av永久无码精品一福利| 中文字幕乱偷无码av先锋蜜桃 | 亚洲高清在线不卡中文字幕网| 精品丝袜国产在线播放| 色av色婷婷18人妻久久久| av大全亚洲一区二区三区 | 国产剧情国产精品一区| 久久精品国产亚洲5555| 丰满熟女人妻一区二区三区| 噜噜中文字幕一区二区| 小蜜被两老头吸奶头在线观看| 免费超爽大片黄| 黄片一级二级三级四级| 国产老熟妇精品观看| 色偷偷一区二区无码视频| 97色人阁俺也去人人人人人| 日本国产一区二区在线|