亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于分布式強化學(xué)習(xí)的車輛控制算法研究 *

2023-10-12 02:16:16劉衛(wèi)國項志宇劉偉平齊道新王子旭

汽車工程 2023年9期

劉衛(wèi)國，項志宇，劉偉平，齊道新，王子旭

（1. 浙江大學(xué)信息與電子工程學(xué)院，杭州 310058；2. 國家智能網(wǎng)聯(lián)汽車創(chuàng)新中心，北京 100160）

前言

自動駕駛框架大多遵循模塊化設(shè)計原則，然而單個模塊的設(shè)計、調(diào)試和后期維護成本非常高，且模塊間需要不斷調(diào)試才能保證數(shù)據(jù)和邏輯的準(zhǔn)確性［1］。因此，提高自動駕駛開發(fā)及調(diào)試效率、降低模塊化程度將成為當(dāng)前研究的熱點。隨著技術(shù)與理論的進步，基于規(guī)則的自動駕駛算法逐步過渡到基于數(shù)據(jù)驅(qū)動的算法，但仍存在訓(xùn)練數(shù)據(jù)依賴性強、感知和定位模塊數(shù)據(jù)錯誤的問題，因此具備可擴展性的學(xué)習(xí)驅(qū)動方法將逐漸成為未來發(fā)展趨勢［2］。

由于仿真與真實環(huán)境間的差異性，導(dǎo)致沒有一種成熟的基于仿真訓(xùn)練算法的量產(chǎn)解決方案，并且算法不能較好地應(yīng)用在實車環(huán)境［3］，無法通過OTA更新車輛軟件，提高車輛的性能與操控性。故本文將基于強化學(xué)習(xí)的規(guī)劃控制部分的輸入限定為目標(biāo)物列表級別，而感知部分可以使用真實RAW 級別數(shù)據(jù)進行訓(xùn)練和測試。因此，這種方法可以有效保證強化學(xué)習(xí)訓(xùn)練的安全性和環(huán)境感知的真實性。

在仿真階段，自動駕駛模擬器Carla 被廣泛應(yīng)用于自動駕駛算法開發(fā)中［4］，其雖然能規(guī)避實車開發(fā)中學(xué)習(xí)驅(qū)動的安全性問題，但因仿真和強化學(xué)習(xí)的效率低下，在線強化學(xué)習(xí)算法很少被用于自動駕駛算法的開發(fā)［5］。自動駕駛具有寬范圍的連續(xù)動作空間、復(fù)雜的交通場景，且環(huán)境中存在其他動態(tài)交通參與者，將都導(dǎo)致強化學(xué)習(xí)算法的研究和開發(fā)更復(fù)雜化，這些極大地限制了Carla 在自動駕駛領(lǐng)域的應(yīng)用。

為解決上述問題，本文引入在線強化學(xué)習(xí)的大規(guī)模并行化分布式框架加速模擬環(huán)境中智能體的訓(xùn)練過程。這要求既需要考慮計算資源的利用率與智能體間的異質(zhì)性問題，又需要設(shè)計仿真模擬器的GPU資源差異分配［6］。

在Carla 上實施并行化在線強化學(xué)習(xí)時，首先，需要以分布式結(jié)構(gòu)框架實現(xiàn)跨機器運行［7］。其次，單個智能體并未充分利用單步仿真環(huán)境渲染結(jié)果，絕大多數(shù)渲染范圍超出了智能體的觀測范圍，存在大量計算資源浪費。所以為防止計算資源浪費，在線強化學(xué)習(xí)算法應(yīng)在同一仿真時間步中并行化多個智能體。最后，作為目標(biāo)導(dǎo)航問題自動駕駛具有很高的可變性，任務(wù)持續(xù)時間和難度等級交替出現(xiàn)，故還要設(shè)計異步策略實現(xiàn)多智能體更新迭代。

基于上述問題，本文提出了一種異步分布式多智能體強化學(xué)習(xí)算法，構(gòu)建了獎勵函數(shù)，實現(xiàn)了以Carla NoCrash［8］為基準(zhǔn)的最佳性能，此外還利用多智能體并行SAC 算法顯著加快了Carla 模擬器上在線強化學(xué)習(xí)的訓(xùn)練，避免了單點故障，提高了Carla 實例的利用率，有效解決了自動駕駛在密集場景下運行的難題；建立并實現(xiàn)了一個基于ROS 的Autoware和Carla 聯(lián)合集成開發(fā)工具鏈，通過ROS 建立Carla仿真世界和控制系統(tǒng)之間的連接，提高模型可重用性，該框架用于模型快速部署。

1 系統(tǒng)模型建立

為更符合實際工程應(yīng)用，加速迭代升級，本研究采用部分模塊化方法，將視覺感知與基于深度強化學(xué)習(xí)的控制策略分離，使其能夠從仿真訓(xùn)練直接遷移應(yīng)用到真實世界的測試。同時，系統(tǒng)故障排除變得更簡單。如圖1 所示，基于Cloud-OTA 的分布式模型快速訓(xùn)練和部署系統(tǒng)架構(gòu)主要由云端分布式模型訓(xùn)練框架和車輛端到端規(guī)劃控制模塊組成，其中強化學(xué)習(xí)分布式訓(xùn)練框架部署在云端，而基于ROS的自動駕駛軟件框架部署在車端。車輛采集數(shù)據(jù)可以上傳至云端完成更新，由分布式訓(xùn)練框架完成最新模型快速訓(xùn)練，并推送至待升級車輛，車端收到推送升級模型包后在車載計算平臺上快速完成模型部署和適配。這樣，通過該系統(tǒng)可以在線修復(fù)或升級車輛控制算法，用戶只須將車輛連入網(wǎng)絡(luò)便可進行OTA升級，從而降低召回成本和提升便利性，使得模型隨著歷史數(shù)據(jù)和實驗里程的累計不斷自我升級優(yōu)化。

圖1 基于Cloud-OTA的分布式模型快速訓(xùn)練和部署系統(tǒng)架構(gòu)框圖

1.1 模型定義與輸入

強化學(xué)習(xí)訓(xùn)練階段中的數(shù)據(jù)準(zhǔn)備包括數(shù)據(jù)的采集、上傳、下載以及在大量駕駛數(shù)據(jù)中提取特征數(shù)據(jù)等過程。因特征數(shù)據(jù)的定義是任務(wù)導(dǎo)向的，從優(yōu)化決策規(guī)劃的角度看，既需要獲得影響路徑規(guī)劃的靜態(tài)障礙物信息、動態(tài)障礙物及道路限速信息，又需要提供決策的交通標(biāo)識等信息。需要采集的數(shù)據(jù)包含靜態(tài)障礙物、動態(tài)障礙物、自車狀態(tài)、道路信息、交通標(biāo)識，由圖1 可知，上述數(shù)據(jù)可以通過自動駕駛系統(tǒng)中的感知模塊、定位模塊、總線模塊和高精地圖模塊獲取，而在仿真訓(xùn)練過程中則是直接從仿真軟件的動態(tài)場景中獲取。

因低維輸入和輸出僅須較少的參數(shù)便可覆蓋大多數(shù)可行狀態(tài)，故強化學(xué)習(xí)多傾向于低維特征和動作。因此，本文利用Carla 模擬器的導(dǎo)航傳感器輸入、交通標(biāo)志信息制定強化學(xué)習(xí)任務(wù)的低維向量表示規(guī)則。

矢量化狀態(tài)空間S可以擴展為7 維向量［9］，表示為

為簡化車輛控制問題，定義矢量化行為空間A，該空間由目標(biāo)速度以及預(yù)測轉(zhuǎn)向角θ組成。-為自車完全制動，因本實驗中不能設(shè)置為倒車，實驗中限制在［-0.5， 0.5］。

1.2 獎勵函數(shù)設(shè)計

獎勵函數(shù)不僅可以使智能體學(xué)到的策略更合理，也會使收斂速度更快，加速實現(xiàn)系統(tǒng)最優(yōu)性能。為使車輛沿道路中軸線快速通行，本文從通行效率、安全性和舒適性［10］3 方面進行設(shè)計，主要包含如下函數(shù)。

（1）車輛速度與設(shè)定速度的偏差

式中：v和vref分別為實際車速與參考車速；Rv為車速獎勵項，且αv＜1/vref。

（2）車輛轉(zhuǎn)向盤轉(zhuǎn)向角幅度

為使智能體過彎道及避障等行為時轉(zhuǎn)向角更平滑，考慮轉(zhuǎn)向盤轉(zhuǎn)角δ的幅度。

式中：轉(zhuǎn)向盤轉(zhuǎn)角范圍為［-1，1］；Rθ為車輛方向轉(zhuǎn)向角獎勵項。

（3）車輛當(dāng)前位置與道路中軸線偏差

作為對車輛偏離參考線的獎懲，采用當(dāng)前位置與道路中軸線之間偏差的絕對值。

式中：de為距離中心線的絕對值；Rδ為車道中心偏差。

（4）車輛違規(guī)行為檢測

此項是對車輛發(fā)生碰撞后的懲罰。

式中collision_flag為違規(guī)行為觸發(fā)標(biāo)志位。綜上可得智能體最終獎勵函數(shù)為

式中αv、αθ、αδ、αI分別為車速獎勵系數(shù)、轉(zhuǎn)向角懲罰系數(shù)、車道中心偏差懲罰系數(shù)和違規(guī)行為懲罰系數(shù)。

2 系統(tǒng)框架與關(guān)鍵算法

本文所設(shè)計的分布式并行SAC框架是以參數(shù)服務(wù)器結(jié)構(gòu)與分布式訓(xùn)練框架為基礎(chǔ)，在訓(xùn)練框架中為每個智能體提供決策控制的 SAC 算法［11］。本文的分布式訓(xùn)練中有3 個重要角色：worker、server 和agent。其中：worker是分布式訓(xùn)練的執(zhí)行單元，在分布式訓(xùn)練每個batch 時，worker 會從server 處拉取最新的權(quán)重，其次worker 在每個batch 訓(xùn)練結(jié)束后將梯度發(fā)送至server 處；server 是服務(wù)器單元，用于存儲模型參數(shù)并和各個worker 進行通信；而agent 則是被訓(xùn)練的算法或模型。

在Carla 上訓(xùn)練基于強化學(xué)習(xí)智能體的瓶頸之一是需要較長的周期渲染每個時間步。整體框架如圖2所示，worker與Carla 兩者均處于高度忙碌狀態(tài)，而server則處于較空閑狀態(tài)，同時worker通過反向傳播生成梯度。

由圖2可知，本文使用server 維護全局經(jīng)驗緩沖區(qū)，利用單智能體SAC 算法獲得批量狀態(tài)轉(zhuǎn)換，worker 通過訪問模擬環(huán)境收集狀態(tài)轉(zhuǎn)換，并定期將狀態(tài)轉(zhuǎn)換推送到server 上托管的集中緩沖區(qū)，最終執(zhí)行策略更新。

2.1 分布式結(jié)構(gòu)框架

分布式深度學(xué)習(xí)算法框架的層次結(jié)構(gòu)采用專門為Carla 自動駕駛設(shè)計的功能定義接口和標(biāo)準(zhǔn)參數(shù)服務(wù)器架構(gòu)［12］，且內(nèi)部還包含兩個級別的并行化，即異步運行的進程間和進程內(nèi)級別。如圖3 所示，參數(shù)服務(wù)器被分配到同一個或多個工作組中，worker托管多個智能體，這些數(shù)據(jù)之間保持異步性；server采用value/Q 函數(shù)的全局緩沖區(qū)更新全局策略，并采用智能體按順序執(zhí)行的策略。

圖3 不同級別數(shù)據(jù)并行化

在Carla 上訓(xùn)練多并行SAC 的另一個瓶頸是如何最大限度地利用每個Carla 模擬器實例上的資源。盡管已通過參數(shù)服務(wù)器框架創(chuàng)建了進程內(nèi)的并行化，然而并沒有解決單獨worker的進程內(nèi)效率問題。此時自車在每個時間步只與附近的環(huán)境交互，渲染的大部分場景被忽略，浪費了大量算力和GPU資源。

基于多并行SAC 算法，參數(shù)服務(wù)器聚合 worker的更新權(quán)重，如圖4 所示。圖4 （a）中，迭代開始時，worker 獲取最新的全局權(quán)重W，并從參數(shù)服務(wù)器更新局部權(quán)重。而當(dāng)worker 1和3完成計算時，worker 2仍在迭代，但參數(shù)服務(wù)器只有在收到所有機器更新的權(quán)重后，才能開始聚合計算全局權(quán)重。

圖4 數(shù)據(jù)訓(xùn)練迭代過程示意圖

圖4（b）為異步數(shù)據(jù)并行模式，可提高進程內(nèi)運行效率。此模式中，worker 完成一次迭代后立即從參數(shù)服務(wù)器中拉取全局權(quán)重，且無須等待所有其他worker，但因每臺機器的運行迭代可能不相同，實際操作中要考慮各系統(tǒng)效率和算法的收斂性。

為計算最優(yōu)迭代時長下智能體個數(shù)，在Carla 中進行了模擬仿真實驗，結(jié)果如圖5 所示。當(dāng)模擬器中有一個智能體時，Carla 渲染單個時間步長（即同一環(huán)境中的所有智能體與環(huán)境交互一次）大約需要0.08 s。單個Carla 環(huán)境中有8 個智能體時，盡管每一步的仿真時長增加到0.20 s 左右，但在Carla 單一仿真步長中進行的交互總數(shù)為8。平均而言，單個智能體與環(huán)境交互一次只需大約0.025 s，顯著提高了每個Carla實例的利用率。

圖5 Carla每個時間步渲染耗時與智能體個數(shù)之間的關(guān)系

由圖5 可知，隨著更多的智能體添加到環(huán)境中，Carla 渲染幀的時間在增加，但每個智能體的平均步進時間（即交互一次）在減少。在智能體為10 個時，渲染時間增加到0.32 s，所以單個Carla 模擬環(huán)境中的最佳智能體數(shù)為7～9 個。故基于遞減回報規(guī)則，worker中有8個智能體時將充分利用進程內(nèi)并行化。為評估多智能體的性能以及訓(xùn)練算法的有效性，進行了模擬仿真實驗，這里選取了其中4 個智能體的錯誤率表現(xiàn)，結(jié)果如圖6所示。

圖6 多智能體在每回合中的錯誤率曲線

2.2 SAC 算法

作為自動駕駛軌跡優(yōu)化的核心算法之一，SAC算法要定期更新worker 全局策略，異步處理各worker 的信息。在訓(xùn)練過程中，可能會有多種SAC策略并存［13］，并通過比較它們的性能來選擇最優(yōu)的策略，如圖7所示。

圖7 SAC算法示意圖

為表示多策略學(xué)習(xí)框架，將策略集定義為(πθ，≤) ={π(θ0)，π(θ1)，π(θ2)，…}。此集合包含在訓(xùn)練過程中生成的所有策略，（i）代指每個策略的順序時間戳，只有一個元素π(θ0)與初始化策略相關(guān)，server始終保持最新全局策略，為每次server 策略更新后，都會創(chuàng)建新策略π(θ|πθ|)元素并附加到不斷增加的πΘ集。

對于智能體集合W={ω1，ω2，ω3， …，ωn}，其作用是為全局經(jīng)驗緩沖區(qū)D提供狀態(tài)轉(zhuǎn)換(si，a(ij)，ri，s′i，di)，包括當(dāng)前狀態(tài)si、策略相關(guān)動作a(ij)、獎勵ri、下一個狀態(tài)s′i和最終狀態(tài)指示符di，其中a(j)～π(j)θ(·|s)， 0 ≤j≤|πθ|，下標(biāo)i∈W，表示此轉(zhuǎn)換隸屬哪個智能體。

因此，將全局緩沖區(qū)D表示為

在SAC 更新后，在D中采樣一批次轉(zhuǎn)換B，通過以下方式計算Q函數(shù)：

由式（9）可知，優(yōu)化發(fā)生在最新策略及其Q 函數(shù)上，并在此基礎(chǔ)上生成下一個策略因此，從理論上保證了軌跡優(yōu)化始終是向前迭代的，但只能把策略更新從worker轉(zhuǎn)移到server上來實現(xiàn)，而按標(biāo)準(zhǔn)參數(shù)服務(wù)器運行時，舊策略計算的梯度并不一定會優(yōu)化全局策略。

3 仿真與結(jié)果分析

3.1 實驗環(huán)境及方案設(shè)計

實驗在集群4-GPU 節(jié)點上運行，在Carla-Tensorflow 中完成智能體的訓(xùn)練過程，采用Town 01地圖進行仿真。

一般將仿真環(huán)境下訓(xùn)練的模型進行軟件在環(huán)測試驗證或者部署在真實車輛中時需要額外的開發(fā)成本。為此，本文使用 ROS 將仿真環(huán)境與自動駕駛系統(tǒng)或框架分開，從而可以更輕松地遷移到自動駕駛軟件框架或真實車輛。這使得在相同條件下評估基于模型的方法和現(xiàn)有的基于學(xué)習(xí)的端到端方法成為可能。

圖8 展示了從訓(xùn)練、驗證到部署的快速框架，協(xié)同使用 Carla、Autoware、TensorFlow 開發(fā)工具鏈并基于 ROS 工具橋接，可用于虛實交替驗證、模型訓(xùn)練或模型快速部署，其中一些模塊在相同的步驟和階段之間共享，從而降低了模型的開發(fā)成本。ROS 允許共享模塊，并使用 ROS 橋來統(tǒng)一數(shù)據(jù)格式。在使用Carla 評估模型時，可使用 ROS-bridge 連接到Carla，它能夠通過攝像頭、激光雷達模型等獲取傳感器信息，ROS接收車輛攝像頭各幀圖像，將其發(fā)送到Y(jié)OLO 微型節(jié)點，處理完后將矩陣發(fā)送到Agent節(jié)點，獲取環(huán)境狀態(tài)空間相關(guān)信息后，再向Autoware發(fā)送適當(dāng)?shù)膭幼骺臻g。通過使用ROS，模型可以獨立于模擬器運行，并且只須連接它們就可以將使用Carla 獲得的信息轉(zhuǎn)移到真實環(huán)境中，因此遷移成本較低。

圖8 基于ROS的Carla-Autoware 集成驗證框架

3.2 實施細(xì)節(jié)

由SAC 規(guī)則可知，actor 網(wǎng)絡(luò)（策略網(wǎng)絡(luò)）具有ReLU 和Tanh 激活的兩層MLP，而critic 網(wǎng)絡(luò)（Q 網(wǎng)絡(luò)）帶有ReLU 激活的3 層MLP。本文將策略網(wǎng)絡(luò)和兩組Q 網(wǎng)絡(luò)實例化，把server 上的Q 網(wǎng)絡(luò)裁剪成double-Q模塊，并于每25個全局時間步內(nèi)更新一次。

多并行SAC 將actor 和learner 分為兩部分，故worker 不需要訪問Q 網(wǎng)絡(luò)便可實現(xiàn)系統(tǒng)實例化。為提升系統(tǒng)靈活性，每個worker 托管多個策略網(wǎng)絡(luò)且分給不同智能體，因單獨與server 同步，可能使同一環(huán)境中運行的智能體行為有所差異，并且可學(xué)習(xí)的熵策略會使訓(xùn)練更不穩(wěn)定，所以本文固定熵系數(shù)α。

實驗訓(xùn)練過程中使用的超參數(shù)如表1 所示，為使 NoCrash 準(zhǔn)生成最佳模型，表2 列出與多并行SAC具體方法相關(guān)的超參數(shù)。

表1 一般超參數(shù)

表2 多智能體并行SAC超參數(shù)

為測試設(shè)計方法的可行性與性能，將本文方法與3 種主流的自動駕駛方法進行比較，即模塊化方法、模仿學(xué)習(xí)和強化學(xué)習(xí)。對于強化學(xué)習(xí)方法，將本文方法與在線強化學(xué)習(xí)方法、離線強化學(xué)習(xí)方法進行比較。

盡管每種方法所涉及的運行環(huán)境、模擬器版本不同，可能存在渲染引擎、紋理細(xì)節(jié)等細(xì)節(jié)問題，但因不使用任何高維視覺輸入，所以不會影響測試方法的使用。

為驗證兩種算法的可行性與運行速度，將本文方法與關(guān)聯(lián)規(guī)則學(xué)習(xí)算法（ARL）［7］比較，兩者共享相似的狀態(tài)空間，這里只粗略地估計訓(xùn)練速度，完成兩者速度的優(yōu)劣對比。

3.3 NoCrash結(jié)果分析

本文首先分析了不同交通條件下以NoCrash［8］為基準(zhǔn)的成功率。典型交通場景是指車輛相對較少、車速較快、間距較大的場景，更容易執(zhí)行加速、制動和轉(zhuǎn)向等基本操作；密集交通場景是指車輛相對較多、車速相對較慢、間距相對較小的場景，還可能有行人及其他障礙物，需要更復(fù)雜的決策和動作執(zhí)行能力；表3 列出了常見方法和本文方法的運行數(shù)據(jù)結(jié)果。

表3 不同交通流條件下的NoCrash定量結(jié)果 %

表3為25次測試中的平均成功率（百分比）。多智能體并行SAC 代表本文方法，多智能體并行SAC（1）是指單智能體SAC，多智能體并行SAC（std 64）是指使用標(biāo)準(zhǔn)參數(shù)服務(wù)器設(shè)置的64 智能體SAC，其中局部計算的梯度用于全局更新。

多智能體并行SAC（std64）是一個具有標(biāo)準(zhǔn)參數(shù)服務(wù)器工作流的64 智能體訓(xùn)練系統(tǒng)，因車輛沒有學(xué)習(xí)駕駛功能，導(dǎo)致3 種場景下均以失敗告終，由此可知局部梯度具有很高的噪聲和偏差，無法優(yōu)化全局策略。而多智能體并行SAC（64）是在訓(xùn)練中采用64個并行的智能體，共同更新模型參數(shù)。從表中可得出，在最具挑戰(zhàn)的密集場景上，本文的方法實現(xiàn)了較高的自動駕駛成功率及良好的性能。梯度使用局部目標(biāo)計算，無法使用梯度靈敏地更新全局策略，也從側(cè)面突出了修改原始參數(shù)服務(wù)器工作流以支持分布式強化學(xué)習(xí)方法的重要性。

由實驗得出，當(dāng)在測試環(huán)境中更改動態(tài)參與者的數(shù)量時，智能體的成功率沒有太大差異。這與連續(xù)積分學(xué)習(xí)算法（CIL）［14］、跨域自適應(yīng)學(xué)習(xí)算法（CAL）［15］不同，當(dāng)駕駛環(huán)境變得更加復(fù)雜和混亂時，這些傳統(tǒng)方法的性能會急劇下降，可能因為這些智能體在遇到障礙物或交通信號燈時不能做出反應(yīng)；本文構(gòu)建的智能體使用與ARL［5］類似的狀態(tài)空間，在避障和遵守交通規(guī)則方面做得更好。此外，實驗發(fā)現(xiàn)多智能體運行的失敗案例幾乎都因超時產(chǎn)生，由此導(dǎo)致智能體靜止不動，因低維狀態(tài)空間和動作空間容易受到特殊鎖死情況的影響。因此SAC在測試時是確定性的，相同的觀察結(jié)果會導(dǎo)致智能體繼續(xù)出現(xiàn)相同的錯誤。

文中還對不同并行智能體SAC（1）、SAC（std64）與SAC（64）進行了深入的分析，得出worker 的平均獎勵及成功率曲線，結(jié)果如圖9 與圖10 所示。結(jié)果表明SAC（64）在處理異常情況時更具優(yōu)勢，具有更好的穩(wěn)定性以及魯棒性。而SAC（std64）由于局部梯度具有較高的偏差，無法優(yōu)化全局策略，導(dǎo)致成功率變化范圍較大且極不穩(wěn)定。

圖9 worker 平均獎勵曲線

圖10 worker 成功率曲線

文中還列出了不同方法下每1 h 的近似模擬時間步長，結(jié)果和設(shè)置見表4。因兩者在強化學(xué)習(xí)設(shè)置方面有諸多相似之處，所以將本文方法與ARL［5］進行比較。本文不將總訓(xùn)練時間作為定量分析的可靠指標(biāo)，盡管本方法可以在7 h 內(nèi)完成整個訓(xùn)練過程，比ARL［5］的典型訓(xùn)練減少幾天甚至幾周的訓(xùn)練時間，但總訓(xùn)練時間在強化學(xué)習(xí)訓(xùn)練過程中仍是高度隨機和不穩(wěn)定的［16］，故本文將專注于每1 h的模擬時間步，以證明分布式訓(xùn)練的有效性。

表4 不同設(shè)置下每1 h近似模擬時間步長

“Std. param. Server”［17］指使用標(biāo)準(zhǔn)參數(shù)服務(wù)器工作流，即智能體計算梯度。一個訓(xùn)練系統(tǒng)中的agent 總數(shù)等于worker 總數(shù)乘以每個worker 的agent數(shù)量。因強化學(xué)習(xí)的隨機性，一種方法達到其峰值性能所需時間步是高度不可預(yù)測的。即使對于相同的方法，多次運行的總訓(xùn)練時間（定義為一種方法達到其峰值性能所需的時間）也有很大不同。因此，文中著眼于每1 h內(nèi)深度學(xué)習(xí)算法完成時間步數(shù)，實驗的結(jié)果在很大程度上仍取決于集群狀態(tài)。

通過實驗發(fā)現(xiàn)多智能體并行SAC（64）與單智能體SAC（1）相比，顯著加快了20 倍以上的訓(xùn)練速度，結(jié)合表4 結(jié)果可得此加速方式并不以犧牲性能為代價。此外，即使訓(xùn)練系統(tǒng)中有大量智能體，server 的數(shù)量也不會影響訓(xùn)練速度，這表明訓(xùn)練的瓶頸仍然在模擬器的worker 端，而不是server 的通信或計算，理論上說明通過擴大worker規(guī)模進一步加快仿真速度是可行的。結(jié)果也表明，與一個 worker 中只有一個智能體相比，一個模擬器中有多個智能體可以更好地利用虛擬環(huán)境，提高訓(xùn)練效率，側(cè)面也驗證本文的多級并行化設(shè)計的有效性。

通過改進方案的消融實驗，與多智能體并行SAC（64）相比，使用Std 的64 智能體多智能體并行SAC 的訓(xùn)練速度慢得多，訓(xùn)練快速的原因是多智能體并行SAC將局部緩沖區(qū)推送到server，避免了局部梯度計算。

4 結(jié)論

本文提出了一種異步分布式多智能體強化學(xué)習(xí)算法，以及基于Cloud-OTA 的分布式模型快速訓(xùn)練和部署系統(tǒng)架構(gòu)，并以此為基礎(chǔ)建立了基于ROS 的Autoware 和Carla 聯(lián)合集成開發(fā)工具鏈。實驗表明，該方法能有效地提高自動駕駛算法的開發(fā)效率和適應(yīng)性，解決了強化學(xué)習(xí)算法訓(xùn)練過程中低效性和高復(fù)雜度的問題，具有很高的實際應(yīng)用價值。