亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于TD3算法的網(wǎng)聯(lián)汽車隊列控制研究

2025-04-10 00:00:00張鵬

物流科技 2025年7期

摘" 要：隨著汽車智能化和網(wǎng)聯(lián)化技術(shù)的進步，汽車編隊行駛逐漸成為緩解城市交通擁堵的有效手段之一。為了提高隊列行駛的安全性和穩(wěn)定性，文章提出了一種基于雙延遲深度確定性策略梯度（Twin Delayed Deep Deterministic Policy Gradient，TD3）算法的網(wǎng)聯(lián)汽車隊列控制器。該控制器將隊列間距誤差和速度誤差作為智能體的輸入特征，設(shè)計了綜合考慮隊列安全性與穩(wěn)定性的獎勵函數(shù)，接著在SUMO仿真平臺中搭建訓練場景，并進行參數(shù)訓練。結(jié)果表明，與模型預測控制方法相比，提出的TD3算法在安全行駛性能上有顯著優(yōu)勢。

關(guān)鍵詞：網(wǎng)聯(lián)汽車隊列；軌跡優(yōu)化；深度強化學習；模型預測控制

" 中圖分類號：U491" " 文獻標志碼：A

DOI：10.13714/j.cnki.1002-3100.2025.07.014

Abstract： With the advancement of automotive intelligence and connectivity technologies， vehicle platooning has gradually become one of the effective solutions to alleviate urban traffic congestion. To enhance the safety and stability of platoon driving， this study proposes a connected vehicle platoon controller based on the Twin Delayed Deep Deterministic Policy Gradient（TD3）algorithm. The proposed controller incorporates the inter-vehicle distance error and velocity error as input features for the agent， and a reward function is designed to explicitly account for both safety and stability requirements. Then， a training scenario is built in the SUMO simulation platform for parameter training. Experimental results demonstrate that， compared to the model predictive control approach， the TD3-based controller significantly improves driving safety and overall performance.

Key words： connected vehicle platoon; trajectory optimization; deep reinforcement learning; model predictive control

0" 引" 言

" 網(wǎng)聯(lián)汽車隊列作為智能交通領(lǐng)域的的重要研究方向，因其能夠減少車輛行駛中的空氣阻力、降低能耗并改善環(huán)境污染，逐漸成為高效管理交通的關(guān)鍵手段[1]。在網(wǎng)聯(lián)汽車隊列中，車輛以期望間距穩(wěn)定行駛，不僅有助于降低交通事故的發(fā)生概率，還能有效提高道路利用率[2]。這種隊列控制策略對車輛行駛的安全性、舒適性等指標具有重要影響，是實現(xiàn)智慧交通的核心技術(shù)之一[3]。

近年來人工智能技術(shù)的迅猛發(fā)展，深度強化學習（Deep Reinforcement Learning，DRL）通過與環(huán)境的交互式學習，能夠自適應的優(yōu)化控制策略，在解決復雜決策問題方面表現(xiàn)出色[4]。在自動駕駛領(lǐng)域，DRL已被廣泛應用于路徑規(guī)劃、行為決策和控制優(yōu)化等場景中。對于網(wǎng)聯(lián)汽車隊列控制問題，基于優(yōu)化的模型預測控制（Model Predictive Control，MPC）在復雜環(huán)境下可能面臨計算效率不足的問題，難以實現(xiàn)高效的車輛編隊管理[5]。而深度強化學習方法憑借其強大的泛化能力和適應性，為解決這些難題提供了一條高效的路徑。本文在SUMO仿真平臺上構(gòu)建了強化學習訓練環(huán)境，并基于TensorFlow深度學習框架設(shè)計TD3的隊列控制器。通過選取縱向間距誤差和速度誤差作為輸入變量，并設(shè)計針對安全性和穩(wěn)定性的獎勵函數(shù)，最終將隊列行駛所需的加速度作為輸出控制量，從而建立了適用于城市工況下的隊列控制策略。

1" 隊列控制研究現(xiàn)狀

網(wǎng)聯(lián)汽車隊列控制通常包括縱向控制、側(cè)向控制和綜合控制三個方面。縱向控制的主要任務是使隊列中的車輛保持安全間距，并在直線道路上實現(xiàn)跟馳，從而保證隊列行駛的安全性和舒適性；側(cè)向控制則關(guān)注于實現(xiàn)隊列換道、彎道行駛和避障等行為；綜合控制研究是縱向和側(cè)向控制相耦合的方式，需要考慮隊列在行駛過程中出現(xiàn)的各種因素。針對上述隊列控制問題，相關(guān)學者已經(jīng)提出了多種隊列控制器，并將其應用于不同的交通場景。目前，較為成熟的方法包括基于比例-積分-微分（Proportion Integration Differentiation，PID）控制的隊列控制方法、基于MPC的隊列控制方法和基于DRL的隊列控制方法等。PID控制方法雖然結(jié)構(gòu)簡單，但在面對復雜和多變的行駛環(huán)境時，不能提供足夠的適應性和控制精度。Zhen et al.[6]在研究純電動車的生態(tài)駕駛軌跡規(guī)劃問題中，首先采用動態(tài)規(guī)劃來獲取領(lǐng)航車的期望軌跡，對于隊列中的其他車輛使用基于PID的自適應巡航控制跟隨前車。Ma et al.[7]提出一種基于模擬退火粒子群優(yōu)化算法的MPC方法，建立了包括隊列車輛經(jīng)濟性、舒適性和安全性的多目標優(yōu)化函數(shù)，通過與自適應巡航控制進行對比，結(jié)果表明，所提出的MPC方法不僅滿足隊列安全要求，還在提升燃油經(jīng)濟性方面表現(xiàn)出色。馬曉帆[8]在進行商用車隊列綜合控制研究時，將所有的跟隨車看作是一個單獨智能體，且該智能體的空間狀態(tài)由每輛跟隨車與前車的速度誤差、橫縱向間距誤差等構(gòu)成。接著設(shè)計了適當?shù)莫剟詈瘮?shù)，采用DRL算法對智能體進行訓練，以獲得最優(yōu)的控制策略。

2" 基于TD3的網(wǎng)聯(lián)汽車隊列控制策略

2.1" TD3算法

目標網(wǎng)絡的參數(shù)并不是直接復制當前網(wǎng)絡的參數(shù)，而是通過一個軟更新的方式，逐步調(diào)整目標網(wǎng)絡的參數(shù)向當前網(wǎng)絡的參數(shù)靠近。具體來說，目標網(wǎng)絡的參數(shù)在每次更新時會按照一個較小的步長進行更新，從而避免訓練過程中的劇烈波動。這種軟更新機制有助于保持訓練過程的穩(wěn)定性，進而提高算法的收斂性。更新方式如公式（5）所示：

3" 仿真結(jié)果與分析

3.1" 參數(shù)與訓練結(jié)果

為驗證提出的TD3算法的有效性，選擇SUMO作為強化學習的訓練和驗證環(huán)境，并采用Tensorflow深度學習框架設(shè)計TD3算法。通過Traci（Traffic Control Interface）接口實現(xiàn)SUMO環(huán)境與PyCharm編譯器之間的數(shù)據(jù)。TD3算法的主要參數(shù)如表1所示。

根據(jù)上述參數(shù)，訓練得到的累計獎勵值如圖4所示。在前50輪的訓練中，由于Actor網(wǎng)絡尚未進行充分優(yōu)化，輸出的動作較為隨機，且受到噪聲的影響，導致獎勵值較低。隨著訓練回合次數(shù)增加，獎勵值逐漸上升，在200輪左右趨于穩(wěn)定。訓練結(jié)果表明，所設(shè)計的深度強化學習算法在隊列控制已展現(xiàn)出較優(yōu)的效果。

3.2" 模型預測控制

為了與提出的TD3方法進行對比，本文建立了一種分布式模型預測控制的隊列控制器。模型預測的核心思想是根據(jù)當前車輛及前車的狀態(tài)和動力學特性，預測未來一段時間內(nèi)跟隨車的行駛軌跡，并通過優(yōu)化在預測時域內(nèi)的控制輸入，從而實現(xiàn)車輛的最優(yōu)控制。MPC隊列控制的目標函數(shù)如公式（11）所示，通過優(yōu)化在預測時域T內(nèi)跟隨車與前車的間距誤差、速度誤差和加速度變化量得到最優(yōu)控制序列，并將序列中第一個控制值作為下一時刻車輛的加速度。

3.3" 結(jié)果分析

由于在隊列控制策略中未考慮領(lǐng)航車的速度規(guī)劃，本文選擇城市工況FTP75（Federal Test Procedure）中的部分工況作為領(lǐng)航車的行駛工況，以驗證隊列控制方法的性能。FTP75工況的步長為1秒，與仿真步長不一致，因此需要對工況數(shù)據(jù)進行插值處理，結(jié)果如圖5所示。

在FTP75部分工況下，隊列行駛的速度曲線如圖6和圖7所示。在MPC和TD3控制策略下，當領(lǐng)航車的速度發(fā)生變化時，跟隨車能夠及時做出響應。在100秒左右，領(lǐng)航車狀態(tài)由減速變?yōu)榧铀?，與MPC控制策略相比，TD3策略下隊列的速度變化更為迅速。原因在于，MPC的目標中考慮了加速度變化量，而TD3策略則沒有。因此，在MPC控制下，隊列加速度變化較為緩慢，導致隊尾車輛的速度未能及時根據(jù)前車狀態(tài)進行調(diào)整。

根據(jù)圖8和圖9所示的隊列行駛間距誤差曲線，TD3策略下的間距誤差范圍小于MPC控制下的間距誤差，因此TD3策略具有更好的安全性能。由于本文選擇的隊列拓撲結(jié)構(gòu)是PF（Predecessor Following），即跟隨車1的速度是直接受到領(lǐng)航車0速度變化的影響，而后續(xù)跟隨車間接受到領(lǐng)航車的影響，因此在兩種隊列控制方法中，跟隨車1的間距誤差通常大于其他跟隨車的間距誤差。在MPC控制下，跟隨車1的間距誤差在±1米以內(nèi)，其他跟隨車的間距誤差保持在±0.6米以內(nèi)；在TD3控制下，跟隨車1的間距誤差在±0.6米以內(nèi)，其余跟隨車的間距誤差在±0.2米以內(nèi)，且相較于MPC間距誤差變化更加穩(wěn)定。

隊列速度誤差如圖10和圖11所示。在MPC和TD3控制策略下，跟隨車1的速度誤差范圍均在±0.5km/h內(nèi)，而在TD3策略中，其他跟隨車的速度誤差更小，范圍為±0.3km/h。在40秒時，領(lǐng)航車減速，圖9中的跟隨車的速度誤差較大；而在圖10中，除跟隨車1外，其他跟隨車速度誤差保持在一個穩(wěn)定范圍。這表明TD3隊列策略在領(lǐng)航車速度發(fā)生變化時，能夠確保隊列中跟隨車對前車有良好的速度跟隨表現(xiàn)。

4" 結(jié)" 論

" 本文探討了一種基于深度強化學習的網(wǎng)聯(lián)汽車隊列軌跡優(yōu)化策略。結(jié)合Tensorflow框架和SUMO仿真環(huán)境，提出了一種基于雙延遲深度確定性梯度策略的網(wǎng)聯(lián)汽車隊列控制方法。經(jīng)過神經(jīng)網(wǎng)絡的訓練和測試，所提出方法能夠有效滿足車隊縱向的安全行駛需求。與模型預測控制方法在城市工況下進行對比，實驗結(jié)果表明，所提出的隊列控制方法在間距安全性和速度穩(wěn)定性方面有較強的適應性。

參考文獻：

[1] 司勝營，劉子薇，孫恩澤. 智慧城市基礎(chǔ)設(shè)施與智能網(wǎng)聯(lián)汽車協(xié)同發(fā)展研究與實施[J]. 現(xiàn)代交通與冶金材料，2023，3（3）：10

-23，42.

[2] 趙倩. 基于安全間距策略的商用車隊列控制研究[D]. 長春：吉林大學，2023.

[3] 繆立新，王發(fā)平. V2X車聯(lián)網(wǎng)關(guān)鍵技術(shù)研究及應用綜述[J]. 汽車工程學報，2020，10（1）：1-12.

[4]" LI D， ZHAO D， ZHANG Q， et al. Reinforcement learning and deep learning based lateral control for autonomous driving[J]. IEEE Computational Intelligence Magazine， 2019，14（2）：83-98.

[5] 羅捷，魯良葉，何德峰，等. 通信拓撲切換下車輛隊列分布式模型預測控制[J]. 控制理論與應用，2021，38（7）：887-896.

[6]" ZHEN H， MOSHARAFIAN S， YANG J J， et al. Eco-driving trajectory planning of a heterogeneous platoon in urban environments[J]. IFAC-PapersOnLine， 2022，55（24）：161-166.

[7]" MA H， CHU L， GUO J， et al. Cooperative adaptive cruise control strategy optimization for electric vehicles based on SA

-PSO with model predictive control[J]. IEEE Access， 2020，8：225745-225756.

[8] 馬曉帆. 基于深度強化學習的商用車編隊控制方法[D]. 長春：吉林大學，2022.

收稿日期：2025-02-01

基金項目：西安市科技計劃項目（2022JH-GXQY-0074）

作者簡介：張" 鵬（1998—），男，陜西延安人，長安大學汽車學院碩士研究生，研究方向：網(wǎng)聯(lián)汽車隊列控制。

引文格式：張鵬. 基于TD3算法的網(wǎng)聯(lián)汽車隊列控制研究[J]. 物流科技，2025，48（7）：55-59.

物流科技2025年7期

物流科技的其它文章: “入-轉(zhuǎn)-出”三步法下高職“新質(zhì)”物流人才培養(yǎng)研究; 基于機器學習的學生成績預測研究; 適應智慧物流的物流管理專業(yè)教學創(chuàng)新路徑研究; 基于案例教學法的《物流與供應鏈金融》課程教學改革研究; 高職物流專業(yè)課程思政虛擬教研室建設(shè)：價值意蘊與實踐進路; 民辦職業(yè)本科數(shù)字化物流創(chuàng)新人才培養(yǎng)的教育生態(tài)系統(tǒng)評價