亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于TD3算法的網(wǎng)聯(lián)汽車隊列控制研究

        2025-04-10 00:00:00張鵬
        物流科技 2025年7期

        摘" 要:隨著汽車智能化和網(wǎng)聯(lián)化技術(shù)的進步,汽車編隊行駛逐漸成為緩解城市交通擁堵的有效手段之一。為了提高隊列行駛的安全性和穩(wěn)定性,文章提出了一種基于雙延遲深度確定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)算法的網(wǎng)聯(lián)汽車隊列控制器。該控制器將隊列間距誤差和速度誤差作為智能體的輸入特征,設(shè)計了綜合考慮隊列安全性與穩(wěn)定性的獎勵函數(shù),接著在SUMO仿真平臺中搭建訓練場景,并進行參數(shù)訓練。結(jié)果表明,與模型預測控制方法相比,提出的TD3算法在安全行駛性能上有顯著優(yōu)勢。

        關(guān)鍵詞:網(wǎng)聯(lián)汽車隊列;軌跡優(yōu)化;深度強化學習;模型預測控制

        " 中圖分類號:U491" " 文獻標志碼:A

        DOI:10.13714/j.cnki.1002-3100.2025.07.014

        Abstract: With the advancement of automotive intelligence and connectivity technologies, vehicle platooning has gradually become one of the effective solutions to alleviate urban traffic congestion. To enhance the safety and stability of platoon driving, this study proposes a connected vehicle platoon controller based on the Twin Delayed Deep Deterministic Policy Gradient(TD3)algorithm. The proposed controller incorporates the inter-vehicle distance error and velocity error as input features for the agent, and a reward function is designed to explicitly account for both safety and stability requirements. Then, a training scenario is built in the SUMO simulation platform for parameter training. Experimental results demonstrate that, compared to the model predictive control approach, the TD3-based controller significantly improves driving safety and overall performance.

        Key words: connected vehicle platoon; trajectory optimization; deep reinforcement learning; model predictive control

        0" 引" 言

        " 網(wǎng)聯(lián)汽車隊列作為智能交通領(lǐng)域的的重要研究方向,因其能夠減少車輛行駛中的空氣阻力、降低能耗并改善環(huán)境污染,逐漸成為高效管理交通的關(guān)鍵手段[1]。在網(wǎng)聯(lián)汽車隊列中,車輛以期望間距穩(wěn)定行駛,不僅有助于降低交通事故的發(fā)生概率,還能有效提高道路利用率[2]。這種隊列控制策略對車輛行駛的安全性、舒適性等指標具有重要影響,是實現(xiàn)智慧交通的核心技術(shù)之一[3]。

        近年來人工智能技術(shù)的迅猛發(fā)展,深度強化學習(Deep Reinforcement Learning,DRL)通過與環(huán)境的交互式學習,能夠自適應的優(yōu)化控制策略,在解決復雜決策問題方面表現(xiàn)出色[4]。在自動駕駛領(lǐng)域,DRL已被廣泛應用于路徑規(guī)劃、行為決策和控制優(yōu)化等場景中。對于網(wǎng)聯(lián)汽車隊列控制問題,基于優(yōu)化的模型預測控制(Model Predictive Control,MPC)在復雜環(huán)境下可能面臨計算效率不足的問題,難以實現(xiàn)高效的車輛編隊管理[5]。而深度強化學習方法憑借其強大的泛化能力和適應性,為解決這些難題提供了一條高效的路徑。本文在SUMO仿真平臺上構(gòu)建了強化學習訓練環(huán)境,并基于TensorFlow深度學習框架設(shè)計TD3的隊列控制器。通過選取縱向間距誤差和速度誤差作為輸入變量,并設(shè)計針對安全性和穩(wěn)定性的獎勵函數(shù),最終將隊列行駛所需的加速度作為輸出控制量,從而建立了適用于城市工況下的隊列控制策略。

        1" 隊列控制研究現(xiàn)狀

        網(wǎng)聯(lián)汽車隊列控制通常包括縱向控制、側(cè)向控制和綜合控制三個方面。縱向控制的主要任務是使隊列中的車輛保持安全間距,并在直線道路上實現(xiàn)跟馳,從而保證隊列行駛的安全性和舒適性;側(cè)向控制則關(guān)注于實現(xiàn)隊列換道、彎道行駛和避障等行為;綜合控制研究是縱向和側(cè)向控制相耦合的方式,需要考慮隊列在行駛過程中出現(xiàn)的各種因素。針對上述隊列控制問題,相關(guān)學者已經(jīng)提出了多種隊列控制器,并將其應用于不同的交通場景。目前,較為成熟的方法包括基于比例-積分-微分(Proportion Integration Differentiation,PID)控制的隊列控制方法、基于MPC的隊列控制方法和基于DRL的隊列控制方法等。PID控制方法雖然結(jié)構(gòu)簡單,但在面對復雜和多變的行駛環(huán)境時,不能提供足夠的適應性和控制精度。Zhen et al.[6]在研究純電動車的生態(tài)駕駛軌跡規(guī)劃問題中,首先采用動態(tài)規(guī)劃來獲取領(lǐng)航車的期望軌跡,對于隊列中的其他車輛使用基于PID的自適應巡航控制跟隨前車。Ma et al.[7]提出一種基于模擬退火粒子群優(yōu)化算法的MPC方法,建立了包括隊列車輛經(jīng)濟性、舒適性和安全性的多目標優(yōu)化函數(shù),通過與自適應巡航控制進行對比,結(jié)果表明,所提出的MPC方法不僅滿足隊列安全要求,還在提升燃油經(jīng)濟性方面表現(xiàn)出色。馬曉帆[8]在進行商用車隊列綜合控制研究時,將所有的跟隨車看作是一個單獨智能體,且該智能體的空間狀態(tài)由每輛跟隨車與前車的速度誤差、橫縱向間距誤差等構(gòu)成。接著設(shè)計了適當?shù)莫剟詈瘮?shù),采用DRL算法對智能體進行訓練,以獲得最優(yōu)的控制策略。

        2" 基于TD3的網(wǎng)聯(lián)汽車隊列控制策略

        2.1" TD3算法

        目標網(wǎng)絡的參數(shù)并不是直接復制當前網(wǎng)絡的參數(shù),而是通過一個軟更新的方式,逐步調(diào)整目標網(wǎng)絡的參數(shù)向當前網(wǎng)絡的參數(shù)靠近。具體來說,目標網(wǎng)絡的參數(shù)在每次更新時會按照一個較小的步長進行更新,從而避免訓練過程中的劇烈波動。這種軟更新機制有助于保持訓練過程的穩(wěn)定性,進而提高算法的收斂性。更新方式如公式(5)所示:

        3" 仿真結(jié)果與分析

        3.1" 參數(shù)與訓練結(jié)果

        為驗證提出的TD3算法的有效性,選擇SUMO作為強化學習的訓練和驗證環(huán)境,并采用Tensorflow深度學習框架設(shè)計TD3算法。通過Traci(Traffic Control Interface)接口實現(xiàn)SUMO環(huán)境與PyCharm編譯器之間的數(shù)據(jù)。TD3算法的主要參數(shù)如表1所示。

        根據(jù)上述參數(shù),訓練得到的累計獎勵值如圖4所示。在前50輪的訓練中,由于Actor網(wǎng)絡尚未進行充分優(yōu)化,輸出的動作較為隨機,且受到噪聲的影響,導致獎勵值較低。隨著訓練回合次數(shù)增加,獎勵值逐漸上升,在200輪左右趨于穩(wěn)定。訓練結(jié)果表明,所設(shè)計的深度強化學習算法在隊列控制已展現(xiàn)出較優(yōu)的效果。

        3.2" 模型預測控制

        為了與提出的TD3方法進行對比,本文建立了一種分布式模型預測控制的隊列控制器。模型預測的核心思想是根據(jù)當前車輛及前車的狀態(tài)和動力學特性,預測未來一段時間內(nèi)跟隨車的行駛軌跡,并通過優(yōu)化在預測時域內(nèi)的控制輸入,從而實現(xiàn)車輛的最優(yōu)控制。MPC隊列控制的目標函數(shù)如公式(11)所示,通過優(yōu)化在預測時域T內(nèi)跟隨車與前車的間距誤差、速度誤差和加速度變化量得到最優(yōu)控制序列,并將序列中第一個控制值作為下一時刻車輛的加速度。

        3.3" 結(jié)果分析

        由于在隊列控制策略中未考慮領(lǐng)航車的速度規(guī)劃,本文選擇城市工況FTP75(Federal Test Procedure)中的部分工況作為領(lǐng)航車的行駛工況,以驗證隊列控制方法的性能。FTP75工況的步長為1秒,與仿真步長不一致,因此需要對工況數(shù)據(jù)進行插值處理,結(jié)果如圖5所示。

        在FTP75部分工況下,隊列行駛的速度曲線如圖6和圖7所示。在MPC和TD3控制策略下,當領(lǐng)航車的速度發(fā)生變化時,跟隨車能夠及時做出響應。在100秒左右,領(lǐng)航車狀態(tài)由減速變?yōu)榧铀?,與MPC控制策略相比,TD3策略下隊列的速度變化更為迅速。原因在于,MPC的目標中考慮了加速度變化量,而TD3策略則沒有。因此,在MPC控制下,隊列加速度變化較為緩慢,導致隊尾車輛的速度未能及時根據(jù)前車狀態(tài)進行調(diào)整。

        根據(jù)圖8和圖9所示的隊列行駛間距誤差曲線,TD3策略下的間距誤差范圍小于MPC控制下的間距誤差,因此TD3策略具有更好的安全性能。由于本文選擇的隊列拓撲結(jié)構(gòu)是PF(Predecessor Following),即跟隨車1的速度是直接受到領(lǐng)航車0速度變化的影響,而后續(xù)跟隨車間接受到領(lǐng)航車的影響,因此在兩種隊列控制方法中,跟隨車1的間距誤差通常大于其他跟隨車的間距誤差。在MPC控制下,跟隨車1的間距誤差在±1米以內(nèi),其他跟隨車的間距誤差保持在±0.6米以內(nèi);在TD3控制下,跟隨車1的間距誤差在±0.6米以內(nèi),其余跟隨車的間距誤差在±0.2米以內(nèi),且相較于MPC間距誤差變化更加穩(wěn)定。

        隊列速度誤差如圖10和圖11所示。在MPC和TD3控制策略下,跟隨車1的速度誤差范圍均在±0.5km/h內(nèi),而在TD3策略中,其他跟隨車的速度誤差更小,范圍為±0.3km/h。在40秒時,領(lǐng)航車減速,圖9中的跟隨車的速度誤差較大;而在圖10中,除跟隨車1外,其他跟隨車速度誤差保持在一個穩(wěn)定范圍。這表明TD3隊列策略在領(lǐng)航車速度發(fā)生變化時,能夠確保隊列中跟隨車對前車有良好的速度跟隨表現(xiàn)。

        4" 結(jié)" 論

        " 本文探討了一種基于深度強化學習的網(wǎng)聯(lián)汽車隊列軌跡優(yōu)化策略。結(jié)合Tensorflow框架和SUMO仿真環(huán)境,提出了一種基于雙延遲深度確定性梯度策略的網(wǎng)聯(lián)汽車隊列控制方法。經(jīng)過神經(jīng)網(wǎng)絡的訓練和測試,所提出方法能夠有效滿足車隊縱向的安全行駛需求。與模型預測控制方法在城市工況下進行對比,實驗結(jié)果表明,所提出的隊列控制方法在間距安全性和速度穩(wěn)定性方面有較強的適應性。

        參考文獻:

        [1] 司勝營,劉子薇,孫恩澤. 智慧城市基礎(chǔ)設(shè)施與智能網(wǎng)聯(lián)汽車協(xié)同發(fā)展研究與實施[J]. 現(xiàn)代交通與冶金材料,2023,3(3):10

        -23,42.

        [2] 趙倩. 基于安全間距策略的商用車隊列控制研究[D]. 長春:吉林大學,2023.

        [3] 繆立新,王發(fā)平. V2X車聯(lián)網(wǎng)關(guān)鍵技術(shù)研究及應用綜述[J]. 汽車工程學報,2020,10(1):1-12.

        [4]" LI D, ZHAO D, ZHANG Q, et al. Reinforcement learning and deep learning based lateral control for autonomous driving[J]. IEEE Computational Intelligence Magazine, 2019,14(2):83-98.

        [5] 羅捷,魯良葉,何德峰,等. 通信拓撲切換下車輛隊列分布式模型預測控制[J]. 控制理論與應用,2021,38(7):887-896.

        [6]" ZHEN H, MOSHARAFIAN S, YANG J J, et al. Eco-driving trajectory planning of a heterogeneous platoon in urban environments[J]. IFAC-PapersOnLine, 2022,55(24):161-166.

        [7]" MA H, CHU L, GUO J, et al. Cooperative adaptive cruise control strategy optimization for electric vehicles based on SA

        -PSO with model predictive control[J]. IEEE Access, 2020,8:225745-225756.

        [8] 馬曉帆. 基于深度強化學習的商用車編隊控制方法[D]. 長春:吉林大學,2022.

        收稿日期:2025-02-01

        基金項目:西安市科技計劃項目(2022JH-GXQY-0074)

        作者簡介:張" 鵬(1998—),男,陜西延安人,長安大學汽車學院碩士研究生,研究方向:網(wǎng)聯(lián)汽車隊列控制。

        引文格式:張鵬. 基于TD3算法的網(wǎng)聯(lián)汽車隊列控制研究[J]. 物流科技,2025,48(7):55-59.

        日本一区二区国产精品| 久热这里只有精品视频6| 欧美多毛肥胖老妇做爰| 国产91第一页| 中文字幕人乱码中文字幕乱码在线| 色偷偷色噜噜狠狠网站30根| 国产伦精品一区二区三区| 国产女高清在线看免费观看| 亚洲黄片av在线免费观看| 日日噜噜夜夜狠狠2021| 美女视频在线观看一区二区三区| 无码精品一区二区三区在线| 自拍偷自拍亚洲精品情侣| 国产午夜无码精品免费看动漫| 久久99免费精品国产| 日本精品久久久久中文字幕| 国产三级在线观看播放视频| 69av视频在线| 熟妇人妻精品一区二区视频| 久久天天躁狠狠躁夜夜不卡| 精品久久久久久国产| 日韩最新av一区二区| av网站在线观看大全| 激情影院内射美女| 在线观看网址你懂的| 一区二区三区免费自拍偷拍视频| 国产精品理论片在线观看| 18黑白丝水手服自慰喷水网站| 无码AV高潮喷水无码专区线| 亚洲精品中文有码字幕| 久久国产黄色片太色帅| 成人三级a视频在线观看| av无码天堂一区二区三区| 亚洲中文字幕在线第六区| 亚洲人交乣女bbw| 午夜国产在线| 亚洲一区二区三区天堂av| 国产精品永久在线观看| 少妇人妻在线视频| 日本一区二区三区的免费视频观看| 久久精品一区午夜视频|