亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        無人駕駛鉸接式車輛強化學習路徑跟蹤控制算法

        2017-04-19 09:11:02邵俊愷張文明康翌婷趙鑫鑫
        農業(yè)機械學報 2017年3期
        關鍵詞:鉸接式參考模型航向

        邵俊愷 趙 翾,2 楊 玨 張文明 康翌婷 趙鑫鑫

        (1.北京科技大學機械工程學院, 北京 100083; 2.北京華為數字技術有限公司, 北京 100085)

        無人駕駛鉸接式車輛強化學習路徑跟蹤控制算法

        邵俊愷1趙 翾1,2楊 玨1張文明1康翌婷1趙鑫鑫1

        (1.北京科技大學機械工程學院, 北京 100083; 2.北京華為數字技術有限公司, 北京 100085)

        針對無人駕駛鉸接式運輸車輛無人駕駛智能控制問題,提出了一種強化學習自適應PID路徑跟蹤控制算法。首先推導了鉸接車的運動學模型,根據該模型建立實際行駛路徑與參考路徑偏差的模型,以PID控制算法為基礎,設計了基于強化學習的自適應PID路徑跟蹤控制器,該控制器以橫向位置偏差、航向角偏差、曲率偏差為輸入,以轉角控制量為輸出,通過強化學習算法對PID參數進行在線自適應整定。最后在實車道路試驗中驗證了控制器的路徑跟蹤質量并與傳統(tǒng)PID控制結果進行了對比。結果表明,相比于傳統(tǒng)PID控制器,強化學習自適應PID控制器能夠有效減小超調和震蕩,實現(xiàn)精確跟蹤參考路徑,可以較好地實現(xiàn)系統(tǒng)動態(tài)性能和穩(wěn)態(tài)誤差性能的優(yōu)化。

        鉸接式車輛; 駕駛; 強化學習; 路徑跟蹤

        引言

        鉸接式車輛作為一種靈活、機動的運輸設備,常用于非結構地形運輸作業(yè),然而特殊的轉向形式使其路徑跟蹤控制與傳統(tǒng)車輛有很大差別。

        針對路徑跟蹤控制算法,國內外眾多學者進行了大量研究,主要算法包括比例積分微分(PID)控制[1]、滑??刂芠2]、模糊控制[3]和智能控制[4]等。隨著被控對象越來越復雜,控制器設計經常結合多種算法來實現(xiàn)功能互補和性能提升。ASLAM等[5]針對滑移轉向車動力學模型進行了模糊滑??刂坡窂礁櫍w翾等[6]針對鉸接式車輛使用Ackermann公式與指數趨近律設計滑??刂七M行路徑跟蹤。TALEBI等[7]提出一種用于輪式機器人的模糊PID路徑跟蹤控制器,將模糊邏輯用于PID參數調校。文獻[5-7]所使用的路徑跟蹤算法均為離線算法,不能根據使用環(huán)境在線優(yōu)化。裴巖[8]使用強化學習算法對車載導航系統(tǒng)路徑規(guī)劃進行優(yōu)化,并預測了短時交通流。沈晶等[9]和付成偉[10]提出了一種基于分層強化學習的移動機器人路徑規(guī)劃算法,用于位置動態(tài)環(huán)境的路徑規(guī)劃。文獻[8-10]均使用強化學習算法研究路徑規(guī)劃問題,與路徑跟蹤問題模型不同。

        本文開發(fā)一種結合機器學習與PID控制的路徑跟蹤算法并使用實車道路試驗驗證控制品質,旨在實現(xiàn)無人駕駛鉸接式車輛路徑跟蹤在線優(yōu)化。

        1 鉸接車模型

        1.1 鉸接車數學模型

        鉸接車轉向過程可以分解為2個運動,即穩(wěn)態(tài)轉向運動和原地轉向運動,以下分別就這2種運動過程進行分析。

        圖1 鉸接車穩(wěn)態(tài)轉向示意圖Fig.1 Schematic of articulated vehicle in steady-state steering

        圖1為鉸接車穩(wěn)態(tài)轉向模型,其中O為瞬心,Pf(xf,yf)和Pr(xr,yr)分別為前后橋中點,lf和lr分別為前后橋與鉸接點距離,θf和θr為前后車體朝向,即航向角,前后車體夾角γ為鉸接轉向角。出于習慣考慮,通常以鉸接車前橋中點Pf為整車狀態(tài)參考點,因為該點的速度與鉸接車的前進方向一致,有利于分析計算[11]。

        定義整車速度v為[12]

        v=vf

        (1)

        式中v——整車速度,m/svf——前車架速度,m/s

        前橋中點Pf速度[13]為

        (2)

        式中xf——前橋中點橫坐標,myf——前橋中點縱坐標,mθf——前橋航向角,rad

        前橋航向角變化率即前橋角速度為

        (3)

        式中l(wèi)f、lr——前、后橋與鉸接點距離,mγ——鉸接轉向角,rad

        鉸接車穩(wěn)態(tài)轉向過程前橋的位姿狀態(tài)可表示為Pf=(xf,yf,θf,γ),即

        (4)

        圖2為鉸接車原地轉向模型,因為Pf為整車狀態(tài)參考點,因此認為原地轉向過程中該點相對地面靜止[6]。

        圖2 鉸接車原地轉向示意圖Fig.2 Schematic of articulated vehicle in pivot steering

        則前橋中點Pf在XY平面上的速度分量為

        (5)

        航向角變化率為

        (6)

        鉸接車穩(wěn)態(tài)轉向過程前橋的位姿狀態(tài)可表示為Pf=(xf,yf,θf,γ),即

        (7)

        聯(lián)立式(4)、式(7)得出鉸接車位姿狀態(tài)Pf= (xf,yf,θf,γ),即

        (8)

        1.2 運動路徑描述

        圖3為鉸接車路徑示意圖,定義了鉸接車在行駛過程中,實際路徑和參考路徑之間的偏差[14-16]。小圓圓心為c,是鉸接車瞬時實際行駛軌跡;大圓圓心為C,是鉸接車參考軌跡。理想情況下,鉸接車應能通過參考軌跡上的3個點P1、P2、P3。

        圖3 鉸接車路徑示意圖Fig.3 Schematic of articulated vehicle path

        現(xiàn)定義如下變量[17-18]:

        (1)橫向位置偏差εd:鉸接車參考定位點p與參考路徑上對應點P(與參考路徑距離最近點)的橫向位置差值。

        (2)航向角偏差εθ:鉸接車定位參考點p的航向角(速度方向與車輛坐標系X軸之間的夾角)與參考路徑上對應點P的航向角(對應點的切線與車輛坐標系X軸之間的夾角)的差值。

        (3)曲率偏差εc:鉸接車定位參考點p與參考路徑上對應點P的曲率差值。

        圖4為實際路徑逼近參考路徑情況示意圖。圖4a為實際路徑與參考路徑平行的情況,此時兩路徑距離即為橫向位置偏差εd,控制器可以根據該偏差計算控制量使橫向位置偏差εd減??;圖4b為實際路徑與參考路徑相交的情況,此時兩路徑夾角即為航向角偏差εθ,當鉸接車向參考路徑接近時,雖然減小了橫向位置偏差εd,卻產生了航向角偏差εθ,在鉸接車行駛至路徑交點處時橫向位置偏差εd消除,但由于車體慣性與外界環(huán)境干擾等因素影響,鉸接車依舊保持之前的航向,則下一時刻開始橫向位置偏差εd再次產生,因此航向角偏差也需要作為控制器輸入進行控制;圖4c為實際路徑與參考路徑相切的情況,此時兩路徑切點處曲率差為曲率偏差εθ,鉸接車行駛至切點位置時橫向位置偏差εd與航向角偏差εθ均為0,但由于車體慣性與外界環(huán)境干擾等因素影響,鉸接車依舊保持之前的轉角,則下一時刻開始橫向位置偏差εd與航向角偏差εθ再次產生。因此橫向位置偏差εd、航向角偏差εθ、曲率偏差εc均需要作為控制器輸入進行偏差控制,以加快收斂速度、減小震蕩。

        圖4 實際路徑逼近參考路徑情況示意圖Fig.4 Schematics of real path and reference path

        2 強化學習自適應PID路徑跟蹤算法

        2.1 強化學習方法

        強化學習是機器學習中的一種重要方法,不同于監(jiān)督學習方法,其不需要根據樣本進行訓練[19-20],而是通過與外界環(huán)境進行互動,并收到環(huán)境反饋和評價結果來選擇下一時刻執(zhí)行動作。該算法適合在線優(yōu)化。因此本文使用強化學習方法對PID參數進行在線實時整定,從而使路徑跟蹤控制器自適應不同工況。

        2.2 強化學習自適應PID算法

        強化學習自適應PID算法結構如圖5所示[21],自適應PID控制器為一個可以隨輸入變化而改變增益的PID控制器,被控對象即鉸接車,輸出為路徑偏差,參考模型則是對偏差收斂的趨勢進行規(guī)定,以獲得理想的收斂效果。參考模型期望的偏差收斂值與實際偏差差值根據回報函數計算會得到一個當前參數效果的評價,通過累計歷史回報計算綜合回報指標,作為Actor-Critic網絡對歷史多次參數調整結果的優(yōu)劣的評價,再根據評價調整新的增益參數,并傳遞給PID控制器。

        則自適應PID控制器的PID增益為

        K(t)=K0+ΔK

        (9)

        式中K(t)——自適應PID增益向量K0——常數向量 ΔK——自適應PID增益可變向量

        圖5 強化學習自適應PID算法結構Fig.5 Flowchart of enforcement learning adaptive PID

        由于被控對象輸出不是單一變量,Actor-Critic網絡根據評價進行隨機探索需要指定分布規(guī)則,這里選用高斯分布作為動作執(zhí)行概率的表述[22],即

        (10)

        (11)

        回報函數用于對當前整定的參數效果進行評價,因此直接關系到后續(xù)動作的選擇,一般以參考模型和被控對象輸出差值的加權作為回報函數用以評價參數效果。

        rt=k|Δy|

        (12)

        式中rt——回報值k——比例系數,常數或分段常數

        Actor-Critic結構中Critic需要更新歷史執(zhí)行動作的綜合評價,因此需要定義指標用來量化綜合評價,學習的優(yōu)化目標是使歷史折扣回報最大化,綜合回報指標為

        (13)

        式中J——折扣總回報指標β——折扣因子

        由于回報函數輸入是實際偏差與參考模型的期望偏差的函數,因此綜合匯報指標可以反映實際偏差對參考模型逼近的程度。

        強化學習自適應PID控制器學習算法停止準則為綜合回報指標達到要求或學習次數達到給定最大值。本文使用的自適應PID算法使用Actor網絡輸出作為可變增益部分的結果,相比直接作為全部增益結果,避免了初期學習時輸出不穩(wěn)定和學習時間長的問題。

        2.3 路徑跟蹤控制算法設計

        根據偏差定義,強化學習自適應PID控制律為

        u(t)=(kd0+Δkd)εd(t)+(kθ0+Δkθ)εθ(t)+

        (14)

        式中kd0、kθ0、kc0、kD、kI——PID增益常數部分 Δkd、Δkθ、Δkc——PID增益可變部分

        為了加快學習時間、避免系統(tǒng)不穩(wěn)定輸出,式(9)中PID增益常數部分由試湊得出,而增益可變部分通過強化學習自適應PID控制器調節(jié),從而優(yōu)化不同工作環(huán)境下的路徑跟蹤性能。

        根據式(14)的自適應PID控制律,控制器強化學習部分由Actor-Critic網絡組成[23],參考模型期望的偏差與實際偏差差值作為Critic的輸入,Critic輸出為當前增益值下的值函數,Actor輸入與Critic相同,網絡輸出則為增益的調節(jié)結果。Critic使用CMAC網絡,Actor使用BP神經網絡。PID增益可變部分采用式(10)進行隨機嘗試。定義z1、z2、z3(0≤zi≤1,i=1,2,3)為Actor的輸出,則可變增益為[24]

        (15)

        式中Ud、Uθ、Uc——可變增益Δkd、Δkθ、Δkc的變化范圍

        為了獲得理想偏差收斂效果,定義參考模型為

        (16)

        式中b——正常數

        該參考模型定義了系統(tǒng)輸出偏差應按照指數收斂,收斂速度可以通過調節(jié)系數控制。

        作為Critic對Actor輸出的評價,回報函數設計為

        (17)

        式中e1、e2、c——常數k——回報比例系數

        其中,0≤e1≤e2,c>0,k>0。該回報函數使系統(tǒng)側向偏差趨向參考模型偏差,從而達到指數收斂性能。

        3 道路試驗

        鉸接車路徑跟蹤控制試驗使用環(huán)形模擬巷道進行測試,如圖6所示,通過測量各向偏差與控制器輸出對控制效果進行驗證。

        圖6 路徑跟蹤試驗Fig.6 Test of path following

        利用強化學習算法的自適應PID路徑跟蹤控制器對鉸接車進行路徑跟蹤,測試環(huán)形道路路徑跟蹤性能。其中參考模型和回報函數參數為:b=0.2,k=0.4,e1=0.05,e2=0.01,c=0.1,Critic網絡學習因子為0.05,Actor網絡學習因子為0.2。

        PID增益由手工試湊得出,其中增益常數部分為kd=80,kθ=45,kc=3,kI=1,kD=0.1。自適應PID控制器增益可變部分為Ud=40,Uθ=30,Uc=4。根據以上參數,分別使用傳統(tǒng)固定增益PID控制器和強化學習自適應PID控制器對環(huán)形道路進行路徑跟蹤試驗以驗證控制器性能,試驗時間100 s。

        4 試驗結果分析

        圖7和圖8分別給出了路徑跟蹤過程中固定參數PID和強化學習自適應PID控制器的性能比較,包括偏差變化和轉向角控制量變化情況。

        圖7 路徑跟蹤偏差曲線Fig.7 Changing curves of errors in path following

        圖8 路徑跟蹤轉向角控制量曲線Fig.8 Changing curves of desired articulated angles in path following

        表1為試驗結果統(tǒng)計,可以看出經過強化學習自適應PID算法相比固定參數PID算法各向偏差和控制量的幅值、均值、方差均有明顯減小。表明該算法能有效減少震蕩和穩(wěn)態(tài)誤差、提高收斂速度。

        圖9顯示了經過強化學習后的自適應PID控制器增益變化情況,橫向位置偏差增益系數從初始固定增益80增至90附近,隨后在80~100之間調整;航向角偏差增益系數從初始固定增益45迅速降至35,隨后在32~38之間調整;曲率偏差增益系數從初始固定增益3迅速降至1.9,隨后在1.7~2.1范圍內??梢钥闯銎钤鲆嫦禂惦S偏差變化情況進行自適應改變。當實際路徑與參考路徑距離較遠時橫向位置偏差影響起主要作用,而當實際路徑接近參考路徑時,航向角偏差與曲率偏差起主要作用。該算法可以實現(xiàn)PID控制器參數的自適應整定,實現(xiàn)路徑跟蹤控制的智能化。

        表1 試驗結果統(tǒng)計Tab.1 Statistics of test result

        圖9 路徑跟蹤比例增益變化Fig.9 Changes of proportional in path following

        5 結束語

        提供了一種應用于無人駕駛鉸接式車輛的強化學習自適應PID控制精確路徑跟蹤的方法,以橫向位置偏差、航向角偏差、曲率偏差作為路徑跟蹤算法輸入,實現(xiàn)了鉸接式車輛路徑跟蹤,試驗結果表明,該算法穩(wěn)定可靠,可以實現(xiàn)鉸接式車輛的在線優(yōu)化路徑跟蹤控制。橫向位置偏差幅值、均值、方差分別為4.166×10-1mm、-6.921×10-3mm、1.378×10-2mm2,航向角偏差幅值、均值、方差分別為3.852×10-2rad、2.911×10-3rad、8.359×10-5rad2,曲率偏差幅值、均值、方差分別為3.899×10-2m-1、-2.778×10-3m-1、1.241×10-4m-2,轉向角控制量幅值、方差分別為4.298×10-1rad、2.122×10-2rad2,相比于傳統(tǒng)PID控制器,強化學習自適應PID控制器能夠使鉸接式車輛具有更精確的跟蹤參考路徑。

        1 陶永華, 尹怡欣, 葛蘆生. 新型PID控制及其應用[M]. 北京: 機械工業(yè)出版社, 1998.

        2 劉金琨. 滑模變結構控制MATLAB仿真[M]. 北京: 清華大學出版社, 2005.

        3 林輝. 輪轂電機驅動電動汽車聯(lián)合制動的模糊自整定PID控制方法研究[D]. 長春: 吉林大學, 2013. LIN Hui. Research on composite ABS control strategy of fuzzy self-adjusting PID for electric-wheel vehicle[D]. Changchun: Jilin University, 2013. (in Chinese)

        4 辛斌, 陳杰, 彭志紅. 智能優(yōu)化控制:概述與展望[J/OL]. 自動化學報, 2013, 39(11): 1831-1848. http:∥www.aas.net.cn/CN/abstract/abstract18223.shtml. DOI: 10.3724/SP.J.1004.2013.01831. XIN Bin, CHEN Jie, PENG Zhihong. Intelligent optimized control: overview and prospect[J/OL]. Acta Automatica Sinica, 2013,39(11):1831-1848. (in Chinese)

        5 ASLAM J, QIN Shiyin, ALVI M A. Fuzzy sliding mode control algorithm for a four-wheel skid steer vehicle[J]. Journal of Mechanical Science and Technology, 2014, 28(8): 3301-3310.

        6 趙翾, 楊玨, 張文明, 等. 農用輪式鉸接車輛滑模軌跡跟蹤控制算法[J/OL]. 農業(yè)工程學報, 2015, 31(10): 198-203. http:∥www.tcsae.org/nygcxb/ch/reader/view_abstract.aspx?flag=1&file_no=20151026&journal_id=nygcxb. DOI:10.11975/j.issn.1002-6819.2015.10.026. ZHAO Xuan, YANG Jue, ZHANG Wenming, et al. Sliding mode control algorithm for path tracking of articulated dump truck[J/OL]. Transactions of the CSAE, 2015, 31(10): 198-203. (in Chinese)

        7 TALEBI A H, DEHGHANI T A. Using a fuzzy PID controller for the path following of a car-like mobile robot[C]∥International Conference on Robotics and Mechatronics, ICRoM 2013, 2013: 189-193.

        8 裴巖. 機器學習理論研究及其在車載導航系統(tǒng)中的應用[D]. 沈陽: 東北大學, 2009. PEI Yan. Research on the machine learning theory and its application in the vehicle navigation system[D]. Shenyang: Northeastern University, 2009. (in Chinese)

        9 沈晶, 顧國昌, 劉海波. 未知動態(tài)環(huán)境中基于分層強化學習的移動機器人路徑規(guī)劃[J/OL]. 機器人, 2006(5): 544-547. http:∥robot.sia.cn/CN/abstract/abstract12918.shtml. DOI: 10.3321/j.issn:1002-0446.2006.05.017. SHEN Jing, GU Guochang, LIU Haibo. Mobile robot path planning based on hierarchical reinforcement learning in unknown dynamic environment[J/OL]. Robot, 2006(5): 544-547. (in Chinese)

        10 付成偉. 基于分層強化學習的移動機器人路徑規(guī)劃[D]. 哈爾濱: 哈爾濱工程大學, 2008. FU Chengwei. Mobile robot path planning based on hierarchical reinforcement learning[D]. Harbin: Harbin Engineering University, 2008. (in Chinese)

        11 ZHAO Xuan, YANG Jue, LI Lin, et al. Path tracking control for autonomous underground mining articulated dump truck[J]. EEA-Electrotehnica, Electronica, Automatica, 2015, 63(3): 75-82.

        12 李建國,戰(zhàn)凱,石峰,等.基于最優(yōu)軌跡跟蹤的地下鏟運機無人駕駛技術[J/OL].農業(yè)機械學報,2015,46(12):323-328. http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20151244&journal_id=jcsam. DOI: 10.6041/j.issn.1000-1298.2015.12.044. LI Jianguo,ZHAN Kai,SHI Feng,et al.Auto-driving technology for underground scraper based on optimal trajectory tracking[J/OL].Transactions of the Chinese Society for Agricultural Machinery,2015,46(12):323-328. (in Chinese)

        13 習波波. 具有二自由度鉸接車體的輪式越野車輛轉向系統(tǒng)研究[D]. 長春: 吉林大學, 2013. XI Bobo. Study on steering system of wheeled off-road vehicle with two degrees of freedom articulated body[D]. Changchun: Jilin University, 2013.(in Chinese)

        14 張廣慶,朱思洪,李偉華,等.鉸接擺桿式大功率拖拉機原地轉向仿真與實驗[J/OL].農業(yè)機械學報,2012,43(10):25-30,18. http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20121005&journal_id=jcsam. DOI: 10.6041/j.issn.1000-1298.2012.10.005. ZHANG Guangqing,ZHU Sihong,LI Weihua,et al. Simulation and experiment of in-situ steering of large wheel tractor with hinge swing link[J/OL].Transactions of the Chinese Society for Agricultural Machinery,2012,43(10):25-30,18. (in Chinese)

        15 LEE J H, YOO W S. Predictive control of a vehicle trajectory using a coupled vector with vehicle velocity and sideslip angle[J]. International Journal of Automotive Technology, 2009, 10(2): 211-217.

        16 NAYL T, NIKOLAKOPOULOS G, GUSTFSSON T. Switching model predictive control for an articulated vehicle under varying slip angle[C]∥2012 20th Mediterranean Conference on Control and Automation(MED), 2012: 890-895.

        17 RIDLEY P, CORKE P. Load haul dump vehicle kinematics and control[J]. ASME Journal of Dynamic Systems, Measurement and Control, 2003, 125(1): 54-59.

        18 MAKELA H, LEHTINEN H, RINTANEN K, et al. Navigation system for LHD machines[C]∥Proceedings of the 1995 2nd IFAC Conference on Intelligent Autonomous Vehicles, 1995: 295-300.

        19 HEMAMI A, POLOTSKI V. Path tracking control problem formulation of an LHD loader[J]. International Journal of Robotics Research, 1998, 17(2): 193-199.

        20 MITCHELL T. 機器學習[M]. 曾華軍, 張銀奎,譯. 北京: 機械工業(yè)出版社, 2008.

        21 吳軍, 徐昕, 王健, 等. 面向多機器人系統(tǒng)的增強學習研究進展綜述[J/OL]. 控制與決策, 2011, 26(11): 1601-1610,1615. http:∥kzyjc.alljournals.cn/ch/reader/view_abstract.aspx?file_no=2011-0347&flag=1. DOI:10.13195/j.col.2011.11.4.wuj.014. WU Jun, XU Xin, WANG Jian, et al. Recent advances of reinforcement learning in multi-robot systems: a survey[J/OL]. Control and Decision, 2011, 26(11): 1601-1610, 1615. (in Chinese)

        22 徐昕. 增強學習與近似動態(tài)規(guī)劃[M]. 北京: 科學出版社, 2010.

        23 LIN C, GEORGE L C S. Reinforcement structure/parameter learning for neural-network-based fuzzy logic control systems[J]. IEEE Transactions on Fuzzy Systems, 1994, 2(1): 46-63.

        24 BARTO A G, SUTTON R S, ANDERSON C W. Neuronlike adaptive elements that can solve difficult learning control problems[J]. IEEE Transactions on Systems, Man and Cybernetics, 1983, SMC-13(5): 834-846.

        25 徐昕. 增強學習及其在移動機器人導航與控制中的應用研究[D]. 長沙: 國防科學技術大學, 2002. XU Xin. Reinforcement learning and its applications in navigation and control of mobile robots[D]. Changsha: National University of Defense Technology, 2002. (in Chinese)

        Reinforcement Learning Algorithm for Path Following Control of Articulated Vehicle

        SHAO Junkai1ZHAO Xuan1,2YANG Jue1ZHANG Wenming1KANG Yiting1ZHAO Xinxin1

        (1.SchoolofMechanicalEngineering,UniversityofScienceandTechnologyBeijing,Beijing100083,China2.BeijingHuaweiDigitalTechnologiesCo.,Ltd.,Beijing100085,China)

        With the industry 4.0 embraced a number of contemporary automation, data exchange and manufacturing technologies, the autonomous driving system is widespread. In order to enable the autonomous driving, path following strategies are essential to maintain the normal work of the vehicles. The articulated frame steering vehicles (ASV) are flexible, efficient and widely implemented in agriculture, mining, construction and forestry sectors due to their high maneuverability. The articulated vehicle usually composes of two units, a tractor and a trailer, which are connected by an articulation joint. However, as the ASV dynamics are significantly different from the conventional vehicles with front wheel steering, the path following controller derived for conventional vehicles is considered not to be applicable for the ASVs. Thus the path following control is challenging the robustness. A path following strategy is proposed for the ASVs on the basis of reinforcement learning adaptive PID algorithm. The kinematic model of the ASV is derived by neglecting the vehicle dynamics. Three measurable errors are defined to indicate the deviation of real path from reference path, i.e., lateral displacement error, orientation error and curvature error. These errors are served as the inputs in order to synthesize the path following controller and the desired steering angle is served as the output of path following controller. Based on the PID algorithm, the reinforcement learning method is selected for optimizing the parameters of PID online to reduce the overshoot and chattering. Furthermore, the prototype test is conducted to evaluate the performance of the proposed control law. The result shows that compared with the traditional PID, reinforcement learning adaptive PID controller can restrain the overshoot and chattering efficiently and follow the reference path accurately.

        articulated vehicle; driving; reinforcement learning; path following

        10.6041/j.issn.1000-1298.2017.03.048

        2016-04-18

        2016-09-13

        國家高技術研究發(fā)展計劃(863計劃)項目(2011AA060404)和中央高?;究蒲袠I(yè)務費專項資金項目(FRF-TP-16-004A1)

        邵俊愷(1985—),男,博士生,主要從事無人駕駛及路徑跟蹤控制研究,E-mail: shao@ustb.edu.cn

        楊玨(1975—),男,副教授,主要從事非公路車輛設計研究,E-mail: yangjue@ustb.edu.cn

        TP273; U463.32+5

        A

        1000-1298(2017)03-0376-07

        猜你喜歡
        鉸接式參考模型航向
        知坐標,明航向
        考慮幾何限制的航向道模式設計
        鉸接式BRT客車車身參數的優(yōu)化設計
        工程越野對抗機器人設計與調試
        科技資訊(2018年8期)2018-08-09 08:58:20
        基于干擾觀測器的船舶系統(tǒng)航向Backstepping 控制
        電子制作(2017年24期)2017-02-02 07:14:16
        沃爾沃推出55 t級鉸接式卡車
        基于環(huán)境的軍事信息系統(tǒng)需求參考模型
        語義網絡P2P參考模型的查詢過程構建
        使命:引領航向與保持穩(wěn)定
        法大研究生(2015年2期)2015-02-27 10:13:55
        鉸接式車輛安全座椅的研究
        汽車文摘(2014年3期)2014-02-03 12:11:54
        国产高清精品自在线看| 亚洲国产区中文在线观看| 国产91传媒一区二区三区| 99久久精品无码一区二区毛片| 日本熟日本熟妇中文在线观看| 手机看片福利一区二区三区| 中文字幕亚洲无线码| 亚洲国产成人无码影院| 亚欧免费无码AⅤ在线观看| 亚洲女同av一区二区在线观看| 精品嫩模福利一区二区蜜臀| 色与欲影视天天看综合网| 国产在线观看www污污污| 四虎影视国产在线观看精品| 国产一区二区三区四区色| 久久久黄色大片免费看| 精品国产a一区二区三区v| 欧美午夜刺激影院| 国产欧美精品区一区二区三区| 亚州精品无码人妻久久| 一区二区三区精品婷婷| 欧美精品无码一区二区三区| 亚洲国产成人久久综合| 色综合天天网| 免费人成黄页网站在线观看国产| 免费亚洲老熟熟女熟女熟女| 中国无码人妻丰满熟妇啪啪软件| a在线观看免费网站大全| 久久精品性无码一区二区爱爱| 国产精品女同一区二区久| 亚洲永久国产中文字幕| 樱桃视频影院在线播放 | 野花在线无码视频在线播放| 在线免费观看韩国a视频| 亚洲国产一区久久yourpan| 国产无卡视频在线观看| 久久久久成人精品免费播放动漫 | 亚洲香蕉av一区二区三区| 亚洲精品蜜夜内射| 大地资源网最新在线播放| 久久亚洲AV无码一区二区综合|