亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

具有未知側(cè)滑和打滑的WMR強(qiáng)化學(xué)習(xí)自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制

2016-05-27 06:58:13葉錦華吳海彬

福州大學(xué)學(xué)報(bào)(自然科學(xué)版) 2016年2期

葉錦華，吳海彬

(福州大學(xué)機(jī)械工程及自動(dòng)化學(xué)院，福建福州　350116)

葉錦華，吳海彬

(福州大學(xué)機(jī)械工程及自動(dòng)化學(xué)院，福建福州350116)

摘要：利用反演設(shè)計(jì)，提出一種強(qiáng)化學(xué)習(xí)自適應(yīng)神經(jīng)網(wǎng)絡(luò)輪式移動(dòng)機(jī)器人(WMR)軌跡跟蹤控制方法. 首先在極坐標(biāo)下建立WMR的軌跡跟蹤誤差模型，并基于此設(shè)計(jì)運(yùn)動(dòng)學(xué)控制器. 然后，針對(duì)WMR動(dòng)力學(xué)系統(tǒng)，設(shè)計(jì)自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制器. 結(jié)合強(qiáng)化學(xué)習(xí)機(jī)制，同時(shí)對(duì)系統(tǒng)未知側(cè)滑、打滑和模型不確定性進(jìn)行優(yōu)化補(bǔ)償，并引入魯棒控制項(xiàng)來(lái)消除補(bǔ)償誤差的影響，進(jìn)一步提高了控制效果. 所提控制方法使得閉環(huán)系統(tǒng)穩(wěn)定，且最終一致有界收斂，其有效性通過(guò)數(shù)值仿真結(jié)果得到了驗(yàn)證.

關(guān)鍵詞：軌跡跟蹤；自適應(yīng)神經(jīng)網(wǎng)絡(luò)；強(qiáng)化學(xué)習(xí)控制；非完整輪式移動(dòng)機(jī)器人；不確定系統(tǒng)

0引言

輪式移動(dòng)機(jī)器人(wheeled mobile robot, WMR)應(yīng)用領(lǐng)域日益廣泛. 由于受到非完整約束，常規(guī)控制方法無(wú)法直接使用. 同時(shí)，其還是多輸入多輸出耦合的欠驅(qū)動(dòng)本質(zhì)非線(xiàn)性系統(tǒng)，使得此類(lèi)系統(tǒng)的運(yùn)動(dòng)控制難度較大，對(duì)WMR運(yùn)動(dòng)控制的研究已引起了國(guó)內(nèi)外學(xué)者的廣泛關(guān)注[1-4]. 在WMR一些特殊工作場(chǎng)合，比如地面潮濕或高速運(yùn)行時(shí)，輪子會(huì)打滑，破壞了系統(tǒng)的非完整性，現(xiàn)有基于“純滾動(dòng)無(wú)滑動(dòng)”理想約束條件下設(shè)計(jì)的控制器不再適用. 目前，僅少量文獻(xiàn)研究了不滿(mǎn)足非完整約束情形下WMR的運(yùn)動(dòng)控制策略[5-10]，文[5-6]分別設(shè)計(jì)WMR自適應(yīng)神經(jīng)網(wǎng)絡(luò)軌跡跟蹤控制器和魯棒軌跡跟蹤與鎮(zhèn)定統(tǒng)一控制器，僅實(shí)現(xiàn)對(duì)WMR單一側(cè)滑的補(bǔ)償. 文[7]通過(guò)特定初始條件限制，并借助于全球定位系統(tǒng)GPS同時(shí)對(duì)WMR的側(cè)滑和打滑進(jìn)行數(shù)值測(cè)量，設(shè)計(jì)了一類(lèi)非線(xiàn)性控制器，在存在側(cè)滑和打滑時(shí)，仍可進(jìn)行高性能的軌跡跟蹤. 文[8]研究了WMR的軌跡跟蹤控制，采用模糊干擾觀測(cè)器對(duì)WMR側(cè)滑和打滑的進(jìn)行觀測(cè)補(bǔ)償. 文[9]設(shè)計(jì)一種自適應(yīng)軌跡跟蹤控制器，可對(duì)WMR側(cè)滑和打滑進(jìn)行在線(xiàn)估計(jì). 上述研究均未考慮WMR動(dòng)力學(xué)系統(tǒng)不確定性的影響，為此，文[10]提出一種基于魯棒觀測(cè)器的WMR軌跡跟蹤控制器，同時(shí)抵御WMR側(cè)滑、打滑和動(dòng)力學(xué)系統(tǒng)不確定性的影響，但需要系統(tǒng)總體不確定性的上界信息.

本研究在極坐標(biāo)系統(tǒng)下，研究存在未知側(cè)滑和打滑以及動(dòng)力學(xué)系統(tǒng)參數(shù)和非參數(shù)不確定性的WMR軌跡跟蹤控制問(wèn)題，基于反演設(shè)計(jì)技術(shù)，提出一種結(jié)合魯棒控制的強(qiáng)化學(xué)習(xí)自適應(yīng)神經(jīng)網(wǎng)絡(luò)(RLANN)控制器. RLANN能夠優(yōu)化逼近任意不確定函數(shù)[11]，并利用強(qiáng)化學(xué)習(xí)機(jī)制來(lái)提高其逼近效率. RLANN和魯棒控制相結(jié)合，使得文中控制器能夠補(bǔ)償已知信息少的復(fù)雜未知不確定性，并保證控制器良好的適應(yīng)性和控制性能.

1數(shù)學(xué)模型分析

研究對(duì)象(2， 0)型[12]WMR的本體結(jié)構(gòu)和運(yùn)動(dòng)空間坐標(biāo)系如圖1所示， {xoy}為全局坐標(biāo)系，局部坐標(biāo)系為{xcocyc}，參考軌跡上虛擬移動(dòng)機(jī)器人WMR的局部坐標(biāo)系為{xreforefyref}，其前進(jìn)速度和轉(zhuǎn)動(dòng)速度分別為υref、 wref.WMR整車(chē)質(zhì)量為m，質(zhì)心oc為兩輪中心連線(xiàn)的中點(diǎn)，車(chē)身繞oc軸的慣量為I，兩輪中心的距離為2b，輪式半徑為r. υ和w分別為WMR的前進(jìn)速度和轉(zhuǎn)動(dòng)速度， ξ1和ξ2分別為WMR兩輪的打滑速度， vyc為WMR的側(cè)滑速度.

定義WMR的位姿為： q=[x,y,θ]T，則受側(cè)滑和打滑影響下， WMR的運(yùn)動(dòng)學(xué)模型為[9]：

(1)

式中： v=[v,w]T， ζ=[r(ξ1+ξ2)/2,r(ξ1-ξ2)/(2b)]T， φ=[vycsinθ,vyccosθ, 0]T.

WMR的廣義力學(xué)系統(tǒng)標(biāo)準(zhǔn)形式為：

(2)

將式(1)求導(dǎo)后代入兩端乘以ST(q)的式(2)，并考慮到A(q)S(q)=0，整理后得到包含WMR側(cè)滑、打滑和動(dòng)力學(xué)系統(tǒng)不確定性的動(dòng)力學(xué)模型為：

(3)

2控制器設(shè)計(jì)

反演設(shè)計(jì)方法將系統(tǒng)分解為若干低階子系統(tǒng)進(jìn)行處理，可以有效降低系統(tǒng)控制器的設(shè)計(jì)復(fù)雜度，基于反演法的原理，對(duì)系統(tǒng)運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)兩個(gè)子系統(tǒng)分別進(jìn)行控制器設(shè)計(jì).

第一步運(yùn)動(dòng)學(xué)控制器設(shè)計(jì).

(4)

(5)

由運(yùn)動(dòng)學(xué)模型(1)可知，WMR通過(guò)對(duì)兩驅(qū)動(dòng)輪的不同轉(zhuǎn)速和轉(zhuǎn)向控制即可完全實(shí)現(xiàn)對(duì)其位姿的調(diào)整，運(yùn)動(dòng)學(xué)控制器的控制目標(biāo)是選擇合適的輔助控制律vc=[vf,wf]T，使得e收斂于原點(diǎn)鄰域，設(shè)計(jì)oc點(diǎn)輸出的運(yùn)動(dòng)學(xué)輔助控制器為：

(6)

式中： γ， k和h為正的常數(shù).

第二步動(dòng)力學(xué)控制器設(shè)計(jì).

在設(shè)計(jì)完成運(yùn)動(dòng)學(xué)控制器的基礎(chǔ)上，以虛擬控制vc作為參考輸入，通過(guò)一步反演設(shè)計(jì)來(lái)完成力矩控制器的設(shè)計(jì)，定義速度跟蹤誤差為：

(7)

動(dòng)力學(xué)控制器的控制目標(biāo)是設(shè)計(jì)合適的力矩控制器τ，使得ec收斂于原點(diǎn)鄰域，從而近似實(shí)現(xiàn)“完美速度跟蹤”，對(duì)式(7)求導(dǎo)，然后將式(3)代入可得到如下動(dòng)力學(xué)誤差方程：

(8)

設(shè)計(jì)強(qiáng)化學(xué)習(xí)自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制器為：

(9)

式中： kd=diag(kd)，kd為正的常數(shù). 魯棒控制項(xiàng)γ為：

(10)

(11)

(12)

式中：μl為第l個(gè)節(jié)點(diǎn)的中心點(diǎn)，ηl為高斯函數(shù)的基寬， ω為逼近誤差.

(13)

對(duì)權(quán)重矢量采用強(qiáng)化學(xué)習(xí)方法進(jìn)行在線(xiàn)自適應(yīng)更新以保證取值最優(yōu)，提高了神經(jīng)網(wǎng)絡(luò)的逼近精度，取自適應(yīng)更新律為：

(14)

(15)

式中： Γτ=diag(ντ)， Γτc=diag(ντc)，ντ，ντc，ητ為正的常數(shù); rτ表示強(qiáng)化學(xué)習(xí)(RL)信號(hào)，該信號(hào)使用角色評(píng)價(jià)(actor-critic)機(jī)制來(lái)獲得，取值為:

(16)

3穩(wěn)定性分析

定理對(duì)于不確定WMR系統(tǒng)(1)， (3)， (5)， (8)，取控制器為(6)， (9)，RL自適應(yīng)律為(14)～(16)，則WMR系統(tǒng)是穩(wěn)定且最終一致有界(UUB)收斂的.

證明構(gòu)造Lyapunov函數(shù)：

(17)

(18)

(19)

對(duì)V1求導(dǎo)，并將式(5)，運(yùn)動(dòng)學(xué)控制律(6)代入可得：

φ(sinα)/ed

(20)

對(duì)V2求導(dǎo)，并將式(8)， (9)， (14)～(16)代入, 得:

(21)

(22)

4仿真實(shí)驗(yàn)

首先讓W(xué)MR圓弧期望軌跡，跟蹤半徑為R=2，WMR的運(yùn)行參數(shù)為：qr(0)=[2， 4，π/4]T， vref=1.414m/s， wref=vref/R.WMR的初始參數(shù)為：qref(0)=[4， 2，π/2]T， v(0)=w(0)=0. 文中動(dòng)力學(xué)控制器關(guān)閉RLANN時(shí)的跟蹤效果如圖2所示. 由于系統(tǒng)受到側(cè)滑、打滑，以及動(dòng)力學(xué)系統(tǒng)不確定性的影響，跟蹤誤差很大，調(diào)整控制器增益kd仍不能改善，當(dāng)開(kāi)啟RLANN后的跟蹤效果如圖3所示. 文中控制器有效地消除了系統(tǒng)復(fù)雜不確定性的影響，跟蹤誤差和控制力矩輸入的變化如圖4、圖5所示. 可見(jiàn)，系統(tǒng)控制輸入平穩(wěn)，跟蹤誤差小，取得較好的控制效果. 圖6所示為RLANN的動(dòng)態(tài)逼近過(guò)程，對(duì)系統(tǒng)總體不確定性進(jìn)行了有效估計(jì).

再進(jìn)行WMR的8字形軌跡跟蹤， xref=sin(t/3)， yref=sin(t/6)， qref(0)=[0， 0， 0.463 4]T，初始值分別為： q1=[1， 0， π/2]T， q2=[0， 0.5， 0]T，q3=[-0.5， -0.5， π]T，結(jié)果如圖7所示. 可見(jiàn)，對(duì)于變曲率復(fù)雜曲線(xiàn)，基于文中控制器， WMR也達(dá)到了良好的跟蹤效果.

5結(jié)語(yǔ)

研究非完整約束被破壞且包含復(fù)雜不確定性的WMR，基于反演法，設(shè)計(jì)了結(jié)合魯棒控制和帶強(qiáng)化學(xué)習(xí)機(jī)制的自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制的軌跡跟蹤控制器，使得系統(tǒng)在同時(shí)受未知側(cè)滑、打滑和動(dòng)力學(xué)系統(tǒng)不確定性影響下，仍能夠保證良好的控制品質(zhì). 通過(guò)強(qiáng)化學(xué)習(xí)自適應(yīng)機(jī)制提高了神經(jīng)網(wǎng)絡(luò)系統(tǒng)的收斂速度和補(bǔ)償精度，結(jié)合魯棒項(xiàng)，進(jìn)一步提高了軌跡跟蹤的精度. 對(duì)圓弧軌跡和8字形曲線(xiàn)的軌跡跟蹤仿真實(shí)驗(yàn)表明，該控制器有效地消除系統(tǒng)復(fù)雜未知參數(shù)和非參數(shù)不確定性的影響，保證WMR能快速、精確地跟蹤期望軌跡.

參考文獻(xiàn)：

[1]BROCKETTRW.Asymptoticstabilityandfeedbackstabilization[M].Boston:Birkhauser, 1983.

[2]葉錦華, 李迪, 葉峰. 輪式移動(dòng)機(jī)器人的雙強(qiáng)化學(xué)習(xí)自適應(yīng)模糊控制[J]. 吉林大學(xué)學(xué)報(bào)(工學(xué)版), 2014, 44(3): 12-20.

[3]AHMEDSA,MAYSAMFA,HAMEDSA.Applyingpostureidentifierindesigninganadaptivenonlinearpredictivecontrollerfornonholonomicmobilerobot[J].Neurocomputing, 2013, 99: 543-554.

[4]HUANGJS,WENCY,WANGW,etal. Adaptive stabilization and tracking control of a nonholonomic mobile robot with Input saturation and disturbance[J]. Systems & Control Letters, 2013, 62(3): 234-241.

[5]WANG Z P, GE S S, LEE T H. Adaptive neural network control of a wheeled mobile robot violating the pure nonholonomic constraint[C]//Proceedings of the 43rdIEEE Conference on Decision and Control. Bahamas: IEEE, 2004: 5 198-5 203.

[6]ZHU X C, DONG G H, CAI Z X,etal. Robust simultaneous tracking and stabilization of wheeled mobile robots not satisfying nonholonomic constraint[J]. J Cent South Univ Techno, 2007, 14(4): 537-545.

[7]CHANG B L, WANG D W. GPS-based path following control for a car-like wheeled mobile robot with skidding and slipping[J]. IEEE Transactions on Control Systems Technology, 2008, 16(2): 340-347.

[8]CHWA D. Fuzzy adaptive tracking control of wheeled mobile robots with state-dependent kinematic and dynamic disturbances[J]. IEEE Transactions on Fuzzy Systems, 2012, 20(3): 587-593.

[9]YOO S J. Adaptive tracking control for a class of wheeled mobile robots with unknown skidding and slipping[J]. IET Control Theory & Applications, 2010, 4(10): 2 109-2 119.

[10]KANG H S, KIM Y T, HYUN C H,etal. Generalized_extended state observer approach to robust tracking control for wheeled_mobile robot with skidding and slipping[J]. International Journal of Advanced Robotic Systems, 2013, 10(155): 1-10.

[11]HENDZEL Z. An adaptive critic neural network for motion control of a wheeled mobile robot[J]. Nonlinear Dynamics, 2007, 50(4): 849-855.

[12]JANG J O. Adaptive neuro-fuzzy network control for a mobile robot[J]. Journal of Intelligent & Robotic Systems, 2011, 62(3/4): 567-586.

(責(zé)任編輯：沈蕓)

Reinforcement learning adaptive neural network control of WMR with unknown skidding and slipping

YE Jinhua, WU Haibin

(College of Mechanical Engineering and Automation, Fuzhou University, Fuzhou, Fujian 350116, China)

Abstract:A reinforcement learning adaptive neural network trajectory tracking control scheme is proposed for WMR, based on back stepping technique. Firstly, the trajectory tracking error model is established， and the kinematic controller is designed based on this model. Then, for WMR dynamic system, the adaptive neural network controller with reinforcement learning is designed, and unknown skidding, slipping and model uncertainties of the system are compensated optimally, the robust compensators are also used to eliminate the effects of compensating error, so the control performance is enhanced. The stability and ultimately uniformly bounded convergence of system are guaranteed with proposed control scheme. Simulations prove the validity of the proposed control scheme.

Keywords:trajectory tracking; adaptive neural network； reinforcement learning control; nonholonomic wheeled mobile robot; uncertain system

中圖分類(lèi)號(hào)：TP24

文獻(xiàn)標(biāo)識(shí)碼：A

基金項(xiàng)目：國(guó)家自然科學(xué)基金資助項(xiàng)目(51175084)；福建省自然科學(xué)基金資助項(xiàng)目(2015J05121)；福州大學(xué)科研啟動(dòng)基金資助項(xiàng)目(510078)；福州大學(xué)科技發(fā)展基金資助項(xiàng)目(650053)

通訊作者:葉錦華(1982-)，博士，講師，主要從事機(jī)器人控制技術(shù)研究， yejinhua@fzu.edu.cn

收稿日期:2015-01-22

文章編號(hào)：1000-2243(2016)02-0219-06

DOI:10.7631/issn.1000-2243.2016.02.0219

福州大學(xué)學(xué)報(bào)(自然科學(xué)版)2016年2期

福州大學(xué)學(xué)報(bào)(自然科學(xué)版)的其它文章: 浮選泡沫的形成、穩(wěn)定和破滅的力學(xué)分析; 閩江口地區(qū)地下熱水賦存規(guī)律; 無(wú)標(biāo)記定量蛋白質(zhì)組學(xué)分析AMACR過(guò)表達(dá)對(duì)肝癌細(xì)胞生物學(xué)行為的影響; 錨拉板式索梁錨固結(jié)構(gòu)焊縫抗疲勞性能研究; 平鋼腹板-混凝土組合拱橋試設(shè)計(jì)研究; 空調(diào)配管優(yōu)化應(yīng)力仿真與實(shí)驗(yàn)研究