王 敏 林梓欣 王 聰 楊辰光
近年來,機(jī)器人在工程應(yīng)用和日常生活中發(fā)揮著越來越重要的作用,被廣泛應(yīng)用于空間探測、焊接、裝配、醫(yī)療等領(lǐng)域,相關(guān)技術(shù)也越來越受到科研人員重視[1-3].在機(jī)器人控制領(lǐng)域,其控制目標(biāo)之一就是實(shí)現(xiàn)機(jī)器人對特定任務(wù)軌跡的跟蹤.多自由度機(jī)器人作為一個(gè)高度耦合的非線性多輸入多輸出系統(tǒng)[4],主要控制難點(diǎn)在于機(jī)器人工作環(huán)境任務(wù)多變,在外界擾動(dòng)、負(fù)載變化、參數(shù)測量不精確等因素影響下,機(jī)器人系統(tǒng)精確建模難度較大,使得比例積分微分(Proportional-integral-derivative,PID)控制等經(jīng)典控制算法難以滿足機(jī)器人控制的精度要求.針對機(jī)器人系統(tǒng)存在部分參數(shù)不確定或測量不準(zhǔn)確的問題,一些學(xué)者結(jié)合魯棒控制、滑??刂频人枷?提出了許多有效的自適應(yīng)控制算法[5-7].當(dāng)機(jī)器人系統(tǒng)存在不可建模動(dòng)態(tài)時(shí),一些學(xué)者結(jié)合神經(jīng)網(wǎng)絡(luò)的非線性函數(shù)逼近特性,提出了大量的自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制方案,保證了機(jī)器人在多變環(huán)境下的高性能控制[8-12].
值得注意的是,上述控制方案大多數(shù)都是基于力矩進(jìn)行控制器設(shè)計(jì),其方案有效性主要是通過數(shù)值系統(tǒng)仿真進(jìn)行驗(yàn)證,鮮有在實(shí)際機(jī)器人上進(jìn)行實(shí)驗(yàn)和應(yīng)用.造成上述現(xiàn)象的原因是,當(dāng)前市面上大部分工業(yè)/商業(yè)機(jī)器人并不開放力矩接口,而是采用速度/位置控制.這些封閉機(jī)器人采用標(biāo)準(zhǔn)的內(nèi)外環(huán)控制結(jié)構(gòu),其中外環(huán)為運(yùn)動(dòng)學(xué)環(huán),內(nèi)環(huán)為動(dòng)力學(xué)環(huán),內(nèi)環(huán)控制的采樣速率一般比外環(huán)要快得多,且普遍認(rèn)為其內(nèi)環(huán)控制使用速度比例積分(Proportional-integral,PI)控制器或位置PID 控制器[13].封閉機(jī)器人的這些性質(zhì),導(dǎo)致用戶一般只能對其進(jìn)行簡單的運(yùn)動(dòng)學(xué)控制[14],從而使得機(jī)器人難以應(yīng)對多變的個(gè)性化產(chǎn)品加工.針對這類具有內(nèi)外環(huán)結(jié)構(gòu)的機(jī)器人的控制問題,部分學(xué)者提出了解決方案.文獻(xiàn)[5,15]在研究具有未知?jiǎng)恿W(xué)和未知運(yùn)動(dòng)學(xué)的機(jī)械臂控制時(shí),提出了適當(dāng)?shù)淖赃m應(yīng)控制器.文獻(xiàn)[16]研究了一類具有關(guān)節(jié)速度反饋內(nèi)環(huán)的機(jī)器人任務(wù)空間控制問題,提出了一種基于模型的內(nèi)環(huán)關(guān)節(jié)速度控制器通用結(jié)構(gòu)[17].注意到,上述控制方案中跟蹤誤差的收斂依賴于內(nèi)環(huán)速度控制器的修改或再設(shè)計(jì),并不是常見的速度PI 控制器或位置PID 控制器,對于具有不可修改內(nèi)環(huán)的工業(yè)/商業(yè)機(jī)器人而言,這些控制方案也難以實(shí)現(xiàn)應(yīng)用.進(jìn)一步,一些學(xué)者提出了預(yù)校正方案[18],這些預(yù)校正方案的有效性驗(yàn)證主要是通過直觀解釋和實(shí)驗(yàn)結(jié)果進(jìn)行的,并沒有進(jìn)行嚴(yán)格理論分析.針對封閉機(jī)器人控制存在的上述問題,文獻(xiàn)[19]在考慮機(jī)器人具有可以線性參數(shù)化的未知?jiǎng)恿W(xué)和運(yùn)動(dòng)學(xué)且內(nèi)環(huán)控制器參數(shù)未知和不可修改的背景下,設(shè)計(jì)了一類外環(huán)自適應(yīng)速度補(bǔ)償控制器,保證了機(jī)器人系統(tǒng)的穩(wěn)定性和誤差收斂.該方案需要計(jì)算動(dòng)力學(xué)和運(yùn)動(dòng)學(xué)回歸矩陣,這兩個(gè)矩陣隨著機(jī)械臂關(guān)節(jié)增多,計(jì)算的復(fù)雜度呈指數(shù)倍增長.此外,實(shí)際機(jī)器人系統(tǒng)由于受到阻尼以及摩擦力等影響,存在本質(zhì)的非線性.因此,如何提出簡單有效的封閉機(jī)器人控制方案,既能實(shí)現(xiàn)封閉力矩的補(bǔ)償控制,又能精確建模未知非線性仍是一個(gè)開放性的問題.
眾所周知,神經(jīng)網(wǎng)絡(luò)是建模未知非線性的有效方法[20].然而,現(xiàn)有的大部分自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制并沒有充分利用神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,即使是處理相同的任務(wù)也需要對神經(jīng)網(wǎng)絡(luò)進(jìn)行重復(fù)訓(xùn)練,該過程耗時(shí)長、計(jì)算資源消耗大、暫態(tài)階段的控制性能也較差.因此,如何實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)在控制過程中的學(xué)習(xí)和經(jīng)驗(yàn)知識(shí)再利用是一個(gè)很有意義的課題[21].對此,文獻(xiàn)[22]提出確定學(xué)習(xí)理論,解決了神經(jīng)網(wǎng)絡(luò)對未知?jiǎng)討B(tài)的學(xué)習(xí)問題.該理論證明了沿著回歸軌跡的徑向基函數(shù)(Radial basis function,RBF)神經(jīng)網(wǎng)絡(luò)滿足持續(xù)激勵(lì)(Persistent excitation,PE)條件,進(jìn)一步結(jié)合線性時(shí)變系統(tǒng)指數(shù)穩(wěn)定性證明了神經(jīng)網(wǎng)絡(luò)權(quán)值的精確收斂.基于該理論,文獻(xiàn)[23]引入動(dòng)態(tài)面技術(shù),解決了自適應(yīng)神經(jīng)網(wǎng)絡(luò)在嚴(yán)格反饋系統(tǒng)中的學(xué)習(xí)問題.近年來,確定學(xué)習(xí)理論也已被廣泛應(yīng)用于機(jī)器人編隊(duì)控制[24]、心肌缺血早期診斷[25]、水面無人船控制[26]等領(lǐng)域,在機(jī)械臂控制領(lǐng)域也有相關(guān)工作[27].然而,現(xiàn)有基于確定學(xué)習(xí)的控制方案仍是基于力矩進(jìn)行設(shè)計(jì)的,無法在封閉的工業(yè)/商業(yè)機(jī)器人上直接進(jìn)行應(yīng)用.
綜上所述,本文針對未開放力矩接口的一類封閉機(jī)器人系統(tǒng),在考慮機(jī)器人受到未知?jiǎng)恿W(xué)影響且具有未知內(nèi)環(huán)PI 速度控制器的情況下,基于文獻(xiàn)[19]的外環(huán)補(bǔ)償框架提出了一種基于外環(huán)速度補(bǔ)償?shù)拇_定學(xué)習(xí)控制方案,實(shí)現(xiàn)了封閉機(jī)器人的關(guān)節(jié)軌跡跟蹤控制.該方案的主要貢獻(xiàn)點(diǎn)如下: 1)在文獻(xiàn)[19]的工作基礎(chǔ)上,引入神經(jīng)網(wǎng)絡(luò)處理系統(tǒng)未知?jiǎng)討B(tài),取消了封閉機(jī)器人未知?jiǎng)恿W(xué)模型參數(shù)線性化假設(shè),并簡化了外環(huán)補(bǔ)償控制設(shè)計(jì)過程;2)采用寬度RBF 神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)增量神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn),降低了網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度,改善了系統(tǒng)控制的實(shí)時(shí)性;3)引入確定學(xué)習(xí)理論,實(shí)現(xiàn)了寬度RBF 神經(jīng)網(wǎng)絡(luò)對封閉機(jī)器人未知?jiǎng)討B(tài)的精確學(xué)習(xí),并利用經(jīng)驗(yàn)知識(shí)避免了對網(wǎng)絡(luò)重復(fù)訓(xùn)練,降低了計(jì)算負(fù)擔(dān),實(shí)現(xiàn)了快穩(wěn)準(zhǔn)的高精度跟蹤控制;4)為確定學(xué)習(xí)理論應(yīng)用于具有類似結(jié)構(gòu)的封閉機(jī)械系統(tǒng)提供了研究思路,拓展了確定學(xué)習(xí)的應(yīng)用范圍.
本文所考慮的由永磁直流電動(dòng)機(jī)驅(qū)動(dòng)的n自由度機(jī)器人動(dòng)力學(xué)模型[19]如下
其中,x1∈Rn是機(jī)器人關(guān)節(jié)角位置;M(x1)∈Rn×n是機(jī)器人的慣性矩陣;C(x1,)∈Rn×n是機(jī)器人的科氏力矩陣;G(x1)∈Rn是機(jī)器人的重力向量;K ∈Rn×n是機(jī)器人內(nèi)部的控制增益,為一常值對角正定矩陣;u∈Rn是封閉機(jī)器人的內(nèi)環(huán)控制器.
性質(zhì) 1.機(jī)器人動(dòng)力學(xué)方程的慣性矩陣M(x1)是對稱并一致正定的,且具有一致的界限,存在正常數(shù)λm和λM使得λmI ≤M(x1)≤λMI,其中I為適當(dāng)定義的單位矩陣.
性質(zhì) 2.可以通過適當(dāng)定義機(jī)器人動(dòng)力學(xué)方程的科氏力矩陣C(x1,),使得(x1)-2C(x1,)是斜對稱矩陣.
在研究的封閉機(jī)器人內(nèi)外環(huán)控制方法中,本文考慮內(nèi)環(huán)控制器為PI 速度控制器[19],結(jié)構(gòu)如下
考慮如下光滑有界參考模型,該模型將產(chǎn)生封閉機(jī)器人的關(guān)節(jié)期望軌跡
其中,xd1∈Rn和xd2∈Rn分別是封閉機(jī)器人期望的關(guān)節(jié)角位置和角速度,f(xd1,xd2)是給定的光滑非線性函數(shù),yd=xd1是封閉機(jī)器人期望輸出.本文假設(shè)期望輸出yd為周期軌跡.
本文的控制目標(biāo)是基于外環(huán)速度補(bǔ)償控制思想,在考慮封閉機(jī)器人具有不確定動(dòng)力學(xué)和未知參數(shù)內(nèi)環(huán)控制器的情況下設(shè)計(jì)系統(tǒng)(1)的速度控制指令,從而確保: 1)機(jī)器人系統(tǒng)的所有信號都是最終一致有界的;2)系統(tǒng)的輸出x1能夠跟蹤給定的期望輸出軌跡yd;3)在控制過程中學(xué)習(xí)機(jī)器人內(nèi)部未知?jiǎng)討B(tài),并利用學(xué)到的未知?jiǎng)討B(tài)知識(shí)實(shí)現(xiàn)封閉機(jī)器人高精度跟蹤控制.控制方案框圖如圖1 所示.
圖1 封閉機(jī)器人控制系統(tǒng)框圖Fig.1 Schematic diagram of manipulators with closed architecture control system
1)RBF 神經(jīng)網(wǎng)絡(luò)的萬能逼近特性: 為逼近機(jī)械臂控制過程中的未知非線性動(dòng)態(tài),本文使用如下形式的RBF 神經(jīng)網(wǎng)絡(luò)
那么向量函數(shù)S滿足PE 條件,其中I定義為s×s維的單位矩陣.
引理 1[22]. RBF神經(jīng)網(wǎng)絡(luò)的局部PE條件: 考慮任意回歸/周期軌跡Z,假設(shè)Z是從[0,∞)到Rq的連續(xù)映射,且Z位于緊集 ?Z ?Rq中.則對于中心置于規(guī)則晶格(足夠大到覆蓋緊集 ?Z)上的RBF神經(jīng)網(wǎng)絡(luò),只有中心位于回歸/周期軌跡Z的小鄰域內(nèi)的神經(jīng)元才會(huì)被激勵(lì),由其組成的回歸子向量Sζ(Z)將滿足PE 條件.
在傳統(tǒng)的RBF 神經(jīng)網(wǎng)絡(luò)逼近中,需通過選取合適的神經(jīng)元節(jié)點(diǎn)數(shù)、中心和寬度來保證逼近精度,而在實(shí)際應(yīng)用中通常需要設(shè)計(jì)者根據(jù)自己的經(jīng)驗(yàn)不斷試錯(cuò),采用均勻布點(diǎn)的方式來設(shè)計(jì)RBF 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),具有很強(qiáng)的主觀性.同時(shí),機(jī)器人控制系統(tǒng)是一個(gè)多輸入多輸出系統(tǒng),隨著控制連桿數(shù)量的增加,RBF 神經(jīng)網(wǎng)絡(luò)的輸入維數(shù)會(huì)呈幾何倍數(shù)增長,在均勻布點(diǎn)的設(shè)計(jì)方案下,神經(jīng)元數(shù)量也會(huì)急劇升高,這將導(dǎo)致神經(jīng)網(wǎng)絡(luò)的計(jì)算負(fù)荷提高,對硬件設(shè)備提出了更高的要求,同時(shí)也將影響系統(tǒng)控制的實(shí)時(shí)性.為了解決上述問題,本文將使用文獻(xiàn)[29]所提出的寬度RBF 神經(jīng)網(wǎng)絡(luò)方法進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì).該方法結(jié)合寬度神經(jīng)網(wǎng)絡(luò)增量節(jié)點(diǎn)的思想,可實(shí)現(xiàn)在系統(tǒng)控制過程中神經(jīng)元的自適應(yīng)調(diào)整.
寬度RBF 神經(jīng)網(wǎng)絡(luò)在初始化階段以系統(tǒng)的初始狀態(tài)為第一個(gè)神經(jīng)元,之后會(huì)根據(jù)神經(jīng)網(wǎng)絡(luò)的實(shí)際輸入與網(wǎng)絡(luò)已有神經(jīng)元中心的距離來判斷是否應(yīng)該新增神經(jīng)元.新增神經(jīng)元的增加策略如下:
1)定義新增神經(jīng)元所需參數(shù)
其中,ξn,ηn,Wn分別是新增神經(jīng)元的中心、寬度和權(quán)值,本文新增神經(jīng)元的寬度設(shè)置與已有神經(jīng)元一致,權(quán)值統(tǒng)一初始化為零.
2)判斷當(dāng)前網(wǎng)絡(luò)輸入是否超出現(xiàn)有神經(jīng)元所構(gòu)成的緊集域
首先,本文使用歐氏距離來描述當(dāng)前網(wǎng)絡(luò)輸入與神經(jīng)元中心點(diǎn)的距離,根據(jù)距離選取離當(dāng)前輸入最近的k個(gè)點(diǎn)集Cmin={c1,···,ck},則可由下式獲得新增神經(jīng)元的中心
然后,設(shè)置判斷是否新增神經(jīng)元的可調(diào)閾值ε,當(dāng)神經(jīng)網(wǎng)絡(luò)當(dāng)前輸入Z與神經(jīng)元集合Cmin的平均中心位置之間距離大于閾值ε時(shí),添加新的神經(jīng)元,否則保持原有神經(jīng)元集合不變.
本節(jié)將針對系統(tǒng)(1),采用反步法進(jìn)行基于外環(huán)補(bǔ)償?shù)乃俣瓤刂浦噶钤O(shè)計(jì).首先將封閉機(jī)器人系統(tǒng)的內(nèi)環(huán)速度PI 控制器(2)代入系統(tǒng)(1),將系統(tǒng)(1)轉(zhuǎn)化為如下形式
其中,KP=KKp,KI=KKi,y是機(jī)器人系統(tǒng)輸出關(guān)節(jié)角位置,y=x1.
根據(jù)傳統(tǒng)反步法設(shè)計(jì)思想,定義如下誤差變量
其中,α1是虛擬控制器.考慮系統(tǒng)(8),接下來的反步設(shè)計(jì)包括兩個(gè)步驟,將依次設(shè)計(jì)出虛擬控制器α1和速度控制指令.具體設(shè)計(jì)過程如下:
步驟 1.考慮系統(tǒng)(8)以及誤差定義(9),對z1求導(dǎo)得
根據(jù)式(10),虛擬控制器α1可設(shè)計(jì)為
其中,c1為控制增益,且為正的設(shè)計(jì)參數(shù).
步驟 2.根據(jù)誤差定義(9),對z2求導(dǎo)可得
考慮封閉機(jī)器人系統(tǒng)具有未知的動(dòng)力學(xué)和內(nèi)環(huán)速度PI 控制器,定義未知系統(tǒng)動(dòng)態(tài)為
其中,c2是速度控制指令q˙c的控制增益,且為正的可設(shè)計(jì)參數(shù);γ,σ分別是神經(jīng)網(wǎng)絡(luò)權(quán)值估計(jì)值更新率的控制增益和σ修正項(xiàng),均為正的待設(shè)計(jì)參數(shù).
注 1.在考慮未知?jiǎng)恿W(xué)影響的機(jī)器人自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制器設(shè)計(jì)中,現(xiàn)有大部分成果均為力矩控制器,無法應(yīng)用于本文所考慮的封閉機(jī)器人系統(tǒng).本文在機(jī)器人具有未知不可修改內(nèi)環(huán)速度PI 控制器的背景下,設(shè)計(jì)了與內(nèi)環(huán)相匹配的外環(huán)自適應(yīng)神經(jīng)網(wǎng)絡(luò)速度控制指令.該指令與常見力矩控制器的代數(shù)方程形式不同,是一個(gè)關(guān)于qc的一階微分方程,通過求解該微分方程,可以獲得輸入機(jī)器人系統(tǒng)的速度控制指令q˙c和位置控制指令qc,同時(shí),RBF 神經(jīng)網(wǎng)絡(luò)的應(yīng)用使該速度控制指令具有適應(yīng)機(jī)器人未知?jiǎng)恿W(xué)影響和未知內(nèi)環(huán)控制器的能力.
注 2.與現(xiàn)有基于反步法的自適應(yīng)神經(jīng)網(wǎng)絡(luò)力矩控制器相比,本文所設(shè)計(jì)速度控制指令在神經(jīng)網(wǎng)絡(luò)輸入上將多出一個(gè)信號qc.這是因?yàn)樵诳刂破髟O(shè)計(jì)過程中,為了處理內(nèi)環(huán)速度PI 控制器的未知參數(shù)K,Kp,Ki帶來的不確定性,本文在定義未知系統(tǒng)動(dòng)態(tài)的時(shí)候?qū)⒖紤]在內(nèi),從而有助于后續(xù)的控制器設(shè)計(jì)以及未知?jiǎng)討B(tài)的精確神經(jīng)網(wǎng)絡(luò)逼近.
至此,可得封閉機(jī)器人的閉環(huán)系統(tǒng)動(dòng)態(tài)如下
定理 1.考慮由封閉機(jī)器人系統(tǒng)(8)、參考模型(3)、自適應(yīng)神經(jīng)網(wǎng)絡(luò)速度控制指令(16)和神經(jīng)網(wǎng)絡(luò)權(quán)值估計(jì)值更新率(17)所組成的閉環(huán)系統(tǒng),那么對于任意給定的常數(shù)μ>0 以及所有滿足V(0)≤μ的系統(tǒng)初始狀態(tài),則通過選取合適的設(shè)計(jì)參數(shù)c1,c2,γ和σ,可以使得閉環(huán)系統(tǒng)中的所有信號是最終一致有界的,并且跟蹤誤差z1,z2能夠收斂到零的小鄰域內(nèi).
證明.選取如下Lyapunov 函數(shù)
結(jié)合機(jī)器人動(dòng)力學(xué)方程性質(zhì)2,沿系統(tǒng)(18)所產(chǎn)生的軌跡對所選Lyapunov 函數(shù)求導(dǎo)可得
利用Young 不等式對Lyapunov 函數(shù)的導(dǎo)數(shù)放縮得
其中,λmin(KP)是矩陣KP的最小特征值.
結(jié)合式(19)和式(21)可得
至此,只要選擇a>b/μ,那么可以保證當(dāng)V=μ時(shí),≤0,因此V ≤μ是一個(gè)不變集,即對于任意滿足V(0)≤μ的初始條件,對于任意t>0,有V(t)≤μ.進(jìn)一步,對式(22)積分可得
從上式可知,通過選取合適的設(shè)計(jì)參數(shù)c1,c2,γ,σ,可使得θ任意小.因此,閉環(huán)系統(tǒng)中的所有信號是最終一致有界的.
進(jìn)一步,從式(19)及式(23)可得
從上述分析可知,選取合適的設(shè)計(jì)參數(shù)可使θ任意小,即ν1,ν2可以任意小,因此跟蹤誤差z1,z2可以在有限時(shí)間T1內(nèi)收斂到零的小鄰域內(nèi).
在第 2 節(jié),本文針對封閉機(jī)器人系統(tǒng)(8)設(shè)計(jì)了外環(huán)自適應(yīng)神經(jīng)網(wǎng)絡(luò)速度控制指令(16)以及神經(jīng)網(wǎng)絡(luò)權(quán)值估計(jì)值更新率(17),并證明了系統(tǒng)在該控制指令的作用下是最終一致有界的,且系統(tǒng)跟蹤誤差可在有限時(shí)間T1內(nèi)收斂于零的小鄰域內(nèi).本節(jié)將基于確定學(xué)習(xí)理論[22],進(jìn)一步驗(yàn)證神經(jīng)網(wǎng)絡(luò)對封閉機(jī)器人系統(tǒng)(8)未知?jiǎng)討B(tài)的準(zhǔn)確學(xué)習(xí),且實(shí)現(xiàn)學(xué)習(xí)后的常值神經(jīng)網(wǎng)絡(luò)權(quán)值的表達(dá)與存儲(chǔ).
其中,?1(Z1)是神經(jīng)網(wǎng)絡(luò)對未知系統(tǒng)動(dòng)態(tài)的逼近誤差,且‖?1(Z1)‖≤??,??是一個(gè)任意小的正整數(shù),且常值神經(jīng)網(wǎng)絡(luò)權(quán)值的表達(dá)式為
其中,tb >ta >T1,[ta,tb] 是系統(tǒng)達(dá)到穩(wěn)態(tài)后的一段時(shí)間.
證明.證明分為以下兩個(gè)部分進(jìn)行:
1)神經(jīng)網(wǎng)絡(luò)輸入Z1回歸性證明.
定理 3.考慮由封閉機(jī)器人系統(tǒng)(8)、參考模型(3)、基于確定學(xué)習(xí)的速度控制指令(31)所組成的閉環(huán)系統(tǒng),對于任意給定的常數(shù)ρ>0 以及所有滿足U(0)≤ρ的系統(tǒng)初始狀態(tài),則通過選取合適的待設(shè)計(jì)參數(shù)c1,c2可使得閉環(huán)系統(tǒng)中的所有信號是最終一致有界的,并且跟蹤誤差z1能夠收斂到零的小鄰域內(nèi).
該證明與定理1 的證明過程類似,此處略.
注 3.基于自適應(yīng)神經(jīng)網(wǎng)絡(luò)的速度補(bǔ)償控制方案需要在線自適應(yīng)調(diào)整神經(jīng)網(wǎng)絡(luò)估計(jì)權(quán)值,主要適用于控制任務(wù)變化的工作場景.基于確定學(xué)習(xí)的速度補(bǔ)償控制方案包括兩個(gè)工作階段: 神經(jīng)網(wǎng)絡(luò)訓(xùn)練和經(jīng)驗(yàn)利用.神經(jīng)網(wǎng)絡(luò)訓(xùn)練階段,即自適應(yīng)調(diào)節(jié)過程,該階段適用任務(wù)多變的工作場景;經(jīng)驗(yàn)利用階段,即利用訓(xùn)練階段獲取的未知?jiǎng)討B(tài)知識(shí)構(gòu)造神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)控制器,提升系統(tǒng)的暫態(tài)控制性能和降低在線計(jì)算量,主要適用于與訓(xùn)練階段控制任務(wù)相同或相似的工作場景.
為驗(yàn)證本文所提方案的有效性,本節(jié)將分別在雙連桿封閉機(jī)器人數(shù)值系統(tǒng)和實(shí)際UR5 機(jī)器人平臺(tái)上進(jìn)行實(shí)驗(yàn)驗(yàn)證.UR5 機(jī)器人作為市面上常見的工業(yè)機(jī)器人,其力矩控制接口不予開放,一般只可做運(yùn)動(dòng)控制,符合本文封閉機(jī)器人的研究背景.
本節(jié)將對定理1 所提自適應(yīng)控制方案以及定理3 所提學(xué)習(xí)控制方案進(jìn)行對比實(shí)驗(yàn),以驗(yàn)證RBF神經(jīng)網(wǎng)絡(luò)在穩(wěn)定自適應(yīng)控制過程中的學(xué)習(xí)和知識(shí)再利用能力,并分別使用均勻布點(diǎn)和寬度RBF 神經(jīng)網(wǎng)絡(luò)兩種網(wǎng)絡(luò)構(gòu)造方式完成上述對比實(shí)驗(yàn),以驗(yàn)證寬度RBF 神經(jīng)網(wǎng)絡(luò)的優(yōu)越性.考慮由(1)和(2)組成的雙連桿封閉機(jī)器人動(dòng)力學(xué)模型
其中,x1=[x1,1,x1,2]T,x1,1和x1,2分別代表封閉機(jī)器人的關(guān)節(jié)1 角位置和關(guān)節(jié)2 角位置,且各矩陣為
寬度RBF 神經(jīng)網(wǎng)絡(luò)方案下的仿真結(jié)果如圖2~圖5 所示.圖2~圖4 展示了封閉機(jī)器人系統(tǒng)在自適應(yīng)控制階段的控制效果,從圖2 可以看出機(jī)器人的關(guān)節(jié)輸出均很好地跟蹤上了給定的期望軌跡,圖3表示RBF 神經(jīng)網(wǎng)絡(luò)的權(quán)值在一段控制時(shí)間后實(shí)現(xiàn)了收斂,圖4 表示RBF 神經(jīng)網(wǎng)絡(luò)成功逼近未知?jiǎng)討B(tài),驗(yàn)證了網(wǎng)絡(luò)的學(xué)習(xí)能力.圖5 展示了封閉機(jī)器人系統(tǒng)在不同控制方案下的控制效果.由圖可知,在僅依靠內(nèi)環(huán)PI 控制的情況下,系統(tǒng)跟蹤誤差較大,外環(huán)補(bǔ)償控制的引入大幅度提高了系統(tǒng)跟蹤精度.進(jìn)一步,學(xué)習(xí)控制階段的控制效果與自適應(yīng)階段的控制效果相比,暫態(tài)階段超調(diào)量更小,且暫態(tài)時(shí)間也更短,在7 s 左右跟蹤誤差就收斂到零附近,比自適應(yīng)控制減少了約84%.
圖2 封閉機(jī)器人關(guān)節(jié)角位置跟蹤效果(自適應(yīng)控制)Fig.2 Angular-position tracking performances of two joints for the manipulator with closed architecture(Adaptive control)
圖3 神經(jīng)網(wǎng)絡(luò)權(quán)值范數(shù)Fig.3 The norm of neural network weights
圖4 神經(jīng)網(wǎng)絡(luò)對未知?jiǎng)討B(tài) f (Z1)學(xué)習(xí)效果(自適應(yīng)控制)Fig.4 Neural network's learning performance of unknown dynamics f (Z1)(Adaptive control)
圖5 封閉機(jī)器人關(guān)節(jié)角位置跟蹤誤差(控制方案對比)Fig.5 Angular-position tracking errors of two joints for the manipulator with closed architecture (Comparison of different control methods)
此外,本節(jié)在神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)的均勻布點(diǎn)和動(dòng)態(tài)布點(diǎn)下,進(jìn)行了控制方案的性能對比實(shí)驗(yàn)研究.在實(shí)驗(yàn)中,均勻布點(diǎn)方案下控制器參數(shù)設(shè)置如下:c1=0.9,c2=0.8,γ=0.4,σ=0.00012,選取含有6561個(gè)神經(jīng)元的RBF 神經(jīng)網(wǎng)絡(luò).對比實(shí)驗(yàn)結(jié)果見表1.表1 中,ANC 表示自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制,LC 表示學(xué)習(xí)控制.從表1 數(shù)據(jù)可知,寬度RBF 神經(jīng)網(wǎng)絡(luò)的使用有效降低了神經(jīng)元的數(shù)量,進(jìn)而大幅減小神經(jīng)網(wǎng)絡(luò)計(jì)算負(fù)荷,因此使用寬度網(wǎng)絡(luò)的控制方案在仿真時(shí)長上遠(yuǎn)遠(yuǎn)小于使用均勻布點(diǎn)的控制方案,從平均絕對誤差(Mean absolute error,MAE)可知,寬度網(wǎng)絡(luò)的使用基本實(shí)現(xiàn)了機(jī)器人對期望軌跡的有效跟蹤,但跟蹤效果稍差于均勻布點(diǎn)的控制方案.
表1 仿真結(jié)果對比Table 1 Comparison of simulation results
為進(jìn)一步驗(yàn)證所提方案的有效性,本節(jié)將在UR5 機(jī)器人上進(jìn)行實(shí)驗(yàn),取機(jī)械臂第2、3 關(guān)節(jié)為控制對象.UR5 機(jī)器人由機(jī)器人本體、控制箱、示教器和計(jì)算機(jī)組成.計(jì)算機(jī)運(yùn)行Matlab 程序?qū)崟r(shí)計(jì)算速度控制指令,并通過有線網(wǎng)絡(luò)將指令傳輸給機(jī)器人控制箱以及獲取所需機(jī)器人狀態(tài).實(shí)驗(yàn)所選期望軌跡為yd=[0.5 sin(0.5t),0.5 sin(0.5t)]T,系統(tǒng)初始狀態(tài)為x1=[0,0]T,x˙1=[0,0]T,仿真步長為40 ms.自適應(yīng)控制階段時(shí)長為400 s,學(xué)習(xí)控制階段時(shí)長為100 s.控制器參數(shù)設(shè)置如下: 初始神經(jīng)元設(shè)置為[0,0,0,0,0.5,0.5,0.2,0.2],c1=1.8,c2=0.4,γ=0.12,σ=0.002,ε=0.15,β=0.95,神經(jīng)元寬度為[0.3,0.3,0.3,0.3,0.3,0.3,0.3,0.3].
圖6 展示了UR5 機(jī)器人運(yùn)動(dòng)過程中不同時(shí)間下的運(yùn)動(dòng)狀態(tài),實(shí)驗(yàn)結(jié)果如圖7~圖9 所示.圖7、圖8 展示了機(jī)器人在自適應(yīng)階段的控制效果.在圖7中,本文根據(jù)圖6 標(biāo)定了機(jī)器人在對應(yīng)時(shí)刻下的關(guān)節(jié)角位置.結(jié)合圖6 和圖7 可知,UR5 機(jī)器人的關(guān)節(jié)角很好地跟蹤上了給定的期望軌跡,從圖8 可知,神經(jīng)網(wǎng)絡(luò)權(quán)值在有限時(shí)間內(nèi)成功收斂.圖9 展示了機(jī)械臂在學(xué)習(xí)控制階段的控制效果,圖9 中結(jié)果與數(shù)值仿真的結(jié)果一致,通過神經(jīng)網(wǎng)絡(luò)對知識(shí)的再利用,學(xué)習(xí)控制階段的跟蹤誤差更快地收斂,暫態(tài)時(shí)間更短,暫態(tài)誤差也更小.
圖6 UR5 機(jī)器人不同時(shí)間運(yùn)動(dòng)位置Fig.6 Positions of UR5 at different times
圖7 UR5 機(jī)器人關(guān)節(jié)角位置跟蹤效果(自適應(yīng)控制)Fig.7 Angular-position tracking performance of UR5(Adaptive control)
圖8 神經(jīng)網(wǎng)絡(luò)權(quán)值范數(shù)Fig.8 The norm of neural network weights
圖9 UR5 機(jī)器人關(guān)節(jié)角位置跟蹤誤差(學(xué)習(xí)控制對比)Fig.9 Angular-position tracking errors of UR5(Compared to learning control)
本文針對未開放力矩控制接口的封閉機(jī)器人系統(tǒng),提出了一種基于外環(huán)補(bǔ)償?shù)淖赃m應(yīng)神經(jīng)網(wǎng)絡(luò)速度控制方案.與現(xiàn)有大部分自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制方案不同的是,本文所提方案的控制輸入為關(guān)節(jié)角速度而不是關(guān)節(jié)力矩,實(shí)現(xiàn)了自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制算法在封閉機(jī)器人上的應(yīng)用,并通過引入確定學(xué)習(xí)機(jī)制,充分發(fā)揮神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,提高了機(jī)器人在執(zhí)行相同或相似任務(wù)時(shí)的控制性能.此外,利用寬度神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)網(wǎng)絡(luò)布點(diǎn)方式,大幅降低了RBF 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度,減小了設(shè)備計(jì)算負(fù)荷,提高了系統(tǒng)控制實(shí)時(shí)性.本文所提控制方案針對的是機(jī)器人關(guān)節(jié)空間控制,在未來的工作中,將逐步將其拓展到機(jī)器人任務(wù)空間控制、阻抗控制等,提高該控制方案的工程應(yīng)用價(jià)值.