臧強 田浪 胡凱 陳煒峰
機器人最初應(yīng)用于汽車制造業(yè),隨著算法與制造技術(shù)的成熟,機器人廣泛應(yīng)用于拋光、打磨、去毛刺等精細(xì)化工作中,在這些工作中出現(xiàn)的環(huán)境接觸力會影響機器人的工作質(zhì)量.機器人通過搭載力傳感器,將傳感器的檢測信息作為力反饋信號,實現(xiàn)機器人對環(huán)境接觸力的控制,使機器人能夠穩(wěn)定準(zhǔn)確地完成作業(yè).目前機器人力控制策略方法大致分為阻抗控制、位/力混合控制、自適應(yīng)控制和智能控制四類.隨著工業(yè)生產(chǎn)的自動化與智能化,以及人工智能技術(shù)的不斷發(fā)展,智能控制策略成為機器人力控制的發(fā)展主流與研究重點.為方便對控制方法進(jìn)行介紹,將控制方法大致分為傳統(tǒng)控制(阻抗控制、位/力混合控制、自適應(yīng)控制)與智能控制兩類.
Hogan[1]提出了阻抗控制方法,用于分析環(huán)境剛度不確定的情況.位/力混合控制方法來源于Raibert等[2]提出的對位置與力同時控制的想法,根據(jù)工業(yè)機器人工作的內(nèi)容,針對機器人的各個關(guān)節(jié)進(jìn)行位置控制或力控制.自適應(yīng)控制方法是根據(jù)生物通過改變自身習(xí)性以適應(yīng)環(huán)境的特征而設(shè)計的一種控制方法.這些控制方法在應(yīng)用時,需要被控對象建立準(zhǔn)確的模型.但由于機器人本身一直存在著時變性、不確定性以及強耦合性,使得機器人難以建立模型.此外,機器人末端的力反饋輸入也讓建立整個機器人的模型變得更為困難.機器人模型的難以建立,讓傳統(tǒng)控制策略無法徹底地解決機器人力控制問題,無法達(dá)到期望的工作效果.
智能控制策略是一系列智能控制方法的總稱,其中常用的控制方法是模糊邏輯控制、神經(jīng)網(wǎng)絡(luò)控制以及優(yōu)化算法控制等.模糊邏輯控制是源于模糊集合理論的控制方法,它通過大量經(jīng)驗形成的模糊規(guī)則進(jìn)行決策控制;神經(jīng)網(wǎng)絡(luò)控制方法通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型來決策控制;優(yōu)化算法控制主要是通過仿生動物的群體智能行為來決策控制.這些智能控制方法相較于傳統(tǒng)控制方法,極大地降低了對模型準(zhǔn)確度的要求,因此智能控制方法提出后,被廣泛應(yīng)用于機器人領(lǐng)域.
傳統(tǒng)力控制策略主要是阻抗控制、位/力混合控制與自適應(yīng)控制方法.本章將依次介紹阻抗控制、位/力混合控制以及自適應(yīng)控制的相關(guān)知識,并介紹其與智能控制方法相結(jié)合的機器人應(yīng)用實例.
阻抗控制主要從力與位置兩個方面進(jìn)行研究,分別為基于力的阻抗控制與基于位置的阻抗控制.基于力的阻抗控制通過控制關(guān)節(jié)驅(qū)動力矩陣來實現(xiàn)對末端接觸力和位移的調(diào)整,而基于位置的阻抗控制則是根據(jù)機器人與環(huán)境的接觸力偏差,通過調(diào)整機器人末端的位置/速度實現(xiàn)控制的.
1.1.1 基于力矩的阻抗控制
圖1 基于力矩的阻抗控制Fig.1 Torque-based impedance control
Beretta等[3]在對神經(jīng)外科的醫(yī)療機器人的研究中,驗證一種基于扭矩的阻抗來輔助腦靶向方法施行的可行性.對于手術(shù)機器人而言,控制的精度以及振動抑制尤為重要,所以Beretta 等[3]結(jié)合腦內(nèi)圖像的導(dǎo)航系統(tǒng),提出變阻尼控制和基于力反饋增強控制兩種改進(jìn)的基于力矩的阻抗控制方法.這兩種控制方法將腦模擬影像作為實驗基礎(chǔ),并選取13位初級使用者與8位醫(yī)生參與實驗,實驗結(jié)果表明帶有力反饋增強的空間變量控制器指向精度滿足臨床準(zhǔn)確度要求(<1 mm),并且能夠有效地抑制手部震顫,減少使用者60%的工作量.但其空間變量的動態(tài)參數(shù)有待調(diào)節(jié)以獲取更好的系統(tǒng)穩(wěn)定性.此外該方法目前只是虛擬模擬,未來還需要考慮在手術(shù)中與機械手的安全交互問題.
1.1.2 基于位置的阻抗控制
基于位置的阻抗控制(Position-Based Impedance Control)有2個控制環(huán)組成,即阻抗控制環(huán)與位置控制環(huán).位置控制環(huán)是對期望位置、位置補償量及實際位置3個位置量數(shù)據(jù)進(jìn)行計算,使機器人的實際位置不斷地接近期望的位置.阻抗控制環(huán)主要是通過計算期望力與實際力的差值,獲得位置修正.它通過實際檢測機器人與環(huán)境之間的作用力不斷地調(diào)整目標(biāo)的阻抗參數(shù),然后通過位置控制器控制機器人的位置,最終實現(xiàn)力控制.阻抗控制環(huán)的反饋作用力Fe的頻域表達(dá)式為
在圖2中,機器人位置控制指令Xd由參考軌跡Xr與位置修正量e相加獲得,當(dāng)機器人與環(huán)境接觸時,假設(shè)位置控制環(huán)節(jié)沒有誤差,可知X=Xd,求得位置修正量e=X-Xr.機器人與環(huán)境無接觸時,反饋作用力為0,則位置修正量也為0.
圖2 基于位置的阻抗控制Fig.2 Position-based impedance control
北京市智能機器人系統(tǒng)技術(shù)與應(yīng)用重點實驗室[4]設(shè)計了一種基于位置阻抗的機械臂抓捕飛行器控制方法,在不測量接觸力而僅獲得關(guān)節(jié)角度與角速度信息的情況下,通過改進(jìn)現(xiàn)有的關(guān)節(jié)位置閉環(huán)控制,對機械臂末端等效剛度控制實現(xiàn)機械臂抓捕目標(biāo)過程的柔順控制,避免機械臂抓捕飛行器過程中,因碰撞沖擊與結(jié)構(gòu)變化時產(chǎn)生的易碰撞問題.該方法的實質(zhì)是通過控制不同構(gòu)型下關(guān)節(jié)剛度進(jìn)而保證機械臂末端剛度為恒定期望值,根據(jù)末端剛度不隨機械臂構(gòu)型變化而變化的特性,可以將機械臂抓捕目標(biāo)接觸過程變?yōu)榈刃У膹椈勺枘岫A系統(tǒng).阻抗控制方法相對于位置保持硬抓捕方法,不但可以減少機械末端與目標(biāo)之間的碰撞和對基體位姿的影響,還可以控制機械臂的構(gòu)型不發(fā)生大變化,保證抓捕過程的安全.
圖3 位/力混合控制Fig.3 Position/force hybrid control
Kitazawa等[5]在救災(zāi)機械設(shè)計中應(yīng)用阻抗控制方法設(shè)計了一種移動雙臂機器人,主要用于對災(zāi)害造成的巨石等大物體的移動.該機器人的阻抗控制流程通過測量機械臂末端執(zhí)行器的位置、速度以及接觸力,獲取反饋信息,根據(jù)反饋信息調(diào)節(jié)機械臂的各個關(guān)節(jié)實現(xiàn)機械阻抗.
單一的阻抗控制方法無論是基于位置控制還是基于力矩的阻抗控制方法,其控制精度過分依賴于環(huán)境信息.針對阻抗控制在實際使用中模糊的環(huán)境信息會造成結(jié)果的較大誤差,難以應(yīng)用于高精度的力控制場所的現(xiàn)象,機器人專家們提出了引入其他控制策略與阻抗控制策略相結(jié)合的方式,來改善阻抗控制策略,例如自適應(yīng)阻抗控制[6]、模糊自適應(yīng)阻抗控制[7]等.
位/力混合控制策略是指根據(jù)笛卡爾坐標(biāo)系下的雅可比矩陣將機器人工作空間的力與位置分配到機器人的各個關(guān)節(jié),其控制結(jié)構(gòu)如圖3所示.通過選擇矩陣C將機器人的運動空間分解為力控制空間與位置控制空間,為每個關(guān)節(jié)只分配一種控制方式,實現(xiàn)對整個機器人進(jìn)行力與位置分開控制,兩種控制回路獨立運行互不干擾.但是位/力混合控制需要計算每個控制關(guān)節(jié)的關(guān)節(jié)力矩,使計算量增加,造成控制延時無法對機器人進(jìn)行有效的實時控制[8].
目前對于機器人的位/力混合控制的研究主要分為以下3個方面:
1)建立精準(zhǔn)的工作空間的模型:模型的不精確會導(dǎo)致控制系統(tǒng)無法完成預(yù)期的任務(wù).
2)控制環(huán)境接觸力:目前機器人工作時,常常會遇見與環(huán)境或者工作對象接觸的情況,接觸過程中會產(chǎn)生相應(yīng)的接觸力.如果不對接觸力加以控制,會對機器人本體、末端執(zhí)行器以及接觸對象表面造成相應(yīng)的損害.
3)提高系統(tǒng)的穩(wěn)定性:機器人系統(tǒng)的穩(wěn)定性是評價系統(tǒng)好壞的主要依據(jù),以往的力控制算法常存在系統(tǒng)響應(yīng)不穩(wěn)定與響應(yīng)緩慢的情況,所以需要設(shè)計控制器提高系統(tǒng)穩(wěn)定性.
隨著對機械操作的精細(xì)化與智能化要求提高,僅靠位/力控制方法已無法滿足控制的精度要求.研究者們開始尋求以智能化控制方法來設(shè)計位/力控制系統(tǒng)中的位置控制與力控制回路的控制器,以此來補償系統(tǒng)的不確定性,提高控制系統(tǒng)性能.近期應(yīng)用于工業(yè)機器人上的位/力混合控制的研究有:
Mendes等[9]為解決工業(yè)機器人接觸問題,提出一種力/運動的混合控制系統(tǒng),在力控制回路中設(shè)計一種自適應(yīng)模糊控制器來處理機器人末端執(zhí)行器與物體表面的接觸問題.該系統(tǒng)的特點是利用自適應(yīng)控制律將模糊系統(tǒng)的參數(shù)初始為零,以及不需要建立精確的機器人的模型.它通過在線學(xué)習(xí)和自適應(yīng)補償,實現(xiàn)對機器人不確定性的補償.該控制方法可以用于攪拌、焊接、去毛刺、拋光和裝配等多個領(lǐng)域.
Xu等[10]研究了多機器人協(xié)同操作的位/力混合控制問題.多機器人協(xié)同操作系統(tǒng)因為物理結(jié)構(gòu)的閉合鏈?zhǔn)沟妹總€機械手的位置與速度受到使用工具的限制,而且動態(tài)不確實性讓整個系統(tǒng)更加復(fù)雜且耦合.因此提出基于位/力混合控制的模糊神經(jīng)網(wǎng)絡(luò)多機器人協(xié)作控制系統(tǒng).該方法根據(jù)運動學(xué)與動力學(xué)模型,基于位/力混合控制思想設(shè)計控制策略.該方法的改進(jìn)之處在于用模糊神經(jīng)網(wǎng)絡(luò)設(shè)計位置控制器用于補償未知動力學(xué)的非線性部分;引入?yún)f(xié)同控制項來減少機器人之間的相互影響;力控制器由前饋項與比例控制項組成.最后,他們利用Lyapunov理論證明系統(tǒng)的閉環(huán)穩(wěn)定性,并通過仿真實驗驗證了控制策略的可行性.
自適應(yīng)控制的控制過程:獲取控制系統(tǒng)的輸入輸出與相關(guān)的狀態(tài)信息;通過辨識機構(gòu)對系統(tǒng)的相關(guān)參數(shù)與狀態(tài)進(jìn)行估計,并計算系統(tǒng)的性能指標(biāo);通過對比計算出系統(tǒng)當(dāng)前性能與期望性能的偏差值,根據(jù)偏差值做出相應(yīng)的決策,確定當(dāng)前系統(tǒng)的控制策略;根據(jù)確定的控制策略在線調(diào)整系統(tǒng)的輸入信號與控制器參數(shù),使系統(tǒng)逐漸趨于最優(yōu)狀態(tài).其控制結(jié)構(gòu)如圖4所示.
圖4 自適應(yīng)控制組成Fig.4 Adaptive control composition
從控制系統(tǒng)設(shè)計的3個基本指標(biāo)上來分析自適應(yīng)控制系統(tǒng)在機器人應(yīng)用中存在的問題:
1)在穩(wěn)定性方面,任何自適應(yīng)控制系統(tǒng)都應(yīng)該具有保證全局穩(wěn)定的能力,但目前僅有通過Lyapunov穩(wěn)定定理與Popov超穩(wěn)定理論設(shè)計的時不變系統(tǒng)才較為成熟,非線性與隨機系統(tǒng)并未達(dá)到要求.
2)在收斂性方面,自適應(yīng)算法的自身非線性特點使得收斂理論的建立較為困難,僅有一些簡單的自適應(yīng)系統(tǒng)可以通過Lyapunov穩(wěn)定性理論來判斷收斂性.此外,收斂結(jié)果的局限性較大而且分析時假設(shè)的條件太多,只能用于特定環(huán)境,無法用于實際應(yīng)用中.
3)在性能指標(biāo)方面,由于系統(tǒng)的非線性、時變性以及不確定的初始條件等因素使得自適應(yīng)控制系統(tǒng)的動態(tài)性能難以分析,目前的研究成果較少.
為改善自適應(yīng)控制系統(tǒng)的問題,常將自適應(yīng)控制方法與其他控制方法相結(jié)合,形成自適應(yīng)模糊控制[11]、自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制[12]等方法.利用自適應(yīng)控制可以適應(yīng)控制對象與擾動的動態(tài)特征的特性,將自適應(yīng)算法主要用作對整體系統(tǒng)參數(shù)的設(shè)定調(diào)節(jié)方面,充分發(fā)揮自適應(yīng)控制的獨特優(yōu)勢.近期自適應(yīng)控制與其他控制相結(jié)合應(yīng)用于工業(yè)機器人上的代表性研究有:
Hu等[13]針對存在不確定參數(shù)和外界干擾的機器人任務(wù)空間軌跡跟蹤問題,提出一種自適應(yīng)反演控制方案.根據(jù)運動學(xué)與動力學(xué)的不確定性與外部干擾,建立相應(yīng)的自適應(yīng)參數(shù)更新律,并通過定義相應(yīng)的李雅普諾夫函數(shù)保證系統(tǒng)的漸近穩(wěn)定性;采用損失方程保證外界擾動對被控對象L2的輸出增益低于期望值;控制方法對于被控對象L2增益的大小沒有限制,可以達(dá)到L2擾動衰減的任意水平.通過計算的數(shù)值結(jié)果證明自適應(yīng)反演控制方法在模型不確定性與時變擾動的情況下跟蹤目標(biāo)軌跡的魯棒性.但該控制方法目前只使用特定的軌跡跟蹤公式進(jìn)行仿真證明了有效性,對任意軌跡跟蹤有效性需要進(jìn)一步研究.未來應(yīng)用到機器人姿態(tài)控制實驗還需要能夠在硬件平臺上數(shù)字化實現(xiàn).
Yen等[14-15]針對不確定性和擾動的工業(yè)機器人軌跡跟蹤控制問題,提出一種基于動態(tài)結(jié)構(gòu)模糊小波神經(jīng)網(wǎng)絡(luò)系統(tǒng)的魯棒自適應(yīng)控制方法.該控制方案根據(jù)模糊邏輯與后向小波函數(shù),設(shè)計一種4層結(jié)構(gòu)模糊神經(jīng)網(wǎng)絡(luò)用于補償結(jié)構(gòu)的不確定性與非結(jié)構(gòu)不確定性;采用自適應(yīng)學(xué)習(xí)算法來調(diào)節(jié)動態(tài)結(jié)構(gòu)模糊小波神經(jīng)網(wǎng)絡(luò)系統(tǒng)的參數(shù),以此減少逼近誤差值提高系統(tǒng)的控制性能;根據(jù)Lyapunov定理確定自適應(yīng)魯棒控制律,保證系統(tǒng)的全局穩(wěn)定性,使系統(tǒng)跟蹤誤差值控制在期望精度內(nèi).該控制方法通過與小波控制和自適應(yīng)模糊控制實驗對比后,證明了有效性.
圖5 模糊控制原理框圖Fig.5 Fuzzy control block diagram
于欣波等[16]針對機器人動力學(xué)模型未知問題,通過設(shè)計擾動觀測器來補償系統(tǒng)的未知擾動,提出一種基于擾動觀測器的自適應(yīng)神經(jīng)網(wǎng)絡(luò)跟蹤控制策略.利用RBF神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)機器人不確定模型,選擇適合的增益參數(shù)將系統(tǒng)跟蹤的誤差值降到零域,根據(jù)Lyapunov穩(wěn)定性定理設(shè)計自適應(yīng)控制律,證明了系統(tǒng)的誤差信號半全局一致有界性.最后通過仿真證明有效性并應(yīng)用于實際的機器人實驗中.
智能化的理念逐漸在控制領(lǐng)域被提出,機器人研究者們也相繼提出希望將智能化的控制手段應(yīng)用到機器人控制中,實現(xiàn)機器人的智能力控制.智能力控制指的是利用智能控制技術(shù)處理機器人傳感器反饋的信息,使機器人能夠在任意的操作環(huán)境中在無人干擾時實現(xiàn)自我調(diào)節(jié)與自適應(yīng),并且不斷地自我學(xué)習(xí)改進(jìn)后的執(zhí)行結(jié)果,能夠?qū)崿F(xiàn)整個作業(yè)過程的準(zhǔn)確而又快速的穩(wěn)定控制.
智能控制策略中存在著不同的控制系統(tǒng),目前主流的智能控制策略大致為:模糊邏輯控制系統(tǒng)、神經(jīng)網(wǎng)絡(luò)控制系統(tǒng)、優(yōu)化算法控制系統(tǒng)等.
模糊邏輯控制是以模糊集理論、模糊語言變量和模糊邏輯推理為基礎(chǔ)的一種智能控制方法,它是從行為上模仿人的模糊推理和決策過程的一種智能控制方法.該方法首先將操作人員或?qū)<医?jīng)驗編成模糊規(guī)則,然后將來自傳感器的實時信號模糊化,將模糊化后的信號作為模糊規(guī)則的輸入,完成模糊推理,將推理后得到的輸出量加到執(zhí)行器上.模糊控制原理如圖5所示.
Song等[17]研究單連桿柔性關(guān)節(jié)機器人系統(tǒng)輸入飽和跟蹤問題,對動態(tài)表面控制方法進(jìn)行改進(jìn),設(shè)計了自適應(yīng)模糊控制動態(tài)表面控制方法.該方法主要采用平滑函數(shù)與中值定理處理系統(tǒng)輸入飽和的問題,基于帶輔助一階濾波器設(shè)計自適應(yīng)動態(tài)表面控制器解決系統(tǒng)復(fù)雜性激增的問題.該方案能夠保證閉環(huán)系統(tǒng)中所有信號是半全局一致有界.相比于原有的動態(tài)表面控制方法,改進(jìn)的自適應(yīng)模糊動態(tài)表面控制方法在輸入飽和的情況下,系統(tǒng)輸出能夠更好地對目標(biāo)軌跡進(jìn)行跟蹤,并且能夠極大地減少計算量,提高系統(tǒng)響應(yīng)速度.但是該方法存在一定的誤差會限制系統(tǒng)的性能.
目前模糊控制與其他控制方法結(jié)合,有效地改善了控制效果并開始廣泛應(yīng)用于機器人的各個領(lǐng)域,例如模糊PID用于手術(shù)機器人[18-19]、模糊神經(jīng)網(wǎng)絡(luò)用于機器人軌跡規(guī)劃[20]、自適應(yīng)模糊控制用于機器人時滯系統(tǒng)[21]等.
神經(jīng)網(wǎng)絡(luò)作為多學(xué)科交叉融合的前沿研究技術(shù),具有充分逼近任意復(fù)雜非線性能力、并行分布處理能力、自適應(yīng)能力、自學(xué)習(xí)能力、較強的魯棒性和容錯能力等.學(xué)者們將神經(jīng)網(wǎng)絡(luò)與機器人控制領(lǐng)域的控制方法結(jié)合,對原有的控制方法進(jìn)行改進(jìn)獲得了更好的控制效果.
2.2.1 經(jīng)典神經(jīng)網(wǎng)絡(luò)的控制方法
經(jīng)典的神經(jīng)網(wǎng)絡(luò)控制方法有BP神經(jīng)網(wǎng)絡(luò)、RBF神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)等.BP神經(jīng)網(wǎng)絡(luò)全稱為反向傳播(Back Propagation)神經(jīng)網(wǎng)絡(luò),它是一種多層前饋神經(jīng)網(wǎng)絡(luò).BP神經(jīng)網(wǎng)絡(luò)的優(yōu)點是具有好的非線性映射能力、自學(xué)習(xí)與自適應(yīng)能力、較好的泛化能力與容錯能力.但是BP神經(jīng)網(wǎng)絡(luò)對于初始網(wǎng)絡(luò)權(quán)重非常敏感,往往會出現(xiàn)局部極小化的問題.BP神經(jīng)網(wǎng)絡(luò)算法本質(zhì)是梯度下降算法,而且優(yōu)化的函數(shù)比較復(fù)雜,故收斂的速度慢.另外,BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇不一,而網(wǎng)絡(luò)結(jié)構(gòu)直接影響網(wǎng)絡(luò)的逼近能力及推廣性質(zhì).
Yuan等[22]設(shè)計了一種改進(jìn)BP神經(jīng)網(wǎng)絡(luò)PID控制算法,用于多自由度工業(yè)機器人運動控制系統(tǒng),使控制器能夠更好地控制復(fù)雜運動過程,其結(jié)構(gòu)如圖6所示.該方法利用神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)能力離線識別控制對象模型,修正其網(wǎng)絡(luò)權(quán)值,逐步適應(yīng)對象的特性.當(dāng)學(xué)習(xí)與被控對象保持一致時,NNPID將成為一個在線控制器.在此過程中,NNI利用BP神經(jīng)網(wǎng)絡(luò)的誤差反向傳播特性,將偏差e1返回到訓(xùn)練算法中,從而校正自己的權(quán)值.NNPID根據(jù)誤差信號e2來修正它的網(wǎng)絡(luò)權(quán)值.經(jīng)過幾次學(xué)習(xí)后,NNPID將逐步跟上系統(tǒng)的變化.但是在BP神經(jīng)網(wǎng)絡(luò)中通過試錯學(xué)習(xí)來獲得的初始權(quán)值,難以獲得PID控制器的最優(yōu)參數(shù).所以Yuan等[22]將粒子群優(yōu)化算法引入到控制器中,用于對控制器的參數(shù)進(jìn)行優(yōu)化,使PID具有更好的控制效果,并通過實驗證明了改進(jìn)的神經(jīng)網(wǎng)絡(luò)PID控制機器人系統(tǒng)能夠快速地跟蹤目標(biāo),具有很好的穩(wěn)態(tài)精度,克服了傳統(tǒng)PID控制方法的不足.
圖6 前向BP神經(jīng)網(wǎng)絡(luò)PID控制算法結(jié)構(gòu)Fig.6 PID control algorithm structure of forward BP neural network
RBF神經(jīng)網(wǎng)絡(luò)全稱為徑向基函數(shù)(Radical Basis Function)神經(jīng)網(wǎng)絡(luò),是一種三層的前向神經(jīng)網(wǎng)絡(luò)模型.徑向基函數(shù)是對中心點徑向?qū)ΨQ且衰減的非負(fù)線性函數(shù),是一種局部響應(yīng)函數(shù).RBF神經(jīng)網(wǎng)絡(luò)的優(yōu)點是:結(jié)構(gòu)簡單、訓(xùn)練簡潔而且能夠逼近任意非線性函數(shù);網(wǎng)絡(luò)連接權(quán)值與輸出呈線性關(guān)系;分類能力好且學(xué)習(xí)過程收斂速度快.缺點是:過分依賴于數(shù)據(jù),數(shù)據(jù)不充分就無法進(jìn)行工作;將特征以及推理都轉(zhuǎn)化為數(shù)據(jù)計算,易造成信息丟失;樣本數(shù)據(jù)選擇困難.目前應(yīng)用于機器人的RBF神經(jīng)網(wǎng)絡(luò)算法大部分與滑??刂芠23]和模糊控制[24]算法相結(jié)合.
Jung[25]提出一種基于RBF神經(jīng)網(wǎng)絡(luò)的滑??刂聘倪M(jìn)方法,用以處理滑模控制器非線性函數(shù)增益選取,以及具體應(yīng)用的三連桿機械臂的不確定性問題.滑??刂破魇且环N典型的非線性控制器,非線性函數(shù)增益的選擇對系統(tǒng)的性能和穩(wěn)定性起重要的作用,所以選取恰當(dāng)?shù)脑鲆嬷的軌颢@得更好的控制效果.Jung[25]提出的基于RBF神經(jīng)網(wǎng)絡(luò)的改進(jìn)方法就是利用神經(jīng)網(wǎng)絡(luò)補償器來幫助滑模控制器選取適當(dāng)?shù)脑鲆嬷?能夠更智能地處理系統(tǒng)穩(wěn)定性和性能,通過仿真對比實驗,證明神經(jīng)滑??刂品椒ㄏ啾燃兓?刂品椒?系統(tǒng)的性能更好、穩(wěn)定性更高.
2.2.2 深度強化學(xué)習(xí)
隨著人工智能領(lǐng)域不斷深入研究,相應(yīng)的機器人智能控制方法也得到了快速發(fā)展.目前基于深度網(wǎng)絡(luò)與強化學(xué)習(xí)相結(jié)合的深度強化學(xué)習(xí)成為了研究的熱點之一.深度強化學(xué)習(xí)就是利用神經(jīng)網(wǎng)絡(luò)具有很強的非線性擬合能力和識別任意復(fù)雜非線性關(guān)系的能力,用神經(jīng)網(wǎng)絡(luò)作為agent,獲得環(huán)境最大的獎勵,使整個系統(tǒng)的運行性能達(dá)到最佳狀態(tài).深度強化學(xué)習(xí)誕生后,因為其強大的學(xué)習(xí)與適應(yīng)能力被廣泛地應(yīng)用于機器人[26-27]、優(yōu)化控制調(diào)度[28-29]、通信[30]、自動駕駛[31-32]、視頻游戲[33]等多個領(lǐng)域.
深度強化學(xué)習(xí)(Deep Q-Learning)的最基本的算法思路來源于Q-Learning,但不同之處在于它的Q值不是直接通過狀態(tài)值與動作值來計算的,而是通過Q網(wǎng)絡(luò)即神經(jīng)網(wǎng)絡(luò)來計算的,Q網(wǎng)絡(luò)可以為DNN、CNN或者是RNN.根據(jù)強化學(xué)習(xí)算法可將深度強化學(xué)習(xí)的算法大致分為3類:基于價值學(xué)習(xí)的算法、基于策略學(xué)習(xí)的算法和混合學(xué)習(xí)算法.深度強化學(xué)習(xí)算法各有優(yōu)劣,各算法的總結(jié)如表1所示,表中介紹了各算法的改進(jìn)之處,以及算法的相關(guān)文獻(xiàn).因各深度強化學(xué)習(xí)算法較多且應(yīng)用范圍廣泛,下面主要介紹目前應(yīng)用于機器人控制領(lǐng)域的幾個實例.
Luo等[40]將深度強化學(xué)習(xí)控制方法運用到機器人裝配任務(wù)中,完成了傳統(tǒng)控制方法無法實現(xiàn)的任務(wù):將一個剛性樁插入到一個直徑較小的可變形孔洞中.該方法不直接對關(guān)節(jié)扭矩進(jìn)行控制,而是利用機器人手腕傳感器的導(dǎo)納控制和力與力矩信號.該方法能夠使機器人快速學(xué)習(xí)裝配任務(wù),對水平變化具有較好的魯棒性.當(dāng)樁柱相對靠近孔洞時,機器人仍具有良好的控制效果.Luo等[40]還提出了未來改進(jìn)的方向:通過增加一個視覺系統(tǒng),可以更好地將機器人引導(dǎo)到孔洞附近,增加機器人在初始位置的靈活性.
隨著機械加工精密化程度提高,毫米級目標(biāo)的高精度自動裝配技術(shù)成為研究重點,傳統(tǒng)的精密裝配方法太過依賴于實際機器人系統(tǒng)的編程,需要復(fù)雜的參數(shù)整定工作.Wu等[41]通過對深度強化學(xué)習(xí)網(wǎng)絡(luò)的優(yōu)先級劃分,實現(xiàn)了精確插入技能學(xué)習(xí)的強化學(xué)習(xí).該方法通過LSTM神經(jīng)網(wǎng)絡(luò)層來近似Dueling DQN框架中的Q函數(shù),通過演示的數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,之后通過其初始策略與環(huán)境進(jìn)行交互來加速機器人的技能學(xué)習(xí),實現(xiàn)了基于瞬時獎賞的插入步長調(diào)制.
機器人手臂在進(jìn)行抓取任務(wù)時,常會遇到障礙物,如何控制機器人末端執(zhí)行器進(jìn)行避障運動是整個抓取任務(wù)的重點.由于機器人的非線性,通常的控制方法常遇到提前收斂或收斂時間過長的情況.為克服機器人運動的收斂問題,保證關(guān)節(jié)運動的連續(xù)性和穩(wěn)定性,Wen等[39]設(shè)計了一種基于深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的深度學(xué)習(xí)避障算法.算法主要利用深度神經(jīng)網(wǎng)絡(luò)能夠識別輸入輸出的能力將其作為非線性函數(shù),用強化學(xué)習(xí)訓(xùn)練出策略,設(shè)立一種新的獎勵來處理有障礙的環(huán)境.該算法最終解決了高維狀態(tài)輸入和多返回值的收斂問題,實現(xiàn)了機器人手臂抓取運動的避障.
優(yōu)化控制方法是指設(shè)計一個控制系統(tǒng),在一定的約束條件下能夠使給定的被控系統(tǒng)性能指標(biāo)取得最大或最小值的方法.在實際運行的過程中,給定的約束條件不能包含所有的情況,所以優(yōu)化控制不能達(dá)到完美,難以做到最優(yōu)控制.在機器人領(lǐng)域中應(yīng)用的優(yōu)化控制方法主要采用遺傳優(yōu)化算法[42-43]、基于群體智能的蟻群算法[44]、粒子群算法[45-46]等以及基于萬有引力定律和牛頓第二定律的引力搜索算法(Gravitational Search Algorithm,GSA).這些智能算法均具有全局尋優(yōu)的能力,但每次需求的解可能都不同而且算法運行的時間不同.每個算法都有適用的優(yōu)化問題,根據(jù)各自的算法特點解決機器人控制的不同問題.各優(yōu)化算法應(yīng)用優(yōu)缺點對比如表2所示.
表1 深度強化學(xué)習(xí)算法總結(jié)
表2 優(yōu)化算法對比
Faieghi等[47]針對工業(yè)機器人在實際應(yīng)用中的不確定性與擾動問題,設(shè)計了一種主動滑??刂破?該控制器利用李雅普諾夫函數(shù)得出自適應(yīng)增益,并且采用粒子群優(yōu)化算法確定最優(yōu)控制參數(shù),使控制器在不影響系統(tǒng)穩(wěn)定性的前提下能夠到達(dá)跟蹤的零誤差.通過仿真實驗證明主動滑??刂破髂軌蛟诖嬖谖粗耐獠扛蓴_和系統(tǒng)不確定性情況下實現(xiàn)魯棒軌跡跟蹤.
針對機器人本身的非線性與復(fù)雜性使得機器人軌跡跟蹤的控制效果降低,傳統(tǒng)的工業(yè)機器人滑??刂撇荒軡M足現(xiàn)有的控制需求的問題,吳方圓等[48]提出了一種基于粒子群優(yōu)化的神經(jīng)網(wǎng)絡(luò)分?jǐn)?shù)階滑模變結(jié)構(gòu)控制的改進(jìn)方法.該方法先通過粒子群優(yōu)化的神經(jīng)網(wǎng)絡(luò)識別機器人的模型,訓(xùn)練出最相關(guān)的系統(tǒng)控制參數(shù)模型,再根據(jù)分?jǐn)?shù)階理論與滑模變結(jié)構(gòu)理論設(shè)計控制器,運用到整個機器人的軌跡跟蹤控制系統(tǒng)中.該方法通過仿真實驗證明,對于系統(tǒng)的穩(wěn)定性與控制精度方法有良好的改進(jìn)效果,但是由于仿真只采用簡單的折線與圓弧特定的軌跡路徑,對于控制方法是否能用于復(fù)雜軌跡跟蹤還需進(jìn)一步優(yōu)化.Aldair等[49]針對n連桿兩足步行機器人具有較高的非線性和不確定性參數(shù)情況,提出了一種基于蟻群算法的自適應(yīng)模糊控制器,采用蟻群優(yōu)化算法對模糊控制器的輸出隸屬函數(shù)進(jìn)行優(yōu)化,獲取最優(yōu)的參數(shù),以消除步行機器人在粗糙表面運動時產(chǎn)生的抖振現(xiàn)象.
本文闡述了機器人力控制的意義與控制方法的起源與發(fā)展,對力控制方法的原理進(jìn)行簡要介紹并列舉相關(guān)應(yīng)用實例.本文介紹的機器人力控制策略主要包括傳統(tǒng)控制方法與智能控制方法.傳統(tǒng)控制方法包括阻抗控制方法、位/力混合控制方法、自適應(yīng)控制方法.阻抗控制方法主要從力控制與位置控制兩個方面進(jìn)行敘述,根據(jù)兩者的控制結(jié)構(gòu)圖介紹各自的控制原理,并列舉近期應(yīng)用于機器人領(lǐng)域的控制實例.位/力混合控制方法與自適應(yīng)控制方法根據(jù)各自的控制框圖介紹其控制流程,總結(jié)兩種控制方法的優(yōu)缺點與應(yīng)用的發(fā)展方向.智能控制方法包括模糊邏輯控制方法、神經(jīng)網(wǎng)絡(luò)控制方法與優(yōu)化算法控制方法.智能控制方法主要是對神經(jīng)網(wǎng)絡(luò)控制方法進(jìn)行介紹,主要介紹基于當(dāng)前經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型的控制方法,包括反向傳播(BP)神經(jīng)網(wǎng)絡(luò)、徑向基(RBF)神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)等.對當(dāng)前最為熱門的深度強化學(xué)習(xí)算法進(jìn)行介紹總結(jié),梳理各個算法承接順序,列舉深度強化學(xué)習(xí)算法在機器人控制領(lǐng)域的應(yīng)用.從上述這些控制方法的應(yīng)用中不難發(fā)現(xiàn),如今研究者們大力鉆研機器人智能控制方法,將人工智能領(lǐng)域的相關(guān)算法運用于機器人控制來不斷提高機器人自動化與智能化水平,而這也將是未來機器人控制應(yīng)用的發(fā)展趨勢所在.
機器人領(lǐng)域的不斷拓寬,對機器人的力控制提出了新的要求,尤其是一些特殊的應(yīng)用場景,要求機器人具有高精度性和高穩(wěn)定性.對機器人控制要求的增加促進(jìn)著控制策略的發(fā)展.隨著控制理論不斷深入研究,為適應(yīng)新的控制要求需要對力控制方法進(jìn)行不斷創(chuàng)新與改進(jìn).未來機器人力控制方法可能從以下的三個方向發(fā)展:
1)智能控制方法的自我延伸發(fā)展.初始的控制算法在應(yīng)用過程中,通過對理論深入研究,發(fā)現(xiàn)問題所在進(jìn)而對控制算法進(jìn)行優(yōu)化改進(jìn).例如模糊邏輯控制為提高運行速度和尋優(yōu)結(jié)果,發(fā)展多輸入多輸出系統(tǒng)的模糊控制理論,遺傳算法改進(jìn)編碼方式,引入自適應(yīng)算子,利用混沌理論優(yōu)化初始種群等.
2)傳統(tǒng)的控制算法與智能控制算法相結(jié)合,增強傳統(tǒng)控制方法的智能化,提高控制效果.例如模糊阻抗算法、模糊PID等.目前算法之間的結(jié)合是粗淺的,智能控制算法只是被用來作為傳統(tǒng)控制算法的補償手段,未將智能控制算法的優(yōu)勢發(fā)揮出來.未來需考慮如何更加合理地融合算法,讓算法之間能夠完美地搭配使用.
3)智能算法與智能算法之間的結(jié)合.根據(jù)智能算法自身的優(yōu)缺點,利用其他算法來對自身劣勢進(jìn)行彌補,相互結(jié)合、揚長避短形成更加智能化的控制方法.例如深度強化學(xué)習(xí),將深度學(xué)習(xí)與強化學(xué)習(xí)相結(jié)合,相互補充.