亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        協(xié)作機(jī)器人智能控制與人機(jī)交互研究綜述

        2022-04-07 08:50:44黃海豐劉培森于欣波
        工程科學(xué)學(xué)報(bào) 2022年4期
        關(guān)鍵詞:技能方法模型

        黃海豐,劉培森,李 擎,于欣波

        1) 北京科技大學(xué)自動(dòng)化學(xué)院,北京 100083 2) 北京科技大學(xué)人工智能研究院,北京 100083 3) 北京科技大學(xué)順德研究生院,佛山 528399

        近年來(lái),協(xié)作機(jī)器人在高端制造、航空航天、醫(yī)療健康、社會(huì)服務(wù)等各個(gè)領(lǐng)域逐漸得到了應(yīng)用和發(fā)展.在我國(guó),人機(jī)協(xié)作已列入《智能制造2025》和《新一代人工智能發(fā)展規(guī)劃》重點(diǎn)支持研究計(jì)劃,并成為當(dāng)前智能機(jī)器人領(lǐng)域的重要發(fā)展方向[1-3].

        國(guó)際機(jī)器人聯(lián)合會(huì)定義了4種類型的人機(jī)協(xié)作:(1)共同存在:人和機(jī)器人存在協(xié)作,但工作空間相互隔離開;(2)順序協(xié)作:人和協(xié)作機(jī)器人共享工作空間的一部分或全部,但不同時(shí)在零件或機(jī)器上作業(yè);(3)共同作業(yè):協(xié)作機(jī)器人和人同時(shí)在同一零件上操作;(4)響應(yīng)協(xié)作:協(xié)作機(jī)器人實(shí)時(shí)響應(yīng)人的動(dòng)作實(shí)現(xiàn)協(xié)作.當(dāng)前人機(jī)協(xié)作的主要形式仍然停留在協(xié)作機(jī)器人和人共享工作空間,獨(dú)立地或順序地完成任務(wù),實(shí)現(xiàn)共同存在或順序協(xié)作.響應(yīng)協(xié)作以人的運(yùn)動(dòng)行為為中心,使協(xié)作機(jī)器人主動(dòng)協(xié)作人類完成種類復(fù)雜的操作任務(wù),是當(dāng)下人機(jī)協(xié)作領(lǐng)域的研究重點(diǎn)和未來(lái)的發(fā)展趨勢(shì).響應(yīng)協(xié)作對(duì)協(xié)作機(jī)器人與人的共融性提出了較高的要求,為此,近年來(lái)圍繞協(xié)作機(jī)器人的智能控制方法與人機(jī)協(xié)作技術(shù)展開了廣泛的研究.

        本文圍繞上述主題,對(duì)近年來(lái)協(xié)作機(jī)器人、協(xié)作機(jī)器人智能控制方法、人機(jī)協(xié)作技術(shù)的研究展開介紹.首先介紹常見協(xié)作機(jī)器人的基本情況;然后介紹協(xié)作機(jī)器人智能控制方法,包括視覺伺服控制、多模態(tài)融合控制、高精度跟蹤控制、交互力控制等;接著介紹人機(jī)協(xié)作關(guān)鍵技術(shù),包括人類意圖估計(jì)和機(jī)器人技能學(xué)習(xí)技術(shù);最后討論協(xié)作機(jī)器人的發(fā)展方向.

        1 協(xié)作機(jī)器人

        傳統(tǒng)工業(yè)機(jī)器人存在體型龐大、運(yùn)行調(diào)試復(fù)雜、生產(chǎn)缺乏柔性的問(wèn)題,并且出于安全考慮需要與人隔離開工作空間,這大大限制了機(jī)器人在高端制造和服務(wù)行業(yè)的應(yīng)用.因此,協(xié)作機(jī)器人應(yīng)運(yùn)而生,協(xié)作機(jī)器人通常使用輕質(zhì)材料并對(duì)速度和力進(jìn)行了限制,具備良好的安全性,可以與人類在共享空間協(xié)同工作.協(xié)作機(jī)器人通常為6/7自由度(Degrees of freedom, DoF)的串聯(lián)型機(jī)器人,得益于協(xié)作機(jī)器人部署靈活、操作簡(jiǎn)單、設(shè)計(jì)安全的特點(diǎn),在智能制造、快遞物流、家庭服務(wù)、醫(yī)療健康等領(lǐng)域具備良好的應(yīng)用前景.

        近年來(lái)國(guó)內(nèi)外的各大廠商開始陸續(xù)推出自己的協(xié)作機(jī)器人產(chǎn)品.優(yōu)傲(Universal robots, UR)公司在2008年推出的UR5是首款具有協(xié)作概念的商用機(jī)器人,并在隨后更新迭代了UR3、UR10.受益于輕質(zhì)、與人交互安全和精度較高的特點(diǎn),在高端制造業(yè)得到了廣泛應(yīng)用,近年來(lái)UR公司又推出了控制精度更好,與人交互更安全的e系列機(jī)器人.KUKA、FANUC等知名工業(yè)機(jī)器人公司也推出了多款協(xié)作機(jī)器人,KINOVA公司的Jaco2、Gen3機(jī)器人在扶殘助老、家庭服務(wù)中得到了良好的應(yīng)用,F(xiàn)ranka Emika推出的Panda協(xié)作機(jī)械臂在關(guān)節(jié)空間采用了全狀態(tài)反饋控制,可以在復(fù)雜環(huán)境下實(shí)現(xiàn)精確碰撞檢測(cè),在安全協(xié)作方面性能優(yōu)越.

        近年來(lái)在國(guó)家相關(guān)政策的大力支持下,國(guó)內(nèi)協(xié)作機(jī)器人理論與應(yīng)用得到了良好的發(fā)展,國(guó)內(nèi)市場(chǎng)上也涌現(xiàn)出大批國(guó)產(chǎn)協(xié)作機(jī)器人.沈陽(yáng)新松(SIASUN)于2015年推出了七軸協(xié)作機(jī)器人,支持拖動(dòng)示教、碰撞檢測(cè)、視覺識(shí)別等功能,在工作空間緊湊、精度要求高的生產(chǎn)線中得到了有效的使用.近年珞石公司(ROKAE)推出了新一代xMate系列七自由度柔性協(xié)作機(jī)器人,具有高靈敏力感知,支持拖動(dòng)示教、精準(zhǔn)力控,在高端制造和輔助醫(yī)療行業(yè)具有良好的應(yīng)用前景.艾利特(ELITE ROBOT)公司發(fā)布了全新的CS系列協(xié)作機(jī)器人,提供了可視化的交互界面的模塊化的編程方式.節(jié)卡(JAKA)公司推出了All-in-one系列共融協(xié)作機(jī)器人,深度融合了視覺信息.Elephant Robotics發(fā)布了世界上最小的6軸機(jī)器人手臂myCobot,具有良好的可用性和安全性,而且噪音低.

        表1、表2中分別列出了國(guó)外、國(guó)內(nèi)廠家的幾款協(xié)作機(jī)器人主要產(chǎn)品.協(xié)作機(jī)器人目前已經(jīng)在多個(gè)領(lǐng)域展現(xiàn)出良好的應(yīng)用前景,受到國(guó)內(nèi)外學(xué)者的廣泛關(guān)注,相信未來(lái)會(huì)有更多協(xié)作機(jī)器人出現(xiàn),應(yīng)用在各種工業(yè)生產(chǎn)、生活服務(wù)中.

        表1 幾款國(guó)外協(xié)作機(jī)器人Table 1 Introduction to collaborative robots from foreign manufacturers

        表2 幾款國(guó)內(nèi)協(xié)作機(jī)器人Table 2 Introduction to collaborative robots from domestic manufacturers

        2 協(xié)作機(jī)器人智能控制

        2.1 視覺伺服控制

        視覺伺服控制有效地拓展了協(xié)作機(jī)器人的應(yīng)用領(lǐng)域.在協(xié)作機(jī)器人上安裝攝像頭,以實(shí)現(xiàn)機(jī)器人對(duì)目標(biāo)的感知,進(jìn)一步對(duì)目標(biāo)特征信息進(jìn)行處理,得到視覺反饋,并利用反饋信息對(duì)機(jī)器人進(jìn)行實(shí)時(shí)控制,以實(shí)現(xiàn)精確的跟蹤或定位,完成相應(yīng)的工作.根據(jù)反饋信息的不同,機(jī)器人視覺伺服可分為基于位置的視覺伺服(3D視覺伺服)、基于圖像的視覺伺服(2D視覺伺服)等.視覺伺服控制在機(jī)器人抓取任務(wù)中得到了重要的應(yīng)用.基于位置的視覺伺服利用攝像機(jī)參數(shù)建立圖像信息,從而得到機(jī)器人當(dāng)前位姿與目標(biāo)位姿之間的映射關(guān)系,把計(jì)算出的映射關(guān)系指令反饋給機(jī)器人關(guān)節(jié)控制器,最后實(shí)現(xiàn)機(jī)器人運(yùn)動(dòng)[4-6].隨著Kinect等高性能深度相機(jī)的出現(xiàn),文獻(xiàn)[7]提出使用深度攝像機(jī)獲取目標(biāo)點(diǎn)云,然后通過(guò)提取快速點(diǎn)特征直方圖描述子結(jié)合奇異值分解算法來(lái)估計(jì)目標(biāo)位姿.基于圖像的視覺伺服通過(guò)提取圖像中的特征點(diǎn),采用雅可比矩陣建立機(jī)器人運(yùn)動(dòng)與圖像特征點(diǎn)運(yùn)動(dòng)的動(dòng)態(tài)控制模型,并基于該控制模型得到控制指令.方勇純等提出了一種基于二維三焦點(diǎn)張量的視覺伺服鎮(zhèn)定控制方法,在圖像特征識(shí)別方面體現(xiàn)出了更強(qiáng)的魯棒性[8].李智軍等開發(fā)了一種基于圖像的視覺伺服控制策略,可以避免同源算法和基于基本矩陣的算法的模糊性和退化問(wèn)題[9].Zhang等提出了一種新型的基于圖像輸出反饋的機(jī)器人自適應(yīng)視覺伺服方法,在速度估計(jì)的準(zhǔn)確性、跟蹤精度和魯棒性等方面具有優(yōu)越性[10].Malis等提出的2.5D視覺伺服策略,成功地將圖像信號(hào)與從圖像中提取的位置/姿態(tài)信號(hào)相結(jié)合,并使用它們生成用于反饋的合成誤差信號(hào),增強(qiáng)了系統(tǒng)的穩(wěn)定性[11].文獻(xiàn)[12]提出了一種新2.5D視覺伺服方法,用于抓取無(wú)紋理的平面零件,使用混合視覺特征,將圖像矩與笛卡爾空間中的三維旋轉(zhuǎn)結(jié)合控制機(jī)器人的運(yùn)動(dòng).

        2.2 多模態(tài)融合控制

        協(xié)作機(jī)器人在執(zhí)行協(xié)作任務(wù)時(shí),通常需要多種傳感器模態(tài)的信息輸入,協(xié)作機(jī)器人進(jìn)行感知模態(tài)信息融合,尤其是視覺和觸覺,對(duì)提升協(xié)作機(jī)器人操作的柔順性和安全性具有顯著意義,國(guó)內(nèi)外很多學(xué)者針對(duì)多模態(tài)融合控制展開了研究.

        Prats等通過(guò)融合視覺、觸覺信息提出了基于感知信息的機(jī)器人控制框架,并設(shè)計(jì)完成了滑動(dòng)門開關(guān)任務(wù):機(jī)器人通過(guò)視覺信息可以定位到門把手位置,并通過(guò)觸覺反饋信息調(diào)整視覺誤差,實(shí)現(xiàn)最終位置匹配[13].Ilonen等釆用目標(biāo)對(duì)稱約束將視、觸覺信息互補(bǔ)融合,通過(guò)狀態(tài)估計(jì)實(shí)現(xiàn)三維重建[14].文獻(xiàn)[15]將視覺-觸覺傳感器搭載于協(xié)作機(jī)器人系統(tǒng)并提出了基于圖形與外力反饋的導(dǎo)航和操作任務(wù)集成表示方法.文獻(xiàn)[16]提出使用視覺-觸覺融合的物體三維重建方法,解決了僅用視覺產(chǎn)生的物體三維重建過(guò)程中的遮擋等問(wèn)題.在獲取全面、準(zhǔn)確的信息后進(jìn)行運(yùn)動(dòng)預(yù)測(cè)與意圖辨識(shí),以加強(qiáng)人機(jī)協(xié)作中機(jī)械臂的主動(dòng)性.Li等提出利用視覺和觸覺傳感器進(jìn)行數(shù)據(jù)采集,并用深度神經(jīng)網(wǎng)絡(luò)(Deep neural network, DNN)進(jìn)行滑覺檢測(cè),服務(wù)于機(jī)器人實(shí)現(xiàn)穩(wěn)定抓取[17].Zhang等[18]提出了一個(gè)用于機(jī)器人材料感知的視覺-觸覺跨模式學(xué)習(xí)框架,在終身學(xué)習(xí)的背景下解決視覺-觸覺跨模態(tài)學(xué)習(xí)的問(wèn)題,利于逐步提高機(jī)器人跨模態(tài)材料感知的能力.文獻(xiàn)[19]提出了一種基于視覺和力傳感信息融合的框架,用于人-機(jī)器人協(xié)作任務(wù),使機(jī)器人能夠主動(dòng)跟隨人類伙伴減小控制難度,并在不使用力傳感器的情況下,設(shè)計(jì)了一個(gè)力觀測(cè)器來(lái)估計(jì)人體的力,并通過(guò)最小化估計(jì)的力來(lái)獲得人體的運(yùn)動(dòng)意圖.

        2.3 高精度跟蹤控制

        提升協(xié)作機(jī)器人的魯棒性和可靠性成為協(xié)作機(jī)器人應(yīng)用和普及的關(guān)鍵難題,針對(duì)這一問(wèn)題國(guó)內(nèi)外學(xué)者開展了協(xié)作機(jī)器人高精度跟蹤控制中的關(guān)鍵問(wèn)題研究.協(xié)作機(jī)器人的高精度控制主要面臨兩方面的難題:其一是約束問(wèn)題,約束是指控制系統(tǒng)的輸入和狀態(tài)滿足一定的約束條件,它取決于實(shí)際物理器件限制、系統(tǒng)運(yùn)行性能要求以及安全要求;其二是不確定性問(wèn)題,協(xié)作機(jī)器人通常采用柔性關(guān)節(jié)作為驅(qū)動(dòng)結(jié)構(gòu),柔性關(guān)節(jié)能夠?qū)崿F(xiàn)柔順操作與碰撞保護(hù),但柔性關(guān)節(jié)的引入會(huì)加大上層運(yùn)動(dòng)控制的復(fù)雜性,實(shí)際情況存在的因素會(huì)使柔性關(guān)節(jié)機(jī)器人出現(xiàn)模型不確定和受到未知擾動(dòng)的情況,此時(shí)基于模型的非線性控制策略將失效.

        2.3.1 機(jī)器人輸入約束控制

        輸入約束是在實(shí)際工程應(yīng)用中很重要的一個(gè)約束條件,包含有輸入飽和、回滯、輸入死區(qū)等.

        在實(shí)際應(yīng)用場(chǎng)景中,考慮到物理約束和安全性問(wèn)題,機(jī)器人執(zhí)行機(jī)構(gòu)通常存在輸出功率上限,即存在輸入飽和問(wèn)題,從機(jī)器人系統(tǒng)的安全性與穩(wěn)定性出發(fā),考慮控制器設(shè)計(jì)輸入飽和非線性尤為重要,已經(jīng)有國(guó)內(nèi)外學(xué)者對(duì)此問(wèn)題展開了大量研究.針對(duì)輸入飽和通常有兩種處理方式:一種是通過(guò)調(diào)節(jié)給定的輸入信號(hào)解決輸入飽和[20-21];另一種是通過(guò)構(gòu)造輔助系統(tǒng),基于輔助系統(tǒng)對(duì)跟蹤誤差進(jìn)行修正,進(jìn)而處理輸入飽和問(wèn)題[22-25].

        協(xié)作機(jī)器人系統(tǒng)是典型的復(fù)雜非線性系統(tǒng),本體與執(zhí)行器之間存在能量轉(zhuǎn)換會(huì)引起時(shí)滯現(xiàn)象.文獻(xiàn)[26]提出了時(shí)滯影響的數(shù)學(xué)模型.基于此,在文獻(xiàn)[27]中,作者設(shè)計(jì)了一類魯棒控制器,采用李雅普諾夫-克拉索夫斯基泛函(Lyapunov-Krasovskii Function, LKF)解決了時(shí)滯問(wèn)題.文獻(xiàn)[28]針對(duì)含時(shí)滯的協(xié)作機(jī)器人系統(tǒng)設(shè)計(jì)了一類速度觀測(cè)器,同樣采用LKF來(lái)處理未知時(shí)滯問(wèn)題.Li等[29]通過(guò)利用有限時(shí)間穩(wěn)定性理論、障礙李雅普諾夫函數(shù)(Barrier Lyapunov Function, BLF)和自適應(yīng)反步法,提出了一種新型的自適應(yīng)跟蹤控制策略,解決了有死區(qū)的非線性系統(tǒng)的有限時(shí)間控制問(wèn)題.

        2.3.2 機(jī)器人輸出約束控制

        出于機(jī)器人系統(tǒng)安全性考慮,約束條件下通常需要對(duì)機(jī)器人位置、速度、加速度等狀態(tài)設(shè)限.用于多關(guān)節(jié)協(xié)作機(jī)器人的常見的解決約束問(wèn)題的方法主要有兩種:

        一種是基于函數(shù)變換的方法,即采用一類非線性函數(shù)將受限的系統(tǒng)直接轉(zhuǎn)換為等效的不受限的系統(tǒng),再針對(duì)不受限的系統(tǒng)進(jìn)行控制設(shè)計(jì).Zhang等[30]研究了一類帶輸出約束的不確定非線性系統(tǒng)的跟蹤問(wèn)題,通過(guò)設(shè)計(jì)非線性狀態(tài)轉(zhuǎn)換器,進(jìn)一步給出了一類魯棒控制器,實(shí)現(xiàn)了控制目標(biāo).文獻(xiàn)[31]采基于非線性函數(shù)變換的方法研究了輸出約束下的柔性關(guān)節(jié)機(jī)器人控制問(wèn)題,基于該方法,許多學(xué)者通過(guò)結(jié)合自適應(yīng)控制、神經(jīng)網(wǎng)絡(luò)控制等不同控制技術(shù),解決了一類嚴(yán)格反饋系統(tǒng)的約束跟蹤控制問(wèn)題[32-35].

        另一種是基于BLF的控制方法.通過(guò)設(shè)計(jì)合理的控制器保證BLF在閉環(huán)系統(tǒng)中保持有界,從而實(shí)現(xiàn)目標(biāo)變量始終不超出預(yù)設(shè)范圍.Tee等[36]提出在控制設(shè)計(jì)中采用障礙李雅普諾夫函數(shù),在不違反約束條件的情況下實(shí)現(xiàn)了漸進(jìn)跟蹤.文獻(xiàn)[37]通過(guò)使用反步法和神經(jīng)網(wǎng)絡(luò)構(gòu)建了一種新型的自適應(yīng)控制策略,其中一種新穎的積分障礙李雅普諾夫函數(shù)被用來(lái)克服違反全狀態(tài)約束的問(wèn)題.文獻(xiàn)[38]考慮了具有全狀態(tài)約束的機(jī)器人關(guān)節(jié)空間控制系統(tǒng),利用BLF保證系統(tǒng)狀態(tài)滿足約束條件,并利用神經(jīng)網(wǎng)絡(luò)估計(jì)系統(tǒng)中的不確定項(xiàng),實(shí)現(xiàn)了全狀態(tài)約束下多關(guān)節(jié)機(jī)器人的關(guān)節(jié)空間軌跡跟蹤控制.Liu等基于偏微分方程,引入了非對(duì)稱障礙李雅普諾夫函數(shù)來(lái)處理非對(duì)稱約束,提出了新的干擾觀測(cè)器,以減弱邊界干擾的影響[39].

        2.3.3 不確定系統(tǒng)控制

        由于機(jī)器人系統(tǒng)和實(shí)際環(huán)境存在多種不確定因素,精確的機(jī)器人動(dòng)力學(xué)模型難以獲取,會(huì)引起模型完全未知、模型不匹配、基于模型的非線性控制策略不適用于實(shí)際機(jī)器人系統(tǒng)等問(wèn)題,針對(duì)如上問(wèn)題,文獻(xiàn)[40]提出使一類使用最小二乘法估計(jì)機(jī)器人未知?jiǎng)恿W(xué)參數(shù)的方法.另一類重要的解決動(dòng)力學(xué)模型不確定性的方法是利用機(jī)器人系統(tǒng)的輸入輸出數(shù)據(jù)采用神經(jīng)網(wǎng)絡(luò)估計(jì)未知的模型參數(shù).

        神經(jīng)網(wǎng)絡(luò)可以用于解決機(jī)器人系統(tǒng)的模型不確定性[41].文獻(xiàn)[42]將徑向基函數(shù)(Radial basis function, RBF)作為神經(jīng)網(wǎng)絡(luò)(Neural network, NN)隱含層激活函數(shù),通過(guò)RBF神經(jīng)網(wǎng)絡(luò)估計(jì)動(dòng)力學(xué)模型不確定項(xiàng),結(jié)合反步法和李雅普諾夫穩(wěn)定性理論,獲得神經(jīng)網(wǎng)絡(luò)權(quán)重的自適應(yīng)律,基于系統(tǒng)輸入輸出數(shù)據(jù)構(gòu)造神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)跟蹤誤差的半全局最終一致有界.文獻(xiàn)[43]結(jié)合反向傳播算法,對(duì)機(jī)器人系統(tǒng)參數(shù)進(jìn)行了調(diào)整,使用動(dòng)態(tài)系統(tǒng)神經(jīng)網(wǎng)絡(luò)估計(jì)了機(jī)器人動(dòng)力學(xué)模型中的不確定項(xiàng).文獻(xiàn)[44]利用自適應(yīng)神經(jīng)網(wǎng)絡(luò)估計(jì)雙臂機(jī)器人閉鏈動(dòng)力學(xué)模型中的非線性不確定項(xiàng),進(jìn)一步提高了雙臂機(jī)器人協(xié)調(diào)控制位置精度.文獻(xiàn)[45]將自適應(yīng)神經(jīng)網(wǎng)絡(luò)與阻抗控制結(jié)合,提出了一種基于神經(jīng)網(wǎng)絡(luò)的自適應(yīng)阻抗控制策略,在控制器作用下使交互力滿足理想阻抗模型.Ding等[46]提出了一種基于部分強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)(Partial reinforcement learning neural network, PRLNN)的跟蹤算法,解決輪式移動(dòng)機(jī)器人跟蹤控制的時(shí)變超前角問(wèn)題.文獻(xiàn)[47]中神經(jīng)網(wǎng)絡(luò)被用來(lái)估計(jì)和補(bǔ)償系留空間機(jī)器人動(dòng)態(tài)模型中的不確定性,并設(shè)計(jì)了一個(gè)自適應(yīng)魯棒控制器來(lái)克服空間系繩的影響并跟蹤阻抗控制器產(chǎn)生的期望位置.文獻(xiàn)[48]提出使用阻抗學(xué)習(xí)的自適應(yīng)模糊神經(jīng)網(wǎng)絡(luò)控制,用于受制于未知的系統(tǒng)動(dòng)力學(xué)、狀態(tài)約束影響的機(jī)器人系統(tǒng),使之表現(xiàn)出對(duì)未知環(huán)境的順應(yīng)性.Liu等[49]提出一種基于神經(jīng)網(wǎng)絡(luò)的滑??刂品椒?,可以用于參數(shù)不確定的機(jī)器人系統(tǒng),并解決了傳統(tǒng)滑??刂品椒ㄖ锌刂戚斎氲恼耦澓透咚偾袚Q問(wèn)題.

        除此之外,還有多種方法被用于解決系統(tǒng)不確定性問(wèn)題.文獻(xiàn)[50]中,不確定性和干擾估計(jì)器(Uncertaintly and disturbance estimator, UDE)被用來(lái)在只知道部分信息的情況下對(duì)系統(tǒng)模型進(jìn)行近似,所提出的可變阻抗控制可以幫助機(jī)器人完成與未知環(huán)境的交互任務(wù),并提高系統(tǒng)的整體性能.文獻(xiàn)[51]針對(duì)不確定非線性系統(tǒng)提出了一個(gè)基于多項(xiàng)式參考軌跡的簡(jiǎn)單線性滑膜面,使軌跡跟蹤誤差在有限時(shí)間內(nèi)收斂為零.Zhang等[52]考慮具有未知干擾的非線性系統(tǒng)的事件觸發(fā)跟蹤控制問(wèn)題.在控制器更新中考慮了事件觸發(fā)機(jī)制,這在實(shí)踐中減少了通信量,降低了控制器更新的頻率.Sun等[53]提出在控制器設(shè)計(jì)中使用自適應(yīng)神經(jīng)網(wǎng)絡(luò)抑制柔性機(jī)器人的振動(dòng).文獻(xiàn)[54]提出一種摩擦力觀測(cè)器,將電機(jī)側(cè)的額定信號(hào)反饋到控制器中,在不使用摩擦模型的情況下解決了摩擦補(bǔ)償問(wèn)題且會(huì)對(duì)失速進(jìn)行過(guò)度補(bǔ)償.Chen等[55]提出了一種基于肌肉協(xié)同作用的神經(jīng)肌肉控制方法,所提出的方法不僅提高了運(yùn)動(dòng)學(xué)習(xí)的速度和準(zhǔn)確性,而且還增強(qiáng)了運(yùn)動(dòng)泛化能力,促進(jìn)了肌肉骨骼機(jī)器人系統(tǒng)的發(fā)展以及神經(jīng)科學(xué)和機(jī)器人學(xué)的融合.文獻(xiàn)[56]提出設(shè)計(jì)估計(jì)器重構(gòu)機(jī)器人系統(tǒng)的未知?jiǎng)討B(tài)和外部干擾,控制器設(shè)計(jì)中引入預(yù)設(shè)性能函數(shù),使系統(tǒng)跟蹤誤差限制在預(yù)先規(guī)定邊界內(nèi),保證機(jī)器人系統(tǒng)的性能和安全性.文獻(xiàn)[57]開發(fā)了一種雙環(huán)控制結(jié)構(gòu),在外環(huán)中,設(shè)計(jì)了一個(gè)在線軌跡重新規(guī)劃算法,在系統(tǒng)的動(dòng)力學(xué)和動(dòng)態(tài)約束下,迫使重新規(guī)劃的軌跡在最短的時(shí)間內(nèi)并入期望的軌跡;在內(nèi)環(huán)中,集成了一個(gè)自適應(yīng)魯棒控制器,以有效地處理參數(shù)不確定性和不確定的非線性,從而保證高穩(wěn)態(tài)跟蹤精度.

        2.4 機(jī)器人交互力控制

        協(xié)作機(jī)器人在工作中需要與外界環(huán)境和人進(jìn)行物理交互,這要求機(jī)器人不僅能跟蹤規(guī)劃的運(yùn)動(dòng)軌跡,還要控制與外界交互的作用力,力/位混合控制的原理是在機(jī)器人末端沿著約束方向上進(jìn)行力控制,在與約束方向相垂直的方向進(jìn)行位置控制.Lozano和Brogliato[58]基于機(jī)器人雅可比和環(huán)境的特殊分解剛度矩陣,提出了一種自適應(yīng)力/位置控制方案.

        Hogan[59]將二階阻尼模型和機(jī)器人動(dòng)力學(xué)模型結(jié)合,提出了機(jī)器人的阻抗控制理論,為機(jī)器人交互控制方法開辟了新的研究方向.與傳統(tǒng)混合力/位控制不同,阻抗控制通過(guò)調(diào)節(jié)期望阻抗模型的參數(shù)規(guī)劃?rùn)C(jī)器人與外界環(huán)境交互過(guò)程中位置偏差和力偏差的關(guān)系,從而實(shí)現(xiàn)柔順交互.近年來(lái),由于阻抗控制計(jì)算量小且具有較好的魯棒性等優(yōu)點(diǎn),受到國(guó)內(nèi)外學(xué)者廣泛重視.阻抗控制方法結(jié)合了傳統(tǒng)力位混合控制和阻抗控制的優(yōu)點(diǎn),通過(guò)實(shí)時(shí)修正機(jī)器人末端的接觸力,實(shí)現(xiàn)了高精度的力跟蹤[60].然而機(jī)器人交互性能取決于阻抗控制中的預(yù)先搭建的期望阻抗模型搭建是否合適,并且由于交互過(guò)程中外界環(huán)境的擾動(dòng),固定阻抗模型的阻抗控制方法難以保持全程的最優(yōu)交互性能,因此,近年來(lái)廣大學(xué)者開始研究自適應(yīng)的阻抗控制策略.Xu等[61]提出了一種基于進(jìn)化動(dòng)態(tài)遞歸模糊神經(jīng)網(wǎng)絡(luò)(Evolutionary dynamic recurrent fuzzy neural network, EDRFNN)的自適應(yīng)阻抗控制器,可以根據(jù)受損肢體的身體恢復(fù)狀況,實(shí)時(shí)調(diào)節(jié)機(jī)器人和受損肢體之間的理想阻抗.Yang等[62]把阻抗控制與迭代學(xué)習(xí)相結(jié)合,借鑒人類神經(jīng)中樞系統(tǒng)(Central nervous system, CNS)對(duì)干擾運(yùn)動(dòng)的學(xué)習(xí)經(jīng)驗(yàn),提出了一套適用于不穩(wěn)定環(huán)境下的自適應(yīng)阻抗控制理論.文獻(xiàn)[63]通過(guò)結(jié)合笛卡爾阻抗控制和冗余分辨率來(lái)提高人與協(xié)作機(jī)器人物理交互過(guò)程中的性能.近年來(lái),又有多種方法被用于提升基于阻抗控制方法的機(jī)器人交互性能.文獻(xiàn)[64]提出了一種由串聯(lián)彈性致動(dòng)器(Serial elastic actuator,SEA)驅(qū)動(dòng)的康復(fù)機(jī)器人的迭代學(xué)習(xí)阻抗控制器.所需的阻抗模型是以迭代的方式實(shí)現(xiàn),這適合病人在康復(fù)過(guò)程中的重復(fù)性,也保證了機(jī)器人的瞬態(tài)性能.文獻(xiàn)[65]提出在寬松的激勵(lì)條件下,通過(guò)使用復(fù)合學(xué)習(xí)律,實(shí)現(xiàn)了阻抗誤差的收斂.Li等[66]通過(guò)提取人的肌電信號(hào)估計(jì)運(yùn)動(dòng)意圖,將運(yùn)動(dòng)意向估計(jì)整合到基于障礙物李亞普諾夫函數(shù)的自適應(yīng)阻抗控制,在運(yùn)動(dòng)和力跟蹤方面達(dá)到了預(yù)期的良好性能.文獻(xiàn)[67]提出使用阻抗控制來(lái)處理人類主體的意圖以及機(jī)器人動(dòng)力學(xué)中的未知慣性質(zhì)量和力矩,使人類受試者能夠在外骨骼機(jī)器人上有效地執(zhí)行阻抗控制任務(wù).

        3 協(xié)作機(jī)器人人機(jī)協(xié)作關(guān)鍵技術(shù)

        協(xié)作機(jī)器人當(dāng)前已經(jīng)在協(xié)同裝配[68]、協(xié)作切割[69]、物體交接[70]等多種人機(jī)協(xié)作任務(wù)中展現(xiàn)出了良好的應(yīng)用前景,雖然還未在工業(yè)界的實(shí)際生產(chǎn)中得到廣泛應(yīng)用,但是國(guó)內(nèi)外研究機(jī)構(gòu)針對(duì)機(jī)器人執(zhí)行協(xié)作任務(wù)的關(guān)鍵問(wèn)題已經(jīng)做出了大量研究,要使協(xié)作機(jī)器人在協(xié)作任務(wù)中進(jìn)一步擁有更好的表現(xiàn),大體上涉及兩個(gè)關(guān)鍵問(wèn)題:其一是如何估計(jì)人類意圖以便提高協(xié)作機(jī)器人對(duì)人類行為的響應(yīng)的實(shí)施性;其二是如何使協(xié)作機(jī)器人掌握協(xié)作所需要的操作技能.需要說(shuō)明的是,本章主要關(guān)注協(xié)作機(jī)器人人機(jī)協(xié)作的前沿關(guān)鍵技術(shù),其中大部分關(guān)鍵技術(shù)尚處于學(xué)術(shù)研究階段,還未部署到現(xiàn)有的協(xié)作機(jī)器人產(chǎn)品中.

        3.1 人類意圖估計(jì)方法

        在人與人之間的協(xié)作任務(wù)中,人通常會(huì)估計(jì)對(duì)方的運(yùn)動(dòng)意圖并做出配合,以提高協(xié)作的流暢程度和效率.在人與機(jī)器人的協(xié)作任務(wù)中,如果機(jī)器人可以像人一樣估計(jì)對(duì)方的運(yùn)動(dòng)意圖,就可以實(shí)現(xiàn)提前對(duì)人的運(yùn)動(dòng)做出響應(yīng),實(shí)現(xiàn)更高效的協(xié)作,這也是人-機(jī)器人協(xié)作的研究重點(diǎn)之一.

        文獻(xiàn)[71]提出了一種應(yīng)用于快速點(diǎn)到點(diǎn)人機(jī)協(xié)作任務(wù)中的人類運(yùn)動(dòng)意圖估計(jì)方法.文獻(xiàn)[72]未使用力傳感器,僅依據(jù)控制器的變化量來(lái)估計(jì)人類運(yùn)動(dòng)意圖,通過(guò)獲取的運(yùn)動(dòng)意圖,提出一種轉(zhuǎn)換方法使系統(tǒng)在阻抗控制和隨動(dòng)控制間任意轉(zhuǎn)換.文獻(xiàn)[73]提出了一個(gè)面向人形機(jī)器人執(zhí)行復(fù)雜任務(wù)的人機(jī)合作搬運(yùn)控制架構(gòu),其中機(jī)器人可以有效估計(jì)人類的運(yùn)動(dòng)意圖.在文獻(xiàn)[74]中,人類步態(tài)估計(jì)方法被應(yīng)用在移動(dòng)手杖機(jī)器人中.文獻(xiàn)[75]設(shè)計(jì)了人機(jī)多模態(tài)接口,用來(lái)實(shí)時(shí)反饋人類運(yùn)動(dòng)意圖,完成人機(jī)協(xié)作任務(wù).文獻(xiàn)[76]提出了一種基于示教的人類運(yùn)動(dòng)意圖估計(jì)方法,提出了一種基于迭代學(xué)習(xí)的控制策略并應(yīng)用于人在回路的人機(jī)交互實(shí)驗(yàn)中.文獻(xiàn)[77]提出了一種逆最優(yōu)控制和目標(biāo)集迭代重規(guī)劃策略來(lái)預(yù)測(cè)人的運(yùn)動(dòng).Li等[78]提出采用神經(jīng)網(wǎng)絡(luò)處理人的肢體模型的非線性和時(shí)變性,并基于此開發(fā)了一種人類運(yùn)動(dòng)意圖在線估計(jì)方法,估計(jì)的運(yùn)動(dòng)意圖被整合到自適應(yīng)阻抗控制中,使機(jī)器人遵循理想的阻抗目標(biāo),能夠與人類伙伴積極協(xié)作.文獻(xiàn)[79]提出利用博弈論描述人-機(jī)協(xié)作系統(tǒng),并采用策略迭代來(lái)提供納什均衡的解決方案.人的控制目標(biāo)是根據(jù)測(cè)量的交互力來(lái)估計(jì)的,并用于調(diào)整機(jī)器人的目標(biāo),從而實(shí)現(xiàn)人與機(jī)器人的協(xié)調(diào).

        由于人在同一協(xié)作任務(wù)中通常采取具有相似軌跡特點(diǎn)的運(yùn)動(dòng)路徑,利用概率建模的方法能夠?qū)θ祟愡\(yùn)動(dòng)意圖進(jìn)行建模和估計(jì)[80].概率建模的一種有效方法是利用隱馬爾可夫模型(Hidden Markov model, HMM)等圖形模型建模.馬爾可夫模型可以同時(shí)編碼時(shí)間和空間特征.國(guó)內(nèi)外學(xué)者目前已提出了幾種可以根據(jù)新獲得的數(shù)據(jù)自適應(yīng)修正模型的方法.雖然HMM可以隨機(jī)編碼空間和時(shí)間特征,但由于軌跡是離散和抽象的,因此要詳細(xì)解碼時(shí)間特征是很困難的.為了明確地將時(shí)間特征納入到模型中,國(guó)內(nèi)外學(xué)者提出了使用顯性時(shí)間HMM[81]和自回歸HMM[82]的建模方法.但將它們擴(kuò)展到在線算法是困難的,因?yàn)槟P蛥?shù)的學(xué)習(xí)并不能很好地收斂,除非事先設(shè)置好圖形模型的結(jié)構(gòu).另一種有效的概率方法是非線性回歸方法,如高斯過(guò)程回歸(Gaussian process regression, GPR)和高斯混合回歸(Gaussian process regression, GMR)[83-84].同樣,作為一種利用概率分布的模型,高斯過(guò)程動(dòng)力學(xué)模型(Gaussian process dynamic model, GPDM)是一種對(duì)人類動(dòng)力系統(tǒng)進(jìn)行隨機(jī)建模的有效方法[85].除此之外,自回歸綜合移動(dòng)平均(Autoregressive integrated moving average,ARIMA)模型[86]、遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural network, RNN)[87]等也被用于人類意圖估計(jì).

        3.2 機(jī)器人技能傳遞學(xué)習(xí)方法

        近年來(lái),技能傳遞學(xué)習(xí),即將人類技能傳遞給機(jī)器人,已成為協(xié)作機(jī)器人和人-機(jī)器人協(xié)作的研究熱點(diǎn)之一[88].技能傳遞學(xué)習(xí)具有以下顯著優(yōu)勢(shì):技能傳遞學(xué)習(xí)使得機(jī)器人能夠在復(fù)雜動(dòng)態(tài)的環(huán)境中學(xué)習(xí)和習(xí)得操作技能,可以克服傳統(tǒng)編程等傳統(tǒng)方法的不足,并且極大地提高了機(jī)器人對(duì)復(fù)雜環(huán)境的適應(yīng)性;并且在技能傳遞過(guò)程中,可以采集到豐富人體生理信號(hào)從而提取出所需的多個(gè)維度的技能特征.

        機(jī)器人技能傳遞學(xué)習(xí)受到人類學(xué)習(xí)操作技能過(guò)程的啟發(fā),與人類行為類似,機(jī)器人通常需要與環(huán)境或人類進(jìn)行物理交互,同時(shí)執(zhí)行具有信息豐富的神經(jīng)生理學(xué)感官信號(hào)的協(xié)作任務(wù),這些信號(hào)都與協(xié)作行為同時(shí)發(fā)生.技能傳遞學(xué)習(xí)使機(jī)器人能夠保留或利用觀察到的人類行為作為技能,通過(guò)實(shí)踐加以改進(jìn),然后將其應(yīng)用到新的任務(wù)環(huán)境中.技能傳遞學(xué)習(xí)的主要思想是通過(guò)模仿和開發(fā)自然模型、系統(tǒng)和過(guò)程來(lái)形成技術(shù)解決方案.

        3.2.1 技能示教

        對(duì)于技能傳遞學(xué)習(xí)過(guò)程,通常需要人類導(dǎo)師對(duì)機(jī)器人進(jìn)行技能示教,機(jī)器人收集并提取所需的運(yùn)動(dòng)信息,包括位置、速度、力/力矩,和一些協(xié)作任務(wù)中的人的肢體剛度,從而獲得了技能信息的數(shù)據(jù)集,數(shù)據(jù)集的構(gòu)建應(yīng)進(jìn)一步考慮運(yùn)動(dòng)表示、演示對(duì)齊、運(yùn)動(dòng)分割和生成.示教學(xué)習(xí)通常有如表3所示的3種方法.

        表3 三種常見的示教學(xué)習(xí)方法對(duì)比Table 3 Comparison of three common demonstration methods

        動(dòng)覺示教方法:動(dòng)覺示教又稱物理交互示教,即人手動(dòng)拖動(dòng)機(jī)械臂進(jìn)行示教并記錄運(yùn)動(dòng)過(guò)程.動(dòng)覺教學(xué)利用協(xié)作機(jī)器人力觸感知能力.動(dòng)覺教學(xué)可以連續(xù)進(jìn)行記錄整個(gè)運(yùn)動(dòng)軌跡,也可以通過(guò)在單獨(dú)的時(shí)間實(shí)例中記錄機(jī)器人狀態(tài)的離散快照來(lái)進(jìn)行,例如在關(guān)鍵幀的關(guān)鍵姿勢(shì)序列教學(xué)中.動(dòng)覺示教無(wú)需額外設(shè)備,便于操作,然而這種示教方法通常只適用于慣性較小的輕量型機(jī)械臂,并且受到工作空間的限制,多自由度機(jī)器人的動(dòng)覺示教較為困難.

        遙操作示教:遙操作示教可以使用簡(jiǎn)單的操縱桿或其他遠(yuǎn)程控制裝置實(shí)現(xiàn)對(duì)協(xié)作機(jī)器人的遠(yuǎn)程操作.機(jī)器人和人類導(dǎo)師不需要共享同一空間.遙操作示教的一個(gè)優(yōu)勢(shì)是通過(guò)主端的遙操作設(shè)備通常可以查看運(yùn)動(dòng)信息,然而遙操作示教所能控制的自由度同樣有限,而且主端與從端設(shè)備之間存在通信延時(shí)問(wèn)題.

        通過(guò)視覺和可穿戴設(shè)備示教:通過(guò)攝像頭和可穿戴設(shè)備捕捉人體運(yùn)動(dòng),使用這種方法示教,人類不受約束自由移動(dòng),人體四肢和關(guān)節(jié)的角位移可以通過(guò)這些外部手段精確測(cè)量.然而,人體與機(jī)器人的運(yùn)動(dòng)學(xué)對(duì)應(yīng)問(wèn)題是這種示教方式的一大挑戰(zhàn),并且也存在設(shè)備與機(jī)器人的通信問(wèn)題.

        3.2.2 機(jī)器人技能學(xué)習(xí)

        獲得技能示教的數(shù)據(jù)集后,通過(guò)機(jī)器人技能學(xué)習(xí),可以生成策略并映射到機(jī)器人控制器,此外,學(xué)習(xí)的技能策略可用于在新環(huán)境中復(fù)現(xiàn)并泛化機(jī)器人的技能.

        (1)基于模型學(xué)習(xí)的技能學(xué)習(xí).

        當(dāng)前機(jī)械臂技能大多通過(guò)人工預(yù)定義的規(guī)則實(shí)現(xiàn),受限于固化編程的特點(diǎn),不具備良好的自主性、靈活性和自適應(yīng)性,將機(jī)械臂的應(yīng)用場(chǎng)景限制在結(jié)構(gòu)化環(huán)境中.為使機(jī)械臂可以應(yīng)用于更廣泛的場(chǎng)景,學(xué)者們提出將動(dòng)態(tài)系統(tǒng)和統(tǒng)計(jì)學(xué)習(xí)方法應(yīng)用于機(jī)器人技能表示.文獻(xiàn)[89]提出了基于GMM對(duì)技能特征編碼的框架,用于機(jī)械臂技能學(xué)習(xí),但是這類方法泛化能力差,難以實(shí)時(shí)泛化于新的場(chǎng)景.文獻(xiàn)[90]結(jié)合了動(dòng)態(tài)系統(tǒng)與統(tǒng)計(jì)學(xué)習(xí)方法,將概率運(yùn)動(dòng)原語(yǔ)用于機(jī)器人技能學(xué)習(xí).然而這種方法通常需要大量的數(shù)據(jù)以保證生成軌跡的準(zhǔn)確性.文獻(xiàn)[91]提出了一種結(jié)合概率學(xué)習(xí)、動(dòng)態(tài)系統(tǒng)和剛度估計(jì)的方法,以編碼機(jī)器人在任務(wù)中的行為.提出的方法允許機(jī)器人不僅學(xué)習(xí)軌跡跟蹤技能,而且還學(xué)習(xí)阻抗行為.Wang等[92]等提出結(jié)合概率模型、阻抗系統(tǒng)和剛度估計(jì)對(duì)任務(wù)技能進(jìn)行編碼,使機(jī)器人同時(shí)學(xué)習(xí)阻抗行為和軌跡跟蹤技能.動(dòng)態(tài)運(yùn)動(dòng)基元(Dynamic movement primitives,DMPs)[93-94]是一種較簡(jiǎn)潔的基于非線性動(dòng)態(tài)系統(tǒng)的技能建模方法,能夠在時(shí)間和空間上對(duì)軌跡進(jìn)行放縮并泛化到新的目標(biāo)位置.動(dòng)態(tài)運(yùn)動(dòng)基元算法的應(yīng)用旨在允許人類通過(guò)示教的方式,傳遞給協(xié)作機(jī)器人執(zhí)行任務(wù)時(shí)應(yīng)該產(chǎn)生的擬人運(yùn)動(dòng),從而提升協(xié)作機(jī)器人的可交互性[95-96].文獻(xiàn)[97]引入了肌肉協(xié)同概念,將原始動(dòng)態(tài)運(yùn)動(dòng)基元模型中的徑向基函數(shù)參數(shù)化,提出了參數(shù)化的動(dòng)態(tài)原語(yǔ)模型,并通過(guò)實(shí)驗(yàn)證明了其有效性.文獻(xiàn)[98]基于動(dòng)態(tài)運(yùn)動(dòng)基元模型,使用徑向基函數(shù)對(duì)力矩信息進(jìn)行編碼,提出了柔順運(yùn)動(dòng)基元模型,且對(duì)于柔順運(yùn)動(dòng)的學(xué)習(xí)不依賴于顯式的環(huán)境動(dòng)力學(xué)模型,提升了協(xié)作機(jī)器人技能學(xué)習(xí)的柔順性.文獻(xiàn)[99]提出基于RBFNNs的復(fù)合DMPs,用于協(xié)作機(jī)器人從人類演示中學(xué)習(xí)的包含位置和方向信息的技能.Lu等[100]提出了一個(gè)帶有各種分類約束條件的通用DMPs框架.在BLFs的啟發(fā)下,推導(dǎo)出一般模型的額外加速項(xiàng),以補(bǔ)償實(shí)際軌跡和期望軌跡之間的跟蹤誤差.

        (2)基于強(qiáng)化學(xué)習(xí)的技能學(xué)習(xí).

        強(qiáng)化學(xué)習(xí)通過(guò)探索環(huán)境和機(jī)器人自身身體,從試錯(cuò)(Trial-and-error)中學(xué)習(xí)[101].強(qiáng)化學(xué)習(xí)中的目標(biāo)由獎(jiǎng)勵(lì)函數(shù)指定,根據(jù)機(jī)器人相對(duì)于目標(biāo)期望的表現(xiàn),獎(jiǎng)勵(lì)函數(shù)起到正強(qiáng)化或負(fù)懲罰的作用.強(qiáng)化學(xué)習(xí)在機(jī)器人領(lǐng)域的應(yīng)用創(chuàng)造了一個(gè)明確的利基市場(chǎng)[102-104].基于強(qiáng)化學(xué)習(xí)的機(jī)器人技能學(xué)習(xí)方法提供了3個(gè)傳統(tǒng)方法不具備的能力:學(xué)習(xí)人類教師無(wú)法實(shí)際示教或直接編程的任務(wù),如舉起大重量重物[105];學(xué)習(xí)人類教師不確定最優(yōu)解的技能,通過(guò)使用已知的成本函數(shù)(例如,最小化執(zhí)行任務(wù)所用的能量或找到最快的步態(tài)等),實(shí)現(xiàn)沒有分析公式或已知封閉形式解的難題的優(yōu)化目標(biāo)學(xué)習(xí);使習(xí)得技能適應(yīng)新的任務(wù)(例如學(xué)習(xí)從平地走到斜坡),強(qiáng)化學(xué)習(xí)還提供了一些額外的優(yōu)勢(shì),例如可以從一次效果較好地的示教中學(xué)習(xí)技能并逐步完善.

        (3)基于逆強(qiáng)化學(xué)習(xí)的技能學(xué)習(xí).

        學(xué)習(xí)一項(xiàng)技能對(duì)于復(fù)雜的機(jī)器人系統(tǒng)通常是困難且耗時(shí)的,而逆強(qiáng)化學(xué)習(xí)可以基于有限示教數(shù)據(jù)反推出獎(jiǎng)勵(lì)函數(shù),并據(jù)此進(jìn)行強(qiáng)化學(xué)習(xí),從而提高學(xué)習(xí)策略的泛化性能.逆強(qiáng)化學(xué)習(xí)解決了學(xué)習(xí)什么和如何學(xué)習(xí)的問(wèn)題.逆強(qiáng)化學(xué)習(xí)的本質(zhì)是為任務(wù)找到一個(gè)獎(jiǎng)勵(lì)函數(shù).為次,學(xué)者們提出了許多方法.在文獻(xiàn)[106]中,提出了基于示教數(shù)據(jù)的最大利潤(rùn)原則,最小化了基于獎(jiǎng)勵(lì)函數(shù)學(xué)習(xí)的最優(yōu)策略與其他次優(yōu)策略之間的差異.在文獻(xiàn)[107]中,提出了一種基于最大熵原理確定獎(jiǎng)勵(lì)函數(shù)的方法,使機(jī)器人控制策略對(duì)示教數(shù)據(jù)噪聲表現(xiàn)出較好地魯棒性.近年來(lái),許多非線性函數(shù)被用來(lái)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù).文獻(xiàn)[108-109]提出了基于邊際的方法,通過(guò)特征構(gòu)造來(lái)學(xué)習(xí)非線性獎(jiǎng)勵(lì)函數(shù).文獻(xiàn)[110]提出了順序加窗逆向強(qiáng)化學(xué)習(xí)(Sequential windowed inverse reinforcement learning, SWIRL),將無(wú)監(jiān)督學(xué)習(xí)應(yīng)用于少量的初始專家演示.SWIRL將一個(gè)長(zhǎng)時(shí)間跨度的任務(wù)近似為一個(gè)局部獎(jiǎng)勵(lì)函數(shù)和子任務(wù)過(guò)渡條件的序列.在這個(gè)近似值上,SWIRL應(yīng)用Q-learning來(lái)計(jì)算一個(gè)使獎(jiǎng)勵(lì)最大化的策略.在文獻(xiàn)[111]中,生成式對(duì)抗網(wǎng)絡(luò)被用來(lái)優(yōu)化獎(jiǎng)勵(lì)函數(shù),與傳統(tǒng)的學(xué)習(xí)方法相比,在大型高維環(huán)境中獲得了顯著的性能提升.

        4 協(xié)作機(jī)器人發(fā)展方向

        4.1 協(xié)作機(jī)器人結(jié)構(gòu)和驅(qū)動(dòng)仿生化

        為使協(xié)作機(jī)器人在協(xié)作任務(wù)中具備更好的靈活性自主性,協(xié)作機(jī)器人結(jié)構(gòu)和驅(qū)動(dòng)仿生化是重要的發(fā)展方向之一,具備仿生特點(diǎn)的剛?cè)狁詈辖Y(jié)構(gòu)能夠使協(xié)作機(jī)器人集成具有剛性支撐結(jié)構(gòu)與柔性自適應(yīng)結(jié)構(gòu)的優(yōu)勢(shì),通過(guò)柔性材料進(jìn)行機(jī)器人機(jī)構(gòu)設(shè)計(jì),能夠使協(xié)作機(jī)器人具備運(yùn)動(dòng)靈活、運(yùn)動(dòng)速度快、交互安全等特點(diǎn).在驅(qū)動(dòng)方面,協(xié)作機(jī)器人的驅(qū)動(dòng)方式可以采用人工肌肉等仿生驅(qū)動(dòng)形式,并實(shí)現(xiàn)驅(qū)動(dòng)、結(jié)構(gòu)、材料一體化,使仿生機(jī)器人與生物形態(tài)更加接近.并通過(guò)在感知信息融合、柔性結(jié)構(gòu)振動(dòng)控制方面取得突破,使協(xié)作機(jī)器人實(shí)現(xiàn)穩(wěn)定仿生運(yùn)動(dòng)、高效自主運(yùn)動(dòng).

        4.2 協(xié)作機(jī)器人引入人在回路的混合增強(qiáng)智能

        協(xié)作機(jī)器人的主要應(yīng)用前景是在多個(gè)領(lǐng)域中代替人的作用,因而被期望可以具備類似人的高層次智能,可以基于現(xiàn)有經(jīng)驗(yàn)和知識(shí)進(jìn)行無(wú)監(jiān)督學(xué)習(xí),而當(dāng)前協(xié)作機(jī)器人的智能依賴于基于大量樣本進(jìn)行有監(jiān)督學(xué)習(xí),不具備類似人的高度的自主學(xué)習(xí)能力.協(xié)作機(jī)器人在工作中需要與人進(jìn)行豐富的交互,人作為機(jī)器人的協(xié)作和服務(wù)對(duì)象,人的感受是協(xié)作機(jī)器人工作成效的重要依據(jù),因此協(xié)作機(jī)器人的智能需要與人的智能相協(xié)同,將人的認(rèn)知模型或者人的作用引入?yún)f(xié)作機(jī)器人的智能,形成人在回路的混合增強(qiáng)智能,通過(guò)人的介入,調(diào)整協(xié)作機(jī)器人的技能策略,構(gòu)成機(jī)器人智能水平提升的反饋回路,實(shí)現(xiàn)人的高度自主學(xué)習(xí)能力、分析能力、認(rèn)知能力與機(jī)器人智能的運(yùn)算能力與高精度特點(diǎn)的緊耦合,使協(xié)作機(jī)器人具備更高層級(jí)智能水平,勝任更加復(fù)雜的協(xié)作任務(wù).

        猜你喜歡
        技能方法模型
        一半模型
        高級(jí)技能
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        秣馬厲兵強(qiáng)技能
        拼技能,享豐收
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        畫唇技能輕松
        Coco薇(2015年11期)2015-11-09 13:03:51
        青青草视频华人绿色在线| 久久精品国产亚洲av麻豆色欲| 品色堂永远免费| 后入内射欧美99二区视频| 激情 一区二区| 成人国产av精品麻豆网址| 国产精品人人做人人爽人人添| 最新高清无码专区| 国产va精品免费观看| 亚洲一区二区三区av无| 久久久久久久久无码精品亚洲日韩| 久久国产精品精品国产色婷婷| 亚洲AⅤ无码日韩AV中文AV伦| 亚洲中文字幕高清乱码毛片| 日本午夜理论片在线观看| 久久国产精品99精品国产| 中文字幕第1页中文字幕在| 国产黄色一区二区福利| 国产香蕉一区二区三区在线视频| 国产精品亚洲αv天堂无码| 亚洲午夜精品久久久久久一区| 精品人妻一区二区久久| 日本一区二区三区高清在线视频| 国产精品福利自产拍在线观看| 亚洲AV无码一区二区三区天堂网| 久久天堂精品一区专区av| 国产自拍高清在线观看| 波多野结衣av手机在线观看| 久久亚洲日本免费高清一区| 国产不卡在线播放一区二区三区| 无码专区亚洲综合另类| 亚洲综合久久成人a片| 欧美精品一本久久男人的天堂| 久久精品中文字幕有码| 国产男小鲜肉同志免费| 国产中文制服丝袜另类| 国产性感主播一区二区| 国产大屁股视频免费区| 亚洲中文有码字幕青青| 中文字幕日本熟妇少妇| 国产自拍精品视频免费|