亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        人– 機(jī)器人技能傳遞研究進(jìn)展

        2019-11-01 03:53:28楊辰光戴詩陸
        自動化學(xué)報(bào) 2019年10期
        關(guān)鍵詞:技能信息模型

        曾 超 楊辰光 李 強(qiáng) 戴詩陸

        中國工程院近期在《走向新一代智能制造》一文中指出:新一代智能制造的技術(shù)機(jī)理是“人–信息–物理系統(tǒng)(Human-cyber-physical-systems,HCPS)”,并指出新一代HCPS 具備兩個(gè)顯著特征:1)人將部分認(rèn)知轉(zhuǎn)移給信息系統(tǒng),因而系統(tǒng)具有“認(rèn)知、學(xué)習(xí)”能力;2)通過“人在回路(Humanin-the-loop)”的混合增強(qiáng)智能,可極大地優(yōu)化制造系統(tǒng)的性能[1].

        人–信息–機(jī)器人融合系統(tǒng)(Human-cyberrobot-systems,HCRS)是HCPS 在機(jī)器人領(lǐng)域中的具體應(yīng)用.與之相應(yīng),基于機(jī)器人的制造系統(tǒng)需要適應(yīng)新一代智能制造的發(fā)展趨勢.傳統(tǒng)人機(jī)隔離生產(chǎn)方式剛性作業(yè),無法完成復(fù)雜多變生產(chǎn)任務(wù),也逐漸無法滿足產(chǎn)品多品種、短周期、少批量、個(gè)性化的需求.而在HCRS 中,新型人機(jī)共融作業(yè)模式將人的優(yōu)勢(智慧性、靈巧性)與機(jī)器人優(yōu)勢(高速率、高精度、順從性)高效結(jié)合,實(shí)現(xiàn)人、信息與機(jī)器人系統(tǒng)的深度融合.HCRS 具備HCPS 的典型特征,突出了人的中心地位,將人的特點(diǎn)(包括靈巧性和應(yīng)變能力)納入到系統(tǒng)之中,增強(qiáng)系統(tǒng)的智能程度,可適應(yīng)新一代智能制造過程中柔性、高效等要求.

        其中,人–機(jī)器人技能傳遞(Human-robot skill transfer,HRST)是HCRS 中的關(guān)鍵之一,是實(shí)現(xiàn)人與機(jī)器人的運(yùn)動信息深度融合的基礎(chǔ).HRST的研究始于上個(gè)世紀(jì)80 年代,最近10 年得到了很大發(fā)展,目前是國際機(jī)器人領(lǐng)域中研究熱點(diǎn)之一.HRST 在不同文獻(xiàn)中有不同稱謂,如示教編程(Programming by demonstration,PbD)、機(jī)器人示教學(xué)習(xí)(Learning from demonstration,LfD)、模仿學(xué)習(xí)(Imitation learning)等,但其本質(zhì)相同:人將自己的技能做通用化描述后傳遞給機(jī)器人,進(jìn)而實(shí)現(xiàn)機(jī)器人的運(yùn)動編程,可代替?zhèn)鹘y(tǒng)的機(jī)器人編程方式.機(jī)器人除了直接模仿人的技能外,還可根據(jù)任務(wù)情況對所學(xué)技能進(jìn)行泛化、拓展.HRST 突出了人的因素在HCRS 中關(guān)鍵作用,可實(shí)現(xiàn)人機(jī)各自作業(yè)優(yōu)勢的結(jié)合,適應(yīng)人機(jī)共融協(xié)作要求.相比傳統(tǒng)方式,HRST 有諸多優(yōu)勢(見表1).

        表1 HRST 與傳統(tǒng)方式的比較Table 1 Comparation between HRST and the conventional methods

        人–機(jī)器人技能傳遞以交互的方式進(jìn)行.一方面,人根據(jù)任務(wù)情況自主調(diào)節(jié)自身的運(yùn)動特征,如根據(jù)與環(huán)境交互情況而自適應(yīng)地調(diào)節(jié)肢體位置,剛度/力;另一方面,機(jī)器人的運(yùn)動響應(yīng)可作為反饋信息幫助示教者對其運(yùn)動進(jìn)行修正與完善.從機(jī)器人角度來看,不止是簡單地模仿人的點(diǎn)對點(diǎn)(Point-topoint)運(yùn)動軌跡,而是具有“學(xué)習(xí)、推理”能力,能夠?qū)λ鶎W(xué)“知識”進(jìn)行泛化,如具有目標(biāo)拓展、運(yùn)動識別、安全避障等,以滿足不同的任務(wù)要求.人機(jī)技能傳遞側(cè)重強(qiáng)調(diào)人的因素在提高機(jī)器人技能方面的作用,因此其主要的關(guān)注點(diǎn)是如何對人和機(jī)器人的運(yùn)動進(jìn)行通用化的描述.

        本文針對人機(jī)技能傳遞展開討論,主要關(guān)注機(jī)械臂的技能示教學(xué)習(xí).文章組織如下:第1 節(jié)介紹機(jī)器人通用的技能學(xué)習(xí)過程;第2 節(jié)闡述實(shí)現(xiàn)人機(jī)技能傳遞的主要方式;第3 節(jié)總結(jié)幾種主要的技能建模方法;第4 節(jié)介紹機(jī)械臂仿人控制問題;第5 節(jié)給出目前研究不足與未來發(fā)展方向;第6 節(jié)總結(jié)全文.

        1 技能傳遞一般過程

        技能從人到機(jī)器人傳遞一般包括三個(gè)基本步驟:1)示教階段(Demonstration);2)模型學(xué)習(xí)階段(Model learning);3)任務(wù)復(fù)現(xiàn)階段(Task reproduction).以寫字為例,技能傳遞過程總體框圖如圖1 所示.

        圖1 人機(jī)技能傳遞一般過程框圖Fig.1 The procedure of human-robot skill transfer

        1)示教階段:在這一階段,示教者向機(jī)器人演示如何操作任務(wù).這個(gè)過程可以是在線的,也可以是離線的.在線是指在示教過程中,機(jī)器人也跟隨示教者操作任務(wù),記錄下機(jī)器人在此過程中的運(yùn)動信息的變化(包括位置、速度、力等信息)[2],在此過程還可記錄示教者肢體的剛度變化信息[3?4];離線示教是指在示教階段,只有示教者完成任務(wù)示范并記錄下其運(yùn)動狀態(tài)變化,而機(jī)器人在此階段并不需要跟隨示教者運(yùn)動[5].

        2)模型學(xué)習(xí)階段:在示教完成后,獲得了包含相應(yīng)技能信息的數(shù)據(jù)集合.模型學(xué)習(xí)的主要作用是根據(jù)任務(wù)特點(diǎn)對示教的技能特征進(jìn)行建模.利用示教數(shù)據(jù)擬合模型,從而估計(jì)出模型參數(shù).在此階段,除了需要考慮對運(yùn)動軌跡表征(Representing),還往往需要考慮多次示教軌跡對齊(Alignment)[6]、復(fù)雜技能的分割(Segmentation)[7]和運(yùn)動拓展(Generalization)[8]等問題.

        3)任務(wù)復(fù)現(xiàn)階段:在獲得技能特征之后,可將學(xué)習(xí)出的運(yùn)動策略控制變量映射到機(jī)械臂的控制器中,機(jī)器人可復(fù)現(xiàn)出示教者的技能,甚至對其進(jìn)行泛化,以完成相應(yīng)的作業(yè)任務(wù).任務(wù)復(fù)現(xiàn)階段需要選擇合適的機(jī)械臂控制模式.控制模式可以是多樣的,根據(jù)任務(wù)要求可選擇位姿控制、速度控制、力/力矩控制等.特別地,對于與環(huán)境有敏感接觸交互力的任務(wù),有效控制接觸力是成功復(fù)現(xiàn)及泛化作業(yè)任務(wù)的關(guān)鍵因素.

        2 人機(jī)技能傳遞方式

        人機(jī)交互接口設(shè)計(jì)(Interface design)是實(shí)現(xiàn)技能從人向機(jī)器人傳遞的首要環(huán)節(jié),決定了人通過何種方式對機(jī)器人進(jìn)行示教.根據(jù)不同的交互接口,常見的人機(jī)技能傳遞方式可歸納為以下三種形式:基于視覺的(Vision-based);基于遙操作(Teleoperation-based);人機(jī)物理接觸交互(Physical human-robot interaction,pHRI).

        1)基于視覺的人機(jī)技能傳遞[9?10].視覺輸入是比較常用的運(yùn)動示教方式.其基本原理是首先通過視覺設(shè)備(如三維體感攝影機(jī)Kinect、運(yùn)動捕捉系統(tǒng)Vicon 等)捕捉并跟蹤人體運(yùn)動信息并記錄下來,隨后用機(jī)器學(xué)習(xí)算法對運(yùn)動狀態(tài)數(shù)據(jù)建模,得到運(yùn)動的通用化描述.最后在復(fù)現(xiàn)環(huán)節(jié)中,根據(jù)具體任務(wù)特點(diǎn),泛化生成滿足任務(wù)要求的控制指令.根據(jù)捕捉信息的特點(diǎn)又可將這種方法分為以下幾種基本方法:利用Kinect 相機(jī)[11]捕獲示教者在運(yùn)動時(shí)候手臂的關(guān)節(jié)角度,再將人的關(guān)節(jié)角度映射到機(jī)器人的關(guān)節(jié)空間(Joint-space)[12?13],如圖2(a)所示;利用相機(jī)并結(jié)合光標(biāo)(Optical marker)的方式,光標(biāo)可佩戴在示教者的手臂末端位置,相機(jī)記錄下手臂末端在示教過程中的運(yùn)動軌跡,進(jìn)而將其映射到機(jī)器人的任務(wù)空間(Task-space)[5?6,9],如圖2(b)所示;此外,機(jī)器人還可以通過基于視頻演示的方法學(xué)習(xí)到人的技能[14?15].

        基于視覺的人機(jī)交互接口的優(yōu)點(diǎn)是方便人的示教,由于人的肢體不與機(jī)器人直接接觸,因而示教者的肢體運(yùn)動可不受其限制.缺點(diǎn)是這種示教方式只能獲取運(yùn)動信息,無法捕捉到人機(jī)接觸情況下示教者的動作信息.另外,由于示教者不能直接感受到交互力,導(dǎo)致示教過程缺乏浸入感.

        2)基于遙操作方式的人機(jī)技能傳遞[16].通過遙操作的方式,示教者可以通過主端(Master)設(shè)備操作從端(Slave)機(jī)器人.示教過程與基于視覺的方式很類似,不同之處在于這種方式不再直接記錄示教者的肢體的運(yùn)動信息,而是記錄主端操作桿或者從端機(jī)器人的運(yùn)動狀態(tài).由于操作桿與機(jī)器人的物理結(jié)構(gòu)往往不同,因而在示教過程中需要將二者的工作空間(Work space)進(jìn)行匹配[17].目前,遙操作已經(jīng)被成功應(yīng)用到了機(jī)器人輔助手術(shù)系統(tǒng)中,如達(dá)芬奇手術(shù)機(jī)器人.

        基于遙操作的示教方式的優(yōu)點(diǎn)是可以用在遠(yuǎn)程操控場景與不適合示教者和機(jī)器人直接接觸的工作場景中,如核電輻射場所、對大型機(jī)器設(shè)備的示教編程等.其缺點(diǎn)是遙操作系統(tǒng)往往存在延時(shí)問題.另外,震顫現(xiàn)象也是影響遙操作示教性能的重要因素之一[18].

        圖2 基于視覺方式的技能傳遞[19]Fig.2 Vision-based human-robot skill transfer interface[19]

        圖3 基于遙操作方式的人機(jī)技能傳遞[16]Fig.3 Teleoperation-based human-robot skill transfer[16]

        3)基于物理交互方式的技能傳遞[19?20].所謂的物理交互是指示教者直接與機(jī)器人接觸,在機(jī)器人的示教模式下,直接通過與機(jī)械臂的物理接觸交互完成作業(yè)任務(wù).該方式主要針對柔性協(xié)作機(jī)器人,其機(jī)械臂具有一定柔性特性,可以安全地與人協(xié)同作業(yè),一般提供了接口方便對其進(jìn)行快速運(yùn)動示教編程,如圖4 所示.

        其中,雙臂示教是一種較為特別的物理交互示教方法[21?23],即利用雙臂機(jī)器人的特點(diǎn),以其中一機(jī)械臂為主端,以另外一機(jī)械臂為從端.示教者操作主端引導(dǎo)從端機(jī)械臂完成作業(yè)任務(wù),如圖5.這種示教方式可以使得示教者直接操作機(jī)械臂,有物理交互的特點(diǎn).為了提高示教的質(zhì)量,可以在雙臂示教系統(tǒng)中的主從兩端引入基于虛擬阻抗的觸覺反饋機(jī)制,以提高人機(jī)交互的臨場感[4].

        圖4 基于物理交互方式的人機(jī)技能示教[24]Fig.4 Physical interaction for human-robot skill transfer[24]

        圖5 雙臂示教方式[25]Fig.5 Demonstration based on dual arm teaching[25]

        3 技能建模

        3.1 運(yùn)動表征問題描述

        技能建模中需要解決的基本問題是如何實(shí)現(xiàn)對非線性運(yùn)動(Nonlinear movement)的一般描述.任何復(fù)雜的行為都可以由簡單的線性子系統(tǒng)的加權(quán)疊加來描述.可用以下公式來描述:

        其中,x代表動作信息的特征變量,如位置、速度、力等;hi表示各個(gè)線性子系統(tǒng)的加權(quán)系數(shù),而子系統(tǒng)fi=Aix+bi由系數(shù)Ai和bi確定.

        由式(1)可知,技能建模的關(guān)鍵在于確定上述的加權(quán)系數(shù)、估計(jì)子系統(tǒng)的參數(shù)以及選擇合適的特征量.常見的基本建模方法包括動態(tài)運(yùn)動原語(Dynamical movement primitives,DMP)、高斯混合模型(Gaussian mixture model,GMM)和隱馬爾可夫模型(Hidden Markov model,HMM).

        這幾種模型的主要區(qū)別在于看待問題的角度不同:DMP 把技能特征看作是運(yùn)動原語(Primitive),用示教數(shù)據(jù)擬合DMP 模型可得到運(yùn)動原語序列;后兩種是從概率角度看待技能示教與傳遞,即把技能的各個(gè)特征與模型的不同狀態(tài)(State)相對應(yīng),用示教數(shù)據(jù)(對應(yīng)概率語境中的觀察數(shù)據(jù),Observed data)擬合GMM 或HMM 模型.因此,學(xué)習(xí)出模型的狀態(tài)信息也就得到了相應(yīng)的技能特征信息.

        3.2 動態(tài)運(yùn)動原語模型(DMP)

        3.2.1 DMP 基本數(shù)學(xué)描述

        DMP 模型[27?28]是由正則系統(tǒng)驅(qū)動的彈簧–阻尼系統(tǒng)來表示運(yùn)動軌跡.原始DMP 模型表示為[29?30]:

        其中,K,D和α1是模型參數(shù);x和v分別表示運(yùn)動位置與速度;x0和xg表示運(yùn)動軌跡的初始與目標(biāo).τ代表系統(tǒng)的時(shí)間常數(shù),決定系統(tǒng)的演化時(shí)間;s代表系統(tǒng)的相位(Phase),從1 均勻收斂到0.

        DMP 模型本質(zhì)上是一個(gè)二階非線性方程,包含兩個(gè)部分:線性部分和非線性部分.以圖6(a)為例,線性部分構(gòu)成運(yùn)動軌跡的基本形狀(實(shí)線表示),保證收斂到目標(biāo)值;非線性部分可將其調(diào)節(jié)成不同形狀(虛線表示),在保證形狀相似性的前提下,得到豐富的運(yùn)動軌跡.DMP 分為離散型(Discrete)和節(jié)律型(Rhythmic),區(qū)別在于非線性項(xiàng)的核函數(shù)不同:前者為高斯核;后者為余弦函數(shù).這兩種DMP 分別用于學(xué)習(xí)點(diǎn)到點(diǎn)(Point-to-point)運(yùn)動和具有周期性規(guī)律的運(yùn)動[31].

        可以用不同的非線性擬合方法逼近DMP 模型中非線性項(xiàng),常用方法有局部加權(quán)回歸算法(Locally weighted regression,LWR)和局部加權(quán)投影回歸(Locally weighted projection regression,LWPR).通過DMP 描述運(yùn)動技能的的一個(gè)優(yōu)點(diǎn)在于它的演化并不直接依賴于時(shí)間,而是基于中間變量(即相位)的變化,方便對運(yùn)動軌跡進(jìn)行拓展調(diào)節(jié)[28,31].另外,可通過對公式中初始位置、末端位置以及時(shí)間常數(shù)的調(diào)節(jié)來實(shí)現(xiàn)對運(yùn)動軌跡在時(shí)間上或空間上的拓展與泛化(見圖6).

        圖6 DMP 模型表征運(yùn)動軌跡示例Fig.6 Examples of DMP modelling:converging to goals

        3.2.2 基于DMP 的技能傳遞

        目前,學(xué)者在原始的DMP 模型的基礎(chǔ)上已經(jīng)發(fā)展出了多個(gè)版本的DMP 模型,并應(yīng)用于機(jī)器人技能示教學(xué)習(xí).Ude 等[32]不直接利用原有模型參數(shù)作為控制策略,而提出了查詢子(Queries)的概念來同時(shí)考慮任務(wù)參數(shù)與模型參數(shù),并可根據(jù)任務(wù)變化情況對其進(jìn)行調(diào)節(jié),該方法在扔球(Ball throwing)實(shí)驗(yàn)上得到了很好驗(yàn)證.Muelling 等[33]提出了一種DMP 框架用來讓機(jī)器人學(xué)習(xí)打乒乓球,他們的框架考慮了以目標(biāo)為中心(Goal-centered)的運(yùn)動原語,既考慮運(yùn)動目標(biāo)位置又考慮運(yùn)動目標(biāo)速度,并可以同時(shí)對二者進(jìn)行調(diào)節(jié)與拓展.

        原始DMP 模型有兩個(gè)缺點(diǎn):1)當(dāng)目標(biāo)位置與初始位置很接近時(shí),則會產(chǎn)生很大的加速度,這可能會損壞機(jī)器人本體,也不利于協(xié)作者的安全;2)如果拓展的位置目標(biāo)相對于原始目標(biāo)過零點(diǎn)(如從1拓展到?1),則拓展的運(yùn)動軌跡可能會相對于坐標(biāo)軸發(fā)生翻轉(zhuǎn).為了克服這些問題,Hoffmann 等[34]改進(jìn)了原始DMP 模型中的變換系統(tǒng)(Transform system),提出了一種基于新的變換系統(tǒng)能夠?qū)⑼獠课矬w位置信息耦合到該系統(tǒng)中,可以實(shí)現(xiàn)實(shí)時(shí)在線避障,通過Pick-and-place 實(shí)驗(yàn)驗(yàn)證了他們的方法.

        R¨uckert 等[35]提出了參數(shù)化的動態(tài)原語模型(Parametrized DMP,PDMP),將肌肉協(xié)同概念引入到該模型中,用參數(shù)化的基函數(shù)替換原DMP 中的徑向基函數(shù),實(shí)驗(yàn)證明了其有效性.Krug 等[36]提出了一種泛化的DMP 模型(Generalized DMP,GDMP),該模型把DMP 的參數(shù)估計(jì)變成一個(gè)約束非線性最小二乘問題,并把模型預(yù)測機(jī)制集成到示教系統(tǒng)中,可以根據(jù)機(jī)械臂在當(dāng)前運(yùn)動狀態(tài)下產(chǎn)生多種控制策略,可起到意圖預(yù)測、避障等作用.Meier 等[37]提出了一種DMP 的概率表示方法,把該模型重構(gòu)成帶有控制輸入的線性動態(tài)系統(tǒng)的概率模型,方便直接將感知測量單元耦合到系統(tǒng)中,DMP 系統(tǒng)可自動在線獲取反饋信息,并可根據(jù)似然估計(jì)結(jié)果對任務(wù)成敗作出預(yù)判.Gaˇspar 等[38]提出了弧長參數(shù)化的動態(tài)原語模型(Arc-length DMP,AL-DMP),基本思想是將空間信息與時(shí)間信息分開表示,可解決示教中存在較大運(yùn)動速度差異的問題.Gams 等[39]提出了適應(yīng)于雙臂交互的DMP 模型,基本做法是在兩個(gè)DMP (分別用于機(jī)器人的左、右臂)的變換系統(tǒng)中耦合一對虛擬的相反作用力,使得一只機(jī)械臂可以感知到另外一機(jī)械臂的位置與力的變化,以達(dá)到良好的雙臂協(xié)調(diào)控制效果(如圖7 所示).

        圖7 基于DMP 模型的雙臂技能示教學(xué)習(xí)[39]Fig.7 DMP-based robot bimanual skill learning by demonstration[39]

        在人機(jī)示教過程中,往往需要多次示教才能學(xué)習(xí)出好的控制策略,而原始的DMP 模型只能學(xué)習(xí)單一的示教軌跡.為了從多次示教數(shù)據(jù)中學(xué)習(xí)出技能特征,Yin 等[40]用聯(lián)合概率分布的方式替換了原有DMP 模型中的歸一化的徑向基函數(shù)(Normalized radical basis function),即將相位與非線性函數(shù)用聯(lián)合概率分布表示,再從多次示教數(shù)據(jù)中學(xué)習(xí)出一個(gè)非線性函數(shù)項(xiàng),便可以學(xué)習(xí)多次示教的結(jié)果.Matsubara 等[41]提出了風(fēng)格化(Stylistic)的動態(tài)原語模型(SDMP),通過將運(yùn)動風(fēng)格(Style)信息耦合到DMP 的轉(zhuǎn)換系統(tǒng)中,SDMP 可以同時(shí)描述多樣化的運(yùn)動軌跡,達(dá)到了學(xué)習(xí)多次示教的目的,該方法適合于多次示教數(shù)據(jù)差異較大的任務(wù).

        可以通過強(qiáng)化學(xué)習(xí)方法優(yōu)化示教獲得的運(yùn)動原語.在人機(jī)示教技能傳遞的語境中,強(qiáng)化學(xué)習(xí)方法的基本特征在于可實(shí)現(xiàn)對連續(xù)、高維原語空間的運(yùn)動策略優(yōu)化,這區(qū)別于一般的強(qiáng)化學(xué)習(xí)方法.在技能復(fù)現(xiàn)階段,可以通過強(qiáng)化學(xué)習(xí)技術(shù)對變換系統(tǒng)中的非線性函數(shù)進(jìn)行調(diào)節(jié)與優(yōu)化[42],按照一定目標(biāo)來調(diào)節(jié)運(yùn)動軌跡,如按照最小加速度原則收斂到目標(biāo)點(diǎn)、要求運(yùn)動軌跡經(jīng)過某些特定位置等.Kober 等[43]將感知單元耦合到了DMP 的系統(tǒng)中,可以提高系統(tǒng)抵抗外部的干擾能力;提出了一種基于權(quán)重探索的策略學(xué)習(xí)方法(Policy learning by weighting exploration with the returns,PoWER)對DMP 學(xué)習(xí)到的控制策略進(jìn)行優(yōu)化.Theodorou 等[44]提出了一種可應(yīng)用于高維狀態(tài)空間的算法,即基于路徑積分的策略優(yōu)化方法(Policy improvement with path integrals,PI2).Buchli 等[45]將PI2算法用于機(jī)器人技能學(xué)習(xí),用以優(yōu)化運(yùn)動原語模型參數(shù).Li 等[46]又將PI2算法應(yīng)用到了移動機(jī)器人的抓取操作上,同時(shí)對機(jī)械臂與機(jī)械手關(guān)節(jié)空間進(jìn)行軌跡優(yōu)化,取得良好的實(shí)驗(yàn)效果.Stulp 等[47]利用PI2算法用于機(jī)器人學(xué)習(xí)序列化的運(yùn)動,不僅優(yōu)化模型參數(shù),還優(yōu)化運(yùn)動目標(biāo)參數(shù).Stulp 等[48]又提出了一種進(jìn)化策略方法(Evolution strategies,ES),基本思想是將運(yùn)動原語的演化調(diào)優(yōu)看作是一個(gè)進(jìn)化優(yōu)化問題,并通過數(shù)值仿真比較了PoWER、PI2和ES 的異同以及在同等條件下的收斂情況.

        3.3 高斯混合模型(GMM)

        3.3.1 GMM 基本數(shù)學(xué)描述

        GMM 提出的時(shí)間比較早,有很多變形版本,已經(jīng)被應(yīng)用于諸多領(lǐng)域.我們只考慮在人機(jī)示教中對運(yùn)動信息的表征情況.

        其中,πi表示第i個(gè)高斯組分對應(yīng)的系數(shù);fi(ξt)是條件概率密度函數(shù),通??杀硎境筛咚狗植糔.GMM 模型參數(shù)可概括成:

        一般可以利用EM (Expectation-maximization)算法估計(jì)得到ΘGMM.GMM 僅僅是用來對數(shù)據(jù)表征,若要最終獲得機(jī)械臂的運(yùn)動控制策略,還需要根據(jù)GMM 模型參數(shù)生產(chǎn)運(yùn)動控制變量.在機(jī)器人技能學(xué)習(xí)領(lǐng)域中,高斯混合回歸(Gaussian mixture regression,GMR)是實(shí)現(xiàn)這一目標(biāo)的簡單且高效的方法[50].例如,控制變量˙ξ?可以通過以下公式計(jì)算得到:

        其中,hi(x)是歸一化的權(quán)重,上式中的參數(shù)即是由EM 算法評估得到的GMM 模型參數(shù).

        3.3.2 基于GMM 的技能傳遞

        近年來,基于GMM 模型的技能示教學(xué)習(xí)方法在文獻(xiàn)中屢見報(bào)道.在算法方面,Muhlig 等[51]將GMM 模型引入到類人機(jī)器人的模仿學(xué)習(xí)框架中,利用GMM 學(xué)習(xí)到的運(yùn)動信息,可以根據(jù)目標(biāo)物體的移動信息而動態(tài)調(diào)節(jié)相應(yīng)的動作.Gribovskaya等[52]利用GMM 模型來描述機(jī)器人運(yùn)動中的多變量之間的關(guān)聯(lián)信息,能夠在時(shí)間和空間擾動下快速重新規(guī)劃機(jī)械臂路徑.Khansari 等[53]提出了一種利用GMM 學(xué)習(xí)穩(wěn)定非線性動態(tài)系統(tǒng)的方法,可保證機(jī)械臂在接近目標(biāo)位置時(shí)能夠盡可能地跟隨示教者的運(yùn)動姿態(tài),這有利于機(jī)械臂可以更好地捕獲示教者的運(yùn)動信息.Cederborg 等[54]提出了一種新的GMM 模型(Incremental,local and online variation of Gaussian mixture regression,ILO-GMR),

        相比于傳統(tǒng)GMM 模型,ILO-GMR 將任務(wù)信息耦合到局部動態(tài)系統(tǒng)中,能夠使得機(jī)器人在線學(xué)習(xí)新的運(yùn)動技能,而不需要重復(fù)地調(diào)整模型參數(shù),在一定程度上提高了技能傳遞的效率.

        Calinon 等[55]提出了一種基于GMM 的運(yùn)動技能的示教學(xué)習(xí)框架,能夠同時(shí)處理關(guān)節(jié)空間與笛卡爾空間的任務(wù)限制,并可使得機(jī)器人能夠重復(fù)利用已經(jīng)學(xué)習(xí)到的技能來處理新的任務(wù)情形.Calinon等[56]又提出了一種將任務(wù)信息參數(shù)化的混合模型(Task-parameterized mixture model,TP-GMM),其核心思想是把模型參數(shù)與任務(wù)參數(shù)結(jié)合起來,即把任務(wù)參數(shù)耦合到GMM 模型中,在任務(wù)復(fù)現(xiàn)階段能夠?qū)崟r(shí)地調(diào)節(jié)參數(shù)化的軌跡以滿足不同的作業(yè)任務(wù)要求.Alizadehl 等[57]拓展了TP-GMM 模型,使之能夠解決在示教階段或者復(fù)現(xiàn)階段中的部分任務(wù)參數(shù)信息缺失的問題.Huang 等[58]對TP-GMM 進(jìn)行了優(yōu)化,選擇直接優(yōu)化任務(wù)參數(shù)而不是GMM 的組分(Component),這樣將模型學(xué)習(xí)變成一個(gè)低維空間的優(yōu)化問題,并且設(shè)計(jì)了一種特征選擇機(jī)制,可以自動選出重要的任務(wù)幀(Task frame)而剔除不重要的任務(wù)幀.為了有效表征機(jī)械臂末端執(zhí)行器在完成任務(wù)中的旋轉(zhuǎn)特征,Zeestraten 等[59]提出了在黎曼流形域中的GMM 模型,該方法能夠有效表征機(jī)械臂在任務(wù)空間的位姿聯(lián)合分布狀態(tài),可使得機(jī)器人學(xué)習(xí)到示教者的更加豐富的技能特征.

        在應(yīng)用方面,GMM 被應(yīng)用于不同類型的作業(yè)任務(wù)以及不同的機(jī)器人平臺上.Reiley 等[60]將GMM 應(yīng)用到了機(jī)器人輔助手術(shù)任務(wù)中,用GMM表征醫(yī)生手術(shù)過程中的動作信息,再將生成的控制策略傳遞給手術(shù)機(jī)器人.此外,Chen 等[61]利用GMM 模型把技能傳遞給柔性手術(shù)機(jī)器人.Wang等[62]將GMM 模型應(yīng)用到軟體機(jī)器人的運(yùn)動技能學(xué)習(xí)中,用GMM 表征示教數(shù)據(jù)并評估出執(zhí)行器的合適路徑,在試驗(yàn)中取得了良好效果.Kinugawa等[63]者的運(yùn)動意圖,并可以根據(jù)人的意圖預(yù)測結(jié)果自適應(yīng)地對裝配任務(wù)進(jìn)行任務(wù)規(guī)劃,達(dá)到了良好人機(jī)交互效果.Goil 等[64]利用GMM 模型解決輔助輪椅導(dǎo)航系統(tǒng)中人機(jī)混合控制問題,將用戶的控制命令作為任務(wù)限制耦合到運(yùn)動學(xué)習(xí)過程中,實(shí)驗(yàn)取得了良好人機(jī)協(xié)同控制效果.

        3.4 隱馬爾可夫模型(HMM)

        3.4.1 HMM 基本數(shù)學(xué)描述

        在人機(jī)示教技能傳遞的語境中,常用一階HMM 模型分析時(shí)間序列.給定一個(gè)狀態(tài)序列{s1,s2,···,sT},可用以下公式表示其其聯(lián)合分布[65]:

        并且假設(shè)當(dāng)前狀態(tài)只與上一時(shí)刻狀態(tài)有關(guān),即:

        與GMM 模型參數(shù)相對應(yīng),HMM 模型參數(shù)可表示為:

        其中,ai,j為狀態(tài)轉(zhuǎn)移矩陣中的元素.HMM 的參數(shù)可用前向–后向算法(Forwar-backward)或者EM算法估計(jì)得到.與GMM 類似,在用HMM 對示教數(shù)據(jù)建模后,也需要利用回歸算法生成機(jī)器人的運(yùn)動控制命令.

        在GMM 模型中,狀態(tài)之間相互獨(dú)立,狀態(tài)之間的轉(zhuǎn)移與時(shí)間信息無關(guān);和HMM 模型中,狀態(tài)駐留概率為均勻分布.因此,GMM 模型和HMM 模型不能很好地表征運(yùn)動技能的時(shí)間信息.而隱半馬爾科夫模型(Hidden semi-Markov models,HSMM)用高斯函數(shù)表示HMM 中的狀態(tài)駐留概率,可以改善HMM 在表征時(shí)間信息的性能.相應(yīng)地,HSMM 的參數(shù)可表示為:

        其中,μi和分別表示第i個(gè)狀態(tài)的均值與方差.圖8 反映了在兩個(gè)狀態(tài)下GMM,HMM 與HSMM建模示例以及三者之間的主要區(qū)別.

        圖8 GMM,HMM,HSMM 三種模型關(guān)系圖[65]Fig.8 Graphical representation of the GMM,HMM and HSMM models[65]

        3.4.2 基于HMM 的技能傳遞

        Asfour 等[66]將HMM 模型引入到類人機(jī)器人的模仿學(xué)習(xí)中,用示教數(shù)據(jù)中的關(guān)鍵特征來訓(xùn)練HMM 模型,實(shí)驗(yàn)表明相對于GMM,HMM 可以很好地反映出機(jī)器人雙臂之間在完成任務(wù)過程中的時(shí)間關(guān)聯(lián)性.Calinon 等[67]提出了一種基于HMMGMR 模型的架構(gòu)使機(jī)器人可以學(xué)習(xí)人的運(yùn)動技能,用HMM 對人體運(yùn)動信息建模,用GMR 做回歸得到機(jī)器人的運(yùn)動控制命令.該架構(gòu)與GMM-GMR類似,但可以表征更加豐富的運(yùn)動信息,該算法具有更強(qiáng)的魯棒性.

        Vukovi′c等[68]首次將該方法應(yīng)用到移動機(jī)器人的示教學(xué)習(xí)中,用HMM 對機(jī)器人的移動信息建模,試驗(yàn)證明了其有效性.Medina 等[69]結(jié)合HMM模型和線性參數(shù)變化(Linear parameter varying,LPV)系統(tǒng),提出了HMM-LPV 模型,用HMM 對復(fù)雜任務(wù)建模,用LPV 保證HMM 每一個(gè)狀態(tài)或子任務(wù)(Subtask)的穩(wěn)定性,該模型可以學(xué)習(xí)序列化的、與時(shí)間變化無關(guān)的運(yùn)動控制策略.

        Hollmann 等[70]提出了一種基于HMM 的機(jī)器人示教編程方法,通過對機(jī)器人的運(yùn)動控制信息添加約束,使得機(jī)器人可以自動地根據(jù)人的運(yùn)動特征做出相應(yīng)的反應(yīng),并在一家金屬加工公司的生產(chǎn)線上驗(yàn)證了所提方法.Vakanski 等[6]提出了一種機(jī)器人運(yùn)動軌跡學(xué)習(xí)方法,用HMM 表征示教軌跡,并通過在狀態(tài)轉(zhuǎn)移時(shí)設(shè)置關(guān)鍵點(diǎn)(Key points)的辦法,實(shí)現(xiàn)對軌跡的拓展與調(diào)整,在刷漆(Painting)作業(yè)中驗(yàn)證了該方法的有效性.Rafii-Tari 等[71]提出了一種基于分層級的(Hierarchical HMM,HHMM)模型以應(yīng)用于機(jī)器人輔助血管內(nèi)導(dǎo)管插入術(shù).他們把該手術(shù)任務(wù)分成多個(gè)序列化的運(yùn)動原語,用HHMM 模型分別對各個(gè)原語狀態(tài)以及它們之間的關(guān)聯(lián)信息建模,可以使得機(jī)器人對協(xié)作者的運(yùn)動輸入有一定識別和預(yù)測能力.

        如前文所述,HMM 無法表征每個(gè)狀態(tài)的駐留時(shí)間.為此,Calinon 等[26]將HSMM 引入到機(jī)器人示教學(xué)習(xí)中,利用HSMM 同時(shí)對時(shí)間信息和運(yùn)動信息建模,即保留了HMM 模型的優(yōu)點(diǎn),又能提高抗干擾能力,尤其在時(shí)間域上的抗干擾能力.Pignat等[72]利用HSMM 表征人機(jī)協(xié)作場景中的感知信息與運(yùn)動控制信息,即把協(xié)作者的運(yùn)動與機(jī)器人的運(yùn)動在空間位置與時(shí)間上都關(guān)聯(lián)起來,機(jī)器人可以根據(jù)人的當(dāng)前運(yùn)動狀態(tài)而做出在空間域與時(shí)間域上的運(yùn)動響應(yīng),該方法被應(yīng)用到了機(jī)器人輔助穿衣任務(wù).Rozo 等[73]進(jìn)一步提出了可自適應(yīng)調(diào)節(jié)每個(gè)狀態(tài)持續(xù)時(shí)間的HSMM 模型(Adaptive duration hidden semi-Markov model,ADHSMM).與傳統(tǒng)的HSMM 模型相比,不再用固定的高斯分布來表征其狀態(tài)駐留時(shí)間,而是可以根據(jù)與環(huán)境交互情況自適應(yīng)地調(diào)節(jié),因而ADHSMM 對運(yùn)動的時(shí)間信息具有更強(qiáng)的表示能力,具有更強(qiáng)抗外部干擾能力.

        DMP、GMM、HMM 三種模型比較:由于模型差異,難以對三者細(xì)致比較.總體來說,DMP 具有模型簡潔,計(jì)算效率高,泛化能力強(qiáng)的優(yōu)點(diǎn),但DMP獨(dú)立表征各運(yùn)動維度信息,丟失了各維度之間的關(guān)聯(lián)信息.例如,當(dāng)用DMP 模型對機(jī)械臂末端運(yùn)動位置與交互力建模時(shí),只能對力與位置分別建模與描述,就無法表征出位置與力的關(guān)聯(lián)信息,可能會導(dǎo)致信息丟失而不能很好地學(xué)習(xí)到示教者的運(yùn)動.另外,在模型學(xué)習(xí)階段需要提前選擇離散型DMP 或節(jié)律型DMP[24].而GMM 和HSMM 可以表達(dá)出各維度的關(guān)聯(lián)信息,但模型復(fù)雜,計(jì)算效率相對較低,通常需要較長的時(shí)間學(xué)習(xí)模型參數(shù).HSMM 可以反映各個(gè)狀態(tài)之間的轉(zhuǎn)換信息,因而比GMM 具有更強(qiáng)的運(yùn)動信息表達(dá)能力,但在同等條件下需要更長的計(jì)算時(shí)間[26].表2 總結(jié)了這三種模型與其常見變種模型的的基本特點(diǎn),以及利用它們學(xué)習(xí)到的技能示例.

        3.5 建模中的其他問題

        在建模階段,除了需要考慮對運(yùn)動做通用化描述外,還有一些問題需要考慮,主要包括:1)軌跡對齊(Alignment)問題;2)技能分割(Segmentation)問題.

        1)軌跡對齊問題

        由于示教的差異,多次示教的運(yùn)動軌跡往往在時(shí)間軸上長短不同,在空間上也會有一定差異,這種差異有時(shí)候還會比較大,影響模型學(xué)習(xí)結(jié)果.為了達(dá)到更好的運(yùn)動技能學(xué)習(xí)效果,需要對示教數(shù)據(jù)進(jìn)行對齊處理.動態(tài)時(shí)間規(guī)整(Dynamic time warping,DTW)是常用的對齊數(shù)據(jù)的技術(shù),在機(jī)器人技能學(xué)習(xí)領(lǐng)域應(yīng)用廣泛.Muhlig 等[51]在用GMM 對示教數(shù)據(jù)建模之前,用DTW 在時(shí)間上對運(yùn)動軌跡進(jìn)行了對齊處理.Vakanski 等[6]結(jié)合HMM 與DTW技術(shù),利用DTW 對運(yùn)動軌跡的關(guān)鍵點(diǎn)進(jìn)行對齊,實(shí)驗(yàn)證明該方法要比沒有對齊的情況獲得更好的效果.為了對齊人機(jī)協(xié)作場景中示教者與機(jī)器人的運(yùn)動軌跡,Amor 等[74]把DMP 與DTW 模型結(jié)合起來,利用DTW 把人與機(jī)器人的各自運(yùn)動相位變量對齊,這樣二者的運(yùn)動內(nèi)部信息便可關(guān)聯(lián)起來,人機(jī)雙方的運(yùn)動便能夠得以協(xié)調(diào)起來,該方法比較適合人機(jī)協(xié)作的作業(yè)任務(wù).

        2)技能分割問題

        技能分割主要針對以下情況:a)復(fù)雜的任務(wù)往往包含多個(gè)步驟,其運(yùn)動軌跡的動態(tài)特征非常復(fù)雜,用上述三種模型對其整體運(yùn)動軌跡一次性建模比較困難;b)對于序列化的運(yùn)動軌跡,經(jīng)常需要分階段拓展,即軌跡拓展的目標(biāo)不止一個(gè),因而需要分段處理;c)在機(jī)器人復(fù)現(xiàn)任務(wù)過程中,對其分階段添加不同的限制,需要機(jī)器人在各階段作出不同的響應(yīng).面對這三種情況,技能(或任務(wù)、軌跡)分割是解決問題的有效辦法.基本思想簡單、直接:把作業(yè)任務(wù)分割成多個(gè)階段,用上述模型對分割后的各個(gè)運(yùn)動片段(Segments)分別建模,再針對每一階段具體情況分別考慮.

        表2 DMP、GMM、HMM 模型特點(diǎn)總結(jié)Table 2 The summary of DMP、GMM、HMM models

        目前,關(guān)于技能分割的文獻(xiàn)報(bào)道較少,主要有以下幾種方法.Fox 等[79]提出了β過程自回歸隱馬爾科夫模型(Beta process autoregressive HMM,BP-AR-HMM),用于分割連續(xù)的人體運(yùn)動.Niekum等[80]對BP-AR-HMM 進(jìn)行了改善,將其應(yīng)用到機(jī)器人示教學(xué)習(xí)領(lǐng)域,把BP-AR-HMM 與DMP 結(jié)合形成了一個(gè)完整的示教學(xué)習(xí)框架,前者用于分割;后者用于表征.隨后,Chi 等[81]將這一框架應(yīng)用到了安裝在輪椅上的機(jī)械臂示教學(xué)習(xí)中,實(shí)驗(yàn)取得了良好效果.BP-AR-HMM 算法的優(yōu)點(diǎn)是全自動分割,不需要先驗(yàn)設(shè)置分割的片段數(shù)量;缺點(diǎn)是魯棒性差,容易導(dǎo)致過分割的情況.

        最近,Lioutikov 等[82]提出了一種概率分割(Probabilistic segmentation,ProS)方法,該算法是基于對DMP 的概率表示[38],在對軌跡建模的同時(shí)完成技能的分割.在同等條件下,ProS 比BPAR-HMM 具有更強(qiáng)的魯棒性,可獲得更好的分割效果.但ProS 是一種半自動的分割方式,需要先驗(yàn)設(shè)置分割數(shù)量.

        4 仿人自適應(yīng)控制

        機(jī)械臂的仿人控制是一個(gè)很大的范疇,一直得到了廣泛的關(guān)注與研究.在人機(jī)技能傳遞領(lǐng)域,仿人控制具有比較明確的目標(biāo)與意義.這里的仿人控制是指如何借鑒人的手臂靈活的操作能力,來實(shí)現(xiàn)機(jī)械臂的靈巧控制,或者說如何實(shí)現(xiàn)將人手臂的自適應(yīng)控制模式傳遞給機(jī)械臂.

        4.1 人體神經(jīng)肌肉運(yùn)動控制機(jī)理帶來的啟示

        對于雕刻這樣的任務(wù),機(jī)器人難以勝任,而人卻可以比較輕松地完成.學(xué)者對了解人類是如何擁有靈巧的操作能力表現(xiàn)出了濃厚的興趣,在探究人體神經(jīng)肌肉運(yùn)動控制機(jī)理方面展開了大量研究.Schweighofer 等[83]展示了小腦能夠補(bǔ)償人的手臂與外界的相互作用力矩,進(jìn)而通過學(xué)習(xí)部分逆動態(tài)模型而改進(jìn)預(yù)先存儲在運(yùn)動神經(jīng)元皮層的基本逆動態(tài)模型,從而在目標(biāo)定向運(yùn)動中提高精確度,又進(jìn)一步將人體肌肉的同步收縮解釋為一種不受時(shí)延影響的分布式的局部控制策略,表明主動改變系統(tǒng)剛度的能力可以克服反饋滯后的缺點(diǎn).

        特別地,Shadmehr 等[84]在運(yùn)動神經(jīng)元控制方面的研究中發(fā)現(xiàn)共同收縮(人改變內(nèi)在的肌肉–骨骼剛度的能力)在處理不確定性和不可預(yù)測性方面起到了關(guān)鍵性作用.Burdet 等[85]證實(shí)了人的手臂具有一種類似彈簧的性質(zhì),在中樞神經(jīng)系統(tǒng)(Central neural system,CNS)的控制下,手臂可以自適應(yīng)地調(diào)節(jié)阻抗/剛度以適應(yīng)任務(wù)的變化,當(dāng)外部環(huán)境變化時(shí),手臂能夠自然地增加阻抗以提高抗干擾能力,而當(dāng)不需要高剛度時(shí),又能夠自然地降低剛度.Mitrovic 等[86]研究表明中樞神經(jīng)系統(tǒng)可以通過適當(dāng)?shù)闹鲃蛹?對抗肌的同步收縮來控制手臂平衡,并研究證實(shí)了共同收縮在處理不確定性最小化方面具有重要作用.

        上述研究成果表明人的這種變阻抗/剛度控制能力是完成靈巧作業(yè)任務(wù)的關(guān)鍵,這對于實(shí)現(xiàn)機(jī)械臂的靈巧控制、改善機(jī)器人的操作技能具有重要啟示作用.近年來,人機(jī)示教領(lǐng)域的學(xué)者開始關(guān)注于如何使機(jī)器人學(xué)習(xí)自適應(yīng)變剛度控制策略.這些方法基本可以分為兩類:1)基于學(xué)習(xí)的變剛度控制方法;2)人機(jī)變剛度控制策略傳遞.

        4.2 基于學(xué)習(xí)的變剛度控制方法

        阻抗控制是實(shí)現(xiàn)力控的常用方式,一個(gè)典型的關(guān)節(jié)阻抗控制器可用以下公式表示:

        其中,τcmd是控制輸入力矩,τfor是前饋項(xiàng),用于補(bǔ)償機(jī)械臂與外界的交互作用力,xdes和xcur分別代表目標(biāo)關(guān)節(jié)角度和當(dāng)前的關(guān)節(jié)角度,τdyn用以補(bǔ)償系統(tǒng)的動態(tài)力如重力和科里奧利力等.KP和KD分別表示剛度與阻尼,通常阻尼項(xiàng)設(shè)置為,λ是預(yù)設(shè)常值.變阻抗控制的目標(biāo)是適當(dāng)?shù)卣{(diào)節(jié)剛度值,以達(dá)到提高機(jī)械臂柔性的目的[87?90].

        基于學(xué)習(xí)的方法實(shí)現(xiàn)機(jī)械臂的變剛度控制是指通過學(xué)習(xí)技術(shù)(如強(qiáng)化學(xué)習(xí))來對剛度軌跡進(jìn)行調(diào)節(jié),獲得適當(dāng)?shù)淖儎偠瓤刂撇呗?Buchli 等[45]提出了一種基于強(qiáng)化學(xué)習(xí)的方法來調(diào)節(jié)剛度軌跡.其基本思路是利用DMP 模型變換系統(tǒng)的最后一項(xiàng)即非線性項(xiàng)(參見式(2))來表示剛度,再用PI2算法對這一非線性優(yōu)化,通過設(shè)置一個(gè)合適的代價(jià)函數(shù),最終可以得到變化的剛度軌跡.該算法用一固定的初始值擬合PI2算法,因此收斂速度與初始值的選擇有很大關(guān)系,通常需要很長的訓(xùn)練時(shí)間和較多的訓(xùn)練次數(shù).

        Steinmetz 等[89]提出了一種基于DMP 的方法來實(shí)現(xiàn)力控,他們的主要思路與Buchli 的方法相似,不過沒有直接利用強(qiáng)化學(xué)習(xí)技術(shù)來優(yōu)化非線性項(xiàng),而是設(shè)計(jì)了一種剛度值選擇機(jī)制來調(diào)節(jié)剛度,例如當(dāng)機(jī)械臂在運(yùn)動過程中把剛度設(shè)定一個(gè)較高值,而當(dāng)與外部環(huán)境接觸,將剛度設(shè)定為零.他們的方法不需要很長的學(xué)習(xí)時(shí)間,但不能連續(xù)調(diào)節(jié)剛度值.

        Rozo 等[90]提出了一種基于HMM-GMR 的方法來學(xué)習(xí)變剛度軌跡.其基本思路是在示教階段,同時(shí)記錄位置信息與力信息.在建模階段,用聯(lián)合概率分布來同時(shí)表示位置與力,學(xué)習(xí)后的HMM 模型就能夠表征力的變化信息,再通過以下公式將力與剛度聯(lián)系起來:

        其中,μn,t是HMM 模型第n個(gè)狀態(tài)在時(shí)間t時(shí)候的位置均值,ht,i是狀態(tài)的權(quán)重(參見式(9)).通過式(15)可以獲得變剛度軌跡,并且可以反映出相應(yīng)的力的變化情況.

        受此啟發(fā),Racca 等[24]進(jìn)一步利用HSMMGMR 模型來學(xué)習(xí)剛度,用HSMM 模型替換HMM模型可以提高系統(tǒng)對外界的抗干擾能力,這對于接觸型(In-contact)任務(wù)十分有利.并且,他們還將機(jī)械臂末端的旋轉(zhuǎn)力矩信息耦合到HSMM 模型中,因而還可以學(xué)習(xí)出旋轉(zhuǎn)剛度軌跡,即實(shí)現(xiàn)了在旋轉(zhuǎn)方向上的變剛度調(diào)節(jié).

        4.3 人機(jī)變剛度控制策略傳遞

        上述的學(xué)習(xí)剛度的方法都需要在一個(gè)學(xué)習(xí)過程才能夠獲得剛度軌跡,顯然不夠直接,并且很難準(zhǔn)確反應(yīng)人體的剛度變化特征.另外,在這些方法中剛度是通過基于力計(jì)算得到的,往往需要額外的傳感器測量力,增加整體機(jī)器人系統(tǒng)的成本.更加直接的方式是人機(jī)變剛度控制策略傳遞,即在人機(jī)交互過程中,提取人的肢體剛度變化特征,將其直接傳遞給機(jī)械臂,以達(dá)到變剛度控制的目的.

        研究者們發(fā)現(xiàn)利用人體生理肌電信號(Eletromyography,EMG)可以實(shí)現(xiàn)人手臂到機(jī)械臂的力傳遞策略.肌電信號是運(yùn)動單位產(chǎn)生的動作電位序列(Motor unit action potential trains,MUAPT)在皮膚表面疊加而成的一種非平穩(wěn)微弱信號,由中樞神經(jīng)系統(tǒng)進(jìn)行調(diào)節(jié)控制,表征了肌肉的伸縮以及關(guān)節(jié)力度和剛度變化等信息,因而EMG信號與肌肉力度/剛度的調(diào)節(jié)、運(yùn)動意圖等具有很大的關(guān)聯(lián)性.肌電信號使得我們能夠從生理層次提取運(yùn)動肌肉控制特性,彌補(bǔ)傳統(tǒng)的示教技術(shù)僅從物理層次上實(shí)現(xiàn)人機(jī)交互的不足.

        近些年來,機(jī)器人領(lǐng)域的學(xué)者開始利用EMG信號提取人的肢體剛度特征,并用于控制機(jī)械臂.He 等[88]提出了一種基于EMG 信號的變阻抗遙操作系統(tǒng),如圖9 所示,根據(jù)EMG 估計(jì)出人的手臂剛度,人在視覺反饋下調(diào)節(jié)手臂剛度,并傳遞給機(jī)械臂,實(shí)現(xiàn)機(jī)械臂的自適應(yīng)柔性控制.Ajoudani 等[11]又提出了一種基于擾動測量的手臂剛度簡化的評估方法,通過肌肉共收縮情況定義一個(gè)剛度指示器,其變化可反映出人體肌肉活化程度,該方法可實(shí)現(xiàn)基于EMG 信號實(shí)時(shí)估計(jì)出人體剛度.Yang 等[4]進(jìn)一步將觸覺反饋機(jī)制引入到該類系統(tǒng)中,同時(shí)在觸覺和視覺反饋的幫助下,人可以更加自然地示教,增加了技能傳遞的臨場感.

        圖9 基于EMG 信號的人機(jī)變剛度傳遞系統(tǒng)[91]Fig.9 The EMG-based human-robot stiffness transfer system[91]

        Liang 等[3]提出了一種人體剛度增量估計(jì)算法,利用剛度與力增量之間的線性映射關(guān)系,估計(jì)出肢體剛度系數(shù),這種方式可以忽略掉EMG 信號的非線性殘差,他們通過教授機(jī)器人寫字,證明了該算法的有效性.Li 等[92]進(jìn)一步利用該方法估計(jì)人體剛度,并將其用于控制上肢外骨骼機(jī)器人,可實(shí)現(xiàn)外骨骼自適應(yīng)地調(diào)節(jié)剛度,取得了良好實(shí)驗(yàn)效果.

        Howard 等[93]比較了在不同層級上將人的行為傳遞給變阻抗驅(qū)動器(Variable impedance actuators,VIAs),主要分析了基于EMG 信號的人體阻抗調(diào)節(jié)特征的傳遞,指出特征傳遞比直接動作模仿具有更好效果,他們的結(jié)論可提供很好的借鑒作用.Peternel 等[94]提出了一種人機(jī)協(xié)作系統(tǒng),如圖10所示,將人的手臂剛度與機(jī)械臂的剛度協(xié)調(diào)起來,機(jī)械臂的剛度由示教者的手臂剛度的變化決定.例如,當(dāng)在一個(gè)拉鋸任務(wù)場景中,當(dāng)人拉鋸時(shí)增大手臂力度,機(jī)械臂就減小剛度處于松弛狀態(tài),反之亦然,這種方法適合于人機(jī)協(xié)同調(diào)節(jié)交互力的任務(wù)場景.

        圖10 基于變剛度控制的人機(jī)協(xié)作[94]Fig.10 Human-robot collaboration based on variable stiffness control[94]

        在上述的剛度傳遞過程中,大多只關(guān)注于將評估出的人體剛度軌跡直接映射到機(jī)械臂的控制器中,而對剛度的動態(tài)特性分析不足.Yang 等[25,95?96]提出了一種人機(jī)示教框架,將運(yùn)動軌跡與剛度軌跡等同看待,提出用統(tǒng)一的框架對二者分別建模,這樣可實(shí)現(xiàn)運(yùn)動特征與剛度特征從人向機(jī)器人的同時(shí)傳遞,獲得更加完整的技能傳遞過程.并且,他們的方法可學(xué)習(xí)多次示教剛度軌跡,保留對空間位置與剛度分別調(diào)節(jié)的空間,可實(shí)現(xiàn)對二者同時(shí)或者分別拓展與分割,有利于提高機(jī)器人的技能學(xué)習(xí)能力.

        上述剛度傳遞的一般過程是:先離線估計(jì)出示教者手臂末端的剛度,再映射到機(jī)械臂的末端工作空間,最后通過逆運(yùn)動學(xué)作用到關(guān)節(jié)力矩控制器.Fang 等[97]利用零關(guān)節(jié)空間剛度特性,開發(fā)了基于模型的人體關(guān)節(jié)空間估計(jì)方法,實(shí)現(xiàn)在線在多個(gè)位置和不同程度的肌肉活化度下對手臂7 個(gè)關(guān)節(jié)的剛度估計(jì),該方法有望實(shí)現(xiàn)人機(jī)關(guān)節(jié)空間的剛度直接傳遞,提高變剛度自適應(yīng)控制的效率.

        5 問題與展望

        綜上所述,人機(jī)技能傳遞技術(shù)雖然取得了一定進(jìn)展,但仍然存在多個(gè)方面問題.主要體現(xiàn)在:

        1)在人機(jī)技能傳遞方式方面,目前的交互方式過于單一、感知信息不足,人機(jī)融合程度不高,造成示教的浸入感不足,示教者缺乏比較真實(shí)的臨場感,從而影響示教性能.

        針對這一問題,未來會集中在尋求更加直觀、自然、友好的示教方式.首先,在人機(jī)交互接口上,多種交互方式相結(jié)合是發(fā)展趨勢,將先進(jìn)的交互技術(shù)引入到機(jī)器人技能示教學(xué)習(xí)領(lǐng)域是確實(shí)可行的辦法,例如,利用虛擬現(xiàn)實(shí)(VR)、混合現(xiàn)實(shí)(MR)以及三維再現(xiàn)等技術(shù)[98?101]構(gòu)建人機(jī)示教交互與作業(yè)環(huán)境,有望縮小人機(jī)隔離狀態(tài),達(dá)到更好人機(jī)共融效果,可提高示教質(zhì)量.

        多模態(tài)信息融合也將是改善人機(jī)交互性能的發(fā)展方向.通過將物理的或者生理的多種形式的信號(如空間位置、交互力、觸覺、視覺、肌電信號等)在更高層次上融合,納入到人機(jī)技能傳遞過程中,可以更直觀地表達(dá)出人的技能特征.

        2)在技能建模、學(xué)習(xí)方面,目前所用的模型大多是傳統(tǒng)的機(jī)器學(xué)習(xí)模型,泛化能力不足,使得機(jī)器人學(xué)習(xí)技能過程在很大程度上受到具體示教場景、示教者本身、作業(yè)環(huán)境等諸多因素的制約.

        結(jié)合示教學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)等技術(shù)是解決這一問題的有效方式之一.近年來,人工智能技術(shù)在機(jī)器人視覺感知、技能學(xué)習(xí)等方面展現(xiàn)出較大的應(yīng)用潛力[102?105].雖然現(xiàn)有的基于人工智能的機(jī)器人技能學(xué)習(xí)方法側(cè)重于機(jī)器人自主提升技能,與人機(jī)示教技能傳遞存在很大差別,但人工智能有望作為一種輔助技術(shù)手段以提高人機(jī)示教的性能.一種思路是先利用示教技術(shù)使機(jī)器人具備一定的類人化的操作技能,再通過深度強(qiáng)化學(xué)習(xí)提高機(jī)器人的技能泛化能力.例如,可考慮如何用深度強(qiáng)化學(xué)習(xí)技術(shù)優(yōu)化運(yùn)動原語控制策略.

        3)在機(jī)械臂控制方面,雖然目前可以實(shí)現(xiàn)人體剛度特征向機(jī)器人的傳遞,但對人體剛度調(diào)節(jié)機(jī)制理解不夠深入,人手臂與機(jī)械臂在結(jié)構(gòu)上具有差異性,影響剛度評估的準(zhǔn)確性.剛度估計(jì)方法也繁瑣復(fù)雜,影響技能學(xué)習(xí)效率.

        為了進(jìn)一步理解肌肉活化、信息感知、運(yùn)動控制等內(nèi)容,有必要深入探究人體的運(yùn)動機(jī)理.更好地理解人體肌肉模型,開發(fā)具有普適應(yīng)的剛度估計(jì)方法.從人類的運(yùn)動控制中汲取經(jīng)驗(yàn),是未來提高機(jī)器人類人化操作能力的重要研究方向[106].

        6 結(jié)束語

        本文主要介紹人機(jī)技能傳遞取得的研究進(jìn)展.首先,闡述了機(jī)器人技能學(xué)習(xí)在新一代智能制造時(shí)代的研究背景,尤其是與HCPS 之間的關(guān)系.介紹了技能傳遞一般過程:示教–建模–技能復(fù)現(xiàn),以及幾種主要的人機(jī)技能傳遞方式,并分析了各自的優(yōu)缺點(diǎn).接著闡述了三種基本的技能建模模型:DMP、GMM、HMM,以及它們的主要變種,總結(jié)了各自的特點(diǎn).接著,介紹了兩種實(shí)現(xiàn)機(jī)械臂變剛度控制的方式:基于學(xué)習(xí)算法和人機(jī)剛度特征傳遞,并分析了各自的優(yōu)缺點(diǎn).最后,總結(jié)了示教學(xué)習(xí)在三個(gè)方面面臨的主要問題、現(xiàn)階段不足之處,并給出了可能的解決之道與未來發(fā)展方向.

        在過去的十年里,人機(jī)技能傳遞技術(shù)得到了較快發(fā)展,無論是在人機(jī)接口設(shè)計(jì)與建模,還是在仿人手臂自適應(yīng)控制上都取得了一些可喜的成果.但有諸多不足,與達(dá)到應(yīng)用的地步還有一段距離.人機(jī)技能傳遞是個(gè)典型的交叉學(xué)科問題,需要機(jī)器人學(xué)、控制、機(jī)器學(xué)習(xí)、神經(jīng)科學(xué)等多個(gè)學(xué)科的研究人員共同努力,才能推動其不斷進(jìn)步,最終走向工業(yè)界.

        目前,我國在此領(lǐng)域處于剛剛起步階段,相關(guān)成果報(bào)道很少,離國際先進(jìn)水平有很大的差距,需要國內(nèi)學(xué)者加倍努力,在理論與技術(shù)上都有所建樹,爭取早日把人機(jī)示教技術(shù)推向應(yīng)用,助力我國智能制造業(yè)發(fā)展.

        猜你喜歡
        技能信息模型
        一半模型
        高級技能
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        秣馬厲兵強(qiáng)技能
        中國公路(2017年19期)2018-01-23 03:06:33
        拼技能,享豐收
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        畫唇技能輕松
        Coco薇(2015年11期)2015-11-09 13:03:51
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        亚洲综合视频一区二区| 九九精品国产99精品| 爱情岛论坛亚洲品质自拍hd| 亚洲av伊人久久综合密臀性色| 99久久免费精品高清特色大片| 亚洲av无码一区二区二三区下载| 精品四虎免费观看国产高清| 亚洲h电影| 亚洲情精品中文字幕有码在线| 女同同成片av免费观看| 精品国产亚洲av高清日韩专区| 丰满少妇被啪啪到高潮迷轩| 男人国产av天堂www麻豆| 欧美成人看片一区二区三区尤物 | 国色天香精品一卡2卡3卡4| 一本一道av中文字幕无码| 狠狠色丁香久久婷婷综合蜜芽五月| 国产一区二区精品久久凹凸| 久久中文字幕av一区二区不卡 | 好大好深好猛好爽视频免费 | 自拍亚洲一区欧美另类| 日本精品一区二区在线看| 海外华人在线免费观看| 亚洲精品无码精品mv在线观看| 搡老熟女中国老太| 欧美亚州乳在线观看| 国产免费视频一区二区| 国产午夜精品久久精品| 亚洲av午夜福利精品一区| 欧美日韩视频在线第一区| 999久久久免费精品国产| 久久人妻AV无码一区二区| 亚洲精品国产福利在线观看| 少妇呻吟一区二区三区| av网站在线观看大全| 欲求不満の人妻松下纱荣子 | 日韩欧美国产亚洲中文| 色婷婷久久99综合精品jk白丝| 美利坚合众国亚洲视频| 日本亚洲国产精品久久| av综合网男人的天堂|