亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于動態(tài)系統(tǒng)的機器人模仿學習方法研究

2019-11-09 03:42:46于建均姚紅柯左國玉阮曉鋼安碩

智能系統(tǒng)學報 2019年5期

于建均，姚紅柯，左國玉，阮曉鋼，安碩

（1. 北京工業(yè)大學信息學部，北京 100124; 2. 北京工業(yè)大學計算智能與智能系統(tǒng)北京市重點實驗室，北京100124）

目前，在機器人技術(shù)的研究中，如何使機器人具備類似于人類的智能行為已成為一大研究熱點[1]。而從人類學習中發(fā)展而來的模仿學習，作為機器人直接獲取知識和技能的一種方式，在機器人的智能性的提升方面越來越發(fā)揮出巨大的作用，越來越多地受到學術(shù)界的關(guān)注和研究[2-6]。一方面，相對于傳統(tǒng)的機器人編程控制，模仿學習將使機器人編程更加容易，提高了機器人的作業(yè)效率；另一方面，模仿學習賦予機器人獲取知識、學習知識的能力，使其更加具備智能性[7]。

機器人模仿學習一般分為3個步驟完成：示教過程、學習過程、再現(xiàn)過程。當前，模仿學習的研究，主要集中在對學習過程的研究，已經(jīng)出現(xiàn)了多種模仿學習的算法用來實現(xiàn)機器人的學習過程[8-11]。其中基于軌跡匹配的機器人模仿學習算法主要有高斯混合模型(GMM)[12]和高斯混合回歸 GMR(gaussian maxture regression)[12-13]、局部加權(quán)回歸LWR(locally weighted regression)[14-15]、人工神經(jīng)網(wǎng)絡(luò)ANN(artificial neural networks)[16-17]等，這些算法的特點是將示教運動軌跡數(shù)據(jù)建模為回歸過程，以期獲得控制策略指導(dǎo)機器人對示教運動進行再現(xiàn)。雖然基于軌跡匹配的回歸算法具有較強的數(shù)據(jù)表征能力和抗噪能力，但是也存在泛化能力差、穩(wěn)定性差等缺點[18]。Ijspeert等[19]提出的一種基于動態(tài)運動基元DMP(dynamic morement primitives)的機器人模仿學習方法。該方法將運動行為軌跡建模為一組微分方程，并通過線性動態(tài)系統(tǒng)保證了目標的全局穩(wěn)定性，可以從一個簡單的示教中學習較復(fù)雜的運動行為，已有廣泛的使用[19-22]。然而，DMP對時間具有依賴性，使其對時間擾動較為敏感，穩(wěn)定性受到一定影響；而且泛化能力有限，其背后的物理意義也比較難于理解。

動態(tài)系統(tǒng)(DS)法[13,23]是近些年出現(xiàn)的一種對運動數(shù)據(jù)建模的機器學習方法。DS可以表征更豐富的行為，可以在狀態(tài)空間的不同部分學習不同的運動。然而，由于DS存在穩(wěn)定性的問題，常規(guī)的基于GMR、GPR(gaussian process regression)[24]以及LWR的回歸方法與DS結(jié)合也沒有實現(xiàn)在目標點上的穩(wěn)定收斂[25]。其往往是找到關(guān)于系統(tǒng)的一個局部最優(yōu)模型，此局部最優(yōu)模型的約束條件無法保證系統(tǒng)收斂到穩(wěn)定的目標點，仍然存在穩(wěn)定性差和泛化能力不足的問題。

針對以上問題，本文通過GMM將示教運動建模為非線性DS，附加約束條件以確保DS的全局漸近收斂，將動態(tài)系統(tǒng)模型的參數(shù)學習問題轉(zhuǎn)化為求解一個約束優(yōu)化問題，通過優(yōu)化問題的求解得到DS的參數(shù)，獲得關(guān)于示教運動的非線性DS模型，并將其作為控制策略應(yīng)用于機器人以實現(xiàn)對示教運動的模仿。通過將動態(tài)系統(tǒng)方法引入模仿學習，并考慮其在目標點處全局漸近收斂的約束條件，相對于基于軌跡匹配的機器人模仿學習方法，其除了具有較強的數(shù)據(jù)編碼能力和抗噪能力，而且可以保證生成的軌跡收斂到目標點，避免了先前方法穩(wěn)定性差的問題。同時，從未示教區(qū)域開始的再現(xiàn)運動軌跡也可以保證收斂到目標點，泛化能力將大大提高。以7bot機械臂為實驗對象，進行仿真實驗和機器人實驗研究，實驗結(jié)果表明：基于DS的模仿學習方法再現(xiàn)生成的模仿軌跡具有全局漸近收斂的特點，從不同起始位置開始的生成軌跡最終都可以到達目標點，學習得到的運動模型在穩(wěn)定性和泛化能力兩方面表現(xiàn)較好。

1 基于動態(tài)系統(tǒng)的示教運動建模

1.1 示教運動的表示及動態(tài)系統(tǒng)模型

在機器人模仿示教者示教運動的過程中，示教者通過直接或者間接的方式指導(dǎo)機器人手臂完成一次或多次的運動，機器人通過其內(nèi)部的關(guān)節(jié)傳感器或者位置傳感器，或者是外部傳感器，如：Kinect視覺傳感，來捕獲關(guān)于示教運動的相關(guān)信息。其中示教運動的軌跡信息可以表示為如下的集合形式

1.2 基于統(tǒng)計方法的高斯混合模型建模動態(tài)系統(tǒng)

為了得到動態(tài)系統(tǒng)具體的表達形式，考慮使用基于統(tǒng)計方法的GMM來建立對于DS的概率描述/估計。高斯混合模型是一種有限混合模型，其通過有限的高斯函數(shù)的混合來建立對示教運動數(shù)據(jù)的粗略的表示，同時消{除數(shù)}據(jù)的噪聲。給定一組次示教軌跡數(shù)據(jù)，GMM由以下概率密度函數(shù)表示

式(10)、(11)得到的動態(tài)系統(tǒng)表示為一組線性動態(tài)系統(tǒng)的非線性加權(quán)的形式，也即得到了關(guān)于示教運動的動態(tài)系統(tǒng)模型的具體表達形式。

2 動態(tài)系統(tǒng)全局穩(wěn)定的充分條件

由以上得到的動態(tài)系統(tǒng)模型，為了保證動態(tài)系統(tǒng)模型在示教的目標點具有全局收斂的特性以及提高其泛化能力，也即將在不同的初始點開始最終到達同一目標點的模仿學習任務(wù)轉(zhuǎn)化為具有全局收斂的學習任務(wù)，則需要考慮其穩(wěn)定性問題。對于由定義的動態(tài)系統(tǒng)，根據(jù)Lyapunov穩(wěn)定性理論：其在點處全局漸近穩(wěn)定的充分條件是存在一個連續(xù)可微的Lyapunov函數(shù)

為了得到式(10)中DS的穩(wěn)定條件，可以構(gòu)造如下的Lyapunov函數(shù)：

由式(12)、(13)可以求得保證DS全局穩(wěn)定的充分條件

將式(14)作為DS的約束條件，則DS滿足全局收斂的特性。同時，考慮高斯混合模型的性質(zhì)和式(14)的條件，其共同組成了具有全局漸進穩(wěn)定的動態(tài)系統(tǒng)的完整的約束條件。此后，需要求解動態(tài)系統(tǒng)模型的相應(yīng)參數(shù)，得到對于動態(tài)系統(tǒng)完整的描述。

3 動態(tài)系統(tǒng)參數(shù)學習

為了學習得到具有全局漸近穩(wěn)定的DS，需要對其參數(shù)進行求解。由以上可知DS的未知參數(shù)為。本文通過將動態(tài)系統(tǒng)參數(shù)學習的過程轉(zhuǎn)化為求解一個非線性優(yōu)化問題，在保證模型全局漸近穩(wěn)定的約束條件下求解優(yōu)化問題來計算的最優(yōu)值。使用對數(shù)似然函數(shù)作為優(yōu)化的目標函數(shù)

對于以上優(yōu)化問題，可以將其化為非線性規(guī)劃問題，借助于標準的優(yōu)化約束技術(shù)可以很好地解決，最終得到具有全局漸近穩(wěn)定的動態(tài)系統(tǒng)的最優(yōu)參數(shù)，實現(xiàn)對于動態(tài)系統(tǒng)的完整描述。

4 機器人模仿學習系統(tǒng)的設(shè)計

在以上內(nèi)容的基礎(chǔ)上，設(shè)計了基于DS的機器人模仿學習系統(tǒng)。所設(shè)計的機器人模仿學習系統(tǒng)工作流程如圖1所示。在機器人模仿學習系統(tǒng)中，本文主要集中在對示教過程和學習過程的研究。

圖1 模仿學習系統(tǒng)工作流程Fig. 1 Workflow of imitation learning system

對應(yīng)于模仿學習的3個基本的步驟，模仿學習系統(tǒng)工作流程，首先，對于某個固定的模仿任務(wù)(如：繪畫或書寫、拿放物品、籃球投籃等任務(wù))，通過手把手地抓取機器人手臂末端執(zhí)行器進行多次目標點相對固定的軌跡示教，獲得示教軌跡數(shù)據(jù)；然后，將獲得的示教軌跡數(shù)據(jù)預(yù)處理后送入學習算法學習關(guān)于動態(tài)系統(tǒng)模型的參數(shù)，得到動態(tài)系統(tǒng)模型。最后，將動態(tài)系統(tǒng)模型作為機器人的控制策略，設(shè)置機器人手臂初始的運動位置，結(jié)合機器人的控制系統(tǒng)完成對示教任務(wù)的模仿。

5 機器人模仿學習實驗研究

為了驗證基于動態(tài)系統(tǒng)的機器人模仿學習方法的有效性，在已設(shè)計的模仿學習系統(tǒng)的框架下進行仿真實驗和機器人實驗研究。

5.1 機器人平臺和示教數(shù)據(jù)的獲取

實驗中的機器人平臺是7bot機械臂，如圖2所示。7bot機械臂是一款桌面應(yīng)用級的機械臂，也是一款6軸的全金屬智能機械臂。借助于Processing和Arduino Due實現(xiàn)開發(fā)和控制，使用USB線與計算機之間完成數(shù)據(jù)通信，能夠?qū)崿F(xiàn)在三維空間的多種運動，使用方便靈活。

實際中，對于示教數(shù)據(jù)的獲取，是在機械臂的運動空間內(nèi)通過抓取7bot機械臂末端進行次運動軌跡示教。由機器臂自身攜帶的關(guān)節(jié)角度傳感器記錄運動軌跡信息。另外，也可以通過在仿真環(huán)境中拖動虛擬機械臂，進行示教并獲取示教數(shù)據(jù)。

具體地，實際中的示教數(shù)據(jù)是由上位機程序處理示教軌跡信息，得到關(guān)于(機械臂末端執(zhí)行)器在笛卡爾坐標系中的位置，即為示教數(shù)據(jù)。對應(yīng)于算法中的表述，經(jīng)過計算，對于示教數(shù)據(jù)有、。

圖2 7bot機械臂Fig. 2 7bot manipulator

而對于具體的運動軌跡的示教，模仿學習示教過程如圖3所示。示教者通過抓取機械臂末端進行運動示教，此運動可以是一個拿放物品的運動。圖中的幾個關(guān)鍵子過程可以說明整個示教過程是如何完成的，黑色的圓點代表示教運動的起始點，黑色的星形點代表示教運動的終點或目標點，實線代表已完成的示教運動過程，虛線代表未完成的示教運動過程。

圖3 模仿學習示教過程示意Fig. 3 Imitation learning demonstration process diagram

5.2 實驗步驟

本文在MATLAB環(huán)境中進行相關(guān)仿真實驗，為了簡化實驗操作的復(fù)雜性，主要在MATLAB環(huán)境中進行二維平面的模仿學習仿真實驗，具體步驟如下：

1)將實際采集的或在仿真環(huán)境中生成的多次示教運動軌跡信息在MATLAB中進行預(yù)處理并可視化，完成模仿學習的示教過程。

2)設(shè)置算法的相關(guān)初始值，將示教運動數(shù)據(jù)由GMM模型編碼為一動態(tài)系統(tǒng)模型。

3)通過求解帶有全局漸近穩(wěn)定性約束條件的動態(tài)系統(tǒng)相關(guān)參數(shù)集合，學習得到動態(tài)系統(tǒng)模型，完成模仿學習的學習過程。

4)由學習得到的動態(tài)系統(tǒng)模型生成新的模仿運動軌跡，并分析生成的運動軌跡的相關(guān)結(jié)果。

5)最后將學習得到的動態(tài)系統(tǒng)模型作為控制策略，結(jié)合機器人控制系統(tǒng)，完成對模仿學習過程中示教運動的模仿。

5.3 仿真實驗

本部分主要針對簡單示教運動和較復(fù)雜示教運動進行實驗仿真。通過將示教運動軌跡與提出的方法生成的軌跡相比較來驗證方法的有效性；并結(jié)合仿真環(huán)境中的兩連桿機械臂系統(tǒng)，展示最終的學習效果。其中，規(guī)定簡單示教運動是具有一定彎曲度的類直線運動。而較復(fù)雜示教運動相比于簡單示教運動其示教運動體現(xiàn)出更多的示教變化，如二次及以上的曲線形狀的運動、自相交運動或者它們的組合等。

模仿學習性能的量化指標可采用機械臂末端位置與目標點的距離、示教與再現(xiàn)運動的路徑模仿任務(wù)的時間與示教時間的差，以此來衡量。

5.3.1 簡單示教運動實驗

圖4給出了單次簡單示教的仿真結(jié)果。示教運動代表的任務(wù)類型可以是繪畫任務(wù)中的一筆或者是拿和放物品的運動等。圖4中，(a)為在MATLAB環(huán)境中簡單示教運動軌跡，起點是，目標點；(b)為使用文中的學習方法，模型生成的使機器人到達目標點的平滑軌跡流圖，可見所有生成軌跡均收斂到目標點；(c)、(d)中藍色虛線為在MATLAB中模擬的一個兩連桿機械臂系統(tǒng)，將學習得到的運動模型作為控制策略，從不同起點執(zhí)行模仿的結(jié)果，起點分別為、。最終，機械臂末端與目標點的距離分別為、。

在實際示教過程中，機器人可能需要多次示教。圖5分別為多次示教運動軌跡和經(jīng)算法學習后生成的平滑的軌跡流圖，可見生成的軌跡均收斂到示教運動的目標點。

圖4 單次簡單示教運動與仿真結(jié)果Fig. 4 Single simple demonstration motion and simulation results

圖5 多次簡單示教運動與仿真結(jié)果Fig. 5 Multiple simple demonstration motion and simulation results

由以上可知，學習得到的運動模型一方面具有很強的穩(wěn)定性，軌跡均收斂到同一個目標點。另一方面，由未示教區(qū)域開始的再現(xiàn)運動也可以在具有一定模仿相似性的前提下到達目標點附近，誤差較小，體現(xiàn)出模型具有較好的泛化能力。

5.3.2 較復(fù)雜示教運動實驗

對于較復(fù)雜的示教運動，相應(yīng)的仿真結(jié)果如圖6、7所示。其中圖6是對機器人進行單次示教后的實驗結(jié)果。單次示教的起點為，目標點為。通過算法學習后，模型生成的軌跡均收斂到目標點。類似地，分別從不同的起點和開始再現(xiàn)模仿，實驗結(jié)果如圖6(c)、(d)所示。機械臂末端與目標點的距離分別為、，誤差較小。

同樣地，在實際的機器人示教過程中，需要多次示教時，實驗結(jié)果如圖7所示。其中，經(jīng)過算法學習后，學習得到的運動模型生成的軌跡收斂到同一個目標點。

圖6 單次較復(fù)雜示教運動與仿真結(jié)果Fig. 6 Single more complex demonstration motion and simulation results

圖7 多次較復(fù)雜示教運動與仿真結(jié)果Fig. 7 Multiple more complex demonstration motion and simulation results

由此可知，學習得到的運動模型對于此類較復(fù)雜的示教運動也有不錯的學習效果，模型的穩(wěn)定性較好，未示教空間的泛化能力也較好。

5.4 機器人實驗

此部分結(jié)合實際的7bot機器人系統(tǒng)來驗證學習方法的有效性。

圖8、9分別展示了二維平面中單次示教時，機器人真實示教運動軌跡和經(jīng)算法學習后的學習效果。紅色虛線為示教軌跡，藍色實線為生成軌跡。由圖可知，所有生成軌跡最終都收斂到目標點，體現(xiàn)了運動模型具有全局漸進穩(wěn)定性的特點；但對于有交叉點的自相交運動，其在交叉點的學習效果并不明顯，忽略了部分的學習，學習效果有待提高。

圖8 二維真實示教運動與學習效果Fig. 8 Two-dimensional real demonstration motion and learning results

圖9 自相交運動與學習效果Fig. 9 Self-intersection motion and learning results

圖10 、11展示了通過7bot機械臂系統(tǒng)對示教運動進行模仿的結(jié)果。將學習得到的運動模型作為控制策略，設(shè)定機器人的初始位置，由機器人系統(tǒng)進行模仿實現(xiàn)。實驗結(jié)果顯示其成功實現(xiàn)了對運動的模仿，到達目標點附近。

圖10 機械臂模仿的結(jié)果Fig. 10 Results of the imitation of a manipulator

圖11 機械臂對于自相交運動的模仿結(jié)果Fig. 11 Results of the imitation of a manipulator for selfintersection motion

同樣，圖12中分別為在三維空間中的示教及學習效果?？梢钥闯鰪钠鹗键c開始的三條生成軌跡均收斂到目標點，表明運動模型的穩(wěn)定性很好。圖13是7bot機械臂對示教運動進行模仿的結(jié)果，可見其也很好地完成了對示教運動的模仿，到達目標點附近。

表1給出了機器人實驗中機器人模仿性能的量化結(jié)果。可以看出運動模仿結(jié)束后，機械臂末端距離目標點較近，誤差較??；示教時間和模仿時間相差不大；但是在自相交運動上軌跡長度之差比較大。

圖12 三維真實示教運動與學習效果Fig. 12 Three-dimensional real demonstration motion and learning results

圖13 機械臂對于三維運動的模擬結(jié)果Fig. 13 Results of the imitation of a manipulator for threedimensional motion

表1 機器人模仿性能的量化結(jié)果Table 1 Quantitative results of robot imitative performance

綜上實驗結(jié)果，基于DS的模仿學習方法在簡單示教運動、較復(fù)雜示教運動以及真實示教運動的學習上，通過附加穩(wěn)定性約束條件的方法，再現(xiàn)的生成軌跡均收斂到目標點，一方面使運動模型的穩(wěn)定性更強；另一方面，使運動模型具有較好的泛化能力。

6 結(jié)束語

本文針對當前機器人模仿學習過程中，運動模仿穩(wěn)定性差，泛化能力不足，引入了一種基于動態(tài)系統(tǒng)的模仿學習方法來解決以上問題。首先，通過使用高斯混合模型將示教運動建模為一動態(tài)系統(tǒng)；然后，考慮穩(wěn)定性問題，基于Lyapunov穩(wěn)定性理論，給出動態(tài)系統(tǒng)全局漸近穩(wěn)定的充分條件；最后，建立一個包含多約束的非線性優(yōu)化問題，迭代求解以得到最優(yōu)參數(shù)，進而得到動態(tài)系統(tǒng)模型，并作為機器人的控制策略實現(xiàn)對示教運動的模仿。從實驗中可以得到以下結(jié)論：

1)文中提出的模仿學習方法在簡單示教運動和較復(fù)雜的示教運動的仿真實驗中，學習得到的運動模型從示教起始點生成的軌跡均能夠到目標點，軌跡平滑，穩(wěn)定性好。

2)將示教運動建模為動態(tài)系統(tǒng)，通過附加穩(wěn)定性約束條件，保證了學習得到的運動模型生成的軌跡都收斂到目標點。

3)文中的方法可以實現(xiàn)從單一到多次示教運動的學習，對于未被示教的狀態(tài)空間其模型也可以生成平滑的軌跡收斂到目標點，具有較強的泛化能力。

4)存在的問題是對于復(fù)雜的自相交的示教運動，模型忽略了運動的關(guān)鍵信息，運動再現(xiàn)相似度將會稍差。同時，在其他機器人系統(tǒng)上的應(yīng)用還有待進一步驗證。對于非精密要求場合、目的為導(dǎo)向的機器人工作場合，此方法的通用性和穩(wěn)定性具有較大優(yōu)勢。

在未來，可以結(jié)合具有高精度控制的機器人來實現(xiàn)實時調(diào)整再現(xiàn)軌跡提高模仿的相似性；同時，可以通過提高系統(tǒng)的階次來學習復(fù)雜的自相交運動；另外，結(jié)合快速控制技術(shù)可以將其擴展到快速捕獲運動目標的領(lǐng)域。