張文奇,陳 萌,谷程鵬
(上海宇航系統(tǒng)工程研究所,上海 201109)
隨著人類太空活動的不斷增多,在軌服務(wù)技術(shù)受到越來越多的重視,已經(jīng)成為空間技術(shù)發(fā)展的一個新熱點(diǎn)。在軌服務(wù)主要包括在軌維修、在軌加注、在軌試驗(yàn)、輔助空間站組裝、軌道垃圾清理等方面[1]。傳統(tǒng)在軌服務(wù)中,宇航員是完成相關(guān)復(fù)雜任務(wù)的主要執(zhí)行者,太空中極度惡劣的環(huán)境會對宇航員的生命安全造成了嚴(yán)重威脅。在輔助變軌、軌道垃圾清理、失控衛(wèi)星救助等方面,空間機(jī)器人擁有獨(dú)特優(yōu)勢,因此成為幫助或取代宇航員的最佳選擇,各航天大國相繼開展空間機(jī)器人的研究[2]。無人空間機(jī)器人是解決這些問題的關(guān)鍵技術(shù)之一[3]。由于故障航天器一般不具備專門的合作機(jī)構(gòu),往往處于自旋或翻滾狀態(tài),針對此類非合作目標(biāo)的交會對接/捕獲技術(shù)是未來自主在軌服務(wù)發(fā)展的重要方向[4]。
機(jī)器學(xué)習(xí)就是研究如何使機(jī)器通過識別和利用現(xiàn)有知識來獲取新知識和新技能。目前,機(jī)器學(xué)習(xí)算法可以分成三類:監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)[5]。強(qiáng)化學(xué)習(xí)方法更注重機(jī)器人對環(huán)境和行為的適應(yīng)性,而不依賴于完善的先驗(yàn)知識環(huán)境。將機(jī)器人置于完全未知環(huán)境中,機(jī)器人會自動通過自身的傳感器來獲取外部環(huán)境狀態(tài),最后通過試錯的方式積累與外界環(huán)境的交互經(jīng)驗(yàn),不斷完善學(xué)習(xí)過程,最終完成改善自身的行為能力和對環(huán)境的適應(yīng)能力。
1991年,MAHADEVAN和CONNELL將強(qiáng)化學(xué)習(xí)算法的應(yīng)用領(lǐng)域拓寬,采用強(qiáng)化學(xué)習(xí)算法使“OBELIX”機(jī)器人學(xué)習(xí)推箱子的行為[6]。在此基礎(chǔ)上,為了減少傳感器信息的不確定性,HOAR等重新設(shè)計了強(qiáng)化算法中的函數(shù)變量,同時將學(xué)習(xí)應(yīng)用到指定行為學(xué)習(xí)中[7],并得到了很好的學(xué)習(xí)效果。
1992年 TAKEDA等提出另一種重要的強(qiáng)化學(xué)習(xí)算法(Q-Learning算法),對一定條件下Q-Learnin算法的收斂性進(jìn)行了驗(yàn)證[8]。它的提出成為強(qiáng)化學(xué)習(xí)的里程碑。
NIV等人研究了多種強(qiáng)化學(xué)習(xí)算法,討論了幾種基于模型的強(qiáng)化學(xué)習(xí)算法。根據(jù)不同的模型結(jié)構(gòu),將智能機(jī)器人需要完成的任務(wù)化分成兩個子任務(wù),然后通過強(qiáng)化學(xué)習(xí)方法分別設(shè)計每個子任務(wù)的控制器,通過不同的控制器得到機(jī)器人完成任務(wù)的行動軌跡[9]。
隨著智能理論和算法的日漸成熟,Q-Learning模型被應(yīng)用到人工智能機(jī)器學(xué)習(xí)和自動控制等多種領(lǐng)域,成為設(shè)計智能的核心技術(shù)[10-11]。Q-Learning模型來源于生物研究,近年來也逐漸應(yīng)用于生物研究。2008年MA等將Q-Learning模型引入強(qiáng)化學(xué)習(xí)模型中[12],2014年LABER等將Q-Learning模型引入抑郁癥的最佳治療方案制定中[13]。
目前,強(qiáng)化學(xué)習(xí)算法尚未應(yīng)用于基于多指柔性機(jī)構(gòu)的抓捕領(lǐng)域,并且針對功能復(fù)合材料為基底的柔性機(jī)構(gòu)的抓捕特征,強(qiáng)化學(xué)習(xí)模型尚缺乏理論分析,因此如何選擇合適的強(qiáng)化學(xué)習(xí)算法,是利用強(qiáng)化學(xué)習(xí)算法確定物體抓捕過程本質(zhì)特征的關(guān)鍵。
強(qiáng)化學(xué)習(xí)算法是智能系統(tǒng)通過感知外界環(huán)境狀態(tài)信息,利用獲取的信息來學(xué)習(xí)動態(tài)系統(tǒng)的最優(yōu)策略,它是機(jī)器人領(lǐng)域的一種重要的學(xué)習(xí)方法[14]。強(qiáng)化學(xué)習(xí)是一種實(shí)時的、在線的學(xué)習(xí)方法,它通過反復(fù)試錯的學(xué)習(xí)方法來實(shí)現(xiàn)學(xué)習(xí)的整個過程;強(qiáng)化學(xué)習(xí)在訓(xùn)練過程中不斷地獲得先驗(yàn)知識,通過這些知識來改變行動策略,實(shí)現(xiàn)到達(dá)目標(biāo)的目的。強(qiáng)化學(xué)習(xí)狀態(tài)一動作的映射過程如圖1所示,Agent通過傳感器感知到當(dāng)前環(huán)境狀態(tài)T(環(huán)境狀態(tài))下的狀態(tài),并得到了一個相應(yīng)的回報值r,然后Agent通過分析當(dāng)前狀態(tài)下的回報做出行為動作A,在到達(dá)下一位置時系統(tǒng)又將得到一個狀態(tài)信息,它將繼續(xù)通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)整個學(xué)習(xí)過程,如圖2所示。
圖1 強(qiáng)化學(xué)習(xí)算法結(jié)構(gòu)圖Fig.1 Structure diagram of reinforcement learning algorithm
在研究基于多模態(tài)信息的跨模態(tài)融合學(xué)習(xí)算法時,由于IPMC材料存在時間較長會發(fā)生性能衰退的特性,因此通過試驗(yàn)所測得的數(shù)據(jù)量有限,無法進(jìn)行大樣本數(shù)據(jù)庫的建立,因此綜合各方面因素,采用強(qiáng)化學(xué)習(xí)的方法,從而達(dá)到降低樣本數(shù)量的要求,同時也滿足材料不易多次進(jìn)行反復(fù)試驗(yàn)的特點(diǎn)。本文將Q-Learning算法結(jié)合IPMC采集得到的數(shù)據(jù)進(jìn)行結(jié)合,通過對Q-Learning的獎懲函數(shù)進(jìn)行多次學(xué)習(xí)迭代,從而得到最終的獎勵函數(shù)矩陣。利用該矩陣進(jìn)行最終的學(xué)習(xí)選擇,從而使得基于IPMC人工肌肉的軟體抓捕機(jī)構(gòu)達(dá)到柔性抓捕的智能化水平。
在進(jìn)行強(qiáng)化學(xué)習(xí)算法之前,需要對一定訓(xùn)練樣本進(jìn)行初步學(xué)習(xí),從而得到針對不同種類物體實(shí)施抓取的最優(yōu)動作,然后對不同物體的抓取結(jié)果進(jìn)行獎勵值的設(shè)定,具體流程如圖3所示。
圖2 學(xué)習(xí)過程結(jié)構(gòu)圖Fig.2 Structure diagram of reinforcement learning process
圖3 獎懲矩陣建立過程Fig.3 Reward and punishment matrix establishment process
1)樣本設(shè)計
首先,制作8個不同形狀的樣本(被測對象),測試IPMC在不同爪數(shù)和電壓條件下對樣本的抓取情況。樣本如圖4所示。
2)抓取模型設(shè)計
抓取模型如圖5所示,左圖中的兩個紅色虛線圓圈區(qū)域表示相對應(yīng)的兩指,而三個藍(lán)色虛線圓圈區(qū)域代表了相應(yīng)的三指,正如右圖中紅色線對應(yīng)的是兩指結(jié)構(gòu),白色線對應(yīng)的是三指結(jié)構(gòu)。整個抓取機(jī)構(gòu)由機(jī)械臂、IPMC抓取結(jié)構(gòu)、計算機(jī)(控制部分)組成。
通過試驗(yàn)調(diào)研,不同的電壓信號以及不同的手指指數(shù)對試驗(yàn)的結(jié)果有較大影響。通過對IPMC人工肌肉的軟體抓捕機(jī)構(gòu)(IPMC搭載在機(jī)械臂上面)進(jìn)行抓捕試驗(yàn),同時對試驗(yàn)現(xiàn)象進(jìn)行總結(jié)并整理得到如表1、表2的數(shù)據(jù)。表中,√ 表示成功抓取樣本,× 表示未能抓取樣本。
圖4 抓取樣本Fig.4 Grip samples
圖5 抓取器模型Fig.5 Gripper model
表1 4種電壓信號下的抓取結(jié)果
表2 不同電壓下的抓取結(jié)果
圖6 抓取器抓取物體時的電流變化Fig.6 The change in current as the crawler grips the object
低電壓(2.5 V)時IPMC的輸出力相對較小,發(fā)生彎曲(達(dá)到彎曲峰值)所需的時間較長。通過樣本試驗(yàn)總結(jié),得到如表1的結(jié)果。隨著工作時間的延長IPMC的工作電流逐漸減小,如圖6所示。本文所測的電流是剛好抓起物體時的電流。
抓取失敗樣例:試驗(yàn)抓取塑料杯。當(dāng)試驗(yàn)所給電壓為2.0 V,指數(shù)為兩指時,試驗(yàn)現(xiàn)象如圖7所示。
圖7 塑料杯抓取試驗(yàn)Fig.7 Grip experiment for plastic cup
從試驗(yàn)過程可以明顯看到,在該條件下并不能成功抓取塑料杯,塑料杯并未有明顯豎直方向上的位移。
抓取成功試驗(yàn)樣例:試驗(yàn)抓取乒乓球。在3.0 V電壓、兩指的條件下,試驗(yàn)現(xiàn)象如圖8所示。
圖8 乒乓球抓取試驗(yàn)Fig.8 Grip experiment for table tennis
通過試驗(yàn)現(xiàn)象可以看出,乒乓球在該條件下被成功抓取,乒乓球在抓取過程中在豎直方向上有明顯的位移。因此在樣本有限的前提下,可以借助強(qiáng)化學(xué)習(xí)的算法進(jìn)行IPMC手指的訓(xùn)練及學(xué)習(xí)。
Q-Learning學(xué)習(xí)中的術(shù)語包括狀態(tài)(state)和動作(action)。在整個試驗(yàn)過程中,可以將兩指、三指和四種電壓信號2.0 V、2.5 V、3.0 V、3.5 V進(jìn)行排列組合,從而得到八種組合,這八種組合對應(yīng)八種不同的動作,不同動作會得到不同的結(jié)果。通過前期的試驗(yàn)總結(jié)將最終結(jié)果分為四種狀態(tài),分別為抓取成功同時消耗的功率最少、抓取成功同時消耗功率中等、抓取成功同時消耗功率最大以及抓取失敗。為方便描述,在后續(xù)的試驗(yàn)結(jié)果中分別記為抓取成功1、抓取成功2、抓取成功3及抓取失敗。
試驗(yàn)針對小樣本訓(xùn)練時,選擇樣本為n=8、動作m=8,進(jìn)行電壓、電流數(shù)據(jù)采集,見表2。對于不同的物體,在抓取過程中獲得的電壓電流值也是不同的,因此,對于小樣本物體進(jìn)行抓取時,可以通過所對應(yīng)的電壓電流數(shù)值來進(jìn)行匹配;對于試驗(yàn)過程中的獎懲值賦值,可以根據(jù)P=UI來進(jìn)行賦值。在試驗(yàn)過程中電流會有一定的波動,選擇以電流值的±10%為準(zhǔn),一旦所抓取的陌生物體的功率值在這個區(qū)間內(nèi)時,就可以執(zhí)行該動作進(jìn)行抓??;進(jìn)行大樣本測試時,不論是抽取取樣測試,還是針對未知物體進(jìn)行取樣測試,同時電壓以及電流值會有多個,從而產(chǎn)生多個動作值,因此假設(shè):1)N個樣本(N≥1 000,10 000,…);2)M個動作(M≥100,1 000,…)。
此時,采用小樣本強(qiáng)化學(xué)習(xí)的結(jié)論來對大樣本來進(jìn)行訓(xùn)練研究。首先隨機(jī)選擇動作來執(zhí)行,針對執(zhí)行動作獲得的功率結(jié)果,依據(jù)小樣本初始矩陣進(jìn)行重新獎懲值賦值,然后在反復(fù)迭代的同時,在訓(xùn)練過程中改變訓(xùn)練次數(shù)(10,20,30),直至收斂,得到新的獎懲矩陣,依據(jù)訓(xùn)練得到的最終獎懲矩陣,找出最優(yōu)的抓取動作,如圖9所示。針對陌生物體進(jìn)行抓取學(xué)習(xí)如圖10所示。
圖9 不同功率對應(yīng)的獎懲值Fig.9 Rewards and punishments corresponding to different powers
圖10 針對陌生物體進(jìn)行抓取學(xué)習(xí)Fig.10 Grip learning for unfamiliar objects
在這個試驗(yàn)中,無論從哪個動作開始,以IPMC能夠快速準(zhǔn)確地抓取樣本作為目標(biāo)的最終結(jié)束,將每個動作設(shè)為一個節(jié)點(diǎn),同時對于每個節(jié)點(diǎn)進(jìn)行獎懲值的賦值,對于不同的狀態(tài)賦予不同的獎懲值,對于抓取成功3狀態(tài)將獎勵值賦值為0,抓取成功2獎勵值賦值為5,當(dāng)節(jié)點(diǎn)能夠快速且準(zhǔn)確抓取樣本的時候(抓取成功1),將獎勵值賦值為100,將抓取失敗獎勵值賦值為-1,這樣可以加快學(xué)習(xí)的效率。
Q-Learning算法流程如下:
步驟1:初始化Q值。構(gòu)造了一個4列(狀態(tài)數(shù))、8行(動作數(shù))的Q-table,并將其中的值初始化為0。
步驟2:在整個訓(xùn)練周期中(或者直到訓(xùn)練被中止前),步驟3到步驟5會一直被重復(fù),直到達(dá)到了最大的訓(xùn)練次數(shù)(由用戶指定)或者手動中止訓(xùn)練。
步驟3:選取一個動作。在基于當(dāng)前的Q值估計得出的狀態(tài)s下選擇一個動作a。在一開始,使用epsilon貪婪來進(jìn)行動作的選擇,指定一個探索速率epsilon,設(shè)定初始值為1,即為隨機(jī)采用的步長。在一開始,這個速率應(yīng)該處于最大值,因?yàn)椴恢繯-table中任何的值。這意味著,需要通過隨機(jī)選擇動作進(jìn)行大量的探索,生成一個隨機(jī)數(shù)。如果這個數(shù)大于epsilon,將會進(jìn)行獎懲值的對應(yīng)選擇賦值。否則,將繼續(xù)進(jìn)行探索。
步驟4-5:評價采用動作a,并且觀察輸出的狀態(tài)s′和獎勵r,然后更新函數(shù)Q(s,a)。采用在步驟3中選擇的動作a,執(zhí)行這個動作會返回一個新的狀態(tài)s′和獎勵r,接著使用Bellman方程去更新Q(s,a),有
NewQ(s,a)=Q(s,a)+α[R(s,a)+
γmaxQ′(s′,a′)-Q(s,a)]
(1)
智能體利用上述的算法從經(jīng)驗(yàn)中學(xué)習(xí),每一次經(jīng)歷等價于一次訓(xùn)練。在每一次訓(xùn)練中,智能體對環(huán)境進(jìn)行探索(用獎懲矩陣R表示),并且其一旦到達(dá)抓取狀態(tài),就得到獎勵值。訓(xùn)練的目的是增強(qiáng)智能體的大腦,用矩陣Q表示。越多的訓(xùn)練結(jié)果將得到更優(yōu)的矩陣Q。在這種情況下,如果矩陣Q就被增強(qiáng),那么智能體就不會四處盲目地探索,而是會找到最快的路線到達(dá)目標(biāo)狀態(tài)。
如果智能體通過多次的經(jīng)歷學(xué)到了更多的知識,Q矩陣中的值會達(dá)到收斂狀態(tài)。一旦矩陣Q接近于收斂狀態(tài),就知道智能體已經(jīng)學(xué)習(xí)到了到達(dá)目標(biāo)狀態(tài),最終會形成一個新的獎懲矩陣。為了更加形象地描述該抓取動作是在逐漸收斂的狀態(tài),分別取訓(xùn)練20次、30次、40次、50次時的獎懲矩陣,如圖11所示(0-7對應(yīng)八種不同動作,a、b、c、d依次對應(yīng)抓取失敗、抓取成功1、抓取成功2、抓取成功3),訓(xùn)練收斂以及準(zhǔn)確率如圖12所示。
圖11 最終Q獎懲矩陣Fig.11 Q reward and punishment matrix
圖12 強(qiáng)化學(xué)習(xí)訓(xùn)練收斂以及準(zhǔn)確率Fig.12 Reinforcement learning and training convergence and accuracy
通過Q獎懲矩陣我們可以得出,當(dāng)IPMC面對不同樣本時,可以選擇最優(yōu)的動作進(jìn)行執(zhí)行,從而完成一系列的學(xué)習(xí)過程。結(jié)合圖9的功率值來進(jìn)行獎懲值的賦值迭代,借助最終Q獎懲矩陣,可以選擇相對動作的最優(yōu)解。當(dāng)環(huán)境改變時也可以借助該算法進(jìn)行學(xué)習(xí),從而獲得最優(yōu)解。雖然環(huán)境改變了,但學(xué)習(xí)的方法是不變的,同樣可以利用該訓(xùn)練迭代方式進(jìn)行得到最終的Q獎懲矩陣,不同的環(huán)境所對應(yīng)的最終Q獎懲矩陣是不同的,從而進(jìn)行相應(yīng)的最優(yōu)解的選擇,可進(jìn)行以下試驗(yàn)進(jìn)行試驗(yàn)驗(yàn)證。
當(dāng)隨機(jī)選擇抓取對象為塑料杯時,根據(jù)最終Q獎懲矩陣,應(yīng)當(dāng)選取電流為3.0 V、指數(shù)為三指的動作執(zhí)行,試驗(yàn)效果如圖13所示。
圖13 抓取塑料杯試驗(yàn)成功Fig.13 Successful grip of the plastic cup
當(dāng)抓取對象為陌生物體時,需要進(jìn)行數(shù)據(jù)采集,根據(jù)已有的數(shù)據(jù)進(jìn)行訓(xùn)練。當(dāng)抓取對象為不規(guī)則陌生物體時,通過不斷地嘗試試驗(yàn)以及強(qiáng)化學(xué)習(xí)算法的迭代計算,借助最終Q矩陣可以得出,應(yīng)當(dāng)選取電流為3.5 V、指數(shù)為三指的動作執(zhí)行,試驗(yàn)效果如圖14所示。
圖14 抓取不規(guī)則體試驗(yàn)成功Fig.14 Successful grip of the irregular body
在上述試驗(yàn)及算法驗(yàn)證過程中,發(fā)現(xiàn)通過強(qiáng)化學(xué)習(xí)算法迭代出來的結(jié)果,有時并不是試驗(yàn)得到的最優(yōu)解,但是可以看到,在動作2以及動作6所對應(yīng)的狀態(tài)是相似的,結(jié)果都是可以抓取的,同時在最終的Q獎懲矩陣中,每個動作對應(yīng)的獎勵值范圍沒有發(fā)生錯誤,因此在環(huán)境局限因素的影響下,該結(jié)果依然在誤差允許的范圍內(nèi)。
綜上,建立基于IPMC功能材料的多自由度軟體機(jī)構(gòu),解決制約在軌抓捕技術(shù)發(fā)展的難題,實(shí)現(xiàn)空間抓捕過程的智能化,推動空間抓捕技術(shù)的跨越式發(fā)展。通過試驗(yàn)證明,最終學(xué)習(xí)結(jié)果是成功且有效的。當(dāng)面對抓取物體為已有訓(xùn)練樣本中的物體時,可以結(jié)合表1來進(jìn)行動作選擇;當(dāng)面對陌生樣本物體時,借鑒已有的小樣本訓(xùn)練結(jié)果,再結(jié)合表2以及圖9進(jìn)行綜合選擇和獎懲值賦值,采用小樣本強(qiáng)化學(xué)習(xí)的結(jié)論對大樣本來進(jìn)行訓(xùn)練研究,首先隨機(jī)選擇動作來執(zhí)行,針對執(zhí)行動作獲得的功率結(jié)果,將該結(jié)果依據(jù)小樣本初始矩陣進(jìn)行重新獎懲值賦值,然后在反復(fù)迭代的同時,在訓(xùn)練過程中改變訓(xùn)練次數(shù)(10,20,30),直至收斂,得到新的獎懲矩陣,依據(jù)訓(xùn)練得到的最終Q獎懲矩陣,找出最優(yōu)的抓取動作。通過初步嘗試,可以高效實(shí)現(xiàn)對有限樣本數(shù)據(jù)的訓(xùn)練以及學(xué)習(xí)。當(dāng)以后面對大量樣本學(xué)習(xí)的時候可以進(jìn)行下一步的改進(jìn),結(jié)合卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對數(shù)據(jù)樣本的處理與分析,可彌補(bǔ)Q-Learning本身存在的數(shù)據(jù)存儲量少、空間不足的特點(diǎn),同時也可將reward值以及action進(jìn)行細(xì)分,從而使得結(jié)果更加精確且有效,同時,當(dāng)機(jī)構(gòu)變化參數(shù)更多的時候更加適合該強(qiáng)化學(xué)習(xí)模型,可變參數(shù)越多也意味著得到的結(jié)果更加復(fù)雜以及精確度會更高。卷積神經(jīng)網(wǎng)絡(luò)本身的優(yōu)勢就是可以對大量高維樣本進(jìn)行訓(xùn)練,從而起到節(jié)省空間的作用,與強(qiáng)化學(xué)習(xí)的結(jié)合,可實(shí)現(xiàn)對更加復(fù)雜環(huán)境以及大量樣本數(shù)據(jù)的訓(xùn)練以及學(xué)習(xí)。