亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于學(xué)習(xí)的空間機(jī)器人在軌服務(wù)操作技術(shù)*

        2019-09-16 09:19:22解永春李林峰
        關(guān)鍵詞:服務(wù)方法

        解永春,王 勇,2,陳 奧,李林峰

        0 引 言

        1957年10月,前蘇聯(lián)發(fā)射了第一顆人造地球衛(wèi)星“Sputnik-1”,自此開啟了人類的航天時代[1].早期的航天器結(jié)構(gòu)簡單、功能單一、按預(yù)定程序執(zhí)行任務(wù),隨著人們對航天活動的功能、效益定義范圍的日趨擴(kuò)大,對包括空間操作(space operation, SO)在內(nèi)的航天技術(shù)提出了越來越高的要求.

        空間操作是指航天器為完成空間規(guī)定動作或任務(wù)而從事的在軌活動,包括在軌服務(wù)(on-orbit servicing, OOS)、空間攔截、空間規(guī)避等[2],是一種任務(wù)主導(dǎo)的在軌活動.航天器在軌服務(wù)是眾多空間操作中最具有研究價值的方向之一,它是指在空間通過人、機(jī)器人或兩者協(xié)同完成涉及延長各種航天器壽命、提升執(zhí)行任務(wù)能力、降低費(fèi)用和風(fēng)險的一類空間操作.在軌服務(wù)涉及到許多與任務(wù)相關(guān)的操作,種類龐雜,對在軌服務(wù)的任務(wù)進(jìn)行分析和劃分,可將在軌服務(wù)分為在軌裝配、在軌維護(hù)和后勤支持這三類[3].在軌裝配包括航天器級的組裝、零部件組裝和在軌制造等幾個層級,對于大型機(jī)構(gòu)的在軌應(yīng)用具有重要意義;在軌維護(hù)包括預(yù)防性維護(hù)、糾正性維護(hù)和升級性維護(hù)等,對于在軌排故和模塊的增加與更換很重要;后勤支持包括消耗品的更換、氣液加注、軌道清理、軌道轉(zhuǎn)移和在軌發(fā)射等,為空間系統(tǒng)正常運(yùn)行和能力擴(kuò)展所需的后勤和補(bǔ)給提供支持和保障.

        不論是哪種在軌服務(wù),最終都是要落實(shí)到具體的技術(shù)上才可以實(shí)現(xiàn),即在軌服務(wù)是通過服務(wù)航天器按照計劃方案采用一定的服務(wù)操作手段來實(shí)施的,這種手段就是在軌服務(wù)操作[3].在軌服務(wù)操作涉及遠(yuǎn)距離交會/對接(rendezvous and docking, RVD)技術(shù)、消旋/捕獲技術(shù)、組合體控制技術(shù)、服務(wù)操作技術(shù)等關(guān)鍵技術(shù).交會對接包含兩個或兩個以上的飛行器在軌道上按預(yù)定位置和時間相會的過程和隨后的在機(jī)械結(jié)構(gòu)上連成一個整體的對接過程[4],RVD是實(shí)現(xiàn)其他在軌服務(wù)操作的基礎(chǔ)和上游技術(shù),我國已掌握快速自主交會對接技術(shù)[5].按照是否有人直接參與,在軌服務(wù)操作可分為由航天員主導(dǎo)或航天員直接參與的有人在軌服務(wù)操作和無人現(xiàn)場參與的在軌服務(wù)操作[3].早期航天員對哈勃望遠(yuǎn)鏡[6]、國際通信衛(wèi)星6號[3]及空間站的維修[7-8]均屬于有人在軌服務(wù)操作,隨著任務(wù)難度的增大,逐漸發(fā)展出以遙操作[9]、人員監(jiān)控下自主服務(wù)操作和完全自主服務(wù)操作等為代表的自主程度逐漸遞增的在軌服務(wù).在完全自主在軌服務(wù)中,航天器在人工智能(artificial intelligence, AI)的支持管理下,不依賴地面測控,僅依靠自身敏感器和控制裝置就能自主的完成相關(guān)操作,具有更高的靈活性,是未來的發(fā)展趨勢.人工智能是研發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新學(xué)科[10],其主流方法包括以符號主義人工智能(symbolic AI)為核心的邏輯推理和以數(shù)據(jù)驅(qū)動(data-driven)為核心的機(jī)器學(xué)習(xí).后者通過不斷地訓(xùn)練和自我學(xué)習(xí),可以構(gòu)建出復(fù)雜的映射模型,將其用于在軌服務(wù)操作中,能夠?qū)崿F(xiàn)完全自主的復(fù)雜操作,彌補(bǔ)傳統(tǒng)控制方法的不足.

        為便于理解,將上文提到的空間操作、在軌服務(wù)、在軌服務(wù)操作及相關(guān)的分類在圖1中進(jìn)行表示.

        本文研究的是在空間交會對接基礎(chǔ)上,即在對接之后的、完全自主的、基于學(xué)習(xí)的空間機(jī)器人在軌服務(wù)操作技術(shù).

        圖1 主要概念關(guān)系圖Fig.1 Relationship of key conceptions

        1 基于空間機(jī)器人的在軌服務(wù)操作技術(shù)研究現(xiàn)狀

        1.1 近年來國外在軌服務(wù)操作主要研究計劃

        在過去的50多年里,圍繞在軌服務(wù)操作,世界各航天大國陸續(xù)進(jìn)行了一系列探索性嘗試.

        在航天活動初期,受各項技術(shù)的制約,在軌服務(wù)操作大多都是以有人直接參與為主,且任務(wù)單一,多停留在在軌維護(hù)任務(wù)上,例如,1984年,美國航天員對航天峰年任務(wù)衛(wèi)星進(jìn)行在軌維修[3];1992年,奮進(jìn)號航天飛機(jī)航天員對國際通信衛(wèi)星6號進(jìn)行在軌維修[3];2002年,航天員為哈勃望遠(yuǎn)鏡更換太陽能電池陣[6];2008年,航天員對國際空間進(jìn)行在軌維修[8].

        隨著航天技術(shù)的發(fā)展和對航天任務(wù)需求的提升,近20年以來,國外逐漸將研究重點(diǎn)轉(zhuǎn)向多任務(wù)自主在軌服務(wù)操作中,以取代航天員出艙活動,降低其工作風(fēng)險,提高操作的靈活性,擴(kuò)展應(yīng)用空間.代表性的計劃項目有軌道快車(Orbital Express, OE)[11],“鳳凰(Phoenix)”計劃[12],“蜘蛛制造(SpiderFab)”計劃[13],“建筑師(Archinaut)”計劃[14-15],“地球同步軌道衛(wèi)星機(jī)器人服務(wù)(Robotic Servicing of Geosynchronous Satellites, RSGS)”[16],“機(jī)器人組裝模塊化空間望遠(yuǎn)鏡(robotically assembled modular space telescope, RAMST)[17]等,表1對這些項目包括研究機(jī)構(gòu)、主要任務(wù)、時間節(jié)點(diǎn)、自主性及任務(wù)所屬種類等在內(nèi)的內(nèi)容進(jìn)行總結(jié)歸納.

        限于表格篇幅,無法對各項計劃的自主性展開說明,而理解這些計劃中操作的自主性程度及趨勢是很有指導(dǎo)意義的.在OE任務(wù)中,在軌實(shí)驗(yàn)分別在三個自主操作層級下(遙操作、人員監(jiān)控下自主和全自主),對上述兩項在軌服務(wù)操作進(jìn)行了成功驗(yàn)證,標(biāo)志著自主在軌服務(wù)已經(jīng)突破了主要的關(guān)鍵技術(shù);在Phoenix計劃中,在“非事先設(shè)計”的場景下采用人員遙操作,以確保其安全性,在“事先設(shè)計”的場景下的接觸操作及精細(xì)對準(zhǔn)操作在人員監(jiān)控下自主運(yùn)行,僅需人給出進(jìn)行或停止指令,而在嚴(yán)格時序的操作下采取完全自主服務(wù)方式,由星載軟件給出進(jìn)行或停止指令;在SpiderFab計劃中,采用7自由度的KRAKEN機(jī)械臂來實(shí)現(xiàn)人員遙操作方式及全自主模式下的裝配工作;在Archinaut計劃中, 驗(yàn)證無航天員出艙活動的情況下,國際空間站的自主制造組裝技術(shù),未來將用于大型空間望遠(yuǎn)鏡的在軌組裝、航天器的維修、結(jié)構(gòu)擴(kuò)展、無人參與的新空間站的組裝等;在RSGS項目中,研究了配備于機(jī)器人服務(wù)航天器(Robotic Servicing Vehicle, RSV)上靈巧機(jī)械臂FREND在三個自主層級下的在軌檢查、維修、故障重定位和升級等多項功能;RAMST計劃在地球軌道上進(jìn)行人員監(jiān)控下或全自主的包括桁架模塊、鏡片模塊等在內(nèi)的在軌裝配.

        從上述研究計劃可以看出,操作任務(wù)由簡單的模塊更換等發(fā)展為更加精細(xì)、復(fù)雜的在軌裝配;任務(wù)環(huán)境也逐步由確定性的“事先設(shè)計”發(fā)展到具備一定不確定性的“非事先設(shè)計”;自主性逐漸由有人參與轉(zhuǎn)向無人操作[18-19],對機(jī)械臂的操縱也將由遙操作轉(zhuǎn)變?yōu)榭臻g全自主.這些轉(zhuǎn)變將為航天器在空間更久地生存、更好地發(fā)揮功能、更順利地完成使命提供保障,將提高航天活動的安全性和效益[20].

        1.2 在軌服務(wù)自主操作關(guān)鍵技術(shù)發(fā)展趨勢

        2013年,美國國家航空航天局(NASA)制定了《機(jī)器人、遙機(jī)器人 和自主系統(tǒng)發(fā)展路線圖》,對機(jī)器人在空間探索領(lǐng)域的發(fā)展概況進(jìn)行了詳細(xì)的介紹和解讀.2016年11月,以加州大學(xué)圣迭戈分校、卡耐基梅隆大學(xué)、克萊姆森大學(xué)為首的美國19所大學(xué)在美國科學(xué)基金會的支持下,聯(lián)合發(fā)布了《美國機(jī)器人技術(shù)路線圖:從互聯(lián)網(wǎng)到機(jī)器人》,對機(jī)器人技術(shù)目前的發(fā)展機(jī)會、面臨的挑戰(zhàn)及解決方案進(jìn)行了全面的總結(jié),詳細(xì)描述了機(jī)構(gòu)與執(zhí)行器、移動與操作、感知、學(xué)習(xí)與適應(yīng)、控制與規(guī)劃、人機(jī)交互、多智能體機(jī)器人七項關(guān)鍵技術(shù)的發(fā)展路徑.本文依托上述兩個“路線圖”和未來空間操作的發(fā)展趨勢,對在軌服務(wù)操作所涉及的關(guān)鍵技術(shù)進(jìn)行總結(jié).

        表2 在軌服務(wù)操作關(guān)鍵技術(shù)發(fā)展趨勢Tab.2 The key technology trends of OOS manipulations

        1.3 自主操作對智能化的需求

        傳統(tǒng)的機(jī)器人技術(shù)建立在確定性的環(huán)境和精確的模型之上,在應(yīng)對未來復(fù)雜的、非結(jié)構(gòu)化和各種不確定性的場景時存在難以克服的困難:

        (1)非結(jié)構(gòu)化復(fù)雜環(huán)境下空間操作困難重重

        空間操作特別是針對非合作目標(biāo)的空間操作屬于非結(jié)構(gòu)化環(huán)境,主要體現(xiàn)在以下幾個方面:

        1)目標(biāo)對象外形/尺寸多種多樣,運(yùn)動狀態(tài)不確定

        分布于不同軌道的各種型號的故障衛(wèi)星、飛船等,無論是外形結(jié)構(gòu)還是大小尺寸都存在較大差異;故障航天器姿態(tài)往往處于快速自旋或翻滾的狀態(tài),接觸碰撞后動作軌跡預(yù)估不準(zhǔn)確.

        2)目標(biāo)對象表面結(jié)構(gòu)復(fù)雜、不確知

        受體航天器沒有統(tǒng)一的結(jié)構(gòu)設(shè)計,表面安裝各種附屬設(shè)備,空間機(jī)器人在軌操作需要識別安裝于不同位置的各種類型的附屬設(shè)備,并克服各種視覺遮擋.

        3)光照條件復(fù)雜且不斷變化

        空間光照條件變化和目標(biāo)反射特性與地面認(rèn)知有較大差異,在相同光照條件下,空間目標(biāo)的反射特性也有較大差異,這給目標(biāo)特征識別和測量帶來了不確定性和極大的困難.

        (2)在軌操作任務(wù)復(fù)雜,對操作的精細(xì)化程度要求高

        空間操作目標(biāo)對象功能和結(jié)構(gòu)復(fù)雜,造價昂貴,在維修維護(hù)時需要較為復(fù)雜的精細(xì)化操作,主要體現(xiàn)在:

        1)在不確定環(huán)境下進(jìn)行操作,要求精細(xì)的控制接觸力

        2)在狹小空間操作,要求末端位置控制要精細(xì)

        3)操作流程較為復(fù)雜,需要精細(xì)規(guī)劃

        (3)遙操作無法滿足空間操作實(shí)時控制的要求

        通訊時延大,遙操作無法滿足消旋抓捕等實(shí)時任務(wù)的要求.如對于消旋抓捕來說,空間機(jī)器人需要根據(jù)目標(biāo)的實(shí)時運(yùn)動狀態(tài),選擇特定的消旋和抓捕位置,并快速規(guī)劃消旋抓捕的接近路徑,整個過程處于實(shí)時控制回路,必須精準(zhǔn)識別、快速決策.

        綜上所述,為了實(shí)現(xiàn)對各種非結(jié)構(gòu)化環(huán)境的自主感知和識別、在各種不確定場景下的自主靈活精細(xì)操作、對多種任務(wù)快速部署和實(shí)時響應(yīng),必須發(fā)展新的技術(shù).將人工智能與空間操作相結(jié)合,賦予機(jī)器人自主學(xué)習(xí)能力,是滿足未來復(fù)雜、精細(xì)空間操作任務(wù)的一個必然發(fā)展方向.

        2 基于學(xué)習(xí)的機(jī)器人操作技術(shù)研究現(xiàn)狀

        2.1 概述

        學(xué)習(xí)是人工智能的核心.引用 H. Simon的觀點(diǎn)可以這樣描述學(xué)習(xí):學(xué)習(xí)是系統(tǒng)中的任何改進(jìn),這種改進(jìn)使得系統(tǒng)在重復(fù)同樣工作或進(jìn)行類似工作時,能完成得更好[21].面對各種不確定性的環(huán)境,人類包括各種智能生物,正是通過學(xué)習(xí)來適應(yīng)各種環(huán)境、并與環(huán)境進(jìn)行交互.機(jī)器人本質(zhì)上是一個經(jīng)常與不確知的環(huán)境進(jìn)行主動交互的智能體,必須基于不完全和不確定的知識進(jìn)行感知、決策、規(guī)劃和控制.因此,賦予機(jī)器人學(xué)習(xí)能力,是使其靈活應(yīng)對復(fù)雜多變的環(huán)境的重要手段.

        20世紀(jì)中期,得益于優(yōu)化理論和最優(yōu)控制的發(fā)展,動態(tài)規(guī)劃為學(xué)習(xí)控制設(shè)定了早期的研究框架[22].發(fā)展至今,學(xué)習(xí)控制已成為控制、優(yōu)化與機(jī)器學(xué)習(xí)的綜合交叉.而基于學(xué)習(xí)的機(jī)器人操作技術(shù),是學(xué)習(xí)控制方法在機(jī)器人領(lǐng)域的重要應(yīng)用.

        機(jī)器人的學(xué)習(xí)控制包含三個要素(如圖2所示),即控制策略、學(xué)習(xí)方法、任務(wù)[22].控制策略是狀態(tài)到動作的映射,可分為基于模型的控制(先建模或估計模型,再學(xué)習(xí)控制策略,如以微分動態(tài)規(guī)劃DDP、順序二次規(guī)劃SQP為典型代表的軌跡規(guī)劃方法,以及模型預(yù)測控制MPC)和無模型的控制(也被稱為直接學(xué)習(xí),如近似TD-learning[23],近似Q-learning,策略梯度[24]等).學(xué)習(xí)本質(zhì)上是一種優(yōu)化,利用先驗(yàn)知識或歷史數(shù)據(jù),更新控制策略的參數(shù),使系統(tǒng)實(shí)現(xiàn)輸出最優(yōu);學(xué)習(xí)方法的劃分標(biāo)準(zhǔn)不盡統(tǒng)一,基本可分為監(jiān)督、無監(jiān)督、半監(jiān)督、強(qiáng)化學(xué)習(xí)等.任務(wù)是控制策略在時間、空間序列上的綜合;任務(wù)可分為基本任務(wù)與復(fù)雜任務(wù),基本任務(wù)包括常規(guī)動作任務(wù)(如定點(diǎn)路徑規(guī)劃、軌跡跟蹤)、離散動作任務(wù)(如抓取、放置)、周期動作任務(wù)(行走)等,復(fù)雜任務(wù)是多種基本任務(wù)的復(fù)合.

        圖2 機(jī)器人學(xué)習(xí)控制的三要素Fig.2 Three essential factors of the learning-based robot control

        機(jī)器人學(xué)家很早就開始了對學(xué)習(xí)控制的探索,并把機(jī)器學(xué)習(xí)的方法和技術(shù)引入到機(jī)器人的感知、決策、規(guī)劃和控制等環(huán)節(jié).例如,迭代學(xué)習(xí)控制(Iterative Learning Control)就是在機(jī)器人領(lǐng)域應(yīng)用學(xué)習(xí)控制的早期嘗試.迭代學(xué)習(xí)控制最早由日本學(xué)者Uchiyama于1978年提出,其核心思想是“積累經(jīng)驗(yàn)——提高性能”.迭代學(xué)習(xí)控制采用“在重復(fù)中學(xué)習(xí)”的學(xué)習(xí)策略,它具有記憶系統(tǒng)和修正機(jī)制,通過對被控系統(tǒng)進(jìn)行控制嘗試,以輸出軌跡與給定軌跡的偏差修正不理想的控制信號,產(chǎn)生新的控制信號,進(jìn)而提高系統(tǒng)的跟蹤性能[21].該方法廣泛應(yīng)用于具有重復(fù)運(yùn)動性質(zhì)的工業(yè)機(jī)器人底層控制中,如搬運(yùn)、裝配、焊接、噴涂等.此外,借鑒人類直接套用經(jīng)驗(yàn)的思路,懶惰學(xué)習(xí)被應(yīng)用于機(jī)器人軌跡規(guī)劃與控制中,在許多復(fù)雜的問題中取得很好的控制效果.相比于以上兩種方法,強(qiáng)化學(xué)習(xí)是一種能夠更好的模擬人類與環(huán)境進(jìn)行交互并學(xué)習(xí)的理論框架,被廣泛用于棋類博弈、任務(wù)決策、機(jī)器人的路徑規(guī)劃與控制等方面.

        在深度神經(jīng)網(wǎng)絡(luò)出現(xiàn)之前,高維信息(如視覺)的特征提取往往需要復(fù)雜的人工設(shè)計,經(jīng)降維后再用于機(jī)器人控制.因此,早期的機(jī)器人學(xué)習(xí)控制系統(tǒng)通常被劃分為“感知—規(guī)劃—執(zhí)行”三個階段,學(xué)習(xí)大多體現(xiàn)在后端的規(guī)劃層和執(zhí)行層.近年來,隨著深度神經(jīng)網(wǎng)絡(luò)的崛起,系統(tǒng)具備了高維信息自動特征提取的能力,因此,一種被稱為“端到端(end-to-end)”的設(shè)計思想成為當(dāng)前研究的熱點(diǎn).端到端設(shè)計的核心是統(tǒng)一化,這種統(tǒng)一化一方面體現(xiàn)在結(jié)構(gòu)上,把感知-規(guī)劃-執(zhí)行器的控制統(tǒng)一定義為狀態(tài)到動作的映射,進(jìn)行整體學(xué)習(xí)與優(yōu)化;另一方面體現(xiàn)在信號層,系統(tǒng)所有的輸入、輸出都依托于同一框架,即深度神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)像素到動作的映射.端到端模擬了人類的控制模式,不進(jìn)行“圖像—位姿—動作”的轉(zhuǎn)化,直接通過學(xué)習(xí)建立“圖像—動作”的映射.

        在本節(jié)的后續(xù)部分中,針對機(jī)器人的學(xué)習(xí)控制,我們將首先對懶惰學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等早期方法進(jìn)行闡述;接著,結(jié)合應(yīng)用范例,對引入深度神經(jīng)網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)、元學(xué)習(xí)和模仿學(xué)習(xí)等方法進(jìn)行討論.

        2.2 懶惰學(xué)習(xí)(lazy learning)

        所謂懶惰學(xué)習(xí),又稱為機(jī)械式學(xué)習(xí),基于實(shí)例的學(xué)習(xí),即時學(xué)習(xí)或基于記憶的學(xué)習(xí),是一種最簡單最原始的學(xué)習(xí)策略,主要通過簡單記憶和重現(xiàn)來實(shí)現(xiàn)學(xué)習(xí).當(dāng)學(xué)習(xí)系統(tǒng)解決完一個問題(或稱為實(shí)例)后,就把該實(shí)例于其解存儲起來構(gòu)成知識庫.當(dāng)遇到一個新的問題時,從知識庫中查詢相似的實(shí)例,然后根據(jù)知識庫中相似實(shí)例的解決方案來得到新問題的解決方案.由于整個過程僅僅是存儲(記憶)與查詢,并不包括對信息的進(jìn)一步處理,因此稱為懶惰學(xué)習(xí)或機(jī)械式學(xué)習(xí).此類方法主要包括最近鄰法和局部加權(quán)回歸(LWR)法,更復(fù)雜的還包括基于案例的推理法.由于該方法思想簡單,實(shí)現(xiàn)容易,并且在實(shí)例比較豐富時效果顯著,因此,大量的應(yīng)用于各種學(xué)習(xí)和控制問題.20世紀(jì)90年代初期,該思想被卡內(nèi)基梅隆機(jī)器人研究所的SCHAAL和ATKESON發(fā)展為一種局部線性回歸建模方法(LWPR)可以有效解決在線模型學(xué)習(xí)問題,比傳統(tǒng)的基于神經(jīng)網(wǎng)絡(luò)等全局建模方法具有更好的性能.在此領(lǐng)域,ATKESON等采用LWPR訓(xùn)練機(jī)器人學(xué)習(xí)雜技演員挑竹竿(Juggling)的復(fù)雜動作[25].英國Aberystwyth大學(xué)的LAW等為了模擬嬰兒學(xué)習(xí)基本運(yùn)動技能的過程,利用 LWPR在線學(xué)習(xí)機(jī)器人動力學(xué)模型,利用iCub機(jī)器人模擬了從雙目掃視、固定凝視目標(biāo)、軀干控制到手眼協(xié)調(diào)進(jìn)行接觸抓取等基本動作[26].

        2.3 強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)

        20世紀(jì)80年代,基于試錯方法、動態(tài)規(guī)劃和瞬時誤差方法形成了強(qiáng)化學(xué)習(xí)理論.1984年Sutton提出了基于Markov過程的強(qiáng)化學(xué)習(xí).強(qiáng)化學(xué)習(xí)主要解決這樣的問題:一個能夠感知環(huán)境的自治agent怎樣通過學(xué)習(xí)選擇能達(dá)到其目標(biāo)的最優(yōu)動作,即智能系統(tǒng)通過反復(fù)試錯,把環(huán)境提供的強(qiáng)化信號當(dāng)作其執(zhí)行動作好壞的評價作為反饋從而得到最優(yōu)行為的學(xué)習(xí)過程.強(qiáng)化學(xué)習(xí)的機(jī)理較為符合人及生物的學(xué)習(xí)過程,不同于監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)可使智能體在環(huán)境中自發(fā)學(xué)習(xí),從而構(gòu)成一個實(shí)時的學(xué)習(xí)控制系統(tǒng).特別是在智能機(jī)器人的應(yīng)用中,一方面可以構(gòu)成底層的控制基礎(chǔ),另一方面還可以實(shí)現(xiàn)高層的行為學(xué)習(xí)如路徑規(guī)劃、復(fù)雜操作等.強(qiáng)化學(xué)習(xí)主要有瞬時差分法(TD Learning),Q學(xué)習(xí)算法等,多用于各種棋類游戲、路徑規(guī)劃、任務(wù)調(diào)度等離散狀態(tài)問題.

        由于固有的維數(shù)災(zāi)難,傳統(tǒng)的強(qiáng)化學(xué)習(xí)難以解決高維空間、連續(xù)系統(tǒng)控制問題.在90年代后期,隨著研究的深入,大量學(xué)者通過引入各種策略梯度算法,如Episode Natural Actor-Critic[27]、Episodic REINFORCE∥PI2∥PoWER[28-29]等,已經(jīng)使得強(qiáng)化學(xué)習(xí)能夠在高維、連續(xù)系統(tǒng)的機(jī)器人控制中成功應(yīng)用.

        2.4 深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)

        深度強(qiáng)化學(xué)習(xí)是近兩年來深度學(xué)習(xí)領(lǐng)域迅猛發(fā)展起來的一個分支,目的是解決計算機(jī)從感知到?jīng)Q策控制的問題,從而實(shí)現(xiàn)通用人工智能.以Google DeepMind公司為首,基于深度強(qiáng)化學(xué)習(xí)的算法已經(jīng)在視頻、游戲、圍棋、機(jī)器人等領(lǐng)域取得了突破性進(jìn)展.

        深度強(qiáng)化學(xué)習(xí)將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合起來,深度學(xué)習(xí)用于表達(dá)或歸納經(jīng)驗(yàn)知識,而強(qiáng)化學(xué)習(xí)為深度學(xué)習(xí)提供學(xué)習(xí)的目標(biāo)(數(shù)據(jù)),這使得深度強(qiáng)化學(xué)習(xí)具備構(gòu)建出復(fù)雜智能體的潛力,使機(jī)器人能夠?qū)崿F(xiàn)從感知到?jīng)Q策控制的端到端自學(xué)習(xí),具有非常廣闊的應(yīng)用前景.

        Actor-Critic框架是目前深度強(qiáng)化學(xué)習(xí)的一種通用架構(gòu),能夠囊括很多DRL算法,如圖3所示.主要包括策略網(wǎng)絡(luò)(Actor)和評價網(wǎng)絡(luò)(Critic).如果把整個系統(tǒng)看作大腦,那么Actor是大腦的執(zhí)行機(jī)構(gòu),輸入外部的狀態(tài)S,然后輸出動作A.而Critic則可認(rèn)為是大腦的價值觀,根據(jù)歷史信息及回饋r進(jìn)行自我調(diào)整,然后影響整個Actor.這種Actor-Critic的方法非常類似于人類自身的行為方式.

        適用于機(jī)器人學(xué)習(xí)控制的深度強(qiáng)化學(xué)習(xí),主要分為價值學(xué)習(xí)(Value-learning)方法和策略梯度 (Policy gradient)方法.在解決實(shí)際問題時,一般綜合使用這兩種方法.

        圖3 Actor-Critic框架原理圖Fig.3 Actor-Critic framework diagram

        2.4.1 價值學(xué)習(xí)方法

        基于價值的方法,近似估計、逼近價值函數(shù)V(s)或者動作價值函數(shù)Q(s,a),是一種近似動態(tài)規(guī)劃的方法.在傳統(tǒng)的Q-learning中,當(dāng)狀態(tài)s和動作a的組合數(shù)量龐大時(例如,視頻游戲任務(wù)),Q函數(shù)的計算與存儲代價過大.DQN (Deep Q-Network)利用深度神經(jīng)網(wǎng)絡(luò)逼近Q函數(shù),成功應(yīng)用于ATARI視頻游戲[30],以及著名的圍棋對弈AI系統(tǒng)Alpha Go[31].

        DQN的核心思想在于,讓Q-learning中的更新具有類似監(jiān)督學(xué)習(xí)的平穩(wěn)性.關(guān)鍵實(shí)現(xiàn)包括兩部分,即經(jīng)驗(yàn)重演(Experience Replay)和目標(biāo)網(wǎng)絡(luò)(Target Network).經(jīng)驗(yàn)重演使用批量的過去經(jīng)驗(yàn),替代在線的更新,增加了數(shù)據(jù)之間的獨(dú)立性,數(shù)據(jù)的分布更趨于平穩(wěn).在DQN中設(shè)定有兩組網(wǎng)絡(luò),目標(biāo)網(wǎng)絡(luò)和Q網(wǎng)絡(luò),分別以θ-和θ參數(shù)化;前者用來檢索目標(biāo)Q值,后者在訓(xùn)練中實(shí)時優(yōu)化與更新;周期性地將θ-與θ同步,兩次同步之間,目標(biāo)Q值是固定的,增加了學(xué)習(xí)的穩(wěn)定性.整體目標(biāo)函數(shù)定義為目標(biāo)Q值和Q網(wǎng)絡(luò)輸出之間的誤差平方期望,如下式所示:

        Ui(θi)=

        DQN方法的改進(jìn)包括DDQN (Double DQN)、Dueling DQN等.由于DQN輸出默認(rèn)為離散量,由于動作維數(shù)過大,因此很難直接應(yīng)用于機(jī)器人等控制輸入為連續(xù)量的系統(tǒng)中.該方法的重要性在于它用到的兩項技術(shù),即經(jīng)驗(yàn)重演和目標(biāo)網(wǎng)絡(luò),加上以它們?yōu)榛鶞?zhǔn)的改進(jìn)拓展了諸多策略梯度方法.

        2.4.2 策略梯度方法

        區(qū)別于以價值學(xué)習(xí)為代表的動態(tài)規(guī)劃方法,策略梯度是一種基于直接對策略網(wǎng)絡(luò)優(yōu)化的方法.相比于價值學(xué)習(xí),它的求解目標(biāo)更加直接.

        DDPG (deep deterministic policy gradient)[32]是一種無模型的、離線策略的、actor-critic方法.它學(xué)習(xí)確定性的策略,將DQN的性能與優(yōu)勢拓展到連續(xù)空間上.為了達(dá)到更好的探索效果,DDPG通過在原策略μθ(s)上疊加噪聲項N,構(gòu)建了探索策略μ′(s):=μθ(s)+N.此外,DDPG在actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)上進(jìn)行軟更新(conservative policy iteration),目標(biāo)網(wǎng)絡(luò)的輸出被限定為慢變信號,區(qū)別于DQN中對于目標(biāo)網(wǎng)絡(luò)的凍結(jié).Actor網(wǎng)絡(luò)參數(shù)利用如下式所示的目標(biāo)函數(shù)梯度進(jìn)行更新:

        VECERIK等[33]將DDPG和人工示教結(jié)合,在EDRIAD工業(yè)機(jī)械臂上,實(shí)現(xiàn)了插銷入洞任務(wù).該工作對于損失函數(shù)的設(shè)計頗為精細(xì),關(guān)鍵步驟包括:訓(xùn)練了一個分類器用以計算任務(wù)獎勵、添加了正面和負(fù)面示教、優(yōu)化actor網(wǎng)絡(luò)時添加了行為克隆 (behaviour cloning) 損失,將標(biāo)準(zhǔn)的TD損失替換為分布式的critic損失等.

        DDPG的主要缺點(diǎn)是學(xué)習(xí)過程受到學(xué)習(xí)速率的影響可能會不穩(wěn)定.為了解決此問題,引入了TRPO (Trust region policy optimization)[34]方法.為了增加訓(xùn)練穩(wěn)定性,避免每次迭代參數(shù)更新過大,對步長添加了KL散度約束,并引入優(yōu)勢函數(shù)(advantage function)

        其中,m為采樣軌跡數(shù).上式表明,目標(biāo)函數(shù)的梯度可以由對數(shù)策略梯度和優(yōu)勢項表示.

        具體地,問題描述為

        s.t. εs,a~πθold[DKL(πθ(·|s)‖πθold(·|s))]≤δ

        (1)

        PPO (Proximal policy optimization)[36]方法對問題(1)的約束做了進(jìn)一步簡化,將新舊策略比例項rθ強(qiáng)制限定在[1-ε,1+ε]區(qū)間內(nèi),其中ε是一個超參數(shù).具體地,目標(biāo)函數(shù)變?yōu)?/p>

        εs,a~πθold[min{rθ(a|s)Aθold(s,a),

        clip(rθ(a|s),1-ε,1+ε)Aθold(s,a)}]

        ANDRYCHOWICZ等[37]利用PPO算法,實(shí)現(xiàn)了多指靈巧手翻轉(zhuǎn)立方塊.系統(tǒng)由姿態(tài)估計網(wǎng)絡(luò)和策略網(wǎng)絡(luò)構(gòu)成,前者利用三個視角下的RGB圖像,預(yù)測立方塊姿態(tài);后者利用預(yù)測姿態(tài)和靈巧手的關(guān)節(jié)測量信息,輸出關(guān)節(jié)控制電壓.由于系統(tǒng)需要處理的信息量巨大,該工作用到了分布式的訓(xùn)練方法.盡管這項工作并未引入人工示教,但結(jié)果最終呈現(xiàn)出了諸多類人特性,如利用重力操控,以及多指協(xié)調(diào)等.

        SQL (Soft Q learning)[38]是一種基于最大熵的方法,它利用Boltzmann分布這種基于能量的模型,表示隨機(jī)策略,相應(yīng)的能量對應(yīng)于Q函數(shù).這種表示相比于高斯分布,具有多模態(tài)的特征.訓(xùn)練結(jié)果表明,該方法產(chǎn)生的模型探索更充分,探索到有用的子模式更多.進(jìn)一步的研究[39]表明,獨(dú)立訓(xùn)練得到的最大熵策略,可以通過疊加它們的Q函數(shù),得到更加接近最優(yōu)的整合策略,這種整合性質(zhì)將有利于任務(wù)的遷移.HAARNOJA等[39]利用SQL,在Sawyer機(jī)器人上實(shí)現(xiàn)了堆樂高積木操作.針對定點(diǎn)到達(dá)任務(wù),相比于DDPG和NAF(normalized advantage functions)[40]方法,SQL在訓(xùn)練速度上具有明顯優(yōu)勢.此外,實(shí)驗(yàn)結(jié)果驗(yàn)證了SQL策略的可整合性:先獨(dú)立訓(xùn)練機(jī)械臂躲避障礙和堆放積木,在兩組策略經(jīng)整合后,可以實(shí)現(xiàn)繞障礙堆積木操作.

        至此,上文介紹的深度強(qiáng)化學(xué)習(xí)方法都是無模型的.基于模型的搜索方法,相比于無模型方法,具有采樣效率高的優(yōu)勢.GPS(guided policy search)[41]是這類方法的典型代表,它的核心思想是利用模型生成采樣,并以此引導(dǎo)學(xué)習(xí).具體環(huán)節(jié)包括控制階段和監(jiān)督階段:控制階段利用最優(yōu)控制方法,生成好的軌跡;監(jiān)督階段利用這些軌跡進(jìn)行監(jiān)督學(xué)習(xí).在PR2雙臂協(xié)作機(jī)器人上,LEVINE等[41]最早使用GPS方法實(shí)現(xiàn)了圖像到動作的端到端訓(xùn)練,完成了擰瓶蓋、柱上套環(huán)等任務(wù).MONTGOMERY等[42]進(jìn)一步提出 MDGPS (mirror descent guided policy search)方法,減弱了對于確定性初始狀態(tài)的要求,實(shí)驗(yàn)結(jié)果表明,PR2機(jī)械臂可以從任意初始位置將積木移至目標(biāo)點(diǎn).

        2.5 元學(xué)習(xí)(Meta-learning)

        人類學(xué)習(xí)某種技能時,很少從零開始.我們會下意識地從已習(xí)得的類似技能中提取經(jīng)驗(yàn),而這些經(jīng)驗(yàn)將加速我們對于新技能的學(xué)習(xí)過程.為了在機(jī)器學(xué)習(xí)系統(tǒng)上復(fù)現(xiàn)這種機(jī)制,研究者們提出了元學(xué)習(xí)(Meta-learning)這一概念.元學(xué)習(xí)也被稱為學(xué)習(xí)如何學(xué)習(xí)(learning to learn),是一門系統(tǒng)地觀察機(jī)器學(xué)習(xí)方法在多種學(xué)習(xí)任務(wù)上的性能差異,學(xué)習(xí)這些經(jīng)驗(yàn)(元數(shù)據(jù))并快速適應(yīng)新任務(wù)的科學(xué)[43].

        根據(jù)元數(shù)據(jù)類型的不同,文獻(xiàn)[43]將元學(xué)習(xí)方法劃分為三類,即從模型評價學(xué)習(xí)、從任務(wù)屬性學(xué)習(xí)和從先驗(yàn)?zāi)P蛯W(xué)習(xí).第三類方法與深度神經(jīng)網(wǎng)絡(luò)的聯(lián)系更加緊密.FINN等提出的MAML (Model-agnostic Meta-learning)[44]是這類方法的代表性工作.MAML的核心思想是:先在原任務(wù)集上學(xué)習(xí)好的參數(shù)初始化,面對不同的新任務(wù),做相應(yīng)的優(yōu)化更新.在小樣本圖片分類任務(wù)上,MAML及其衍生方法Reptile、PLATIPUS等的分類準(zhǔn)確率排名前列.

        結(jié)合模仿學(xué)習(xí)的MAML方法在機(jī)器人操作上具有應(yīng)用前景.FINN等[45]在元更新環(huán)節(jié)引入了人工示教,在PR2機(jī)器人上實(shí)現(xiàn)了對未學(xué)習(xí)物體的放置、抓取操作.在這里,示教是由人遠(yuǎn)程控制機(jī)械臂完成的,示教信息包括了視頻和機(jī)械臂的測量信號.在后續(xù)工作中,YU 等[46]實(shí)現(xiàn)了僅利用人手臂本身的動作視頻作為示教信息,在PR2機(jī)器人和Sawyer機(jī)械臂上,實(shí)現(xiàn)了推動、抓取-放置等操作.

        2.6 模仿學(xué)習(xí)(imitation learning)

        在沒有任何先驗(yàn)知識的情況下,采用強(qiáng)化學(xué)習(xí)處理復(fù)雜問題時由于存在較大的搜索空間,往往導(dǎo)致不可接受的學(xué)習(xí)次數(shù)和極大的運(yùn)算量.因此,學(xué)者們開始考慮模仿動物和人類的方式進(jìn)行學(xué)習(xí).首先由某一問題領(lǐng)域的專家(或老師)給出示范,然后學(xué)習(xí)示范實(shí)例,并在此基礎(chǔ)上進(jìn)一步根據(jù)自身條件或具體任務(wù)不斷優(yōu)化.這種學(xué)習(xí)途徑稱為模仿學(xué)習(xí)或演示學(xué)習(xí).

        (1)DMPs(dynamics movement primitives)

        在機(jī)器人領(lǐng)域常用的一種模仿學(xué)習(xí)是基于2002年由IJSPEERT提出的稱為 DMPs的方法[47].DMPs本質(zhì)上是一種表示運(yùn)動軌跡的參數(shù)化方法,可以通過調(diào)節(jié)參數(shù)來擬合任意形狀的軌跡,因此,首先利用DMPs直接擬合演示示例軌跡,然后在此基礎(chǔ)上以調(diào)節(jié)參數(shù)作為優(yōu)化對象,利用強(qiáng)化學(xué)習(xí)的策略優(yōu)化方法,如PI2,PoWER等根據(jù)實(shí)際任務(wù)進(jìn)一步優(yōu)化.利用上述學(xué)習(xí)方法,德國Darmstadt技術(shù)大學(xué)的J.Peters等采用模仿學(xué)習(xí)的方法,訓(xùn)練機(jī)械臂完成了一種被稱為ball-in-cup的游戲[48],即把杯子和一個小球用細(xì)繩連接,機(jī)械臂的末端與杯子固定,通過機(jī)械臂的運(yùn)動帶動繩子和球一起運(yùn)動,并最終使球落入杯中,在此基礎(chǔ)上通過進(jìn)一步強(qiáng)化學(xué)習(xí)做到了任意條件下的成功操作.

        (2)逆強(qiáng)化學(xué)習(xí)(inverse reinforcement learning)

        強(qiáng)化學(xué)習(xí)是在確定的狀態(tài)空間下,根據(jù)設(shè)定的平均函數(shù)通過環(huán)境反饋從確定的動作集合中得到一組可使評價函數(shù)取最優(yōu)值的動作序列的過程.因此,評價函數(shù)起著非常關(guān)鍵的作用,然而,對于一些復(fù)雜的問題難以給出確定的評價函數(shù),如教練通過演示教學(xué)員打球,司機(jī)通過實(shí)際操作教學(xué)員如何開車.對于此類復(fù)雜的問題,人類通過較少的演示實(shí)例即可學(xué)習(xí)其中的機(jī)理,然后通過自身大量的反復(fù)訓(xùn)練來不斷提高應(yīng)用這些技術(shù)的水平.按照這個思路,2000年斯坦福大學(xué)的吳恩達(dá)(Andrew Ng)提出了基于逆優(yōu)化學(xué)習(xí)的評價函數(shù)學(xué)習(xí)方法.基本思路是首先從問題中提取一系列關(guān)鍵特征,把評價函數(shù)表示為特征的線性回歸函數(shù),以專家給出的若干演示示例作為最優(yōu)解,利用逆優(yōu)化學(xué)習(xí)方法不斷優(yōu)化評價函數(shù)的未知參數(shù).在求取未知參數(shù)后,即可獲得評價函數(shù).然后利用此評價函數(shù)在類似的問題中進(jìn)行求解.由于評價函數(shù)和動作空間與專家一致,因此,可以認(rèn)為學(xué)習(xí)者已經(jīng)具備了專家水平.逆強(qiáng)化學(xué)習(xí)在直升機(jī)特技飛行自動控制[49]和四足機(jī)器人自主規(guī)劃[50]等很多項目中獲得成功應(yīng)用.

        (3)GAIL(generative adversarial imitation learning)

        GAIL 是逆強(qiáng)化學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合的最新成果,最初由JONATHAN 等[51]于2016年提出,主要用于解決如何從專家示例中學(xué)習(xí)reward函數(shù)并應(yīng)用于深度強(qiáng)化學(xué)習(xí)的問題.整個系統(tǒng)框架如圖4所示.

        圖4 GAIL結(jié)構(gòu)圖Fig.4 GAIL diagram

        在Actor-Critic框架的基礎(chǔ)上增加了判決網(wǎng)絡(luò),用于生成一個介于0和1之間的評價信號r(reward).判決網(wǎng)絡(luò)可以看作是生成對抗網(wǎng)絡(luò)(GAN)中的判別網(wǎng)絡(luò)(D),一方面接受專家數(shù)據(jù),另一方面接受學(xué)員數(shù)據(jù)(當(dāng)前系統(tǒng)的輸入輸出),用于判別學(xué)員數(shù)據(jù)與專家數(shù)據(jù)的相似度(差異越大輸出趨向于0,差異越小輸出趨向于1).因此,整個系統(tǒng)的訓(xùn)練目標(biāo)是在給定某專家行為的基礎(chǔ)上,通過訓(xùn)練策略網(wǎng)絡(luò)與判央網(wǎng)絡(luò),使得當(dāng)前策略網(wǎng)絡(luò)的輸出與專家行為近似.GAIL借助GAN把深度強(qiáng)化學(xué)習(xí)很好的引入逆強(qiáng)化學(xué)習(xí)框架中,在訓(xùn)練自主行走、機(jī)器人操作、自動駕駛等問題上得到很好的應(yīng)用.

        3 基于學(xué)習(xí)的在軌燃料補(bǔ)加控制系統(tǒng)研究

        為了探索人工智能在在軌服務(wù)操作中的應(yīng)用,我們以深度強(qiáng)化學(xué)習(xí)為主要工具,開發(fā)了一個具備自主學(xué)習(xí)能力的在軌燃料補(bǔ)加機(jī)器人地面試驗(yàn)系統(tǒng),以解決非結(jié)構(gòu)化環(huán)境自主感知和在各種不確定情況下的自主操作問題.

        在空間在軌維修維護(hù)領(lǐng)域,推進(jìn)劑在軌補(bǔ)給技術(shù)處于核心地位,是帶動其他在軌服務(wù)技術(shù)的先導(dǎo)和基礎(chǔ).衛(wèi)星推進(jìn)劑在軌補(bǔ)給是指將推進(jìn)劑通過特定裝備從服務(wù)衛(wèi)星傳輸至目標(biāo)衛(wèi)星的過程,它是延長衛(wèi)星有效工作壽命、提高衛(wèi)星經(jīng)濟(jì)效益的主要技術(shù)手段.未來高價值衛(wèi)星應(yīng)配置標(biāo)準(zhǔn)化的推進(jìn)劑補(bǔ)加接口可接受服務(wù)航天器定期的推進(jìn)劑補(bǔ)給.服務(wù)航天器需要具備能自主、快速補(bǔ)加、雙向輸送、精確控制功能,可對一定軌道范圍內(nèi)衛(wèi)星實(shí)現(xiàn)“燃料快充”.燃料補(bǔ)加裝置主要由主動端和被動端及其附屬系統(tǒng)組成.自主補(bǔ)加系統(tǒng)的任務(wù)目標(biāo)是由機(jī)械臂抓取補(bǔ)加系統(tǒng)的主動端,自主識別安裝于模擬衛(wèi)星端面的被動端,并完成“對接——插入——鎖緊——加注——撤出”等整套補(bǔ)加動作.整個過程涉及對非結(jié)構(gòu)化環(huán)境的智能感知、路徑自主規(guī)劃和柔順力觸控制等復(fù)雜操作.整個系統(tǒng)主要由如下幾個部分組成.

        (1)物理試驗(yàn)系統(tǒng)

        物理試驗(yàn)系統(tǒng)主要由一個UR10工業(yè)機(jī)械臂(模擬服務(wù)星),燃料補(bǔ)加系統(tǒng)(包括主動端和被動端)、模擬衛(wèi)星端面(模擬受體星)和智能算法服務(wù)器組成,如圖5所示.機(jī)械臂操作系統(tǒng)配置單目手眼相機(jī)和6維力傳感器.

        圖5 物理試驗(yàn)系統(tǒng)(左)與虛擬學(xué)習(xí)訓(xùn)練系統(tǒng)(右)Fig.5 The physical experimental system(left) and the virtual learning & training system(right)

        (2)虛擬學(xué)習(xí)訓(xùn)練系統(tǒng)

        采用MUJOCO軟件搭建了燃料加注數(shù)學(xué)模擬學(xué)習(xí)訓(xùn)練系統(tǒng),為機(jī)器人自我訓(xùn)練提供訓(xùn)練環(huán)境,具體如上圖所示,包括:UR10機(jī)械臂(配置單目相機(jī)和力傳感器)、模擬衛(wèi)星端面(對接環(huán)、490 N發(fā)動機(jī)、10 N發(fā)動機(jī)和加注端口、天線等).

        系統(tǒng)的整體結(jié)構(gòu)可用圖6表示.

        圖6 燃料補(bǔ)加系統(tǒng)結(jié)構(gòu)框圖Fig.6 The refueling system diagram

        (3)基于目標(biāo)檢測與識別的智能感知

        本項目采用基于深度學(xué)習(xí)的Mask-RCNN網(wǎng)絡(luò)實(shí)現(xiàn)對興趣目標(biāo)的自主識別與語義分割.目標(biāo)識別與語義分割是指從復(fù)雜的環(huán)境中區(qū)分出目標(biāo)圖像與背景圖像,并與背景分割,本質(zhì)上是對每個像素自動識別并標(biāo)注,從而實(shí)現(xiàn)目標(biāo)在整個視覺場景中的精確定位.通過采集樣本圖像對網(wǎng)絡(luò)進(jìn)行監(jiān)督訓(xùn)練,最終實(shí)現(xiàn)了對模擬衛(wèi)星端面上主要部件(對接環(huán)、490 N發(fā)動機(jī)、10 N發(fā)動機(jī)和加注端口)的全方位準(zhǔn)確分割,精度達(dá)到95%以上,如圖7所示:

        圖7 語義分割效果Fig.7 The effect graphs of semantic segmentation

        (4)基于深度強(qiáng)化學(xué)習(xí)的自主規(guī)劃

        本項目采用深度強(qiáng)化學(xué)習(xí)的標(biāo)準(zhǔn)框架(圖3)研究在軌燃料補(bǔ)加的自主規(guī)劃問題.首先在虛擬學(xué)習(xí)訓(xùn)練系統(tǒng)中構(gòu)建幾十個機(jī)器人進(jìn)行反復(fù)試錯訓(xùn)練,使策略網(wǎng)絡(luò)建立了由單目視覺圖像到機(jī)械臂運(yùn)動軌跡的直接映射.然后把訓(xùn)練好的策略網(wǎng)絡(luò)遷移到物理試驗(yàn)系統(tǒng)中,使機(jī)械臂具備端到端的視覺伺服能力.最終末端位置達(dá)到±5mm,角度±5°的控制精度,滿足插入條件,實(shí)現(xiàn)柔順插入.

        本項目利用深度強(qiáng)化學(xué)習(xí),成功構(gòu)建了一套學(xué)習(xí)訓(xùn)練系統(tǒng),使機(jī)器人從零開始,通過自主訓(xùn)練具備了自主感知和智能規(guī)劃能力,最終實(shí)現(xiàn)了類人的端到端燃料補(bǔ)加全自主操作.

        圖8 從虛擬學(xué)習(xí)訓(xùn)練環(huán)境訓(xùn)練(左)到物理環(huán)境部署(右)Fig.8 The deployment of from the virtual learning & training system(left) to the physical experimental system(right)

        4 總結(jié)與展望

        4.1 面臨的技術(shù)挑戰(zhàn)

        考慮到天地環(huán)境差異,將基于學(xué)習(xí)的機(jī)器人操作技術(shù)運(yùn)用到空間操作這一領(lǐng)域面臨著以下幾個方面的問題:

        (1)小樣本數(shù)據(jù)問題

        深度神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)的數(shù)量、質(zhì)量要求很高,然而,空間操作任務(wù)數(shù)量少、天地數(shù)據(jù)傳輸成本大,導(dǎo)致真實(shí)的數(shù)據(jù)量(如真實(shí)場景圖片)非常有限,且地面很難模擬出真實(shí)的太空環(huán)境,因此,如何在小樣本條件下訓(xùn)練高質(zhì)量的感知和操作策略網(wǎng)絡(luò)是一個挑戰(zhàn).

        (2)魯棒性問題

        魯棒性問題主要體現(xiàn)在感知和控制兩個方面.在感知層次,需要解決同一類樣本不同相對位姿下的成像、帶遮擋的成像、不同光照條件下的成像等問題.由于小樣本限制,會導(dǎo)致感知網(wǎng)絡(luò)魯棒性較差.在控制層次,要提高系統(tǒng)的魯棒性,需要為機(jī)器人提供各種可能的訓(xùn)練條件,由于操作場景限制,這些條件不易滿足.

        (3)測量信息的精度問題

        在空間操作任務(wù)中,特別是那些復(fù)雜、精細(xì)的操作,往往對操作精度有極高的要求,例如在燃料加注時,加注槍與加注端的精準(zhǔn)對接是成功實(shí)現(xiàn)燃料的安全加注的保障,而高精度操作在一定程度上也依賴于精確的測量,對于非結(jié)構(gòu)化場景,需要研究融合視覺、觸覺等多種信息的高精度測量問題.

        (4)遷移學(xué)習(xí)問題

        遷移學(xué)習(xí)是學(xué)習(xí)控制方法的一個核心問題,特別對于深度強(qiáng)化學(xué)習(xí)來說,主要包括兩個方面:一是由虛擬學(xué)習(xí)訓(xùn)練環(huán)境到物理環(huán)境的遷移,二是不同任務(wù)場景的遷移.由于空間操作環(huán)境的限制,機(jī)器人需要在虛擬仿真環(huán)境下進(jìn)行大量訓(xùn)練,當(dāng)把訓(xùn)練結(jié)果應(yīng)用到真實(shí)場景時,由于存在視覺、觸覺、以及機(jī)器人動力學(xué)等各種差異,精度會下降很多甚至導(dǎo)致任務(wù)失敗.其次,如何把一個訓(xùn)練場景下學(xué)會的操作策略推廣應(yīng)用到其他場景下相同的任務(wù)中,也是考驗(yàn)系統(tǒng)學(xué)習(xí)能力的一個關(guān)鍵.

        (5)快速學(xué)習(xí)問題

        利用強(qiáng)化學(xué)習(xí)或深度強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)器人進(jìn)行操作的關(guān)鍵是回報函數(shù)(reward函數(shù))設(shè)計問題,Reward函數(shù)指導(dǎo)著訓(xùn)練的方向,還與算法收斂性和收斂速度息息相關(guān),設(shè)計的好壞直接影響到學(xué)習(xí)的快慢甚至成敗.實(shí)踐證明對于一些獎懲結(jié)果反饋滯后(稱為稀疏reward函數(shù))的問題訓(xùn)練起來非常困難,需要耗費(fèi)大量的時間,甚至無法收斂.因此,研究獎勵函數(shù)的設(shè)計方法或是其他的替代方法是保證基于學(xué)習(xí)的控制方法在軌服務(wù)操作成功的關(guān)鍵.

        除了上面提到的問題之外,在空間操作中還存在有限的載荷空間對計算能力限制的問題,能否攻克這個難題對人工智能能否上天起到了決定性的作用.

        4.2 未來的研究方向

        針對空間操作中所面臨的技術(shù)挑戰(zhàn),提出以下幾個具體的研究方向.

        針對小樣本問題,研究同分布樣本生成技術(shù)及不同場景間的自適應(yīng)學(xué)習(xí)問題;針對魯棒性問題,在感知層面研究基于上下文信息的高效神經(jīng)網(wǎng)絡(luò),研究將常識推理、功能推理、關(guān)系推理及因果推理等知識與深度學(xué)習(xí)相結(jié)合的新方法,研究目標(biāo)跟蹤方法,在控制層面,研究遷移學(xué)習(xí)的理論和方法,解決場景差異問題;針對操作精度問題,研究基于深度學(xué)習(xí)的目標(biāo)位姿估計、3D場景估計以及多感知數(shù)據(jù)融合方法;針對遷移學(xué)習(xí)問題,需要研究新的機(jī)制和方法提高學(xué)習(xí)系統(tǒng)的泛化能力;針對快速學(xué)習(xí)問題,研究模仿學(xué)習(xí)、元學(xué)習(xí)等高效的學(xué)習(xí)方法;在計算能力的改善方面:可采用網(wǎng)絡(luò)修剪來簡化復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu);在計算能力方面,考慮研究FPGA來替代GPU的方案和分布式計算以實(shí)現(xiàn)高性能計算.

        此外,未來的全自主在軌服務(wù)操作有兩個發(fā)展方向:一是,多模人機(jī)共融協(xié)作,即航天員與空間機(jī)械臂配合,各取所長,共同高效的完成操作任務(wù);二是,多智能體協(xié)同.因此,在研究單體機(jī)器人學(xué)習(xí)操作技術(shù)的同時,還應(yīng)重點(diǎn)研究人機(jī)混合智能、多智能體自學(xué)習(xí)協(xié)同操作等方向.

        致謝:

        本文工作得到了中國空間技術(shù)研究院張洪太研究員、李明研究員、北京控制工程研究所袁利研究員、黃獻(xiàn)龍研究員、劉磊研究員等的指導(dǎo)和大力支持,參與本項目研究的還有北京控制工程研究所唐寧高工、徐栓鋒高工、胡勇高工、李文高工、姜甜甜高工等,在此一并表示衷心感謝!

        猜你喜歡
        服務(wù)方法
        服務(wù)在身邊 健康每一天
        服務(wù)在身邊 健康每一天
        學(xué)習(xí)方法
        服務(wù)在身邊 健康每一天
        服務(wù)在身邊 健康每一天
        服務(wù)在身邊 健康每一天
        招行30年:從“滿意服務(wù)”到“感動服務(wù)”
        商周刊(2017年9期)2017-08-22 02:57:56
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        色婷婷久色国产成人免费| 豆国产95在线 | 亚洲| 国产资源在线视频| 亚洲色图偷拍自拍亚洲色图| 国产一区二区三区在线观看完整版 | 欧美日韩色另类综合| 中文字幕在线日韩| 日韩美女人妻一区二区三区| 色呦呦九九七七国产精品| 亚洲av成人中文无码专区| 精品人妻无码中文字幕在线| 日本二区三区视频在线观看| 香蕉视频在线观看亚洲| 欧美猛男军警gay自慰| 无码人妻AⅤ一区 二区 三区| 亚洲一区二区三区天堂av| 久久久久人妻精品一区二区三区 | 国精品无码一区二区三区在线蜜臀| 国产真实露脸4p视频| 久久久成人av毛片免费观看| 日韩少妇人妻中文字幕| 激情综合一区二区三区| 国产目拍亚洲精品一区二区| 亚洲av综合av国一区二区三区| 国产精品福利一区二区| 久久99精品国产麻豆不卡| 亚洲日韩专区在线视频| 自拍偷拍一区二区三区四区| 亚洲在线视频免费视频| 内谢少妇xxxxx8老少交| 久久99中文字幕久久| 精品久久人妻av中文字幕| 亚洲精品国偷拍自产在线观看| 欧美整片第一页| 内射中出后入内射极品女神视频| 国产精品成人无码久久久久久| 丰满少妇被猛男猛烈进入久久| 校花高潮一区日韩| 久久久中文字幕日韩精品| 丰满少妇被粗大猛烈进人高清 | 国内自拍偷拍亚洲天堂|