文/吳鴻敏 徐智浩 周雪峰
機器人被譽為“制造業(yè)皇冠頂端的明珠”,是衡量一個國家創(chuàng)新能力和產業(yè)競爭力的重要標志,已經成為全球新一輪科技和產業(yè)革命的重要切入點。隨著工業(yè)4.0和智能制造業(yè)的智能化和柔性化發(fā)展,機器人在智能化發(fā)展過程中也面臨較大的挑戰(zhàn)。一方面,產品生產方式呈現(xiàn)多樣化、小批量和定制化特征,需要更短的制造系統(tǒng)迭代周期,迫使機器人具備快速編程與對不同場景的高效適應能力。另一方面,機器人正逐漸從工業(yè)環(huán)境的獨立操作轉化為與人類進行人機協(xié)作,這就要求機器人具備類人的靈巧操作能力。
現(xiàn)有依賴于人為干預與反復調試的機器人編程方式只適用于特定任務,當遇到相近任務或不同環(huán)境時,需要重新進行編程,從而無法汲取過往的操作經驗,存在效率低、適應性差、靈巧性不足等問題。當前,新一代人工智能技術研發(fā)取得了重大進步,產品應用也日益廣泛,隨著機器人應用廣度與深度的不斷提升,探索如何利用人工智能技術讓機器人系統(tǒng)具備一定的自主決策和學習能力,進而使機器人能夠學習到適應于不同任務和環(huán)境的操作技能,避免對每個任務的繁瑣編程,是未來機器人研究和發(fā)展的重要趨勢。
2017年7月,國務院發(fā)布了《新一代人工智能發(fā)展規(guī)劃》,將人工智能定位為國家戰(zhàn)略,明確提出了三步走戰(zhàn)略目標,即到2020年人工智能技術應用成為改善民生的新途徑;到2025年人工智能成為帶動我國產業(yè)升級和經濟轉型的主要動力,智能社會建設取得積極進展;到2030年人工智能理論、技術與應用總體達到世界領先水平。國家和各省份都高度重視人工智能與機器人技術融合發(fā)展等方面的研究工作,部署實施了一批重大重點科技攻關項目,如,2018年科技部發(fā)布科技創(chuàng)新2030“新一代人工智能”重大項目,明確指出開展自主智能體靈巧精準操作學習;2020年廣東省重點領域研發(fā)計劃“新一代人工智能”重大專項也明確提出開展多自由度智能體復雜技能的自主學習研究及應用等。由此可見,隨著人工智能與互聯(lián)網、大數(shù)據、云平臺等深度融合,在跨媒體感知、自主協(xié)同控制和優(yōu)化決策、機器學習、類腦智能計算等技術的支撐下,機器人的智能化與自主化水平將進一步提升,未來的機器人將具有更多的感知與決策認知能力,變得更加靈活、靈巧與通用,能夠高效適用于復雜多變的應用場景。
如今,人們提出了借助人工智能技術讓機器人進行自主決策與學習的方法,從而使機器人適應于靈活多樣化的應用需求。其中,機器人操作技能學習被認為是最為有效的解決方案,主要是通過機器人與人類和環(huán)境交互的方式獲得操作技能。具體包括兩方面的內容:一是使機器人從與人類交互的經驗數(shù)據中進行高效率模仿學習,充分利用人類的操作經驗,實現(xiàn)人-機器人操作技能傳授,目的是賦予機器人具備“舉一反三”的能力;二是使機器人從與環(huán)境交互的經驗數(shù)據中進行可持續(xù)增強學習,并根據實際環(huán)境的變化構建出自主操作策略模型,目的是賦予機器人具備“熟能生巧”的能力。特別是,模仿學習是增強學習初始化和提高技能學習效率的重要方式。
2018年8月,中國工程院院刊刊載的文章《走向新一代智能制造》中明確指出,新一代智能制造技術機理是人-信息-物理系統(tǒng),其典型特征是人將部分認知轉移給信息系統(tǒng),使系統(tǒng)具有認知與學習能力。在人-信息-物理系統(tǒng)中將人的操作經驗與靈巧性遷移到機器人系統(tǒng),使其獲得高度類人化操作能力,是機器人操作技能學習的一種重要方式,其實現(xiàn)過程有著不同的稱謂,如示教編程(programming by demonstration, PbD)、示教學習(learning from demonstration,LfD)、模仿學習(imitation learning),以及學徒學習(apprenticeship learning)等。特別地,根據該類機器人操作技能學習方法的特點以及實現(xiàn)過程,我們在此表述為機器人操作技能的高效率模仿學習。在實際應用中,一般讓熟練的工人根據自身操作經驗通過拖動示教、遠程示教或虛擬示教等方式對機器人系統(tǒng)進行示教,進而通過人工智能技術,從經驗數(shù)據中獲得機器人運動策略,最終實現(xiàn)機器人操作技能學習,當面臨相近的操作任務應用需求時,機器人可以高效地對所習得的操作技能進行泛化處理,以生成新的操作技能來完成新的任務,從而極大增加了機器人系統(tǒng)編程的效率及靈活性。
機器人操作技能的高效率模仿學習過程包括三個階段:
第一階段是人類對機器人進行示教階段。一般以在線示教為主,在示教過程中機器人跟隨示教者進行運動,并同步采集到機器人本體、機器人與操作對象,以及環(huán)境的狀態(tài)信息,包括位姿、速度、力矩、剛度、相對位姿關系等。
第二階段是機器人操作技能的建模與學習階段。通過非線性動態(tài)系統(tǒng)或軌跡編碼算法對經驗數(shù)據進行封裝,形成技能模型,并通過技能學習獲得模型參數(shù)。
第三階段是機器人操作技能的實例化與泛化應用階段。通過智能感知技術對新任務的目標進行識別與定位,將學習到的技能模型適應于環(huán)境的變化,并根據任務的需求選擇合適的機器人控制模式。其實現(xiàn)過程如圖1所示。
總體而言,機器人操作技能模仿學習是通過構建“感知-動作”的學習機制,賦予機器人“舉一反三”的操作能力,顯著提升機器人操作的編程效率與靈巧性,實現(xiàn)復雜任務下多樣化技能的高效習得。
圖1 機器人操作技能的模仿學習過程
增強學習(Reinforcement Learning)被認為是人類通往通用人工智能(artif cial general intelligence, AGI)的有效途徑。在基于增強學習的機器人操作技能學習中,機器人以試錯的機制與環(huán)境進行交互,并通過給定當前狀態(tài)及其回報優(yōu)化下一步動作,以最大化從環(huán)境獲得的預期回報進行最優(yōu)操作技能策略學習。相比于玩電腦游戲、圍棋的增強學習問題,機器人操作技能的增強學習主要面臨著三個方面的挑戰(zhàn):一是需要對機器人的高維連續(xù)狀態(tài)與動作空間進行優(yōu)化;二是真實機器人與環(huán)境交互的數(shù)據采集成本高昂且安全性低;三是策略模型訓練效率低。
為了應對增強學習在機器人操作技能學習方面面臨的挑戰(zhàn),目前機器人操作技能增強學習方法主要有兩類:一是將機器人感知與控制模塊融合進策略模型中,形成端到端的機器人操作技能策略模型,進而可以直接將傳感器原始觀察作為輸入,并將底層執(zhí)行器的驅動指令作為輸出。由于這一學習過程是對機器人完成任務的每一步動作進行優(yōu)化,也被稱為基于步驟的機器人操作技能增強學習方法,如圖2所示。
二是針對增強學習樣本利用率低和學習效率低的瓶頸問題,在模仿學習的基礎上,提出了一種基于運動基元表征(movement representation)的機器人操作技能增強學習方法,即將機器人完成任務的運動基元,例如,模仿學習中常用的動態(tài)運動原語(Dynamic movement primitives, DMP )、 概 率 運動 基 元(probabilistic movement primitives, ProMP)和核化運動基元(kernelized movement primitives,KMP)等,進行參數(shù)化后對這些運動基元的參數(shù)進行學習與優(yōu)化,得到滿足任務需求的運動基元參數(shù)配置。具體技術方案如圖3所示。
通過結合模仿學習與增強學習的優(yōu)勢,將人類的操作經驗進行知識化表達后再進行學習,具有較好的樣本利用率和學習效率,這也是近年來機器人操作技能學習的主要研究方向。
由此可見,機器人操作技能的增強學習方法是通過構建“感知+控制”一體的機器人操作技能增強學習機制,不斷從與環(huán)境交互中進行操作策略學習與持續(xù)優(yōu)化,賦予機器人“熟能生巧”的操作能力。
圖2 機器人裝配技能的增強學習方法
圖3 融合模仿學習與增強學習的機器人操作技能學習過程
目前,國內外學者通過效仿人類進行操作技能學習的內在機制,將機器人操作技能學習系統(tǒng)劃分為四個功能模塊:機器人本體、感知與控制、技能模型與技能學習。其中,感知與控制是機器人本體與技能模型之間的中介層,通過視覺、觸覺、聽覺等傳感器實現(xiàn)對操作對象和環(huán)境的狀態(tài)感知,并由控制模塊實現(xiàn)機器人本體的運動控制與執(zhí)行。技能模型用于對經驗數(shù)據進行封裝,且不依賴于具體的機器人平臺,可以由一定的參數(shù)配置實例化為具體的技能,其參數(shù)通常由技能學習實現(xiàn)。下面將針對技能模型與技能學習方法的不同,對目前機器人操作技能學習的相關研究進行闡述。
為了賦予機器人“舉一反三”的操作能力,學界提出了機器人操作技能的高效率模仿學習方法,包括基于非線性動態(tài)系統(tǒng)和軌跡編碼兩種技能模型。該方法能夠充分利用人類的操作經驗,將人類的操作技能傳遞給機器人,具有高效率、低成本等優(yōu)點。
在動態(tài)系統(tǒng)方面,德國馬 普研究所的智能自主系統(tǒng)研究團隊通過利用一系列線性可微方程,對人類示教的機器人運動進行建模,提出了基于動態(tài)系統(tǒng)的操作技能模仿學習方法,命名為動態(tài)運動原語(DMP)。該方法繼承了非線性動態(tài)系統(tǒng)的條件收斂、對外界擾動的魯棒性和時間獨立性等優(yōu)點,無論受到何種外界干擾,模型都將收斂于目標點。在此基礎上,瑞士聯(lián)邦理工學院的學習算法與系統(tǒng)實驗室通過將機器人動力學與創(chuàng)新學習算法相結合,提出了一種基于非線性動態(tài)系統(tǒng)全局穩(wěn)定估計(stable estimator of dynamical systems,SEDS)的機器人操作技能模仿學習方法,將動態(tài)系統(tǒng)與概率統(tǒng)計模型相結合,給出全局穩(wěn)定性的約束條件,將參數(shù)估計問題轉化為最優(yōu)化問題對未知參數(shù)進行學習,實現(xiàn)了動態(tài)性很強的機器人復雜操作技能模仿學習,具有較強的抗干擾性和全局穩(wěn)定性。國內,哈爾濱工業(yè)大學采用動態(tài)運動原語與高斯回歸模 型(Gaussian mixture regression, GMR)進行人機技能遷移學習,提出了基于閾值的啟發(fā)式機器人操作任務分割算法,并在人機協(xié)作任務上進行泛化應用。華南理工大學提出了基于動態(tài)運動原語與模糊高斯混合回歸模型的人機技能傳遞系統(tǒng),并利用徑向基神經網絡進行機器人運動學估計,有效提升技能泛化的精度。廣東省科學院針對已有操作技能模型在未知環(huán)境下感知能力不足的問題,提出了基于動態(tài)運動原語的機器人自感知操作技能模型(introspective movement primitives, IMPs),不僅具備傳統(tǒng)機器人操作技能的運動特性,還兼?zhèn)淞送饨绲母兄芰?,并結合有限狀態(tài)機在機器人裝配及物流裝箱任務中進行了驗證,實現(xiàn)了機器人復雜多步操作任務的增長式表征。
在軌跡編碼方面,瑞士Idiap研究所通過高斯混合模型(Gaussian mixture model, GMM )和高斯回 歸 模 型(Gaussian mixture regression, GMR),對人類示教的經驗數(shù)據進行軌跡編碼,構建了操作空間的機器人操作技能模仿學習框架,且利用相對熵作為軌跡泛化性能的指標,保證了技能的穩(wěn)定性。德國達姆施塔特工業(yè)大學提出了概率運動基元(ProMP)對示范數(shù)據在時間和空間兩個維度的不確定性進行聯(lián)合建模,使技能模型具有運動預測及增加中間過渡節(jié)點的能力。英國利茲大學在GMM/GMR模型的基礎上采用了核函數(shù)對回歸函數(shù)進行建模,提出了核化運動基元(KMP)的機器人操作技能模仿學習方法,適用于高維輸入變量的情況。國內,華中科技大學針對人機技能模仿學習中任務約束的不確定性問題,提出了基于GMM/GMR模型的閉環(huán)式人機技能傳遞方法,有效提升技能模型泛化應用的精度和魯棒性。中國科學院自動化所提出了基于GMM/GMR的機器人微裝配技能模仿學習方法,實現(xiàn)了毫米級零件微米級精度的微裝配技能學習,實現(xiàn)人機高精度裝配技能的遷移。
為了賦予機器人“熟能生巧”的操作能力,學界提出了機器人操作技能的可持續(xù)增強學習方法,讓機器人以試錯的機制與環(huán)境進行交互,通過最大化累計獎賞的方式學習得到最優(yōu)操作技能策略。相比于模仿學習,該方法主要適用于人類難以示教,甚至不能示教,以及具有較高不確定性因素影響的操作任務,如打乒乓球、平底鍋翻餅、物體抓取等。
美國加州大學伯克利分校的機器人人工智能與學習實驗室提出了針對機器人操作任務的端到端深度視覺策略(visuomotor policy),將感知與控制融合于策略模型中,實現(xiàn)了直接由原始的觀測狀態(tài),包括機器人關節(jié)角、關節(jié)速度、末端位姿、末端速度和RGB圖像作為策略模型輸入,輸出機器人關節(jié)力矩。該方法不僅實現(xiàn)了較為復雜的操作技能,而且避免技能學習對相機標定、機器人動力學模型、視覺特征提取算法的依賴,展現(xiàn)較強的通用泛化能力,并在需要視覺和控制之間密切協(xié)調的擰蓋子任務進行了驗證。谷歌大腦耗時4個月采集了14臺真實機器人總共隨機進行80萬次抓取物體的數(shù)據進行抓取技能學習,成功率為82%;在此基礎上,為了提高效率,提出了一種off-policy的增強學習算法QT-Opt,并通過7臺真實機器人收集超過58萬次的抓取數(shù)據進行訓練,實現(xiàn)了對未知物體抓取成功率達96%。谷歌大腦聯(lián)合劍橋大學在4臺真實機器人上采集視覺、慣性測量單元、關節(jié)編碼器等多模異構信息融合的操作經驗數(shù)據,并基于深度增強學習算法進行機器人隨機目標點到達和開門技能的學習,平均成功率達90%。DeepMind提出了基于數(shù)據驅動的技能學習框架,在常見物體的抓放、堆疊等2種技能應用中的成功率分別為80%和60%,而該框架依賴于人工的偏好進行新技能的學習,需要重新設計網絡及經歷8小時~12小時的調試后才能實現(xiàn)一個簡單的插入技能應用。
國內,清華大學針對人類示教數(shù)據量不夠和質量不高的問題,提出了基于示教的操作技能增強學習方法,將技能建模成一個帶約束的優(yōu)化問題,實現(xiàn)了在專家示教附近尋找最優(yōu)的技能策略,大幅度提升了技能學習效率。山東大學將機器人裝配任務劃分為兩個階段,先由視覺引導進行精定位,再通過深度確定性策略網絡進行精裝配,提出了基于力/力矩和機器人本體運動量等多模信息描述的機器人柔性裝配技能學習方法,并在卡扣式裝配任務進行了驗證。騰訊機器人實驗室采用最小化操作技能逆動力學差異的方法,分析了由觀測和牽引示教兩種方式進行多自由度智能體技能學習的性能,并將相關方法在虛擬場景下進行了驗證。英特爾中國研究院提出了基于動態(tài)運動單元的機器人學習系統(tǒng),通過DMP對機器人操作技能進行表達后,采用增強學習算法實現(xiàn)投擲、做菜等任務。
機器人操作技能學習作為人工智能與機器人學的交叉領域,通過讓機器人從人類示教或與環(huán)境交互的經驗數(shù)據中進行操作技能的自主獲取與優(yōu)化,并擴展應用于未知環(huán)境或任務,是實現(xiàn)機器人快速編程、高效適應和靈巧操作的有效途徑。由于算法、算力、算據作為人工智能技術發(fā)展的三大支柱,同樣也直接決定了機器人操作技能學習的上限。
一方面,利用深度學習已經部分解決機器人通過視覺、觸覺、聽覺等傳感器進行外界感知的問題,并且基于模仿學習和增強學習理論框架,機器人操作技能已取得初步的成效,讓機器人具備一定的自主決策與學習能力,但目前大部分工作尚處于理論研究階段,機器人所實現(xiàn)的操作技能相對簡單,與人類相比還有較大的差距。在這個問題上,麻省理工學院機器人專家Leslie Pack Kaebl ing于2020在Science上發(fā)表一篇名為“The Foundation of Eff cient Robot Learning”的文章,指出要想實現(xiàn)下一代機器人學習的技術革新,必須綜合考慮工程原理、生物學靈感、系統(tǒng)設計階段學習以及最終的在線學習,才能打造出類人的智能機器人。
另一方面,目前機器人操作技能學習主要集中在單個機器人對單個任務的學習,缺乏從多個機器人、多個任務以及不同任務之間進行學習。為實現(xiàn)這一目標,需要對過往的操作經驗進行知識化表達,讓機器人學習到任務和環(huán)境的不變量并存儲起來,以便在學習新任務時利用它們,這就需要算力超強的“云端大腦”提供支撐,形成“云-邊-端”協(xié)同計算架構的機器人操作技能學習與應用平臺。
最后,在面臨算據不足的問題上,目前已提出了少樣本學習、遷移學習等理論框架,以及通過高逼真度的機器人物理仿真引擎,實現(xiàn)機器人操作技能的“虛-實”遷移,但都將難以消除“虛-實”之間的差異性。對此,構建具備硬件無關、傳感共享、技能派生和群體智能特征的云機器人平臺,將促進機器人操作技能學習技術更好落地應用。
機器人操作技能學習作為人工智能加持下的機器人編程新模式,已受到了社會各界的廣泛關注與認可,隨著人工智能與機器人技術的不斷突破,我們有理由相信,機器人將成為人類日常生活的一部分,在工業(yè)、服務、醫(yī)療、教育和軍工等領域提供幫助,并逐漸改變原有的產業(yè)模式,甚至是人類的生存模式。