中國科學(xué)院深圳先進(jìn)技術(shù)研究院智能仿生研究中心歐勇盛研究團(tuán)隊(duì)在機(jī)器人動態(tài)系統(tǒng)示教學(xué)習(xí)方面的研究取得進(jìn)展。相應(yīng)成果為“Duan JH, Ou YS, Hu JB, et al. Fast and stable learning of dynamical systems based on extreme learning machine[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2019, 49(6): 1175-1185(基于超限學(xué)習(xí)機(jī)的動態(tài)系統(tǒng)快速穩(wěn)定學(xué)習(xí))”。
機(jī)器人操作的應(yīng)用場景廣泛、潛力巨大,但無論是在常規(guī)環(huán)境中,如工廠中拾取工件或搬運(yùn)貨物、家庭中協(xié)助取物或打掃衛(wèi)生,還是在特殊環(huán)境中,如海底進(jìn)行沉船打撈、空間站從事在軌加注實(shí)驗(yàn),機(jī)器人都必須掌握復(fù)雜精巧任務(wù)的操作能力。但就現(xiàn)階段而言,大部分機(jī)器人仍然部署在結(jié)構(gòu)化環(huán)境中,按照人工預(yù)定義的規(guī)則從事單一、重復(fù)和具有規(guī)律性的工作。對于許多人類能掌握的復(fù)雜技能,機(jī)器人仍然很難有效地掌握。因此,賦予機(jī)器人從人類的經(jīng)驗(yàn)和習(xí)慣中學(xué)習(xí)控制策略的能力,實(shí)現(xiàn)對更復(fù)雜一類操作技能的掌握,是提高機(jī)器人智能化水平、降低機(jī)器人使用門檻和部署周期、促進(jìn)產(chǎn)業(yè)升級的重要途徑。
該研究采用示教學(xué)習(xí)(Learning from Demonstrations)技術(shù)通過從人類示教的數(shù)據(jù)中建立動態(tài)系統(tǒng)模型,使機(jī)器人理解和學(xué)習(xí)點(diǎn)到點(diǎn)運(yùn)動技能。具體地,提出一種機(jī)器人動態(tài)系統(tǒng)快速穩(wěn)定的學(xué)習(xí)方法——將機(jī)器人的點(diǎn)到點(diǎn)運(yùn)動過程建模為一個自治的動態(tài)系統(tǒng),并使用超限學(xué)習(xí)機(jī)(Extreme Learning Machine)這種結(jié)構(gòu)簡單、訓(xùn)練快速的神經(jīng)網(wǎng)絡(luò)對模型進(jìn)行訓(xùn)練。同時,為保證訓(xùn)練出的系統(tǒng)具有穩(wěn)定性,將李雅普諾夫穩(wěn)定性約束融入到機(jī)器人點(diǎn)到點(diǎn)運(yùn)動學(xué)習(xí)的優(yōu)化過程中,確保到點(diǎn)運(yùn)動既能最大程度地模仿人類示教的輪廓,也能穩(wěn)定收斂到期望的目標(biāo)位置。
基于洛桑聯(lián)邦理工學(xué)院 LASA 實(shí)驗(yàn)室開發(fā)的手寫運(yùn)動數(shù)據(jù)集,將所提出的方法與現(xiàn)有方法進(jìn)行對比實(shí)驗(yàn)。結(jié)果顯示,所提出的方法在綜合考慮準(zhǔn)確性、穩(wěn)定性和學(xué)習(xí)速度的情況下,與現(xiàn)有 SEDS 方法相比,精度提高了 17%~27%,訓(xùn)練速度提高了 68%~84%。
該研究所提出的示教學(xué)習(xí)方法充分利用了前饋神經(jīng)網(wǎng)絡(luò)超限學(xué)習(xí)機(jī)的快速學(xué)習(xí)能力和李雅普諾夫理論對穩(wěn)定性的約束能力,構(gòu)成了解決控制穩(wěn)定性、復(fù)現(xiàn)精度和學(xué)習(xí)效率三者矛盾的新方案,是傳統(tǒng)控制理論在智能機(jī)器人技術(shù)中的新突破。所提出的方法體現(xiàn)了機(jī)器人能夠在掌握人類控制策略或行為習(xí)慣的前提下,完成預(yù)期的任務(wù)目標(biāo),反映出一定的泛化性與實(shí)用性。
圖 1 基于動態(tài)系統(tǒng)的點(diǎn)到點(diǎn)運(yùn)動學(xué)習(xí)流程圖
圖 2 20 組手寫運(yùn)動學(xué)習(xí)后的復(fù)現(xiàn)運(yùn)動軌跡