廣東工業(yè)大學(xué)自動(dòng)化學(xué)院 彭澤榮 張學(xué)習(xí) 王建樺
基于極限學(xué)習(xí)機(jī)的仿真機(jī)器魚動(dòng)作策略
廣東工業(yè)大學(xué)自動(dòng)化學(xué)院 彭澤榮 張學(xué)習(xí) 王建樺
針對(duì)URWPGSim2D仿真平臺(tái),為實(shí)現(xiàn)機(jī)器魚快速、準(zhǔn)確的調(diào)整,本文將機(jī)器魚的狀態(tài)定義為“調(diào)整”和“推球”,并提出基于極限學(xué)習(xí)機(jī)的動(dòng)作決策模型,利用此模型自主選擇相應(yīng)的動(dòng)作策略。動(dòng)作決策模型根據(jù)當(dāng)前時(shí)刻周圍的環(huán)境信息,利用極限學(xué)習(xí)機(jī)確定機(jī)器魚的狀態(tài),自主選擇當(dāng)前時(shí)刻的最優(yōu)擊球點(diǎn),并確定機(jī)器魚速度和角速度檔位的最優(yōu)組合。經(jīng)URWPGSim2D仿真平臺(tái)驗(yàn)證結(jié)果表明:機(jī)器魚可根據(jù)策略調(diào)整路徑,選擇合適的動(dòng)作策略,以更少的時(shí)間代價(jià)完成比賽。這說明基于極限學(xué)習(xí)機(jī)的動(dòng)作決策策略能充分考慮機(jī)器魚和水球的實(shí)時(shí)信息,在不同情況下選擇不同的策略,具有很強(qiáng)的適應(yīng)能力,滿足仿真機(jī)器魚對(duì)于動(dòng)作決策的要求。
URWPGSim2D仿真;機(jī)器魚;極限學(xué)習(xí)機(jī);動(dòng)作決策
隨著海洋科技的長(zhǎng)足發(fā)展,水中機(jī)器人的應(yīng)用變得越來越廣泛,關(guān)于仿真水中機(jī)器人的研究也成為該領(lǐng)域的研究熱點(diǎn)之一[1]。近年來,國(guó)內(nèi)外爭(zhēng)相舉辦各類機(jī)器人大賽,以期在比賽中交流機(jī)器人研究領(lǐng)域的新思想和新進(jìn)展,其中,北京大學(xué)聯(lián)合多所高校和科研所建立的URWPGSim2D仿真平臺(tái)就是一個(gè)很好的水中機(jī)器人研究平臺(tái)。該平臺(tái)以魚作為仿真對(duì)象,以充滿擾動(dòng)的仿生水作為仿真環(huán)境,提供了一種仿真水中機(jī)器人水球比賽實(shí)時(shí)仿真系統(tǒng),旨在通過各種比賽項(xiàng)目[2],研究多仿真體的協(xié)作性和智能性[3]。
為了使機(jī)器魚在動(dòng)態(tài)變化環(huán)境中完成指定的任務(wù),必須讓機(jī)器魚精確地運(yùn)動(dòng)到指定位置,換句話說,點(diǎn)對(duì)點(diǎn)控制效果決定了機(jī)器魚的控制效果。機(jī)器魚點(diǎn)對(duì)點(diǎn)(PTP)控制算法是喻俊志、陳爾奎等人提出來的,該算法的目的是消除機(jī)器魚在初始方向、位置與目標(biāo)點(diǎn)之間的方向誤差和距離誤差[4]。由于機(jī)器魚所處環(huán)境因素的不確定性,以及機(jī)器魚在游動(dòng)的過程中水對(duì)機(jī)器魚的干擾,導(dǎo)致機(jī)器魚點(diǎn)對(duì)點(diǎn)控制效果不理想。
針對(duì)上述不足,本文提出了基于極限學(xué)習(xí)機(jī)的動(dòng)作控制算法,根據(jù)實(shí)驗(yàn)數(shù)據(jù)設(shè)計(jì)控制模型。實(shí)驗(yàn)結(jié)果表明,基于極限學(xué)習(xí)機(jī)的動(dòng)作控制算法能優(yōu)化機(jī)器魚的游動(dòng)路徑,提高機(jī)器魚的控制效果。
本文將基于該平臺(tái),針對(duì)“水中搬運(yùn)”項(xiàng)目,對(duì)其比賽策略進(jìn)行研究。
在2006年,黃廣斌教授提出了前饋神經(jīng)網(wǎng)絡(luò)的極限學(xué)習(xí)概念,并詳細(xì)介紹了基本原理[5]。極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)是一種特殊類型的單隱藏層前饋神經(jīng)網(wǎng)絡(luò),它僅有一個(gè)隱藏節(jié)點(diǎn)層。后來將它擴(kuò)展到通用的單隱藏層前饋神經(jīng)網(wǎng)絡(luò),它的隱結(jié)點(diǎn)類似神經(jīng)元[6]。極限學(xué)習(xí)機(jī)的基本組成如下:
圖1 極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)結(jié)構(gòu)圖
通常,描述標(biāo)準(zhǔn)的SLFNs模型能夠零誤差地逼近上述N個(gè)樣本,表示的是:
即存在w、β和b,使得:
利用矩陣表示時(shí),(2)可以緊湊地寫成:
當(dāng)w和b固定時(shí),等價(jià)于求線性系統(tǒng)(3)的最小二乘解,即:
得到:
其中H?是H的Moore-Penrose廣義逆[8]。而最小范數(shù)的最小平方解具有唯一性,使其訓(xùn)練誤差達(dá)到最小。也就是說,對(duì)于隨機(jī)賦值的輸入權(quán)值和偏置向量,只要設(shè)置合適的隱含層神經(jīng)元個(gè)數(shù),可以通過求取線性方程的最小二乘解來得到隱含層的權(quán)值。
3.1 擊球點(diǎn)的確定
本文根據(jù)機(jī)器魚當(dāng)前時(shí)刻周圍的環(huán)境信息來選擇擊球點(diǎn),并采取相應(yīng)的動(dòng)作策略。如圖2所示,連接地標(biāo)中心點(diǎn)與水球球心,連線交水球遠(yuǎn)端處為P點(diǎn),過水球球心作此連線的垂線,此時(shí)將場(chǎng)地劃分為I、II、III、IV四個(gè)區(qū)域;然后以P點(diǎn)為圓心,水球直徑為半徑作圓,此圓與垂線相交于A、B兩點(diǎn)。則:若機(jī)器魚處于I區(qū)域,以A點(diǎn)為擊球點(diǎn);若機(jī)器魚處于II區(qū)域,以B點(diǎn)為擊球點(diǎn);若機(jī)器魚處于III、IV區(qū)域,以P點(diǎn)為擊球點(diǎn)。這樣做的好處是,當(dāng)機(jī)器魚處于“調(diào)整”狀態(tài)時(shí),通過A點(diǎn)(或者B點(diǎn))不僅可以達(dá)到調(diào)整的目的,而且能夠保證機(jī)器魚在整個(gè)調(diào)整過程中盡量靠近水球,從而縮短進(jìn)入“推球”狀態(tài)時(shí)機(jī)器魚與水球的距離。
圖2 擊球點(diǎn)確定示意圖
3.2 機(jī)器魚位置的確定
圖3 機(jī)器魚位置確定示意圖
利用θ和D確定機(jī)器魚位置的過程如下:
通過抽象出θ和D,不僅能更精確的描述機(jī)器魚的位置,而且只有兩個(gè)特征參數(shù),降低了計(jì)算復(fù)雜度,減少了運(yùn)算時(shí)間。
本文基于URWPGSim2D平臺(tái),針對(duì)“水中搬運(yùn)”項(xiàng)目,分別建立了基于BP神經(jīng)網(wǎng)絡(luò)和基于極限學(xué)習(xí)機(jī)的仿真機(jī)器魚動(dòng)作決策模型,并討論這兩個(gè)模型的優(yōu)劣。
本文通過MATLAB仿真實(shí)驗(yàn)來獲取機(jī)器魚動(dòng)作控制模型中極限學(xué)習(xí)機(jī)和單隱含層BP神經(jīng)網(wǎng)絡(luò)的最優(yōu)隱含層神經(jīng)元個(gè)數(shù)。實(shí)驗(yàn)中使用500個(gè)訓(xùn)練樣本數(shù)據(jù),100個(gè)測(cè)試數(shù)據(jù),測(cè)試的隱結(jié)點(diǎn)個(gè)數(shù)分別為100、150、200、250、300、350、400,測(cè)試結(jié)果如圖4所示。最終得到:當(dāng)極限學(xué)習(xí)機(jī)的隱含層神經(jīng)元個(gè)數(shù)為250,單隱含層BP神經(jīng)網(wǎng)絡(luò)的隱含層神經(jīng)元個(gè)數(shù)為160時(shí),兩種模型的學(xué)習(xí)精度比較高,能夠準(zhǔn)確定位機(jī)器魚,為機(jī)器魚的動(dòng)作決策提供良好的基礎(chǔ)。
圖4 隱結(jié)點(diǎn)個(gè)數(shù)測(cè)試結(jié)果
綜合上述分析,分別對(duì)BP神經(jīng)網(wǎng)絡(luò)、極限學(xué)習(xí)機(jī)進(jìn)行建模。兩個(gè)模型均采用三層拓?fù)浣Y(jié)構(gòu),輸入層的神經(jīng)元個(gè)數(shù)為2,隱藏層的神經(jīng)元個(gè)數(shù)分別為160、250,輸出層神經(jīng)元個(gè)數(shù)為1。所得結(jié)果見表1:
表1 兩種算法的性能比較
從表1可以看出,BP算法搜索最優(yōu)解的偏差過大,而極限學(xué)習(xí)機(jī)能以更短的時(shí)間,以及更高的精確度對(duì)全局最優(yōu)解進(jìn)行搜索,換言之,極限學(xué)習(xí)機(jī)在時(shí)間和精度方面都要優(yōu)于BP算法。實(shí)驗(yàn)結(jié)果表明,極限學(xué)習(xí)機(jī)具有更好的性能。
基于極限學(xué)習(xí)機(jī)的仿真機(jī)器魚策略綜合考慮了水下環(huán)境的復(fù)雜性及機(jī)器魚自身結(jié)構(gòu)和運(yùn)動(dòng)的特點(diǎn),首次提出以地標(biāo)為坐標(biāo)原心,通過水球、機(jī)器魚的斜率θ與距離D來判斷三者的相對(duì)位置,從而正確的確定機(jī)器魚的狀態(tài)。并根據(jù)機(jī)器魚在頂球過程中的連貫性,利用極限學(xué)習(xí)機(jī)讓機(jī)器魚自主選擇擊球點(diǎn),使得頂球更加平穩(wěn)快速。經(jīng)過在URWPGSim2D平臺(tái)上運(yùn)行該算法編寫的程序,效果明顯。由實(shí)驗(yàn)結(jié)果可知:該優(yōu)化策略能夠很好地完成比賽,不但提高了策略的穩(wěn)定性,而且具有很強(qiáng)的適應(yīng)能力,滿足仿真機(jī)器魚對(duì)于動(dòng)作決策的要求,說明這種方法是可靠、可行的。
[1]謝廣明.機(jī)器人水球比賽項(xiàng)目推介書[M].北京:北京大學(xué)工學(xué)院,2009:1-5.
[2]黃永安,馬路,劉惠敏.Matlab7.0/simulink 6.0建模仿真開發(fā)與高級(jí)工程應(yīng)用[M].北京:清華大學(xué)出版社,2007:1-75.
[3]喻俊志,陳爾奎,王碩,等.仿生機(jī)器魚研究的進(jìn)展與分析[J].控制理論與應(yīng)用,2003,4(4):485-491.
[4]J.Liu,I.Dukes,and H.Hu.Novel mechatronics design for a robotic fish.In Proc.IEEE/RSJ International Conference on Intelligent Robots and Systems,pages 2077-2082,2005
[5]G.B.Huang,Q.Y.Zhu,C.K.Siew.Extreme learning machine:theory and applications[J].Neurocom-puting,2006,70:489-501.
[6]G.B.Huang,L.Chen.Convex incremental extreme learning niachine[J].Neurocomputing,2007,70:3056-3062.
[7]P.L.Bartlett.The sample complexity of patteni classification with neural networks;the size of the weights is more important than the size of the network[J].IEEE Transactions on Information Theory,1998,44:525-536.
[8]K.S.Baneijee.Generalized inverse of matrices and its applications[J].Technometrics,1973,15:197-202.
The Simulation Robotic Fish Action Strategy Based on Extreme Learning Machine
Peng Zerong Zhang Xuexi Wang Jianhua
Aiming at URWPGSim2D simulation platform,in order to realize rapid and accurate adjustment of simulation robotic fsh,this paper defned the state of robotic fsh for"adjustment"and"push ball",and action decision model based on extreme learning machine is put forward.By using this model,the corresponding action strategies are selected.In the action decision model,according to the current environment information around the robotic fsh,the state of the robotic fsh is determined by the extreme learning machine.Then the fsh can independently choose the optimal hitting point of the current time,and determine the optimal combination of velocity and angular velocity.Verifed by URWPGSim2D simulation platform show that:the robotic fsh can choose the appropriate action strategy to adjust its path by using the action decision model,and complete the competition with less time.This shows that action decision-making strategy based on extreme learning machine can fully consider the real-time information of robotic fsh and water polo,choose a different strategy in different cases,have a strong ability to adapt,meet the requirements of simulation robotic fsh for the action decisions.
URWPGSim2D;robotic fsh;extreme learning machine;action decision-making
國(guó)家自然科學(xué)基金(61573108)。
彭澤榮,男,廣東汕頭人,研究生,主要研究方向:智能控制與信息處理技術(shù)。
張學(xué)習(xí),男,江蘇徐州人,博士,副教授,主要研究方向:智能控制與信息處理技術(shù)。