李文華 楊子凝 王來貴
1.遼寧工程技術(shù)大學(xué)機(jī)械工程學(xué)院,阜新,1230002.遼寧工程技術(shù)大學(xué)力學(xué)與工程學(xué)院,阜新,123000
?
基于耦合算法的類人機(jī)器人模仿學(xué)習(xí)控制方法
李文華1楊子凝1王來貴2
1.遼寧工程技術(shù)大學(xué)機(jī)械工程學(xué)院,阜新,1230002.遼寧工程技術(shù)大學(xué)力學(xué)與工程學(xué)院,阜新,123000
為提高類人機(jī)器人模仿學(xué)習(xí)的準(zhǔn)確性及效率,建立了一種改進(jìn)的粒子群算法優(yōu)化超限學(xué)習(xí)機(jī)的模仿學(xué)習(xí)模型。采用非線性動(dòng)態(tài)系統(tǒng)對示教時(shí)的相關(guān)數(shù)據(jù)進(jìn)行建模;以動(dòng)態(tài)自適應(yīng)策略改進(jìn)粒子群算法的慣性權(quán)重,并利用改進(jìn)后的粒子群算法對超限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)參數(shù)進(jìn)行尋優(yōu);利用該耦合學(xué)習(xí)模型對模仿學(xué)習(xí)動(dòng)態(tài)系統(tǒng)的參數(shù)進(jìn)行學(xué)習(xí),并重現(xiàn)了模仿學(xué)習(xí)動(dòng)作。實(shí)驗(yàn)結(jié)果表明,該耦合算法應(yīng)用在類人機(jī)器人模仿學(xué)習(xí)方面具有很好的擬合精度、自適應(yīng)性及泛化能力,重現(xiàn)模仿學(xué)習(xí)動(dòng)作時(shí)的平均誤差為0.0172。
模仿學(xué)習(xí);超限學(xué)習(xí)機(jī);改進(jìn)粒子群優(yōu)化;非線性動(dòng)態(tài)系統(tǒng);耦合模型
機(jī)器人的智能化經(jīng)過多年的發(fā)展,已從傳統(tǒng)的自動(dòng)型機(jī)器人發(fā)展成為擁有感知、認(rèn)知等能力的智能型機(jī)器人,如何使其具有模仿學(xué)習(xí)力是智能型類人機(jī)器人發(fā)展和應(yīng)用的關(guān)鍵,也是機(jī)器人仿生機(jī)制研究的重要課題之一[1-2]。
模仿學(xué)習(xí)利用數(shù)值分析理論與計(jì)算機(jī)技術(shù)相融合的手段,已產(chǎn)生了多種模仿學(xué)習(xí)方法[3]。KHANSARI-ZADEH等[4]提出一種對示教動(dòng)態(tài)系統(tǒng)參數(shù)進(jìn)行學(xué)習(xí)的方法SEDS (stable estimator of dynamical systems),該方法以高斯混合函數(shù)為回歸模型對樣本數(shù)據(jù)進(jìn)行訓(xùn)練,在訓(xùn)練過程中保證了機(jī)器人模仿學(xué)習(xí)的收斂性。JIANG等[5]以迭代學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)為控制算法,對運(yùn)動(dòng)軌跡進(jìn)行跟蹤學(xué)習(xí),比前一種方法具有更好的泛化能力。NEUMANN等[6]以基于數(shù)據(jù)的李雅普諾夫候選函數(shù)為約束條件,利用超限學(xué)習(xí)機(jī)(extreme learning machine,ELM) 來學(xué)習(xí)運(yùn)動(dòng)曲線,實(shí)驗(yàn)表明該方法有一定的泛化能力且縮短了神經(jīng)網(wǎng)絡(luò)由于不斷迭代而增加的運(yùn)算時(shí)間。然而,由于ELM自身的運(yùn)算特點(diǎn),其在提升泛化能力及縮短訓(xùn)練時(shí)間的同時(shí)損失了一定的擬合精度。
為了使得類人機(jī)器人能快速、準(zhǔn)確地完成示教動(dòng)作,并具有一定的學(xué)習(xí)力,本文結(jié)合粒子群優(yōu)化(particle swarm optimization,PSO)算法及ELM各自的優(yōu)點(diǎn),利用PSO算法對ELM的網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化,以提高傳統(tǒng)ELM的精度,得到具有較強(qiáng)精度及泛化能力的類人機(jī)器人模仿學(xué)習(xí)耦合模型。該耦合模型在標(biāo)準(zhǔn)PSO算法的基礎(chǔ)上,通過動(dòng)態(tài)自適應(yīng)策略調(diào)整PSO算法的慣性權(quán)重,平衡其全局與局部搜索能力,提高了標(biāo)準(zhǔn)PSO算法的搜索效率。實(shí)驗(yàn)驗(yàn)證了該耦合模型的有效性、精度及泛化能力。
由非線性控制理論可知,一個(gè)時(shí)間連續(xù)的控制過程可以看成極短時(shí)間間隔的離散采樣過程。利用非線性動(dòng)態(tài)系統(tǒng)來描述機(jī)器人模仿學(xué)習(xí)過程,將模仿學(xué)習(xí)動(dòng)作分解為點(diǎn)到點(diǎn)的運(yùn)動(dòng)[7]。
在類人機(jī)器人模仿學(xué)習(xí)人類動(dòng)作的過程中,人類導(dǎo)師先利用機(jī)器人手臂末端執(zhí)行器做出要求的示教動(dòng)作,與此同時(shí),每間隔100 ms采集一次關(guān)節(jié)傳感器、觸覺傳感器等相關(guān)傳感器的數(shù)據(jù),并在笛卡爾空間下,利用正向運(yùn)動(dòng)學(xué)變換,將關(guān)節(jié)角度信息轉(zhuǎn)換為空間位置信息。
利用一階常微分方程對模仿學(xué)習(xí)過程進(jìn)行描述[8]:
(1)
ξ(t+1)=ξ(t)+f(ξ)Δt
(2)
式中,ξ(t)、ξ(t+1)分別為t、t+1時(shí)刻的機(jī)器人末端執(zhí)行器位置;Δt為采樣時(shí)間間隔。
將輸出的速度信息轉(zhuǎn)換為下一時(shí)刻的空間位置。最后進(jìn)行反向運(yùn)動(dòng)學(xué)運(yùn)算,重新將三維位置轉(zhuǎn)換為控制量,輸入到控制器中,以完成對類人機(jī)器人NAO的模仿學(xué)習(xí)控制過程,重現(xiàn)模仿學(xué)習(xí)動(dòng)作。模仿學(xué)習(xí)控制系統(tǒng)結(jié)構(gòu)如圖1所示。
圖1 模仿學(xué)習(xí)控制系統(tǒng)結(jié)構(gòu)圖Fig.1 Structure diagram of imitating learning control system
2.1 PSO算法及其優(yōu)化
PSO算法將待解決優(yōu)化問題的解看成d維空間上的“粒子”,每一個(gè)粒子在該空間上以一定的速度運(yùn)動(dòng),通過2個(gè)迭代方程對粒子當(dāng)前的速度與位置不斷地進(jìn)行更新,并憑借適應(yīng)度函數(shù)對粒子當(dāng)前位置的好壞進(jìn)行評判,以期得到優(yōu)化問題的最優(yōu)解[9]。
單個(gè)粒子在解空間中的位置和速度更新方程為
vjk(m+1)=λvjk(m)+c1R1(pb,jk(m)-xjk(m))+
c2R2(gb,jk(m)-xjk(m))
(3)
xjk(m+1)=xjk(m)+vjk(m+1)
(4)
式中,vjk(m+1)、xjk(m+1)分別為粒子j在解空間中第m+1次迭代運(yùn)算時(shí),第k維的搜索速度與位置;λ為慣性權(quán)重,表示原速度保留的程度;c1、c2為加速度系數(shù);R1、R2為隨機(jī)數(shù),取值范圍為(0,1);pb,jk、gb,jk分別為粒子j在迭代中第k維的個(gè)體最優(yōu)解與全局最優(yōu)解。
PSO算法的適應(yīng)度函數(shù)為
(5)
式中,N為訓(xùn)練樣本個(gè)數(shù);f(ξ)為ELM網(wǎng)絡(luò)輸出值。
PSO算法中,權(quán)重λ為控制粒子群搜索能力及收斂速度的重要參數(shù),其取值對算法的準(zhǔn)確性影響很大。λ取值較大時(shí),可提高PSO算法全局搜索能力;λ取值較小時(shí),可提高PSO算法局部搜索能力。由此,λ取值不當(dāng)時(shí),PSO算法可能出現(xiàn)搜索效率低、早熟及陷入局部最優(yōu)等問題。
目前,應(yīng)用較多的權(quán)重優(yōu)化方法為線性遞減權(quán)值確定法,此方法僅將λ與迭代次數(shù)關(guān)聯(lián),應(yīng)用于非線性復(fù)雜運(yùn)算時(shí),適應(yīng)性較差,因此采用一種動(dòng)態(tài)調(diào)整參數(shù)的方法,將PSO算法運(yùn)行過程中的粒子搜索速度v與λ相關(guān)聯(lián),即隨著v的變化調(diào)整λ的大小,可有效平衡粒子的全局及局部搜索能力,提高粒子尋優(yōu)效率,避免粒子陷入局部極值[10]。
慣性權(quán)重動(dòng)態(tài)調(diào)節(jié)公式為
(6)
式中,λ0為隨機(jī)初始值,λ0∈(0,1);λmax為權(quán)重最大值;λmin為權(quán)重最小值;Emax為粒子群中的最大適應(yīng)度;vj(m)、vj(m+1)分別為粒子j在第m次、m+1次迭代時(shí)的速度。
v增大,表示粒子遠(yuǎn)離最優(yōu)解,因此需加大λ,提高粒子全局搜索能力;v減小,表示粒子接近最優(yōu)解,此時(shí)需減小λ,以提高粒子局部搜索能力。
2.2 超限學(xué)習(xí)機(jī)
ELM是一種基于單隱層前饋神經(jīng)網(wǎng)絡(luò) (single hidden layer feed-forward neural networks,SLFNs)的新型學(xué)習(xí)方法,在學(xué)習(xí)過程中,將網(wǎng)絡(luò)的輸入層到隱藏層權(quán)重、隱藏層偏移量設(shè)置為隨機(jī)值,并在最小二乘約束條件下,對隱藏層輸出矩陣的Moore-Penrose廣義逆進(jìn)行求解,以此得到隱藏層到輸出層的權(quán)值[11],其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 SLFNs結(jié)構(gòu)圖Fig.2 SLFNs structure diagram
圖2中,xz為網(wǎng)絡(luò)的輸入;d、n、c分別為輸入層、隱藏層、輸出層節(jié)點(diǎn)個(gè)數(shù);oz為網(wǎng)絡(luò)的輸出:
(7)
矩陣形式為
Hβ=O
(8)
(9)
式中,βi為第i個(gè)隱藏層節(jié)點(diǎn)到輸出層的權(quán)重,βi=(βi1,βi2,…,βic);g(*)為激活函數(shù);wi為連接輸入層到第i個(gè)隱藏層節(jié)點(diǎn)的權(quán)值,wi=(wi1,wi2,…,wid);bi為第i個(gè)隱藏層節(jié)點(diǎn)的偏置;O為網(wǎng)絡(luò)的輸出矩陣;H為隱藏層輸出矩陣[12]。
g(·)為可微函數(shù)時(shí),
(10)
2.3 基于MPSO的參數(shù)優(yōu)化
ELM雖然具有網(wǎng)絡(luò)結(jié)構(gòu)簡單、訓(xùn)練速度快等優(yōu)點(diǎn),但當(dāng)wi、bi隨機(jī)取值不理想時(shí),會(huì)在一定程度上影響ELM的準(zhǔn)確性,因此本文利用MPSO算法將wi、bi作為該優(yōu)化算法中的“粒子”,通過對初始隨機(jī)解的不斷更新,求得最優(yōu)的wi、bi,投入到ELM網(wǎng)絡(luò)中,避免了ELM原始解法因參數(shù)wi、bi隨機(jī)取值且無后續(xù)更正機(jī)制而造成的整個(gè)網(wǎng)絡(luò)訓(xùn)練準(zhǔn)確性降低的問題[13-14]。
組合算法實(shí)際的訓(xùn)練步驟如下:
(1)初始化粒子群,對粒子群總數(shù)及運(yùn)算循環(huán)次數(shù)、慣性權(quán)重等參數(shù)進(jìn)行設(shè)定,并根據(jù)wi、bi的取值范圍設(shè)定每個(gè)粒子在維度空間中位置的邊界,限定種群中粒子的運(yùn)行速度。
(2)輸入訓(xùn)練樣本,進(jìn)行種群訓(xùn)練,根據(jù)式(3)~式(6)計(jì)算出每個(gè)粒子的適應(yīng)度E、pb、gb的值。進(jìn)入主循環(huán),在每一次迭代時(shí)分別將粒子的適應(yīng)度E、pb、gb進(jìn)行比較,取三者中的最小值為當(dāng)次迭代的最優(yōu)解,根據(jù)計(jì)算結(jié)果更新慣性權(quán)值,并對當(dāng)前粒子的位置與速度進(jìn)行更新。當(dāng)達(dá)到最大迭代次數(shù)或超出wi、bi的取值范圍時(shí),則退出迭代,得到粒子群的最優(yōu)解。
(3)將最優(yōu)解輸入到ELM網(wǎng)絡(luò)中,根據(jù)式(7)~式(10)進(jìn)行訓(xùn)練,并以網(wǎng)絡(luò)訓(xùn)練誤差[4]
(11)
來評價(jià)ELM網(wǎng)絡(luò)輸出結(jié)果的好壞。當(dāng)e小于設(shè)定值或達(dá)到最大訓(xùn)練次數(shù)時(shí),停止訓(xùn)練,即可得到最優(yōu)的模仿學(xué)習(xí)模型。
圖3 MPSO-ELM耦合模型結(jié)構(gòu)圖Fig.3 Structure diagram of MPSO-ELM coupled model
3.1 實(shí)驗(yàn)數(shù)據(jù)的采集
在實(shí)驗(yàn)平臺(tái)上做模仿學(xué)習(xí)實(shí)驗(yàn),采用Aldebaran Robotics公司研制的小型類人機(jī)器人NAO進(jìn)行模仿學(xué)習(xí)實(shí)驗(yàn)。
(a)動(dòng)作1 (b)動(dòng)作2
(c)動(dòng)作3 (d)動(dòng)作4圖4 示教實(shí)驗(yàn)過程圖Fig.4 Teaching experiment process diagram
示教者移動(dòng)機(jī)器人NAO手臂末端執(zhí)行器進(jìn)行示教,如圖4所示,選取實(shí)驗(yàn)過程中的4個(gè)重要關(guān)鍵點(diǎn)說明示教過程,以圖中黑色圓點(diǎn)為模仿學(xué)習(xí)軌跡的起始點(diǎn),以黑色六角星為終點(diǎn),按照圖中所示的軌跡進(jìn)行學(xué)習(xí)。圖4中,實(shí)線表示NAO已經(jīng)沿著模仿學(xué)習(xí)軌跡進(jìn)行了相應(yīng)的運(yùn)動(dòng),虛線表示NAO還未沿著該軌跡進(jìn)行相應(yīng)的運(yùn)動(dòng)。與此同時(shí),在上位機(jī)中,采用Monitor應(yīng)用軟件記錄模仿學(xué)習(xí)過程中的相關(guān)數(shù)據(jù)信息。
3.2 學(xué)習(xí)模型的參數(shù)設(shè)置及訓(xùn)練
將采集到的傳感器數(shù)據(jù)首先進(jìn)行歸一化處理,利用MPSO算法選取最優(yōu)的ELM權(quán)值和閾值。
PSO算法中,對其性能影響很大的兩個(gè)參數(shù)為粒子群總數(shù)、最大迭代次數(shù)。粒子總數(shù)選取過小,可能會(huì)因采樣點(diǎn)的缺失而造成整體算法性能的減退;粒子總數(shù)過大,會(huì)增加計(jì)算量及運(yùn)行時(shí)間。因此根據(jù)經(jīng)驗(yàn)將PSO的初始參數(shù)設(shè)定為:粒子群規(guī)模50,最大迭代次數(shù)200,加速度系數(shù)c1=c2=2,慣性權(quán)重λmax取0.9,λmin取0.3。
在ELM網(wǎng)絡(luò)中,激活函數(shù)g(·)類型、隱藏層節(jié)點(diǎn)個(gè)數(shù)n等對算法性能有較大影響,因此在迭代次數(shù)相同(100),隱藏層節(jié)點(diǎn)數(shù)目n不同的條件下,分別以Sigmoid函數(shù)、Multiquadric函數(shù)為ELM激活函數(shù),以訓(xùn)練誤差率及運(yùn)行時(shí)間為衡量性能好壞的指標(biāo),如表1所示。由表1可以看出,Sigmoid函數(shù)訓(xùn)練所需時(shí)間短,其最大時(shí)間增長率為9.79%,而Multiquadric函數(shù)為15.91%,由此可見Sigmoid函數(shù)有明顯的速度優(yōu)勢;隨著隱藏層節(jié)點(diǎn)的增多,兩函數(shù)的訓(xùn)練誤差均不斷減小,但Sigmoid函數(shù)誤差率普遍低于Multiquadric函數(shù),并在隱藏層節(jié)點(diǎn)數(shù)為120時(shí)達(dá)到最優(yōu),誤差為0.0863,因此選取Sigmoid函數(shù)為激活函數(shù),輸入層節(jié)點(diǎn)個(gè)數(shù)d為3,隱藏層節(jié)點(diǎn)數(shù)n設(shè)置為120。
表1 超限學(xué)習(xí)機(jī)不同激活函數(shù)訓(xùn)練結(jié)果Tab.1 Comparison of training results on different activation of ELM
根據(jù)式(6)對PSO的參數(shù)λ進(jìn)行動(dòng)態(tài)調(diào)整,并將訓(xùn)練后的適應(yīng)度函數(shù)曲線與傳統(tǒng)PSO進(jìn)行對比,如圖5所示。取前100次迭代后的運(yùn)算結(jié)果,可以看出,在同等誤差條件下,MPSO所需的迭代少,收斂較快,可有效避免算法早熟,減少迭代,提高了尋優(yōu)效率。
圖5 PSO與MPSO的適應(yīng)度曲線對比圖Fig.5 Comparison graph of adaptability curves between PSO and MPSO
3.3 相同數(shù)據(jù)集對比實(shí)驗(yàn)
為驗(yàn)證所提出的MPSO-ELM算法具有訓(xùn)練速度快、準(zhǔn)確率高等特點(diǎn),在利用相同數(shù)據(jù)樣本的前提下,將其與SEDS算法的模仿學(xué)習(xí)效果進(jìn)行比較。采用的運(yùn)行軟件為MATLAB R2015a,計(jì)算機(jī)配置為2.7 GHz Inter Core i5,內(nèi)存為8 GB。對比實(shí)驗(yàn)中樣本的數(shù)據(jù)來源于LASA(learning algorithms and systems laboratory)采集的多種人類手寫體數(shù)據(jù)庫[4]。以其中的CShape、Spoon、Line、Trapezoid、GShape等8種數(shù)據(jù)集為例,實(shí)驗(yàn)結(jié)果如圖6所示,其中,虛線為示教曲線,箭頭曲線為經(jīng)算法訓(xùn)練后從不同起始點(diǎn)出發(fā)的重現(xiàn)軌跡數(shù)據(jù)流,黑色點(diǎn)為目標(biāo)點(diǎn)。兩種算法在采用不同數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí)的運(yùn)行時(shí)間及誤差率如表2所示。
(a)SEDS算法
(b)MPSO-ELM圖6 MPSO-ELM與SEDS仿真結(jié)果Fig.6 MPSO-ELM and SEDS simulation results
由圖6、表2可以看出,SEDS、MPSO-ELM對數(shù)據(jù)集曲線進(jìn)行跟蹤學(xué)習(xí)時(shí)均有較好的表現(xiàn),但在保證收斂的前提下,MPSO-ELM在各組數(shù)據(jù)仿真時(shí)的運(yùn)行時(shí)間及誤差率普遍優(yōu)于SEDS,平均運(yùn)行時(shí)間為7.06 s,平均誤差率為0.153;在8種不同動(dòng)作數(shù)據(jù)集的工作空間內(nèi)進(jìn)行軌跡學(xué)習(xí)時(shí),以不同位置為起始點(diǎn)出發(fā)的數(shù)據(jù)流均能按照示教曲線的趨勢進(jìn)行很好的跟蹤,并最終收斂到目標(biāo)點(diǎn),說明MPSO-ELM模型具有很好的泛化性能。
3.4 模仿學(xué)習(xí)模型實(shí)驗(yàn)對比分析
對圖4中人類導(dǎo)師示教時(shí)采集的示教數(shù)據(jù),用3種不同的模仿學(xué)習(xí)模型進(jìn)行訓(xùn)練,結(jié)果如表3所示。其中,BP模型采用三層網(wǎng)絡(luò)結(jié)構(gòu),激勵(lì)函數(shù)為Sigmoid,隱藏層節(jié)點(diǎn)數(shù)為20,學(xué)習(xí)速率為0.2,最大訓(xùn)練次數(shù)為200。
表2 SEDS與MPSO-ELM學(xué)習(xí)效果Tab.2 Comparison of learning effect between SEDS and MPSO-ELM
表3 不同模仿學(xué)習(xí)模型訓(xùn)練結(jié)果對比Tab.3 Comparison of training results on different imitation learning models
可以看出ELM算法相較于其余3種模型,具有較高的收斂速度,節(jié)約了時(shí)間,MPSO與ELM的耦合算法雖然犧牲了部分時(shí)間,但換取了更好的精度,平均相對模仿誤差率為0.014。綜合以上可以看出,MPSO-ELM模型相較于其余3種模型在模仿學(xué)習(xí)方面有更好的表現(xiàn),提高了傳統(tǒng)ELM的準(zhǔn)確性。
3.5 軌跡跟蹤實(shí)驗(yàn)分析
利用MPSO-ELM耦合模型對示教軌跡曲線進(jìn)行跟蹤擬合,將該模型輸出運(yùn)算后的機(jī)器人NAO手臂關(guān)節(jié)角度與示教時(shí)采集的關(guān)鍵點(diǎn)關(guān)節(jié)角度進(jìn)行對比,如圖7所示。結(jié)合圖4中的示教動(dòng)作可知,NAO手臂末端執(zhí)行器從軌跡的起始點(diǎn)向終止點(diǎn)的運(yùn)動(dòng)過程中,關(guān)節(jié)角度呈先增大、后減小的趨勢。圖7中,經(jīng)耦合模型計(jì)算后的關(guān)節(jié)角度曲線很好地?cái)M合了示教過程中關(guān)節(jié)角度曲線的變化趨勢,平均誤差為0.0172,保證了對機(jī)器人重現(xiàn)示教動(dòng)作的控制精度。同時(shí),亦在一定程度上減小了關(guān)節(jié)角度的短時(shí)劇烈波動(dòng),使得角度曲線更加平穩(wěn)連貫,可降低驅(qū)動(dòng)電機(jī)損壞的風(fēng)險(xiǎn),并增強(qiáng)機(jī)器人控制系統(tǒng)的穩(wěn)定性。
圖7 示教與跟蹤模型處理后的角度Fig.7 Angle of teaching and tracking model result
(1)對模仿學(xué)習(xí)過程進(jìn)行分析,利用非線性控制理論對示教動(dòng)作進(jìn)行數(shù)學(xué)描述,將模仿學(xué)習(xí)轉(zhuǎn)化為數(shù)值問題,采用ELM網(wǎng)絡(luò)對其進(jìn)行映射。
(2)將MPSO算法引入到ELM網(wǎng)絡(luò)中,建立了模仿學(xué)習(xí)耦合模型。以動(dòng)態(tài)自適應(yīng)慣性權(quán)值策略優(yōu)化PSO算法,克服了標(biāo)準(zhǔn)PSO存在易早熟、局部收斂等缺陷,并將其用于超限學(xué)習(xí)機(jī)的參數(shù)優(yōu)化問題,提高了傳統(tǒng)ELM的準(zhǔn)確性。
(3)采用標(biāo)準(zhǔn)數(shù)據(jù)庫,將MPSO-ELM模仿學(xué)習(xí)耦合算法與SEDS方法相比較,實(shí)驗(yàn)結(jié)果表明,耦合算法具有更好的精度、較短的運(yùn)行時(shí)間以及較強(qiáng)的泛化能力,平均誤差率為0.153,平均運(yùn)行時(shí)間為7.06 s。
(4)將MPSO-ELM模型與BP模型、ELM模型、標(biāo)準(zhǔn)PSO-ELM模型在類人機(jī)器人模仿學(xué)習(xí)中的應(yīng)用效果進(jìn)行對比。MPSO-ELM模仿學(xué)習(xí)耦合模型具有更高的精度,平均誤差率為0.014,具有較好的自適應(yīng)性。
[1] 徐莉,劉振方,王建丞,等.仿人機(jī)器人綜述[J].黑龍江科學(xué),2013,4(7):57-61. XU Li,LIU Zhenfang,WANG Jiancheng,et al.Review on Humanoid Robot[J]. Heilongjing Science,2013,4(7):57-61.
[2] 劉濤,于建均,阮曉鋼.基于概率軌跡匹配的機(jī)器人模仿學(xué)習(xí)方法[J]. 計(jì)算機(jī)測量與控制,2015,23(11):3713-3720. LIU Tao,YU Jianjun,RUAN Xiaogang. Robot Imitation Learning Method Based on Trajectory Probability Matching[J]. Computer Measurement and Control,2015,23(11):3713-3720.
[3] 于建均,門玉森,阮曉鋼,等.模仿學(xué)習(xí)在機(jī)器人仿生機(jī)制研究中的應(yīng)用[J]. 北京工業(yè)大學(xué)學(xué)報(bào),2016,42(2):210-216. YU Jianjun,MEN Yusen,RUAN Xiaogang,et al. Application of Imitation Learning in the Research of Bionic Mechanism of Robots[J]. Journal of Beijing University of Technology,2016,42(2):210-216.
[4] KHANSARI-ZADEH S M,BILLARD A. Learning Stable Nonlinear Dynamical Systems with Gaussian Mixture Models [J]. IEEE Transactions and Robotics,2011,27(5):943-957.
[5] JIANG Ping,LI Ziyu,CHEN Yangquan.Iterative Learning Neural Network Control for Robot Learning from Demonstration[J]. Control Theory and Applications,2004,21(3):447-452.
[6] NEUMANN K,LEMME A,STEIL J J. Neural Learning of Stable Dynamical Systems Based on Data-driven Lyapunov Candidates[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems. Tokyo,2013:1216-1222.
[7] SICILIANO B,KHATIB O. Handbook of Robotics[M]. New York:Springer,2008.
[8] 白彥偉.基于微分幾何移動(dòng)機(jī)械臂非線性控制的研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2007. BAI Yanwei. Nonlinear Control Research of Mobile Manipulators Based on Differential Geometry [D]. Harbin:Harbin Institute of Technology,2007.
[9] 吳曉剛,王旭東,余騰偉,等. 基于粒子群優(yōu)化的電磁離合器模糊控制研究[J]. 中國機(jī)械工程,2010,21(9):1071-1077. WU Xiaogang,WANG Xudong,YU Tengwei,et al. Research on Fuzzy Control of Electromagnetic Clutch Based on Particle Swarm Optimization[J]. China Mechanical Engineering,2010,21(9):1071-1077.
[10] 王輝,朱龍彪,朱天成,等.基于粒子群遺傳算法的泊車系統(tǒng)路徑規(guī)劃研究[J].工程設(shè)計(jì)學(xué)報(bào),2016,23(2):195-200. WANG Hui,ZHU Longbiao,ZHU Tiancheng,et al. Research on Path Planning of Parking System Based on PSO-Genetic Hybrid Algorithm[J]. Chinese Journal of Engineering Design,2016,23(2):195-200.
[11] HUANG Guangbin,ZHOU Hongming,DING Xiaojian. Extreme Learning Machine for Regression and Multiclass Classification[J]. IEEE Transactions Systems,Man,and Cybernetics,2012,42(2):513-528.
[12] FENG Guorui,HUANG Guangbin,LIN Qingping,et al. Error Minimized Extreme Learning Machine with Growth of Hidden Nodes and Incremental Learning[J]. Transactions on Neural Networks,2009,20(8):1352-1357.
[13] ZHANG Yannan,DING Shifei,XU Xinzheng,et al. An Algorithm Research for Prediction of Extreme Learning Machine Based on Rough Sets [J]. Journal of Computers, 2013,8(5):1335-1342.
[14] 何群,李磊,江國乾,等. 基于PCA和多變量極限學(xué)習(xí)機(jī)的軸承剩余壽命預(yù)測[J]. 中國機(jī)械工程,2014,25(7):984-989. HE Qun,LI Lei,JIANG Guoqian,et al. Residual Life Predictions for Bearings Based on PCA and MELM[J]. China Mechanical Engineering,2014,25(7):984-989.
(編輯 張 洋)
Imitation Learning Control Method of Humanoid Robots Based on Coupling Algorithm
LI Wenhua1YANG Zining1WANG Laigui2
1.School of Mechanical Engineering,Liaoning Technical University,Fuxin,Liaoning,1230002.School of Mechanics and Engineering,Liaoning Technical University,Fuxin,Liaoning,123000
To improve accuracy and efficiency in learning from demonstrations by humanoid robots, an imitation learning model was established based on improved PSO to optimize extreme learning machine, to learn human motions on the robots herein. A set of motions which was performed by a human demonstrator were collected to model as a nonlinear autonomous dynamical system. PSO was improved with the dynamic adaptive inertia weight. Then the improved PSO was merged with ELM to optimize network parameters. Using a mathematical model of improved PSO-ELM to learn the parameters of the dynamic system and reproduce human motions. The experimental results prove the method has a better fitting precision, adaptability and generalization ability on imitation learning of humanoid robots. The average relative errors are as 0.0172 of human motion reproductions.
imitation learning; extreme learning machine(ELM); improved particle swarm optimization(MPSO); nonlinear dynamic system; coupling model
2016-08-29
國家自然科學(xué)基金資助項(xiàng)目(51474121);遼寧省教育廳資助項(xiàng)目(L2015214)
TP242.6
10.3969/j.issn.1004-132X.2017.14.017
李文華,男,1964年生。遼寧工程技術(shù)大學(xué)機(jī)械工程學(xué)院教授、博士研究生導(dǎo)師。主要研究方向?yàn)闄C(jī)電液一體化及智能控制、流體機(jī)械及工程。發(fā)表論文50余篇。楊子凝(通信作者),女,1988年生。遼寧工程技術(shù)大學(xué)機(jī)械工程學(xué)院博士研究生。E-mail:yangzining163@163.com。王來貴,男,1962年生。遼寧工程技術(shù)大學(xué)力學(xué)與工程學(xué)院教授、博士研究生導(dǎo)師。