危清清,林云成,肖 軒,陳 磊,劉 賓,王耀兵
(1.空間智能機器人系統(tǒng)技術與應用北京重點實驗室,北京100094;2.中國空間技術研究院北京空間飛行器總體設計部,北京100094;3.清華大學航天學院,北京100084)
雙足機器人是目前機器人的研究熱點之一,其行走控制分為基于參考軌跡的控制和基于模型的動態(tài)控制。基于參考軌跡的方法是雙足機器人中較為常見的算法,通過控制關節(jié)力矩使關節(jié)按照事先規(guī)劃好的參考軌跡運動,可實現復雜動作。但算法實現較復雜,效率低,不能深入揭示雙足行走穩(wěn)定性、適應性和高效率的內在機理[1]?;谀P偷膭討B(tài)控制方法借鑒已有的物理模型對行走過程進行簡化,如倒立擺模型、被動步態(tài)模型,彈簧質量模型等。其中被動步態(tài)模型大大簡化了雙足行走機構,通過研究雙足運動的內在固有特點,能揭示雙足行走高效、穩(wěn)定的內在機理。
有限循環(huán)行走(Limit Cycle Walking)是被動步態(tài)模型的延伸,可使行走系統(tǒng)在步態(tài)周期的每個瞬間都能獲得穩(wěn)定的周期性行走,而不需要局部維持行走運動的穩(wěn)定。利用物理動力學和被動性,有限循環(huán)行走機構(Limit Cycle Walkers)在產生自然和節(jié)能的動態(tài)步態(tài)方面具有明顯優(yōu)勢[2-3]。由于時間和空間的不可逆性,準確地產生目標行走速度對于有限循環(huán)行走系統(tǒng)來說具有挑戰(zhàn)性。因此,在每一步中對離散時間段和空間段的整體規(guī)劃對于行走系統(tǒng)目標速度控制是必要的。
Hobbelen等[4-5]研究了如何改變行走速度,何種方式在節(jié)能上是有益的,以及行走速度如何影響行走系統(tǒng)在有限循環(huán)行走中處理干擾的能力。Kajita等[6]提出了通過改變雙足行走系統(tǒng)的立足點來修改支撐相的初始條件,利用基于PD反饋控制器控制行走速度。此外,Juang等[7]提出一種學習方案,訓練神經模糊控制器使其盡可能地遵循設計的軌跡,以一定的速度產生行走步態(tài)。針對限制環(huán)行走的收斂步態(tài),Xiao等[8-9]提出一種基于模型的控制,以便在處理干擾時保持目標步行速度。
然而,作為基于模型的控制器的屬性,其性能通常取決于所有物理模型參數。因此,用于預測質量、尺寸等動力學參數的參數識別方法[10-11]成為解決方案,并且提出能夠處理預測誤差的魯棒控制器作為解決該問題的另一種選擇。由于預測參數誤差直接反映了行走系統(tǒng)的性能,而基于模型的控制器的性能可以有助于預測物理參數,優(yōu)化行走性能。
本文提出一種基于模型的反饋控制器,以實現有限循環(huán)行走,且根據行走過程中神經網絡預測物理參數,以減少行走機構產生的目標狀態(tài)物理參數對基于模型的控制器的依賴性。
組合無框輪(Combined Rimless Wheel,CRW)的模型搭建、動力學分析、碰撞過程建模是本文控制器的設計基礎。
平面主動CRW的模型如圖1所示,它由2個八腿無框輪(Rimless Wheels,RWs)組成一個車身框架。每個RW的質量為m,兩腿間夾角為α=腿長l,支撐腿與重垂線的夾角為θ,g是重力加速度。框架上的電動機在后站立腿和車身框架之間施加關節(jié)轉矩u,可以驅動CRW在平地上行走,作如下假設:
1)前后站立腿始終與地面接觸而不會滑動;
2)關于所有框架的質心的慣性矩可以忽略不計;
3)前后RW完全同步或旋轉保持關系θ1=θ2。
圖1 平面主動組合無框輪Fig.1 A planar active CRW
在CRW中,通過步進時段和步長之間的比率來計算穩(wěn)定步行速度。因此,可通過恒定步長控制步長周期來產生目標穩(wěn)步行走速度狀態(tài)。
1個四連桿機構由車身框架、2個站立腿和地面組成,施加關節(jié)轉矩相當于施加踝關節(jié)轉矩。此外還考慮接頭粘度的轉矩fv=-kvθ,其中kv是粘滯摩擦系數。因此,后部RW的動力學與具有踝關節(jié)轉矩和粘性摩擦的主動RW的動力學方程相同,即式(1):
其中m是單個RW的質量,mb是連接工裝的質量,則M=mb+2 m是CRW的總質量,單位kg。θ=θ1=θ2是站立角度,ω = g/l。 通過在0附近時的線性化θ≈sinθ[12],RW動態(tài)的狀態(tài)空間實現可表示,見式(2)。
其中^kv=kv/Ml2。 因此將式(2)表示為式(3):
需要注意的是,式(2)僅用于控制系統(tǒng)設計。所有模擬都通過式(1)中的動力學方程進行??梢钥闯?,當基于式(1)設計控制系統(tǒng)時,由于式(2)中的線性化,模擬中生成的行走狀態(tài)不能完全滿足預期結果。根據本文的仿真結果,誤差是可以接受且可以消除的。
其中,Ic代表CRW的慣性矩。本文忽略慣性矩的影響 Ic=0( ),則μ簡化為μ=cosα。
在控制系統(tǒng)中,轉矩是基于當前時間和狀態(tài)動態(tài)更新的。沖擊時刻定義為0 s,并且每次沖擊后立即重置時間參數。轉矩必須提供足夠的動能以使CRW克服潛在的障礙。另外,如果步行速度太快以至于在下一次撞擊之前無法完成控制,則無法保證目標步行速度。
本文的控制規(guī)則是基于恒定轉動力矩控制器提出的,電機遵循恒定轉矩策略而不是設計指定的位置軌跡。即當干擾發(fā)生時,行走系統(tǒng)可以根據當前狀態(tài)和目標狀態(tài)提出新的路線規(guī)劃。通過更新休息時間的控制計劃,可以處理干擾并且可以保證目標行走狀態(tài)。
基于式(2),可以得到RW的動力學方程。因此,微分方程·x=Ax+B u的解,在第i+1次撞擊之前的狀態(tài)向量可由在第i次撞擊之后的狀態(tài)量表示[11],見式(7):
類似地,在t時,狀態(tài)向量xit()可以由時間t和初始狀態(tài)向量xi0()表示為式(8):
因此,在t時,本文假設為剩下的時間T*s-t保持恒定的控制輸入uit(),以產生如下的終端條件 xiTi( )[12],見式(9)。
因此,在分析上述角位置方程后,導出uit()以產生目標步長周期狀態(tài)Ti=T*s見式(11):
盡管已經提出了控制律,然而存在式(12):
系統(tǒng)誤差會經由式(11)產生。在這里,提出一個簡單的解決方案:當Tr<0.001時,令uit()=0。
另外,粘度摩擦的物理參數kv通常不能準確得到,這明顯影響了控制器的性能。其他參數M和l也被認為是未知參數。因此,在式(11)計算輸入轉矩時,在一定的合理范圍內M、l和kv全部由Mp、lp和kvp的預測參數代替。反饋控制的流程圖如圖2所示。如果CRW可以不斷地反饋行走實時的狀態(tài),且控制系統(tǒng)不斷地基于當前時間t和步行狀態(tài)xit()通過式(11)計算新的控制輸入uit(),則可以產生目標步行速度并且提高處理干擾的能力。此外,基于模型的控制動態(tài)地更新控制轉矩,是難以預先分析每個步驟中的軌跡的。反饋控制的穩(wěn)定性將是本文未來需要研究的工作。
圖2 控制流程圖Fig.2 Flow chart of control
為測試控制器的性能,在預測參數下進行數值模擬。使RW以每步0.4 s的目標速度行走,選擇了2組特定的預測參數:一組與實際物理參數完全相等,另一組與實際值存在一定的誤差(表2)。詳細的實際物理參數和兩組預測參數列于表1和表2中。
表1 物理參數Table 1 Physical parameters
表2 模擬的預測參數Table 2 Prediction parameters of simulation
本文進行了仿真模擬并記錄步態(tài)特性,在兩組預測參數下保證目標步行速度,并在所有步驟期間產生步長周期步態(tài)0.399996 s,與目標周期0.4 s誤差很小(0.001%)。另外,本文針對兩組不同工況的扭矩變化曲線和龐加萊映射圖進行了分析。圖3和4分別顯示不同集合控制轉矩的變化。當預測參數恰好等于物理參數時,每個步驟中的控制轉矩具有由式(8)中的線性化引起的一些小幅波動(圖3)。相反的,控制轉矩明顯改變以處理由不精確模型引起的干擾,并且當剩余時間接近0時,轉矩會急劇增加或減少(圖4)。本文還針對龐加萊映射進行分析,以反映步行機器人的收斂速度,兩種情況給出另一個有趣的特性:具有較大預測誤差的模擬具有更快的收斂速度(圖6),而圖5的收斂速度卻較慢,這可以通過減速效應來解釋[13]。
圖3 在集合1的預測參數下控制輸入的時間演變Fig.3 Time-evolution of control input under the prediction parameters of Set 1
圖4 在集合2的預測參數下控制輸入的時間演變Fig.4 Time-evolution of control input under the prediction parameters of Set 2
在不同的預測參數組下進行40次模擬以測試邊界條件。在每次模擬中,行走系統(tǒng)由反饋控制驅動,通過使用1組隨機預測參數以目標步行速度,每步0.4 s,走40步。實際參數與表1相同,并且預測參數在表3的足夠范圍內隨機選擇。當行走時間誤差大于0.1%(總共0.016 s)時,模擬將被標記為失敗。通過分析故障情況下的預測參數,可以發(fā)現大致的預測參數范圍。
圖5 在集合1的預測參數下的龐加萊映射Fig.5 Poincare Map under prediction parameters of Set 1
圖6 在集合2的預測參數下的龐加萊映射Fig.6 Poincare Map under prediction parameters of Set 2
表3 模式信息Table 3 The pattern information
模擬的分布如圖7所示,帶有粉紅色星形的點意味著真實的物理參數,并且發(fā)現了3個失敗案例作為紅點案例。結果表明,m和l的預測參數都比真實的預測參數低,可能導致故障情況。然而,如果有一步的初始角速度非??欤瑒t控制器將錯誤地設計行走軌跡,并且在撞擊負值之前立即制定計劃角速度,且在控制完成之前就會發(fā)生撞擊是失敗的情況。因此,從定性上講,當物理參數不清楚時,在合理范圍內的正預測誤差將是一個不錯的選擇。
本文將反饋控制的3個屬性總結如下:
1)當各種預測參數接近真實物理參數時,反饋控制具有一定的適應性以保持目標速度。這種控制對正預測誤差具有較強的適應性,而對負預測誤差的適應性稍弱,存在失敗的可能;
2)轉矩的波動是由線性化和預測誤差引起的。預測誤差偏離越大,每步的轉矩變化速度越快。另一方面,即使預測參數與物理參數完全相等,線性化的誤差也會引起力矩微小的波動;
3)預測參數可能會對一些步態(tài)屬性造成影響,例如收斂速度和能量效率。
圖7 40組隨機預測參數的分布Fig.7 The distribution of 40 sets of random prediction parameters
在40組實驗中去除點3組失敗案例,由剩下的37組組成訓練集?;诜治鰣D7中37組隨機預測參數下的數值模擬,可知每種情況的轉矩軌跡取決于預測參數的變化。非線性動態(tài)系統(tǒng)之間存在關系,但通過數學方法得到兩者之間的關系非常困難,因此數據驅動方法成為一種選擇。
構建訓練集以反映控制器性能與預測誤差之間的關系。根據控制策略,每個步驟中的平轉矩軌跡應表現出小的預測誤差,但性能誤差是由線性化和預測誤差引起,因此,考慮≈ sinθ以排除線性化誤差的影響。如圖8所示,當 -0.05≤θ≤0.05,如果沒有預測誤差,控制輸入的θ的變化軌跡應近似為未知常數值(即·u(θ)=0),否則性能誤差完全來自預測誤差。因此,可以根據多組數值仿真中的結果提取的·u(θ)軌跡來預測物理參數。
用Levenberg-Marquardt算法訓練人工神經網絡(ANN),使用Matlab的神經網絡工具箱。神經網絡的結構和訓練參數如圖9所示。
構建訓練集的流程圖如圖10所示。對于每一次成功的模擬,獲取 -0.05≤θ≤0.05時(θ)的θ變化軌跡,接著通過二次曲線擬合軌跡(θ)=aθ2+bθ+c, 并將二次曲線的參數記錄為具有隨機預測參數的訓練集,因此,可以通過設置a=b=c=0(軌跡u·θ()=0)來預測物理參數。
圖8 通過一步的uθ()軌跡預測物理參數的方法Fig.8 The method of predicting physical parameters through the trajectory of uθ()in one step
訓練數據集由37個訓練模式組成,其中下標j是索引號。輸入向量和輸出向量如式(13)所示。
圖9 神經網絡的體系結構和訓練參數Fig.9 The architecture of the neural network and the training parameters
參數辨識的神經網絡的設計過程如下:
1)一定范圍內,在37組隨機物理參數[m,l,k]下進行模擬。
2)在每次模擬中,當-0.05≤θ≤0.05時,u·θ()的θ變化軌跡被獲取以及擬合并通過二次曲線擬合以獲得系數參數[a,b,c];
3)構建整個訓練集。曲線擬合參數[a,b,c]被指定為輸入,而物理參數[m,l,k]被指定為神經網絡的輸出。
4)訓練并建立神經網絡,計算a=b=c=0的解作為預測參數。
通過這種方法,預測誤差大大降低,但由于不能完全消除線性化的影響,誤差不能達到0。
圖10 訓練集建立流程圖Fig.10 Flow chart for building training sets
物理參數的實際值、預測和相對誤差如表4所示,人工神經網絡訓練過程的訓練集、驗證集及測試集的均方根誤差曲線如圖11所示。當訓練到第21個epoch時,驗證集的誤差不再下降,結果收斂,此時訓練的網絡即為最優(yōu)網絡。圖12分別表征了訓練集、驗證集、測試集及全部數據的預測值和真實值的散點圖和回歸曲線圖。預測值和真實值的相關系數在訓練集上為0.998,在測試集上為0.941。通過訓練,預測參數接近于真實物理參數,平均誤差約為1.1%。利用預測的物理參數下進行了數值仿真模擬,運動過程中的扭矩曲線如圖13所示,運動過程中扭矩變化較為平穩(wěn)。
表4 通過人工神經網絡預測參數Table 4 Parameters predicted by ANN
圖12 關于訓練驗證和測試集的線性回歸圖Fig.12 The linear regression plot for training validation and test sets
圖13 利用預測物理參數所生成的目標速度控制的仿真模擬的轉矩軌跡Fig.13 Torque input of simulation for speed control under predicted parameters
本文提出了一種基于控制誤差來優(yōu)化物理參數辨識誤差,從而優(yōu)化控制系統(tǒng)的雙足機器人循環(huán)優(yōu)化控制策略。首先,設計了主動組合無框輪動力學運動模型,并提出了一種基于模型的反饋控制器來生成目標速度的有限循環(huán)行走。其次,通過使用各種預測參數在數值模擬上驗證了該控制器的魯棒性,并分析由辨識參數誤差所產生的控制軌跡誤差特性。最后,利用神經網絡對37組隨機控制軌跡誤差特性進行分析,從而開展主動組合無框輪的運動參數識別,預測的平均誤差約為1.1%。本文開發(fā)的反饋控制器可以克服參數辨識誤差實現目標速度控制,并在運動過程中優(yōu)化參數辨識誤差,為運動控制與參數辨識領域提供新思路。