陳砆興 朱亞軍
摘 要: 為了解決傳統(tǒng)機(jī)械臂視覺伺服受外界環(huán)境影響較大的問題,提出一種基于圖像的無標(biāo)定視覺伺服控制方法。該方法對采集的每一幀圖像參數(shù)進(jìn)行處理,無需繁瑣的攝像頭校準(zhǔn)定位等操作,從而在復(fù)雜環(huán)境下獲得了較高的抗干擾工作性能。通過動態(tài)的迭代學(xué)習(xí)過程實現(xiàn)機(jī)械臂的最優(yōu)軌跡控制。在自由度機(jī)器臂測試平臺上的實驗結(jié)果表明:所提方法既可以減少模型參數(shù),提高計算速度,又可以有效地對機(jī)械臂進(jìn)行控制,可以對位置信息實施精確調(diào)整。
關(guān)鍵詞: 機(jī)械臂 無標(biāo)定視覺 非線性矩陣 軌跡控制
中圖分類號: TP24文獻(xiàn)標(biāo)識碼: A文章編號: 1679-3567(2024)04-0001-04
基金項目:甘肅省教育廳2022年度高等學(xué)校創(chuàng)新基金項目“蘋果采摘機(jī)器人視覺定位與檢測系統(tǒng)研究”(項目編號:2022A-225)。
The Uncalibrated Visual Servo System for Manipulators Based on the Reinforcement Learning of Images
CHEN Fuxing ZHU Yajun
Lanzhou Petrochemical University of Vocational Technology, Lanzhou, Gansu Province, 730060 China
Abstract: In order to solve the problem that the traditional visual servo of manipulators is greatly affected by the external environment, this paper proposes an image-based uncalibrated visual servo control method. This method processes the parameters of each frame of captured image without complicated camera calibration and positioning and other operations, so as to obtain high anti-interference performance in the complex environment, and realizes the optimal trajectory control of the manipulator through a dynamic iterative learning process. Experimental results on the freedom testing platform of the manipulator show that the proposed method can not only reduce model parameters and increase the calculation speed, but also effectively control the manipulator and accurately adjust its position information.
Key Words: Mechanical arm; Uncalibrated vision; Nonlinear matrix; Trajectory control
機(jī)械臂無標(biāo)定視覺伺服是通過分析攝像機(jī)采集到每一幀的圖像對機(jī)械臂進(jìn)行控制。此領(lǐng)域涵蓋的技術(shù)有機(jī)器人技術(shù)、計算機(jī)圖像處理、控制等內(nèi)容。傳統(tǒng)的視覺伺服是基于無標(biāo)定的需要大量的預(yù)處理和設(shè)置參數(shù)等操作。自20世紀(jì)90年代,無標(biāo)定的視覺伺服系統(tǒng)應(yīng)運(yùn)而生,成為研究熱點。
隨著人工智能和機(jī)器人技術(shù)的發(fā)展,將強(qiáng)化學(xué)習(xí)應(yīng)用于機(jī)械臂控制系統(tǒng)變成近年來機(jī)器人控制技術(shù)發(fā)展熱點[1]。李靜提出了基于模糊的強(qiáng)化學(xué)習(xí)方法來實現(xiàn)自動化路徑規(guī)劃的控制[2]。朱光耀利用強(qiáng)化學(xué)習(xí)解決了多關(guān)節(jié)機(jī)械臂軌跡跟蹤等問題,該方法的模型分別為評價網(wǎng)絡(luò)和動作網(wǎng)絡(luò),評價網(wǎng)絡(luò)可以無限逼近長期的代價函數(shù),動作網(wǎng)絡(luò)被用于系統(tǒng)輸入[3]。楊加超提出將非同步迭代規(guī)則用于強(qiáng)化學(xué)習(xí)中,可使機(jī)械臂在較強(qiáng)干擾條件下進(jìn)行指定的動作,該方法在多機(jī)器人系統(tǒng)上加入了并行計算,節(jié)省了訓(xùn)練時間[4]。但是上述基于強(qiáng)化學(xué)習(xí)的方法均沒有有效利用圖像屬性參數(shù),因此本文嘗試在強(qiáng)化學(xué)習(xí)中合理結(jié)合圖像屬性參數(shù),來提高抗干擾能力,實現(xiàn)快速精確的機(jī)械臂控制。
本文采取強(qiáng)化學(xué)習(xí)的機(jī)械臂無標(biāo)定視覺伺服控制方法,首先,利用機(jī)械臂無標(biāo)定視覺伺服控制進(jìn)行每一幀的特征提??;其次,利用TD算法遞推估計機(jī)械臂關(guān)節(jié)空間與圖像屬性參數(shù)空間之間的非線性矩陣。展示了基于強(qiáng)化學(xué)習(xí)的無標(biāo)定視覺伺服控制平臺。Cam1和Cam2為兩個采集動態(tài)圖像的攝像機(jī)。為了便于圖像進(jìn)行屬性參數(shù)提取,為位姿定位提供有利條件。
1.1 基于強(qiáng)化學(xué)習(xí)的控制方法
基于強(qiáng)化學(xué)習(xí)的無標(biāo)定視覺伺服總體控制結(jié)構(gòu)和詳細(xì)設(shè)計方案如圖1所示。當(dāng)機(jī)械臂在目標(biāo)空間運(yùn)動時,通過雙目攝像頭Cam1、Cam2來采集每一幀的圖像信息,通過采集可以收集到4個圖像屬性參數(shù)點來反映機(jī)械臂末端位姿狀態(tài),其中,Cam1產(chǎn)生點P11、P12;Cam2產(chǎn)生點P21、P22;θ1是點P11、P12和Cam1采集的u軸之間夾角;θ2是點P21、P22和Cam2采集的u軸之間夾角。機(jī)械臂無標(biāo)定視覺伺服控制利用當(dāng)前fc與期望圖像屬性參數(shù)fd進(jìn)行偏差運(yùn)算,然后將關(guān)節(jié)控制器操控機(jī)械臂達(dá)到目標(biāo)關(guān)節(jié)位置q,得出機(jī)械臂空間位姿信息T,最后使用雙目攝像頭Cam1、Cam2進(jìn)行每一幀的圖信息采集,并得到控制偏差的信息。迭代此過程,即可得到機(jī)械臂到期望位姿。
本文提出一種基于強(qiáng)化學(xué)習(xí)的視覺伺服控制方法,為特征偏差加權(quán)一個學(xué)習(xí)而得到的系數(shù),通過使用Kalman在線濾波,可以令采集的圖像信息特征和機(jī)械臂關(guān)節(jié)運(yùn)動變化之間達(dá)到較優(yōu)的逼近效果,以產(chǎn)生相對較優(yōu)的空間運(yùn)動軌跡。本文采用基于無模型強(qiáng)化學(xué)習(xí)算法中的幀間差分學(xué)習(xí)算法,學(xué)習(xí)訓(xùn)練無標(biāo)定視覺伺服控制器,圖1中Δf表示圖像屬性參數(shù)偏差值,S表示Agent狀態(tài),k表示圖像屬性參數(shù)偏差的運(yùn)算系數(shù)[5]。
1.2 圖像屬性參數(shù)提取方法
無標(biāo)定視覺伺服控制方法的優(yōu)劣性,關(guān)鍵的一步在于對每一幀圖像提取特征的效率和質(zhì)量。為解決機(jī)械臂的軌跡控制問題,就必須在三維笛卡爾空間中對圖像屬性參數(shù)進(jìn)行有效表示。因此,本文對圖像屬性參數(shù)提取的方法如圖2所示。
如圖2所示,為機(jī)械臂末端染上紅黃顏料作為標(biāo)記,可以使攝像頭在提取圖像信息時更高效,更有區(qū)別度,為后面圖像處理時創(chuàng)造便捷條件。通過視覺傳感器以及圖像處理后,機(jī)械臂末端上分別投影到采集的圖像1上的二維坐標(biāo)為P11(u11,v11)和P12(u12,v12),采集的圖像2上的二維坐標(biāo)為P21(u21,v21)和P22(u22,v22)。當(dāng)機(jī)械臂末端達(dá)到期望位姿,圖像平面1的點P11(u11,v11)和P12() u12,v12與采集的圖像2的點P21(u21,v21)和P22(u22,v22)分別為P1和P2在圖像1和2上的期望投影點。
2.1 環(huán)境建模
利用自由度機(jī)器臂測試平臺搭建實驗環(huán)境,選取MT-ARM機(jī)械臂作為控制對象。首先要獲悉機(jī)械臂的D-H參數(shù)。實驗所用機(jī)械臂各連桿D-H參數(shù)如表1所示。
2.2 控制性能
為了將機(jī)械臂移動范圍限制在測試攝像機(jī)的工作區(qū)域內(nèi),訓(xùn)練開始前需要調(diào)節(jié)機(jī)械臂初始關(guān)節(jié)角。機(jī)械臂的兩攝像機(jī)圖像平面的圖像屬性參數(shù)如圖3所示。
如圖3所示,下方直線連接的2個坐標(biāo)視為采集到的圖片參數(shù)信息,上方2個坐標(biāo)視為所需的圖片參數(shù)信息。通過強(qiáng)化學(xué)習(xí)后,控制機(jī)械臂移動到當(dāng)前迭代期望的目標(biāo)位姿,其對應(yīng)圖像屬性參數(shù)如圖4所示。
在運(yùn)行每一次強(qiáng)化學(xué)習(xí)任務(wù)后,對機(jī)械臂的圖像屬性參數(shù)偏差進(jìn)行判斷,如果Δf小于s16,則表示該強(qiáng)化學(xué)習(xí)任務(wù)結(jié)束。最終結(jié)合望位姿對應(yīng)圖像屬性參數(shù),利用所得的參數(shù)對機(jī)械臂進(jìn)行訓(xùn)練。
在相同的實驗條件下,將常規(guī)PID控制和本文強(qiáng)化學(xué)習(xí)控制進(jìn)行了對比,機(jī)械臂控制和期望圖像屬性參數(shù)信息分別如表2和表3所示。
從表4可以看出,強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)械臂運(yùn)動的前后過程,機(jī)械臂的開始位姿和采集的圖像信息特征與期望位姿相同,但終止位姿和圖像采集信息的特征上存有偏差。利用強(qiáng)化學(xué)習(xí)訓(xùn)練后,訓(xùn)練后期望圖像屬性參數(shù)與結(jié)束時圖像屬性參數(shù)偏差見表4。訓(xùn)練前后機(jī)械臂的控制軌跡見圖5。
從表3和圖5可以看出,機(jī)械臂經(jīng)過訓(xùn)練后機(jī)械臂最終獲得的圖像屬性參數(shù)偏差大大小于一個像素rad,也就是說位置準(zhǔn)確度可以保持小于0.001 m范圍。圖5中,訓(xùn)練前后機(jī)械臂的控制軌跡通過迭代次數(shù)的增加與預(yù)測軌跡誤差不斷減少,當(dāng)執(zhí)行到100次迭代時趨于穩(wěn)定,由此可見本文方法的魯棒性較高。
本文通過引入強(qiáng)化學(xué)習(xí)來對機(jī)械臂進(jìn)行控制,提出一種無標(biāo)定視覺伺服的方法,對采集的每一幀圖像參數(shù)進(jìn)行處理,利用強(qiáng)化學(xué)習(xí)中的TD算法遞推估計機(jī)械臂關(guān)節(jié)空間與圖像屬性參數(shù)空間之間的非線性矩陣。實驗結(jié)果表明:本文方法對于無標(biāo)定的伺服系統(tǒng)控制起到了有效的作用,具有良好的性能。但是,TD算法僅能夠處理離散函數(shù)問題,這對機(jī)械臂的控制精度有不利影響,因此后續(xù)將嘗試采用能夠處理連續(xù)函數(shù)問題的強(qiáng)化學(xué)習(xí)技術(shù)來進(jìn)一步改進(jìn)控制性能。
參考文獻(xiàn)
[1]李濤.機(jī)械臂無標(biāo)定視覺伺服及其網(wǎng)絡(luò)化控制技術(shù)研究[D].天津:天津大學(xué),2020.
[2]李靜.機(jī)械臂視覺伺服控制研究[D].淮南:安徽理工大學(xué),2022.
[3]朱光耀.全向移動機(jī)械臂的無標(biāo)定視覺拾取控制系統(tǒng)設(shè)計[D].青島:青島科技大學(xué),2021.
[4]楊加超.無標(biāo)定視覺伺服中圖像雅可比矩陣在線估計方法的研究[D].株洲:湖南工業(yè)大學(xué),2021.
[5]程亮瑋.工業(yè)機(jī)械臂的無標(biāo)定視覺伺服系統(tǒng)研究[D].綿陽:西南科技大學(xué),2021.