申玉鑫,劉曉明,肖逸,余德平
基于PPO算法的機器人軸孔裝配控制與仿真
申玉鑫,劉曉明,肖逸,余德平*
(四川大學 機械工程學院,四川 成都 610065)
針對在管道運輸和航空航天領域常見的大口徑軸孔裝配任務,設計一種基于PPO算法的裝配控制方法。首先,建立強化學習算法與裝配環(huán)境交互訓練框架,設計兩個網絡用于擬合裝配策略和評估值函數;其次,設計機器人輸出的動作空間與裝配環(huán)境輸出的狀態(tài)空間,保證學習過程中的有效探索;然后,設計非線性獎勵函數以確保訓練過程的快速收斂;最后,搭建基于MuJoCo物理引擎的機器人大口徑軸孔裝配仿真平臺,并在仿真平臺上對設計算法進行訓練和實驗。結果表明:基于PPO算法的訓練框架能保證訓練過程的快速收斂,改進后的優(yōu)勢函數估計方法提升了訓練過程的穩(wěn)定性,訓練模型不僅能保證軸插入孔和法蘭面貼合,還能保證裝配過程的安全性。
裝配;PPO算法;MuJoCo仿真
在航空航天領域存在著大量軸孔部件裝配任務,這類任務不僅要求將裝配軸插入孔中,還要求實現(xiàn)裝配部件上法蘭面之間的完全貼合以實現(xiàn)機械聯(lián)接[1]。然而,裝配部件質量重、口徑大等特點大大影響了生產效率,增加了生產安全風險。隨著自動化技術的不斷發(fā)展,在工業(yè)生產中的搬運、涂裝、焊接等危險繁重環(huán)節(jié)機器人被大量應用[2-3]。因此,機器人可以代替人工執(zhí)行這類裝配任務。
機器人軸孔裝配技術需要克服操作環(huán)境中不可避免的定位誤差和夾持誤差等,只采用位置控制無法保證裝配的成功率和安全性[4]。因此,機器人必須借助外部感知手段監(jiān)測裝配過程[5],并設計裝配控制算法以應對不同的裝配任務和接觸狀態(tài)。視覺信息能映射環(huán)境中的位置和姿態(tài)誤差,設計相應的視覺伺服算法可用于實現(xiàn)軸孔裝配[6-7]。然而,視覺傳感器的應用受到光線和視野條件的限制。力傳感器可以被安裝在機器人末端執(zhí)行器上,在應用上不受環(huán)境條件影響。通過構建準靜態(tài)軸孔裝配模型來解釋接觸力與幾何約束之間的關系,設計運動控制算法可以保證裝配成功和安全[8-9]。然而,對于復雜精密的裝配任務,接觸模型存在精度不足、建模困難等問題,運動控制算法也難以保證任務實施。
深度強化學習是一種結合強化學習與神經網絡的算法設計方式,使機器人能夠在與環(huán)境的交互過程中學習運動控制技能,而不依賴于精確的接觸模型[10]。它利用神經網絡擬合需要學習的控制算法,并利用機器人與環(huán)境交互的訓練數據更新網絡參數,獲得需要的裝配控制算法。深度強化學習可以被用于訓練基于位置的力控制器,用于保證裝配過程中的柔順性和安全性[11-12]。同時,深度強化學習也能用于彌補傳統(tǒng)控制算法的不足,使傳統(tǒng)控制算法得到進一步訓練以加強算法魯棒性[13]。然而,其當前應用依然需要借助傳統(tǒng)力控算法提供先驗知識,且缺乏對實際裝配任務特性的深入研究。
針對上述問題,本文提出一種基于PPO(Proximal Policy Optimization,近端策略優(yōu)化)算法的機器人軸孔裝配控制算法。該算法不僅能夠完全通過環(huán)境交互學習裝配技能,還能保證裝配的效率和成功率。首先,利用PPO的重要性采樣方法實現(xiàn)對交互數據的高效利用,并對優(yōu)勢函數的估計方法進行改進。其次,根據大口徑軸孔裝配任務的插孔和法蘭貼合需求設計動作與狀態(tài)空間,并設計獎勵函數保證訓練過程的快速穩(wěn)定收斂。最后,在基于MuJoCo(Multi-Joint Dynamics with Contact,接觸型多關節(jié)動力學)物理引擎的軸孔裝配仿真平臺上進行訓練和實驗。實驗結果表明:該算法能夠在1500回合以內學習到所需要的裝配技能,滿足插孔和法蘭面貼合的工藝需求。
PPO算法利用Actor-Critic網絡結構在連續(xù)空間中輸出動作,且利用歷史訓練數據更新參數。該算法利用Actor網絡擬合行為策略,利用Critic網絡擬合值函數。裝配過程被視為馬爾可夫決策過程,Actor根據當前狀態(tài)輸出動作,環(huán)境在動作作用下轉換為下一狀態(tài),并輸出相關獎勵。Actor和Critic擬合的行為策略和值函數分別為[11]:
為了實現(xiàn)兩個網絡的梯度更新,需要估計優(yōu)勢函數,為[11]:
PPO算法利用重要性采樣方法來提高數據利用效率。因此,舊策略與環(huán)境交互產生的歷史數據可用于更新新策略。在完成更新后,新策略的參數被復制到舊策略中。
Actor網絡的更新公式為[11]:
Critic網絡的更新公式為[11]:
式中:為Critic網絡的損失函數;為歷史交互數據集樣本量。
常規(guī)PPO算法利用蒙特卡羅法估計優(yōu)勢函數,該方法引入了后續(xù)時間步獎勵,使得估計值方差較大。這會導致訓練曲線出現(xiàn)較大波動,影響收斂穩(wěn)定性。
為了實現(xiàn)參數穩(wěn)定更新,使用具有泛化能力的優(yōu)勢函數估計方法,為:
該方法的估計值雖然有一定偏差,但方差減小使得更新過程更加穩(wěn)定。
Critic網絡的更新公式改進為:
本文設計針對大口徑軸孔裝配任務的PPO網絡及訓練框架。如圖1所示,Old Actor和New Actor分別用于數據交互和參數更新,Critic網絡用于估計當前策略的優(yōu)異性。所有網絡層使用Linear全連接層以及Tanh激活函數構建,其中Critic網絡最后一層直接由Linear全連接層輸出,以保證訓練前期值函數的快速擬合。Actor輸出的動作用于調整位姿,隨后機器人沿軸位移使軸與孔主動接觸。裝配環(huán)境監(jiān)測接觸力并計算相應的獎勵值,所有數據被輸入到存儲緩沖區(qū)中。當緩沖區(qū)數據足夠時,對New Actor和Critic網絡梯度更新,清空存儲緩沖區(qū),將New Actor的網絡參數復制到Old Actor中。
機器人可在6個自由度移動或旋轉軸部件以降低位姿誤差。為提高裝配安全性,插入動作由機器人直接執(zhí)行,算法生成的裝配策略只用作位姿調整。由于軸孔部件具有軸對稱特性,繞軸旋轉的動作不能改變軸孔接觸關系。因此,動作可以表示為一個4維向量,且動作輸出被限制在一定范圍內以避免過度探索,為:
圖1 訓練網絡框架
力傳感器監(jiān)測到的接觸力由3個力和3個力矩分量組成,它們反映裝配部件之間的接觸關系。同樣的,由于軸孔部件的軸對稱特性,繞軸力矩分量不能映射軸孔位姿關系。因此,狀態(tài)可以表示為一個5維向量:
式中:為力分量;為力矩分量。
獎勵函數用于人為直觀評價當前狀態(tài)在裝配過程中的優(yōu)勢。為保證訓練過程的穩(wěn)定性和高效性,在權衡整體進度和當前進度后設計了一種非線性獎勵函數。獎勵函數包括三種類型,即常規(guī)獎勵、懲罰獎勵和終止獎勵。所有獎勵都為負值,以激勵策略減少裝配步數。常規(guī)獎勵綜合考慮了裝配深度和深度增量以保證訓練穩(wěn)定性。當接觸力過大時,環(huán)境直接輸出懲罰獎勵。當回合完成且步數不超過允許最大值時,環(huán)境輸出終止獎勵。
獎勵函數具體為:
其中:
本文研究對象為大口徑軸孔裝配任務,其中軸孔部件上都帶有法蘭,且孔有倒角,如圖2所示。裝配任務的目標是消除位姿誤差以使軸插入孔中,且裝配軸孔的法蘭面完全貼合以
便于后續(xù)工藝實施。如表1所示,裝配軸直徑為206 mm,裝配間隙為0.1 mm。零部件的直徑大、長度短,裝配過程容易受到法蘭干擾。
圖2 大口徑軸孔零件實物圖
表1 軸孔部件尺寸參數
MuJoCo物理仿真引擎可以構建高精度的接觸力學模型,可直接導入需要仿真的零件模型,并根據零件相對位姿計算接觸力。該仿真引擎可直接在Python環(huán)境下開發(fā),大幅提高強化學習的訓練與部署效率。
本文基于MuJoCo物理引擎構建了大口徑軸孔裝配仿真環(huán)境,并在仿真環(huán)境下開展了算法訓練和仿真實驗。如圖3所示,從機器人末端執(zhí)行器到軸部件之間形成一條剛性聯(lián)接鏈,聯(lián)接順序為Mocap(末端執(zhí)行器)-傳感器-夾具-軸??妆还潭ㄔ谄脚_表面。仿真平臺支持直接利用歐拉角形式(如式10)控制Mocap在空間中的位姿,等價于機器人操縱裝配軸運動。同時,仿真平臺可以基于軸孔相對位姿計算接觸力(如式11)。仿真平臺中不包含任何特定的機器人,使訓練的模型能夠適應不同的機器人實體。所有接觸都是由Mocap沿軸位移產生,這保證了接觸過程的準靜態(tài)特性,降低仿真與現(xiàn)實之間的差距。
每回合訓練開始時,軸的位姿在一定誤差范圍內被隨機初始化,以確保算法對位姿誤差具有魯棒性。設置位置誤差在1.5 mm以內、角度誤差在1°以內,Actor輸出的動作在0.15 mm和0.02°以內,最大允許力和力矩分別為10 N和1.5 N·m,訓練回合為1500回合,每回合允許步數為800步。其他超參數設置如表2所示。
圖3 基于MuJoCo的大口徑軸孔裝配仿真
表2 訓練超參數設置
訓練結果如圖4所示,其中曲線steps和rewards分別代表每10回合的平均步數和平均獎勵,陰影代表相應數據的標準差??梢钥闯?,回合步數隨著訓練進行不斷降低,在第1500回合達到90步左右。而回合獎勵隨著訓練不斷升高,在第1500回合達到-40左右。訓練曲線的波動在訓練過程中不斷減小。
圖4 訓練曲線
訓練過程中網絡更新的損失函數變化趨勢如圖5所示。訓練開始時,損失在16左右,這是因為具有泛化性的優(yōu)勢函數估計具有一定的偏差。隨著訓練進行,損失在300回合下降到2以下,最終下降到1以下,這說明Critic網絡很快調整參數以適應優(yōu)勢函數估計的偏差。
圖5 損失函數變化趨勢
本文針對基于PPO的裝配控制算法的工作能力進行了仿真實驗。裝配開始時,裝配軸沿軸偏移約1 mm,沿軸偏移約0.5 mm,繞軸旋轉約0.5°。
如圖6所示,error_和error_分別表示軸部件的橫向位置誤差在軸和軸上的分量,depth表示軸在孔內的深度,由于軸與實際方向相反,depth為負值時表示軸部件在孔內。可以看出,軸部件在軸和軸上的位置誤差不斷減小,在第16步時,橫向位置誤差減小到裝配間隙以內,因此裝配軸直接下降到孔內3 mm以下。
如圖7所示,error_和error_分別表示軸部件的角度誤差在軸和軸上的分量。在第16~52步,軸部件在的角度誤差不斷減小,這導致裝配深度進一步增加,直至達到要求裝配深度。
如圖8所示,force_,force_,force_分別表示軸孔相對接觸力在三個軸上的分量。各接觸力分量始終在10 N以內。裝配完成時,沿軸和軸的接觸力接近0,而沿軸接觸力達到-8 N,這說明軸部件已完全插入孔內,且實現(xiàn)了法蘭面貼合。
如圖9所示,torque_和torque_表示軸孔相對接觸力矩在和軸上的分量。各力矩分量始終低于1.5 N·m,滿足裝配安全需求。
圖6 橫向位移誤差變化趨勢
圖7 角度誤差變化趨勢
圖8 接觸力變化趨勢
圖9 接觸力矩變化趨勢
本文設計了一個基于PPO的機器人軸孔裝配控制算法,并在基于MuJoCo物理引擎的裝配仿真平臺上對大口徑軸孔裝配任務進行了訓練與仿真實驗。利用馬爾可夫決策性質描述了機器人軸孔裝配任務的特點;對PPO算法的優(yōu)勢函數估計進行了改進,使之能適用于長行程步數的裝配任務;基于Actor-Critic原理搭建了算法網絡結構及訓練框架,設置了裝配任務的動作與狀態(tài)空間,并設計了非線性獎勵函數。仿真實驗結果表明:本文提出的基于PPO的軸孔裝配控制算法可學習到機器人裝配策略,訓練曲線收斂快速且穩(wěn)定,可快速有效地完成大口徑軸孔裝配任務,克服位姿誤差,實現(xiàn)法蘭面貼合。未來可增加視覺感知手段,從而克服更大程度的位姿誤差并規(guī)劃機器人移動路徑。
[1]Xiaolin Zhang,Wang Zanqin,Yu Hang,et al. Research on Visual Inspection Technology in Automatic Assembly for Manhole Cover of Rocket Fuel Tank[C]. 2022 4th International Conference on Advances in Computer Technology, Information Science and Communications (CTISC),2022:1-5.
[2]未來10年工業(yè)機器人與協(xié)作機器人市場發(fā)展預測[J]. 機械,2017,44(10):54.
[3]計時鳴,黃希歡. 工業(yè)機器人技術的發(fā)展與應用綜述[J]. 機電工程,2015,32(1):1-13.
[4]Rui Li,Qiao Hong. A Survey of Methods and Strategies for High-Precision Robotic Grasping and Assembly Tasks-Some New Trends[J]. IEEE-ASME Transactions on Mechatronics,2019,24(6):2718-2732.
[5]張松松. 多維感知融合驅動的機器人裝配行為研究[D]. 貴陽:貴州大學,2023.
[6]Sainbuyan Natsagdorj,Chiang John-Y,Su Che-Han,et al. Vision-based Assembly and Inspection System for Golf Club Heads[J]. Robotics and Computer-Integrated Manufacturing,2015,32(4):83-92.
[7]R-J Chang,Lin C-Y,Lin P-S. Visual-Based Automation of Peg-in-Hole Microassembly Process[J]. Journal of Manufacturing Science and Engineering- Transactions of the Asme,2011,133(4):41015-41027.
[8]A-De-Sam Lazaro,G Rocak H. Precision assembly using force sensing[J]. International Journal of Advanced Manufacturing Technology,1996,11(2):77-82.
[9]D-E Whitney. Quasi-Static Assembly of Compliantly Supported Rigid Parts[J]. Journal of Dynamic Systems Measurement and Control-Transactions of the Asme,1982,104(1):65-77.
[10]陳佳盼,鄭敏華. 基于深度強化學習的機器人操作行為研究綜述[J]. 機器人,2022,44(2):236-256.
[11]Tadanobu Inoue,De Magistris Giovanni,Munawar Asim,et al. Deep reinforcement learning for high precision assembly tasks[C]. 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS),2017:819-825.
[12]Tianyu Ren,Dong Yunfei,Wu Dan,et al. Learning-Based Variable Compliance Control for Robotic Assembly[J]. Journal of Mechanisms and Robotics-Transactions of The Asme,2018,10(6):61008.
[13]Jing Xu,Hou Zhimin,Wang Wei,et al. Feedback Deep Deterministic Policy Gradient With Fuzzy Reward for Robotic Multiple Peg-in-Hole Assembly Tasks[J]. IEEE Transactions on Industrial Informatics,2019,15(3):1658-1667.
Robotic Peg-in-Hole Assembly Control and Simulation Based on PPO Algorithm
SHEN Yuxin,LIU Xiaoming,XIAO Yi,YU Deping
(School of Mechanical Engineering, Sichuan University, Chengdu 610065, China )
A PPO algorithm-based assembly control method is proposed for the large-diameter peg-in-hole assembly which is common in pipeline transportation and aerospace fields. Firstly, the interactive training framework between the reinforcement learning algorithm and assembly environment is established, and two networks are designed to fit the assembly strategy and the evaluation value function respectively. Secondly, the action space of robot output and the state space of assembly environment output are designed to ensure the effective exploration in the learning process. Then, a nonlinear reward function is designed to ensure the fast and stable convergence of the training process. Finally, a simulation platform for robot assembly of large-diameter peg-in-hole assembly based on MuJoCo physics engine is built, and the designed algorithm is trained and tested on the simulation platform. The results show that the training framework based on PPO algorithm can ensure the fast convergence of the training process, and the improved dominance function estimation method can improve the stability of the training process. The training model can not only ensure the fit of the shaft insertion hole and the flange surface, but also ensure the safety of the assembly process.
assembly;PPO algorithm;MuJoCo simulation
TP249
A
10.3969/j.issn.1006-0316.2023.12.012
1006-0316 (2023) 12-0074-07
2023-07-16
申玉鑫(1998-),男,四川遂寧人,碩士研究生,主要研究方向為機器人自動化,E-mail:shenyuxin2021@163.com。
通訊作者:余德平(1984-),男,江西撫州人,博士,教授,主要研究方向為智能與自動化裝備,E-mail:williamydp@scu.edu.cn。