摘 要:本文針對工業(yè)機(jī)器人在智能制造中的應(yīng)用需求,將深度強(qiáng)化學(xué)習(xí)算法引入工業(yè)機(jī)器人操作建模中?;赼ctor-critic算法模型,制定了智能化的工業(yè)機(jī)器人操作控制策略,對工業(yè)機(jī)器人進(jìn)行高精度、高效率操作控制。針對傳統(tǒng)actor-critic算法在初始位姿不確定情況下學(xué)習(xí)效率較低的問題,提出了基于隨機(jī)化逆向任務(wù)的自動課程生成算法(ACG-RIT),有效提升了工業(yè)機(jī)器人在復(fù)雜任務(wù)中的學(xué)習(xí)效率和操作成功率。試驗(yàn)結(jié)果表明,ACG-RIT算法在多種幾何體操作任務(wù)中均表現(xiàn)出色,平均操作成功率遠(yuǎn)高于其他對比算法。
關(guān)鍵詞:工業(yè)機(jī)器人;智能制造;深度學(xué)習(xí);ACG-RIT" " " 中圖分類號:TP 242" " " 文獻(xiàn)標(biāo)志碼:A
隨著科技飛速發(fā)展,智能制造已成為全球制造業(yè)轉(zhuǎn)型升級的重要方向。工業(yè)機(jī)器人是智能制造的關(guān)鍵要素,其作用越來越重要,不僅大幅提升了生產(chǎn)效率,降低了人力成本,而且顯著提高了產(chǎn)品質(zhì)量的穩(wěn)定性和一致性。工業(yè)機(jī)器人在智能制造中的應(yīng)用不僅體現(xiàn)了技術(shù)進(jìn)步的成果,而且是制造業(yè)向智能化、自動化轉(zhuǎn)型的必然選擇[1]。如何更高效地利用工業(yè)機(jī)器人,使其在智能制造中發(fā)揮更大作用,仍然是目前研究的熱點(diǎn)和難點(diǎn)。
本文針對目前工業(yè)機(jī)器人的關(guān)鍵問題,探討工業(yè)機(jī)器人在智能制造中的應(yīng)用需求,并引入深度強(qiáng)化學(xué)習(xí)模型,進(jìn)行工業(yè)機(jī)器人操作建模,為提升工業(yè)機(jī)器人的操作效率和智能化水平提供新的思路和方法。本文研究對推動智能制造技術(shù)的發(fā)展,促進(jìn)制造業(yè)的轉(zhuǎn)型升級具有重要意義。
1 基于深度強(qiáng)化學(xué)習(xí)算法的工業(yè)機(jī)器人操作建模
1.1 深度強(qiáng)化學(xué)習(xí)算法在工業(yè)機(jī)器人中應(yīng)用需求
隨著智能制造快速發(fā)展,工業(yè)機(jī)器人在該領(lǐng)域的應(yīng)用需求日益增長,尤其在復(fù)雜、多變的制造任務(wù)中,傳統(tǒng)的控制方法已無法滿足高效、精確的操作要求[2]。深度強(qiáng)化學(xué)習(xí)算法是一種深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合的先進(jìn)方法,為工業(yè)機(jī)器人的操作控制提供了新的解決方案。深度強(qiáng)化學(xué)習(xí)算法能夠與環(huán)境進(jìn)行交互,不斷學(xué)習(xí)和優(yōu)化控制策略,對工業(yè)機(jī)器人操作進(jìn)行高精度控制。它特別適用于處理高維、連續(xù)的動作空間和復(fù)雜的狀態(tài)空間,能夠應(yīng)對工業(yè)機(jī)器人在實(shí)際操作中面臨的多種不確定性和復(fù)雜性[3]。
本文引入深度強(qiáng)化學(xué)習(xí)中的actor-critic算法模型[4],利用該模型為工業(yè)機(jī)器人制定智能化的操作控制策略,并采用actor網(wǎng)絡(luò)生成動作策略,采用critic網(wǎng)絡(luò)評估動作價值,進(jìn)而結(jié)合獎勵函數(shù)不斷優(yōu)化網(wǎng)絡(luò)參數(shù),使工業(yè)機(jī)器人能夠在復(fù)雜的制造環(huán)境中自主、高效地完成任務(wù),從而滿足智能制造對工業(yè)機(jī)器人高效、靈活和精確的操作需求。
1.2 工業(yè)機(jī)器人操作控制建模
在強(qiáng)化學(xué)習(xí)模型中,根據(jù)強(qiáng)化學(xué)習(xí)算法模型中的學(xué)習(xí)、更新是否為同一策略,強(qiáng)化學(xué)習(xí)模型可以分為基于值與基于策略的學(xué)習(xí)方法。基于值的學(xué)習(xí)方法可以解決一些低維空間的問題,基于策略的方法可以解決高維、頻次高的空間問題。基于策略的方法可以處理復(fù)雜的高維空間問題,但其單步自身更新的學(xué)習(xí)效率較低,為解決該問題,本文提出actor-critic(AC)算法。AC算法充分結(jié)合了2種方法的優(yōu)點(diǎn),能夠處理連續(xù)、高維空間,還能進(jìn)行單步快速學(xué)習(xí)。在actior-critic模型中,actor網(wǎng)絡(luò)中的策略梯度將價值函數(shù)作為基準(zhǔn)迭代,它可以與外界環(huán)境進(jìn)行直接互動,采集到當(dāng)前環(huán)境狀態(tài)s,并根據(jù)s值選擇動作。actor根據(jù)critic網(wǎng)絡(luò)評價和策略梯度調(diào)整網(wǎng)絡(luò)模型,以提高下次評價中的獎勵值。actor-critic模型初始狀態(tài)是隨機(jī)的,在配送避讓模型中,actor網(wǎng)絡(luò)能夠生成動作策略,輸出機(jī)械臂的控制指令。critic網(wǎng)絡(luò)能夠評估動作的價值,輸出狀態(tài)的值函數(shù)。利用獎勵函數(shù)對actor和critic的參數(shù)進(jìn)行調(diào)整,使critic網(wǎng)絡(luò)最終評價值更準(zhǔn)確,并使actor具有更精準(zhǔn)的操作路線。actor-critic算法原理如圖1所示。
深度強(qiáng)化學(xué)習(xí)中的actor-critic算法應(yīng)用于機(jī)器人機(jī)械臂操作的智能化流程如下所示。
第一步,定義狀態(tài)空間。需要定義機(jī)器人工業(yè)機(jī)械臂操作任務(wù)的狀態(tài)空間。狀態(tài)空間可以包括機(jī)械臂當(dāng)前的位置、角度和速度等信息,還包括機(jī)器人零部件的位置、狀態(tài)等。
第二步,定義動作空間。定義機(jī)器人機(jī)械臂操作任務(wù)的動作空間。動作空間包括機(jī)械臂的控制指令,可以是機(jī)械臂的位置、角度等。
第三步,建立環(huán)境模型。根據(jù)機(jī)器人機(jī)械臂操作任務(wù)的實(shí)際情況建立一個仿真環(huán)境模型。該模型可以模擬機(jī)械臂的運(yùn)動和操作過程,并提供狀態(tài)和獎勵的反饋。
第四步,設(shè)計獎勵函數(shù)。根據(jù)機(jī)器人機(jī)械臂操作任務(wù)的目標(biāo)設(shè)計一個獎勵函數(shù),來評估機(jī)械臂的動作。獎勵函數(shù)可以根據(jù)操作的準(zhǔn)確性、效率等指標(biāo)來定義,以鼓勵機(jī)械臂學(xué)習(xí)優(yōu)秀的操作策略。
第五步,構(gòu)建神經(jīng)網(wǎng)絡(luò)。使用深度學(xué)習(xí)技術(shù)構(gòu)建actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)。actor網(wǎng)絡(luò)用于生成動作的策略,輸出機(jī)械臂的控制指令;critic網(wǎng)絡(luò)用于評估動作的價值,輸出狀態(tài)的值函數(shù)。
第六步,初始化網(wǎng)絡(luò)參數(shù)。隨機(jī)初始化actor和critic網(wǎng)絡(luò)的參數(shù)。
第七步,采集數(shù)據(jù)。在環(huán)境模型中運(yùn)行機(jī)械臂,采集一系列狀態(tài)、動作和獎勵數(shù)據(jù),這些數(shù)據(jù)將用于訓(xùn)練和更新神經(jīng)網(wǎng)絡(luò)。
第八步,訓(xùn)練網(wǎng)絡(luò)。使用actor-critic算法進(jìn)行網(wǎng)絡(luò)訓(xùn)練。采用動態(tài)規(guī)劃和采樣的方法,不斷優(yōu)化actor網(wǎng)絡(luò)的策略和critic網(wǎng)絡(luò)的價值函數(shù)。可以使用深度強(qiáng)化學(xué)習(xí)中的優(yōu)化算法(Policy Gradient等)來更新網(wǎng)絡(luò)參數(shù)。
2 強(qiáng)化學(xué)習(xí)模型的改進(jìn)
2.1 問題的提出
在機(jī)器人工業(yè)機(jī)械臂操作任務(wù)中,由于初始位姿不確定,因此機(jī)械臂需要進(jìn)行大量嘗試來找到適合的操作路徑。深度學(xué)習(xí)算法通常需要較多的訓(xùn)練樣本以學(xué)習(xí)、適應(yīng)不同的初始位姿,導(dǎo)致效率低下。操作路徑規(guī)劃的難度與操作體的初始相對位置密切相關(guān)。當(dāng)初始相對位置較遠(yuǎn)或操作體的形狀較復(fù)雜時,機(jī)械臂需要進(jìn)行更多的動作調(diào)整,才能達(dá)到目標(biāo)位姿,從而增加了操作路徑規(guī)劃的難度。2種不同機(jī)器人工業(yè)機(jī)械臂操作任務(wù)操作如圖2所示。
圖2(a)表示只需要平移來進(jìn)行機(jī)器人機(jī)械操作,圖2(b)表示需要機(jī)械臂平移和旋轉(zhuǎn)才能完成操作任務(wù)。如果只采用actor-critic算法,需要機(jī)械臂不斷進(jìn)行試探,效率較低,甚至一直無法學(xué)習(xí)到某些復(fù)雜場景,導(dǎo)致無法完成操作任務(wù)。
2.2 基于隨機(jī)化逆向任務(wù)的自動課程生成算法
鑒于actor-critic模型在工業(yè)機(jī)器人機(jī)械操作任務(wù)過程中需要機(jī)械臂不斷進(jìn)行試探,效率較低,本文提出了在actor-critic模型基礎(chǔ)上,引入基于隨機(jī)化逆向任務(wù)的課程生成算法(Automatic Curiculum Generator based on Randomized Inverse Task,ACG-RIT),解決actor-critic算法在機(jī)器人機(jī)械操作任務(wù)中效率低和學(xué)習(xí)困難的問題。ACG-RIT算法能夠自動隨機(jī)生成一系列由易到難的操作課程。逐步學(xué)習(xí)任務(wù)序列后,機(jī)械臂智能體能夠在較低難度的操作任務(wù)中建立操作基礎(chǔ),逐步學(xué)習(xí)和掌握操作技能,進(jìn)而逐步挑戰(zhàn)更高難度的任務(wù),取得漸進(jìn)提高的效果。ACG-RIT算法能夠根據(jù)當(dāng)前階段的操作任務(wù)和任務(wù)難度,隨機(jī)生成合適的目標(biāo)狀態(tài),并生成對應(yīng)難度的逆向任務(wù)。ACG-RIT算法的流程如圖3所示。
采用ACG-RIT算法可以解決actor-critic算法在機(jī)器人機(jī)械操作任務(wù)中效率低和學(xué)習(xí)困難的問題,它能夠提供逐步學(xué)習(xí)的任務(wù)序列,自動調(diào)整任務(wù)難度,使學(xué)習(xí)曲線平穩(wěn)并提升學(xué)習(xí)效率和效果,使智能體能夠更好地學(xué)習(xí)和掌握操作技能,提高操作任務(wù)的完成能力。
為了評估操作任務(wù)的難度,本文引入隱式方法來表示任務(wù)的難度。定義操作任務(wù)T(Si)的難度為D(T(Si)),由于操作任務(wù)的難度并不直觀,無法直接將初始位形與目標(biāo)操作位形的距離作為評判標(biāo)準(zhǔn),因此,不能定義一個顯式的解析式來表示D(T(Si)),需要將其作為中間計算的輔助量,不直接計算其值。本文使用隱式方法假設(shè)操作任務(wù)T(Si)的最短操作路徑為Lpi,操作任務(wù)T(Sk)的最短操作路徑為Lpk,進(jìn)而利用公式(1)來描述不同任務(wù)間的難度關(guān)系。
當(dāng)執(zhí)行操作任務(wù)時,還要考慮拆卸過程,即逆向任務(wù)。在給定目標(biāo)初始位形Sgoal∈SE(3)的情況下,對操作體施加隨機(jī)擾動會生成一條隨機(jī)路徑,即Lq:Q0,Q1,Q2,...,Qm,其中Vi∈{0,1,2,...,m},Qi∈Xree且Q0=Sgoal。假設(shè)路徑Lq是從Q0到Qm的最短拆卸路徑,當(dāng)考慮操作任務(wù)T(Q)時,路徑Lpi:Qi,Qj-1,...,Q2,Q1,Q0表示操作任務(wù)T(Q1)的最短操作路徑,并且這2條路徑的長度相等,如公式(2)所示。
本文在仿真環(huán)境中進(jìn)行了隨機(jī)逆向任務(wù)的研究。進(jìn)行足夠多的采樣交互后,操作體和被操作體從最初的操作狀態(tài)運(yùn)動到分離狀態(tài),形成了一條拆卸路徑。可以將這條路徑上的點(diǎn)看作課程,從而得到一組有序的難度課程集合。由于逆向任務(wù)的過程是隨機(jī)的,可能會出現(xiàn)往回走或形成環(huán)路的情況,因此生成的有序難度課程中包括一些難度不同的課程。
3 試驗(yàn)設(shè)計與結(jié)果分析
3.1 仿真試驗(yàn)環(huán)境搭建
在將基于隨機(jī)化逆向任務(wù)的自動課程生成算法應(yīng)用于工業(yè)機(jī)器人機(jī)械操作的過程中,可以將PyBullet作為強(qiáng)化學(xué)習(xí)訓(xùn)練的仿真環(huán)境。導(dǎo)入零件CAD模型,利用PyBullet物理引擎設(shè)計操作場景,并創(chuàng)建機(jī)器人智能體,以執(zhí)行操作任務(wù)。定義合適的動作空間和狀態(tài)空間,設(shè)計獎勵函數(shù),并使用強(qiáng)化學(xué)習(xí)算法訓(xùn)練智能體。使用訓(xùn)練好的智能體進(jìn)行試驗(yàn)和評估,以研究算法的效果和優(yōu)化操作效率,降低實(shí)際操作成本和風(fēng)險。
3.2 性能評估指標(biāo)
操作成功率是一種用于評估操作任務(wù)執(zhí)行結(jié)果的指標(biāo),它表示在一系列操作操作中,成功完成操作的次數(shù)與總操作次數(shù)間的比例。操作成功率可以反映算法在實(shí)際操作任務(wù)中的表現(xiàn),對算法的準(zhǔn)確性和穩(wěn)定性具有重要意義。較高的操作成功率表示算法在執(zhí)行操作任務(wù)過程中能夠有效地進(jìn)行零件定位、配對和連接,取得設(shè)計要求的操作效果。相反,較低的操作成功率表明算法存在定位誤差、配對錯誤或連接失效等問題,需要改進(jìn)和優(yōu)化。
3.3 試驗(yàn)結(jié)果和分析
對比試驗(yàn)基于tianshuo強(qiáng)化學(xué)習(xí)平臺,該平臺封裝了較多強(qiáng)化學(xué)習(xí)算法,包括TD3、SAC、ALP-GMM和單一的actor-critic等。測試常見幾何體的操作測試結(jié)果,幾何體包括三角形零件、長方形零件、平行四邊形以及“L”形等。對比試驗(yàn)結(jié)果見表1。
在三角形零件操作的測試中,ACG-RIT算法具有較高的操作成功率和穩(wěn)定性。根據(jù)試驗(yàn)結(jié)果,ACG-RIT算法成功率為98%,并且在不同初始位置和姿態(tài)的情況下均具有較好的魯棒性。TD3算法在相同測試中的成功率僅為60%。SAC算法和ALP-GMM算法的表現(xiàn)相對較好,成功率分別為75%和80%。
在長方形零件的操作測試中,ACG-RIT算法仍然具有較高的成功率,成功率為93%。TD3算法和SAC算法成功率分別為65%和72%。ALP-GMM算法的成功率為70%。
在平行四邊形的操作測試中,ACG-RIT算法具有出色表現(xiàn),成功率為95%。TD3算法、SAC算法和ALP-GMM算法的成功率分別為55%、70%和75%。
在“L”形零件的操作測試中,ACG-RIT算法成功率為97%。TD3算法和SAC算法的成功率分別為60%和75%。ALP-GMM算法的成功率為70%。
由對比試驗(yàn)可知,本文設(shè)計的ACG-RIT算法的平均操作成功率為95.75%,遠(yuǎn)高于其他模型的操作成功率。
4 結(jié)語
本文探討了工業(yè)機(jī)器人在智能制造中的應(yīng)用需求,并針對傳統(tǒng)控制方法在執(zhí)行復(fù)雜任務(wù)過程中的局限性,提出了基于深度強(qiáng)化學(xué)習(xí)算法的工業(yè)機(jī)器人操作建模方法。引入actor-critic算法模型,制定工業(yè)機(jī)器人智能化的操作控制策略,對工業(yè)機(jī)器人進(jìn)行高精度、高效率的操作控制。并針對actor-critic算法在工業(yè)機(jī)器人初始位姿不確定情況下學(xué)習(xí)效率低的問題,提出基于隨機(jī)化逆向任務(wù)的自動課程生成算法(ACG-RIT),有效提升了工業(yè)機(jī)器人在復(fù)雜任務(wù)中的學(xué)習(xí)效率和操作成功率。試驗(yàn)結(jié)果表明,本文設(shè)計的ACG-RIT算法在多種幾何體操作任務(wù)中均表現(xiàn)出色,平均操作成功率遠(yuǎn)高于其他對比算法。
本文不僅為工業(yè)機(jī)器人在智能制造中的應(yīng)用提供了新的思路和方法,也為深度強(qiáng)化學(xué)習(xí)在復(fù)雜系統(tǒng)控制領(lǐng)域拓展了新的應(yīng)用方向。未來還將繼續(xù)深化該領(lǐng)域的研究,推動工業(yè)機(jī)器人在智能制造中發(fā)揮更大作用,助力制造業(yè)的轉(zhuǎn)型升級和高質(zhì)量發(fā)展。
參考文獻(xiàn)
[1]蔡興,張愔和.工業(yè)機(jī)器人應(yīng)用對企業(yè)產(chǎn)能利用率的影響研究[J].當(dāng)代經(jīng)濟(jì)研究,2024(10):90-102.
[2]史喆瓊.基于PLC與工業(yè)機(jī)器人的搬運(yùn)碼垛自動化產(chǎn)線控制系統(tǒng)設(shè)計[J].機(jī)電信息,2024(19):16-20.
[3]李曉峰,張銀慧,李子陽,等.基于多模態(tài)深度學(xué)習(xí)的實(shí)時交互系統(tǒng)設(shè)計[J].機(jī)械設(shè)計,2024,41(增刊2):200-204.
[4]秦天為,馮云劍.基于Actor-Critic自適應(yīng)PID的鋼筋套絲頭跟蹤檢測控制系統(tǒng)研究[J].工業(yè)控制計算機(jī),2024,37(2):75-77.