亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

不確定檢測環(huán)境下強化學習覆蓋路徑規(guī)劃研究

2024-01-22 05:06:08李彥征劉銀華趙文政孫芮

機械科學與技術 2024年1期

李彥征,劉銀華,趙文政,孫芮

(1. 上海理工大學機械工程學院,上海 200093; 2. 上海交通大學機械與動力工程學院,上海 200240)

復雜自由曲面結構產品具有嚴格的幾何尺寸和公差要求,全面準確的質量檢測能夠為產品質量評價提供必要依據。近年來,以結構光為代表的機器人視覺檢測系統(tǒng)以其柔性、非接觸、全覆蓋等特點在汽車、航空航天等制造業(yè)中得到廣泛應用。在自由曲面的質量檢測中,通常采用搭載光學傳感器的工業(yè)機器人以不同的視點和姿態(tài)進行檢測,從而在短時間內實現被測零件的尺寸、位置、形狀以及誤差的獲取。因此,針對自由曲面的檢測規(guī)劃本質上是覆蓋路徑規(guī)劃(Coverage path planning, CPP)問題。Galceran等[1]提出CPP結果需要滿足如下要求:1)機器人必須在給定區(qū)域內的所有候選特征點之間移動;2)機器人生成的路徑的區(qū)域應滿足無重疊路徑的要求;3)在無重復路徑條件下實現連續(xù)以及順序操作;4)機器人必須避開所有障礙物;5)運動軌跡應盡可能的簡單;6)在滿足以上條件的情況下,規(guī)劃出成本最小的一條路徑。

覆蓋路徑規(guī)劃已經被集成到眾多機器人應用場景中,如深海安全探測[2]、三維測繪重建[3-4]、室內外空間清潔[5]以及表面質量檢測[6]等領域。Wang等[7]基于Delaunay三角剖分原理提出了一種路徑規(guī)劃算法,通過設計分層任務規(guī)劃器控制智能體實現未知2D區(qū)域完全覆蓋。此外,基于自組織映射神經網絡等方法也用來解決多智能體的CPP問題求解[8-9]。上述研究均針對二維平面環(huán)境,由于三維空間中機器人無法通過簡單的視點或航路點獲得被遮擋部分的信息,這使得基于二維CPP方法的適用性受到限制。因此,為解決三維空間中的覆蓋路徑規(guī)劃問題,賈慶軒等[10]將A*算法應用于空間機械臂中,通過分析機械臂屬性和障礙物的幾何特征來獲得簡化模型,進而求解無碰撞路徑。王洪斌等[11]將A*算法與人工勢場法相結合,提出了全局規(guī)劃與局部規(guī)劃相融合的路徑規(guī)劃方法,實現了機器人局部路徑的動態(tài)規(guī)劃。劉洪鵬等[12]考慮了光學傳感器位姿對于檢測精度的影響,提出了基于改進貪心算法的覆蓋路徑規(guī)劃。Jing等[6]考慮了機器人位姿不確定性,提出了一個通用框架,獲得離散化工作空間上的覆蓋概率,并根據新的概率覆蓋準則生成保證覆蓋得路徑。

上述文獻提出的CPP算法均假設環(huán)境已知,而對于未知的、非結構化環(huán)境時,上述方法將變得不再適用。因此,Bircher等[13]引入了一種新的路徑規(guī)劃方案,使得在線規(guī)劃好的路徑能夠以后退的地平線方式探索給定的有界體積。Meyes等[14]提出基于強化學習(Reinforcement learning,RL)的機器人連續(xù)軌跡的運動規(guī)劃方法。Lakshmanan等[5]提出了一個完整的覆蓋路徑規(guī)劃模型,該模型使用深度強化學習為基于Tetromino的可重構機器人平臺進行訓練,獲得成本最小的機器人軌跡。Paull等[15]考慮了機器人姿態(tài)的不確定性,提出了一個通用框架,基于信息的路徑規(guī)劃保證了區(qū)域覆蓋。

上述研究針對強化學習在機器人路徑的在線規(guī)劃方面進行了探索,但較少考慮工業(yè)現場的不確定性環(huán)境。因此,本文針對實際制造環(huán)境下在線覆蓋路徑規(guī)劃問題,考慮零部件制造誤差、工裝定位誤差等不確定性因素,提出了一種基于改進的蒙特卡洛樹搜索算法的強化學習方法,在線生成有效的工業(yè)機器人運動路徑,實現零部件表面全特征的覆蓋質量檢測。

1 不確定環(huán)境下覆蓋路徑規(guī)劃概述

機器人光學掃描系統(tǒng)一般由3部分組成,包括光學傳感器、機器人、被測零部件及工裝夾具等。在產品質量檢測中,覆蓋路徑規(guī)劃是尋找一個接近最優(yōu)的機器人運動方案,完成一系列滿足覆蓋要求和無干涉約束的檢測任務。傳統(tǒng)CPP問題求解的思路一般包括:1)視點規(guī)劃,為被檢測零件進行最優(yōu)的視點采樣,其受視點數量和特征全覆蓋的約束;2)路徑規(guī)劃,尋找連接所有視點的最優(yōu)或接近最優(yōu)的序列,并進一步基于此序列生成無碰撞的機器人路徑。

在質量檢測過程中,造成不確定性的因素主要包括零部件位姿誤差、表面不一致性、測量噪聲等。傳統(tǒng)基于標準數模環(huán)境下的覆蓋路徑規(guī)劃結果的適用性不足,難以適應不確定制造環(huán)境,導致大量現場調試,工藝規(guī)劃的準確性不高。因此,本文考慮零件位姿誤差等不確定性因素,提出了基于強化學習的覆蓋路徑在線規(guī)劃方法,實現機器人掃描系統(tǒng)路徑的在線規(guī)劃。本文提出的CPP方法主要包括:環(huán)境搭建、視點規(guī)劃與路徑規(guī)劃等。環(huán)境搭建的目的是獲得初始視點、視點的可視性矩陣等。

視點的可視性需要滿足以下要求:1)裝有光學傳感器的機器人末端能夠到達該候選視點;2)對于確定的視點,應滿足光學傳感器的參數要求,如視場(Field of view, FOV)、景深(Depth of field, DOF)等;3)配備光學傳感器的機器人檢測系統(tǒng)與被檢測對象、工裝之間不發(fā)生碰撞。視點采樣與路徑規(guī)劃部分主要是在上述環(huán)境搭建基礎上進行,文中考慮了不確定的制造環(huán)境,提出了用于覆蓋性視點采樣的強化學習算法,進一步結合啟發(fā)式優(yōu)化算法的應用實現最佳視點集之間的優(yōu)化檢測路徑,提升檢測工藝規(guī)劃與質量檢測效率。

2 強化學習的在線路徑規(guī)劃

2.1 面向在線CPP的初始視點生成

為實現不確定制造環(huán)境下的覆蓋路徑在線規(guī)劃,本文首先對被測零件進行體素化操作,同時考慮不確定性環(huán)境下的視點的可利用性,提出基于空心球的視點隨機采樣方法。不同于傳統(tǒng)的體素膨脹法、勢場法以及橢球體[6]等視點生成方式,在空心球中生成視點可以最大效率的重用視點,且刪除了過于靠近物體的視點,在滿足全覆蓋要求的前提下,減低初始視點集大小,提升視點規(guī)劃效率。具體生成方法如下:

1) 以待檢測物體中心為球心,空心球體最小最大半徑滿足掃描測頭參數,在空心球內基于隨機采樣生成初始視點集。

2) 針對確定的視點,對應入射角方向定義為

(1)

式中:Xi為第i個視點的入射角指向方向;x～N(0,1)為滿足高斯分布的多元變量;k為高斯分布比重的調整參數;xi1為第i個視點對應的距離最小的檢測特征坐標;xi2為第i個視點的位置,初始視點生成的示意圖如圖1所示。

圖1 初始視點生成示意圖Fig. 1 Schematic diagram of the original viewpoint generation

進一步,對每個視點的可達性與可視性進行求解,可視性即確定每個視點對應視場內有效測點集合。一般滿足以下4個條件[16]的檢測特征被定義為可視:

1) 待測物體特征與相機之間距離的要求,即DOF。

2) 待測物體特征在相機檢測范圍之內,即FOV。

3) 待測物體特征與相機入射角的夾角要求,即可視性要求。

4) 待測物體特征與相機之間無其他遮擋。

對于可視性的規(guī)則如圖2所示。

圖2 可視性要求Fig. 2 Visibility requirement

圖2中:[D,D+d]為相機的景深要求,只有待測物體處于此區(qū)間內,相機才可進行表面質量檢測;α為相機的視場要求,待測特征要位于α角內;θ為待測特征矢量方向與相機入射角的夾角。當以上要求均滿足的情況下,可以計算可視性矩mG。至此,面向在線視點采樣的檢測環(huán)境搭建全部完成。

2.2 強化學習的全覆蓋視點采樣

2.2.1 MDP模型概述

強化學習算法[17]中,主要包括以下幾個要素:狀態(tài)、動作、獎勵、狀態(tài)價值函數、動作價值函數等。其特點是無需提前給定解決問題的策略,而是智能體根據環(huán)境采取行動,通過智能體對狀態(tài)、動作和獎勵三要素的計算,迭代更新目標函數,以實現自我學習、進行策略的更新與改進的目的,強化學習的思路如圖3所示。

圖3 強化學習過程Fig. 3 Reinforcement learning process

其中智能體與環(huán)境之間的交互過程被認為是馬爾科夫決策過程(Markov decision process, MDP),MDP被定義為一個有限的五元組(S,T,A,r,λ)。其中,S為有限狀態(tài)的集合;T為狀態(tài)轉移模型;A為智能體有限動作的集合;r:S×A→r∈R為狀態(tài)S的函數,稱之為智能體在當前狀態(tài)下選擇動作的獎勵函數,可表示為r=E(S);λ為折扣因子,定義了當前獎勵與未來獎勵之間的比重。如果λ=0,那么智能體的動作價值只與當前所得的獎勵有關,若λ=1,則智能體的價值函數不僅受到當前獎勵的影響,并且未來獎勵對于價值函數的影響同等重要。其中價值函數一般作為期望函數出現,用于評估處于當前狀態(tài)時執(zhí)行相應動作時,未來可能獲得的獎勵期望,其可表示為

vπ(s)=Eπ(Rt+1+λRt+2+…|St=s)

(2)

2.2.2 面向CPP問題的強化學習模型構建

為使得CPP問題轉化為MDP問題,我們對CPP問題中的概念進行重新定義,使其滿足MDP問題要素的要求。

定義1(狀態(tài)):在CPP問題中狀態(tài)空間是由機器人位于當前視點時,基于當前視點所有未被機器人選擇的視點所構建的集合。狀態(tài)空間S中的每個狀態(tài)s由以下兩個部分組成:1)從有限的候選視點集Ps中提取機器人位于視點時的位姿;2)候選視點集Ps中的每一個視點vs。

基于初始視點的生成,零件表面質量檢測中的CPP需要滿足:1)零件表面需要覆蓋最少數量的視點,同時每個視點包含盡可能多的檢測特征;2)全覆蓋條件下,應最小化檢測時間,提高檢測效率。對于CPP問題中狀態(tài)和獎勵的轉換,給出如下的定義:

定義2(動作):對于機器人來說,位于當前狀態(tài),即視點位置及機器人本身位姿給定時,如何選擇下一狀態(tài)的過程稱之為MDP問題的動作空間。

定義3(獎勵):由于質量覆蓋檢測問題的特殊性,即在保證全特征覆蓋率要求下最小化檢測時間,故定義獎勵函數為

(3)

式中:Si為第i個視點;ai為測頭中心點位于第i個視點時其余視點的集合;Ti(Si)為Si視點的檢測時間;Tt(Si,Si+1)為測頭中心點從視點Si運動到Si+1時所花費的時間;con(vi,ai)為測頭中心位于視點vi且選擇動作ai時所覆蓋待測特征數目;con(vi,ai)∩con(vi)為視點vi與機器人基于當前視點選擇動作ai之后,視場內檢測特征的交集。

解決上述構造的MDP問題即尋找一個最優(yōu)策略使得智能體在于環(huán)境交互的過程中獲得最優(yōu)回報獎勵。為此,本文基于上述構造模型,提出了改進蒙特卡洛樹搜索算法(Monte carlo tree search, MCTS)對CPP問題進行求解。MCTS算法是一種通過使用決策樹隨機抽樣實現高維空間中探索的增量方法。MCTS算法具有漸進最優(yōu)性, 即可以隨著決策點的增加迭代進而收斂達到最優(yōu)解。MCTS算法主要包括:

1) 選擇:從根節(jié)點出發(fā),選擇當前節(jié)點的最佳子節(jié)點,直至葉子節(jié)點。

2) 擴展:位于葉節(jié)點時,若沒有達到終止狀態(tài),則對當前節(jié)點進行擴展。

3) 模擬:基于目前狀態(tài),以一定策略移動至子節(jié)點,直至達到終止狀態(tài)。

4) 反向傳播:根據模擬結果,反向更新所有節(jié)點信息。

本文提出的改進MCTS算法流程如算法1所示。

算法1: 蒙特卡洛樹搜索(MTCS)

輸入: 初始視點位置信息S0

輸出: 根據當前節(jié)點的狀態(tài),選擇最佳子節(jié)點S′0

1: create root nodev0with stateS0

2: fori=1: max-iteration:

3:v←TreePolicy(v0)

4:Δ←SimulatePolicy(s(v))

5: BackUp(v,Δ)

6: end for

7:S′0←BestChild(v0)

算法1中:v0是根節(jié)點,即機器人末端從當前視點開始進行視點采樣;max-iteration為最大迭代次數;SimulatePolicy()為模擬過程下應用的策略。

本文中,使用的策略為隨機選擇子節(jié)點策略,在當前狀態(tài)下的子節(jié)點中,即候選視點,隨機選擇一個智能體未經歷的狀態(tài)當作智能體的下一狀態(tài);BestChild()為依據所給等式(4)選擇當前節(jié)點的最佳子節(jié)點函數。對于MCTS算法中擴展、回溯功能的實現,分別為TreePolicy()、BackUp(),具體實現過程如算法2和算法3所示。

算法2: 樹策略(TreePolicy)

輸入:當前節(jié)點v

輸出:當前節(jié)點的子節(jié)點v′

1:whilevis not terminal:

2:ifvis not fully expanded

3:choosev′ from untrieds(v)

4:v′ satisfyf(S,a0,a1,…,ai-1)

5:Return (v′)

6:else

7:v′→BestChild(v)

8:Return(v)

算法3: 回溯函數(BackUp)

輸入:當前節(jié)點v,默認策略模擬結果Δ

輸出:更新被選擇的節(jié)點信息

1:whilevis not empty:

2:N(v)←N(v)+1

3:Q(v)←Q(v)+Δ

4:v←parent ofv

算法2中:s(v)為未被選擇的視點集合,函數f(S0,a0,a1,…,ai-1)對于當前節(jié)點相對于根節(jié)點之間的連續(xù)性產生了約束。當存在候選視點且遇到未完全擴展的節(jié)點時,基于BestChild()函數公式,添加1個子節(jié)點v′。v′滿足與當前節(jié)點v連續(xù)的要求。算法3中,N(v)為當前節(jié)點的觀測次數,Q(v)為當前節(jié)點的回報計算結果,Δ為當前節(jié)點相對于父節(jié)點的提升結果。

2.3 覆蓋路徑規(guī)劃

視點采樣結束后,CPP中的視點規(guī)劃子問題已經解決。而第二個子問題是確定視點序列以最小化機器人的運動時間。該問題可以表述為旅行商問題(Traveling salesman problem, TSP)。TSP是一個組合優(yōu)化問題,也是NP-hard問題。解決這類問題的方法較為成熟,主要包括分枝定界法、混合整數性規(guī)劃和啟發(fā)式算法等。本文中采用自組織映射神經網絡算法[8]對視點間的優(yōu)化路徑進行求解,獲得視點間檢測時間最短的檢測路徑。

3 案例分析

為了評估該方法的有效性,本文采用車門內板上檢測特征的全覆蓋檢測案例開展虛擬實驗驗證。搭建的虛擬檢測工位如圖4所示,主要包括待測車門、FANUC的R-2000iB/210F機器人以及光學掃描儀,對應的掃描儀參數如表1所示。機器人從其初始位姿開始進行檢測,在達成覆蓋率要求后,返回初始姿態(tài),以便于下一個目標工件的檢測。

圖4 機器人光學檢測系統(tǒng)示意圖Fig. 4 Schematic diagram of the optical inspection system

該車門內板布置待測特征共計950個,如圖5所示,包括面點、圓孔、棱邊點以及槽孔等,對應待測特征的位置及矢量方向在圖中用紅色箭頭表示。針對該前車門實例,在待檢測對象鄰域空間內隨機生成了5 000個候選視點。

考慮到目標工件的不確定性場景應用,案例預設了5種零件位姿誤差情況,即車門總成無位姿誤差、沿X軸的平移15 mm、沿Y方向的平移15 mm以及繞Z軸的旋轉5°和10°,分別標記為場景1,2,3,4,5,覆蓋率參數設置為100%。進一步,通過與基于遺傳算法的覆蓋路徑規(guī)劃方法[18]進行對比分析,驗證本文方法的有效性。表2為基于兩種算法的隨機仿真實驗的對比結果。

表2 基于兩種方法的機器人運動時間對比

從表2可見,本文所提出方法在被測對象具有不同位姿誤差場景下,檢測時間均低于傳統(tǒng)的遺傳算法,檢測周期的提升率在1%～17%之間。針對不同場景下本文提出CPP規(guī)劃方法的機器人檢測時間分別下降3.97%、3.47%、4.97%、10.83%、15.55%。尤其針對零部件轉動位姿誤差下的檢測時間提升顯著。掃描儀視點采樣與機器人軌跡規(guī)劃的對比結果如圖6所示。

圖6 掃描儀視點采樣與機器人軌跡規(guī)劃的對比結果Fig. 6 Comparison results using scanner′s view samples and robotic trajectory planning

受篇幅限制,僅給出零部件在場景1與場景5的軌跡結果。通過圖6可知:本文方法雖然在視點選擇數量上不具備優(yōu)勢,但由于總體規(guī)劃路徑較短,因此檢測總時間更短,使機器人檢測效率顯著提升。本文方法在滿足全覆蓋的要求下,基于初始位置可視空間內隨機生成視點,并設置視點矢量方向;通過視點覆蓋率的提升以及視點間路徑的長短進行視點采樣,并且根據采樣得到的視點進行路徑規(guī)劃。與基于遺傳算法相比,創(chuàng)新性的將待測對象的不確定性位姿誤差等因素融入路徑規(guī)劃中,提出了蒙特卡洛樹搜索算法的CPP問題求解方法,降低了機器人檢測時間。

4 結論

本文針對復雜結構的覆蓋路徑檢測規(guī)劃問題,提出考慮零部件實際位姿誤差等不確定性因素的視點采樣及機器人覆蓋路徑規(guī)劃方法。具體通過待測對象的鄰域空間內視點隨機生成、可視性判別、視點采樣以及路徑規(guī)劃等步驟,實現不確定檢測環(huán)境下全覆蓋路徑的在線規(guī)劃,提升了待測對象的質量檢測效率與實際制造場景的適用性。本文提出方法可為汽車車身、航空航天零件的在線覆蓋路徑規(guī)劃提供理論依據。