亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多智能體強(qiáng)化學(xué)習(xí)的微裝配任務(wù)規(guī)劃方法

        2023-08-30 03:17:20徐興輝唐大林顧書(shū)豪左家祺王曉東任同群
        關(guān)鍵詞:動(dòng)作智能環(huán)境

        徐興輝,唐大林,顧書(shū)豪,左家祺,王曉東,3,任同群,3

        (1.大連理工大學(xué) 微納米技術(shù)及系統(tǒng)遼寧省重點(diǎn)實(shí)驗(yàn)室,遼寧 大連 116024;2.北京航天測(cè)控技術(shù)有限公司,北京 100041;3.大連理工大學(xué) 高性能精密制造全國(guó)重點(diǎn)實(shí)驗(yàn)室,遼寧 大連 116024)

        0 引言

        國(guó)防高端武器中常用的傳感器、慣性器件等,具有尺度小、精度高的特點(diǎn),裝配是其制造過(guò)程中的重要環(huán)節(jié)。裝配任務(wù)就是基于視覺(jué)、力覺(jué)等傳感器對(duì)作業(yè)環(huán)境的感知,控制引導(dǎo)多操作臂協(xié)作完成序列零件的拾取、搬運(yùn)、位姿調(diào)整對(duì)齊以及釋放等操作,即多操作臂的協(xié)同操作。由于任務(wù)需要綜合考慮裝配序列信息,操作臂運(yùn)動(dòng)區(qū)域等條件,導(dǎo)致在操作臂前往目標(biāo)位置的途中,難以始終保持連續(xù)、直線(xiàn)的運(yùn)動(dòng)路徑,因此通常需要對(duì)任務(wù)路徑進(jìn)行規(guī)劃。目前,大多在調(diào)試階段通過(guò)多次人工試驗(yàn)找到一個(gè)優(yōu)先保證安全的控制方案。然而這種方式相當(dāng)耗時(shí),且在試驗(yàn)過(guò)程中由于沒(méi)有明確目標(biāo),容易操作失誤,造成操作臂之間的運(yùn)動(dòng)干涉,甚至產(chǎn)生硬件損壞[1-2]。除此,人工方式不能全局規(guī)劃,所得運(yùn)動(dòng)控制方案并非最優(yōu),勢(shì)必犧牲一定的裝配效率。此時(shí),微裝配任務(wù)自主規(guī)劃就成為了傳統(tǒng)微裝配演變成數(shù)字化智能微裝配的關(guān)鍵手段之一[3]。

        針對(duì)規(guī)劃問(wèn)題,典型的方法是人工勢(shì)場(chǎng)法[4]及其衍生的算法[5-7]。其優(yōu)點(diǎn)是收斂速度快,路徑平滑,運(yùn)行穩(wěn)定[8]。還有學(xué)者將各類(lèi)智能搜索算法如遺傳算法、模擬退火以及模糊控制算法等融入人工勢(shì)場(chǎng)法[9-11],以此來(lái)增加算法的搜索能力,改善局部最優(yōu)問(wèn)題。微裝配的任務(wù)由操作臂連續(xù)動(dòng)作決策所構(gòu)成,因此可將其歸為序貫決策問(wèn)題。強(qiáng)化學(xué)習(xí)(RL,reinforcement learning)的出現(xiàn)主要用于序貫決策問(wèn)題,能夠增加了操作臂的適應(yīng)能力,且只需要操作臂在探索過(guò)程中不斷地從錯(cuò)誤中學(xué)習(xí),即可得到穩(wěn)定的路徑[12]。近年來(lái),針對(duì)大維度數(shù)據(jù)帶來(lái)的迭代復(fù)雜問(wèn)題,有學(xué)者將深度學(xué)習(xí)(DL,deep learning)融入RL中形成深度強(qiáng)化學(xué)習(xí)(DRL,deep reinforcement learning),如控制機(jī)械臂重新排列物體[13],完成協(xié)作任務(wù)[14],在非結(jié)構(gòu)化區(qū)域中抓取目標(biāo)對(duì)象[15]。

        在裝配領(lǐng)域,李彥江利用多智能體深度確定性策略梯度算法(MADDPG,multi-agent deep deterministic policy gradientalgorithm)算法,實(shí)現(xiàn)了雙關(guān)節(jié)臂的協(xié)同裝配并進(jìn)行了仿真驗(yàn)證[16]。李妍等將模糊貝葉斯與深度Q網(wǎng)絡(luò)結(jié)合,提高了狹窄空間中的運(yùn)行效率[17]。微裝配系統(tǒng)特有的支撐框架、直角坐標(biāo)、空間密集使其對(duì)精度、空間等要求較高。而障礙物與目標(biāo)點(diǎn)集中等特征加劇了迭代復(fù)雜、局部最優(yōu)問(wèn)題,因而傳統(tǒng)的人工勢(shì)場(chǎng)法等并不適用此類(lèi)規(guī)劃問(wèn)題。一次任務(wù)中有不同的子任務(wù),而各子任務(wù)的操作臂個(gè)數(shù)、障礙物布置等均不同,此類(lèi)先驗(yàn)信息、環(huán)境信息的變化將導(dǎo)致使用智能搜索算法規(guī)劃時(shí)需要重新構(gòu)建環(huán)境,耗費(fèi)了大量資源。當(dāng)前DRL方法多用于移動(dòng)機(jī)器人的路徑規(guī)劃[18-19]、無(wú)人機(jī)導(dǎo)航與任務(wù)分配[20]、以及實(shí)際生產(chǎn)線(xiàn)上的人機(jī)協(xié)作問(wèn)題[21]等。然而上述工況與微裝配任務(wù)特點(diǎn)差異較大,存在動(dòng)作空間不符、獎(jiǎng)勵(lì)函數(shù)條件不合理等可能導(dǎo)致微裝配實(shí)物訓(xùn)練難度大的問(wèn)題,以及精確度低的仿真環(huán)境可能導(dǎo)致訓(xùn)練失敗。

        綜上所述,提出了多智能體強(qiáng)化學(xué)習(xí)(MARL,multi-agent reinforcement learning)下更契合微裝配任務(wù)的動(dòng)作、狀態(tài)、獎(jiǎng)勵(lì)條件的構(gòu)建方法。同時(shí),基于MADDPG算法,利用Coppelisiam軟件對(duì)已有測(cè)量設(shè)備進(jìn)行物理建模,構(gòu)建了任務(wù)的深度強(qiáng)化學(xué)習(xí)模型并進(jìn)行訓(xùn)練得到可工程化的路徑,實(shí)現(xiàn)了微裝配設(shè)備的自主規(guī)劃。

        1 多智能體強(qiáng)化學(xué)習(xí)算法

        1.1 深度強(qiáng)化學(xué)習(xí)機(jī)制

        深度強(qiáng)化學(xué)習(xí)方法將深度學(xué)習(xí)較強(qiáng)的感知能力與強(qiáng)化學(xué)習(xí)具有的決策能力相結(jié)合。主要思想是利用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)原始低層特征輸入的非線(xiàn)性變換,增強(qiáng)智能體的環(huán)境感知能力,并結(jié)合強(qiáng)化學(xué)習(xí)的探索能力,形成一種將原始環(huán)境狀態(tài)輸入直接映射為動(dòng)作決策輸出的端對(duì)端的學(xué)習(xí)方法[22]。與強(qiáng)化學(xué)習(xí)一樣,深度強(qiáng)化學(xué)習(xí)框架中也由智能體(Agent)、動(dòng)作、狀態(tài)及獎(jiǎng)勵(lì)等要素組成。

        策略(Policy),狀態(tài)集(State)與動(dòng)作空間(Action):策略π是智能體與環(huán)境交互時(shí)的行為選擇依據(jù),π(s,a)智能體在狀態(tài)s下根據(jù)π選擇動(dòng)作a。狀態(tài)空間S表示智能體狀態(tài)信息的集合,是智能體訓(xùn)練過(guò)程中制定決策和獲取長(zhǎng)期收益的交互依據(jù);動(dòng)作空間A包含了智能體在某狀態(tài)下所能做出所有可選動(dòng)作的集合。S→A表示狀態(tài)空間到動(dòng)作空間的映射。

        獎(jiǎng)勵(lì)函數(shù)(Reward):獎(jiǎng)勵(lì)函數(shù)r反映當(dāng)前環(huán)境狀態(tài)St∈S下所選擇的動(dòng)作At∈A對(duì)達(dá)成目標(biāo)的貢獻(xiàn)度,其將任務(wù)目標(biāo)具體化和數(shù)值化,是實(shí)現(xiàn)操作臂與環(huán)境之間交互的載體,影響著智能體策略的選擇。獎(jiǎng)勵(lì)值是否合理,決定著智能體通過(guò)訓(xùn)練之后選擇的動(dòng)作能否有利于達(dá)成目標(biāo)。

        價(jià)值函數(shù)(Value Function):價(jià)值函數(shù)Q(s,a)表示某個(gè)狀態(tài)下在選擇某動(dòng)作時(shí)的價(jià)值,其由帶有折扣因子的未來(lái)獎(jiǎng)勵(lì)組成,因此表示選擇動(dòng)作的潛在價(jià)值。從定義上看,價(jià)值函數(shù)就是回報(bào)的期望:

        Rt=rt+λrt+1+λ2rt+2+…

        (1)

        Q(s,a)=

        E[rt+λmaxQ(st+1,at+1)|St=s,At=a]

        (2)

        其中:λ為獎(jiǎng)勵(lì)的折扣因子。在DRL中,使用神經(jīng)網(wǎng)絡(luò)逼近擬合價(jià)值函數(shù)。

        經(jīng)驗(yàn)回放池(ER,experience replay):深度學(xué)習(xí)對(duì)訓(xùn)練數(shù)據(jù)的假設(shè)是獨(dú)立同分布的,然而在DRL中,訓(xùn)練數(shù)據(jù)由高度相關(guān)的“智能體環(huán)境交互序列”組成,不符合采樣數(shù)據(jù)獨(dú)立性條件。智能體在探索狀態(tài)空間的不同部分時(shí)是主動(dòng)學(xué)習(xí)的,因此訓(xùn)練數(shù)據(jù)的分布是非平穩(wěn)的,不符合采樣數(shù)據(jù)獨(dú)立同分布條件。ER機(jī)制使DRL中的智能體能夠記住并回放過(guò)去的經(jīng)驗(yàn)數(shù)據(jù),通過(guò)與最近數(shù)據(jù)混合,打破觀測(cè)序列的時(shí)間相關(guān)性,有助于解決數(shù)據(jù)非獨(dú)立同分布造成的問(wèn)題。

        1.2 MADDPG算法

        由于微裝配任務(wù)規(guī)劃是一個(gè)典型的多操作臂問(wèn)題,在利用多智能體強(qiáng)化學(xué)習(xí)進(jìn)行求解時(shí),存在環(huán)境不穩(wěn)定問(wèn)題,當(dāng)前狀態(tài)優(yōu)化的策略在下一個(gè)變化的環(huán)境狀態(tài)中可能又無(wú)效了,這就導(dǎo)致不能直接使用ER來(lái)進(jìn)行訓(xùn)練,因此適用于單智能體的DRL方法需要改進(jìn)。由Lowe等提出的MADDPG算法將多智能體思想融入了基于深度強(qiáng)化學(xué)習(xí)的演員-評(píng)論家算法[23],MADDPG算法采用集中學(xué)習(xí),分散執(zhí)行的方法解決了多智能體競(jìng)爭(zhēng)、合作或者競(jìng)爭(zhēng)合作共存的復(fù)雜環(huán)境中存在的環(huán)境不穩(wěn)定問(wèn)題。集中學(xué)習(xí)指的是環(huán)境中的所有智能體的信息是全局共享,分散執(zhí)行指智能體在做出決策時(shí),僅依靠自己觀測(cè)得到的環(huán)境情況進(jìn)行選擇合適的動(dòng)作,無(wú)需其他智能體的狀態(tài)或動(dòng)作,因此該算法解決了之前單智能體算法只能獲得自己的狀態(tài)動(dòng)作的問(wèn)題。微裝配環(huán)境中,各操作臂既有多操作臂共同完成一項(xiàng)工作的合作關(guān)系,同時(shí)也有不同模塊間避免干涉的競(jìng)爭(zhēng)關(guān)系。因此在使用多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練多操作臂時(shí),應(yīng)具體分析微裝配任務(wù)特點(diǎn)設(shè)計(jì)合理的環(huán)境交互機(jī)制,對(duì)動(dòng)作、狀態(tài),特別是獎(jiǎng)勵(lì)函數(shù)進(jìn)行針對(duì)性設(shè)計(jì)。

        2 微裝配測(cè)量設(shè)備訓(xùn)練模型構(gòu)建

        分析微裝配任務(wù)特點(diǎn):其通常采用直角坐標(biāo)機(jī)器人,運(yùn)動(dòng)方式不能脫離支撐框架,難以完成順滑的非直線(xiàn)運(yùn)動(dòng)軌跡,因此一些高精度避障、協(xié)調(diào)的動(dòng)作難以通過(guò)插補(bǔ)實(shí)現(xiàn)。同時(shí),規(guī)避干涉時(shí)應(yīng)盡量避免停頓和反向運(yùn)動(dòng),以減小控制難度和裝配精度損失;其次,多操作臂擁擠在狹小的操作空間內(nèi),既有協(xié)作也有競(jìng)爭(zhēng)(運(yùn)動(dòng)干涉),使得規(guī)劃求解空間有限;最后,操作臂的運(yùn)動(dòng)軌跡相對(duì)于操作空間多為長(zhǎng)序列,且易干涉區(qū)域相對(duì)集中,使得協(xié)同運(yùn)動(dòng)時(shí)干涉的風(fēng)險(xiǎn)增加。動(dòng)作、狀態(tài)以及獎(jiǎng)勵(lì)函數(shù)構(gòu)建以上述特點(diǎn)為依據(jù)。

        2.1 狀態(tài)空間與動(dòng)作空間構(gòu)建

        狀態(tài)空間的設(shè)計(jì)包括子任務(wù)劃分、觀測(cè)空間的建立。在微裝配中,操作臂應(yīng)盡量避免反向運(yùn)動(dòng),但還是存在如操作臂取放工件,相機(jī)觀測(cè)不同位置零件等難以避免反向運(yùn)動(dòng)的情況。因此可將這些裝配任務(wù)中運(yùn)動(dòng)方向的臨界位置作為各子任務(wù)的劃分點(diǎn),既便于進(jìn)行精度控制,又便于后續(xù)動(dòng)作空間設(shè)計(jì)后續(xù)路徑的訓(xùn)練。觀測(cè)空間是狀態(tài)空間的基礎(chǔ),決定了要對(duì)哪些操作臂的狀態(tài)進(jìn)行觀測(cè),并將觀測(cè)結(jié)果輸入策略網(wǎng)絡(luò)以及價(jià)值評(píng)價(jià)網(wǎng)絡(luò)。在進(jìn)行觀測(cè)時(shí),各模塊操作臂所處位置可作為觀測(cè)空間的組成部分,為了便于網(wǎng)絡(luò)輸入,對(duì)實(shí)時(shí)位置應(yīng)當(dāng)進(jìn)行歸一化處理:

        (3)

        其中:pr是當(dāng)前操作臂位置,pf是子任務(wù)中操作臂需要運(yùn)動(dòng)的總長(zhǎng)度。同時(shí),對(duì)于無(wú)碰路徑,還需要對(duì)實(shí)體之間的碰撞情況進(jìn)行觀測(cè),最終得到的觀測(cè)空間為:

        S={Collision,Rle}

        (4)

        動(dòng)作空間決定了操作臂動(dòng)作庫(kù)的動(dòng)作數(shù)量。動(dòng)作空間的設(shè)計(jì)應(yīng)具有完備、高效以及合理的特點(diǎn)。在進(jìn)行動(dòng)作空間設(shè)計(jì)時(shí),應(yīng)當(dāng)對(duì)無(wú)效動(dòng)作進(jìn)行屏蔽。無(wú)效動(dòng)作是指操作臂選擇的動(dòng)作違反其所處的實(shí)際環(huán)境。不同于無(wú)人機(jī)控制、關(guān)節(jié)機(jī)械臂的應(yīng)用場(chǎng)景,微裝配設(shè)備在運(yùn)行時(shí)由于高精度要求,需要盡量避免停頓和反向運(yùn)動(dòng)的無(wú)效動(dòng)作,以減少頻繁啟停和回程誤差造成的裝配精度損失,尤其在進(jìn)行干涉規(guī)避時(shí),更應(yīng)避免隨意反向運(yùn)動(dòng)等無(wú)效運(yùn)動(dòng);停頓次數(shù)過(guò)多也會(huì)導(dǎo)致脈沖計(jì)數(shù)誤差增大,增加操作臂的控制難度。因此微裝配測(cè)量系統(tǒng)的子任務(wù)中,操作臂一旦朝向一個(gè)方向運(yùn)動(dòng),原則上就不能再向反方向移動(dòng),但仍可以接受由于避碰而導(dǎo)致的較少次數(shù)的停頓。對(duì)于已經(jīng)到達(dá)目標(biāo)點(diǎn)的操作臂,其動(dòng)作將始終為0,因此動(dòng)作空間設(shè)計(jì)為:

        (5)

        其中:v為操作臂所選擇動(dòng)作的速度,包括選擇速度為0的停頓,dir為操作臂的運(yùn)行方向。每一個(gè)step開(kāi)始時(shí),都通過(guò)將操作臂當(dāng)前的狀態(tài)輸入策略網(wǎng)絡(luò)得到選擇不同動(dòng)作組合的概率,并以概率最大的動(dòng)作組合作為該step的動(dòng)作。

        2.2 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

        操作臂的訓(xùn)練過(guò)程就是不斷試錯(cuò)的過(guò)程,獎(jiǎng)勵(lì)函數(shù)作為評(píng)價(jià)操作臂所選擇動(dòng)作的好壞評(píng)價(jià)標(biāo)準(zhǔn),直接決定了能否訓(xùn)練出成功的方案。微裝配任務(wù)中,各操作臂通過(guò)環(huán)境給予的獎(jiǎng)勵(lì)得知自己在某一狀態(tài)下采取的動(dòng)作是否合理,因此獎(jiǎng)勵(lì)函數(shù)的本質(zhì)是建立狀態(tài)動(dòng)作對(duì)與獎(jiǎng)勵(lì)之間的映射關(guān)系,并將這種關(guān)系用于對(duì)操作臂所采取的動(dòng)作的評(píng)價(jià)和約束。獎(jiǎng)勵(lì)函數(shù)直接影響了算法的收斂性,與微裝配環(huán)境契合的獎(jiǎng)勵(lì)函數(shù)是實(shí)現(xiàn)設(shè)備無(wú)碰、高效的前提。

        各操作臂的首要任務(wù)是到達(dá)目標(biāo)位置,因此獎(jiǎng)勵(lì)函數(shù)應(yīng)具有吸引操作臂前往目標(biāo)點(diǎn)的功能。以操作臂所處位置為自變量,構(gòu)建主要的獎(jiǎng)勵(lì)函數(shù)為:

        (6)

        其中:Δp是操作臂當(dāng)前位置與目標(biāo)點(diǎn)之間的距離。pf是子任務(wù)中操作臂需要運(yùn)動(dòng)的總長(zhǎng)度。該函數(shù)下,隨著操作臂靠近目標(biāo)點(diǎn),Δp不斷減少,則正向獎(jiǎng)勵(lì)值不斷增大。動(dòng)作空間中包含速度為0的停止動(dòng)作,對(duì)每個(gè)子任務(wù)而言,為了保證精度以及保證操作臂的運(yùn)動(dòng)可控性,頻繁啟停將會(huì)導(dǎo)致精度損失,顯著增加控制難度,在規(guī)劃時(shí)需要避免,因此操作臂的停頓次數(shù)應(yīng)當(dāng)越少越好。然而在MADDPG算法中,為了讓操作臂保證一定的探索性,各動(dòng)作的選擇概率具有一定的隨機(jī)性,所以對(duì)停頓次數(shù)過(guò)多的行為進(jìn)行懲罰:

        (7)

        其中:s0為子任務(wù)中操作臂選擇動(dòng)作為0的step個(gè)數(shù),s為操作臂在路徑中所經(jīng)歷的step個(gè)數(shù),α為對(duì)應(yīng)的系數(shù)。由于對(duì)于路徑的要求還有無(wú)碰的要求,因此當(dāng)操作臂產(chǎn)生碰撞時(shí)需要給予較大的懲罰,即為:

        R3=-a

        (8)

        其中:a為一常量,表示碰撞結(jié)果一經(jīng)產(chǎn)生,就給予操作臂固定的懲罰。然而,微裝配設(shè)備中多為狹小空間,多臂協(xié)同動(dòng)作時(shí)碰撞極易發(fā)生,這導(dǎo)致操作臂即便通過(guò)大量冗余試驗(yàn)也不能明白碰撞前的路徑是低價(jià)值的,此時(shí)若僅當(dāng)產(chǎn)生碰撞時(shí)才懲罰,則會(huì)由于相關(guān)信息不直接而導(dǎo)致操作臂始終選擇低價(jià)值動(dòng)作,避碰失敗,在這種情況下,操作臂需要通過(guò)大量冗余試驗(yàn)才能明白碰撞前的路徑也是低價(jià)值的。其中,正是因?yàn)榕c控制目的相關(guān)的信息并未在獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)中得到體現(xiàn),而導(dǎo)致此類(lèi)問(wèn)題的產(chǎn)生。此時(shí)就需要使用獎(jiǎng)勵(lì)函數(shù)進(jìn)行外部干預(yù),這意味著獎(jiǎng)勵(lì)函數(shù)不僅需要對(duì)碰撞行為進(jìn)行懲罰,還需要能夠?qū)ε鲎策M(jìn)行預(yù)測(cè)。具體到微裝配中,就是以實(shí)體對(duì)象之間的距離為依據(jù),構(gòu)建獎(jiǎng)勵(lì)函數(shù)為:

        R4=ω(Δd-Dt)

        (9)

        其中:ω為系數(shù),用于調(diào)節(jié)該部分獎(jiǎng)勵(lì)函數(shù)對(duì)整體獎(jiǎng)勵(lì)的影響程度。Dt為碰撞檢測(cè)閾值,Δd為實(shí)體之間的實(shí)時(shí)距離,當(dāng)實(shí)體距離小于Dt時(shí),則R4為負(fù)值,對(duì)操作臂開(kāi)始懲罰,反之進(jìn)行正向獎(jiǎng)勵(lì)。綜上,可得符合微裝配測(cè)量設(shè)備的獎(jiǎng)勵(lì)函數(shù)為

        (10)

        3 微裝配設(shè)備仿真

        3.1 物理仿真環(huán)境搭建

        采用CoppeliaSim軟件對(duì)已有的測(cè)量設(shè)備進(jìn)行物理建模,基于前述獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)方法,在CoppeliaSim中以MADDPG算法進(jìn)行訓(xùn)練并驗(yàn)證。訓(xùn)練過(guò)程中,利用仿真軟件自身提供的實(shí)體間碰撞以及距離檢測(cè)功能,實(shí)現(xiàn)零部件之間的距離檢測(cè)和碰撞檢測(cè),操作臂實(shí)時(shí)位置監(jiān)測(cè)等操作,這些信息通過(guò)軟件的消息機(jī)制送給訓(xùn)練算法,再由訓(xùn)練算法處理并將得到的策略通過(guò)遠(yuǎn)程控制實(shí)現(xiàn)仿真運(yùn)動(dòng),訓(xùn)練環(huán)境與仿真環(huán)境關(guān)系如圖2所示。目標(biāo)設(shè)備為課題組研制的“航天陀螺儀氣浮動(dòng)壓馬達(dá)間隙測(cè)量設(shè)備”,結(jié)構(gòu)如圖3所示。設(shè)備中,由9自由度操作臂協(xié)同完成馬達(dá)軸向及徑向μm級(jí)間隙的測(cè)量任務(wù)[24]。

        CoppeliaSim是一款機(jī)器人仿真平臺(tái),其具有完備的物理引擎,支持實(shí)體重構(gòu)模型、距離檢測(cè)、實(shí)體碰撞檢測(cè)等,支持通過(guò)Python遠(yuǎn)程控制關(guān)節(jié)進(jìn)行移動(dòng)。為了節(jié)約仿真計(jì)算量,通常將復(fù)雜的模型部件進(jìn)行重構(gòu),將各零部件有具有精準(zhǔn)細(xì)節(jié)的實(shí)體轉(zhuǎn)換為凸包體,因此利用開(kāi)源的V-HACD庫(kù)對(duì)操作臂組成部分進(jìn)行凸分解,實(shí)現(xiàn)粗略建模,同時(shí)由于對(duì)夾指、工件、測(cè)頭等進(jìn)行較為精細(xì)的重構(gòu),使凸包體與部件形狀接近一致,如圖4所示。最終得到的物理模型如圖5所示。

        雖然操作臂的運(yùn)動(dòng)是一個(gè)連續(xù)的動(dòng)作,但連續(xù)運(yùn)動(dòng)時(shí),持續(xù)性的碰撞檢測(cè)將使得訓(xùn)練時(shí)間成本過(guò)高,如平均兩個(gè)零部件之間的碰撞檢測(cè)就需要1.5 s的時(shí)間,導(dǎo)致操作臂連續(xù)運(yùn)動(dòng)時(shí)進(jìn)行訓(xùn)練、處理仿真軟件信息流的延遲過(guò)大。因此,將操作臂的連續(xù)運(yùn)動(dòng)簡(jiǎn)化為離散勻速運(yùn)動(dòng),即在仿真環(huán)境中以操作臂在固定時(shí)間的位移表示其在實(shí)際設(shè)備中的速度。則在間隔時(shí)間確定的情況下建立操作臂在實(shí)際設(shè)備中與仿真模型中運(yùn)動(dòng)的模型映射關(guān)系為:

        s=vT

        (11)

        其中:T為確定的間隔時(shí)間,v為操作臂運(yùn)行的實(shí)際速度。Coppeliasim機(jī)械臂控制器中的Background Task通過(guò)UDP向外部程序每隔50 ms循環(huán)發(fā)送當(dāng)前各軸位置,確定T為50 ms的整倍數(shù)即可?;贛ADDPG算法構(gòu)建設(shè)備操作臂的訓(xùn)練算法。對(duì)動(dòng)作、狀態(tài)空間以及獎(jiǎng)勵(lì)函數(shù)進(jìn)行重構(gòu),各step之間的間隔為T(mén)。

        3.2 仿真實(shí)驗(yàn)

        以圖6中的工件姿態(tài)旋轉(zhuǎn)子任務(wù)為例,該子任務(wù)包含多臂協(xié)同、避障兩個(gè)動(dòng)作要求。旋轉(zhuǎn)模塊上的夾指沿Y軸運(yùn)動(dòng)并夾住工件后,操作臂的具體目標(biāo)位置為:旋轉(zhuǎn)模塊Y軸執(zhí)行后退動(dòng)作至限位位置使零件退出上料區(qū)域,在Y軸退出的同時(shí),旋轉(zhuǎn)模塊R軸旋轉(zhuǎn)90°使馬達(dá)由水平轉(zhuǎn)至豎直狀態(tài)。同時(shí),三爪夾持模塊的X軸與Z軸也同時(shí)向目標(biāo)位置運(yùn)動(dòng),以準(zhǔn)備零件的對(duì)接工作。

        在Pycharm中搭建好基于Python的訓(xùn)練所需環(huán)境,然后使用基于MADDPG算法的訓(xùn)練算法對(duì)設(shè)備整體進(jìn)行多個(gè)episode的訓(xùn)練。訓(xùn)練算法輸出的策略通過(guò)封裝好的函數(shù)對(duì)仿真軟件中的物理模型進(jìn)行遠(yuǎn)程控制。物理仿真環(huán)境中實(shí)時(shí)交互產(chǎn)生的操作臂位置、零部件間的距離、碰撞檢測(cè)結(jié)果等作為觀測(cè)值返回到訓(xùn)練算法。

        首先構(gòu)建好訓(xùn)練所需的動(dòng)作,狀態(tài)空間。然后根據(jù)式(6)設(shè)計(jì)僅以目標(biāo)點(diǎn)吸引作為正向獎(jiǎng)勵(lì)的獎(jiǎng)勵(lì)函數(shù),通過(guò)多次訓(xùn)練,得到兩個(gè)操作臂位移變化曲線(xiàn)、動(dòng)作選擇曲線(xiàn)以及所經(jīng)歷的各位置處的獎(jiǎng)勵(lì)值如圖7所示。

        雖然位移的實(shí)際運(yùn)動(dòng)曲線(xiàn)顯示操作臂成功避障并到達(dá)了目標(biāo)位置,但由動(dòng)作選擇曲線(xiàn)可看出,操作臂運(yùn)行時(shí)存在斷斷續(xù)續(xù)反復(fù)啟停的問(wèn)題,選擇了過(guò)多無(wú)必要的零動(dòng)作,無(wú)法保證連續(xù)穩(wěn)定的運(yùn)動(dòng),這違反了微裝配任務(wù)規(guī)劃的準(zhǔn)則,如此頻繁的啟停增加了控制難度,不能契合微裝配的操作特點(diǎn),使得訓(xùn)練結(jié)果無(wú)法實(shí)際工程化。同時(shí),該路徑花費(fèi)時(shí)長(zhǎng)較大,使用了近100多個(gè)step,觀察實(shí)時(shí)獎(jiǎng)勵(lì)值可看到當(dāng)操作臂選擇了朝向目標(biāo)位置的運(yùn)動(dòng)動(dòng)作時(shí),環(huán)境給予一定的獎(jiǎng)勵(lì)值,然而當(dāng)操作臂選擇停止時(shí),并無(wú)任何獎(jiǎng)懲。因此,根據(jù)式(7)增加對(duì)停頓次數(shù)有約束效果的獎(jiǎng)勵(lì)函數(shù),再次訓(xùn)練,可得到相關(guān)曲線(xiàn)如圖8所示。

        可以看到,動(dòng)作選擇曲線(xiàn)中再未出現(xiàn)操作臂頻繁啟停的現(xiàn)象,但由于缺少對(duì)碰撞的約束,操作臂始終在剛開(kāi)始就產(chǎn)生碰撞,從圖中可看出操作臂在第5個(gè)step就產(chǎn)生了碰撞。因此依據(jù)式(8)增加碰撞約束的獎(jiǎng)勵(lì)函數(shù)得到圖9路徑曲線(xiàn),經(jīng)過(guò)訓(xùn)練后可以由運(yùn)動(dòng)曲線(xiàn)圖和動(dòng)作選擇曲線(xiàn)看到,旋轉(zhuǎn)模塊R軸的積極性被打消,不再進(jìn)行任何的旋轉(zhuǎn)動(dòng)作,這是由于操作臂運(yùn)動(dòng)初期在狹窄的空間中較易產(chǎn)生碰撞,進(jìn)而很容易就得到很大的懲罰,導(dǎo)致探索難度增大,這種懲罰使得操作臂產(chǎn)生“積極性喪失”的現(xiàn)象。為了降低操作臂初期的探索難度,根據(jù)式(10)對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行改進(jìn),提升對(duì)碰撞情況的預(yù)測(cè)能力,得到各操作臂的相關(guān)曲線(xiàn)如圖10所示??梢钥吹?,旋轉(zhuǎn)模塊R軸在運(yùn)動(dòng)初期靜止不動(dòng),直到Y(jié)軸操作臂運(yùn)動(dòng)了一定的距離后R軸的旋轉(zhuǎn)運(yùn)動(dòng)才開(kāi)始,最終實(shí)現(xiàn)避障,且為了避碰而產(chǎn)生的停頓集中,路徑效率較高,在目標(biāo)點(diǎn)吸引的正向獎(jiǎng)勵(lì)中做出更加有利于路徑整體規(guī)劃的動(dòng)作選擇。

        圖1 MADDPG算法框架示意圖[22]

        圖2 訓(xùn)練環(huán)境以及仿真環(huán)境關(guān)系示意圖

        圖3 氣浮軸承間隙測(cè)量設(shè)備實(shí)物圖[24]

        圖4 凸分解構(gòu)建凸包體示意圖

        圖5 待規(guī)劃設(shè)備在CoppeliaSim中的物理模型

        圖6 工件姿態(tài)旋轉(zhuǎn)子任務(wù)實(shí)驗(yàn)對(duì)象

        圖7 僅以目標(biāo)點(diǎn)吸引的正向獎(jiǎng)勵(lì)為獎(jiǎng)勵(lì)函數(shù)

        圖8 增加停頓次數(shù)獎(jiǎng)懲的路徑曲線(xiàn)

        圖9 增加碰撞約束獎(jiǎng)勵(lì)函數(shù)

        圖10 根據(jù)式(10)訓(xùn)練后的曲線(xiàn)圖

        可以看出在該穩(wěn)定路徑下的一個(gè)episode中,當(dāng)操作臂未到達(dá)目標(biāo)位置時(shí),獎(jiǎng)勵(lì)值隨step的增加而穩(wěn)定增加。從動(dòng)作選擇曲線(xiàn)中可看出,受獎(jiǎng)勵(lì)函數(shù)約束,動(dòng)作選擇能夠保持穩(wěn)定,符合微裝配設(shè)備操作臂運(yùn)行特點(diǎn)。

        4 結(jié)束語(yǔ)

        分析了微裝配的任務(wù)特點(diǎn),提出了微裝配任務(wù)動(dòng)作、狀態(tài)、獎(jiǎng)勵(lì)條件設(shè)計(jì)準(zhǔn)則以及構(gòu)建方法,使得多智能體深度強(qiáng)化學(xué)習(xí)與直角坐標(biāo)下的微裝配任務(wù)更契合,克服了現(xiàn)有環(huán)境不符合微裝配特點(diǎn)的問(wèn)題。在仿真軟件中對(duì)已有的測(cè)量設(shè)備各零部件進(jìn)行了凸分解。最后,基于MADDPG算法模型進(jìn)行訓(xùn)練,得到了完整的測(cè)量方案,并通過(guò)試驗(yàn)證明設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)能夠使得路徑更加符合微裝配的實(shí)際工況,為微裝配自主規(guī)劃提供了理論、技術(shù)支撐。

        猜你喜歡
        動(dòng)作智能環(huán)境
        長(zhǎng)期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        孕期遠(yuǎn)離容易致畸的環(huán)境
        環(huán)境
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        動(dòng)作描寫(xiě)要具體
        畫(huà)動(dòng)作
        亚洲一区第二区三区四区| 国产97色在线 | 免| 99热久久精里都是精品6| 男人和女人高潮免费网站| 丝袜美腿网站一区二区| 情色视频在线观看一区二区三区 | 一个人看的www免费视频中文| 国产精品女同久久免费观看| 久久一二三四区中文字幕| 精品国产黄一区二区三区| 久久只精品99品免费久23| 99在线精品免费视频九九视| 亚洲欧美日韩国产精品专区| 久草热这里只有精品在线| 日产一区二区三区的精品| 亚洲gay片在线gv网站| 亚洲精品无码乱码成人| 一区二区三区国产在线网站视频| 人妻有码中文字幕在线| 人妻制服丝袜中文字幕| 国产玉足榨精视频在线观看| 999久久久无码国产精品| y111111少妇影院无码| 日本韩国一区二区三区| 国产精品一区二区黄色片| 最近免费中文字幕中文高清6 | 欧美日韩色另类综合| 日韩中文字幕欧美亚洲第一区| 在线一区二区三区视频观看| 国产亚洲精品品视频在线| 少妇裸体性生交| 精品国产人妻一区二区三区| 国产乱子伦精品免费女| 情头一男一女高冷男女| 国产精品久久久亚洲| 国产第19页精品| 亚洲av国产大片在线观看| 美腿丝袜诱惑一区二区| 亚洲国产精品毛片av不卡在线| 激情偷乱人伦小说视频在线| 中文字幕乱码中文乱码毛片 |