亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)行為克隆算法的機(jī)器人運(yùn)動控制策略

        2025-08-03 00:00:00黃小霞陽波向鑫陳靈陳中祥孫舜堯肖宏峰
        關(guān)鍵詞:方塊編碼器注意力

        中圖分類號:TP242.6 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2025)06-009-1668-08

        doi:10.19734/j.issn.1001-3695.2024.11.0474

        Robot motion control strategy based on improved behavior cloning algorithm

        Huang Xiaoxia, Yang Bo? ,Xiang Xin,Chen Ling,Chen Zhongxiang,Sun Shunyao, Xiao Hongfeng (College of Engineeringamp; Design,Hunan Normal University,Changsha 41oo81,China)

        Abstract:This paper addressed the challenges of complex motion control strategy training,ineffcientand imprecisepath planing executioninrobotsperformingfineoperationssuchasdual-armcooperativeinsertiontasks.Itproposedanimproved robotbehavior cloning algorithmbasedonmulti-scale feature pyramidsandatention mechanisms.Thealgorithmcombinedresidual networksandfeaturepyramidstodesignthebackbone network,extractingandfusingmulti-scaleimagefeatures,which enhancedtherobot’senvironmentalperceptionand visualfeedback capabilities.Itintroducedanactionsegmentation module to improvetheauracyandsmoohnessofcontrol strategies,reducingcompounderrors inbehaviorcloning.Additionally,the algorithmtrainedthecontrol strategyasaconditional varitionalautoencoder(CVAE)using theatentionmechanism to learn thedistributionofdemonstrationdataandcapturethecorelationbetween image features andactions.This appoachimproved thegeneralizationabilityandadaptabilityofthestrategyinunfamiliarenvironments.Simulationresultsshowthattheproposed algorithmoutperformsfivebaselinemodels intermsofsuccessrateandtrajectorysmoothnessintwofineoperationtasks.These results demonstrate thatthe algorithm can execute precise robot fine operation tasks through simple training.

        Key words:precision operation of robot;motion control strategy;behavioral cloning;action sequence

        0 引言

        隨著機(jī)器人技術(shù)的不斷進(jìn)步,雙臂機(jī)器人在工業(yè)、醫(yī)療、家庭等多個領(lǐng)域的應(yīng)用日益廣泛。然而,精細(xì)的操作任務(wù)如雙臂轉(zhuǎn)移、協(xié)同插孔等,對機(jī)器人來說是較為困難的,機(jī)器人要完成這些精細(xì)操作,就需要有精確的環(huán)境感知和視覺反饋以及高效的運(yùn)動控制策略[1,2]。大多數(shù)機(jī)器人控制方法[3-5]主要依賴于手動設(shè)計(jì)的規(guī)則和傳統(tǒng)的控制算法,難以適應(yīng)精細(xì)化和復(fù)雜化的任務(wù)需求。

        近年來,隨著機(jī)器學(xué)習(xí)技術(shù)[6.7]的進(jìn)步,模仿學(xué)習(xí)方法在機(jī)器人控制技術(shù)中得到了廣泛應(yīng)用[8\~10]。模仿學(xué)習(xí)方法的主要特點(diǎn)在于其能夠通過觀察和學(xué)習(xí)他人的示范來獲取技能,而無須顯式地編程所有可能的情況和反應(yīng)[11\~13]。這種方法尤其適用于需要快速部署和實(shí)時響應(yīng)的應(yīng)用,如服務(wù)型機(jī)器人和協(xié)作機(jī)器人。此外,模仿學(xué)習(xí)還能夠通過收集和分析大量的實(shí)際數(shù)據(jù)來提高機(jī)器人的運(yùn)動精度和適應(yīng)性,從而增強(qiáng)其在復(fù)雜環(huán)境中的表現(xiàn)能力。傳統(tǒng)的模仿學(xué)習(xí)方法例如基于高斯混合模型的運(yùn)動生成[14]和基于有監(jiān)督學(xué)習(xí)的行為克隆[15],已經(jīng)在機(jī)器人的動作規(guī)劃和學(xué)習(xí)中展現(xiàn)出了一定的成效。然而,模仿學(xué)習(xí)方法也存在一些挑戰(zhàn)和局限性。首先,它們通常依賴于高質(zhì)量和多樣性的訓(xùn)練數(shù)據(jù),因此在數(shù)據(jù)獲取和標(biāo)注方面可能會面臨挑戰(zhàn),為了達(dá)到較好的學(xué)習(xí)效果,模仿學(xué)習(xí)可能需要大量的示范數(shù)據(jù)。在實(shí)際應(yīng)用中,收集這些數(shù)據(jù)可能既費(fèi)時又費(fèi)力。其次,模仿學(xué)習(xí)方法的泛化能力可能受到限制,特別是在面對未知環(huán)境或者復(fù)雜的非結(jié)構(gòu)化任務(wù)時,因?yàn)槟7聦W(xué)習(xí)學(xué)到的行為通常是靜態(tài)的,不會根據(jù)環(huán)境的變化或反饋進(jìn)行調(diào)整,這限制了模型在面對環(huán)境變化時的適應(yīng)性,所以模仿學(xué)習(xí)方法在處理動態(tài)和不確定性方面可能表現(xiàn)不佳。而且模仿學(xué)習(xí)在許多復(fù)雜任務(wù)中存在累積誤差的問題,這些因素都可能影響機(jī)器人在實(shí)際應(yīng)用中的穩(wěn)定性和可靠性[16]。為了解決這些問題,一些研究提出基于模仿學(xué)習(xí)改進(jìn)的機(jī)器人運(yùn)動控制方法,文獻(xiàn)[17]以物體投擲作為激勵用例,參考多種輸入數(shù)據(jù)模態(tài),通過動作捕捉技術(shù)收集到的數(shù)據(jù)用于訓(xùn)練模型。文獻(xiàn)[18]通過雙邊控制和模仿學(xué)習(xí),機(jī)器人能夠?qū)W習(xí)如何在人機(jī)協(xié)作環(huán)境中控制動態(tài)交互,提高了機(jī)器人在復(fù)雜環(huán)境中的適應(yīng)能力。文獻(xiàn)[19]通過引入自然語言,建立了人類專家與機(jī)器人之間的有效溝通渠道,可以傳達(dá)任務(wù)的關(guān)鍵方面。文獻(xiàn)[20]通過結(jié)合RGB-D圖像和隱馬爾可夫模型提高機(jī)器人模仿學(xué)習(xí)的智能層次,并能夠處理中間邏輯關(guān)系。文獻(xiàn)[21]通過改進(jìn)交叉熵?fù)p失和引入噪聲網(wǎng)絡(luò)模型來增強(qiáng)模仿學(xué)習(xí)在對抗攻擊和噪聲干擾下的魯棒性。文獻(xiàn)22]引入能夠?qū)W習(xí)示教數(shù)據(jù)分布的條件變分自編碼器(CVAE)方法到行為克隆中,將來自相機(jī)的RGB圖像映射到動作,并提出動作分塊和時間集成提升策略的平滑性。上述文獻(xiàn)局限于無法做到簡單的訓(xùn)練與生成的控制策略高精度、高泛化性并存。

        為了更精確、高效地執(zhí)行機(jī)器人運(yùn)動控制,本文提出了一種基于多尺度特征金字塔和注意力機(jī)制改進(jìn)的機(jī)器人行為克隆算法。通過引入特征金字塔模塊加強(qiáng)backbone網(wǎng)絡(luò)提取圖像特征的能力,以提高機(jī)器人對運(yùn)動環(huán)境的目標(biāo)檢測能力;使用多層自注意力模塊、交叉注意力模塊組成CVAE解碼器以加強(qiáng)模型對序列中不同位置元素之間關(guān)系的理解,生成機(jī)器人在當(dāng)前觀察下更精確、高效的動作序列。

        本文工作的貢獻(xiàn)如下:

        a)提出一種引入多尺度特征金字塔融合不同尺度特征的backbone網(wǎng)絡(luò)(F-backbone),提高機(jī)器人在精細(xì)操作任務(wù)中感知環(huán)境中目標(biāo)物的能力。b)提出一種結(jié)合多層自注意力模塊、交叉注意力模塊的CVAE解碼器網(wǎng)絡(luò)(A-CVAE),加強(qiáng)模型對圖像關(guān)鍵信息的聚焦能力,捕獲圖像特征和動作的相關(guān)性以生成更精準(zhǔn)、高效的機(jī)器人動作序列。c)提出一種基于多尺度特征金字塔和注意力機(jī)制改進(jìn)的機(jī)器人行為克隆算法(FA-BC),實(shí)現(xiàn)精確、高效的機(jī)器人運(yùn)動策略。d)通過仿真實(shí)驗(yàn)驗(yàn)證了所提算法在雙臂機(jī)器人物品轉(zhuǎn)移、插孔等精細(xì)操作任務(wù)中的優(yōu)越性,特別是在成功率和軌跡平滑方面。

        1問題描述

        模仿學(xué)習(xí)使機(jī)器人能夠通過觀察人類或其他機(jī)器人(稱為“專家示范者”)的行為來學(xué)習(xí)新的技能,即利用高質(zhì)量的決策示例來生成類似決策。模仿學(xué)習(xí)主要有三個部分構(gòu)成,首先是策略神經(jīng)網(wǎng)絡(luò),其次是專家示范動作,第三是環(huán)境模擬器。對于一個馬爾可夫決策過程框架:

        M=(S,A,P,R,γ,ρ)

        其中: s 和A分別是狀態(tài)和動作空間; 指定了環(huán)境轉(zhuǎn)移概率: 指定了獎勵; γ∈(0,1] 是折扣因子 指定了初始狀態(tài)分布。由專家策略 πE 收集到的數(shù)據(jù)集為 D={(si,ai)}i=1m ,其中每一個狀態(tài)動作對是由 πE 和環(huán)境交互產(chǎn)生的。決策者的目標(biāo)是找到一個穩(wěn)態(tài)策略 π:SΔ(A) 來使累計(jì)獎勵最大化,公式為

        (204號 (2)并最小化與專家策略的值函數(shù)差異: ,即期望 π 能從專家示例中很好地恢復(fù)出專家的決策行為來使得決策者的值函數(shù)比較大。

        1.1專家示范數(shù)據(jù)構(gòu)建

        對于模仿學(xué)習(xí)來說,首先需要專家給出一些模仿的數(shù)據(jù),稱為專家示范數(shù)據(jù),通常是專家去觀測當(dāng)前時刻的環(huán)境是怎樣的狀態(tài),專家在這個狀態(tài)下給出什么動作,動作作用于環(huán)境之后會進(jìn)入下一狀態(tài),在這個新的狀態(tài)下專家又做出什么動作,將這一系列數(shù)據(jù)延續(xù)下去,將其命名為專家示范數(shù)據(jù)集。通過將專家示范數(shù)據(jù)集分解為狀態(tài)與動作的對應(yīng)關(guān)系,機(jī)器學(xué)習(xí)中的模仿學(xué)習(xí)便是在這些數(shù)據(jù)基礎(chǔ)上,學(xué)習(xí)到一種較為優(yōu)秀的策略。

        1.2行為克隆

        模仿學(xué)習(xí)最主流的方法是行為克隆。行為克隆通過監(jiān)督學(xué)習(xí)的方式,讓機(jī)器學(xué)習(xí)狀態(tài)和動作之間的相對應(yīng)關(guān)系。首先,算法將專家的示范數(shù)據(jù)拆分成狀態(tài)和動作對,這些數(shù)據(jù)就變成了有標(biāo)記的數(shù)據(jù)。然后將狀態(tài)作為神經(jīng)網(wǎng)絡(luò)的輸入,將動作作為神經(jīng)網(wǎng)絡(luò)的輸出,通過訓(xùn)練神經(jīng)網(wǎng)絡(luò),讓機(jī)器學(xué)習(xí)狀態(tài)和動作之間的映射關(guān)系。

        行為克隆算法學(xué)習(xí)方法如圖1所示。首先把訓(xùn)練數(shù)據(jù)分成訓(xùn)練集合與驗(yàn)證集合,通過最小化訓(xùn)練集的誤差來進(jìn)行訓(xùn)練,直到驗(yàn)證集的誤差不再收斂。訓(xùn)練完成后將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)應(yīng)用于實(shí)際環(huán)境中,從環(huán)境中獲取當(dāng)前狀態(tài),利用神經(jīng)網(wǎng)絡(luò)決定相應(yīng)的動作,并作用于環(huán)境,如此循環(huán)直到任務(wù)完成,以評估訓(xùn)練效果。

        圖1行為克隆算法學(xué)習(xí)過程

        1.3 行為克隆的不足

        即使有高質(zhì)量的演示,行為克隆也需要精確的視覺反饋,如圖2所示,預(yù)測動作中的小錯誤會導(dǎo)致狀態(tài)的大差異,加劇模仿學(xué)習(xí)的復(fù)合誤差問題。假設(shè)可以尋找到一個策略 π ,其與最優(yōu)策略的損失函數(shù)值小于給定的精度 ? ,這個策略與專家策略的決策質(zhì)量上有如式(3)所示的保證:

        可以看到,損失函數(shù)值越小,兩者的值函數(shù)差異越小。這個差異是以 1/(1-γ)2 的速度在放大。這個現(xiàn)象在模仿學(xué)習(xí)中被稱作為復(fù)合誤差,綜合來看,它的誤差在每一步累積,而且隨著其誤差的累積,它會越來越脫離原來訓(xùn)練時候的數(shù)據(jù),導(dǎo)致行為克隆雖然用起來很方便,但是它的效果會很有限。然而在機(jī)器人的精細(xì)操作任務(wù)中,如果機(jī)器沒有辦法完全復(fù)制專家的行為,產(chǎn)生了一點(diǎn)偏差,最后得到的結(jié)果就會差很多。此外,當(dāng)訓(xùn)練數(shù)據(jù)少的時候,模型無法訓(xùn)練出完整的策略分布,而且行為克隆算法只能依賴已有的數(shù)據(jù)和模式,即只能復(fù)制專家示范者在訓(xùn)練數(shù)據(jù)中展示的行為,如果遇到訓(xùn)練數(shù)據(jù)中沒有見過的情況,由于缺乏適應(yīng)性和創(chuàng)造性,算法無法獨(dú)立生成新的解決方案或適應(yīng)未知的變化環(huán)境,泛化能力較差。

        圖2行為克隆中的復(fù)合誤差Fig.2Compound error in behavioral cloning

        2改進(jìn)行為克隆算法

        為解決行為克隆算法復(fù)合誤差的問題,本文基于多尺度特征金字塔設(shè)計(jì)了融合不同尺度特征的backbone網(wǎng)絡(luò),提高機(jī)器人在精細(xì)操作任務(wù)中感知環(huán)境和視覺反饋的能力。為了進(jìn)一步提高策略的精準(zhǔn)性,引入動作分塊和時間集成,策略預(yù)測了接下來 k 個時間步的自標(biāo)關(guān)節(jié)位置,并在重疊的動作塊上進(jìn)行平均,以產(chǎn)生既準(zhǔn)確又平滑的軌跡。

        為解決行為克隆算法只能簡單復(fù)制專家示范者的行為,泛化性能不足的局限,本文引人能夠?qū)W習(xí)示教數(shù)據(jù)分布的條件變分自編碼器(CVAE)方法以捕獲數(shù)據(jù)中的可變性。如圖3所示,基于自注意力模塊、交叉注意力模塊設(shè)計(jì)CVAE,將機(jī)器人控制策略訓(xùn)練為一個生成模型,由輸入的機(jī)器人當(dāng)前環(huán)境的RGB圖像和關(guān)節(jié)位置生成下一時間段的機(jī)器人動作序列。

        圖3CVAE模型總覽

        2.1基于特征金字塔的backbone 網(wǎng)絡(luò)模塊

        為了提高機(jī)器人在精細(xì)操作任務(wù)中感知環(huán)境和視覺反饋的能力,本文設(shè)計(jì)了基于特征金字塔的backbone網(wǎng)絡(luò)用于從輸人的機(jī)器人運(yùn)動場景RGB圖像中提取多尺度特征,通過特征金字塔網(wǎng)絡(luò)(FPN)增強(qiáng)這些特征的表達(dá)能力。如圖4所示,輸入圖像首先通過ResNet提取特征,然后FPN處理這些特征以生成不同尺度的特征圖。最后,將特征圖與位置編碼相結(jié)合,為后續(xù)任務(wù)提供富含位置信息的特征表示。整個網(wǎng)絡(luò)能夠有效地捕捉圖像中的多尺度信息和位置關(guān)系,從而提高視覺任務(wù)的性能。

        圖4基于特征金字塔的backbone網(wǎng)絡(luò) Fig.4Backbone network based on feature pyramid

        FPN包含自下而上網(wǎng)絡(luò)、自上而下網(wǎng)絡(luò)、橫向連接。最左側(cè)為ResNet18,用于提取圖像特征,ResNet的核心公式為 y= F(x,Wi)+x ,通過將輸入特征 x 與殘差映射 F 相加,得到輸出y,ResNet 的殘差塊可以表示為 y=H(x)+x ,輸出特征由殘差塊中的卷積層組 H(x) 和輸入特征組成。如圖4所示,C1標(biāo)識了ResNet的前幾個卷積層和池化層,而C2~C5則分別對應(yīng)于ResNet中的不同卷積模塊。這些模塊內(nèi)部包含了多個Bottle-neck單元,每個模塊內(nèi)部的特征圖尺寸保持一致,而不同模塊間的特征圖尺寸則逐級減小。特征金字塔網(wǎng)絡(luò)(FPN)輸出四個不同尺度的特征圖,根據(jù) RoI 的大小,選擇相應(yīng)的特征圖進(jìn)行特征提取:較大的 RoI 會在更深的特征圖如P5上進(jìn)行提取,而較小的 RoI 則會在較淺的特征圖如P2上進(jìn)行提取,F(xiàn)PN的級別 (Pk) 是通過式(4)。

        將寬度為 w 、高度為 h 的 RoI 分配得來的,224是標(biāo)準(zhǔn)的ImageNet 預(yù)訓(xùn)練大小,對于 ResNet,k0 設(shè)置為4。FPN的上采樣模塊為

        y=F(x)+U(y

        其中: y 是上采樣模塊的輔助特征; F(x) 是上采樣模塊的卷積層; U(y) 是上采樣模塊的上采樣操作;FPN的下采樣模塊為

        y=D(x)

        D(x) 是下采樣模塊的卷積層。首先,通過在C5上執(zhí)行1×1 卷積操作來減少通道數(shù),進(jìn)而生成 P5 。接著,對P5執(zhí)行上采樣操作以獲得P4、P3和P2,這一過程的目的是為了得到與C4、C3和C2尺寸一致的特征圖,以便于后續(xù)進(jìn)行逐元素加和。這里使用的是2倍最近鄰上采樣方法,在生成的圖像中,位置 (i,j) 的像素值直接由原圖中位置 (2i,2j) 的像素值復(fù)制而來,而不是采用非線性插值。為了將上采樣后的高語義特征與較淺層的精確定位特征相結(jié)合,上采樣后的特征圖在尺寸上與對應(yīng)的淺層特征圖匹配,并將通道數(shù)統(tǒng)一調(diào)整為512。因此,需要對C2\~C4的特征圖進(jìn)行卷積處理,使其通道數(shù)也達(dá)到512,之后進(jìn)行逐元素加和以形成P4、P3和P2。由于C1的特征圖尺寸較大且包含的語義信息有限,故未將其納入橫向連接。在完成特征圖的逐元素加和之后,通過 3×3 卷積進(jìn)一步融合P2~P4,以消除上采樣過程中產(chǎn)生的混疊效應(yīng),并生成最終的特征圖。FPN通過將深層語義信息傳遞到更淺層,增強(qiáng)了淺層特征的語義信息,從而實(shí)現(xiàn)了具有高分辨率和豐富語義信息的特征提取。將ResNet18與FPN相結(jié)合,backbone網(wǎng)絡(luò)能夠同時利用深度的表示能力和多尺度的上下文信息,從而更好地感知機(jī)器人運(yùn)動場景中的目標(biāo)物并作出相應(yīng)的視覺反饋。

        2.2動作分塊和時間集成模塊

        為了進(jìn)一步減少模仿學(xué)習(xí)中的復(fù)合誤差,產(chǎn)生既準(zhǔn)確又平滑的軌跡,本文引入一種與像素到動作策略兼容的方式來減少高頻收集的長軌跡的有效視域,參考文獻(xiàn)[22]把動作分塊和時間集成加到策略中,基于Transformers實(shí)現(xiàn)動作分塊策略,通過動作分塊來減少任務(wù)的有效視界。對于每種任務(wù),策略都預(yù)測了接下來 k 個時間步的目標(biāo)關(guān)節(jié)位置,而不僅僅是一次一步,即預(yù)測一個動作序列而不是單個動作,并在重疊的動作塊上進(jìn)行平均,將個體動作進(jìn)行分組并作為一個單元執(zhí)行,從而更有效地存儲和執(zhí)行。例如,雙臂插孔協(xié)作任務(wù)的一組動作可以對應(yīng)于抓住凹槽和插銷或?qū)⒉邃N插入凹槽中。如圖5所示,動作塊大小固定為 k :每 k 步接收一個觀察,并生成下一組的 k 個動作,然后依次執(zhí)行這些動作,這意味著任務(wù)的有效視界減少了 k 倍。

        圖5動作分塊與時間集成Fig.5Action chunking and temporal ensembling

        策略模擬 而不是 。單步策略將對抗與時間相關(guān)的干擾因素,例如示范數(shù)據(jù)的過程中間出現(xiàn)暫停,因?yàn)樾袨椴粌H取決于狀態(tài)還取決于時間步長。通過采用動作分塊方法可以緩解這種混淆。這樣做可以使不同的動作塊相互重疊,在給定的時間步長上產(chǎn)生多個預(yù)測動作。時間集成通過加權(quán)平均對這些預(yù)測進(jìn)行處理,指數(shù)加權(quán)公式為

        其中: ??w0 表示最早動作的權(quán)重,新觀察到達(dá)時速度由參數(shù) m 決定,較小的 ∣m∣ 意味著更快地納人新觀察。與典型平滑方法不同(當(dāng)前動作與相鄰時間步中的動作被聚合在一起,那樣會引入偏差),只將同一時間步內(nèi)的預(yù)測動作進(jìn)行聚合,在 t=n 時最終采用什么動作,由 t=0,t=1,t=2,…,t=k-1 這 k 段進(jìn)行指數(shù)加權(quán)平均,最終能夠產(chǎn)生準(zhǔn)確且平滑流暢的機(jī)器人運(yùn)動效果。

        2.3基于注意力改進(jìn)的CVAE模塊

        行為克隆算法只能簡單復(fù)制專家示范者的行為,如果遇到訓(xùn)練數(shù)據(jù)中沒有見過的情況,算法很容易生成錯誤的行為,無法正確地泛化到新的環(huán)境中。因此本文將策略訓(xùn)練為條件變分自編碼器(CVAE),使模型能學(xué)習(xí)示教數(shù)據(jù)分布,捕捉數(shù)據(jù)的可變性。結(jié)合多層自注意力模塊、交叉注意力模塊設(shè)計(jì)了CVAE解碼器網(wǎng)絡(luò),加強(qiáng)模型對圖像關(guān)鍵信息的聚焦能力,捕獲圖像特征和動作的相關(guān)性以生成更精準(zhǔn)、高效的機(jī)器人動作序列。

        首先采集機(jī)器人的運(yùn)動場景RGB圖像,以及兩個七自由度機(jī)器人手臂的關(guān)節(jié)位置(總共 7+7=14 自由度)作為模型的輸入。CVAE包括CVAE編碼器和CVAE解碼器,編碼器包含一個Transformerencoder,解碼器包含一個修改后的Transformerencoder和一個修改后的Transformerdecoder,如圖6、7所示。使用圖6底部藍(lán)色所示(見電子版)的CVAE編碼器推斷機(jī)器人的動作類型變量z。在編碼器的輸入階段,將隨機(jī)初始化的學(xué)習(xí)權(quán)值[CLS]token、關(guān)節(jié)位置的嵌人表示embeddedjoints和動作序列的嵌入表示embeddedactionsequence合并成一個序列。為了將關(guān)節(jié)位置和動作序列轉(zhuǎn)換成適合Transformer編碼器的格式,使用線性層linearlayer1將動作序列從 k×14 維投影到 k×512 維,使用線性層linearlayer2將關(guān)節(jié)位置從14維投影到512維。合并這三個輸入后,形成了 (k+2)× embedding-dimension的序列,即 (k+2)×512 。編碼器對輸入序列進(jìn)行處理后只取第一個輸出 z 變量,這個輸出對應(yīng)于[CLS]標(biāo)記,指定了機(jī)器人的動作類型。然后,使用另一個線性網(wǎng)絡(luò)來預(yù)測分布的均值和方差,并將它們參數(shù)化為對角高斯分布。為了在采樣過程中進(jìn)行反向傳播,使用了重新參數(shù)化的方法,這種方法允許在采樣過程中對編碼器和解碼器進(jìn)行聯(lián)合優(yōu)化。然后將z變量輸入圖6上部分的CVAE解碼器中的Transformerencoder。

        圖6中Transformerencoder的輸入還有來自經(jīng)backbone網(wǎng)絡(luò)提取得到的機(jī)器人運(yùn)動場景RGB圖像的特征序列。每個圖像通過ResNet18處理,得到一個 15×20×728 的特征圖。然后,這個特征圖被壓平為一個 300×728 的特征序列,再通過一個線性層投影到512維的嵌入空間,并添加了一個2D正弦位置嵌人來保留空間信息。接下來,對來自 n 個攝像機(jī)的圖像重復(fù)上述操作,將來自每個攝像機(jī)的特征序列連接起來,得到一個 n×300×512 的特征序列,作為Transformerencoder的輸人之一。Transformerencoder的最后一個輸入是機(jī)器人當(dāng)前的關(guān)節(jié)位置joints。關(guān)節(jié)位置joints和類型變量 z 分別通過線性層投影到512維。最終,Transformer編碼器的輸入是形成一個[(n×300)+2]×512 的特征序列,它包含了來自 n 張圖像的特征、關(guān)節(jié)位置和類型變量的特征。Transformerencoder layer通過兩個多頭自注意力層來編碼輸人序列,每個自注意力層后接一個殘差連接和層歸一化,通過自注意力機(jī)制捕捉序列內(nèi)部的依賴關(guān)系,并經(jīng)前饋網(wǎng)絡(luò)提供非線性變換以增強(qiáng)表示能力,同時使用dropout和層歸一化來穩(wěn)定訓(xùn)練并防止過擬合,最終得到輸入序列經(jīng)過編碼后的表示,這些表示捕捉了序列內(nèi)部的長距離依賴關(guān)系和非線性特征。具體而言,輸入序列首先通過第一個自注意力層捕捉輸入序列中不同位置的依賴關(guān)系,計(jì)算出每個位置的上下文表示,接著是一個前饋神經(jīng)網(wǎng)絡(luò),包括兩個線性層和激活函數(shù),用于在每個位置上進(jìn)一步處理和轉(zhuǎn)換特征及非線性變換,同樣通過殘差連接和層歸一化處理。然后經(jīng)過第二個自注意力層,讓模型在不同的注意力機(jī)制下學(xué)習(xí)輸入序列的不同特征和關(guān)系,進(jìn)一步提取和整合輸入序列的信息,以及捕獲更復(fù)雜的序列依賴關(guān)系。Transformerencoderlayer引入了額外的注意力計(jì)算,允許模型在不同的注意力機(jī)制下學(xué)習(xí)輸人序列的不同特征和關(guān)系,更好地捕捉輸入序列中的長距離依賴關(guān)系和更復(fù)雜的模式,使得模型能夠更好地適應(yīng)復(fù)雜的序列建模任務(wù)。

        圖6CVAE編碼器和CVAE解碼器中的Transformerencoder部分Fig.6 Transformer encoder of CVAE encoder and CVAEdecoder

        如圖7,CVAE解碼器中Transformerdecoder的輸入包含兩部分:一部分是固定維度的正弦位置嵌入,作為解碼器的查詢(query),維度為 k×512 ;另一部分是來自Transformerencoder輸出的特征,這些特征在解碼器的交叉注意力層中作為鍵(keys)和值(values)。Transformerdecoderlayer包含三個多頭注意力層和一個前饋神經(jīng)網(wǎng)絡(luò),每個組件都通過殘差連接和層歸一化進(jìn)行處理。第一個自注意力層處理目標(biāo)序列以捕捉序列內(nèi)部的依賴關(guān)系,第二個交叉注意力層(編碼器-解碼器注意力)使用編碼器記憶(memory)和位置編碼(pos)對經(jīng)過自注意力調(diào)整后的目標(biāo)序列進(jìn)行注意力計(jì)算,將目標(biāo)序列與編碼器的輸出相結(jié)合以考慮上下文信息,用于處理輸入序列中不同位置之間的關(guān)系和重要性,接著通過線性變換和激活函數(shù)(linearl,activation,linear2)實(shí)現(xiàn)前饋神經(jīng)網(wǎng)絡(luò)的計(jì)算過程,用于增強(qiáng)特征表示和提高模型的非線性建模能力。然后經(jīng)過添加的第三個交叉注意力層再次對目標(biāo)序列和編碼器記憶進(jìn)行注意力計(jì)算,進(jìn)一步加強(qiáng)模型對輸入序列信息的理解和處理能力,更有效地捕捉目標(biāo)序列和記憶之間的復(fù)雜依賴關(guān)系,進(jìn)而增加了模型的深度和復(fù)雜度,幫助模型更好地適應(yīng)和學(xué)習(xí)復(fù)雜的序列關(guān)系、更好地捕捉和處理序列內(nèi)部的復(fù)雜依賴關(guān)系,從而提升了模型的泛化能力和性能表現(xiàn)。整個結(jié)構(gòu)通過dropout來進(jìn)行正則化和減少過擬合,并通過位置編碼來考慮序列的位置信息。最后輸出得到經(jīng)過編碼和處理的目標(biāo)序列表示,它包含了輸入序列經(jīng)過多層變換后的豐富特征表示,輸出維度同樣是k×512 ,然后通過一個多層感知機(jī)(MLP)進(jìn)行下投影,將輸出維度降至 k×14 ,這對應(yīng)于接下來 k 個步驟的預(yù)測目標(biāo)關(guān)節(jié)位置。通過這種方式,解碼器在接收到編碼器的輸出后,能夠精確、高效地預(yù)測接下來的動作序列。CVAE編碼器只在訓(xùn)練策略時使用,在測試時丟棄CVAE編碼器,將 z 設(shè)置為先驗(yàn)的平均值(即零)。策略直接將來自商品網(wǎng)絡(luò)相機(jī)的RGB圖像映射到動作,生成以當(dāng)前觀察為條件的動作序列。

        結(jié)合上述三大模塊組成最終的基于改進(jìn)行為克隆算法,首先訓(xùn)練生成機(jī)器人控制策略,然后測試策略的有效性,算法偽代碼如下:

        算法1用于訓(xùn)練機(jī)器人控制策略的算法輸入:專家示范數(shù)據(jù) D ,動作分塊尺寸 k ,權(quán)重 β 輸出:生成預(yù)測動作 的機(jī)器人控制策略 πθ 。初始化 χt 時間步的動作和觀察分別為 at , 表示沒有圖像觀察的 ot ,初始化encoder ;//初始化編碼器生成 z 的分布初始化decoder ;//初始化解碼器生成策略for n=1 to N dosample ot,at:t+k from 獲取機(jī)器人運(yùn)動場景觀察和動作sample z from //獲取機(jī)器人動作類型變量zpredict from /根據(jù)策略預(yù)測動作(20 //重構(gòu)損失(20 //正則化損失update θ ? with ADAM and L=Lreconst+βLreg (204號//更新參數(shù)并計(jì)算總的損失算法2用于測試機(jī)器人控制策略的算法輸入:訓(xùn)練好的策略 πθ ,決策次數(shù) T ,權(quán)重 m? 輸出;機(jī)器人在當(dāng)前狀態(tài)的下一組動作序列 。初始化FIFO緩沖器 B[0;T] , B[t] 存儲時間步 χt 的預(yù)測動作;for t=1,2,…,T dopredict with where z=0 (20//將編碼器丟棄后預(yù)測動作add to buffers respectively//添加預(yù)測動作到緩沖器中obtain current step actions At=B[t] //獲取當(dāng)前步驟動作apply ,with 2//應(yīng)用權(quán)重計(jì)算當(dāng)前要執(zhí)行的動作

        3 仿真實(shí)驗(yàn)與分析

        本章使用對比實(shí)驗(yàn)對改進(jìn)后的行為克隆算法進(jìn)行分析和驗(yàn)證。實(shí)驗(yàn)環(huán)境:Ubuntu20.04.6LTS(FocalFossa)操作系統(tǒng)、NVIDIAGeForceRTX4090顯卡、13thGenIntelCorei9-13900K處理器的計(jì)算機(jī),仿真平臺MuJoCo2.3.7。仿真實(shí)驗(yàn)的目的是通過模擬一個真實(shí)的雙臂機(jī)器人精細(xì)操作環(huán)境,用FA-BC算法與模仿學(xué)習(xí)中一些先進(jìn)的算法如ACT、BC-ConvMLP、BeT、RT-1、VINN進(jìn)行比較,從而驗(yàn)證本文算法在雙臂機(jī)器人精細(xì)操作方面的卓越表現(xiàn),并設(shè)計(jì)消融實(shí)驗(yàn)測試F-backbone網(wǎng)絡(luò)和A-CVAE解碼器對優(yōu)化行為克隆算法的影響。

        實(shí)驗(yàn)所用的超參數(shù)如表1所示。

        表1實(shí)驗(yàn)所用的超參數(shù)Tab.1Hyperparameters used in the experiment

        3.1仿真對比實(shí)驗(yàn)設(shè)計(jì)

        本文在 MuJoCo 中構(gòu)建了兩個模擬的雙臂機(jī)器人精細(xì)操作任務(wù)環(huán)境。任務(wù)一:雙臂協(xié)作傳送立方體,環(huán)境中包含左右兩個機(jī)械臂和一個紅色立方體,首先由右臂撿起桌子上的紅色立方體,然后將其放在另一只手臂的夾持器內(nèi)。由于立方體和左夾鉗之間的間隙很小(約 1cm ),小錯誤會導(dǎo)致碰撞和任務(wù)失敗。任務(wù)二:雙臂協(xié)作插孔任務(wù),環(huán)境包含左右兩個機(jī)械臂和一個藍(lán)色的凹槽和紅色的插銷,左臂和右臂需要分別拿起凹槽和插銷,凹槽內(nèi)設(shè)計(jì)有一個用于感應(yīng)插銷正確插入的引腳,然后雙臂在空中完成插孔操作,使插銷無碰撞準(zhǔn)確接觸到凹槽內(nèi)的引腳,插入階段的間隙約為 5mm 。兩個任務(wù)的初始環(huán)境如圖8所示。環(huán)境在每次加載開始時被初始化,其中紅色方塊及藍(lán)色凹槽和紅色插銷(見電子版)的初始位置在每次加載仿真環(huán)境時都會隨機(jī)化產(chǎn)生。

        圖7CVAE解碼器中的Transformerdecoder部分Fig.7Transformerdecoder of CVAEdecoder圖8仿真環(huán)境初始狀態(tài)

        如圖9所示,任務(wù)一雙臂協(xié)作傳送立方體的目標(biāo)是使用兩個機(jī)械臂將一個紅色方塊從右手轉(zhuǎn)移到左手,并且在轉(zhuǎn)移過程中確保方塊不接觸桌子。評定標(biāo)準(zhǔn)基于方塊與左右手抓取器的接觸狀態(tài)以及是否接觸桌子來給予獎勵。具體來說,任務(wù)提供了以下獎勵:獎勵 1(reward=1 ),當(dāng)方塊被右手抓取時;獎勵2(reward =2 ),當(dāng)方塊被右手抓取并且已經(jīng)抬起,即方塊已離開桌子;獎勵3(reward °=3 ),當(dāng)方塊開始嘗試從右手轉(zhuǎn)移到左手時;獎勵4(reward O=4 ),當(dāng)方塊成功從右手轉(zhuǎn)移到左手,并且不再接觸桌子時。獎勵函數(shù)通過檢測方塊與左右手抓取器以及桌子之間的接觸狀態(tài)來確定獎勵值。如果方塊同時與左右手抓取器接觸,則不給予獎勵。此外,如果方塊接觸桌子,則視為失敗,獎勵為0。任務(wù)的最終目標(biāo)是獲得最大的獎勵4,表示方塊成功從右手轉(zhuǎn)移到左手,且在轉(zhuǎn)移過程中沒有接觸桌子。

        Fig.8Initial state of simulation environment圖9轉(zhuǎn)移任務(wù)過程 Fig.9Process of transferring task

        如圖10所示,任務(wù)二雙臂協(xié)作插孔任務(wù)的目標(biāo)是通過兩個機(jī)械臂,將一個紅色插銷插入到藍(lán)色凹槽中,同時確保在插入過程中插銷和凹槽不接觸桌子。任務(wù)的評定標(biāo)準(zhǔn)基于方塊與機(jī)械臂抓取器之間的接觸狀態(tài),以及方塊是否接觸桌子。具體來說,任務(wù)提供了以下獎勵:獎勵1 ),當(dāng)方塊被左右手抓取器同時接觸時;獎勵 2(reward=2) ),當(dāng)方塊被左右手抓取器同時接觸,并且沒有接觸桌子時,表示方塊已經(jīng)被抓取并準(zhǔn)備插入;獎勵3 reward=3 ),當(dāng)方塊與插座接觸,并且沒有接觸桌子時,表示方塊已經(jīng)開始插入過程;獎勵 4(reward=4 ),當(dāng)方塊與插座接觸,并且與引腳接觸時,表示方塊已經(jīng)成功插入到插座中。獎勵函數(shù)通過檢測方塊與左右手抓取器、插座、桌子以及釘子之間的接觸狀態(tài)來確定獎勵值。如果方塊同時與左右手抓取器接觸,則不給予獎勵。此外,如果方塊接觸桌子,則視為失敗,獎勵為0。任務(wù)的最終目標(biāo)是獲得最大的獎勵4,表示方塊成功插人到插座中,且在插入過程中沒有接觸桌子。

        通過在這兩個模擬的機(jī)器人精細(xì)操作環(huán)境中進(jìn)行仿真實(shí)驗(yàn),能夠更全面地評估所提出的基于改進(jìn)行為克隆算法的機(jī)器人運(yùn)動控制策略在面對多樣化的機(jī)器人精細(xì)操作任務(wù)時的高性能和適用力。

        3.2 實(shí)驗(yàn)結(jié)果

        3.2.1 對比實(shí)驗(yàn)

        本文首先使用腳本收集機(jī)器人在所創(chuàng)建仿真環(huán)境下的50次專家示范數(shù)據(jù)。然后將50次專家示范數(shù)據(jù)輸人CVAE訓(xùn)練機(jī)器人控制策略,最后將訓(xùn)練好的策略在仿真環(huán)境中進(jìn)行測試運(yùn)行。對于兩個任務(wù),調(diào)節(jié)動作分塊 k 的大小發(fā)現(xiàn),k在100時策略性能都表現(xiàn)最佳,因此,將 k 固定為100以訓(xùn)練生成策略,對每個任務(wù)設(shè)置3個隨機(jī)種子,每次測試運(yùn)行50次雙臂機(jī)器人精細(xì)操作任務(wù)策略評估。表2報(bào)告了將本文算法(FA-BC)與五種經(jīng)典模仿學(xué)習(xí)方法進(jìn)行比較的結(jié)果,根據(jù)不同算法在兩個任務(wù)中每次評估得到的獎勵值統(tǒng)計(jì),表2記錄了兩個仿真任務(wù)在所有測試中每一個獎勵值對應(yīng)的子任務(wù)的成功率。

        表2不同算法的任務(wù)成功率Tab.2Task success rate of different algorithms/%

        BC-ConvMLP[23] 是最簡單但使用最廣泛的基線,其通過級聯(lián)卷積層和多層感知器(MLP)層來逐步提取特征,并利用邊界感知機(jī)制提高對目標(biāo)物體邊界的識別能力,但其訓(xùn)練難度較大、實(shí)時性較差且感知和控制網(wǎng)絡(luò)沒有聯(lián)合優(yōu)化;RT-1[24]是另一種基于Transformer的架構(gòu),它可以根據(jù)過去固定長度的觀察歷史來預(yù)測一個動作,不足在于對初始目標(biāo)定位敏感;BeT(boundary-enhanced Transformer)[25]和RT-1都將動作空間離散化,輸出是離散倉上的分類分布,BeT從倉中心添加了連續(xù)偏移,能夠有效提高分割邊界的準(zhǔn)確性,但計(jì)算資源消耗較大,且對訓(xùn)練數(shù)據(jù)量和質(zhì)量有較高要求。VINN(variationalinferenceneuralnetwork)[26]通過在神經(jīng)網(wǎng)絡(luò)中嵌入變分推理步驟來估計(jì)模型參數(shù)的分布,能夠處理帶噪聲或不完整的數(shù)據(jù),并給出概率性的預(yù)測,但計(jì)算復(fù)雜度高,優(yōu)化困難,且對于超參數(shù)的選擇較為敏感;2023年由斯坦福大學(xué)Zhao等人提出的低成本機(jī)器人操作系統(tǒng)ALOHA(alow-cost open-source hardware sys-temforbimanualteleoperation)中的ACT算法將控制策略訓(xùn)練為CVAE編碼器,直接由輸入圖像預(yù)測機(jī)器人的連續(xù)動作,該算法在單物品精細(xì)操作中表現(xiàn)較好,但在需要力反饋及物品接觸類的精細(xì)操作任務(wù)中操作精度不足、任務(wù)成功率不高。本文算法可以直接由圖像預(yù)測機(jī)器人的連續(xù)動作,在兩個精細(xì)操作任務(wù)的單步成功率、最終成功率上都高于其他五個基線,最終成功率在涉及物品接觸的插孔任務(wù)中比表現(xiàn)第二好的ACT高出20百分點(diǎn),在單物品轉(zhuǎn)移任務(wù)上比ACT高7百分點(diǎn)。這表明本文提出的算法在機(jī)器人精細(xì)操作任務(wù)中具有更高的精度和效率,機(jī)器人能更好地感知機(jī)器人運(yùn)作的環(huán)境,并生成更精準(zhǔn)和高效的動作序列。

        圖11記錄了本文算法生成的機(jī)器人運(yùn)動控制策略在仿真任務(wù)中機(jī)器人運(yùn)動過程的關(guān)節(jié)角度變化。圖11的左、右部分分別記錄了左、右機(jī)械臂各7個關(guān)節(jié)的狀態(tài)和命令角度變化,左右臂共14個關(guān)節(jié)的真實(shí)運(yùn)動狀態(tài)(state)與期望的關(guān)節(jié)運(yùn)動命令(command)能較好地重合,說明機(jī)器人能精確地執(zhí)行運(yùn)動控制。

        圖12和13記錄了機(jī)器人在轉(zhuǎn)移任務(wù)和插孔任務(wù)中的運(yùn)動過程,在兩項(xiàng)仿真任務(wù)中,雙臂機(jī)器人能執(zhí)行平滑的運(yùn)動軌跡,無抖動、跳變等不穩(wěn)定的運(yùn)動產(chǎn)生。這表明本文算法在隨機(jī)初始化的機(jī)器人精細(xì)操作任務(wù)中能產(chǎn)生既準(zhǔn)確又平滑的運(yùn)動軌跡。

        圖12機(jī)器人轉(zhuǎn)移任務(wù)運(yùn)動過程 Fig.12Movement process of the robot’s transfer task
        圖13機(jī)器人插孔任務(wù)運(yùn)動過程 Fig.13Movement process of the robot’sinsertion task

        3.2.2消融實(shí)驗(yàn)

        本節(jié)進(jìn)行了一系列的消融實(shí)驗(yàn),旨在研究基于特征金字塔的backbone網(wǎng)絡(luò)模塊和基于注意力改進(jìn)的CVAE模塊對本算法訓(xùn)練得到的機(jī)器人控制策略性能的影響。表3報(bào)告了逐步消融這些組件中的每一個后在兩個仿真任務(wù)中機(jī)器人精細(xì)操作測試的最終成功率??梢钥吹?,消融融合特征金字塔的backbone網(wǎng)絡(luò),僅用ResNet提取特征時,兩個仿真任務(wù)的最終成功率分別下降了4和12百分點(diǎn);消融基于注意力改進(jìn)的CVAE模塊,使用類似文獻(xiàn)22]中的基礎(chǔ)CVAE編碼器時,兩個仿真任務(wù)的最終成功率分別下降了2和4百分點(diǎn);當(dāng)消融以上兩個組件時,兩個仿真任務(wù)的最終成功率分別下降了7和20百分點(diǎn)。

        表3消融實(shí)驗(yàn)結(jié)果Tab.3Ablation experimental results /%

        F-backbone網(wǎng)絡(luò)融合了特征金字塔,能夠從不同尺度的特征層次中獲取信息,從而提高網(wǎng)絡(luò)對場景的識別能力。在機(jī)器人精細(xì)操作任務(wù)中,操作細(xì)節(jié)往往需要通過不同尺度的特征來精確判斷,而特征金字塔能夠有效地捕捉到這些多層次的細(xì)節(jié)信息,并對多尺度信息有效地整合。消融了這一模塊后,使用單一尺度的 ResNet 喪失了對細(xì)粒度特征的捕捉能力,因此導(dǎo)致了成功率的下降。A-CVAE模塊引入了基于注意力機(jī)制的改進(jìn),能夠在生成任務(wù)中聚焦于更為重要的特征或區(qū)域,減少噪聲和無關(guān)信息的干擾,增強(qiáng)對關(guān)鍵信息的提取能力。在精細(xì)操作任務(wù)中,注意力機(jī)制能讓模型更加專注于與操作相關(guān)的重要特征,從而提高了任務(wù)執(zhí)行的精度和成功率。消融了這一模塊后,模型失去了這種精細(xì)的關(guān)注能力,導(dǎo)致任務(wù)成功率有所下降。F-backbone網(wǎng)絡(luò)主要負(fù)責(zé)從輸入數(shù)據(jù)中提取多尺度的特征,而A-CVAE模塊則通過生成潛在空間和使用注意力機(jī)制對任務(wù)進(jìn)行建模。這兩個模塊的結(jié)合使得機(jī)器人能夠更加精細(xì)地處理輸入信息,生成準(zhǔn)確的控制策略。在缺少這兩個模塊的情況下,機(jī)器人控制系統(tǒng)失去了對輸入特征的精確提取能力和對任務(wù)關(guān)鍵區(qū)域的關(guān)注,從而導(dǎo)致了較大的性能下降。以上實(shí)驗(yàn)結(jié)果和分析說明本文設(shè)計(jì)的F-backbone網(wǎng)絡(luò)和A-CVAE解碼器能有效提高機(jī)器人精細(xì)操作任務(wù)的效率和精度。

        4結(jié)束語

        本文針對機(jī)器人在進(jìn)行雙臂協(xié)同插孔等精細(xì)操作時面臨的運(yùn)動控制模型訓(xùn)練復(fù)雜、環(huán)境感知和視覺反饋能力差及路徑規(guī)劃執(zhí)行效率低下和精度不足的問題,提出了一種新型的改進(jìn)機(jī)器人行為克隆算法(FA-BC)。該算法通過結(jié)合特征金字塔和ResNet設(shè)計(jì),能提取并融合多尺度特征的backbone網(wǎng)絡(luò),加強(qiáng)機(jī)器人對運(yùn)動場景中自標(biāo)物的感知和視覺反饋能力;為了進(jìn)一步降低行為克隆算法的復(fù)合誤差并加強(qiáng)策略生成動作的平滑性,引入動作分塊和時間集成,以產(chǎn)生既準(zhǔn)確又平滑的軌跡。為了更簡單地訓(xùn)練策略,提升行為克隆算法在未知環(huán)境的適應(yīng)性和創(chuàng)造性,加強(qiáng)策略的泛化能力,將機(jī)器人控制策略訓(xùn)練為CVAE,即一個動作序列生成模型,基于注意力機(jī)制重新設(shè)計(jì)CVAE解碼器,提高模型對圖像關(guān)鍵信息的聚焦能力,更好地捕獲圖像特征和動作的相關(guān)性,生成更精準(zhǔn)、高效的機(jī)器人動作序列。由于基于注意力機(jī)制重新設(shè)計(jì)的CVAE解碼器添加了額外的注意力計(jì)算,在提升性能的同時增加了模型訓(xùn)練的計(jì)算量和內(nèi)存,后續(xù)將進(jìn)一步研究如何減少模型的訓(xùn)練復(fù)雜度和加快模型訓(xùn)練的收斂速度。本研究未涉及在存在障礙物的情況下進(jìn)行避障運(yùn)動規(guī)劃,且未在實(shí)體機(jī)器人上進(jìn)行實(shí)驗(yàn),后續(xù)將進(jìn)一步增加機(jī)器人操作環(huán)境的復(fù)雜度,并用實(shí)體機(jī)器人驗(yàn)證算法的可靠性。

        參考文獻(xiàn):

        [1]郭憲,方勇純.仿生機(jī)器人運(yùn)動步態(tài)控制:強(qiáng)化學(xué)習(xí)方法綜述 [J].智能系統(tǒng)學(xué)報(bào),2020,15(1):152-159.(GuoXian,F(xiàn)ang Yongchun.Locomotion gait-control for bionic robots:a review of reinforcement learningmethods[J].CAAl Transon Intelligent Systems,2020,15(1):152-159.)

        [2] 羅欣,丁曉軍.地面移動作業(yè)機(jī)器人運(yùn)動規(guī)劃與控制研究綜述 [J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2021,53(1):1-15.(Luo Xin,Ding Xiaojun.Research and prospective on motion planning and control of ground mobile manipulators[J].Journal of Harbin lnstituteof Technology,2021,53(1):1-15.)

        [3]艾福強(qiáng),包建東,劉正權(quán).基于粒子群優(yōu)化模糊PID控制的多足 式真空吸附機(jī)器人控制方案設(shè)計(jì)[J].電子測量技術(shù),2023,46 (2):67-72. (Ai Fuqiang,Bao Jiandong,Liu Zhengquan. Design of multilegged vacuum adsorption robot control scheme based on PSOfuzzy PID control[J].Electronic Measurement Technology, 2023,46(2):67-72.)

        [4]甄富帥,宋光明,毛巨正,等.基于STM32的夾爪式蛇形機(jī)器人 控制系統(tǒng)設(shè)計(jì)[J].儀表技術(shù)與傳感器,2022(9):96-100. (ZhenFushuai,Song Guangming,Mao Juzheng,et al.Design of control system for claw-clamping snake robot based on STM32[J]. Instrument Technique and Sensor,2022(9):96-100.)

        [5]宮赤坤,吳潯煒,袁立鵬.基于阻抗和虛擬模型的四足機(jī)器人控 制方法[J].系統(tǒng)仿真學(xué)報(bào),2022,34(10):2152-2161.(Gong Chikun,Wu Xunwei,Yuan Lipeng. Control of quadruped robot based onimpedance and virtual model[J].Journal of System Simulation,2022,34(10):2152-2161.)

        [6]閆友彪,陳元琰.機(jī)器學(xué)習(xí)的主要策略綜述[J].計(jì)算機(jī)應(yīng)用研 究,2004,13(7):4-10.(Yan Youbiao,Chen Yuanyan.A survey onmachine learning andits main strategy [J]. Application Research of Computers,2004,21(7):4-10,13.)

        [7]Hua Jiang,Zeng Liangcai,Li Gongfa,et al.Learning for a robot: deep reinforcement learning,imitation learning,transfer learning [J].Sensors,2021,21(4):1278.

        [8]李忠偉,劉偉鵬,羅傯.基于軌跡引導(dǎo)的移動機(jī)器人導(dǎo)航策略優(yōu) 化算法[J].計(jì)算機(jī)應(yīng)用研究,2024,41(5):1456-1461.(Li Zhongwei,Liu Weipeng,Luo Cai.Autonomous navigation policy optimization algorithm for mobile robots based on trajectory guidance[J]. Application Research of Computers,2024,41(5):1456-1461.)

        [9]李至,潘越,陳殿生,等.基于模仿學(xué)習(xí)的眼底手術(shù)行為機(jī)器人復(fù) 現(xiàn)[J].機(jī)器人,2024,46(3):361-369.(LiZhi,PanYue,Chen Diansheng,et al. Fundus surgical behavior reproduction of robot based on imitation learning[J].Robot,2024,46(3):361-369.)

        [10]王浩杰,陶冶,魯超峰,基于碰撞預(yù)測的強(qiáng)化模仿學(xué)習(xí)機(jī)器人導(dǎo) 航方法[J].計(jì)算機(jī)工程與應(yīng)用,2024,60(10):341-352.(Wang Haojie,Tao Ye,Lu Chaofeng.Reinforcement imitationlearning method based on collision prediction for robots navigation[J].Computer Engineering and Applications,2024,60(10):341-352.)

        [11]邢志偉,張前前,羅謙,等.基于模仿學(xué)習(xí)的機(jī)場停機(jī)位再分配決 策算法[J].計(jì)算機(jī)應(yīng)用研究,2022,39(9):2665-2670.(Xing Zhiwei,ZhangQianqian,Luo Qian,etal.Decision-makingalgorithm for airport gate reassignment based on imitation learning[J]. Application Research of Computers,2022,39(9):2665-2670.)

        [12]AhmedH,MohamedMG,EyadE,etal.Imitationlearning:a survey of learning methods[J].ACM Computing Surveys,2017,50 (2):1-35.

        [13]閆子晨.協(xié)作機(jī)器人模仿學(xué)習(xí)運(yùn)動規(guī)劃與軌跡跟蹤控制研究 [D].北京:北京科技大學(xué),2023.(Yan Zichen.Imitation learning based on motion planning and trajectory tracking control for collaborative robots[D].Beijing:Beijing Keji University,2023.)

        [14]Yuan Yuan,Liu Jie,Chi Wenzheng,et al. A gaussian mixture model based fast motion planning method through online environmental featurelearning[J].IEEE Trans on Industrial Electronics,2022, 70(4) : 3955-3965.

        [15]Felipe C,Eder S,Antonio M,et al.Exploring the limitations of behavior cloning for autonomous driving[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:9329-9338.

        [16]FangBin,Jia Shidong,GuoDi,et al.Survey of imitation learning for robotic manipulation [J]. International Journal of Intelligent Robotics and Applications,2019,3(4):362-369.

        [17]RacinskisP,ArentsJ,Greitans M.A motion capture and imitation learning based approach to robot control[J].Applied Sciences, 2022,12(14): 7186.

        [18]Sasagawa A,F(xiàn)ujimoto K,Sakaino S,et al. Imitation learning based onbilateral control for human-robot cooperation[J].IEEE Robotics andAutomationLetters,2020,5(4):6169-6176.

        [19]Stepputtis S,Campbell J,Phielipp M,et al.Language-conditioned imitation learning for robot manipulation tasks[J].Advancesin Neural Information Processing Systems,2020,33:13139-13150.

        [20]于旭,陶先童,寧丹陽,等.RGB-D圖像引導(dǎo)的機(jī)器人操作任務(wù) 模仿學(xué)習(xí)[J].組合機(jī)床與自動化加工技術(shù),2023(4):165- 168,173.(Yu Xu,Tao Xiantong,Ning Danyang,et al. Imitation learning of robot operation task based on RGB-D image[J].Modular Machine Tool amp; Automatic Manufacturing Technique,2023(4): 165-168,173.)

        [21]李曉豪,鄭海斌,王雪柯,等.基于改進(jìn)交叉熵的模仿學(xué)習(xí)魯棒性 增強(qiáng)方法[J].控制與決策,2024,39(3):768-776.(Li Xiaohao, Zheng Haibin,Wang Xueke,et al. Imitation learning robustness enhancement based on modified cross entropy[J].Control and Decision,2024,39(3):768-776.)

        [22]Zhao TZ,Kumar V,LevineS,et al. Learning fine-grained bimanual manipulation with low-cost hardware[EB/OL].(2023-04-23) [2024-07-24]. htps://arxiv.org/pdf/2304.13705.

        [23]LiJiachen,Hassani A,Walton S,et al.ConvMLP:hierarchical convolutional MLPs for vision[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2023:6307-6316.

        [24]BrohanA,BrownN,Carbajal J,etal.RT-1:robotics Transformer forreal-world control at scale[EB/OL].(2023-08-11)[2024-07- 24].https://arxiv.org/pdf/2212.06817.

        [25]Lin Xian,Yu Li,Cheng K T,et al.BATFormer:towards boundaryaware lightweight transformer for efficient medical image segmentation [J].IEEE Journal of Biomedical and Health Informatics,2023, 27(7):3501-3512.

        [26]Ferianc M,F(xiàn)an Hongxiang,Rodrigues M.VINNAS:variational inference-based neural network architecture search[EB/OL]. (2021-01-14)[2024-07-24].hps://ar-xiv.org/pdf/2007.06103.

        猜你喜歡
        方塊編碼器注意力
        注意力分配視角下對大學(xué)生碎片化學(xué)習(xí)注意力失焦現(xiàn)象的積極理解
        基于Transformer模型的圖書館借閱量預(yù)測研究
        方方的寫實(shí)
        一種融合注意力機(jī)制與ED-LSTM模型的核工程虛擬測量方法
        微型全國產(chǎn)化精密單軸轉(zhuǎn)臺設(shè)計(jì)
        外部知識與內(nèi)部上下文語義聚合的短文本新聞虛假檢測模型
        基于多頭集中注意力機(jī)制的無監(jiān)督視頻摘要模型
        免费av在线 国产精品| 99久久精品国产一区二区蜜芽| 亚洲婷婷五月综合狠狠爱| 999国内精品永久免费视频| 加勒比无码专区中文字幕| 性色av一区二区三区密臀av| 蜜桃成熟时在线观看免费视频| 久久精品免费一区二区三区| 国产一区二区精品在线观看 | av网站不卡的av在线| 天天躁日日躁aaaaxxxx| 亚洲av无码日韩精品影片| 免费国产一级片内射老| 日韩一区二区中文天堂| 国产精品久久久久久久久绿色| 色老头在线一区二区三区| 久久一区二区三区不卡| 久久精品国产亚洲av天美| 丰满人妻一区二区三区免费视频| 亚洲中文无码永久免| 91免费国产| 精品综合久久88少妇激情| 亚洲视频在线观看| 日韩无码无播放器视频| 一区二区三区国产偷拍| 国产黄色一区二区三区,| 天天做天天爱夜夜爽| 国产人在线成免费视频| 国产做床爱无遮挡免费视频| 亚洲av色福利天堂久久入口| 久久精品国产亚洲7777| 丝袜AV在线一区二区三区| 99久久免费中文字幕精品| 不卡的高清av一区二区三区| 久久综合精品国产二区无码 | 五月天亚洲av优女天堂| 亚洲国产中文字幕视频| 成人黄色网址| 蜜芽尤物原创AV在线播放| 白白色发布免费手机在线视频观看| 亚洲熟女乱综合一区二区|