亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的多任務(wù)強(qiáng)化學(xué)習(xí)算法*

        2022-12-28 05:53:46蘇萌韜
        機(jī)電工程技術(shù) 2022年11期
        關(guān)鍵詞:環(huán)境策略方法

        蘇萌韜,曾 碧

        (廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣州 510006)

        0 引言

        隨著人工智能的發(fā)展,目前的國(guó)內(nèi)外學(xué)者對(duì)智能機(jī)器人自主決策和多任務(wù)學(xué)習(xí)開展了廣泛的研究。由于深度學(xué)習(xí)極強(qiáng)的特征學(xué)習(xí)能力,是實(shí)現(xiàn)機(jī)器學(xué)習(xí)的重要算法,文獻(xiàn)[1-2]利用了深度學(xué)習(xí)的方法,設(shè)計(jì)了一個(gè)機(jī)器人的端到端控制模型。這類算法的代表是指導(dǎo)策略搜索算法[3],這種算法由控制器和監(jiān)督器組成,通過(guò)兩個(gè)模塊的協(xié)調(diào)控制機(jī)器人進(jìn)行任務(wù)策略搜索[4],但是這類算法的缺點(diǎn)是過(guò)于依賴傳統(tǒng)控制算法。

        文獻(xiàn)[5-7]采用了強(qiáng)化學(xué)習(xí),通過(guò)與環(huán)境的交互使機(jī)器人在“試錯(cuò)”中學(xué)習(xí)。但是強(qiáng)化學(xué)習(xí)的采樣效率太低,訓(xùn)練周期太長(zhǎng)。所以后來(lái)的研究集中于研究使用模擬環(huán)境仿真訓(xùn)練強(qiáng)化學(xué)習(xí)模型[8],然后通過(guò)策略遷移將模型適用于現(xiàn)實(shí)環(huán)境中。這個(gè)研究領(lǐng)域?qū)儆诜抡嬗?xùn)練到現(xiàn)實(shí)演繹(Simulation toreality,STR)[9]。

        在STR 研究領(lǐng)域中,有比較典型的策略遷移方法,如文獻(xiàn)[10-12]通過(guò)遷移學(xué)習(xí)的領(lǐng)域自適應(yīng)(Domain Adaption,DA)方法,將模擬環(huán)境和現(xiàn)實(shí)環(huán)境的特征映射到同一個(gè)特征空間,使源域的模型適用于目標(biāo)域。Rusu A A[13]證明了漸進(jìn)式神經(jīng)網(wǎng)絡(luò)可以用于強(qiáng)化學(xué)習(xí)中。Christiano P[14]提出了一種逆轉(zhuǎn)移概率矩陣,直接將模型遷移到現(xiàn)實(shí)環(huán)境中應(yīng)用。文獻(xiàn)[15-16]采用領(lǐng)域隨機(jī)化的方式使模擬環(huán)境中的模型能夠泛化到現(xiàn)實(shí)環(huán)境中。此外還有元學(xué)習(xí)(Meta-Learning)領(lǐng)域相關(guān)的研究,文獻(xiàn)[17-20]就是結(jié)合元學(xué)習(xí)和模仿學(xué)習(xí)實(shí)現(xiàn)機(jī)器人的自主學(xué)習(xí)。

        多任務(wù)學(xué)習(xí)也屬于遷移學(xué)習(xí)的范疇,比較典型的有任務(wù)遷移連接網(wǎng)絡(luò)[21](Task Transfer Connection Network,TTCN),這種方法將一個(gè)閾值參數(shù)添加在多個(gè)任務(wù)同一層網(wǎng)絡(luò)層之間實(shí)現(xiàn)任務(wù)間的知識(shí)共享,提高了多任務(wù)的泛化性能。還有基于深度學(xué)習(xí)的多任務(wù)學(xué)習(xí)方法,如深度非對(duì)稱多任務(wù)特征學(xué)習(xí)方法[22](Deep Asymmetric Multitask Feature Learning,DAMTFL),這種方法主要是通過(guò)任務(wù)間參數(shù)正則化解決負(fù)遷移的問(wèn)題。目前多任務(wù)學(xué)習(xí)的研究還主要在基于監(jiān)督學(xué)習(xí)模型的研究。

        目前的策略遷移研究主要注重于機(jī)器人的單任務(wù)決策模型,很少有多任務(wù)強(qiáng)化學(xué)習(xí)模型,而基于傳統(tǒng)的策略模型或者基于強(qiáng)化學(xué)習(xí)的方法效率過(guò)低[23-24],而使用模擬器則需要極大的硬件成本,本文研究基于漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的方法,根據(jù)現(xiàn)實(shí)的原始圖像建立包含重要信息的模擬環(huán)境,使得智能體能夠在模擬環(huán)境中仿真訓(xùn)練提高強(qiáng)化學(xué)習(xí)采樣效率,同時(shí)利用漸進(jìn)式神經(jīng)網(wǎng)絡(luò)將在模擬環(huán)境訓(xùn)練得到的最優(yōu)策略作為現(xiàn)實(shí)中策略模型的先驗(yàn)知識(shí),在遷移策略的同時(shí)還能防止神經(jīng)網(wǎng)絡(luò)的災(zāi)難性遺忘,使機(jī)器人實(shí)現(xiàn)多任務(wù)學(xué)習(xí)。實(shí)驗(yàn)和工程實(shí)踐證明,本方法能夠?yàn)闄C(jī)器人自主持續(xù)學(xué)習(xí)的應(yīng)用提供了思路。具有工程應(yīng)用價(jià)值和現(xiàn)實(shí)意義。(1)提出了一種基于漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的多任務(wù)強(qiáng)化學(xué)習(xí)方法(Progressive Neural Network Reinforcement Learning,PNNRL),這種方法會(huì)通過(guò)現(xiàn)實(shí)環(huán)境的狀態(tài)信息構(gòu)建高效的模擬環(huán)境,使在模擬環(huán)境訓(xùn)練得到的最優(yōu)策略模型應(yīng)用到現(xiàn)實(shí)環(huán)境,并避免在策略遷移中因?yàn)樵谀繕?biāo)域上進(jìn)行模型微調(diào)造成的災(zāi)難性遺忘。(2)基于漸進(jìn)式神經(jīng)網(wǎng)絡(luò),通過(guò)與基準(zhǔn)方法實(shí)驗(yàn)對(duì)比驗(yàn)證機(jī)器人多任務(wù)學(xué)習(xí)和策略遷移的性能。

        1 問(wèn)題定義

        1.1 強(qiáng)化學(xué)習(xí)

        強(qiáng)化學(xué)習(xí)是基于馬爾可夫決策過(guò)程(Markov Decision Process,MDP)的一種學(xué)習(xí)范式。MDP 主要用一個(gè)五元組<S,A,R,P,γ>表示[25]。其中:S為智能體交互的環(huán)境狀態(tài)集合;A為智能體能夠采取的動(dòng)作集合;P為在當(dāng)前狀態(tài)采取動(dòng)作后的轉(zhuǎn)移概率,轉(zhuǎn)移概率函數(shù)如式(1)表示;R為獎(jiǎng)勵(lì)回報(bào),即智能體基于當(dāng)前狀態(tài)st采取動(dòng)作at后,在t+1時(shí)刻獲得的期望獎(jiǎng)勵(lì),如式(2)表示;γ為折扣因子,表示將來(lái)的獎(jiǎng)勵(lì)在當(dāng)前時(shí)刻的價(jià)值比例,γ∈[0,1]。

        在MDP 中,價(jià)值函數(shù)是狀態(tài)價(jià)值函數(shù)vπ(s) 和動(dòng)作價(jià)值函數(shù)qπ(s,a),狀態(tài)價(jià)值函數(shù)表示在策略π 下當(dāng)前時(shí)刻st所獲得的期望回報(bào),如下式所示:

        動(dòng)作價(jià)值函數(shù)則表示在策略策略π 下,狀態(tài)st,采取動(dòng)作at的期望回報(bào),如下式所示:

        其中的Gt表示折扣獎(jiǎng)勵(lì),如下式所示:

        最優(yōu)狀態(tài)價(jià)值函數(shù)v*(s)和最大動(dòng)作價(jià)值函數(shù)q*(s,a)分別表示為:

        1.2 漸進(jìn)式神經(jīng)網(wǎng)絡(luò)

        漸進(jìn)式神經(jīng)網(wǎng)絡(luò)主要解決兩個(gè)問(wèn)題,一個(gè)是傳統(tǒng)遷移學(xué)習(xí)對(duì)模型進(jìn)行微調(diào)以適應(yīng)新的目標(biāo)任務(wù)時(shí),難以選擇選擇訓(xùn)練好的任務(wù)模型初始化后續(xù)的模型。另一個(gè)問(wèn)題是遷移在目標(biāo)域的模型雖然能夠在目標(biāo)域有較好的性能表現(xiàn),但是破壞了之前學(xué)習(xí)到的參數(shù),丟失了之前學(xué)習(xí)的性能,這也是難以實(shí)現(xiàn)持續(xù)學(xué)習(xí)的原因。

        漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的解決思路是將之前訓(xùn)練的每個(gè)網(wǎng)絡(luò)保存,并且固定參數(shù)。每當(dāng)有新任務(wù)的時(shí)候,就重新實(shí)例化生成一個(gè)新網(wǎng)絡(luò)。并且利用舊網(wǎng)絡(luò)的知識(shí)訓(xùn)練新任務(wù)的網(wǎng)絡(luò),將舊任務(wù)的網(wǎng)絡(luò)每一層的輸出和當(dāng)前任務(wù)的每一層輸出合并。如圖1所示。

        圖1 漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)

        每一層的輸出可以通過(guò)線性加和的方式聚合,如下式所示:

        如果輸出為非線性聚合時(shí),則有:

        2 模型訓(xùn)練和策略遷移流程

        2.1 模型訓(xùn)練和策略遷移整體設(shè)計(jì)

        仿真訓(xùn)練的目的是為了大幅提高強(qiáng)化學(xué)習(xí)模型的采樣效率,并減少因?yàn)楝F(xiàn)實(shí)環(huán)境造成的代價(jià)。如圖2所示,首先通過(guò)現(xiàn)實(shí)環(huán)境的狀態(tài)信息構(gòu)建好模擬環(huán)境,然后將策略的訓(xùn)練分為兩個(gè)階段。第一個(gè)階段是在模擬環(huán)境中仿真訓(xùn)練,當(dāng)模型收斂后,就將第一個(gè)訓(xùn)練階段的策略模型進(jìn)行參數(shù)固定,然后開始第二階段訓(xùn)練,第二階段需要再實(shí)例化一個(gè)神經(jīng)網(wǎng)絡(luò),并將之前第一階段的每一層的輸出和當(dāng)前模型的每一層輸出聚合合并。這樣可以獲得第一階段網(wǎng)絡(luò)中對(duì)應(yīng)層級(jí)的能力,但是直接聚合合并還不能得到一個(gè)理想的性能,于是還需要逐步對(duì)第二階段的網(wǎng)絡(luò)進(jìn)行進(jìn)一步的訓(xùn)練。

        圖2 模型訓(xùn)練和策略遷移整體設(shè)計(jì)

        2.2 多任務(wù)學(xué)習(xí)

        多任務(wù)學(xué)習(xí)指的是聯(lián)合訓(xùn)練多個(gè)關(guān)聯(lián)任務(wù),其特征是具有多個(gè)損失函數(shù)。多任務(wù)有多輸入、多輸出和多輸入多輸出等。多任務(wù)學(xué)習(xí)形式可以表示為:

        式中:T、N分別為任務(wù)的數(shù)量、輸入數(shù)據(jù)數(shù)量;x、y為輸入和輸出;W為多任務(wù)模型所有參數(shù)集合;f為多任務(wù)模型;Ω為參數(shù)的正則化項(xiàng);λ為先驗(yàn)強(qiáng)度;L為損失函數(shù)。

        本文使用的漸進(jìn)式神經(jīng)網(wǎng)絡(luò)避免了傳統(tǒng)多任務(wù)學(xué)習(xí)模型的網(wǎng)絡(luò)參數(shù)硬共享方式,而是通過(guò)任務(wù)特征輸出聚合的方式共享了知識(shí),同時(shí)為了保證多任務(wù)學(xué)習(xí)時(shí)的整體效果,對(duì)多任務(wù)學(xué)習(xí)時(shí)候的任務(wù)權(quán)重進(jìn)行調(diào)整如下:

        式中:wi為任務(wù)i的權(quán)重,當(dāng)任務(wù)權(quán)重越高的時(shí)候,訓(xùn)練時(shí)會(huì)調(diào)整訓(xùn)練策略,增加訓(xùn)練回合和提高智能體探索度;ki(t)為當(dāng)前任務(wù)效率指標(biāo)函數(shù),當(dāng)任務(wù)失敗率越高的時(shí)候,表示越難以訓(xùn)練,kpi 的值越低,當(dāng)成功率高的時(shí)候,就表示當(dāng)前任務(wù)容易訓(xùn)練,kpi值越高。

        3 實(shí)驗(yàn)與分析

        3.1 策略遷移實(shí)驗(yàn)

        實(shí)驗(yàn)以基于機(jī)器視覺機(jī)器人抓取物體的實(shí)際任務(wù)實(shí)驗(yàn),以驗(yàn)證本文方法的有效性。通過(guò)RGB 攝像機(jī)可以獲取視野內(nèi)的圖像信息,并獲取待抓取物品的位置信息。獲取目標(biāo)位置信息具體流程如圖3所示。可以通過(guò)原始圖像回歸候選框得到圖像目標(biāo)的位置,得到圖4所示的機(jī)器人視野效果。將回歸候選框中的目標(biāo)作為重要的需要保留的目標(biāo)物品,將其他圖像的中其他信息篩除。

        圖3 定位圖像中的目標(biāo)位置信息

        圖4 現(xiàn)實(shí)機(jī)器人的視野

        如圖5所示,將多余信息篩除后,通過(guò)對(duì)圖像進(jìn)行柵格化可以得到一個(gè)像素坐標(biāo)系,該像素坐標(biāo)系相當(dāng)于現(xiàn)實(shí)中機(jī)器人末端的運(yùn)動(dòng)環(huán)境,將機(jī)器人的末端吸盤作為一個(gè)像素坐標(biāo),通過(guò)控制坐標(biāo)移動(dòng)選擇抓取點(diǎn),最終經(jīng)過(guò)訓(xùn)練的模型就可以得到當(dāng)前模擬環(huán)境中的最優(yōu)物品抓取點(diǎn)。

        圖5 構(gòu)建的模擬環(huán)境

        得到在坐標(biāo)系中得到物品最優(yōu)抓取點(diǎn)后,由于坐標(biāo)系和現(xiàn)實(shí)環(huán)境的參數(shù)不一致,因此還需要如前文描述的將模擬環(huán)境訓(xùn)練得到的策略模型作為先驗(yàn)知識(shí)進(jìn)行第二階段訓(xùn)練。

        3.2 多任務(wù)學(xué)習(xí)實(shí)驗(yàn)

        多任務(wù)學(xué)習(xí)實(shí)驗(yàn)在3 維模擬器中進(jìn)行。這里設(shè)置兩個(gè)機(jī)器人任務(wù),任務(wù)一是抓取目標(biāo)物品,任務(wù)二是擺放目標(biāo)物品,如圖6所示。先固定任務(wù)二網(wǎng)絡(luò)參數(shù),訓(xùn)練任務(wù)一模型,然后再固定任務(wù)一神經(jīng)網(wǎng)絡(luò),然后再將任務(wù)一中的模型按照漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的輸出聚合合并,訓(xùn)練任務(wù)二的模型。

        圖6 多任務(wù)學(xué)習(xí)模擬器實(shí)驗(yàn)?zāi)P?/p>

        3.3 實(shí)驗(yàn)結(jié)果與分析

        本文實(shí)驗(yàn)環(huán)境如表1所示。

        表1 實(shí)驗(yàn)環(huán)境

        3.3.1 策略遷移的實(shí)驗(yàn)對(duì)比和分析

        本文的策略遷移對(duì)比指標(biāo)主要從策略模型性能和收斂速度進(jìn)行比較。常用的對(duì)比基準(zhǔn)方法如表2所示。

        表2 策略遷移對(duì)比的方法

        以上方法都基于Tensorflow,模擬環(huán)境中迭代1 000個(gè)回合,每個(gè)回合500步,并對(duì)完成的策略模型進(jìn)行100次抓取測(cè)試。結(jié)果分析如表3所示。

        表3 在100次抓取測(cè)試中策略遷移性能比較

        由于這5 種方法在進(jìn)行現(xiàn)實(shí)中的策略遷移時(shí)訓(xùn)練方式差別太大,所以只能通過(guò)相同的迭代次數(shù)來(lái)比較最終的模型性能。獎(jiǎng)勵(lì)函數(shù)是根據(jù)任務(wù)目標(biāo)設(shè)立,指導(dǎo)模型訓(xùn)練向高獎(jiǎng)勵(lì)期望訓(xùn)練,本文的獎(jiǎng)勵(lì)函數(shù)對(duì)相同結(jié)果的策略設(shè)置了步數(shù)懲罰值,如下所示:

        Rt是每一步動(dòng)作at的獎(jiǎng)勵(lì),由固定的成功抓取的獎(jiǎng)勵(lì)值和負(fù)值步數(shù)懲罰獎(jiǎng)勵(lì)制Rp和每一步任務(wù)完成程度kpi函數(shù)的Rd組成。在這5個(gè)算法中,PNNRL的平均獎(jiǎng)勵(lì)和抓取成功次數(shù)最多,表明其策略最快,性能最好。

        3.3.2 多任務(wù)強(qiáng)化學(xué)習(xí)模型的實(shí)驗(yàn)對(duì)比和分析

        常用的多任務(wù)對(duì)比基準(zhǔn)算法如表4所示。

        表4 多任務(wù)強(qiáng)化學(xué)習(xí)模型的對(duì)比方法

        用以上方法進(jìn)行多任務(wù)的強(qiáng)化學(xué)習(xí)訓(xùn)練,在第二個(gè)任務(wù)訓(xùn)練完1 000個(gè)回合后,對(duì)比兩個(gè)任務(wù)在100次中執(zhí)行成功率作為評(píng)價(jià)多任務(wù)強(qiáng)化學(xué)習(xí)模型的指標(biāo),實(shí)驗(yàn)結(jié)果對(duì)比如表5所示。表中Baseline的任務(wù)二表現(xiàn)較好,但是出現(xiàn)了災(zāi)難性遺忘的情況,喪失了執(zhí)行第一階段任務(wù)的性能。而TTCN 和DAMTFL 算法雖然都有保留了執(zhí)行第一階段任務(wù)的性能,但本文的方法更有效。

        表5 多任務(wù)學(xué)習(xí)不同算法性能對(duì)比

        4 結(jié)束語(yǔ)

        本文針對(duì)現(xiàn)有的強(qiáng)化學(xué)習(xí)方法采樣效率低問(wèn)題進(jìn)行研究。改進(jìn)了目前機(jī)器人學(xué)習(xí)中難以進(jìn)行多任務(wù)學(xué)習(xí)的問(wèn)題,提出了基于漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的多任務(wù)強(qiáng)化學(xué)習(xí)方法,該方法的訓(xùn)練分為兩個(gè)階段,第一個(gè)階段會(huì)通過(guò)現(xiàn)實(shí)環(huán)境的狀態(tài)信息構(gòu)建高效的模擬環(huán)境,結(jié)合漸進(jìn)式神經(jīng)網(wǎng)絡(luò),將在模擬環(huán)境中訓(xùn)練得到的模型作為一個(gè)先驗(yàn)知識(shí),第二階段利用第一個(gè)階段的先驗(yàn)知識(shí),將在模擬環(huán)境學(xué)習(xí)到的策略快速遷移到現(xiàn)實(shí)環(huán)境的策略模型中,同時(shí)利用漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì),實(shí)現(xiàn)多任務(wù)的強(qiáng)化學(xué)習(xí),并在工程實(shí)驗(yàn)中證明比同類型的算法性能更有效。

        在未來(lái)的工作中,隨著機(jī)器人軟硬件的不斷更新和發(fā)展,結(jié)合運(yùn)用深度強(qiáng)化學(xué)習(xí)等算法,更多的復(fù)雜任務(wù)持續(xù)學(xué)習(xí)和策略遷移是重要的課題之一,同時(shí)還有其泛化性能和持續(xù)學(xué)習(xí)能力還有很大的發(fā)展空間。

        猜你喜歡
        環(huán)境策略方法
        長(zhǎng)期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        例談未知角三角函數(shù)值的求解策略
        孕期遠(yuǎn)離容易致畸的環(huán)境
        我說(shuō)你做講策略
        環(huán)境
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        国产成人午夜高潮毛片| 国产精品国产三级国产AvkTV| 亚洲第一页综合av免费在线观看| 国产精品国产自产拍高清| 国产极品女主播国产区| 色婷婷综合久久久久中文| 老熟妇Av| 国产精品午夜福利天堂| 亚洲综合色区一区二区三区| 国产精品你懂的在线播放| 香蕉网站在线| 亚洲av永久综合网站美女| 亚洲三级视频一区二区三区| 久久久www免费人成精品| 久久亚洲Av无码专区| av永远在线免费观看| 日本系列中文字幕99| 三叶草欧洲码在线| 亚洲一区综合精品狠狠爱| 一区二区三区国产亚洲网站| 男人的天堂一区二av| 俺去俺来也在线www色官网| 国产91色在线|亚洲| 一区二区三区黄色一级片| 一边摸一边抽搐一进一出口述| 欧美日韩中文国产一区发布| 婷婷一区二区三区在线| 久久精品国产亚洲av四区| 国产综合精品一区二区三区| 十八岁以下禁止观看黄下载链接 | 日本二区在线视频观看| 自愉自愉产区二十四区| 国产精品入口牛牛影视| 粗大挺进孕妇人妻在线| 无人区乱码一区二区三区| 中文字幕一区二区三区精彩视频| 国产69精品一区二区三区| 综合亚洲二区三区四区在线 | 国产一级做a爱免费观看| 精品一区二区三区长筒靴| 亚洲男人天堂一区二区|