亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于噪聲對(duì)比估計(jì)的權(quán)重自適應(yīng)對(duì)抗生成式模仿學(xué)習(xí)

        2023-05-23 12:46:32關(guān)偉凡
        模式識(shí)別與人工智能 2023年4期
        關(guān)鍵詞:特征提取權(quán)重專家

        關(guān)偉凡 張 希

        模仿學(xué)習(xí)(Imitation Learning, IL)[1]旨在從人類專家執(zhí)行目標(biāo)任務(wù)產(chǎn)生的數(shù)據(jù)中進(jìn)行信息挖掘,進(jìn)而學(xué)習(xí)到接近甚至超越人類專家策略的新策略.模仿學(xué)習(xí)可以改善強(qiáng)化學(xué)習(xí)(Reinforcement Lear-ning, RL)[2]采樣效率較低、獎(jiǎng)勵(lì)函數(shù)難以設(shè)計(jì)等弊病,因此受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注.近年來不斷涌現(xiàn)出多種模仿學(xué)習(xí)相關(guān)算法,主要類別有基于監(jiān)督學(xué)習(xí)的行為克隆[3-6]和基于對(duì)抗生成學(xué)習(xí)的逆強(qiáng)化學(xué)習(xí)[7-11]等.

        目前,模仿學(xué)習(xí)正在拓展到更復(fù)雜且更具挑戰(zhàn)性的應(yīng)用場景.Peng等[12]提出DeepMimic,嘗試對(duì)跳躍、空翻甚至武術(shù)等復(fù)雜的精密動(dòng)作進(jìn)行高質(zhì)量還原.基于YouTube視頻,Standford團(tuán)隊(duì)讓機(jī)械臂學(xué)習(xí)抓取任務(wù)[13-15],嘗試從海量的無監(jiān)督視頻信息中直接學(xué)習(xí)行為動(dòng)作.T-REX(Trajectory-Ranked Re-ward Extrapolation)[16]、D-REX(Disturbance-Based Reward Extrapolation)[17]、CAIL(Confidence-Aware Imitation Learning)[10]等嘗試引入先驗(yàn)信息,使模仿學(xué)習(xí)算法的性能超越被模仿的專家策略.若上述技術(shù)能夠取得持續(xù)突破,未來的模仿學(xué)習(xí)將有可能在海量無監(jiān)督視頻數(shù)據(jù)下模仿復(fù)雜動(dòng)作行為,達(dá)到超越被模仿者的性能表現(xiàn).

        逆強(qiáng)化學(xué)習(xí)(Inverse RL, IRL)[8]為模仿學(xué)習(xí)重要的研究方向之一.IRL的目的是從智能體的行動(dòng)中推斷出最優(yōu)的獎(jiǎng)勵(lì)函數(shù),代替人工設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù).區(qū)別于行為克隆對(duì)專家策略的單純模仿,IRL不斷挖掘?qū)<覙颖镜碾[含信息,學(xué)習(xí)到的獎(jiǎng)勵(lì)函數(shù)在應(yīng)對(duì)環(huán)境變化時(shí)具有更好的泛化性和魯棒性.

        傳統(tǒng)的模仿學(xué)習(xí)算法假設(shè)專家樣本均為最優(yōu)專家樣本,未針對(duì)專家樣本的品質(zhì)進(jìn)行區(qū)分.這種做法具有明顯的局限性:一方面,在很多任務(wù)場景下,出于人工成本的限制,無法獲取足夠的最優(yōu)專家樣本供模仿學(xué)習(xí)智能體得到充分的訓(xùn)練,這種情況下必須依賴于從次優(yōu)專家樣本中獲取信息.另一方面,算法性能過于依賴樣本數(shù)據(jù)的品質(zhì),一旦專家數(shù)據(jù)集上含有次優(yōu)專家樣本,對(duì)這類數(shù)據(jù)的直接模仿將使算法性能大打折扣.因此,研究混合專家樣本建模,是提升模仿學(xué)習(xí)數(shù)據(jù)利用效率并最終提升算法性能亟待解決的問題.

        目前學(xué)者們還提出一些針對(duì)混合專家樣本任務(wù)場景的IRL相關(guān)工作.Chen等[18]提出SSRR(Self-Supervised Reward Regression),通過IRL得到初始策略和獎(jiǎng)勵(lì)函數(shù),再向初始策略網(wǎng)絡(luò)注入不同振幅的噪聲,形成帶有噪聲的專家樣本,最后利用噪聲專家樣本學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù),并將學(xué)習(xí)到的獎(jiǎng)勵(lì)函數(shù)投放到前向強(qiáng)化學(xué)習(xí)中使用.Wu等[11]提出2IWIL(Two-Step Importance Weighting IL),利用少量預(yù)先標(biāo)注權(quán)重系數(shù)的專家樣本訓(xùn)練預(yù)測器,并通過該預(yù)測器預(yù)測大量無監(jiān)督數(shù)據(jù)的權(quán)重系數(shù),再將權(quán)重系數(shù)重分布后的專家樣本投入模仿學(xué)習(xí)的訓(xùn)練.Wu等[11]同時(shí)提出IC-GAIL(Generative Adversarial IL with Imperfect Demonstration and Confidence)[11],他們認(rèn)為2IWIL可能出現(xiàn)累計(jì)誤差的問題,在2IWIL的基礎(chǔ)上,IC-GAIL以端到端的方式訓(xùn)練,通過占有率度量匹配,使策略分布接近最優(yōu)策略分布.Zhang等[10]提出CAIL,為專家樣本設(shè)定初始權(quán)重系數(shù),并基于當(dāng)前模仿學(xué)到的策略性能自適應(yīng)地調(diào)整權(quán)重系數(shù),通過雙重循環(huán)的交替式優(yōu)化,改善樣本分布.Xu等[19]提出DWBC(Discriminator-Weighted Behavioral Cloning),結(jié)合對(duì)抗生成式網(wǎng)絡(luò)和行為克隆,以分辨專家樣本和非專家樣本這一任務(wù)訓(xùn)練判別器,并以收斂后判別器的輸出結(jié)果作為權(quán)重系數(shù),計(jì)算行為克隆損失,優(yōu)化策略參數(shù).Beliaev等[20]提出ILEED(Imitation Learning by Estimating Expertise of Demonstrators),通過編碼器將狀態(tài)映射到隱空間,在隱空間內(nèi)計(jì)算專家樣本和非專家樣本的相似度系數(shù),并將其作為非專家樣本的權(quán)重系數(shù),參與行為克隆的損失計(jì)算.

        然而,上述方法均依賴對(duì)專家樣本進(jìn)行預(yù)處理以獲取相對(duì)排序或真實(shí)獎(jiǎng)勵(lì)等先驗(yàn)知識(shí),耗費(fèi)大量人工標(biāo)注成本.針對(duì)上述問題,本文提出基于噪聲對(duì)比估計(jì)的權(quán)重自適應(yīng)對(duì)抗生成式模仿學(xué)習(xí)算法(Weight Adaptive Generative Adversarial Imitation Learning Based on Noise Contrastive Estimation, GLANCE),僅需要獲取專家樣本數(shù)據(jù)集上5%數(shù)據(jù)的相對(duì)排序作為評(píng)估數(shù)據(jù)集,就可以達(dá)到甚至超越同類算法的性能表現(xiàn),在提升性能的同時(shí)大幅節(jié)省標(biāo)注數(shù)據(jù)的人力成本.GLANCE使用噪聲對(duì)比估計(jì)對(duì)特征提取器進(jìn)行預(yù)訓(xùn)練.對(duì)比次優(yōu)專家樣本和最優(yōu)專家樣本的行為特征,使用噪聲信號(hào)模擬兩者之間的差距,從而訓(xùn)練出更魯棒的特征提取器.通過這種方法,次優(yōu)專家樣本特征提取后的隱含狀態(tài)將更接近最優(yōu)專家樣本的狀態(tài)表征,規(guī)避次優(yōu)專家樣本對(duì)算法性能的影響.同時(shí)以預(yù)測排序損失作為優(yōu)化目標(biāo),通過梯度下降法對(duì)權(quán)重系數(shù)進(jìn)行更新,使混合專家樣本的數(shù)據(jù)分布盡可能接近最優(yōu)策略的樣本分布,使算法在優(yōu)化過程中更加關(guān)注最優(yōu)專家樣本,提升算法性能.

        1 相關(guān)知識(shí)

        1.1 強(qiáng)化學(xué)習(xí)

        強(qiáng)化學(xué)習(xí)(RL)[2]通過與周圍環(huán)境互動(dòng),并嘗試根據(jù)周圍環(huán)境反饋的獎(jiǎng)勵(lì)學(xué)習(xí)最佳的行動(dòng)策略,進(jìn)而達(dá)到累計(jì)獎(jiǎng)勵(lì)最大化的目的.將強(qiáng)化學(xué)習(xí)問題建模成馬爾可夫決策過程(Markov Decision Process, MDP),由智能體(Agent)、環(huán)境(Environment)、狀態(tài)(State)、動(dòng)作(Action)、獎(jiǎng)勵(lì)(Reward)及狀態(tài)轉(zhuǎn)移概率(State Transition Probability)組成.MDP的數(shù)學(xué)形式可寫成如下六元組:

        M=〈S,A,T,R,ρ0,γ〉,

        其中,S表示狀態(tài)空間,A表示動(dòng)作空間,T表示狀態(tài)轉(zhuǎn)移概率,R表示獎(jiǎng)勵(lì)函數(shù),ρ0表示初始狀態(tài)分布,γ表示獎(jiǎng)勵(lì)的衰減系數(shù).策略π∶S×A→[0,1]定義為給定狀態(tài)下,動(dòng)作空間中動(dòng)作的概率分布.

        智能體連續(xù)與環(huán)境進(jìn)行決策交互,使用累計(jì)期望回報(bào)評(píng)估策略的性能表現(xiàn),表達(dá)式為

        強(qiáng)化學(xué)習(xí)算法的最終目標(biāo)為尋得最優(yōu)策略,即能最大化累計(jì)期望回報(bào)的策略.

        1.2 模仿學(xué)習(xí)

        相比強(qiáng)化學(xué)習(xí),模仿學(xué)習(xí)[1]從專家策略πd產(chǎn)生的專家樣本{ξ1,ξ2,…,ξk}中學(xué)習(xí)專家的決策規(guī)律.從專家樣本中自適應(yīng)地學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù),擺脫對(duì)人工設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)的依賴,并且從在線交互式學(xué)習(xí)轉(zhuǎn)向離線數(shù)據(jù)驅(qū)動(dòng)式學(xué)習(xí),提高采樣效率和學(xué)習(xí)速率.每條專家樣本為一條狀態(tài)動(dòng)作對(duì)序列

        ξi={s0,a0,s1,a1,…,sn,an},

        期望回報(bào)為

        定義占有率度量(Occupancy Measure)[8],ρπ為策略π在和環(huán)境交互過程中訪問的狀態(tài)動(dòng)作對(duì)數(shù)據(jù)分布,則

        模仿學(xué)習(xí)的目標(biāo)可以描述為:使當(dāng)前策略的占有率度量盡可能接近被模仿的專家策略的占有率度量,從而在相同環(huán)境狀態(tài)下,當(dāng)前策略的動(dòng)作決策接近專家策略的動(dòng)作決策,進(jìn)而達(dá)到模仿專家行為的目的.選用相對(duì)熵(Relative Entropy),即KL散度度量兩個(gè)分布之間的距離,則模仿學(xué)習(xí)的優(yōu)化目標(biāo)可寫為

        其中,ρπd表示專家策略的占有率度量,ρπ表示當(dāng)前策略的占有率度量.

        1.3 對(duì)抗生成式模仿學(xué)習(xí)

        對(duì)抗生成網(wǎng)絡(luò)(Generative Adversarial Net-work, GAN)[21]是一種主流的生成式模型,核心由兩部分組成:生成器G與判別器D.

        GAN的優(yōu)化目標(biāo)可寫作

        V(D,G)=Ex~pdata[logD(x)]+

        Ez~pz[log(1-D(G(z)))],

        其中,pdata表示真實(shí)樣本分布,p(z)表示噪聲分布.優(yōu)化目標(biāo)V(D,G)值越高表示判別結(jié)果越準(zhǔn)確.

        生成器通過最小化優(yōu)化目標(biāo)達(dá)到由噪聲信號(hào)生成近似真實(shí)樣本的仿真樣本的目的,而判別器通過最大化優(yōu)化目標(biāo)以精確分辨真實(shí)樣本和仿真樣本,故GAN對(duì)抗訓(xùn)練的優(yōu)化目標(biāo)為:

        GAN通過對(duì)抗訓(xùn)練的方式,不斷減小仿真樣本和真實(shí)樣本分布的KL散度,達(dá)到生成類似真實(shí)樣本的仿真樣本的目的.

        受GAN啟發(fā),GAIL(Generative Adversarial Imitation Learning)[8]通過對(duì)抗訓(xùn)練的方式減小當(dāng)前策略和專家策略的占有率度量的KL散度,從而使當(dāng)前策略模仿專家策略的決策行為.GAIL的優(yōu)化目標(biāo)如下:

        其中,π表示當(dāng)前策略,πd表示被模仿的專家策略,獎(jiǎng)勵(lì)函數(shù)R充當(dāng)判別器.

        2 基于噪聲對(duì)比估計(jì)的權(quán)重自適應(yīng)對(duì)抗生成式模仿學(xué)習(xí)

        本文針對(duì)混合專家樣本數(shù)據(jù)集上模仿學(xué)習(xí)算法性能損失問題,提出基于噪聲對(duì)比估計(jì)的權(quán)重自適應(yīng)對(duì)抗生成式模仿學(xué)習(xí)算法(GLANCE).

        GLANCE流程如圖1所示.算法主體分為兩部分.1)特征提取器的訓(xùn)練.利用最優(yōu)專家樣本及噪聲專家樣本進(jìn)行噪聲對(duì)比估計(jì),得到具有特征選擇作用的特征提取器,使次優(yōu)專家樣本的狀態(tài)表征更接近最優(yōu)專家樣本.2)權(quán)重系數(shù)的學(xué)習(xí).先運(yùn)行對(duì)抗生成式模仿學(xué)習(xí)算法,再利用獎(jiǎng)勵(lì)函數(shù)預(yù)測的樣本排序和真實(shí)排序計(jì)算排序誤差作為損失函數(shù),優(yōu)化專家樣本的權(quán)重系數(shù).通過權(quán)重系數(shù)對(duì)專家數(shù)據(jù)進(jìn)行重分布,使其數(shù)據(jù)分布進(jìn)一步接近最優(yōu)專家策略,進(jìn)而提高模仿學(xué)習(xí)算法性能.

        圖1 GLANCE流程圖

        2.1 訓(xùn)練特征提取器

        模仿學(xué)習(xí)之所以能夠取得出色的效果是因?yàn)槠湓诤艽蟪潭壬弦蕾嚦渥愕淖顑?yōu)專家樣本進(jìn)行的策略學(xué)習(xí).但在現(xiàn)實(shí)任務(wù)場景中,為了提高采樣效率,常采用多個(gè)智能體策略同時(shí)進(jìn)行專家樣本采集,難以保證所有專家策略性能一致.為此,本文提出采用混合專家樣本的方式,由性能最優(yōu)的策略產(chǎn)生的樣本成為最優(yōu)專家樣本ξ*,其余為次優(yōu)專家樣本ξ′.為了盡可能減少因直接對(duì)次優(yōu)專家樣本進(jìn)行模仿而造成的模仿學(xué)習(xí)策略性能損失,引入特征提取器,使次優(yōu)專家樣本狀態(tài)表征盡可能接近最優(yōu)專家樣本.

        本文對(duì)比次優(yōu)專家樣本和最優(yōu)專家樣本的行為特征,使用噪聲信號(hào)模擬兩者之間的差距,這種方法被稱為噪聲注入[17].噪聲注入只適用于次優(yōu)專家樣本與最優(yōu)專家樣本之間差異較小的情況,噪聲強(qiáng)度的選擇也需要根據(jù)具體情況進(jìn)行調(diào)整,過強(qiáng)或過弱的噪聲都可能影響模型效果.次優(yōu)專家樣本可認(rèn)為是最優(yōu)專家樣本經(jīng)由正態(tài)分布噪聲擾動(dòng)后得到,即

        ξ′=ξ*+.

        假定最優(yōu)專家樣本狀態(tài)動(dòng)作對(duì)的占有率度量為ρ*(s,a),添加正態(tài)分布噪聲后的占有率度量為ρ′(s,a),則特征提取器E(·)的優(yōu)化目標(biāo)為

        即通過最小化兩者的KL散度達(dá)到使次優(yōu)專家樣本狀態(tài)表征接近最優(yōu)專家樣本狀態(tài)表征的目的.GLANCE使用對(duì)抗生成式訓(xùn)練框架訓(xùn)練特征提取器E[·],引入特征判別器D(·),通過判斷提取后的特征來源評(píng)估當(dāng)前特征提取器的訓(xùn)練效果.

        借鑒GAN[21]的思想,特征判別器和特征提取器的損失函數(shù)分別為

        其中,z表示經(jīng)過特征提取器后的特征,p(z|x)表示特征提取后生成的樣本滿足的條件概率分布,θD表示特征判別器參數(shù),θE表示特征提取器參數(shù).

        GAIL證明優(yōu)化上述極大極小值損失函數(shù)等價(jià)于優(yōu)化最優(yōu)專家策略和噪聲專家策略占有率度量之間的KL散度,從而使兩個(gè)分布之間距離減小,相似度提高.

        隨著特征提取器的引入,最優(yōu)專家樣本和次優(yōu)專家樣本的特征分布距離減小,可能會(huì)在訓(xùn)練中丟失最優(yōu)專家樣本的特征信息,進(jìn)而導(dǎo)致其退化成為次優(yōu)專家樣本,造成模仿學(xué)習(xí)性能的損失.因此本文提出將特征提取前后最優(yōu)專家樣本的互信息[22]作為正則化項(xiàng)進(jìn)行約束,避免信息損失.

        互信息定義為

        其中,X=p(x)表示特征提取前專家樣本的數(shù)據(jù)分布,Z=p(z)表示特征提取后專家樣本的數(shù)據(jù)分布.難以直接通過采樣計(jì)算得到

        本文引入分布r(z),對(duì)互信息的上界進(jìn)行估計(jì).由于

        KL[p(x)‖p(z)]≥0,

        進(jìn)而導(dǎo)出

        得到I(X,Z)的上界:

        Ex~p(x)KL[p(z|x)‖r(z)],

        其中,選擇分布r(z)為均值為0、方差為1的正態(tài)分布,將互信息的上界作為特征提取器優(yōu)化目標(biāo)的正則化項(xiàng),從而達(dá)到減少最優(yōu)專家樣本信息損失的目的.完整的優(yōu)化目標(biāo)為:

        Es,a~ρ′[Ez~p(z|s,a)[-log(1-D(z))]]+

        αEs,a~ρ*[KL[p(z|s,a)‖r(s,a)]],

        其中α表示正則化項(xiàng)系數(shù).

        特征提取器的訓(xùn)練過程如圖2所示.

        圖2 特征提取器訓(xùn)練過程

        2.2 訓(xùn)練權(quán)重系數(shù)

        混合專家樣本數(shù)據(jù)集的樣本質(zhì)量參差不齊,如果不加以區(qū)分而直接進(jìn)行無差別模仿,會(huì)造成模仿學(xué)習(xí)策略的性能損失.因此,本文引入權(quán)重系數(shù)β∈(0,1),用于標(biāo)定專家樣本的品質(zhì).權(quán)重系數(shù)的值越接近于1,表示品質(zhì)越高,在模仿學(xué)習(xí)算法損失函數(shù)的計(jì)算中,該樣本權(quán)重占比就越大,對(duì)該樣本的模仿就越精確.

        當(dāng)前的混合專家策略表示為πd,當(dāng)前策略在和環(huán)境交互過程中的占有率度量為

        通過對(duì)πd的狀態(tài)動(dòng)作對(duì)進(jìn)行重分布后便可得到新策略πnew,其占有率度量可表示為

        ρπnew(s,a)=β(s,a)ρπd(s,a).

        經(jīng)過權(quán)重系數(shù)重分布后的模仿學(xué)習(xí)損失函數(shù)可寫作Es′,a′~β(s,a)ρd(s,a)L模仿,其中L模仿可以是行為克隆或逆強(qiáng)化學(xué)習(xí)等任何傳統(tǒng)模仿學(xué)習(xí)算法的損失函數(shù).本文的目標(biāo)就是通過權(quán)重系數(shù),對(duì)不同的專家樣本進(jìn)行差異化學(xué)習(xí),最大化模仿學(xué)習(xí)算法性能,即達(dá)到最大化累計(jì)期望回報(bào)的目的.最優(yōu)權(quán)重系數(shù)分布為

        其中,

        表示重分布后策略πnew的累積期望回報(bào),R表示環(huán)境的獎(jiǎng)勵(lì)函數(shù),γ表示衰減系數(shù).

        權(quán)重學(xué)習(xí)的目的是最大化模仿學(xué)習(xí)算法的性能,故可以通過對(duì)模仿學(xué)習(xí)算法的性能進(jìn)行評(píng)估,反映當(dāng)前權(quán)重系數(shù)學(xué)習(xí)的效果.為此,引入評(píng)估數(shù)據(jù)集DE,對(duì)模仿學(xué)習(xí)算法進(jìn)行評(píng)估,引入權(quán)重?fù)p失函數(shù)反映評(píng)估效果,并進(jìn)一步優(yōu)化權(quán)重系數(shù).

        在評(píng)估指標(biāo)的選擇上,本文通過排序任務(wù)反映當(dāng)前模仿學(xué)習(xí)算法的學(xué)習(xí)效果,即首先預(yù)測專家樣本的排序,如果預(yù)測排序和真實(shí)排序越相符,表示當(dāng)前模仿學(xué)習(xí)算法效果越優(yōu).

        評(píng)估數(shù)據(jù)集由少量已知相對(duì)排序的專家樣本組成,即

        DE={η|ηξ1≥ηξ2≥…≥ηξk}.

        權(quán)重?fù)p失選擇Margin Ranking Loss[23].

        2.3 算法介紹

        1)特征提取器學(xué)習(xí).首先需要訓(xùn)練特征提取器.從混合專家樣本數(shù)據(jù)集T上挑選最優(yōu)專家樣本構(gòu)成數(shù)據(jù)集T*.向其中的樣本添加正態(tài)分布噪聲,獲得噪聲專家樣本數(shù)據(jù)集T′.根據(jù)2.1節(jié)的方法,通過噪聲對(duì)比估計(jì),訓(xùn)練得到特征提取器E.為了使模仿學(xué)習(xí)策略和權(quán)重系數(shù)能得到穩(wěn)定有效的訓(xùn)練,本文選擇一種交替式的優(yōu)化框架,分別對(duì)模仿學(xué)習(xí)策略參數(shù)θ和權(quán)重系數(shù)β進(jìn)行交替優(yōu)化.

        2)模仿學(xué)習(xí).在模仿學(xué)習(xí)訓(xùn)練階段,本文選用對(duì)抗式逆強(qiáng)化學(xué)習(xí)(Adversarial IRL, AIRL)[9]作為基礎(chǔ)模型,AIRL延續(xù)GAIL[8]的學(xué)習(xí)范式,在GAIL的基礎(chǔ)上進(jìn)行獎(jiǎng)勵(lì)構(gòu)造,將獎(jiǎng)勵(lì)拆解為

        R(s,a,s′)=g(s,a)+γh(s′)-h(s),

        其中,g(·)由與狀態(tài)-動(dòng)作有關(guān)的獎(jiǎng)勵(lì)函數(shù)組成,h(·)由只與狀態(tài)有關(guān)的獎(jiǎng)勵(lì)函數(shù)組成.AIRL證明,這種獎(jiǎng)勵(lì)構(gòu)造可以使算法針對(duì)環(huán)境的MDP改變,具有更強(qiáng)的魯棒性,不同于GAIL,AIRL訓(xùn)練的產(chǎn)出結(jié)果不僅包括策略函數(shù)π,還包括獎(jiǎng)勵(lì)函數(shù)R,可投放到相似的測試環(huán)境中直接使用,從而減小因頻繁更換環(huán)境而重新訓(xùn)練的計(jì)算代價(jià).

        AIRL由策略網(wǎng)絡(luò)πθ和獎(jiǎng)勵(lì)函數(shù)網(wǎng)絡(luò)Rθ構(gòu)成,通過對(duì)抗生成式的訓(xùn)練方式,使生成器生成樣本盡可能接近專家樣本的占有率度量.獎(jiǎng)勵(lì)函數(shù)網(wǎng)絡(luò)R的損失函數(shù)為:

        策略網(wǎng)絡(luò)π的損失函數(shù)為:

        其中E表示噪聲對(duì)比估計(jì)階段訓(xùn)練收斂的特征提取器.

        3)權(quán)重學(xué)習(xí).在權(quán)重學(xué)習(xí)階段,本文采用相對(duì)排序預(yù)測評(píng)估模仿學(xué)習(xí)階段學(xué)習(xí)到的策略性能.收集少量已知相對(duì)排序的專家樣本ζ作為評(píng)估數(shù)據(jù)集,經(jīng)由AIRL訓(xùn)練后的獎(jiǎng)勵(lì)函數(shù)R預(yù)測的累計(jì)期望回報(bào)為:

        已知真實(shí)累計(jì)期望回報(bào)為ηζ,從評(píng)估數(shù)據(jù)集上抽取若干條樣本數(shù)據(jù)對(duì),排序損失定義為

        其中,

        I[·]表示指示函數(shù),當(dāng)ηζi>ηζj時(shí),I[ηζi,ηζj]=1,否則I[ηζi,ηζj]=-1,τ=10-5,表示拉普拉斯平滑系數(shù).

        4)模仿學(xué)習(xí)階段和權(quán)重學(xué)習(xí)階段交替執(zhí)行,迭代優(yōu)化.權(quán)重學(xué)習(xí)通過評(píng)估模仿學(xué)習(xí)當(dāng)前的性能,計(jì)算排序損失并優(yōu)化權(quán)重系數(shù).模仿學(xué)習(xí)基于權(quán)重學(xué)習(xí)重分布后的樣本分布進(jìn)行學(xué)習(xí),完成對(duì)最優(yōu)專家樣本的模仿,達(dá)到最大化累計(jì)期望回報(bào)的目的.

        3 實(shí)驗(yàn)及結(jié)果分析

        3.1 實(shí)驗(yàn)環(huán)境

        本文在OpenAI gym[24]的MuJoCo(Mutil-Joint Dynamics with Contact)[25]仿真環(huán)境中進(jìn)行對(duì)照實(shí)驗(yàn).MuJoCo是一個(gè)模擬機(jī)器人、生物力學(xué)、圖形和動(dòng)畫等領(lǐng)域的物理引擎,常用于基于模型的計(jì)算、逆動(dòng)力學(xué)的數(shù)據(jù)分析及強(qiáng)化學(xué)習(xí)算法的應(yīng)用測試.本文選取其中6種機(jī)器人連續(xù)控制任務(wù)作為本次的實(shí)驗(yàn)環(huán)境,分別為:Ant(訓(xùn)練四足機(jī)器人學(xué)會(huì)行走);Pusher(訓(xùn)練機(jī)械臂將物體推向指定位置);Half-Cheetah(訓(xùn)練二足機(jī)器人學(xué)會(huì)行走);Swimmer(訓(xùn)練粘性流體中的三連桿機(jī)器人,控制兩個(gè)關(guān)節(jié),使其盡可能快地往前游泳);Reacher(訓(xùn)練兩連桿機(jī)器人不斷去接近一個(gè)目標(biāo));Pendulum(訓(xùn)練機(jī)器人保持倒立擺不要掉落).實(shí)驗(yàn)環(huán)境示意圖如圖3所示.

        圖3 MuJoCo 訓(xùn)練仿真環(huán)境示意圖

        6種機(jī)器人控制任務(wù)均為強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)中常用測試基準(zhǔn)環(huán)境.本文分別在每個(gè)測試環(huán)境中收集最優(yōu)專家樣本及次優(yōu)專家樣本共同構(gòu)建數(shù)據(jù)集,驗(yàn)證算法在混合專家樣本數(shù)據(jù)集設(shè)定下的有效性.

        本文選用的實(shí)驗(yàn)評(píng)估指標(biāo)為累計(jì)期望回報(bào).將不同算法在訓(xùn)練環(huán)境中訓(xùn)練收斂的智能體置于測試環(huán)境中,使其與測試環(huán)境交互,并在此期間不斷收集測試環(huán)境給予的真實(shí)獎(jiǎng)勵(lì)反饋,對(duì)累計(jì)的真實(shí)獎(jiǎng)勵(lì)進(jìn)行統(tǒng)計(jì),獲得累計(jì)期望回報(bào).累計(jì)期望回報(bào)越高,表示當(dāng)前策略學(xué)習(xí)程度越高,性能越優(yōu).

        對(duì)于不同的連續(xù)動(dòng)作控制任務(wù),伴隨著狀態(tài)空間和動(dòng)作空間維度的增加,控制難度也逐漸上升.各MuJoCo控制任務(wù)的狀態(tài)空間和動(dòng)作空間的維度、算法參數(shù)設(shè)置如表1所示.

        表1 GLANCE在不同MuJoCo測試任務(wù)上的參數(shù)設(shè)置

        3.2 數(shù)據(jù)采集

        模仿學(xué)習(xí)需要以事先收集的人類專家執(zhí)行當(dāng)前任務(wù)的專家樣本為示例進(jìn)行學(xué)習(xí).本文采用已訓(xùn)練收斂的強(qiáng)化學(xué)習(xí)智能體作為專家進(jìn)行樣本收集,選擇近端策略優(yōu)化算法(Proximal Policy Optimiza-tion, PPO)[26]作為專家智能體的訓(xùn)練算法.為了能夠收集到混合專家樣本數(shù)據(jù),在MuJoCo實(shí)驗(yàn)環(huán)境中使用物理引擎定義的真實(shí)獎(jiǎng)勵(lì)函數(shù)訓(xùn)練PPO至收斂,保存訓(xùn)練過程中的4個(gè)中間策略模型參數(shù),作為次優(yōu)專家策略,保存最終收斂的策略模型作為最優(yōu)專家策略.讓這5個(gè)策略模型分別和環(huán)境交互,收集40 000條軌跡數(shù)據(jù),混合后構(gòu)成最終的混合專家樣本數(shù)據(jù)集.另外,本文選擇其中5%的數(shù)據(jù),標(biāo)注相對(duì)排序信息,作為評(píng)估數(shù)據(jù)集,用于評(píng)估權(quán)重?fù)p失.

        3.3 基線算法

        1)標(biāo)準(zhǔn)模仿學(xué)習(xí)算法.GAIL[8]和AIRL[9].

        2)基于排序的方法.

        (1)T-REX[16].標(biāo)注相對(duì)排序的數(shù)據(jù)訓(xùn)練二分類器,訓(xùn)練好的分類器保存專家樣本之間相對(duì)排序的判別知識(shí),可以在測試時(shí)為更優(yōu)的專家樣本給予更高的打分.

        (2)D-REX[17].進(jìn)一步改進(jìn)T-REX,基于小批量最優(yōu)專家樣本,通過行為克隆訓(xùn)練最優(yōu)策略,向最優(yōu)策略中不斷注入噪聲,產(chǎn)生具有相對(duì)排序的次優(yōu)專家樣本,節(jié)約人工標(biāo)注的成本.

        3)基于權(quán)重的方法.

        (1)2IWIL[11].利用少量標(biāo)注權(quán)重系數(shù)的專家樣本訓(xùn)練預(yù)測器,并通過該預(yù)測器預(yù)測大量無監(jiān)督數(shù)據(jù)的權(quán)重系數(shù),根據(jù)權(quán)重系數(shù)重分布后的專家樣本完成模仿學(xué)習(xí)的訓(xùn)練.

        (2)IC-GAIL[11].在2IWIL的基礎(chǔ)上,使用端到端的方式訓(xùn)練,通過占有率度量匹配,使策略分布接近最優(yōu)策略分布.

        (3)CAIL[10].采用自適應(yīng)的權(quán)重系數(shù)優(yōu)化方式,未針對(duì)次優(yōu)專家樣本和最優(yōu)專家樣本的特征分布差異做出特定優(yōu)化.

        3.4 對(duì)比實(shí)驗(yàn)

        本節(jié)將GLANCE的實(shí)驗(yàn)效果和近年同類算法進(jìn)行橫向?qū)Ρ?GAIL和AIRL直接從混合專家樣本中進(jìn)行學(xué)習(xí).T-REX和D-REX需要預(yù)先排好相對(duì)順序的專家樣本對(duì),因此本文提供和GLANCE中評(píng)估數(shù)據(jù)集相同數(shù)量的專家樣本對(duì).D-REX需要額外提供噪聲擾動(dòng)的專家樣本,因此本文按照文獻(xiàn)[17]提供相應(yīng)的噪聲樣本.另外,本文選用AIRL作為2IWIL、IC-GAIL和CAIL的基礎(chǔ)算法.

        本文使用PPO[26]作為專家策略進(jìn)行數(shù)據(jù)采集,也可選用TRPO(Trust Region Policy Optimiza-tion)[27]、SAC(Soft Actor-Critic)[28]或其它策略梯度優(yōu)化算法.特征提取器、特征判別器、策略網(wǎng)絡(luò)、獎(jiǎng)勵(lì)函數(shù)網(wǎng)絡(luò)等架構(gòu)均為兩層全連接網(wǎng)絡(luò),激活函數(shù)選擇ReLU[29].

        訓(xùn)練與評(píng)估都在NVIDIA A100 GPU上完成, 算法通過PyTorch[30]框架進(jìn)行部署.

        為了保證實(shí)驗(yàn)對(duì)照的公平性,所有實(shí)驗(yàn)均在相同數(shù)據(jù)集上設(shè)置5個(gè)隨機(jī)種子,通過運(yùn)行后得到的平均值進(jìn)行性能對(duì)比.在每個(gè)測試環(huán)境上執(zhí)行2 000 000步訓(xùn)練,并記錄策略生成軌跡的獎(jiǎng)勵(lì)回報(bào)隨訓(xùn)練步數(shù)的變化情況,具體如圖4所示.由圖可以直觀看到,待算法收斂后,GLANCE的訓(xùn)練結(jié)果均最優(yōu).

        (a)Ant (b)Swimmer

        各算法收斂后的累計(jì)期望回報(bào)平均值如表2所示,表中黑體數(shù)字表示最優(yōu)值.由表可見,D-REX、T-REX由于無法獲得原論文實(shí)驗(yàn)設(shè)定下的大量人工標(biāo)注相對(duì)排序的專家樣本,性能大幅衰減,整體處于落后水平.GAIL和AIRL由于算法本身沒有針對(duì)混合專家樣本做出特定的優(yōu)化,性能表現(xiàn)也相對(duì)較差.CAIL在所有的測試環(huán)境中的性能表現(xiàn)均不及GLANCE,這驗(yàn)證特征提取器模塊及噪聲對(duì)比估計(jì)學(xué)習(xí)范式的有效性.

        綜上所述,在混合專家樣本的實(shí)驗(yàn)設(shè)定下,在相同規(guī)模的數(shù)據(jù)集及相同網(wǎng)絡(luò)參數(shù)設(shè)定的訓(xùn)練中,GLANCE取得最優(yōu)的性能表現(xiàn).

        表2 各算法在MuJoCo仿真環(huán)境中的累計(jì)期望回報(bào)

        3.5 消融實(shí)驗(yàn)

        本節(jié)分別針對(duì)特征提取器、權(quán)重系數(shù)優(yōu)化及評(píng)估數(shù)據(jù)集規(guī)模進(jìn)行消融實(shí)驗(yàn),驗(yàn)證上述模塊在GLANCE中的有效性.特征提取器的作用在于對(duì)次優(yōu)專家樣本的狀態(tài)表征進(jìn)行重分布,使其可以更加接近最優(yōu)專家樣本的狀態(tài)分布,提升數(shù)據(jù)質(zhì)量,進(jìn)而提升整個(gè)算法的性能表現(xiàn).

        為了驗(yàn)證特征提取器的有效性,本文在Ant、Reacher、Swimmer、HalfCheetah環(huán)境中分別對(duì)GLANCE和去除特征提取器的GLANCE(記為GLANCE-Off)進(jìn)行對(duì)比實(shí)驗(yàn),累計(jì)期望回報(bào)隨訓(xùn)練步數(shù)變化的曲線如圖5所示.由圖分析可知,在算法訓(xùn)練達(dá)到收斂之后,GLANCE的性能明顯優(yōu)于GLANCE-Off.

        (a)Ant (b)Reacher

        GLANCE和GLANCE-Off收斂后的累計(jì)期望回報(bào)的平均值如表3所示.由表可知,去除特征提取器后,雖然算法仍能達(dá)到收斂,但性能受到不同程度的損失,因此特征提取器模塊在 GLANCE中的作用是不可或缺的.

        表3 有無特征提取器的累計(jì)期望回報(bào)

        權(quán)重系數(shù)的作用在于進(jìn)一步區(qū)分特征提取之后的樣本,使品質(zhì)更高的樣本對(duì)應(yīng)的權(quán)重系數(shù)更高,在模仿學(xué)習(xí)的損失計(jì)算中占有更高的比重.讓模仿學(xué)習(xí)在優(yōu)化過程中著重于對(duì)最優(yōu)專家樣本的優(yōu)化,并盡可能多而有效地利用次優(yōu)專家樣本提升算法性能.

        為了驗(yàn)證可學(xué)習(xí)權(quán)重系數(shù)的有效性,本文在Ant、Reacher、Swimmer、HalfCheetah環(huán)境中分別使用GLANCE、初始化為1的相同權(quán)重系數(shù)(記為GLANCE-Same)、滿足標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)權(quán)重系數(shù)(記為GLANCE-Random)進(jìn)行實(shí)驗(yàn)對(duì)比,累計(jì)期望回報(bào)隨訓(xùn)練步數(shù)變化的曲線如圖6所示.由圖分析可知,在算法訓(xùn)練達(dá)到收斂之后,GLANCE性能表現(xiàn)最優(yōu),GLANCE-Same次之,GLANCE-Random表現(xiàn)最差.

        (a)Ant (b)Reacher

        算法收斂后的平均累計(jì)期望回報(bào)如表4所示.由表分析可知,相比于固定相同的權(quán)重系數(shù)以及隨機(jī)分布的權(quán)重系數(shù),可優(yōu)化的權(quán)重系數(shù)可顯著提高GLANCE性能.

        表4 不同權(quán)重系數(shù)的累計(jì)期望回報(bào)

        GLANCE的權(quán)重訓(xùn)練過程依賴評(píng)估數(shù)據(jù)集.評(píng)估數(shù)據(jù)集包含已知相對(duì)排序的專家樣本,用于評(píng)估當(dāng)前模仿學(xué)習(xí)的訓(xùn)練效果.在現(xiàn)實(shí)任務(wù)場景中,專家樣本相對(duì)排序往往依賴人工標(biāo)注,出于對(duì)人工成本的考慮,難以獲取較大規(guī)模的評(píng)估數(shù)據(jù)集,因此本文設(shè)計(jì)消融實(shí)驗(yàn),探究評(píng)估數(shù)據(jù)集規(guī)模對(duì)算法性能的影響.除了GLANCE以外,依賴已標(biāo)注的相對(duì)排序的專家樣本進(jìn)行訓(xùn)練的算法還包括2IWIL、IC-GAIL和T-REX.2IWIL和IC-GAIL需要專家樣本的真實(shí)獎(jiǎng)勵(lì)作為先驗(yàn)知識(shí),將每個(gè)專家樣本的真實(shí)獎(jiǎng)勵(lì)經(jīng)過歸一化后作為權(quán)重系數(shù)對(duì)數(shù)據(jù)集樣本進(jìn)行重分布,并進(jìn)行對(duì)抗生成式訓(xùn)練.T-REX依賴相對(duì)排序的先驗(yàn)知識(shí)作為監(jiān)督信號(hào),使用Luce-Shephard Choice Rule[31]作為損失函數(shù)訓(xùn)練獎(jiǎng)勵(lì)函數(shù),再將訓(xùn)練好的獎(jiǎng)勵(lì)函數(shù)投放到前向強(qiáng)化學(xué)習(xí)中進(jìn)行后續(xù)的學(xué)習(xí).

        為此本文在Reacher環(huán)境中,分別使用混合專家樣本中1%,2%,10%,20%,50%,100%的數(shù)據(jù),對(duì)其相對(duì)排序進(jìn)行標(biāo)注,并將對(duì)比算法在不同規(guī)模的標(biāo)注數(shù)據(jù)集上進(jìn)行訓(xùn)練,結(jié)果如表5所示.由表分析可知,T-REX對(duì)評(píng)估數(shù)據(jù)集的規(guī)模具有較高要求,性能隨評(píng)估數(shù)據(jù)集的規(guī)模增大而顯著升高,在現(xiàn)實(shí)任務(wù)場景中難以獲得大規(guī)模標(biāo)注數(shù)據(jù),這也是T-REX的缺陷之一.2IWIL、IC-GAIL和GLANCE在標(biāo)注數(shù)據(jù)規(guī)模達(dá)到全部數(shù)據(jù)規(guī)模的10%時(shí)便取得較好的性能表現(xiàn),因此性能表現(xiàn)不受評(píng)估數(shù)據(jù)集規(guī)模這一客觀條件的約束,更節(jié)省標(biāo)注數(shù)據(jù)的人力成本.GLANCE的性能遠(yuǎn)優(yōu)于2IWIL和IC-GAIL,表現(xiàn)最佳.

        表5 Reacher環(huán)境中各算法在不同規(guī)模評(píng)估數(shù)據(jù)集上的累計(jì)期望回報(bào)

        4 結(jié) 束 語

        本文提出基于噪聲對(duì)比估計(jì)的權(quán)重自適應(yīng)對(duì)抗生成式模仿學(xué)習(xí)算法(GLANCE).以互信息作為約束,對(duì)專家樣本進(jìn)行噪聲對(duì)比估計(jì)以訓(xùn)練特征提取器.交替進(jìn)行模仿學(xué)習(xí)和權(quán)重系數(shù)優(yōu)化,通過改良數(shù)據(jù)分布提高模仿學(xué)習(xí)算法的性能上限.在多個(gè)環(huán)境上的實(shí)驗(yàn)證實(shí)GLANCE在混合專家樣本設(shè)定下的性能較優(yōu),并且僅需要少量人工標(biāo)注數(shù)據(jù)(5%),便可取得優(yōu)異的性能表現(xiàn).目前GLANCE仍依賴人工標(biāo)注排序作為先驗(yàn)知識(shí),因此如何從無監(jiān)督的混合專家樣本中進(jìn)行數(shù)據(jù)挖掘從而提升模仿學(xué)習(xí)性能是今后的研究方向之一.

        猜你喜歡
        特征提取權(quán)重專家
        致謝審稿專家
        權(quán)重常思“浮名輕”
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
        Bagging RCSP腦電特征提取算法
        請(qǐng)叫我專家
        專家面對(duì)面
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        層次分析法權(quán)重的計(jì)算:基于Lingo的數(shù)學(xué)模型
        河南科技(2014年15期)2014-02-27 14:12:51
        无遮挡1000部拍拍拍免费| 第十色丰满无码| 一本大道综合久久丝袜精品| 国产精品国产三级国产专区不| 国产国语亲子伦亲子| 东方aⅴ免费观看久久av| 久久精品国产6699国产精| 亚洲最大的av在线观看| 三级国产女主播在线观看| 国产亚洲精品高清视频| 日本一二三区在线观看视频| 女人让男人桶爽30分钟| 欧美日本国产三级在线| 久草久热这里只有精品| 久久黄色国产精品一区视频| 欧美中日韩免费观看网站| 在线成人福利| 偷拍与自偷拍亚洲精品| 色翁荡熄又大又硬又粗又动态图| 日韩人妻无码一区二区三区| 中文字幕乱码亚洲无线精品一区| av一区二区三区观看| 国产在线精品一区二区三区| 日本老熟欧美老熟妇| 亚洲日本国产乱码va在线观看| 一区二区高清免费日本| 人妻 日韩 欧美 综合 制服| chinesefreexxxx国产麻豆| 国产三级国产精品国产专区| 国产精品午夜夜伦鲁鲁| 久久久国产精品黄毛片| 婷婷第四色| 中文字幕在线亚洲精品一区| 97人妻人人做人碰人人爽| 久久久久无码精品亚洲日韩| 天堂女人av一区二区| 丰满精品人妻一区二区 | 亚洲人成网站久久久综合| 亚洲精品在线97中文字幕| 在线看无码的免费网站| 欧美成人小视频|