亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于示范主動(dòng)采樣的行為克隆方法

        2021-11-10 09:09:34黃文宇黃圣君
        關(guān)鍵詞:動(dòng)作智能策略

        黃文宇,黃圣君

        (南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院/人工智能學(xué)院,南京 211106)

        強(qiáng)化學(xué)習(xí)[1]旨在為智能決策任務(wù)學(xué)習(xí)出有效的策略,使智能體獲得的長遠(yuǎn)獎(jiǎng)賞最大。傳統(tǒng)的強(qiáng)化學(xué)習(xí)更多關(guān)注離散狀態(tài)和動(dòng)作空間的任務(wù),難以在狀態(tài)和動(dòng)作連續(xù)的任務(wù)上應(yīng)用。深度強(qiáng)化學(xué)習(xí)通過將策略用深度神經(jīng)網(wǎng)絡(luò)來表示可以有效地解決這一問題。最近研究表明,深度強(qiáng)化學(xué)習(xí)在很多富有挑戰(zhàn)性的任務(wù)上都取得了成功,例如圍棋[2]、游戲[3]和模擬機(jī)器人任務(wù)[4?5]。但是深度強(qiáng)化學(xué)習(xí)在訓(xùn)練智能體的策略時(shí)需要與環(huán)境進(jìn)行大量的交互,因此面臨著訓(xùn)練效率低下的挑戰(zhàn)。模仿學(xué)習(xí)通過從專家的示范中學(xué)習(xí)可以有效應(yīng)對(duì)這一挑戰(zhàn),其主要思想是從專家的示范中去模仿專家的行為,因而無需與環(huán)境進(jìn)行交互。

        模仿學(xué)習(xí)大體上可被分為兩大類:行為克隆和逆強(qiáng)化學(xué)習(xí)。行為克?。??7]運(yùn)用監(jiān)督學(xué)習(xí)的方式直接從示范中學(xué)得一個(gè)策略,其將狀態(tài)視為監(jiān)督學(xué)習(xí)中的示例,將動(dòng)作視為監(jiān)督學(xué)習(xí)中的標(biāo)簽。與行為克隆直接學(xué)得一個(gè)策略不同,逆強(qiáng)化學(xué)習(xí)[8?9]首先學(xué)得一個(gè)獎(jiǎng)賞函數(shù),然后通過標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)算法學(xué)習(xí)策略。生成對(duì)抗模仿學(xué)習(xí)[10]是當(dāng)前較為前沿的模仿學(xué)習(xí)方法,其主要思想是同時(shí)學(xué)習(xí)策略和判別器。判別器的目標(biāo)是將專家生成的狀態(tài)?動(dòng)作對(duì)與智能體生成的狀態(tài)?動(dòng)作對(duì)有效區(qū)分,而智能體策略的目標(biāo)是混淆判別器,使得判別器將智能體生成的狀態(tài)?動(dòng)作對(duì)判別為專家生成的狀態(tài)?動(dòng)作對(duì)。

        盡管模仿學(xué)習(xí)可以緩解訓(xùn)練效率低下的問題,但是現(xiàn)有的模仿學(xué)習(xí)算法需要獲得大量的專家示范作為訓(xùn)練數(shù)據(jù),在實(shí)際任務(wù)中往往導(dǎo)致高昂的示范代價(jià)。例如Waymo 公司為了訓(xùn)練自動(dòng)駕駛的智能體收集了3 000 萬個(gè)專家駕駛的數(shù)據(jù),專家提供每一個(gè)數(shù)據(jù)都需付出時(shí)間上的代價(jià),在提供路況不好的駕駛數(shù)據(jù)時(shí)更是要面對(duì)安全風(fēng)險(xiǎn)。主動(dòng)學(xué)習(xí)[11]是監(jiān)督學(xué)習(xí)任務(wù)中降低標(biāo)注成本的一類主流方法。它通過挑選最有價(jià)值的樣本向?qū)<也樵?,可以有效地降低?xùn)練所需樣本。關(guān)于主動(dòng)學(xué)習(xí)的大量研究都專注于如何設(shè)計(jì)好的選擇標(biāo)準(zhǔn)以便更好地計(jì)算樣本的價(jià)值。不確定性采樣[12?13]是最常用的一種選擇策略,它傾向于選擇分類器的預(yù)測(cè)最不確定的樣本。委員會(huì)采樣[14?15]是另一種常用的選擇策略,它從訓(xùn)練集的多個(gè)子集中學(xué)習(xí)多個(gè)模型,然后選取多個(gè)模型的預(yù)測(cè)分歧最大樣本進(jìn)行查詢。最近,有一些工作試圖將樣本的信息量與代表性相結(jié)合來評(píng)估樣本的價(jià)值[16?17]。

        目前主動(dòng)學(xué)習(xí)多應(yīng)用于傳統(tǒng)的分類任務(wù),應(yīng)用于模仿學(xué)習(xí)的工作較少。文獻(xiàn)[18]將主動(dòng)學(xué)習(xí)應(yīng)用于逆強(qiáng)化學(xué)習(xí),選取獎(jiǎng)賞最不確定的狀態(tài)并查詢對(duì)應(yīng)的動(dòng)作。但該方法在現(xiàn)實(shí)任務(wù)中的應(yīng)用存在較大局限性,因?yàn)閷?duì)于專家而言,提供一條軌跡比起提供單個(gè)動(dòng)作更方便。以駕駛為例,選取道路上的某個(gè)點(diǎn),專家進(jìn)行一段時(shí)間的控制顯然比只做一個(gè)動(dòng)作方便。文獻(xiàn)[19]將主動(dòng)學(xué)習(xí)應(yīng)用于自動(dòng)導(dǎo)航任務(wù)中,它從起點(diǎn)?終點(diǎn)對(duì)的候選集中挑選起點(diǎn)?終點(diǎn)對(duì),查詢起點(diǎn)至終點(diǎn)的路徑,然而在其他任務(wù)中無法保證專家的示范軌跡一定會(huì)通過終點(diǎn)。同時(shí),以上的兩個(gè)工作都是應(yīng)用在逆強(qiáng)化學(xué)習(xí)中,難以直接應(yīng)用于行為克隆方法。本文提出了一種基于示范主動(dòng)采樣的行為克隆方法,目的是以更少的示范代價(jià)學(xué)得一個(gè)有效的策略。具體地,本文提出了不確定性采樣和不相似性采樣兩種方法,挑選完?duì)顟B(tài)后向?qū)<也樵児潭ㄩL度的示范軌跡,并進(jìn)一步用于策略更新。

        1 背景知識(shí)

        本文方法中的基礎(chǔ)模型涉及到近端策略優(yōu)化算法和行為克隆方法,因此本節(jié)先對(duì)其進(jìn)行簡要介紹。

        1.1 近端策略優(yōu)化算法

        1.2 行為克隆

        行為克隆是一種通過對(duì)示范集合運(yùn)用監(jiān)督學(xué)習(xí),從而直接學(xué)習(xí)智能體策略的算法。設(shè)示范集合D由n個(gè) 狀 態(tài)?動(dòng) 作 對(duì) 構(gòu) 成 ,即D={(s1,a1),(s2,a2),…,(sn,an)},其中si為狀態(tài),ai為專家示范的動(dòng)作。設(shè)智能體的策略為π,智能體的策略可通過最小化如下目標(biāo)函數(shù)得到

        2 基于主動(dòng)學(xué)習(xí)的行為克隆方法

        本文提出的基于主動(dòng)采樣的行為克隆方法框架如圖1 所示。在每一輪迭代過程中,該方法首先從示范集合D中訓(xùn)練智能體的策略π,然后從候選集Us中挑選最有價(jià)值的狀態(tài)s1,并向?qū)<也樵兪痉盾壽E,專家以該狀態(tài)為起點(diǎn),返回一條長度為n的示范軌跡d={(s1,a1),…,(sn,an)}。之后該軌跡中的狀態(tài)?動(dòng)作對(duì)會(huì)被加入示范集合中,用作策略的重新訓(xùn)練。

        圖1 基于主動(dòng)采樣的行為克隆方法框架Fig.1 Framework of behavioval cloning with active sampling

        2.1 不確定性采樣

        第1 種選擇策略是從候選集中選取當(dāng)前策略的決策動(dòng)作最不確定的狀態(tài)。其動(dòng)機(jī)是,如果策略對(duì)于某狀態(tài)的動(dòng)作越不確定,那么以該狀態(tài)為起點(diǎn)的軌跡對(duì)學(xué)習(xí)策略的幫助越大。以自動(dòng)駕駛為例,假設(shè)任務(wù)的目的是訓(xùn)練一個(gè)能夠有效駕駛的智能體,如果該智能體只在直道上訓(xùn)練過,那么它在遇到直道時(shí)將更確定如何控制。相反地,如果它遇到一個(gè)彎道,那么對(duì)于在彎道如何控制一定會(huì)有較大的不確定性。通過不確定性采樣,一個(gè)彎道更有可能被挑選到,以其為起點(diǎn)的示范軌跡會(huì)對(duì)策略的性能提升作用更大。

        在傳統(tǒng)的主動(dòng)學(xué)習(xí)中,不確定性利用分類器的預(yù)測(cè)去計(jì)算,如以各類別概率的熵作為不確定性,或者以最大的類別概率與第二大類別概率的差衡量不確定性[20]。然而該采樣策略無法直接運(yùn)用于強(qiáng)化學(xué)習(xí)問題,因?yàn)閷?duì)于連續(xù)動(dòng)作的任務(wù)不存在類似的分類器??紤]到智能體的隨機(jī)策略由動(dòng)作分布來表示,本文基于動(dòng)作分布估計(jì)策略的不確定性,以動(dòng)作分布的標(biāo)準(zhǔn)差作為不確定性的標(biāo)準(zhǔn),有

        式中:std(?)為標(biāo)準(zhǔn)差函數(shù),用于計(jì)算分布的標(biāo)準(zhǔn)差;π(a|s)為狀態(tài)s下動(dòng)作a的概率分布。

        對(duì)于多維動(dòng)作,動(dòng)作向量的不確定性可視為所有動(dòng)作元素的不確定性之和。在本文模型中,動(dòng)作向量的每個(gè)元素ai都遵循正態(tài)分布N(μi,σi),μ、σ分別為均值和標(biāo)準(zhǔn)差,因此ai的不確定性可用σ衡量,狀態(tài)s的不確定性為

        式中m為動(dòng)作向量的維度。計(jì)算完候選集中所有狀態(tài)的不確定性之后,不確定性最大的狀態(tài)會(huì)被挑選出來,以讓專家提供最有價(jià)值的示范軌跡。

        2.2 不相似性采樣

        第2 種策略挑選和示范集合中已有狀態(tài)最不相似的狀態(tài)。其動(dòng)機(jī)是如果某狀態(tài)和示范集合中的狀態(tài)很相似,那么智能體可能已經(jīng)學(xué)會(huì)如何在該狀態(tài)進(jìn)行決策,因此以該狀態(tài)為起點(diǎn)的示范軌跡對(duì)智能體的幫助不大。再次以自動(dòng)駕駛為例,假如智能體的策略已經(jīng)在直道上表現(xiàn)得很好,如果遇到的狀態(tài)仍然是一條直道,那么對(duì)應(yīng)的示范軌跡對(duì)于學(xué)習(xí)策略的幫助很小。相反地,如果某狀態(tài)是一個(gè)障礙物,由于策略從未在與該狀態(tài)相似的狀態(tài)下訓(xùn)練過,因此對(duì)應(yīng)的示范軌跡對(duì)于策略的提升有更大的作用。

        考慮到不相似的狀態(tài)不太可能有相同的動(dòng)作,因此用動(dòng)作的差異來衡量狀態(tài)的差異。對(duì)于隨機(jī)策略來說,兩個(gè)動(dòng)作分布之間的距離是一個(gè)衡量分布差異的很好的標(biāo)準(zhǔn)。對(duì)于計(jì)算兩個(gè)分布之間的距離,已經(jīng)有不少的研究工作,比如KL 散度[21]和最大均值差異(Maximum mean discrepancy,MMD)距離[22]。在這些方法中,本文選用Wasser?stein 距離[23]作為度量距離的標(biāo)準(zhǔn)。具體來說,為了計(jì)算狀態(tài)s與示范集合中狀態(tài)的不相似度,需依次計(jì)算該狀態(tài)與集合中每個(gè)狀態(tài)的不相似度并求均值

        式中:n為集合中狀態(tài)的數(shù)量;W2為兩個(gè)分布間的2?Wasserstein 距離,定義為

        式中:p和q為兩個(gè)概率分布,且x~p,y~q。在本文模型中,以多元正態(tài)分布來表示隨機(jī)策略,文獻(xiàn)[24]證明了兩個(gè)多元正態(tài)分布的2?Wasserstein 距離的計(jì)算方式為

        式中:x~N(μx,Σx),y~N(μy,Σy);μ為分布的均值向量;Σ為分布的協(xié)方差矩陣;tr(?)為矩陣的跡。在本文的模型中,任意兩個(gè)動(dòng)作元素的協(xié)方差為0,因此Σx和Σy都為對(duì)角矩陣,式(8)可以改寫為

        算法1 總結(jié)了本文提出的方法。算法的輸入是初始的示范集合D,包含了少量的示范,以及未標(biāo)記狀態(tài)集Us,示范軌跡長度H,專家的策略πE和迭代次數(shù)T。在每輪迭代中,算法首先根據(jù)不確定性采樣或者不相似性采樣選擇狀態(tài),然后專家以提供的狀態(tài)為起點(diǎn)做示范,示范結(jié)束后返回一條長度為H的示范軌跡;接著示范軌跡中的狀態(tài)?動(dòng)作對(duì)會(huì)被加入示范集合中;同時(shí),示范集合中的狀態(tài)會(huì)從候選集中移除;最后更新智能體的策略。

        算法1 面向行為克隆的主動(dòng)學(xué)習(xí)方法

        3 實(shí)驗(yàn)過程和結(jié)果

        3.1 任務(wù)介紹

        實(shí)驗(yàn)中所有的任務(wù)都在OpenAI Gym[25]環(huán)境庫中定義,并在MuJoCo[26]上模擬。下面對(duì)其進(jìn)行簡單介紹。

        (1)HalfCheetah。此任務(wù)目標(biāo)是讓一個(gè)2 維獵豹跑得盡可能地快(https://gym.openai.com/en?vs/HalfCheetah?v2/)。在這個(gè)任務(wù)中,狀態(tài)由17維的向量表示,動(dòng)作由6 維的向量表示。

        (2)Hopper。此任務(wù)目的是讓一個(gè)只有一條腿的機(jī)器人盡可能快地向前跳(https://gym.ope?nai.com/envs/Hopper?v2/)。狀態(tài)由11 維向量表示,動(dòng)作由3 維向量表示。

        (3)Swimmer。此任務(wù)智能體是一個(gè)有3 個(gè)關(guān)節(jié)的游泳機(jī)器人,它的目標(biāo)是在粘性液體中盡可能快 地 游 泳(https://gym. openai. com/envs/Swimmer?v2/)。狀態(tài)由8 維向量表示,動(dòng)作由2 維向量表示。

        (4)Walker2d。此任務(wù)目的是讓一個(gè)2 維的雙足動(dòng)物機(jī)器人盡可能快地向前走(https://gym.openai.com/envs/Walker2d?v2/)。在這項(xiàng)任務(wù)中,狀態(tài)由17 維的向量表示,動(dòng)作由6 維的向量表示。

        3.2 實(shí)驗(yàn)設(shè)置

        專家和智能體策略均由3 層神經(jīng)網(wǎng)絡(luò)構(gòu)成,每層均為全連接層,激活函數(shù)為tanh,其中隱藏層的神經(jīng)元數(shù)量為100,輸入層的神經(jīng)元數(shù)量等于狀態(tài)的維度,輸出層神經(jīng)元的數(shù)量2 倍于動(dòng)作的維度,其中一半神經(jīng)元輸出每個(gè)動(dòng)作元素的均值,另一半神經(jīng)元輸出每個(gè)動(dòng)作元素的標(biāo)準(zhǔn)差。在實(shí)驗(yàn)中先用PPO 算法訓(xùn)練策略作為專家策略,以用來模擬專家提供示范軌跡。在用行為克隆算法訓(xùn)練智能體的策略時(shí),用Adam 優(yōu)化器進(jìn)行優(yōu)化,每次迭代選取的Batch 大小為128,算法迭代10 000 次。由于任務(wù)的狀態(tài)均為連續(xù)向量,狀態(tài)空間無窮大,因此先用專家策略生成部分示范軌跡,然后將軌跡中的狀態(tài)作為候選集。

        由于本文提出的是一個(gè)全新問題,沒有相關(guān)方法可以直接應(yīng)用到該問題中,因此實(shí)驗(yàn)部分將提出的方法不確定性采樣(Uncertainty)和不相似性采樣(Dissimilarity)與隨機(jī)采樣(Random)對(duì)比。對(duì)于每個(gè)方法而言,其初始示范集合均一樣,訓(xùn)練完智能體的策略后,將學(xué)得的智能體與環(huán)境進(jìn)行交互,生成50 條長為1 000 的軌跡,計(jì)算50 條軌跡的平均累積獎(jiǎng)賞作為策略的性能,每個(gè)算法均進(jìn)行5次實(shí)驗(yàn),每次實(shí)驗(yàn)都隨機(jī)初始化示范集合,然后取5 次的平均值作為最終的性能。

        為了驗(yàn)證提出方法的魯棒性,在每個(gè)任務(wù)上,均設(shè)置了不同的示范軌跡的長度,在HalfCheetah任務(wù)上,將長度設(shè)置為50,100 和500;在Hopper上,軌跡的長度同樣設(shè)置為50,100 和500;在Swimmer 任務(wù)上,軌跡的長度設(shè)置為20,100 和500;在Walker2d 任務(wù)上,長度設(shè)置為300,500 和1 000。

        隨著迭代次數(shù)的增加,將所查詢的示范軌跡的總長度作為橫坐標(biāo),將每輪迭代完成后,策略從環(huán)境獲得的累計(jì)獎(jiǎng)賞作為縱坐標(biāo),繪制了不同方法所對(duì)應(yīng)的獎(jiǎng)賞曲線,并對(duì)比在查詢了同樣長度的示范軌跡后,基于不同采樣方法所訓(xùn)練得到的策略性能。

        3.3 實(shí)驗(yàn)結(jié)果

        圖2 是實(shí)驗(yàn)的結(jié)果,其中:每1 行對(duì)應(yīng)1 個(gè)任務(wù),每1 行的每1 列對(duì)應(yīng)1 種軌跡長度的設(shè)置;紅線對(duì)應(yīng)不確定性采樣,藍(lán)線對(duì)應(yīng)不相似性采樣,黑線對(duì)應(yīng)隨機(jī)采樣。從圖2 中可以很容易看出,在所有任務(wù)中,在任意長度設(shè)置下,本文所提出的兩種方法都顯著地優(yōu)于對(duì)比方法,其中不確定性采樣的效果最好。在查詢了同樣長度軌跡后,基于不確定性采樣和不相似性采樣訓(xùn)練得到的策略,其獲得的獎(jiǎng)賞遠(yuǎn)大于基于隨機(jī)采樣的策略獲得的獎(jiǎng)賞??梢园l(fā)現(xiàn),本文所提出的方法以更少的示范學(xué)得了性能更優(yōu)的策略,這表明提出的方法可以有效地降低示范代價(jià)。

        圖2 4 個(gè)任務(wù)上的累計(jì)獎(jiǎng)賞對(duì)比結(jié)果Fig.2 Comparison results of accumulated reward on four tasks

        3.4 討 論

        對(duì)于本文提出的方法,如果將其在軌跡長度更短時(shí)的表現(xiàn)與其在軌跡長度更長時(shí)的表現(xiàn)對(duì)比,可以發(fā)現(xiàn)本文方法在軌跡長度更短時(shí)的效果更優(yōu)越,一個(gè)可能的原因是更長的軌跡會(huì)有更大的概率含有冗余信息。以自動(dòng)駕駛為例,假如學(xué)得的策略已經(jīng)可以在直道上進(jìn)行有效控制,若此時(shí)挑選出的狀態(tài)是一個(gè)障礙物,而障礙物后面又是一條直道,那么更長的軌跡就會(huì)有更大的概率包含后面的直道,從而有更大的概率含有冗余信息。

        4 結(jié)論

        本文提出了基于示范主動(dòng)采樣的行為克隆方法,目的在于減少行為克隆算法的示范代價(jià)。具體的,本文提出了不確定性采樣和不相似性采樣兩種方法,試圖挑選出對(duì)于策略性能提升幫助最大的示范軌跡。實(shí)驗(yàn)結(jié)果表明,本文方法的效果顯著優(yōu)于對(duì)比方法,其中不確定性采樣的效果最好。相比隨機(jī)采樣,本文方法顯著地降低了示范代價(jià),同時(shí)訓(xùn)練的策略性能更好。在以后的研究工作中,將計(jì)劃設(shè)計(jì)一種自適應(yīng)調(diào)整示范長度的方法,進(jìn)一步提升基于主動(dòng)采樣行為克隆的實(shí)用性。

        猜你喜歡
        動(dòng)作智能策略
        例談未知角三角函數(shù)值的求解策略
        我說你做講策略
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        動(dòng)作描寫要具體
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        畫動(dòng)作
        動(dòng)作描寫不可少
        人妻久久一区二区三区| 精品蜜桃视频在线观看| 精品久久久久久久无码| 国产精品第一二三区久久蜜芽| 99热在线精品播放| 国产女高清在线看免费观看| 激情 一区二区| 国产高清丝袜美腿视频在线观看| 中文字幕人妻乱码在线| 综合成人亚洲网友偷自拍| 精品人妻av一区二区三区麻豆| 欧美人妻aⅴ中文字幕| 亚洲日韩国产一区二区三区在线 | 国产97色在线 | 免| 蜜桃精品国产一区二区三区| 日本一区二区三区丰满熟女| 精品国产a一区二区三区v| 丁香五月亚洲综合在线| 亚洲熟妇自偷自拍另欧美| 国产97在线 | 亚洲| 小12箩利洗澡无码视频网站| 精品国产福利在线观看网址2022| AV熟妇导航网| 久久本道久久综合一人| 中文字幕av久久亚洲精品| 国产偷国产偷精品高清尤物| www国产无套内射com| 99久久精品免费看国产情侣 | 国产高跟丝袜在线诱惑| 亚洲国产中文字幕在线视频综合 | 伊人网综合| 久久久久亚洲AV无码专区一区| 色综合久久五十路人妻| 亚洲色图在线免费视频| 久久精品国产自在天天线| 亚洲精品乱码久久久久久蜜桃图片| 亚洲午夜精品久久久久久人妖| 日本一级淫片免费啪啪| 人妻少妇艳情视频中文字幕| 亚洲欧美综合精品成人网站| 人妻少妇久久中文字幕一区二区|