強(qiáng)化學(xué)習(xí)中的策略重用:研究進(jìn)展

2022-03-11 01:50:48唐文泉

系統(tǒng)工程與電子技術(shù) 2022年3期

何立, 沈亮, 李輝,2,*, 王壯, 唐文泉

(1. 四川大學(xué)計(jì)算機(jī)(軟件)學(xué)院, 四川成都 610065; 2. 四川大學(xué)視覺合成圖形圖像技術(shù)國家級重點(diǎn)實(shí)驗(yàn)室, 四川成都 610065; 3. 江西洪都航空工業(yè)集團(tuán)有限責(zé)任公司, 江西南昌 330024)

0 引言

深度學(xué)習(xí)(deep learning, DL)被認(rèn)為是解決連續(xù)決策任務(wù)的一個有原則和有效的方法,在這個方法中,學(xué)習(xí)智能體通過與環(huán)境進(jìn)行交互,不斷試錯來提高其性能。近年來,隨著強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)的快速發(fā)展,將RL算法嵌入DL框架組合而成的新結(jié)構(gòu)深度RL(deep RL, DRL)進(jìn)一步推動了RL的發(fā)展。

無論是在學(xué)術(shù)界還是在工業(yè)界,DRL都被廣泛應(yīng)用以解決之前難以解決的任務(wù),比如,其在控制、游戲中的人機(jī)對抗等領(lǐng)域都取得了不錯的成績。尤其是當(dāng)AlphaStar和AlphaGo在與頂級人類玩家的對弈中取得勝利,這些足以說明DRL取得的巨大成功。

雖然RL在不斷發(fā)展和進(jìn)步,但在將其應(yīng)用到諸多場景中的時候,依然面臨著困難和挑戰(zhàn),例如高采樣復(fù)雜度和脆弱的收斂性等。除此之外,RL問題中的環(huán)境模型一般來說是未知的,智能體只有在保證與環(huán)境充分交互的前提下,才能利用與環(huán)境交互得到的知識來提升自身的性能。由于環(huán)境反饋的信息存在部分可觀測性、獎勵稀疏性、延遲性以及高維度的觀測值和動作空間等問題,智能體在不借助任何先驗(yàn)知識的情況下收斂到最優(yōu)策略是非常困難和耗時的。遷移學(xué)習(xí)(transfer learning, TL)是一種用相關(guān)的、類似的數(shù)據(jù)來訓(xùn)練相似問題的方法,能夠?qū)W(xué)習(xí)到的知識從一個場景遷移到另一個場景。這種利用外部專業(yè)知識來加速智能體的學(xué)習(xí)過程的思想,在很大程度上能夠彌補(bǔ)RL缺乏先驗(yàn)知識的問題。將TL應(yīng)用在RL中的一個顯著效果是保證了RL訓(xùn)練結(jié)果的復(fù)用性和時效性。主要原因是TL能夠復(fù)用現(xiàn)有的知識,不會丟棄已有的大量工作和成果,而這一點(diǎn)是RL無法做到的。此外,對于新問題,TL能夠快速遷移和應(yīng)用已有的成果,體現(xiàn)時效性的優(yōu)勢。

策略重用(policy reuse, PR)作為一種TL方法,通過將源任務(wù)中的最優(yōu)策略遷移到目標(biāo)任務(wù)中來解決上述RL中的問題,也因而成為RL領(lǐng)域的一個熱門研究課題。

本綜述所作的貢獻(xiàn):從策略結(jié)構(gòu)的角度出發(fā),對現(xiàn)有的RL中的PR方法進(jìn)行了總結(jié)、分析和對比,并擴(kuò)展到了DRL和多智能體領(lǐng)域,為研究者提供了新的研究思路和未來研究方向的建議。

1 基本概念

本節(jié)簡述了RL、DRL和PR的基本概念,并且說明了這篇綜述中所需要使用到的一些關(guān)鍵術(shù)語。

1.1 RL

典型的RL問題是訓(xùn)練一個RL智能體與一個滿足馬爾可夫決策過程(Markov decision process,MDP)標(biāo)準(zhǔn)的環(huán)境交互。在每次與環(huán)境的交互中,智能體從初始狀態(tài)開始,識別自身所處的狀態(tài),并遵循某種策略執(zhí)行相應(yīng)的動作,環(huán)境則會產(chǎn)生該“狀態(tài)-動作”對的獎勵。執(zhí)行完動作后,MDP將會依據(jù)轉(zhuǎn)移函數(shù)過渡到下一個狀態(tài)。智能體在與環(huán)境的交互過程中累積折扣獎勵,這一系列的相互作用稱為一個episode。RL問題就是重復(fù)訓(xùn)練大量的episode直至智能體學(xué)習(xí)到最優(yōu)策略。圖1表示RL的基本框架。

圖1 RL基本框架Fig.1 Basic framework of RL

在目前的RL問題中,都是采用MDP來描述RL任務(wù)。MDP表示為一個五元組=〈,,,,〉,其中:是狀態(tài)空間;是動作空間;:××→[0,1]是智能體在狀態(tài)∈下采取動作∈轉(zhuǎn)移到下一個狀態(tài)′∈的概率分布;:×→是智能體在狀態(tài)下采取動作轉(zhuǎn)移到下一個狀態(tài)′所得到的環(huán)境反饋的即時獎勵;是折扣因子,∈(0,1],用于平衡瞬時獎勵和長期獎勵對總獎勵的影響。

(1)

(2)

與狀態(tài)值函數(shù)類似,每個策略還關(guān)聯(lián)一個在狀態(tài)和動作上定義的函數(shù),用于評估“狀態(tài)-動作”對的表現(xiàn),表示為

(3)

(4)

上述兩種方法都是基于值函數(shù)(value based,VB)的RL方法,其中的經(jīng)典算法有Q-learning、Sarsa等。與上述方法不同,基于策略梯度(policy pradient,PG)的方法用參數(shù)化后的策略來替代函數(shù),再用梯度下降方法來近似求解最優(yōu)策略。這類RL方法中的經(jīng)典算法有PG、確定性PG(deterministic PG, DPG)。

1.2 DRL

傳統(tǒng)RL方法常會遭遇“維度災(zāi)難”,即狀態(tài)和動作空間有時候會非常復(fù)雜,×的維度過于龐大。比如Q-learning,通過將“狀態(tài)-動作”對的值存入表格,讀取表格數(shù)據(jù)來進(jìn)行學(xué)習(xí)。一旦×的維度過大,表格的規(guī)模也會相應(yīng)增大,算法迭代收斂的時間就會非常長,甚至無法收斂。除此之外,還有學(xué)習(xí)速度慢、獎勵稀疏和泛化性差等問題。

DRL通過利用深度神經(jīng)網(wǎng)絡(luò)近似值函數(shù)和策略,以解決高維度狀態(tài)和動作空間的問題。深度Q網(wǎng)絡(luò)(deep Q-network,DQN)是一種經(jīng)典的基于值函數(shù)的DRL方法,用神經(jīng)網(wǎng)絡(luò)近似值函數(shù),而且不再用表格去存儲值,取而代之的是用經(jīng)驗(yàn)回放池(experience replay buffer,ERB)存儲智能體與環(huán)境交互后的經(jīng)驗(yàn)單元〈,,,′〉,以便智能體通過從ERB中采樣的方式訓(xùn)練和更新神經(jīng)網(wǎng)絡(luò)參數(shù)。

VB方法的缺點(diǎn)在于難以解決連續(xù)動作空間的問題,PG方法則沒有這方面的困擾。具有代表性的方法如深度DPG (deep DPG, DDPG)。其基于行動者-評論者(actor-critic,AC)框架,包含4個神經(jīng)網(wǎng)絡(luò):Actor當(dāng)前網(wǎng)絡(luò)負(fù)責(zé)策略網(wǎng)絡(luò)參數(shù)的迭代更行,根據(jù)當(dāng)前狀態(tài)選擇動作,與環(huán)境交互生成下一個狀態(tài)′和獎勵;Actor目標(biāo)網(wǎng)絡(luò)定期復(fù)制網(wǎng)絡(luò)參數(shù),根據(jù)從經(jīng)驗(yàn)池采樣的下一狀態(tài)′來選擇下一動作′;Critic當(dāng)前網(wǎng)絡(luò)負(fù)責(zé)價值網(wǎng)絡(luò)參數(shù)的更新,用于計(jì)算當(dāng)前的值;Critic目標(biāo)網(wǎng)絡(luò)定期復(fù)制網(wǎng)絡(luò)參數(shù),計(jì)算目標(biāo)值。除了DDPG,還有異步優(yōu)勢行動者-評論者(asynchronous advantage actor-critic,A3C)算法和近端策略優(yōu)化(proximal policy optimization,PPO)等算法。

1.3 PR

DRL雖然在一定程度上解決了高維度狀態(tài)和動作空間的問題,但是其在解決兩個相似問題的時候,依然需要從零訓(xùn)練,學(xué)習(xí)速度慢、資源消耗大和難以復(fù)用的問題仍然存在。比如現(xiàn)有兩個RL問題,表示為=〈,,,,〉和=〈,,,,〉,這兩個問題之間的差異僅僅在于獎勵函數(shù)。然而狀態(tài)值函數(shù)()和函數(shù)(,)高度依賴MDP,這意味著,無論是基于值的方法還是基于策略的方法,只要問題稍稍改變,()和(,)等過去的知識都不再適用,之前的學(xué)習(xí)結(jié)果就會失效,而重新訓(xùn)練的代價卻是巨大的。對于此類RL問題,高昂的訓(xùn)練代價和事倍功半的效率的缺陷日益突出,這加速了將TL方法應(yīng)用在RL中的進(jìn)程。

PR作為一種可以遷移RL訓(xùn)練結(jié)果的TL方法,通過重用過去的經(jīng)驗(yàn)知識來加速新任務(wù)的學(xué)習(xí),很大程度上解決了上述RL面臨的問題。

為了便于說明和理解,將MDP等同于領(lǐng)域、任務(wù)或環(huán)境等概念。

PR的雛形源于文獻(xiàn)[17],其所提出的方法基于行為遷移(behavior transfer,BT),通過將學(xué)習(xí)到的值函數(shù)從一個任務(wù)轉(zhuǎn)移到另一個相似的任務(wù)來加速學(xué)習(xí)。將給定的任務(wù)1的初始策略定義為

(,,,,,)?

(5)

此策略從開始。則使用作為與任務(wù)1相似的任務(wù)2的初始策略,來學(xué)習(xí)任務(wù)2的最優(yōu)策略:

(,,,,,π)?

(6)

這種方法需要對值函數(shù)進(jìn)行轉(zhuǎn)換,存在一定的局限性,但是對后續(xù)PR方法的發(fā)展起到很大的啟發(fā)作用。

(7)

式中:,分別表示最大episode數(shù)、每個episode中的最大步數(shù);,表示第個episode中第步智能體接收的瞬時獎勵。

PR過程中,智能體與環(huán)境的交互過程如圖2所示,其中紅色虛線圓圈中的MDP元素可能會在源和目標(biāo)任務(wù)之間發(fā)生變化。

圖2 智能體與環(huán)境交互過程Fig.2 Process of interaction between agent and environment

2 任務(wù)間映射的方法

在介紹PR的方法之前,首先需要明確:PR效果的好壞很大程度上決定于源任務(wù)和目標(biāo)任務(wù)之間的相似性。然而擁有完全相同的狀態(tài)空間和動作空間的任務(wù)過于理想化,因而研究如何準(zhǔn)確地進(jìn)行源任務(wù)和目標(biāo)任務(wù)之間的映射也是PR中的熱門方向。

早期工作中,文獻(xiàn)[19]假設(shè)目標(biāo)任務(wù)中的動作和狀態(tài)在源任務(wù)種存在唯一對應(yīng)的關(guān)系,如圖3所示。其中,分別是狀態(tài)和動作上的映射函數(shù),是源任務(wù)向目標(biāo)任務(wù)映射值的函數(shù)。在此基礎(chǔ)上,文獻(xiàn)[20]將手動設(shè)置的專家建議作為一種離線知識在源任務(wù)和目標(biāo)任務(wù)之間傳遞,這個專家建議依據(jù)值的大小給動作進(jìn)行排名,以便智能體在目標(biāo)任務(wù)中選擇更好的動作。然而以上兩種映射方法最大的問題在于默認(rèn)了目標(biāo)任務(wù)中的狀態(tài)和動作的映射在源任務(wù)中是唯一的,這顯然是不切實(shí)際的。同時,這種映射需要人工去完成,不具有通用性。因此,文獻(xiàn)[21-23]的工作是研究如何讓智能體自動學(xué)習(xí)映射函數(shù),將狀態(tài)表示分為特定于智能體和特定于任務(wù),文獻(xiàn)[21]和文獻(xiàn)[22]在上學(xué)習(xí)映射函數(shù)并用該映射來設(shè)計(jì)即時獎勵。該方法的好處是從上映射的狀態(tài)空間可以同時用于具有不同動作空間但共享相似的狀態(tài)空間的智能體上。

圖3 源和目標(biāo)任務(wù)間的映射Fig.3 Mapping between source and target tasks

總而言之,當(dāng)前任務(wù)間映射的工作都基于源和目標(biāo)任務(wù)之間存在一對一的映射這種假設(shè)。所映射的內(nèi)容包括狀態(tài)、函數(shù)或轉(zhuǎn)移函數(shù)。這些映射的知識除了能夠直接應(yīng)用在目標(biāo)任務(wù)上,還能夠作為額外獎勵或最小化的損失函數(shù),以這種形式來引導(dǎo)智能體在目標(biāo)任務(wù)中的學(xué)習(xí)。表1總結(jié)了主要的任務(wù)間映射方法。

表1 任務(wù)間映射方法總結(jié)

3 PR的分類

本文從是否基于策略結(jié)構(gòu)的角度將目前存在的PR方法分為策略重構(gòu)、獎勵設(shè)計(jì)、問題轉(zhuǎn)換和相似性度量等方面。但是在部分RL問題中,解決方案往往結(jié)合了多種PR方法,以取得更好的效果。下面將分別從這幾個方面系統(tǒng)地介紹和分析PR方法。

3.1 策略重構(gòu)類

在改變策略結(jié)構(gòu)的前提下,根據(jù)改變策略結(jié)構(gòu)方法的不同,PR方法又可分為外部協(xié)助、概率探索和策略蒸餾/整合等方面。

3.1.1 外部協(xié)助

在完成重用過去的策略這項(xiàng)工作時,只要在可接受的范圍內(nèi),外部協(xié)助往往能夠在促進(jìn)學(xué)習(xí)目標(biāo)任務(wù)方面表現(xiàn)出不錯的效果。該外部協(xié)助可能來自不同的源頭,具有不同的質(zhì)量,可能來自人類專家、專家演示以及近似最優(yōu)或次優(yōu)的專家策略等。總的來說,這些外部協(xié)助都是依靠人類來完成的。大部分這種結(jié)合外部協(xié)助的PR方法都是針對特定的目標(biāo)域而言,即源任務(wù)和目標(biāo)任務(wù)是相同的。當(dāng)然也有針對不同目標(biāo)域的工作,如文獻(xiàn)[31]在針對轉(zhuǎn)移函數(shù)不同的任務(wù)時,通過偏差修正的方法來使智能體盡量不偏離專家策略,以此來保證重用的有效性。

文獻(xiàn)[32]提出了一種利用人力為每個狀態(tài)都綁定一個策略來構(gòu)成一個稱為“提示”的二元組〈π,〉的空間提示PR方法。這相當(dāng)于為每個狀態(tài)都打上標(biāo)簽,當(dāng)智能體處于某個狀態(tài)時,就使用對應(yīng)的策略,這樣能夠保證每個提示可以解決一個任務(wù)。顯然,當(dāng)狀態(tài)空間過大時,為每個狀態(tài)都指定一個策略是不現(xiàn)實(shí)的。作者考慮到這點(diǎn),將綁定了策略的狀態(tài)作為參考狀態(tài)(reference state,RS),用一個變量reach來估計(jì)策略在其參考狀態(tài)周圍的表現(xiàn)。將reach與每個提示聯(lián)系起來,綜合考慮當(dāng)前狀態(tài)(current state,CS)與參考狀態(tài)之間的距離和策略的表現(xiàn)來相應(yīng)地增加reach的值,再依據(jù)reach的大小來選擇提示,該文中用曼哈頓距離作為度量reach的標(biāo)準(zhǔn):

(8)

在狀態(tài)空間定義的其他度量均可。

專家演示是一種通過利用提供的演示進(jìn)行有效的探索來幫助智能體學(xué)習(xí)的方法。就目前來說,專家演示在利用外部協(xié)助的PR方法上應(yīng)用得最為廣泛,發(fā)展得也最為迅速。其主要原因是這種方式直接簡便、效果顯著。根據(jù)何時將演示用于知識遷移,該類方法可以分為離線方法、在線方法和在線離線相結(jié)合。離線方法是在應(yīng)用專家演示之前對RL中的元素進(jìn)行預(yù)訓(xùn)練,如值函數(shù)()和策略。Kurenkov 等人提出了在智能體學(xué)習(xí)的過程中重用專家演示這種離線知識,使其快速實(shí)現(xiàn)高性能的方法。文獻(xiàn)[36]使用預(yù)訓(xùn)練后的值函數(shù)加速了DDPG算法的學(xué)習(xí)過程,并在理論上論證了他們方法的可行性。Silver等人在著名的AlphaGo項(xiàng)目中用預(yù)先訓(xùn)練的策略選擇動作,來幫助其擊敗人類頂級圍棋選手。不同于文獻(xiàn)[36],文獻(xiàn)[37]用演示來初始化值函數(shù)或策略,Schaal等人[38]的工作則用演示來初始化任務(wù)的動態(tài)模型。這些方法雖然在一定程度上加快了收斂,但是這一切都是建立在人類能夠提供準(zhǔn)確的經(jīng)驗(yàn)的基礎(chǔ)上,也就是說這些專家演示本身未必最優(yōu),并且預(yù)訓(xùn)練的過程可能漫長和繁雜,從總的學(xué)習(xí)過程來看,該方法并沒有在學(xué)習(xí)時間上有較大的縮減。對于在線學(xué)習(xí)方法,則是拋棄了預(yù)訓(xùn)練的過程,將專家演示直接用于RL階段,使智能體的行為偏向于有利的探索。然而當(dāng)不能保證演示的質(zhì)量的時候,學(xué)習(xí)的效果可能不盡如人意。文獻(xiàn)[40]利用RL提供的理論保證,通過專家演示和獎勵設(shè)計(jì)的過程來加速學(xué)習(xí)。這種方法的優(yōu)勢在于利用人類的輸入的同時不會對演示的最優(yōu)性做出錯誤的假設(shè)。除此之外,該方法需要的演示更少,對演示的次優(yōu)具有更強(qiáng)的魯棒性。除此之外,現(xiàn)在的很多研究都是將離線預(yù)培訓(xùn)和在線學(xué)習(xí)的方法結(jié)合起來,如Nair等人的工作建立在DDPG框架和事后經(jīng)驗(yàn)回放(hindsight experience buffer,HEB)上,用DDPG框架來從演示中學(xué)習(xí)。該方法還通過利用行為克隆損失(behavior cloning loss,BCL)解決了演示次優(yōu)的問題,對具有較高值的演示動作進(jìn)行損失懲罰:

(9)

式中:Ⅱ[·]表示值損失的懲罰值;||是專家演示的模。

利用專家演示來加速學(xué)習(xí)面臨著一些挑戰(zhàn),第一個是不完美的演示。這雖然是意料之中的情況,但是這種對環(huán)境有偏差的演示會對最終的學(xué)習(xí)效果造成一定的影響。目前針對不完美演示的解決方法包括改變目標(biāo)函數(shù)。例如,文獻(xiàn)[42]所提出的hinge-loss函數(shù),允許少數(shù)違反(,())-max∈()(,)≥1性質(zhì)的情況的發(fā)生。第二個挑戰(zhàn)是過擬合。這個問題是由人類能夠提供的專家演示總是有限的而導(dǎo)致的。因?yàn)樵谶@些有限數(shù)量的演示當(dāng)中,可能沒有包含對目標(biāo)域中出現(xiàn)的所有狀態(tài)的指導(dǎo)。目前解決這種問題的方案包括使用熵正則化目標(biāo)來鼓勵智能體的探索。一般來說,專家演示可以通過離線預(yù)訓(xùn)練和在線學(xué)習(xí)來更好地初始化目標(biāo)任務(wù)的學(xué)習(xí)以及實(shí)現(xiàn)有效的探索。但是如何使用次優(yōu)、有限的專家演示加速學(xué)習(xí),會是PR方法中的一個重要研究方向。

312 概率探索

鑒于以上兩個缺陷,Fernández 等人提出了一種在重用策略庫的過程中同時增加探索的動作選擇策略π-reuse,該策略庫包含過去任務(wù)的策略。他們在學(xué)習(xí)的過程中逐漸降低重用過去策略的概率,相應(yīng)的在增大的那部分概率中使用-greedy探索策略去探索目標(biāo)任務(wù),公式化表達(dá)如下:

(10)

式中:,分別表示過去的策略和正在學(xué)的新策略。這種方法能保證智能體在學(xué)習(xí)最優(yōu)目標(biāo)策略的時候能夠充分探索,避免收斂到次優(yōu)策略。同時還使用一個參數(shù)封裝探索策略的所有參數(shù),然后用該值來衡量所重用策略的有用性,再依此判斷是否要將該策略放入策略庫中。作者定義了最有用的重用策略。

=argmax(),=1,2,…,

(11)

這種方法為PR中的概率探索方法的后續(xù)相關(guān)研究提供了思路。但這種方法有一個限制,就是要經(jīng)常性地評估,即每個專家策略對目標(biāo)任務(wù)的期望回報(bào)。改進(jìn)前的算法時間復(fù)雜度為(log),改進(jìn)后為(),這無疑增加了算法的復(fù)雜度。另外,雖然允許單個目標(biāo)狀態(tài)在任務(wù)之間是不同的,但是要求,和都不變,這種限制過于苛刻。文獻(xiàn)[46]克服了這種嚴(yán)格的限制,通過狀態(tài)映射和動作映射::→和:→,將轉(zhuǎn)換為可以在目標(biāo)任務(wù)中執(zhí)行的新策略:

(12)

但是這種任務(wù)映射一方面需要人工定義,當(dāng)狀態(tài)空間和動作空間過大時,人工的耗費(fèi)難以接受;另一方面,這種任務(wù)映射不具有通用性。比如說,對于3個任務(wù)=〈,,,,〉,=〈,,,,〉和=〈,,,,〉,,是任務(wù)1,2之間的映射組,則其只適用于任務(wù)1,2之間,將其用于任務(wù)1,3或者任務(wù)2,3就行不通。

李學(xué)俊等人將上述提到的概率探索方法應(yīng)用到RoboCup 2D Keepaway的高層搶球動作決策中,通過將4v3任務(wù)的策略遷移到5v4任務(wù)的學(xué)習(xí)中,縮短了訓(xùn)練的時間,并且相較于普通的RL方法能夠更快地收斂到令人滿意的策略。

文獻(xiàn)[48]提出了一種建立隨機(jī)抽象策略來概括過去知識的方法。這種方法將源任務(wù)之前所有的解決方案歸納為單個抽象策略,該策略以抽象后的狀態(tài)和動作的關(guān)系∑=∪∪表示,然后在新任務(wù)的學(xué)習(xí)過程中使用,以便讓智能體在學(xué)習(xí)的早期就能表現(xiàn)出較好的效果。除此之外,文獻(xiàn)[48]還提出了一種基于PR的Q學(xué)習(xí)(PR Q-learning,PRQL)算法的通用框架,允許學(xué)習(xí)者通過協(xié)調(diào)利用過去的經(jīng)驗(yàn)、隨機(jī)探索和利用在新任務(wù)學(xué)習(xí)過程中獲得的新知識來表現(xiàn)出更適當(dāng)?shù)谋憩F(xiàn)。

Narayan等人提出了一種通過使用類似-greedy的方法有概率地構(gòu)建任務(wù)子空間并探索子空間生成子策略的方法。這種方法在一定程度上既保證了最后學(xué)出來的目標(biāo)策略的最優(yōu)性,又加速了學(xué)習(xí)的過程。當(dāng)然,這種方法中不僅僅包括概率探索,還包括策略整合,這些將在后文中進(jìn)行說明。

上述的探索策略都屬于非定向探索,這種探索方法的特點(diǎn)是局部的,隨機(jī)選擇動作,比如說ε-greedy。相比之下,定向探索使用了全局信息來系統(tǒng)地確定要嘗試的動作。文獻(xiàn)[50]通過任務(wù)間映射結(jié)合可證明有效的延遲Q學(xué)習(xí)(delayed Q-learning,DQL)算法分析動作值的遷移,表達(dá)式如下:

(13)

式中:是任務(wù)間映射函數(shù);是領(lǐng)域。該算法使用定向探索策略“不確定行為優(yōu)先探索(optimism in the face of uncertainty,OFU)”在目標(biāo)任務(wù)中學(xué)習(xí)更快,同時可以避免最優(yōu)性的損失,即“正遷移”。但該方法有一個缺陷是:如果不解決兩個任務(wù),就沒有通用的方法來獲得任務(wù)之間適合的任務(wù)間映射。OFU定向探索策略的工作示意圖如圖4所示。

圖4 OFU定向策略工作示意圖Fig.4 Work diagram of OFU directional policy

3.1.3 策略蒸餾/整合

對于重用策略,研究人員首先想到的就是直接重用源策略(值),但是這種方法的弊端在前文中已經(jīng)說明了:容易導(dǎo)致負(fù)遷移。為了剔除源策略中不適用于目標(biāo)任務(wù)的部分,文獻(xiàn)[43]只使用在相似問題中學(xué)到的策略的一部分,并在學(xué)習(xí)中保持策略的這部分不變。這種方法雖然提高了學(xué)習(xí)的速度,但是犧牲了策略的最優(yōu)性。

假設(shè)有一系列狀態(tài)空間和動作空間相同,轉(zhuǎn)移函數(shù)和獎勵函數(shù)不同的任務(wù)。這類任務(wù)的特點(diǎn)是變化的范圍是未知和無窮的,可以利用學(xué)習(xí)策略中的共同結(jié)構(gòu)來加速目標(biāo)策略的學(xué)習(xí)。文獻(xiàn)[54]提出了一種利用神經(jīng)網(wǎng)絡(luò)擬合一個概率模型的采樣軌跡去學(xué)習(xí)策略空間結(jié)構(gòu)的增量學(xué)習(xí)框架(incremental learning of policy space structure, ILPSS)。該軌跡用成功(“+”)或失敗(“-”) 來標(biāo)記是否到達(dá)目標(biāo)狀態(tài),在后續(xù)的學(xué)習(xí)中只重用成功的軌跡。并將學(xué)習(xí)到的策略片段分配給概率模型當(dāng)作一個“選項(xiàng)”,在之后的任務(wù)中用來生成更多的采樣軌跡,具體流程如圖5所示。

圖5 ILPSS工作流程圖Fig.5 Work flow chart of ILPSS

Rusu等人提出了一種根據(jù)專家網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)值的誤差來確定值的回歸目標(biāo)函數(shù),來使學(xué)生網(wǎng)絡(luò)逼近專家網(wǎng)絡(luò)的多任務(wù)PR方法,如圖6所示,可以將多個任務(wù)最優(yōu)策略整合到單個策略中,通過重用整合后的單個策略來達(dá)到加速學(xué)習(xí)的目的。但是當(dāng)任務(wù)的參數(shù)規(guī)模和狀態(tài)空間龐大的時候,需要消耗大量的計(jì)算去訓(xùn)練多任務(wù)策略網(wǎng)絡(luò)。Yin等人提出了一種使用特定任務(wù)的高層次卷積特征作為多任務(wù)策略網(wǎng)絡(luò)輸入的策略蒸餾框架,并利用一個稱作“分層優(yōu)先經(jīng)驗(yàn)重放”的采樣框架有選擇性地從每個任務(wù)的經(jīng)驗(yàn)回放池選擇經(jīng)驗(yàn)放到神經(jīng)網(wǎng)絡(luò)上學(xué)習(xí)。文獻(xiàn)[57]提出了一種在一組相關(guān)源任務(wù)上訓(xùn)練單個策略網(wǎng)絡(luò)并將其重用在新任務(wù)中的“Actor-Mimic”方法。這種方法雖然能夠加速新任務(wù)的學(xué)習(xí),但是必須要在源任務(wù)和新任務(wù)之間具有一定相似性的情況下才能實(shí)現(xiàn),因?yàn)槿蝿?wù)間的相似性度量方法直接影響著PR的效果。另外,上面所提到的幾種策略蒸餾方法都有一個共同的問題:同時訓(xùn)練多項(xiàng)任務(wù)會對單個任務(wù)的表現(xiàn)產(chǎn)生負(fù)面影響。這種負(fù)面影響可能來自其他任務(wù)的梯度,在極端情況下,一個任務(wù)甚至可能支配其他的任務(wù)。為了抵消這種負(fù)面的影響,Teh等人讓每個源任務(wù)單獨(dú)訓(xùn)練并將單個任務(wù)中獲得的知識蒸餾到共享策略中,然后再由共享策略提取出共同的結(jié)構(gòu)重用到其他的任務(wù)中,如圖7所示。學(xué)習(xí)過程就是最大化一個聯(lián)合目標(biāo)函數(shù)的過程,其中聯(lián)合目標(biāo)函數(shù)為

(14)

式中:是共享策略,是單個源策略;和是熵正則化因子。這種方法雖然消除了多任務(wù)訓(xùn)練對單任務(wù)訓(xùn)練所產(chǎn)生的影響,但是其在將單個任務(wù)中的知識蒸餾到共享策略中以及將共享策略中提取出的共同結(jié)構(gòu)重用到其他任務(wù)的過程中增加了計(jì)算量。

圖6 多任務(wù)策略蒸餾Fig.6 Multi-task policy distillation

圖7 共享策略工作過程Fig.7 Working process of shared policy

國內(nèi)學(xué)者在這方面也有類似的研究。常田等人提出了隨機(jī)集成策略遷移(stochastic ensemble policy transfer, SEPT)方法。該方法取消了在源策略庫中每次選擇一個策略的方式,取而代之的是利用終止概率計(jì)算出源策略的概率權(quán)重,再依據(jù)概率權(quán)重從策略庫中集成出專家策略。最后通過策略蒸餾的方式將專家策略遷移到目標(biāo)任務(wù)上去。這種方法避免了估計(jì)源策略在目標(biāo)任務(wù)上的性能的不可靠性和度量目標(biāo)任務(wù)間的相似性時所帶來的誤差。

文獻(xiàn)[48]則換了一種思路,使用貝葉斯變更點(diǎn)檢測算法尋找環(huán)境發(fā)生變化的位置,以此變更點(diǎn)為起點(diǎn)向后擴(kuò)展步構(gòu)造一個子空間并將其視為子任務(wù)。然后將在子任務(wù)探索得到的子策略與源策略整合為一個完整策略去解決目標(biāo)任務(wù)。為了解決只在子任務(wù)中探索而造成的次優(yōu)問題,使用了類似-greedy的方法,即在目標(biāo)任務(wù)中探索的時候以一定的概率強(qiáng)制建立子空間(不管此處是否為變更點(diǎn)),這樣目標(biāo)任務(wù)中的其他狀態(tài)也能夠被探索到,因而最后學(xué)出來的策略是最優(yōu)的。無論是重用完整的源策略還是部分源策略,抑或是將多個源策略蒸餾、整合為一個最優(yōu)的源策略,這些從策略結(jié)構(gòu)出發(fā)的方法都面臨著一個共同的問題:源任務(wù)和目標(biāo)任務(wù)之間需要具有極高的相似性。即使通過借助外部的幫助,或者增加概率去探索目標(biāo)任務(wù)的未知領(lǐng)域來減緩收斂到次優(yōu)策略的情況,但這些方法自身也存在著協(xié)助有限、次優(yōu)或者增加探索而導(dǎo)致的學(xué)習(xí)時間過長等問題。如何使策略重構(gòu)得更加契合目標(biāo)任務(wù)是此類PR方法的核心問題。表2總結(jié)分析了具有代表性的策略重構(gòu)類的PR方法。

表2 策略重構(gòu)類方法總結(jié)

3.2 獎勵設(shè)計(jì)類

獎勵設(shè)計(jì)是另一種通過定義策略之間的相似性或從源策略去定義目標(biāo)任務(wù)策略的方式去加速RL速度的方法。智能體除了學(xué)習(xí)環(huán)境反饋中的獎勵外,還額外學(xué)習(xí)一個包含了先驗(yàn)知識的獎勵設(shè)計(jì)函數(shù):××→來生成輔助獎勵,給予智能體在有益狀態(tài)時以更高的獎勵來加速收斂。獎勵函數(shù)的改變將導(dǎo)致任務(wù)的改變:

=(,,,,)→=(,,,,)

(15)

式中:=+。智能體將在新的MDP中學(xué)習(xí)目標(biāo)策略。

文獻(xiàn)[61]提出了用定義在狀態(tài)空間上的勢函數(shù)的差值作為獎勵設(shè)計(jì)函數(shù)的方法基于勢函數(shù)的獎勵設(shè)計(jì)(potential based reward shaping,PBRS):

(,,′)=(′)-()

(16)

在此基礎(chǔ)上,文獻(xiàn)[62]提出了將其擴(kuò)展到基于勢函數(shù)的狀態(tài)-動作對建議(potential based state-action advice,PBA)的方法:

(,,′,′)=(′,′)-(,)

(17)

這個方法的一個限制是需要遵循策略來學(xué)習(xí),如式(17)所示,′是通過遵循策略轉(zhuǎn)換到下一個狀態(tài)′時要執(zhí)行的動作。上述的方法都是基于靜態(tài)的勢函數(shù),文獻(xiàn)[63]提出了一種將狀態(tài)和時間結(jié)合起來的基于動態(tài)勢函數(shù)(dynamic potential based,DPB)的方法:

(,,′,′)=(′,′)-(,)

(18)

證明了這種動態(tài)方法依然保證了策略的不變性:

(19)

式中:是當(dāng)前時間。在此基礎(chǔ)上,Harutyunyan等人又提出了一種能將任何先驗(yàn)知識作為額外獎勵加入基于動態(tài)勢函數(shù)的建議(dynamic potential based advice,DPBA)的方法?；驹硎?給定來自先驗(yàn)知識的任意額外獎勵函數(shù),其必須滿足以下條件才可作為額外獎勵添加到原始即時函數(shù)上:

(′,′)-(,)=(,)=(,)

(20)

如果是動態(tài)的,則其貝爾曼方程是:

(,)=(,)+(′,′)

(21)

由此可知獎勵設(shè)計(jì)函數(shù)(,)是(,)的否定:

(,)=(′,′)-(,)=-(,)

(22)

故可以將的否定作為獎勵函數(shù)來訓(xùn)練額外的狀態(tài)-動作值函數(shù)和策略,的更新方式如下:

(,)←(,)+()

(23)

因此,動態(tài)獎勵設(shè)計(jì)函數(shù)為

(,)=+1(′,′)-(,)

(24)

DPBA方法最大的優(yōu)點(diǎn)在于提供了一個能將任意先驗(yàn)知識作為額外獎勵的框架,這大大提高了獎勵設(shè)計(jì)類方法在PR上的通用性。

文獻(xiàn)[65]提出了一種使用獎勵設(shè)計(jì)遷移策略(policy transfer using reward shaping,PTS):在使用映射函數(shù),完成了源任務(wù)和目標(biāo)任務(wù)之間狀態(tài)和動作映射工作的基礎(chǔ)上,利用獎勵設(shè)計(jì)將專家策略從源任務(wù)重用在目標(biāo)任務(wù)上,那么額外的獎勵正好是被映射的狀態(tài)和動作被源任務(wù)的專家策略采取的概率(((),()))。另一項(xiàng)工作則利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練鑒別器去區(qū)分樣本是來自專家策略還是目標(biāo)策略,而鑒別器的損失被用來設(shè)計(jì)獎勵函數(shù)以鼓勵智能體去模仿專家策略。這種方法涉及到PR方法的兩個方面:獎勵設(shè)計(jì)和外部協(xié)助。文獻(xiàn)[67]所做的工作中的其中一項(xiàng)是通過定義一個設(shè)計(jì)獎勵函數(shù)強(qiáng)度的參數(shù)來針對不同的目標(biāo)任務(wù)調(diào)整獎勵函數(shù)的大小。Zheng等人提出用外在獎勵優(yōu)化內(nèi)在獎勵并使用內(nèi)外獎勵的和去更新策略的方法:學(xué)習(xí)策略梯度的內(nèi)在獎勵(learning intrinsic rewards for policy gradient,LIRPG),基于該算法的智能體學(xué)習(xí)過程的抽象表示如圖8所示。此方法的優(yōu)點(diǎn)在于該算法適用于大部分的RL算法。

圖8 LIRPG智能體學(xué)習(xí)過程的抽象表示Fig.8 Abstract representation of learning process of LIRPG agent

以上所述的工作都屬于利用外在的知識來設(shè)計(jì)獎勵函數(shù),Marom等人轉(zhuǎn)換了思路,考慮了額外的獎勵源于自身的情況,提出了信念獎勵設(shè)計(jì)(belief reward shaping,BRS)的概念,利用貝葉斯獎勵設(shè)計(jì)框架來產(chǎn)生隨著經(jīng)驗(yàn)衰減的來自Critic網(wǎng)絡(luò)自身的勢值。

總的說來,獎勵設(shè)計(jì)方法從基于狀態(tài)和狀態(tài)-動作值的靜態(tài)勢函數(shù),到加入時間變化過程的動態(tài)勢函數(shù),再到能將任意先驗(yàn)知識作為輔助獎勵添加到原始獎勵函數(shù)的框架,獎勵設(shè)計(jì)方法已被應(yīng)用到實(shí)際上生活中的諸多場景,如訓(xùn)練機(jī)器人、口語對話系統(tǒng)等。如今,將獎勵設(shè)計(jì)應(yīng)用在PR的方法還不是很成熟,主要的問題在于構(gòu)造的獎勵函數(shù)并不能夠完美契合目標(biāo)任務(wù),從而導(dǎo)致智能體在學(xué)習(xí)目標(biāo)策略的過程中采取一些投機(jī)取巧方式的情況發(fā)生,或者收斂到次優(yōu)策略。表3對比分析了獎勵設(shè)計(jì)類的PR方法。

表3 獎勵設(shè)計(jì)類方法總結(jié)

3.3 問題轉(zhuǎn)換類

PR的核心問題是源策略的選擇問題,智能體能否以最快的速度尋找到目標(biāo)任務(wù)的最優(yōu)策略一定程度上取決于所選擇的源策略契合目標(biāo)任務(wù)的程度。因此,關(guān)于PR的有些工作聚焦于將源策略的選擇問題轉(zhuǎn)化為其他較易解決的問題。

(25)

(26)

由于該方法只學(xué)習(xí)了源策略的選項(xiàng)間策略,容易導(dǎo)致次優(yōu)問題,為了避免這個問題,用原始策略來擴(kuò)展源策略庫,然而這種方法需要手動添加原始策略,在很大程度上限制了其通用性,不能用于解決連續(xù)動作空間問題。為了解決文獻(xiàn)[73]中存在的問題,文獻(xiàn)[74]提出了一種由Agent模塊和Option模塊兩個主要模塊組成的策略遷移框架(policy transfer framework,PTF),如圖9所示。其中，Agent模塊用于在Option模塊的指導(dǎo)下學(xué)習(xí)目標(biāo)策略,Option模塊用于學(xué)習(xí)選擇對Agent有用的源策略。同時利用一個加權(quán)因子(,)控制從源策略中重用策略的程度,其中(,)定義為

(,)=()(1-(,|))

(27)

圖9 PTFFig.9 PTF

這個框架能夠與大多數(shù)RL算法結(jié)合,在離散和連續(xù)動作空間中都能應(yīng)用。然而,相較之前的方法,這種方法新增了兩個網(wǎng)絡(luò)用于控制Agent何時選擇源策略以及重用程度,這必然會增加算法的復(fù)雜度和計(jì)算量。

Yang等人提出了一種基于多智能體選項(xiàng)的策略遷移框架(multiagent option-based policy transfer, MAOPT)來提高多智能體選項(xiàng)的效率。該框架通過將多智能體策略遷移建模為選項(xiàng)學(xué)習(xí)問題來學(xué)習(xí)為每個智能體提供建議以及何時終止建議。該方法在離散和連續(xù)狀態(tài)空間問題上都表現(xiàn)良好。

問題轉(zhuǎn)化類的方法旨在將難以解決的源策略選擇問題轉(zhuǎn)化為其他易解決或相對熟悉的領(lǐng)域問題。但這種問題轉(zhuǎn)換的前提是存在適合的轉(zhuǎn)換模型,不準(zhǔn)確的轉(zhuǎn)換反而會導(dǎo)致次優(yōu)問題的出現(xiàn)。

3.4 相似性度量類

目前已經(jīng)有很多關(guān)于PR的工作,但是大多數(shù)方法都依賴于源任務(wù)和目標(biāo)任務(wù)極度相似的假設(shè)。然而這種假設(shè)在實(shí)踐過程中并不一定能夠滿足。如果源任務(wù)和目標(biāo)任務(wù)無關(guān),PR將會導(dǎo)致學(xué)習(xí)速度變慢,乃至在目標(biāo)任務(wù)中的表現(xiàn)很差。因此,定義源任務(wù)和目標(biāo)任務(wù)之間的相似性來選擇最優(yōu)的源策略是必要的?，F(xiàn)有的工作中,度量源和目標(biāo)任務(wù)的MDP之間相似性的方法居多,也有度量策略之間相似性的方法。

Fernández等人利用距離度量兩個源任務(wù)最優(yōu)策略的相似性來選擇重用最有用的源策略,定義和證明了此種度量方法。

(28)

因而用距離度量來定義策略在策略中的作用為

(29)

由于該方法需要比較應(yīng)用兩個策略后的結(jié)果來判斷哪個策略更適合用來重用,計(jì)算量較大,不適用于大規(guī)模的PR場景。

相較于度量策略相似性的工作,更多的工作集中在度量任務(wù)MDP之間的相似性。在早期的工作中,文獻(xiàn)[76-78]使用了一種交互模擬形式的度量方法,該方法將MDP之間的差異進(jìn)行了量化。然而這個工作需要手動定義任務(wù)之間的度量,并且只適用于離散狀態(tài)空間以及需要巨大的計(jì)算量。文獻(xiàn)[19]提出的方法是半自動的,要求人類用戶為算法定義相關(guān)的源任務(wù)和目標(biāo)任務(wù)之間的關(guān)系,再用算法來比較源和目標(biāo)任務(wù)之間的相似性。顯然,為了實(shí)現(xiàn)完全自主的PR方法,智能體必須能夠選擇與目標(biāo)任務(wù)相關(guān)的源任務(wù)以及學(xué)習(xí)源和目標(biāo)任務(wù)之間的關(guān)系,如任務(wù)間映射。Taylor和Ammar等人將工作聚焦于如何使智能體選擇與目標(biāo)任務(wù)相關(guān)的源任務(wù)。而這正是重用先驗(yàn)知識成功與否的關(guān)鍵。

朱斐等人針對不穩(wěn)定環(huán)境下的RL問題,提出了一種基于公式集的策略搜索算法。該方法用MDP分布表示不穩(wěn)定的環(huán)境,利用自模擬度量構(gòu)造的MDP分布之間的距離度量公式作為標(biāo)準(zhǔn),并結(jié)合小公式集的構(gòu)造方法,將求解的策略在不同的MDP分布之間進(jìn)行遷移。從理論上證明了遷移之后的策略的最優(yōu)性邊界。這種方法為在不穩(wěn)定環(huán)境下的RL問題中進(jìn)行PR提供了思路,但是該算法中MDP分布之間的距離計(jì)算公式并不適用于龐大的狀態(tài)空間和連續(xù)狀態(tài)空間的問題。

文獻(xiàn)[81]提出了一種從通過智能體與環(huán)境交互收集的樣本中估計(jì)源和目標(biāo)任務(wù)之間相似性的度量方法,該方法能夠捕獲和聚類具有多重差異的多維數(shù)據(jù)集之間的動態(tài)相似性,包括不同的獎勵函數(shù)和轉(zhuǎn)移函數(shù)。此方法的基本原理是:首先使用受限玻爾茲曼機(jī)(restricted Boltzmann machine,RBM)模型對源任務(wù)中收集的數(shù)據(jù)進(jìn)行建模,產(chǎn)生一組能夠描述源MDP的相關(guān)的和信息性的特征。然后在目標(biāo)任務(wù)上測試這些特征,以此評估MDP的相似性。這種方法實(shí)現(xiàn)了智能體自主學(xué)習(xí)度量源和目標(biāo)任務(wù)之間相似性并依此選擇合適的源策略進(jìn)行PR的工作。但是這種方法一個最主要的缺陷是可能會導(dǎo)致經(jīng)驗(yàn)過擬合的問題,即在給定特定MDP參數(shù)的情況下效果良好,而在使用其他參數(shù)或在不同的MDP上時效果難以達(dá)到預(yù)期。

Wang等人將工作的重點(diǎn)放在了多任務(wù)遷移上,提出了一種稱為“啟發(fā)式自適應(yīng)PR”的框架。這種框架通過快速選擇最合適的策略及其有用的部分,來促進(jìn)存儲在策略庫中的源策略的有效重用。同時,通過使用KL散度衡量策略之間的差異來篩選策略,保證了策略的質(zhì)量,并完成策略庫的重建。該方法有效避免了重用源策略中不相關(guān)的部分而導(dǎo)致的負(fù)遷移,并在每個回合中將策略庫中的“不良策略”移除以保證策略庫的健壯性和有效性。美中不足的是,該方法并不適用于連續(xù)動作空間問題。

Song等人的工作主要是提出了兩個度量有限個MDP之間距離的方法。第一個方法是Hausdorff度量方法,用于利用Hausdorff矩陣度量不同任務(wù)狀態(tài)集之間的距離。具體定義如下。

給定兩個MDP:=〈,,,,〉和=〈,,,,〉,其Hausdorff距離為

(30)

式中:′為兩個狀態(tài)之間的距離。這種方法存在錯誤度量的問題:如果相似的多維數(shù)據(jù)集中至少存在一個異常值,可能會被錯誤地視為不相似的數(shù)據(jù)集。因此又提出了第二個方法:Kantorovich度量方法,該方法利用Kantorovich矩陣度量概率分布之間的距離。具體定義如下。

給定兩個MDP:=〈,,,,〉和=〈,,,,〉,其Kantorovich距離為

(31)

使用這種方法時,即使存在異常值,對總數(shù)據(jù)集的影響也不大。與此工作類似,文獻(xiàn)[48]同樣是計(jì)算概率分布之間的距離,它基于Jensen-Shannon距離(Jensen-Shannon distance,JSD)定義了一個輕量級的度量來計(jì)算共享相同狀態(tài)-動作的問題中的任務(wù)相似性。JSD定義為Jensen-Shannon散度的平方根:

(32)

式中:是KL散度;和是源任務(wù)和目標(biāo)任務(wù)中相應(yīng)狀態(tài)-動作對的分布;=(+)2。

相似性度量類方法的目標(biāo)只有一個:為目標(biāo)任務(wù)選擇最好的源策略進(jìn)行重用?，F(xiàn)有的方法五花八門,沒有統(tǒng)一的度量標(biāo)準(zhǔn),該方向未來的工作可能會著力于尋找一個統(tǒng)一的度量標(biāo)準(zhǔn)。表4總結(jié)了目前的相似性度量類方法。

表4 相似性度量類方法總結(jié)

以上分析的幾類方法,有效地加速了RL算法的收斂,但在一定程度上也提升了算法的復(fù)雜度和計(jì)算量。為方便了解和對比,分析、對比了這幾類方法的優(yōu)缺點(diǎn),如表5所示。

表5 PR方法對比

4 DRL中的PR

近些年隨著DL的飛速發(fā)展,DL和RL相結(jié)合的方法DRL在一定程度上解決了以前傳統(tǒng)RL方法難以解決的問題。適用于傳統(tǒng)RL算法的PR方法,在更換了RL框架的情況下,依然適用。在上面介紹的各類PR方法中,某些方法不僅適用于傳統(tǒng)RL框架,同樣適用于DRL框架。

文獻(xiàn)[39]將專家演示這類依靠外部協(xié)助的PR方法應(yīng)用在最經(jīng)典的DRL算法DQN上,稱為學(xué)習(xí)演示的深度Q學(xué)習(xí)。另一項(xiàng)基于DQN算法的工作是文獻(xiàn)[65],其工作與獎勵設(shè)計(jì)技術(shù)關(guān)系密切,基于一組專家演示來構(gòu)建勢函數(shù),并且狀態(tài)-動作對的勢值由給定狀態(tài)-動作對和專家經(jīng)驗(yàn)之間的最高相似性來度量,這種額外獎勵鼓勵智能體做出類似專家的動作。文獻(xiàn)[55-56]提出的策略蒸餾方法同樣是基于DQN算法框架的。其中文獻(xiàn)[55]的工作是利用專家網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)值的誤差來使得學(xué)生網(wǎng)絡(luò)逼近專家網(wǎng)絡(luò)從而進(jìn)行多任務(wù)PR。而文獻(xiàn)[56]的工作則是將特定任務(wù)的高層次卷積特征作為多任務(wù)策略網(wǎng)絡(luò)的輸入,再有選擇地采樣每個任務(wù)的經(jīng)驗(yàn)放到神經(jīng)網(wǎng)絡(luò)上學(xué)習(xí)。

PR方法不僅僅應(yīng)用到基于值函數(shù)框架的DRL中,也適用于基于策略梯度框架的DRL。文獻(xiàn)[89]基于信任域策略優(yōu)化(trust region policy optimization,TRPO)算法框架,提出了一種結(jié)合生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)和獎勵設(shè)計(jì)函數(shù)-log(1-(,))的算法生成對抗模仿學(xué)習(xí)(generative adversarial imitation learning,GAIL)。該算法可以利用GAN的對抗訓(xùn)練直接顯示地得到策略,更加高效。Kang等人提出的學(xué)習(xí)演示的策略優(yōu)化(policy optimization from demonstration,POfD)算法擴(kuò)展了GAIL,該算法基于TRPO和PPO,將GAN中的鑒別器獎勵與環(huán)境獎勵結(jié)合,訓(xùn)練智能體去獲得最大化累積的環(huán)境獎勵:

(33)

式中:和分別是當(dāng)前策略和專家策略的占用度量,是由策略導(dǎo)出的狀態(tài)-動作分布。

以上算法,無論是GAIL還是POfD,都屬于on-policy的RL框架。文獻(xiàn)[68]提出的學(xué)習(xí)演示的DDPG(DDPG from demonstrations,DDPGfD)算法則是off-policy的RL框架,該算法基于DDPG,指導(dǎo)智能體從專家演示中學(xué)習(xí)策略。另一項(xiàng)基于DDPG框架的工作是文獻(xiàn)[40],與DDPGfD的不同在于智能體的功能通過行為克隆損失得到加強(qiáng),鼓勵其模仿所提供的演示行為。文獻(xiàn)[58]提出的方法基于A3C框架,同時利用策略蒸餾提取多個教師策略網(wǎng)絡(luò)中的經(jīng)驗(yàn)并轉(zhuǎn)移到學(xué)習(xí)策略網(wǎng)絡(luò)以實(shí)現(xiàn)多任務(wù)PR。Schmitt等人做的工作與文獻(xiàn)[58]類似,使用教師和學(xué)生策略網(wǎng)絡(luò)之間的交叉熵來設(shè)計(jì)獎勵,并設(shè)計(jì)了一個動態(tài)衰減系數(shù)來減輕獎勵增加所帶來的負(fù)面影響,從而使學(xué)生策略在迭代優(yōu)化一定次數(shù)后能夠獨(dú)立于教師策略。

飛速發(fā)展的DRL算法已經(jīng)能夠面對高維的狀態(tài)或動作空間的問題,但是面對相似問題需要從頭學(xué)習(xí)的問題依然需要依靠PR方法來解決。表6總結(jié)了主流的應(yīng)用了PR方法的DRL框架。

表6 PR方法中的DRL框架總結(jié)

5 多智能體場景

相對于單智能體而言,多智能體環(huán)境是非穩(wěn)態(tài)的,多智能體RL(multi-agent RL,MARL)遵循隨機(jī)博弈(stochastic game,SG)過程。對于MDP而言,其轉(zhuǎn)移函數(shù)不僅與當(dāng)前狀態(tài)、當(dāng)前動作以及下一個狀態(tài)′有關(guān),還與時間有關(guān),因此更加復(fù)雜,更具有挑戰(zhàn)性。

在多智能體環(huán)境中,傳統(tǒng)的RL算法或多智能體算法沒有過多關(guān)注對方的策略,僅僅只是聚焦于對手的行為,這類方法的弊端在于容易被對手的行為所誤導(dǎo),但是根據(jù)對手的策略來行動能夠避免此問題。然而在多智能體環(huán)境中,對手的策略多且雜,如何快速地根據(jù)對手策略制定自己的策略正是MARL-PR算法所要解決的問題。文獻(xiàn)[95]提出的貝葉斯PR(Bayesian PR,BPR),可以根據(jù)對手的策略來指定自己的策略,提出了一個當(dāng)智能體面對未知任務(wù)時使用策略蒸餾來選擇最優(yōu)策略的框架。該框架使用了一個信念模型(),以獎勵為標(biāo)準(zhǔn)來衡量當(dāng)前的任務(wù)和過去已經(jīng)解決的任務(wù)之間的相似程度,最優(yōu)策略就是信念模型下期望獎勵最大的策略。然而該信念模型存在光靠獎勵難以準(zhǔn)確區(qū)分對手的問題,文獻(xiàn)[96]提出了一種方法深度BPR:用參數(shù)為的神經(jīng)網(wǎng)絡(luò)去近似對手的策略的修正信念模型,配合引入的對手模型同時去檢測對手以達(dá)到精確檢測的目的。如果檢測發(fā)現(xiàn)對手用的是之前未用過的策略,則開始學(xué)習(xí)新策略并在學(xué)習(xí)完成后放入策略庫。文獻(xiàn)[97]提出的算法Bayes-Pepper結(jié)合了兩個框架Pepper和BPR,該算法先從多智能體算法中獲得隨機(jī)的動作策略,然后計(jì)算可能的對手的信念,并隨著交互的進(jìn)行而更新,從而使智能體可以針對對手快速選擇適當(dāng)?shù)牟呗浴Ｎ墨I(xiàn)[99]將BPR擴(kuò)展到對抗性設(shè)置,特別是擴(kuò)展到從一種固定策略轉(zhuǎn)換為另一種靜態(tài)策略的對手。當(dāng)Agent檢測當(dāng)前策略不是最優(yōu)時,該擴(kuò)展功能可以在線學(xué)習(xí)新模型。

然而以上方法都假定對手在一組平穩(wěn)策略中隨機(jī)改變其策略,在實(shí)踐中,對手可以通過采用更高級的推理策略來表現(xiàn)出更復(fù)雜的行為,此時這些方法就難以打敗這些復(fù)雜的對手。文獻(xiàn)[100]提出一種貝葉斯心理策略理論(Bayesian theory of mind on policy, Bayes-ToMoP)方法,不僅能快速準(zhǔn)確地檢測到非平穩(wěn)對手,而且還能檢測到更復(fù)雜的對手,并據(jù)此計(jì)算出最佳對策。

相較于單智能體DRL算法,多智能體算法更加切合現(xiàn)實(shí)環(huán)境和需求。面對不穩(wěn)定的環(huán)境,單智能體算法難以收斂,也不能通過改變智能體本身的策略去適應(yīng)不穩(wěn)定的動態(tài)環(huán)境。多智能體算法的提出在一定程度上緩解了這些問題。然而,隨著智能體數(shù)量的增加,多智能體算法的聯(lián)結(jié)動作空間大小爆炸性增長,而這帶來的是龐大的計(jì)算量。除此之外,多智能體系統(tǒng)中各個智能體的任務(wù)存在差異,但彼此之間又存在耦合,相互影響,獎勵設(shè)計(jì)比較困難,而這直接影響了學(xué)習(xí)到的策略的好壞。而且探索問題也是多智能體算法急需解決的問題之一。多智能體環(huán)境中,各智能體需要同時考慮自己對環(huán)境的探索和應(yīng)對同伴策略變化進(jìn)行的探索,而且各智能體的探索都可能影響同伴的策略,這使得學(xué)習(xí)的過程復(fù)雜且緩慢。PR方法的加入部分緩解了這些問題,但是現(xiàn)有的方法還不夠成熟。接下來可以研究更加通用的PR方法,通過重用相似環(huán)境的源策略來更快地發(fā)現(xiàn)對手策略,加速探索過程和降低計(jì)算損耗。

6 應(yīng)用

機(jī)器人學(xué)習(xí)領(lǐng)域一直是RL的重要研究方向,但一直存在實(shí)驗(yàn)代價過大的問題,比如機(jī)器人學(xué)習(xí)在復(fù)雜的山路進(jìn)行作業(yè)的時候,經(jīng)常存在損壞的風(fēng)險。而在相似的地況進(jìn)行作業(yè)時,從頭學(xué)習(xí)不僅效率低,而且損耗大。文獻(xiàn)[101]提出讓不同機(jī)器人之間共享學(xué)習(xí)到的策略來進(jìn)行協(xié)同訓(xùn)練的PR方法很大程度上緩解了這個問題。其方法是在DQN框架下實(shí)現(xiàn)多個機(jī)器人智能體之間的策略遷移,通過在一個經(jīng)驗(yàn)池中共享演示和異步執(zhí)行策略的更新。文獻(xiàn)[102]則把注意力集中在機(jī)器人面臨未知任務(wù)時的學(xué)習(xí)方法上,通過在所選的多個源任務(wù)上訓(xùn)練一個通用策略結(jié)合專家策略來讓機(jī)器人更快地適應(yīng)目標(biāo)任務(wù)。

除了機(jī)器人領(lǐng)域,游戲也是PR廣泛應(yīng)用的領(lǐng)域。最典型的游戲應(yīng)用就是AlphaGo。這是一款圍棋游戲,先利用專家演示離線訓(xùn)練智能體,再通過學(xué)習(xí)用蒙特卡羅樹搜索法來選擇最優(yōu)策略。在星際爭霸這款實(shí)時戰(zhàn)略游戲中也使用了PR。除此之外,OpenAI訓(xùn)練了一個擊敗了人類職業(yè)玩家的Dota2游戲智能體,其中也用到了PR的方法。文獻(xiàn)[31]將PR應(yīng)用在Minecraft上,文獻(xiàn)[51-52]則在Atari上應(yīng)用了PR方法。另外,在導(dǎo)航游戲和山地車游戲上也有應(yīng)用。在這些通用平臺上的應(yīng)用且有不錯的效果,足以說明PR的有效性。表7總結(jié)了常見的PR方法的應(yīng)用場景。

表7 PR方法應(yīng)用總結(jié)

7 總結(jié)及展望

本綜述從是否基于策略重構(gòu)的角度將目前RL中存在的PR方法進(jìn)行分類并介紹。除此之外,還總結(jié)了在結(jié)構(gòu)不同的任務(wù)之間的映射方法以及應(yīng)用了PR的領(lǐng)域。本文提供了一個關(guān)于RL中PR方法的新的分類思路,希望能夠?yàn)樽龃朔矫嫜芯康娜颂峁┮稽c(diǎn)幫助。

依據(jù)現(xiàn)在RL中的PR研究進(jìn)程,基于模型的PR方法會是未來的一個發(fā)展趨勢?；谀Ｐ偷姆椒軌蚪Y(jié)合大多數(shù)的RL算法,實(shí)現(xiàn)策略重構(gòu)、獎勵設(shè)計(jì)等方法的自動化,大大提高PR的效率和通用性。除此之外,任務(wù)的相似性度量方法現(xiàn)階段良莠不齊,設(shè)計(jì)和制定一套通用高效的度量標(biāo)準(zhǔn)對于PR的發(fā)展也起到了至關(guān)重要的作用。另外,雖然PR能夠較好地解決RL收斂速度慢、資源消耗大以及復(fù)用性的問題,但也提升了算法的復(fù)雜度和計(jì)算,如何在解決傳統(tǒng)RL問題的基礎(chǔ)上避免算法復(fù)雜度和計(jì)算的提高也是PR方法迫切需要解決的問題。最后,目前PR在多智能體內(nèi)的研究進(jìn)展緩慢,其主要原因在于多智能體場景的復(fù)雜性。然而多智能體場景更加貼近現(xiàn)實(shí),優(yōu)質(zhì)的多智能體PR方法能夠在很大程度上提高工業(yè)制造的效率。鑒于這個原因,相信多智能體PR會是未來的一大研究熱點(diǎn)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放