鄒啟杰 李文雪 高兵 趙錫玲 張汝波
摘 要:
針對(duì)目前大多數(shù)多智能體強(qiáng)化學(xué)習(xí)算法在智能體數(shù)量增多以及環(huán)境動(dòng)態(tài)不穩(wěn)定的情況下導(dǎo)致的維度爆炸和獎(jiǎng)勵(lì)稀疏的問題,提出了一種基于加權(quán)值函數(shù)分解的多智能體分層強(qiáng)化學(xué)習(xí)技能發(fā)現(xiàn)算法。首先,該算法將集中訓(xùn)練分散執(zhí)行的架構(gòu)與分層強(qiáng)化學(xué)習(xí)相結(jié)合,在上層采用加權(quán)值函數(shù)分解的方法解決智能體在訓(xùn)練過程中容易忽略最優(yōu)策略而選擇次優(yōu)策略的問題;其次,在下層采用獨(dú)立Q學(xué)習(xí)算法使其能夠在多智能體環(huán)境中分散式地處理高維復(fù)雜的任務(wù);最后,在底層獨(dú)立Q學(xué)習(xí)的基礎(chǔ)上引入技能發(fā)現(xiàn)策略,使智能體之間相互學(xué)習(xí)互補(bǔ)的技能。分別在簡(jiǎn)易團(tuán)隊(duì)運(yùn)動(dòng)和星際爭(zhēng)霸Ⅱ兩個(gè)仿真實(shí)驗(yàn)平臺(tái)上對(duì)該算法與多智能體強(qiáng)化學(xué)習(xí)算法和分層強(qiáng)化學(xué)習(xí)算法進(jìn)行對(duì)比,實(shí)驗(yàn)表明,該算法在獎(jiǎng)勵(lì)回報(bào)以及雙方對(duì)抗勝率等性能指標(biāo)上都有所提高,提升了整個(gè)多智能體系統(tǒng)的決策能力和收斂速度,驗(yàn)證了算法的可行性。
關(guān)鍵詞:多智能體強(qiáng)化學(xué)習(xí);分層強(qiáng)化學(xué)習(xí);集中訓(xùn)練分散執(zhí)行;值函數(shù)分解;技能發(fā)現(xiàn)
中圖分類號(hào):TP181?? 文獻(xiàn)標(biāo)志碼:A??? 文章編號(hào):1001-3695(2023)09-027-2743-06
doi:10.19734/j.issn.1001-3695.2022.12.0795
Research on multi-agent hierarchical reinforcement learning skill discovery
method based on weighted value function decomposition
Zou Qijie1, Li Wenxue1, Gao Bing1, Zhao Xiling1, Zhang Rubo2
(1. Dept. of Information Engineering, Dalian University, Dalian Liaoning 116622, China; 2. Dept. of Mechanical & Electrical Engineering, Dalian Nationalities University, Dalian Liaoning 116600, China)
Abstract:
Aiming at the problem of dimension explosion and sparse rewards caused by the increase in the number of agents and the dynamic instability of the environment in most multi-agent reinforcement learning algorithms, this paper proposed a multi-agent hierarchical reinforcement learning skill discovery algorithm based on weighted value function decomposition. Firstly, the algorithm combined the architecture of centralized training and decentralized execution with hierarchical reinforcement learning, and adopted the method of weighted value function decomposition in the upper level to solve the problem that agents tended to ignore the optimal strategy and chose the suboptimal strategy in the training process. Secondly, it adopted the independent Q learning algorithm in the lower level to enable it to deal with high-dimensional complex tasks in a multi-agent environment in a decentralized manner. Finally, it introduced a skill discovery strategy on the basis of independent Q learning at the lower level, so that agents could learn complementary skills from each other. Compared the algorithm with the multi-agent reinforcement learning algorithms and the hierarchical reinforcement learning algorithms on the two simulation experimental platforms of simple team movement and StarCraft Ⅱ respectively. The experiment shows that the algorithm has improved performance indicators such as rewards and the victory rate of both sides, improves the decision-making ability and convergence speed of the entire multi-agent system, and verifies the feasibility of the algorithm.
Key words:multi-agent reinforcement learning; hierarchical reinforcement learning; centralized training decentralized execution; value function decomposition; skill discovery
0 引言
隨著分布式人工智能的不斷發(fā)展,多智能體系統(tǒng)(multi-agent system,MAS)需要面對(duì)更加復(fù)雜的應(yīng)用場(chǎng)景[1]。然而隨著智能體數(shù)量的不斷增加,智能體狀態(tài)空間呈指數(shù)級(jí)增長(zhǎng),導(dǎo)致智能體對(duì)環(huán)境的探索不足,無法學(xué)習(xí)魯棒的策略。同時(shí),在MAS中,每個(gè)智能體獲得的獎(jiǎng)勵(lì)都與團(tuán)隊(duì)其他智能體的動(dòng)作相關(guān)[2],導(dǎo)致智能體在做出動(dòng)作后無法立刻得到獎(jiǎng)勵(lì),也無法使某個(gè)智能體的獎(jiǎng)勵(lì)最大化,因此多智能體在協(xié)作完成任務(wù)時(shí)會(huì)受到很大的約束。為了適應(yīng)更多數(shù)量的智能體以及更加復(fù)雜的任務(wù)環(huán)境的需要,分層強(qiáng)化學(xué)習(xí)(hierarchical reinforcement learning,HRL)為分布式人工智能計(jì)算提供了新的研究思路。
在多智能體分層強(qiáng)化學(xué)習(xí)領(lǐng)域中,Dietterich[3]提出了一種典型的分級(jí)控制模型方法MAXQ,該算法通過將總?cè)蝿?wù)向下逐層分解為不同的子任務(wù),進(jìn)而遞歸求解各個(gè)子任務(wù),可以有效地解決狀態(tài)維度空間過大的問題。為了提高智能體之間的合作效率,Ahilan等人[4]在Feudal[5]方法和FuNs[6]方法的基礎(chǔ)上對(duì)管理者和工作者進(jìn)行預(yù)定義,工作者根據(jù)管理者制定的目標(biāo)執(zhí)行相應(yīng)的動(dòng)作。Kim等人[7]提出讓智能體在頂層學(xué)習(xí)教學(xué)或者是傳遞知識(shí),對(duì)于獎(jiǎng)勵(lì)評(píng)估較低的動(dòng)作給出建議并進(jìn)行更新,從而加速協(xié)同智能體的學(xué)習(xí)進(jìn)程。Vezhnevets等人[8]將分層多智能體強(qiáng)化學(xué)習(xí)擴(kuò)展到馬爾可夫博弈中,在頂層選擇對(duì)對(duì)手的戰(zhàn)略響應(yīng),在底層實(shí)現(xiàn)響應(yīng)原始動(dòng)作行為的策略。
在技能發(fā)現(xiàn)領(lǐng)域中,Shankar等人[9]提出一種共同學(xué)習(xí)機(jī)器人技能的框架,以及學(xué)習(xí)如何在無監(jiān)督的情況下從演示中使用這些技能來學(xué)習(xí)任務(wù)的時(shí)間分解。DIAYN[10]方法和DADs[11]方法都是基于互信息的目標(biāo)函數(shù)來動(dòng)態(tài)學(xué)習(xí)技能,并且提出將學(xué)習(xí)到的技能用于學(xué)習(xí)HRL的底層策略中。RODE[12]方法提出通過將聯(lián)合動(dòng)作空間分解為受限的角色動(dòng)作空間的方法來實(shí)現(xiàn)可擴(kuò)展的多智能體學(xué)習(xí)。
目前也有研究者借鑒集中訓(xùn)練分散執(zhí)行的思想來實(shí)現(xiàn)多智能體分層,例如Tang等人[13]提出要求每個(gè)智能體都獨(dú)立地學(xué)習(xí)自身的分層策略,并且每個(gè)智能體只能關(guān)心本地信息,將其他智能體視做環(huán)境的一部分進(jìn)行訓(xùn)練和學(xué)習(xí);Yang等人[14]提出一種集中訓(xùn)練分散執(zhí)行的雙層框架來訓(xùn)練和協(xié)調(diào)個(gè)人技能。
但隨著環(huán)境的復(fù)雜程度不斷增大,多智能體環(huán)境存在著各種各樣復(fù)雜且多變的問題[15,16]。本文提出一種基于加權(quán)值函數(shù)分解的多智能體分層強(qiáng)化學(xué)習(xí)的方法(multi-agent hierarchical reinforcement learning method based on weighted QMIX,H-WQMIX)。該算法主要通過采用分層強(qiáng)化學(xué)習(xí)的思想來解決多智能體強(qiáng)化學(xué)習(xí)(multi-agent reinforcement learning,MARL)中出現(xiàn)的維度災(zāi)難和獎(jiǎng)勵(lì)稀疏的問題。針對(duì)維度災(zāi)難問題,本文算法采用頂層集中訓(xùn)練策略,底層分散執(zhí)行各自任務(wù)的框架;同時(shí)在頂層訓(xùn)練智能體協(xié)同策略的時(shí)候引入加權(quán)值函數(shù),使智能體可以更準(zhǔn)確、快速地選擇最優(yōu)策略;在底層執(zhí)行動(dòng)作過程中加入技能發(fā)現(xiàn)的思想,使智能體根據(jù)環(huán)境觀測(cè)信息來選擇合適的技能執(zhí)行動(dòng)作。
1 背景知識(shí)
1.1 集中訓(xùn)練分散執(zhí)行的算法框架
最早,Oliehoek等人[17]提出了集中訓(xùn)練分散執(zhí)行(centra-lized training decentralized execution,CTDE)框架的一些范例。目前該框架已經(jīng)被廣泛用于多智能體強(qiáng)化學(xué)習(xí)中,其中以MADDPG算法中的集中式的critic網(wǎng)絡(luò)和分散式的actor網(wǎng)絡(luò)結(jié)構(gòu)最為常用[18]。多智能體集中critic網(wǎng)絡(luò)和分散actor網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示,其中actor使用策略函數(shù),負(fù)責(zé)生成動(dòng)作ait與環(huán)境進(jìn)行交互;而critic獲取外部環(huán)境的狀態(tài)信息St以及外部獎(jiǎng)勵(lì)rt,使用策略函數(shù)π(h1,ε)評(píng)估actor的表現(xiàn),并指導(dǎo)actor下一階段的動(dòng)作。一個(gè)集中的critic可以從所有以聯(lián)合行動(dòng)為條件的可用狀態(tài)信息中學(xué)習(xí),并且每個(gè)智能體從它自己的觀察行動(dòng)歷史oit中學(xué)習(xí)它的策略。集中的critic只在學(xué)習(xí)過程中使用,而在執(zhí)行過程中只需要分散的actor。
3 仿真設(shè)計(jì)與結(jié)果分析
3.1 實(shí)驗(yàn)環(huán)境平臺(tái)搭建
實(shí)驗(yàn)硬件環(huán)境采用Intel Xeon Silver 4210R CPU+Quadro RTX 6000+32 GB內(nèi)存;軟件環(huán)境使用Ubuntu 20.04+TensorFlow+Torch+pygame。為了驗(yàn)證本文算法的性能,采用文獻(xiàn)[24]中推出的簡(jiǎn)易團(tuán)隊(duì)運(yùn)動(dòng)模擬器(simple team sports simulator,STS2)以及文獻(xiàn)[25]中提出的星際爭(zhēng)霸Ⅱ微觀管理(StarCraft Ⅱ micromanagement,SMAC)兩個(gè)實(shí)驗(yàn)場(chǎng)景。
3.2 簡(jiǎn)易團(tuán)隊(duì)運(yùn)動(dòng)模擬器
3.2.1 實(shí)驗(yàn)設(shè)計(jì)
STS2通過有用的技能模擬類似于人類玩家的智能體和傳統(tǒng)游戲AI玩家的合作。在模擬器的最底層上,智能體的動(dòng)作和移動(dòng)應(yīng)該與真正的人類玩家相似;在最高層次上,智能體應(yīng)該學(xué)習(xí)如何遵循頂層的游戲計(jì)劃;在中等層次上,智能體應(yīng)該學(xué)會(huì)展示技能和協(xié)調(diào)彼此的動(dòng)作。本文所涉及的訓(xùn)練是在一個(gè)中級(jí)的模擬器上進(jìn)行的,該模擬器將游戲規(guī)則和物理元素植入一個(gè)高層次的層面,并將低層次的戰(zhàn)術(shù)抽象出來。模擬器支持任意正整數(shù)N的N對(duì)抗 N匹配。兩支球隊(duì)顯示為紅色(主場(chǎng))和白色(客場(chǎng)),如圖6所示(紅色為在左側(cè)球場(chǎng)得分的本地智能體,白色為在右側(cè)球場(chǎng)得分的AI玩家,被黑色圈住的智能體為控球者(見電子版))。傳統(tǒng)游戲AI玩家由少量規(guī)則和約束組成,這些規(guī)則和約束控制著智能體的游戲策略。模擬器的狀態(tài)信息主要包含每個(gè)隊(duì)球員的坐標(biāo)位置和速度等,離散動(dòng)作集合包含前進(jìn)、后退、左移、右移、傳球、射門、什么都不做。
在本文實(shí)驗(yàn)設(shè)置中,主要設(shè)置在3v3的模式下進(jìn)行訓(xùn)練,訓(xùn)練回合數(shù)為50 000次。兩隊(duì)雙方各設(shè)置三個(gè)球員(智能體),通過人類智能體玩家和傳統(tǒng)游戲AI玩家的合作進(jìn)球來獲取更高的團(tuán)隊(duì)獎(jiǎng)勵(lì)。智能體需要觀測(cè)除自身之外的其他智能體的動(dòng)作和相對(duì)位置信息以及球門的位置。每個(gè)智能體在訓(xùn)練過程中學(xué)習(xí)不同的技能,球員通過阻斷對(duì)方進(jìn)球或者搶奪控球權(quán)或者進(jìn)球獲得獎(jiǎng)勵(lì)。團(tuán)隊(duì)合作運(yùn)動(dòng)場(chǎng)景參數(shù)設(shè)置如表1所示。其中,Home-players表示我方戰(zhàn)隊(duì),Away-players表示對(duì)方戰(zhàn)隊(duì);α用于決定內(nèi)在獎(jiǎng)勵(lì)和外部團(tuán)隊(duì)獎(jiǎng)勵(lì)數(shù)量的動(dòng)態(tài)權(quán)重。首先設(shè)置α=αthreshold,其中αthreshold表示閾值,在訓(xùn)練評(píng)估過程中如果勝率超過這個(gè)閾值,則α值將會(huì)降低αstep。在α值較高時(shí),底層的策略進(jìn)行自主學(xué)習(xí)要執(zhí)行的動(dòng)作,通過選擇有用的動(dòng)作來最大化團(tuán)隊(duì)獎(jiǎng)勵(lì)。隨著α的不斷降低,底層策略跟頂層的技能相關(guān)聯(lián),在技能不同的情況下通過調(diào)整自己的動(dòng)作行為來獲得更多的內(nèi)在獎(jiǎng)勵(lì)。
在本文所設(shè)置的團(tuán)隊(duì)運(yùn)動(dòng)場(chǎng)景中,球隊(duì)雙方的獎(jiǎng)勵(lì)主要來自以下兩個(gè)方面:
a)球隊(duì)雙方是否進(jìn)球的獎(jiǎng)勵(lì)定義,如式(12)所示。
R1=+1? 球隊(duì)進(jìn)球-1? 對(duì)方球隊(duì)進(jìn)球(12)
b)雙方球隊(duì)從對(duì)方手中奪得控球權(quán)的獎(jiǎng)勵(lì)定義,如式(13)所示。
R2=+0.1? 球隊(duì)奪得控球權(quán)-0.1? 對(duì)方球隊(duì)奪得控球權(quán)(13)
球員(agent)每個(gè)回合獲得的總獎(jiǎng)勵(lì)定義為RA=R1+R2。
3.2.2 實(shí)驗(yàn)結(jié)果與討論
在本文算法中,頂層網(wǎng)絡(luò)輸入的是一個(gè)具體的狀態(tài)。經(jīng)過兩層隱藏層,第一層的單元數(shù)設(shè)置為128,第二層的單元數(shù)設(shè)置為256。通過增加第二層的單元數(shù),算法可以較之前更收斂,通過頂層的前向網(wǎng)絡(luò)輸出維數(shù)為64的全局Q值;底層網(wǎng)絡(luò)的兩個(gè)隱藏層每層的單元數(shù)為64,最后輸出當(dāng)前智能體的動(dòng)作。
同時(shí)設(shè)置一個(gè)記憶緩沖池將技能zi和軌跡τ存儲(chǔ)到緩沖池中,每次再?gòu)木彌_池中選擇zi和τ來更新訓(xùn)練。實(shí)驗(yàn)的基本參數(shù)設(shè)置如表2所示。其中:buffer_size表示的是緩沖池大??;batch_size表示的是批尺寸;gamma表示的是折扣因子;tau表示網(wǎng)絡(luò)超參數(shù);lr_Q表示的是頂層的網(wǎng)絡(luò)學(xué)習(xí)率;lr_actor表示的是底層actor網(wǎng)絡(luò)的學(xué)習(xí)率。
本文首先研究了改變頂層權(quán)重函數(shù)參數(shù)的影響,當(dāng)滿足式(8)中的條件,權(quán)重函數(shù)的參數(shù)為ω。如圖7所示,隨著ω值的不斷增加,球隊(duì)的勝率越來越低,性能也越來越差。當(dāng)設(shè)置ω=0.7時(shí),球隊(duì)的勝率最低達(dá)到了10%以下。當(dāng)ω值不斷減小時(shí),勝率的波動(dòng)區(qū)間較大,但最高勝率也未超過50%。所以由圖7可得,當(dāng)設(shè)置參數(shù)為ω=0.5時(shí),性能最好,方差相較之下最小,球隊(duì)的勝率較其他的參數(shù)設(shè)置勝率更高。
為了評(píng)估在團(tuán)體合作運(yùn)動(dòng)中各智能體的學(xué)習(xí)效率,本文算法在STS2模擬器中與HSD、QMIX、IQL方法進(jìn)行對(duì)比。通過50 000回合的迭代評(píng)估來訓(xùn)練該算法模型,得到的算法平均獎(jiǎng)勵(lì)和總獎(jiǎng)勵(lì)結(jié)果如表3所示。
從表3中可以看出,在相同的參數(shù)設(shè)置和環(huán)境條件下,本文算法的平均獎(jiǎng)勵(lì)比HSD方法高了0.072,比QMIX方法高了0.078,比IQL方法高了0.165。其中,雖然HSD采取了分層的結(jié)構(gòu)訓(xùn)練策略,但是HSD并沒有很好地估計(jì)全局Q值,導(dǎo)致其探索的速率稍慢。并且本文方法的方差與其他三個(gè)方法相比更低,收斂更穩(wěn)定,性能更好。
同時(shí),記錄了每100步的平均獎(jiǎng)勵(lì)并繪制出與其他算法相比的平均獎(jiǎng)勵(lì)曲線,如圖8所示。
根據(jù)圖8可以看出,對(duì)比于另外三種方法,本文方法在5 000回合之后出現(xiàn)較明顯的上升趨勢(shì),并且在大約10 000回合的時(shí)候開始收斂,而另外三種方法在大約17 000回合的時(shí)候開始逐漸收斂,本文方法比另外三種方法收斂得更快,且平均獎(jiǎng)勵(lì)在另外三種方法之上。盡管QMIX和IQL方法在多智能體的協(xié)作中可以達(dá)到很好的效果,但是在此環(huán)境的團(tuán)隊(duì)運(yùn)動(dòng)合作中,分層比非分層的學(xué)習(xí)效果更好。與HSD方法相比,本文方法在HSD方法的基礎(chǔ)上增加權(quán)重函數(shù),可以更加準(zhǔn)確地計(jì)算智能體的Q值,從而獲得更高的獎(jiǎng)勵(lì)。
另外,記錄了每100個(gè)回合中球員(agent)擊敗對(duì)手隊(duì)伍的勝率,針對(duì)不同算法的勝率曲線如圖9所示。
從圖9可以看出,盡管在訓(xùn)練前期,本文方法波動(dòng)較大,但是在大約20 000回合之后本文方法的勝率基本上都會(huì)略高于其他三個(gè)方法,勝率最高可以達(dá)到70%。在20 000回合之后,H-WQMIX訓(xùn)練的智能體逐漸能夠根據(jù)自己的位置信息選擇更合適的技能來更好地協(xié)調(diào)多個(gè)智能體之間的合作,進(jìn)而提高在每個(gè)回合中擊敗對(duì)手的勝率。
為了進(jìn)一步驗(yàn)證本文算法的實(shí)驗(yàn)性能,分別在STS2模擬器的參數(shù)設(shè)置中設(shè)置不同的人類智能體玩家和傳統(tǒng)AI玩家的智能體數(shù)量進(jìn)行實(shí)驗(yàn)驗(yàn)證。算法的勝敗次數(shù)對(duì)比如表4所示。
從表4可以看出,在本文設(shè)置的約100個(gè)測(cè)試集中,盡管本文算法在全人類玩家訓(xùn)練時(shí)性能不及QMIX,但是當(dāng)隊(duì)伍中有一個(gè)或者兩個(gè)隊(duì)友被腳本機(jī)器人取代時(shí),H-WQMIX仍然可以表現(xiàn)得很好,這是由于H-WQMIX的底層策略開始是獨(dú)立訓(xùn)練的,在勝率達(dá)到一定的閾值之后與頂層相結(jié)合一起選擇合適的技能來訓(xùn)練。而QMIX和IQL方法表現(xiàn)越來越差,這可能是由于未當(dāng)經(jīng)過訓(xùn)練的機(jī)器人加入隊(duì)伍時(shí),會(huì)給原本依靠完全集中訓(xùn)練的智能體制造很大的困難,導(dǎo)致其性能低下。
3.3 Linux星際爭(zhēng)霸Ⅱ平臺(tái)
3.3.1 實(shí)驗(yàn)設(shè)計(jì)
為了進(jìn)一步驗(yàn)證本文算法的性能,選擇星際爭(zhēng)霸Ⅱ平臺(tái)作為其豐富環(huán)境和高復(fù)雜性環(huán)境的測(cè)試平臺(tái)。在星際爭(zhēng)霸Ⅱ的常規(guī)完整游戲中,一個(gè)或多個(gè)人類相互競(jìng)爭(zhēng)或與內(nèi)置游戲AI進(jìn)行競(jìng)爭(zhēng),以收集資源、建造建筑、組建軍隊(duì)來擊敗對(duì)手。SMAC由一組星際爭(zhēng)霸Ⅱ微場(chǎng)景組成,旨在評(píng)估獨(dú)立智能體協(xié)調(diào)解決復(fù)雜任務(wù)的能力。每一個(gè)場(chǎng)景都是兩個(gè)軍隊(duì)單位之間的對(duì)抗。本文設(shè)置每個(gè)智能體特工的行動(dòng)可以向東南西北四個(gè)主要方向移動(dòng)、停止、什么也不做或者在每個(gè)時(shí)間步選擇一個(gè)敵人進(jìn)行攻擊。
本文將所有地圖的縮放因子λe設(shè)置為10,并收集實(shí)驗(yàn)樣本,利用式(9)所述的損失函數(shù)分別訓(xùn)練200萬個(gè)和500萬個(gè)時(shí)間步長(zhǎng)的預(yù)測(cè)模型,同時(shí)設(shè)置batch_size為32進(jìn)行訓(xùn)練。
3.3.2 實(shí)驗(yàn)結(jié)果與討論
SMAC地圖分為簡(jiǎn)單模式、困難模式以及超難模式三種。為了驗(yàn)證本文算法在復(fù)雜環(huán)境中的性能,主要測(cè)試算法在困難地圖模式(2c_vs_64zg)和超難地圖模式(3s5z_vs_3s6z、corridor、MMM2)下的性能。
在困難地圖模式(2c_vs_64zg)下,如圖10所示。算法在執(zhí)行200萬步的時(shí)候效果就已經(jīng)十分明顯并且逐漸趨于平穩(wěn),且H-WQMIX算法始終優(yōu)于其他算法。
在超難地圖模式(3s5z_vs_3s6z)下,算法在訓(xùn)練后期才會(huì)出現(xiàn)較為明顯的訓(xùn)練結(jié)果。如圖11所示,在地圖中,3名潛行者和5名狂熱者試圖擊敗3名敵方潛行者和6名敵方狂熱者。盡管前期沒有很快地學(xué)習(xí)到好的策略,但是在后期H-WQMIX算法勝率始終高于其他算法。
與3s5z_vs_3s6z 地圖不同的是,在超難地圖模式(corridor)中,6名狂熱者面對(duì)24名敵方蟲族,所有的攻擊動(dòng)作都具有相似的效果,因?yàn)閿橙硕际峭|(zhì)的。如圖12所示,算法在訓(xùn)練的前期效果并不是很理想,盡管在訓(xùn)練后期沒有達(dá)到收斂的效果,但本文算法的勝率仍然遠(yuǎn)遠(yuǎn)高于其他算法。
在超難地圖模式(MMM2)中,雙方軍隊(duì)由1個(gè)醫(yī)療救護(hù)隊(duì),2個(gè)掠奪者和7個(gè)陸戰(zhàn)隊(duì)員對(duì)戰(zhàn)1個(gè)醫(yī)療救護(hù)隊(duì),3個(gè)掠奪者和8個(gè)陸戰(zhàn)隊(duì)員,只有當(dāng)醫(yī)療救護(hù)隊(duì)出現(xiàn)之后,對(duì)抗才開始具備戰(zhàn)斗力。
如圖13所示,H-WQMIX算法雖然相較于QMIX方法并沒有十分明顯的優(yōu)勢(shì),但是較于其他幾個(gè)算法仍然具有很大的優(yōu)勢(shì)。
同時(shí),根據(jù)以上數(shù)據(jù)可以得出,H-WQMIX算法在困難地圖模式中的勝率比其他算法平均提高了約18%;在超難地圖模式中的勝率比其他算法平均提升了約23%。盡管在MMM2地圖中與QMIX方法性能相差不大,但是從收斂效果看,本文算法仍然優(yōu)于其他幾個(gè)算法,并且與HSD方法相比具有更好的遷移性。總的來說,本文方法在SMAC場(chǎng)景中仍然可以保持較好的性能。
4 結(jié)束語
本文提出了一種基于加權(quán)值函數(shù)分解的多智能體分層強(qiáng)化學(xué)習(xí)方法來發(fā)現(xiàn)在團(tuán)隊(duì)活動(dòng)中有用的技能。本文通過集中訓(xùn)練分散執(zhí)行的框架分別訓(xùn)練算法的頂層策略和底層策略,并通過內(nèi)外獎(jiǎng)勵(lì)結(jié)合機(jī)制來解決智能體之間的獎(jiǎng)勵(lì)稀疏以及信度分配的問題。通過對(duì)值函數(shù)進(jìn)行加權(quán)來提高智能體動(dòng)作的有效性,更加準(zhǔn)確地評(píng)估智能體的行為動(dòng)作,從而獲得更高的獎(jiǎng)勵(lì),加快了智能體的學(xué)習(xí)和探索效率。分別在STS2模擬器和星際爭(zhēng)霸Ⅱ平臺(tái)上驗(yàn)證了本文算法的性能和有效性,從實(shí)驗(yàn)結(jié)果可以看出,本文算法在較為簡(jiǎn)單和稍加復(fù)雜的場(chǎng)景中仍然可以保持較好的訓(xùn)練性能,獲得更高的勝率。實(shí)驗(yàn)結(jié)果表明,該算法在不同的操作系統(tǒng)以及實(shí)驗(yàn)平臺(tái)上都表現(xiàn)出了較好的性能,具有十分重要的應(yīng)用價(jià)值,為后期將其應(yīng)用在實(shí)際開發(fā)環(huán)境中奠定了十分重要的基礎(chǔ)。近些年來,DeepMind、OpenAI等人工智能實(shí)驗(yàn)室以及國(guó)外著名大學(xué)研究實(shí)驗(yàn)室,清華大學(xué)智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室以及華為諾亞方舟實(shí)驗(yàn)室等多個(gè)國(guó)內(nèi)外實(shí)驗(yàn)室針對(duì)多智能體強(qiáng)化學(xué)習(xí)和分層強(qiáng)化學(xué)習(xí)的多項(xiàng)研究成果在星際爭(zhēng)霸Ⅱ以及團(tuán)隊(duì)運(yùn)動(dòng)游戲?qū)嶒?yàn)平臺(tái)上都展現(xiàn)了很好的效果,并將其應(yīng)用在解決智能決策、資源智能化調(diào)配、交通控制等民用領(lǐng)域中,同時(shí)也應(yīng)用在可以解決異構(gòu)的多智能體各類戰(zhàn)略協(xié)同的軍事領(lǐng)域中。
在未來,將進(jìn)一步研究子任務(wù)分配的問題,以簡(jiǎn)化和加快智能體的訓(xùn)練步驟。同時(shí)可以引入課程學(xué)習(xí)和策略遷移的思想,將分層強(qiáng)化學(xué)習(xí)擴(kuò)展到解決更多更復(fù)雜大型的多智能體任務(wù)中。
參考文獻(xiàn):
[1]殷昌盛,楊若鵬,朱巍,等. 多智能體分層強(qiáng)化學(xué)習(xí)綜述 [J]. 智能系統(tǒng)學(xué)報(bào),2020,15(4): 646-655. (Yin Changsheng,Yang Ruopeng,Zhu Wei,et al. A survey on multi-agent hierarchical reinforcement learning [J]. CAAI Trans on Intelligent Systems,2020,15(4): 646-655.)
[2]Gronauer S,Diepold K. Multi-agent deep reinforcement learning: a survey [J]. Artificial Intelligence Review,2022,55(2): 895-943.
[3]Dietterich T G. Hierarchical reinforcement learning with the MAXQ value function decomposition [J]. Journal of Artificial Intelligence Research,2000,13(1): 227-303.
[4]Ahilan S,Dayan P. Feudal multi-agent hierarchies for cooperative reinforcement learning [C]// Proc of the 4th Multidisciplinary Confe-rence on Reinforcement Learning and Decision Making. Cambridge,MA: JMLR Press,2019: 57.
[5]Dayan P,Hinton G E. Feudal reinforcement learning [J]. Advances in Neural Information Processing Systems,1992,5: 271-278.
[6]Vezhnevets A S,Osindero S,Schaul T,et al. Feudal networks for hie-rarchical reinforcement learning [C]// Proc of the 34th International Conference on Machine Learning. Edmore,MI: JMLR Press,2017: 3540-3549.
[7]Kim D K,Liu Miao,Omidshafiei S,et al. Learning hierarchical tea-ching in cooperative multiagent reinforcement learning [EB/OL]. (2019) [2022-11-15]. https://arxiv. org/pdf/1903. 03216v2. pdf.
[8]Vezhnevets A,Wu Yuhuai,Eckstein M,et al. Options as responses: grounding behavioural hierarchies in multi-agent reinforcement lear-ning [C]// Proc of the 37th International Conference on Machine Learning. Edmore,MI: JMLR Press,2020: 9733-9742.
[9]Shankar T,Gupta A. Learning robot skills with temporal variational inference [C]// Proc of the 37th International Conference on Machine Learning. Edmore,MI: JMLR Press,2020: 8624-8633.
[10]Eysenbach B,Gupta A,Ibarz J,et al. Diversity is all you need: lear-ning skills without a reward function [C]// Proc of the 6th Internatio-nal Conference on Learning Representations. Edmore,MI: JMLR Press,2018: 1-22.
[11]Sharma A,Gu S,Levine S,et al. Dynamics-aware unsupervised discovery of skills [C]// Proc of the 7th International Conference on Learning Representations. Berkeley,CA: PMLR Press,2019: 1-21.
[12]Wang Tonghan,Gupta T,Mahajan A,et al. RODE: learning roles to decompose multi-agent tasks [EB/OL]. (2020) [2022-11-20]. https://arxiv. org/pdf/2010. 01523. pdf.
[13]Tang Hongyao,Hao Jianye,Lyu Tangjie,et al. Hierarchical deep multiagent reinforcement learning with temporal abstraction [EB/OL]. (2018) [2022-12-01]. https://arxiv. org/pdf/1809. 09332. pdf.
[14]Yang Jiachen,Borovikov I,Zha Hongyuan. Hierarchical cooperative multi-agent reinforcement learning with skill discovery [C]// Proc of the 19th International Conference on Autonomous Agents and Multi-agent Systems.2020: 1566-1574.
[15]曹潔,邵紫旋,侯亮. 基于分層強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛車輛掉頭問題研究 [J]. 計(jì)算機(jī)應(yīng)用研究,2022,39(10): 3008-3012,3045. (Cao Jie,Shao Zixuan,Hou Liang. Research on autonomous vehicle U-turn problem based on hierarchical reinforcement learning [J]. Application Research of Computers,2022,39(10): 3008-3012,3045.)
[16]Zhang Kaiqing,Yang ZhuoranT. Multi-agent reinforcement learning: a selective overview of theories and algorithms [J]. Stu-dies in Systems,Decision and Control,2021,325: 321-384.
[17]Oliehoek F A,Spaan M T J,Vlassis N. Optimal and approximate Q-value functions for decentralized POMDPs [J]. Journal of Artificial Intelligence Research,2008,32(1): 289-353.
[18]Lowe R,Wu Y,Tamar A,et al. Multi-agent actor-critic for mixed cooperative-competitive environments [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 6382-6393.
[19]Tan Ming. Multi-agent reinforcement learning: independent vs. coo-perative agents [C]// Proc of the 10th International Conference on Machine Learning. San Francisco,CA: Morgan Kaufmann Publi-shers,1993: 330-337.
[20]Sunehag P,Lever G,Gruslys A,et al. Value-decomposition networks for cooperative multi-agent learning based on team reward [C]// Proc of the 17th International Conference on Autonomous Agents and Multiagent Systems. 2018: 2085-2087.
[21]Rashid T,Samvelyan M,Schroeder C,et al. QMIX: monotonic value function factorisation for deep multi-agent reinforcement learning [C]// Proc of the 35th International Conference on Machine Lear-ning.2018: 4295-4304.
[22]Rashid T,F(xiàn)arquhar G,Peng Bei,et al. Weighted QMIX: expanding monotonic value function factorisation for deep multi-agent reinforcement learning [J]. Advances in Neural Information Processing Systems,2020,33: 10199-10210.
[23]Ding Fan,Zhu Fei. HLifeRL: a hierarchical lifelong reinforcement learning framework [J]. Journal of King Saud University-Computer and Information Sciences,2022,34(7): 4312-4321.
[24]Zhao Yunqi,Borovikov I,Rupert J,et al.On multi-agent learning in team sports games[EB/OL].(2019)[2023-02-19].https://arxiv.53yu.com/pdf/1906.10124.pdf.
[25]Samvelyan M,Rashid T,De Witt C S,et al. The StarCraft multi-agent challenge [C]// Proc of the 18th International Conference on Auto-nomous Agents and Multiagent Systems. Rech Land,SC: IFAAMAS.org,2019: 2186-2188.
收稿日期:2022-12-10;修回日期:2023-02-22? 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61673084);2021年遼寧省教育廳項(xiàng)目(LJKZ1180)
作者簡(jiǎn)介:鄒啟杰(1978-),女,山東黃縣人,副教授,碩導(dǎo),博士,主要研究方向?yàn)橹悄荞{駛、計(jì)算機(jī)視覺、智能規(guī)劃與決策;李文雪(1997-),女(通信作者),山東臨沂人,碩士,主要研究方向?yàn)槎嘀悄荏w深度強(qiáng)化學(xué)習(xí)、分層強(qiáng)化學(xué)習(xí)(li_wenx@163.com);高兵(1976-),男,遼寧鐵嶺人,副教授,碩導(dǎo),博士,主要研究方向?yàn)榇髷?shù)據(jù)分析、知識(shí)圖譜;趙錫玲(1999-),女,山東濟(jì)南人,碩士研究生,主要研究方向?yàn)榉謱訌?qiáng)化學(xué)習(xí);張汝波(1963-),男,吉林人,教授,院長(zhǎng),主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、智能規(guī)劃
.