亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于通信的協(xié)作型多智能體強(qiáng)化學(xué)習(xí)算法綜述

2023-09-04 03:02:36田琪,吳飛

航天控制 2023年4期

田琪,吳飛

浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,杭州 310000

0 引言

令智能體擁有類似人類的行為決策能力一直是人工智能研究人員追求的終極目標(biāo)之一,近年來(lái)深度強(qiáng)化學(xué)習(xí)技術(shù)的快速發(fā)展使得這個(gè)目標(biāo)成為可能,例如2017年5月,基于深度強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練的AlphaGo[1]智能體在中國(guó)烏鎮(zhèn)圍棋峰會(huì)上擊敗了排名世界第一的世界圍棋冠軍柯潔,這預(yù)示著單智能體在特定決策任務(wù)上已經(jīng)擁有超越人類的能力。自從AlphaGo出現(xiàn)后,激發(fā)了深度強(qiáng)化學(xué)習(xí)社區(qū)的研究熱潮,其中一個(gè)重要的研究方向就是協(xié)作型多智能體強(qiáng)化學(xué)習(xí)[2](Cooperative Multi-Agent Reinforc-ement Learning,CMARL)技術(shù)。不同于AlphaGo這種單智能體決策模型,協(xié)作型多智能體強(qiáng)化學(xué)習(xí)旨在為多個(gè)智能體訓(xùn)練其對(duì)應(yīng)的策略模型,從而使得這些智能體能夠合作以完成一個(gè)共同的目標(biāo)任務(wù)。

傳統(tǒng)的協(xié)作型多智能體強(qiáng)化學(xué)習(xí)在訓(xùn)練階段允許訪問(wèn)環(huán)境的全局信息和每個(gè)智能體的局部信息,但在執(zhí)行階段只允許每個(gè)智能體根據(jù)自身的局部觀測(cè)執(zhí)行下一步的動(dòng)作,如圖1(a)所示。這顯然不是最優(yōu)的方式,因?yàn)樵诙嘀悄荏w環(huán)境中每個(gè)智能體的決策不僅僅與自身觀測(cè)有關(guān),還與其他智能體有關(guān)。為了緩解這個(gè)問(wèn)題,如圖1(b)所示,在傳統(tǒng)的協(xié)作型多智能體強(qiáng)化學(xué)習(xí)的基礎(chǔ)上,近期許多研究者指出如果允許多個(gè)智能體在訓(xùn)練和執(zhí)行期間相互交換信息,那么每個(gè)智能體就能更好地執(zhí)行下一步的動(dòng)作,這種學(xué)習(xí)范式被稱為基于通信的多智能體強(qiáng)化學(xué)習(xí)算法。

圖1 傳統(tǒng)/基于通信的多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練/執(zhí)行階段

本文將針對(duì)這種通信類的算法進(jìn)行綜述。即首先介紹基于通信的協(xié)作型多智能體強(qiáng)化學(xué)習(xí)技術(shù)基礎(chǔ),然后列舉出這個(gè)領(lǐng)域中具有代表性的工作,包括傳統(tǒng)的通信算法、受限帶寬下的通信算法,接著說(shuō)明基于通信的協(xié)作型多智能體強(qiáng)化學(xué)習(xí)技術(shù)在航天領(lǐng)域的應(yīng)用,最后對(duì)本文的內(nèi)容進(jìn)行總結(jié)。

1 通信機(jī)制

1.1 問(wèn)題定義

基于通信的協(xié)作型多智能體強(qiáng)化學(xué)習(xí)由去中心化的部分可觀察馬爾可夫決策過(guò)程[3](Decentralized Partially Observable Markov Decision Process,Dec-POMDP)擴(kuò)展而來(lái),它可以被定義為一個(gè)元組〈N,S,A,T,R,O,M,Ω,γ〉,其中N表示智能體的數(shù)量、S表示環(huán)境的全局狀態(tài)空間、A={ai}i=1,2,…,N表示動(dòng)作集合、T(s′|s,a):S×A→S表示狀態(tài)轉(zhuǎn)移函數(shù)、a=[a1,a2,…,aN]表示聯(lián)合動(dòng)作空間、R={ri}i=1,2,…,N:S×A→N表示一組獎(jiǎng)勵(lì)函數(shù),在某些設(shè)置下可以是1個(gè)共享獎(jiǎng)勵(lì)、O={oi}i=1,2,…,N表示所有智能體的局部觀測(cè)集合、Ω(s,i):→Oi是決定智能體i局部觀測(cè)的觀測(cè)函數(shù)、γ表示折扣因子、M={mi}i=1,2,…,N表示消息空間,其中mi表示智能體i發(fā)送的消息,它通常通過(guò)神經(jīng)網(wǎng)絡(luò)編碼局部觀測(cè)oi獲得。每個(gè)智能體都會(huì)收到由其他智能體發(fā)送消息m-i=[m1,…,mi-1,mi+1,…,mN]以做出更好的決策,最終的目標(biāo)是最大化獎(jiǎng)勵(lì)函數(shù)。

1.2 訓(xùn)練框架

目前基于通信的協(xié)作型多智能體強(qiáng)化學(xué)習(xí)主要使用Q-學(xué)習(xí)[4]風(fēng)格的訓(xùn)練框架和演員家-評(píng)論家[5]的訓(xùn)練框架。Q-學(xué)習(xí)風(fēng)格的訓(xùn)練框架將智能體網(wǎng)絡(luò)建模為Q函數(shù)Qi(oi,ai,m-i),典型的訓(xùn)練方法是QMIX[6],該方法的損失函數(shù)如下:

(1)

其中:Qtot表示混合網(wǎng)絡(luò),(·)-表示目標(biāo)網(wǎng)絡(luò),(·)′表示下一個(gè)時(shí)刻的變量。這種智能體的建模方式主要處理離散動(dòng)作空間的問(wèn)題。

演員家-評(píng)論家的訓(xùn)練框架將智能體網(wǎng)絡(luò)建模為策略πi(ai|oi,m-i),典型的訓(xùn)練方法是MAPPO[7],該方法中具有參數(shù)θi的每個(gè)策略πi的更新策略梯度如下:

(2)

2 深度強(qiáng)化學(xué)習(xí)算法

基于通信的協(xié)作型多智能體強(qiáng)化學(xué)習(xí)的重點(diǎn)是如何處理智能體之間傳遞的消息。具體來(lái)說(shuō),對(duì)于智能體i,其接收的消息可以被表示為m-i=[m1,…,mi-1,mi+1,…,mN],這些來(lái)自其他智能體的消息mj(?j≠i)應(yīng)該通過(guò)怎樣的交流模塊進(jìn)行聚合是基于通信的協(xié)作型多智能體強(qiáng)化學(xué)習(xí)算法關(guān)注的重點(diǎn),當(dāng)m-i聚合完成后,代入到式(1)或式(2)的訓(xùn)練框架中即可完成多智能體系統(tǒng)的訓(xùn)練。目前已經(jīng)涌現(xiàn)了許多基于通信的協(xié)作型多智能體強(qiáng)化學(xué)習(xí)算法的文獻(xiàn),本文將這些文獻(xiàn)分為傳統(tǒng)通信方法和受限帶寬通信方法2類,前者的目的是希望多智能體系統(tǒng)在加入通信模塊后可以最大化提升系統(tǒng)的整體性能,后者是希望通信模塊在增益系統(tǒng)性能的同時(shí)盡量占用更少的通信帶寬,從而壓縮冗余的通信消息。下面本文將依次介紹這2類算法。

2.1 傳統(tǒng)通信方法

傳統(tǒng)通信方法旨在通過(guò)交流模塊幫助多智能體能夠更好地完成一個(gè)合作任務(wù),如圖2所示,其可以分為全連接通信、局部連接通信和加權(quán)連接通信3種類別。全連接通信是指每個(gè)智能體會(huì)接收來(lái)自其他智能體傳輸?shù)乃邢?如圖2(a)。局部連接通信是指每個(gè)智能體只會(huì)接收部分智能體傳來(lái)的信息,因?yàn)椴⒎撬邢⒍紝?duì)自身決策有用,過(guò)多的冗余消息反而會(huì)成為噪聲,對(duì)決策產(chǎn)生負(fù)面影響,如圖2(b)。加權(quán)連接通信是每個(gè)智能體按重要性權(quán)重采納其他智能體傳來(lái)的消息,而不是完全接受或者完全否定,是一種更合理的方式,如圖2(c)。下面介紹這3類傳統(tǒng)通信方法的代表方法。

圖2 傳統(tǒng)通信方法的分類

對(duì)于全連接通信,CommNet[8]是其典型代表,也是該領(lǐng)域最早的工作之一,后續(xù)的許多工作都是基于該方案的改進(jìn)。

圖3 CommNet的消息聚合機(jī)制

(3)

對(duì)于局部連接通信,IC3 Net[10]是典型代表。如圖4所示,該方法的總體訓(xùn)練框架和CommNet非常相似,主要的不同是每個(gè)智能體在第k輪交流時(shí)都會(huì)學(xué)習(xí)一個(gè)神經(jīng)網(wǎng)絡(luò)fgk,該神經(jīng)網(wǎng)絡(luò)將智能體上一層的輸出數(shù)據(jù)作為輸入,并從0或者1中預(yù)測(cè)一個(gè)值,如果結(jié)果為0表示對(duì)應(yīng)智能體的信息不參與聚合,如果結(jié)果為1表示對(duì)應(yīng)智能體的信息參與聚合。它就像一個(gè)門(mén)控開(kāi)關(guān)一樣,因此被稱為基于門(mén)機(jī)制的神經(jīng)網(wǎng)絡(luò)。

圖4 IC3 Net的消息聚合機(jī)制

(4)

表1 傳統(tǒng)通信方法的總結(jié)

對(duì)于加權(quán)連接通信,TarMAC[15]是其典型的代表,它主要是將自然語(yǔ)言處理領(lǐng)域中的注意力機(jī)制引入到多智能體交流模塊中。

圖5 TarMAC的消息聚合機(jī)制

(5)

(6)

(7)

這種基于注意力的方法也啟發(fā)了后續(xù)一系列工作,如DGN[16],SymbC[17],它們具體的建模方式與TarMAC略有不同。實(shí)際上局部連接通信和加權(quán)連接通信并不矛盾,一些工作將它們的思想融合,實(shí)現(xiàn)了更優(yōu)的性能,比如G2A[18],MAGIC[19],MAIC[20]。表1簡(jiǎn)單總結(jié)了傳統(tǒng)通信方法,其中類型A/B/C分別表示全/局部/加權(quán)連接通信。

2.2 受限帶寬通信

傳統(tǒng)通信方法不限制通信帶寬,只要對(duì)多智能體系統(tǒng)有利的消息都允許進(jìn)行傳遞,然而在現(xiàn)實(shí)場(chǎng)景中如果通信占用太多的帶寬,將消耗大量的資源,因此以受限帶寬下的多智能體交流為主題的研究方向逐漸受到研究者的重視。這一研究領(lǐng)域的關(guān)鍵是如何對(duì)通信消息進(jìn)行壓縮,為了將這部分的工作放在一種統(tǒng)一的視角下討論,可以將多智能體交流看作交流圖上的信息流動(dòng),其中圖的節(jié)點(diǎn)就是每個(gè)智能體需要傳遞的消息,圖的邊是信息流動(dòng)的方向,那么交流圖的信息壓縮可以被分為結(jié)構(gòu)壓縮和節(jié)點(diǎn)壓縮。結(jié)構(gòu)壓縮是指每個(gè)智能體應(yīng)該盡可能少地和它們智能體交流,節(jié)點(diǎn)壓縮是指當(dāng)確定兩個(gè)智能體需要交流時(shí),傳輸?shù)男畔⒁矐?yīng)該是簡(jiǎn)潔的。

對(duì)于結(jié)構(gòu)壓縮類的工作,GACML[21]是典型代表。

如圖6所示,GACML與圖4中的IC3 Net非常相似,對(duì)于智能體i,其輸出hi可以表示為:

圖6 GACML的消息聚合機(jī)制

(8)

GACML與IC3 Net主要有如下幾點(diǎn)區(qū)別:1) 由于帶寬受限,GACML只考慮單輪通信而不像IC3 Net那樣建模為多輪通信。2) 消除了IC3 Net中f函數(shù)的tanh激活單元。3) 消息融合方式從IC3 Net中簡(jiǎn)單求均值變?yōu)橐粋€(gè)融合網(wǎng)絡(luò)ffusion。4) 門(mén)控單元函數(shù)的學(xué)習(xí)不再是與智能體策略網(wǎng)絡(luò)聯(lián)合訓(xùn)練,而是建模為二分類的監(jiān)督學(xué)習(xí),其標(biāo)簽可以表示為:

(9)

(10)

對(duì)于節(jié)點(diǎn)壓縮類的工作,IMAC[24]是典型代表。它的主要思想是利用信息瓶頸理論[25]構(gòu)建如下有約束的優(yōu)化問(wèn)題:

LMARLs.t.MI(oi;mi)≤Ic

(11)

其中:優(yōu)化目標(biāo)是原始的多智能體強(qiáng)化學(xué)習(xí)損失函數(shù)LMARL,它可以被實(shí)例化為式(1)或式(2)、MI(·;·)表示互信息、Ic表示約束的信息項(xiàng)、s.t.表示在優(yōu)化過(guò)程中局部觀測(cè)oi和消息表征mi的互信息應(yīng)該限制到信息量Ic以下。從總體上看,該式子的含義是希望消息表征mi在滿足多智能體任務(wù)的前提下,盡可能地壓縮消息表征mi的信息量,從而減少消息對(duì)帶寬的占用。為了求解這個(gè)問(wèn)題,需要用拉格朗日方程將這個(gè)帶約束的優(yōu)化問(wèn)題轉(zhuǎn)換為無(wú)約束優(yōu)化問(wèn)題,然而即使進(jìn)行了這樣的轉(zhuǎn)換,損失函數(shù)中的互信息項(xiàng)依然難以優(yōu)化,因此研究者通過(guò)變分推理獲得了互信息項(xiàng)的變分上界,使整個(gè)損失可以實(shí)現(xiàn)端到端的優(yōu)化。后續(xù)提出的NDQ[26]借鑒了上述思想,并設(shè)計(jì)了2個(gè)互信息項(xiàng)以同時(shí)約束消息表征的簡(jiǎn)潔性和緊湊性。表2簡(jiǎn)單總結(jié)了所有受限帶寬的通信方法,其中類型A/B分別屬于結(jié)構(gòu)壓縮/節(jié)點(diǎn)壓縮類型的文獻(xiàn)。

表2 受限帶寬通信方法的總結(jié)

3 在航天領(lǐng)域的應(yīng)用

基于通信的多智能體強(qiáng)化學(xué)習(xí)在合作型的衛(wèi)星群控制領(lǐng)域擁有廣闊的應(yīng)用前景,比如美國(guó)太空探索技術(shù)公司SpaceX近期提出了一種名為“星鏈”的項(xiàng)目,該項(xiàng)目計(jì)劃2019～2024年間在太空搭建由約1.2萬(wàn)顆衛(wèi)星組成的“星鏈”網(wǎng)絡(luò)提供互聯(lián)網(wǎng)服務(wù),其中1584顆將部署在地球上空550 km處的近地軌道,并從2020年開(kāi)始工作。在這個(gè)場(chǎng)景下,每個(gè)“星鏈”衛(wèi)星可以看作為一個(gè)智能體,為了使衛(wèi)星群盡可能多地有效覆蓋地球表面,需要精密控制衛(wèi)星群的行動(dòng)軌跡;另一方面,避免不同衛(wèi)星間的碰撞也是非常重要的環(huán)節(jié),而交流機(jī)制可以很好地使每個(gè)智能體理解其他智能體下一步可能的動(dòng)作,從而優(yōu)化多個(gè)衛(wèi)星的群體運(yùn)行軌跡。

4 結(jié)論

首先介紹了基于通信的協(xié)作型多智能體強(qiáng)化學(xué)習(xí)與傳統(tǒng)協(xié)作型多智能體深度強(qiáng)化學(xué)習(xí)的區(qū)別,然后詳細(xì)說(shuō)明了多智能體強(qiáng)化學(xué)習(xí)中的通信機(jī)制,接著對(duì)常見(jiàn)的基于通信的協(xié)作型多智能體深度強(qiáng)化學(xué)習(xí)算法進(jìn)行了分類和介紹,指出這類算法在航天領(lǐng)域的應(yīng)用前景,最后對(duì)文章進(jìn)行總結(jié)。