亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        無人集群系統(tǒng)行為決策學(xué)習(xí)獎勵機(jī)制

        2022-01-15 09:12:54張婷婷藍(lán)羽石宋愛國
        關(guān)鍵詞:機(jī)制智能環(huán)境

        張婷婷,藍(lán)羽石,宋愛國

        (1.陸軍工程大學(xué)指揮控制工程學(xué)院,南京 210017; 2.中國電子科技集團(tuán)公司第二十八研究所,南京 210017;3.東南大學(xué)儀器科學(xué)與工程學(xué)院,南京 210096)

        無人集群系統(tǒng)是近年來國內(nèi)外軍事領(lǐng)域發(fā)展的重要作戰(zhàn)系統(tǒng),推動無人作戰(zhàn)樣式由“單平臺遙控作戰(zhàn)”向“智能集群作戰(zhàn)”發(fā)展[1]。例如,無人機(jī)集群作戰(zhàn)是無人集群系統(tǒng)典型的作戰(zhàn)樣式。無人集群系統(tǒng)可以看作是由若干同構(gòu)或者異構(gòu)的無人裝備通過自組織構(gòu)成的智能群體,形成分布式感知、目標(biāo)識別、自主決策及協(xié)同規(guī)劃與攻擊能力,具有交互學(xué)習(xí)和智能涌現(xiàn)的群體智能特征[2]。人類期望無人集群有自學(xué)習(xí)、自決策的自主作戰(zhàn)能力,隨著人工智能技術(shù)的發(fā)展,無人系統(tǒng)行為自主決策成為可能[3]。無人集群系統(tǒng)往往面臨對抗任務(wù),在此類情況下,實(shí)現(xiàn)各個無人執(zhí)行模塊高效準(zhǔn)確地協(xié)同完成既定任務(wù),亟須研究構(gòu)建在對抗環(huán)境中無人系統(tǒng)協(xié)同完成任務(wù)的高效行為決策方法,如何提高自主行為決策效率是關(guān)鍵問題。目前,勘測、偵察及公共安全等領(lǐng)域所采用的大多既定環(huán)境和任務(wù)規(guī)劃下的協(xié)同操作策略,缺乏對抗任務(wù)下多無人系統(tǒng)自適應(yīng)感知與自主協(xié)同的行為生成策略。在雙方對抗任務(wù)中,從單個無人系統(tǒng)視角看,其他協(xié)同無人系統(tǒng)也是動態(tài)變化的,行為是未知的,導(dǎo)致執(zhí)行環(huán)境動態(tài)性增強(qiáng),增加無人系統(tǒng)適應(yīng)動態(tài)環(huán)境的不確定性和行為自主決策學(xué)習(xí)的復(fù)雜度,改變傳統(tǒng)單智能體學(xué)習(xí)所依賴的環(huán)境轉(zhuǎn)移的不確定性,導(dǎo)致智能體學(xué)習(xí)的復(fù)雜度。

        目前,多智能體深度強(qiáng)化學(xué)習(xí)用于無人集群系統(tǒng)自主行為策略學(xué)習(xí)是主流的方法。無人系統(tǒng)通過試探和獎勵反饋形成決策行為。在設(shè)計時,通常會精心設(shè)計信息豐富的獎勵功能,以引導(dǎo)無人系統(tǒng)正確的行為策略。對于許多實(shí)際問題來說,定義一個好的獎勵函數(shù)并非易事。例如,只在無人系統(tǒng)成功完成任務(wù)時獎勵,為了完成這個任務(wù)需要長時間的試探行動過程,那么獎勵就變得很少,在疏松獎勵情況下,無人系統(tǒng)策略學(xué)習(xí)效率非常低。本文增加動作空間邊界碰撞懲罰、智能體間時空距離約束滿足程度獎勵;同時通過智能體在群體中的關(guān)系特性,增加智能體間經(jīng)驗(yàn)共享,進(jìn)一步優(yōu)化學(xué)習(xí)效率。在實(shí)驗(yàn)中將先驗(yàn)增強(qiáng)的獎勵機(jī)制和經(jīng)驗(yàn)共享應(yīng)用到多智能體深度確定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)算法中,多智能體行為學(xué)習(xí)效率顯著提升。

        1 相關(guān)工作

        2017年,谷歌的DeepMind團(tuán)隊(duì)開創(chuàng)性地提出MADDPG算法[4],實(shí)現(xiàn)多智能體在協(xié)同與對抗的復(fù)雜場景中的自主行為決策學(xué)習(xí),該算法考慮到智能體之間的協(xié)同與對抗關(guān)系,設(shè)計協(xié)同與對抗關(guān)系獎勵函數(shù)。另外,該算法對所有智能體策略進(jìn)行估計,訓(xùn)練時充分利用全局信息,執(zhí)行時策略只用局部信息,以緩解執(zhí)行環(huán)境不穩(wěn)定問題。利用該算法可以解決連續(xù)動作空間的無人集群自主對抗策略生成問題。

        MADDPG算法雖然解決了多Agent環(huán)境的不穩(wěn)定問題,但解優(yōu)化性能不好。深度強(qiáng)化學(xué)習(xí)中最大的難點(diǎn)是對領(lǐng)域問題求解時獎勵函數(shù)的設(shè)計,擴(kuò)展至多智能體場景時,這一問題更加顯著,直接決定了智能體是否能學(xué)到目標(biāo)策略,并影響算法的收斂性和最終的實(shí)現(xiàn)效果。近年來,諸多學(xué)者圍繞該問題進(jìn)行了研究。文獻(xiàn)[5]提出了一種帶有網(wǎng)絡(luò)參數(shù)共享機(jī)制的MADDPG算法,在此基礎(chǔ)上,針對多智能體合作場景中獎勵函數(shù)設(shè)計難題,提出了一種基于群體目標(biāo)狀態(tài)的獎勵函數(shù),并進(jìn)一步把帶優(yōu)先級的經(jīng)驗(yàn)重放方法引入多智能體領(lǐng)域,訓(xùn)練出了穩(wěn)定的協(xié)同策略。文獻(xiàn)[6]提出了一種基于赫布跡和行動者-評價者框架的多智能體強(qiáng)化學(xué)習(xí)方法,利用赫布跡加強(qiáng)游動策略的學(xué)習(xí)記憶能力,基于同構(gòu)思想實(shí)現(xiàn)了多智能體的分布式學(xué)習(xí)。文獻(xiàn)[7]提出了一種改進(jìn)的多目標(biāo)追蹤方法,基于追蹤智能體和目標(biāo)智能體數(shù)量及其環(huán)境信息建立任務(wù)分配模型,運(yùn)用匈牙利算法根據(jù)距離效益矩陣對其進(jìn)行求解,得到多個追蹤智能體的任務(wù)分配情況,并以縮短目標(biāo)智能體的追蹤路徑為優(yōu)化目標(biāo)進(jìn)行任務(wù)分工,同時利用多智能體協(xié)同強(qiáng)化學(xué)習(xí)算法使多個智能體在相同環(huán)境中不斷重復(fù)執(zhí)行探索—積累—學(xué)習(xí)—決策過程,最終根據(jù)經(jīng)驗(yàn)數(shù)據(jù)更新策略完成多目標(biāo)追蹤任務(wù)。文獻(xiàn)[8]提出一種基于MADDPG的改進(jìn)算法——GAED-MADDPG,解決了多智能體強(qiáng)化學(xué)習(xí)算法收斂時間過長和可能無法收斂的問題。文獻(xiàn)[9]提出了基于并行優(yōu)先經(jīng)驗(yàn)回放機(jī)制的MADDPG算法(PPER-MADDPG),采用并行方法完成經(jīng)驗(yàn)回放池數(shù)據(jù)采樣,并在采樣過程中引入優(yōu)先回放機(jī)制,實(shí)現(xiàn)經(jīng)驗(yàn)數(shù)據(jù)并行流動,數(shù)據(jù)處理模型并行工作,經(jīng)驗(yàn)數(shù)據(jù)優(yōu)先回放,提升了MADDPG算法性能。文獻(xiàn)[10]在基于MADDPG算法的基礎(chǔ)上,設(shè)計了一種CGF空戰(zhàn)策略生成算法,為了提高空戰(zhàn)策略生成算法的效率,提出了一種基于潛力的獎勵形成方法,得到的策略具有較好的收斂性和較好的空戰(zhàn)性能。文獻(xiàn)[11]提出了一種基于經(jīng)典MDRL算法的MADDPG并行評價方法(MADDPG-PC),引入了一種策略平滑技術(shù)來減小學(xué)習(xí)策略的方差,提高了多智能體協(xié)同競爭環(huán)境下訓(xùn)練的穩(wěn)定性和性能。文獻(xiàn)[12]針對MADDPG算法學(xué)習(xí)效率低、收斂速度慢的問題,研究了一種優(yōu)先體驗(yàn)重放(PER)機(jī)制,提出了一種優(yōu)先體驗(yàn)重放MADDPG(PER-MADDPG)算法,基于時間差(TD)誤差,設(shè)計了優(yōu)先級評估功能,以確定從回放緩沖區(qū)中優(yōu)先采樣的體驗(yàn),解決了智能體學(xué)習(xí)效率低、算法收斂速度慢的問題。

        通過實(shí)驗(yàn)發(fā)現(xiàn),僅采用現(xiàn)有的MADDPG算法用于無人集群系統(tǒng)協(xié)同對抗行為策略生成,獎勵為稀疏獎勵,在訓(xùn)練過程中,獎勵信號變化不明顯,導(dǎo)致智能體采用策略梯度算法進(jìn)行探索時成功樣本數(shù)量少,需要長時間訓(xùn)練才能達(dá)到最優(yōu)策略,算法的收斂性表現(xiàn)較差,從而很難真正意義上實(shí)現(xiàn)對抗任務(wù)下無人集群系統(tǒng)自主行為快速學(xué)習(xí),需要提高算法收斂效率。

        本文改進(jìn)MADDPG算法的獎勵機(jī)制,提出Per-Distance獎勵機(jī)制。①引入動作空間邊界的懲罰、智能體時空距離懲罰,解決延遲獎勵問題,以提高無人集群系統(tǒng)行為學(xué)習(xí)效率;②通過智能體在群體中的關(guān)系特性,增加智能體間經(jīng)驗(yàn)共享,提高無人集群系統(tǒng)合作學(xué)習(xí)效率。通過實(shí)驗(yàn)驗(yàn)證該方法提高了行為學(xué)習(xí)收斂速度,使其更加穩(wěn)定。從而提高對抗任務(wù)下無人集群行為決策學(xué)習(xí)的效率。

        2 問題描述

        針對無人集群系統(tǒng)用多智能體強(qiáng)化學(xué)習(xí)算法解決行為策略學(xué)習(xí),存在獎勵稀松、學(xué)習(xí)效率低下的問題,本文采用MADDPG算法為學(xué)習(xí)算法,重新設(shè)計獎勵函數(shù),用于紅方無人機(jī)群協(xié)同圍捕藍(lán)方無人機(jī)任務(wù)案例中,以無人機(jī)為智能體實(shí)體,驗(yàn)證無人機(jī)群協(xié)同自主圍捕行為效率。

        2.1 無人機(jī)運(yùn)動學(xué)模型

        無人機(jī)集群協(xié)同圍捕是集群作戰(zhàn)的典型樣式,作戰(zhàn)空域內(nèi)存在多個捕食者和逃逸者,兩方無人機(jī)具有相反的戰(zhàn)術(shù)目的,捕食者要追擊捕食逃逸者,而逃逸者要躲避遠(yuǎn)離捕食者追蹤。多無人機(jī)的捕食-逃逸場景如圖1所示。

        圖1 捕食-逃逸幾何模型Fig.1 Geometric predation-escape model

        本文假定捕食-逃逸問題在有限的二維平面內(nèi)進(jìn)行,圖1為二維平面區(qū)域的捕食-逃逸對抗的笛卡兒直角坐標(biāo)系,捕食者i和逃逸者p的速度分別為vi、vp,速度航向角分別為ψi、ψp。捕食者無人機(jī)的運(yùn)動學(xué)方程為

        捕食者和逃逸者的運(yùn)動需滿足邊界約束:

        式中:xmin、ymin分別為環(huán)境邊界的最小橫縱坐標(biāo);xmax、ymax分別為環(huán)境邊界的最大橫縱坐標(biāo)。當(dāng)捕食者和逃逸者觸碰到邊界速度降為零。

        2.2 MADDPG算法

        2.2.1 算法核心思想

        在多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練過程中,每個智能體的動作是實(shí)時變換的,從單智能體視角觀測到的環(huán)境是不斷變化的,從而造成學(xué)習(xí)算法收斂性差是多智能體深度強(qiáng)化學(xué)習(xí)當(dāng)下的困境。為解決該問題,MADDPG算法引入中心化訓(xùn)練、分布式執(zhí)行的方法,采用Actor-Critic(動作-評價)網(wǎng)絡(luò)更新策略,以解決訓(xùn)練不穩(wěn)定性問題。具體方法是:在智能體訓(xùn)練時,將其他智能體的動作信息Actor加入到環(huán)境狀態(tài)中,在t時刻,添加所有智能體的執(zhí)行動作,作為下一個時刻t'的環(huán)境狀態(tài),加入可以觀察全局的Critic網(wǎng)絡(luò)來指導(dǎo)Actor網(wǎng)絡(luò)訓(xùn)練。測試時只使用有局部觀測的Actor采取行動,將不穩(wěn)定的環(huán)境狀態(tài)變?yōu)榉€(wěn)定的環(huán)境狀態(tài),降低多智能體行為決策的復(fù)雜度。

        2.2.2 基本假設(shè)

        MADDPG算法遵循馬爾可夫決策過程[13],可以定義為一個多元組〈S,A1,A2,…,An,R1,R2,…,Rn,T,O,γ〉。智能體所處的環(huán)境中包含了n個智能體,S為環(huán)境的狀態(tài)空間。Ai(i=1,…,n)表示單個智能體i的動作空間,而A1×A2×… ×An表示所有智能體的聯(lián)合動作空間。Ri由一系列的ri求和而成,表示智能體i的獎勵總額,ri為多智能體執(zhí)行聯(lián)合動作A時,從狀態(tài)s∈S轉(zhuǎn)移到狀態(tài)s′∈S時智能體i所獲得的即時獎勵。T:S×A×S→[0,1]為狀態(tài)轉(zhuǎn)移函數(shù),表示多智能體在狀態(tài)S下,執(zhí)行聯(lián)合動作A后轉(zhuǎn)移到狀態(tài)S′的概率分布。oi∈O為智能體i對環(huán)境的觀測值,觀測屬性又可以分為部分觀測和完全觀測。γ為折扣因子,用于調(diào)節(jié)長期獎勵與即時獎勵之間的權(quán)重。在多智能環(huán)境中,狀態(tài)轉(zhuǎn)移是所有智能體共同行動的結(jié)果。n個智能體根據(jù)自身的觀測值oi及所獲得的即時獎勵ri做出行為決策ai,共同輸出聯(lián)合動作A促使環(huán)境狀態(tài)S發(fā)生轉(zhuǎn)移。因此,智能體的獎勵與聯(lián)合策略有關(guān)。所有智能體的參數(shù)集合為θ={θ1,θ2,…,θn}。假設(shè)智能體每次采用的確定性策略為μ,每一步的動作都可以通過公式at=μ(St)獲得,而執(zhí)行某一策略后獲得的獎勵,獎勵值大小由Q函數(shù)決定,實(shí)現(xiàn)確定通信方式下多智能體的競爭、合作博弈。

        算法運(yùn)行條件為:①學(xué)習(xí)策略基于單Agent視角觀測信息;②Agent自身的行為僅僅取決于策略;③Agent之間的通信為全聯(lián)通模式。

        2.2.3 算法執(zhí)行

        算法執(zhí)行過程如圖2所示。區(qū)別于共享環(huán)境下Agent視角,每個Agent的輸入狀態(tài)不一樣,每個執(zhí)行者與環(huán)境交互,無需關(guān)注其他Agent狀態(tài),環(huán)境輸出下一個全信息狀態(tài)Sall后,執(zhí)行者Actor1和Actor2只能獲取自己能夠觀測到的部分狀態(tài)信息s1、s2,分別執(zhí)行圖2中綠色線標(biāo)識的循環(huán)部分。訓(xùn)練過程中,評論家Critic1和Critic2可以獲得全信息狀態(tài),同時還能獲得所有Agent采取的策略動作a1、a2。

        圖2 MADDPG算法訓(xùn)練執(zhí)行視圖Fig.2 Training execution of MADDPG algorithm

        2.2.4 Actor-Critic網(wǎng)絡(luò)更新策略

        如圖3所示,在環(huán)境Evns中,智能體由Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)構(gòu)成,這2個網(wǎng)絡(luò)又分別包含目標(biāo)網(wǎng)絡(luò)(target-net)和估計網(wǎng)絡(luò) (eval-net)。Actor網(wǎng)絡(luò)是卷積神經(jīng)網(wǎng)絡(luò)對策略函數(shù)π的模擬,參數(shù)為θπ。Critic網(wǎng)絡(luò)是卷積神經(jīng)網(wǎng)絡(luò)對獎勵函數(shù)Q的模擬,參數(shù)為θQ。

        圖3 MADDPG算法訓(xùn)練框架Fig.3 Training framework of MADDPG algorithm

        Actor網(wǎng)絡(luò)表示為

        由此知道了所有智能體的動作,即使策略發(fā)生變化,那么環(huán)境也是靜止的,隨即通過梯度下降更新每個Agent的行為者Actor網(wǎng)絡(luò)參數(shù):

        3 獎勵機(jī)制的改進(jìn)

        3.1 獎勵函數(shù)設(shè)置機(jī)制

        在對抗任務(wù)中,多智能體的獎勵不僅取決于自身策略,也取決于對手學(xué)習(xí)到的對抗策略,兩者的策略學(xué)習(xí)速度未必同步,導(dǎo)致其獎勵未必會持續(xù)升高,甚至出現(xiàn)波動和震蕩[15]。由于智能體之間存在關(guān)系結(jié)構(gòu)的約束,會對策略學(xué)習(xí)產(chǎn)生影響。如何設(shè)計一個無人集群系統(tǒng)合適的獎勵信號來解決競爭對抗環(huán)境中智能體快速學(xué)習(xí)和穩(wěn)定收斂,就成為了一個關(guān)鍵問題。

        3.2 MADDPG算法獎勵機(jī)制缺陷的實(shí)例

        在捕食者i和逃逸者p實(shí)例中,MADDPG算法將對抗雙方分別標(biāo)識為捕食者和逃逸者,捕食者獎勵機(jī)制是碰撞時碰撞者獎勵值+10,不碰撞的時間內(nèi),懲罰值-1,逃逸者與此相反。這種獎勵機(jī)制的好處就是捕食者和逃逸者的獎勵值絕對值大小相同,雙方的策略相反,因此二者的學(xué)習(xí)速度會逐漸達(dá)到同步,緩解了式(7)中Δθπ估計值方差波動和震蕩,如表1所示。

        表1 獎勵機(jī)制設(shè)置Table 1 Reward mechanism setting

        通過實(shí)驗(yàn)發(fā)現(xiàn),MADDPG算法獎勵信號太過疏松,最優(yōu)解收斂效率低,即學(xué)習(xí)效率低,需要增加即時獎勵信號,以增強(qiáng)學(xué)習(xí)效率。

        3.3 基于環(huán)境信息的顯式Per-Distance獎勵機(jī)制

        智能體和環(huán)境、其他智能之間的某些關(guān)系可以顯式地描述,免除學(xué)習(xí),并能夠提供及時的學(xué)習(xí)信號。本文對MADDPG算法獎勵機(jī)制進(jìn)行改進(jìn),提出Per-Distance的智能體和環(huán)境之間顯式關(guān)系的獎勵機(jī)制、智能體之間關(guān)系的經(jīng)驗(yàn)共享獎勵信號,以提高學(xué)習(xí)的穩(wěn)定性和效率。

        3.3.1 智能體和環(huán)境關(guān)系的先驗(yàn)獎勵信號

        智能體執(zhí)行早期獲得的成功樣本很少,導(dǎo)致經(jīng)驗(yàn)池缺乏足夠的學(xué)習(xí)經(jīng)驗(yàn)用來調(diào)整策略。在Critic網(wǎng)絡(luò)更新時,大部分時間里,捕食者回報值為rji=-1,逃逸者的回報值為rkp=1,Loss為α[R(s,a)+γmax Q′(s′,a′)-Q(s,a)]幾乎沒有變化(α為學(xué)習(xí)率),智能體做任意動作后的獎勵值是相同的,Critic網(wǎng)絡(luò)無法區(qū)分動作優(yōu)劣,獎勵函數(shù)不穩(wěn)定,訓(xùn)練收斂速度很慢。為此,加入越界約束、智能體之間距離約束等先驗(yàn)價值,以提升獎勵函數(shù)的收斂效率。

        MADDPG算法的3V1圍獵場景下,捕食者與逃逸者之間的距離為

        實(shí)驗(yàn)發(fā)現(xiàn),智能體經(jīng)常出現(xiàn)越界情況,為提高計算效率,盡量保證智能體在設(shè)置的運(yùn)行范圍內(nèi)產(chǎn)生對抗行為,對智能體越界想法進(jìn)行限制。增加邊界獎勵,具體做法為:對逃出邊界的智能體,施加較大的懲罰,懲罰大小取決于遠(yuǎn)離邊界的程度。Per-Distance獎勵機(jī)制中增加邊界獎勵B,保證智能體在環(huán)境范圍內(nèi)運(yùn)動,不產(chǎn)生越界逃逸行為。設(shè)(xi,yi)為智能體i在二維環(huán)境中的坐標(biāo),0.9為智能體i的直徑,如果該智能體離邊界的最大距離小于0.9,則認(rèn)為是超出邊界,邊界獎勵值B=0。如果智能體離邊界的最大距離大于0.9,邊界獎勵值B給定一個智能體與邊界距離有關(guān)的動態(tài)獎勵值(max(xi,yi)-0.9)m,為任意給定的權(quán)重值,起到放大系數(shù)的作用,本文實(shí)驗(yàn)m=200。

        以捕食者為例,邊界獎勵B為

        3.3.2 智能體之間關(guān)系的先驗(yàn)獎勵信號

        MADDPG算法的獎勵機(jī)制,對抗雙方的距離設(shè)定僅有2種狀態(tài),即D(i,p)>0不碰撞或D(i,p)≤0碰撞。真實(shí)情況是:大部分時間對抗雙方處于D(i,p)>0不碰撞狀態(tài),需要很長時間才能訓(xùn)練得到最優(yōu)策略,造成延遲獎勵。

        為解決延遲獎勵問題,Per-Distance獎勵機(jī)制中增加智能體之間獨(dú)立計算的距離參數(shù)。不再是D(i,p)>0不碰撞或D(i,p)≤0碰撞2種狀態(tài)下的獎勵值,改為根據(jù)距離可變動態(tài)設(shè)置獎勵值,增加距離參數(shù)D(i,p)表示每個捕食者與逃逸者之間的距離,距離值在(-1,1)區(qū)間內(nèi)變化,距離越大獎勵ri越小,實(shí)現(xiàn)通過距離參數(shù)引導(dǎo)智能體快速地發(fā)生碰撞,以解決原算法中因距離狀態(tài)過少而產(chǎn)生的獎勵延遲問題。通過實(shí)驗(yàn)調(diào)參發(fā)現(xiàn),距離參數(shù)0.1為最優(yōu),此時有利于Per-Distance獎勵機(jī)制的穩(wěn)定。

        捕食者i的獎勵機(jī)制為

        相對于捕食者,逃逸者是反向獎勵,只要逃離距離自己最近的捕食者,決策就是成功的,因此逃逸者只需要計算與自己距離最近的捕食者的距離并計算回報值。

        逃逸者p的獎勵機(jī)制為

        在實(shí)驗(yàn)中發(fā)現(xiàn),增加智能體之間距離動態(tài)關(guān)系的獎勵機(jī)制,獎勵值隨捕食者和逃逸者之間的距離變化,獎勵信號明顯,智能體行為策略對應(yīng)的動作區(qū)分明顯,有利于獎勵值收斂。說明考慮智能之間的關(guān)系對性能提高有明顯影響。

        3.3.3 增加智能體間經(jīng)驗(yàn)值共享

        MADDPG算法中,回報值Critic網(wǎng)絡(luò)中共享容易造成最大值回報值的智能體的行為在群體中擴(kuò)散,使得其他智能采取類似的策略。為了避免智能體策略的相似性,可以采取以下策略:

        1)集中式訓(xùn)練,分布式執(zhí)行模式的MADDPG算法是各智能體執(zhí)行的隊(duì)長,分配每個智能體行為。在Per-Distance獎勵機(jī)制下,如果智能體的動作趨同,則同一動作的獎勵值會降低,避免所有智能體采取同一行為去抓捕逃逸個體,防止整體抓捕效率下降。

        2)隨機(jī)化最大回報,將最大回報加上隨機(jī)數(shù)r′∈(-1,1),每個智能體的回報值修改為r′r。

        通過增加其他智能體對當(dāng)前智能體的影響,同時,把價值引入到學(xué)習(xí)信號中,最終使得Critic網(wǎng)絡(luò)在策略更新時能更好地識別出不同動作值之間獎勵值的差異,提高學(xué)習(xí)的穩(wěn)定性。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)設(shè)計是將原算法和改進(jìn)后算法獎勵曲線和智能體實(shí)際表現(xiàn)進(jìn)行對比分析。

        實(shí)驗(yàn)軟件環(huán)境為Windows10操作系統(tǒng);硬件環(huán)境為英特爾至強(qiáng)E78880v3*2型處理器、NVIDIA GTX 1080TI*3、64 GB內(nèi)存;測試環(huán)境為OpenAI-gym,隱藏層為2層、隱藏單元個數(shù)為64的全連接神經(jīng)網(wǎng)絡(luò)構(gòu)成的Actor、Critic網(wǎng)絡(luò)及對應(yīng)的目標(biāo)網(wǎng)絡(luò)和估計網(wǎng)絡(luò)。

        模型超參數(shù)設(shè)計為:Actor網(wǎng)絡(luò)與Critic網(wǎng)絡(luò)均采用采用全連接4層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),隱藏層神經(jīng)元數(shù)量 為64。每個Actor網(wǎng)絡(luò)擁有單獨(dú)的Critic網(wǎng)絡(luò),實(shí)驗(yàn)中發(fā)現(xiàn),由于引入了距離參數(shù),捕食者的距離參數(shù)值為負(fù)值,探索初期回報值將長時間停留在負(fù)數(shù)區(qū)間,而神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)的負(fù)數(shù)域非常小,不利于訓(xùn)練,將神經(jīng)網(wǎng)絡(luò)輸出層的激活函數(shù)去掉。

        4.2 實(shí)驗(yàn)場景

        Simple_tag實(shí)驗(yàn)場景是在對抗任務(wù)下智能體自主行為仿真,實(shí)驗(yàn)空間為二維有界密閉空間,包含4個智能體,其中,3個捕食者(藍(lán)色),1個逃逸者(紅色),實(shí)驗(yàn)場景描述如表2所示。

        表2 3V1對抗實(shí)驗(yàn)場景Table 2 Experimental scenario of 3 versus 1 confrontation

        實(shí)驗(yàn)參數(shù)設(shè)置如下:

        1)捕食者和逃逸者作為智能形狀大小忽略不計,視為質(zhì)點(diǎn)。

        2)坐標(biāo)軸上智能體的運(yùn)動范圍為[0,20]。

        3)3個捕食者合作共同追捕1個逃逸者。

        4)捕獲者速度上限為1.0/s,加速度上限為0.5/s2,逃逸者速度上限為1.3/s,加速度上限為0.7/s2。

        5)當(dāng)捕食者和逃逸者發(fā)生碰撞即間距為0時,視為捕獲者捕獲成功,逃逸者失敗。

        6)碰撞規(guī)則為碰撞后捕食者加速度減小,逃逸者加速度增大。

        7)捕食者和逃逸者觸碰到邊界速度降為零。

        4.3 實(shí)驗(yàn)分析

        在不降低捕食者的捕獲效果情形下,提升算法收斂速度和穩(wěn)定性。捕食者分別將Per-Distance獎勵機(jī)制放入MADDPG算法和DDPG算法進(jìn)行學(xué)習(xí)訓(xùn)練。表3為經(jīng)過20 000輪訓(xùn)練后,多智能體學(xué)習(xí)到的策略在1 000輪、60 000步隨機(jī)實(shí)驗(yàn)下,捕食者執(zhí)行每步動作后的平均碰撞次數(shù)。與原算法相比,看到加入Per-Distance獎勵機(jī)制捕獲效果更好,MADDPG相較于原算法平均碰撞次數(shù)提高了3.3%,DDPG算法平均碰撞次數(shù)提升幅度較小為1.7%。

        表3 平均每步碰撞次數(shù)Table 3 Average number of collisions per step

        對上述實(shí)驗(yàn)進(jìn)行40 000輪的訓(xùn)練,利用TensorFlow的可視化工具TensorBoard描繪出捕食者和逃逸者的獎勵值與訓(xùn)練次數(shù)之間的關(guān)系,對比MADDPG算法獎勵機(jī)制和改進(jìn)后的Per-Distance獎勵機(jī)制的關(guān)系曲線。

        圖4~圖6分別為捕食者1、捕食者2、捕食者3的獎勵函數(shù)曲線。可以看出,引入距離參數(shù),隨道捕食者與逃逸者的距離增大,捕食者的獎勵回報值減小,導(dǎo)致整體回報值呈降低趨勢,獎勵函數(shù)曲線下移。隨著碰撞次數(shù)的增多,更多的直接獎勵值開始疊加,使得獎勵曲線下降趨勢減緩并穩(wěn)定下來。在改變獎勵機(jī)制后,算法的收斂速度有較大提升,在5 000輪左右獎勵值趨于平穩(wěn),獎勵值在[2,4]區(qū)間內(nèi)緩慢波動。通過實(shí)驗(yàn)證明捕食者獎勵函數(shù)的收斂性、算法的穩(wěn)定性提升十分明顯。

        圖4 捕食者1獎勵函數(shù)曲線Fig.4 Curves of Predator 1 reward function

        圖5 捕食者2獎勵函數(shù)曲線Fig.5 Curves of Predator 2 reward function

        圖6 捕食者3獎勵函數(shù)曲線Fig.6 Curves of Predator 3 reward function

        如圖7所示,由于捕食者捕獲效果的提升,逃逸者獲得的負(fù)獎勵(也稱為懲罰)大大增加,導(dǎo)致獎勵函數(shù)值減小。相較于捕食者收斂速度的明顯改善,逃逸者獎勵值的收斂速度改善效果不夠突出,這是因?yàn)樘右菡咭嬎闩c捕食者中的最小距離,當(dāng)離自己最近的捕食者更換時,策略網(wǎng)絡(luò)要重新計算最小距離,更新步長較大,收斂性會打折扣。

        圖7 逃逸者獎勵函數(shù)曲線Fig.7 Curves of escaper reward function

        2種算法下,逃逸者的獎勵值拐點(diǎn)都處于1 200 000步左右。在原來獎勵機(jī)制下,逃逸者獎勵函數(shù)的穩(wěn)定性較差,獎勵值在[-6,-15]的較大域值內(nèi)上下浮動,函數(shù)曲線震蕩幅度很大。引入Per-Distance獎勵機(jī)制后,曲線波動幅度見減小,函數(shù)值在[-12,-16]的區(qū)間內(nèi)變化,收斂性也有所提升。新的獎勵機(jī)制對于逃逸者函數(shù)也有改進(jìn)作用。

        對上述實(shí)驗(yàn)中所有智能體的獎勵值進(jìn)行疊加,繪制出獎勵值總和與訓(xùn)練輪步數(shù)的曲線,如圖8所示。圖8對比很明顯,紅色曲線顯示原算法獎勵值曲線在大范圍波動,收斂性不好,引入Per-Distance獎勵機(jī)制后,藍(lán)色曲線顯示獎勵值曲線較早地進(jìn)入到小區(qū)間波動,算法收斂性及穩(wěn)定性得到了顯著提升。

        圖8 獎勵函數(shù)曲線總和Fig.8 Reward function curve sum

        此外,為了進(jìn)一步地評估Per-Distance獎勵機(jī)制下算法的有效性,又與PES-MADDPG算法進(jìn)行了獎勵值與訓(xùn)練步數(shù)比較,如圖9所示,依然是引入了Per-Distance獎勵機(jī)制的PD-MADDPG算法獎勵值收斂速度快,更快地趨于穩(wěn)定。

        圖9 MADDPG、PD-MADDPG、PES-MADDPG算法獎勵函數(shù)收斂性對比Fig.9 Reward function convergence comparison among MADDPG,PD-MADDPG and PES-MADDPG algorithms

        上述實(shí)驗(yàn)中看到,在Per-Distance獎勵機(jī)制下,智能體行為策略對應(yīng)的動作區(qū)分明顯,有利于獎勵值收斂,說明考慮智能體的先驗(yàn)知識和智能體之間的關(guān)系對性能提高有明顯影響。

        4.4 Swarm Flow仿真平臺

        在陸軍工程大學(xué)控制技術(shù)與智能系統(tǒng)實(shí)驗(yàn)室自主開發(fā)的智能陸戰(zhàn)協(xié)同對抗仿真平臺Swarm-Flow上訓(xùn)練改進(jìn)后的算法,加載山地三維地圖。圖10為3架捕食者無人機(jī)圍捕1架逃逸者無人機(jī),實(shí)施一次圍捕任務(wù)時三維可視化效果及圍捕航跡圖。圖11和圖12分別為捕食者無人機(jī)和逃逸者無人機(jī)一次任務(wù)的航跡。

        圖10 對抗任務(wù)下雙方航跡Fig.10 Track map of both parties under confrontation mission

        圖11 捕食者無人機(jī)航跡Fig.11 Predator UAV track map

        圖12 逃逸者無人機(jī)航跡Fig.12 Escaper UAV track map

        圖13為SwarmFlow仿真平臺展示的陸戰(zhàn)場景下,引入Per-Distance獎勵機(jī)制的MADDPG算法,智能體3V1最終圍捕效果。該算法可以推廣至更多的智能體,算法對集群自主系統(tǒng)亦具有適應(yīng)性。隨著集群數(shù)量的增加,狀態(tài)空間指數(shù)級增加,行為策略學(xué)習(xí)訓(xùn)練時間很長。圖14展示了集群智能體20V6的圍捕效果。

        圖13 智能體3V1圍捕結(jié)果Fig.13 Result of agent 3V1 roundup

        圖14 智能體20V6圍捕結(jié)果Fig.14 Result of agent 20V6 roundup

        5 結(jié)束語

        目前,將多智能體強(qiáng)化學(xué)習(xí)算法用于無人系統(tǒng)自主行為決策研究,最大的問題是算法收斂速度慢,使得在無人集群系統(tǒng)中的應(yīng)用效果較差。

        為了解決這一問題,本文著重研究了MADDPG算法的獎勵機(jī)制,引入距離參數(shù),提出Per-Distance獎勵機(jī)制。在對抗任務(wù)下,改變回報值共享的方式,將對抗雙方的距離獎勵傳遞給執(zhí)行智能體,解決延遲獎勵問題。通過3V1圍獵場景的仿真實(shí)驗(yàn)驗(yàn)證了改進(jìn)的獎勵機(jī)制實(shí)用性和優(yōu)越性,提高了對抗任務(wù)下無人集群系統(tǒng)的群體行為策略學(xué)習(xí)效率。該算法可應(yīng)用于集群對抗任務(wù)。

        后期的研究中,考慮如何實(shí)現(xiàn)提升大規(guī)模集群行為決策效率問題。

        猜你喜歡
        機(jī)制智能環(huán)境
        長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        孕期遠(yuǎn)離容易致畸的環(huán)境
        環(huán)境
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        自制力是一種很好的篩選機(jī)制
        文苑(2018年21期)2018-11-09 01:23:06
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        破除舊機(jī)制要分步推進(jìn)
        亚洲福利第一页在线观看| 亚洲av成人无码久久精品| 亚洲国产一区二区在线| 亚洲午夜无码久久久久软件| 亚洲av乱码国产精品观| 极品老师腿张开粉嫩小泬| 亚洲人成色777777老人头| 国产免费播放一区二区| 国产视频免费一区二区| 国产av无码专区亚洲a∨毛片 | 国产成人久久777777| 一区二区在线亚洲av蜜桃| 一区二区三区极品少妇| 无码人妻丰满熟妇区bbbbxxxx| 精品国产乱码久久久软件下载 | 亚洲处破女av一区二区| 日本av一区二区三区视频| 小宝极品内射国产在线| av无码天一区二区一三区| 白白色青青草视频免费观看| 国产精品一区二区性色| 黑人巨大av在线播放无码| 亚洲高清有码在线观看| 国家一级内射高清视频| 亚洲午夜成人精品无码色欲| 成年女人毛片免费视频| 亚洲欧美日韩一区在线观看| 亚洲国产综合在线亚洲区亚洲av| yw尤物av无码国产在线观看| 日日人人爽人人爽人人片av| 一区二区日本影院在线观看| 国产一区二区黄色录像| 亚洲欧美一区二区三区| 久久久久久岛国免费网站| 一区二区视频在线国产| √新版天堂资源在线资源| 亚洲视频天堂| 中文字幕丰满人妻被公强| 亚洲va韩国va欧美va| 日韩一欧美内射在线观看| 丝袜美腿久久亚洲一区|