亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強化學習的魚群自組織行為模擬*

        2020-02-07 12:58:42楊慧慧黃萬榮敖富江
        國防科技大學學報 2020年1期
        關(guān)鍵詞:智能環(huán)境策略

        楊慧慧,黃萬榮,敖富江

        (1. 大連海洋大學 水產(chǎn)與生命學院, 遼寧 大連 116023; 2. 軍事科學院, 北京 海淀 100071)

        自組織行為廣泛存在于自然界中,一個典型的案例就是魚群。魚群中的每個個體不僅會主動地相互靠近,還能協(xié)同一致地調(diào)整自己的行為,以達到群體效果。魚群的自組織特性有助于提升個體的游動效率、生存和繁衍概率。相對地,目前大部分人造群體系統(tǒng)還只能依靠機械的程控方式完成其功能。如果人造群體可以模仿魚群的組織方式,將獲得更為智能、可觀的效能。因此,研究魚群自組織行為有助于探索自組織行為的內(nèi)在機理,對實現(xiàn)群體智能有重要的理論意義和應(yīng)用價值。

        Reynolds[1]首次通過計算機程序模擬了魚群、鳥群等生物群體的自組織行為,并提出了博德模型(Boids model),即每個智能體基于局部的觀察信息,按照避碰、同向、聚集3條規(guī)則計算其運動速度,群體便能實現(xiàn)類似生物群體的自組織運動。在博德模型的基礎(chǔ)上,多個模型陸續(xù)被提出,或優(yōu)化了原有規(guī)則的計算方式,或增加了新的規(guī)則。上述模型均能模擬群體的自組織行為,其特點是都假設(shè)群體中的個體能夠基于感知信息進行復雜計算。然而,這類假設(shè)并未觸及自組織行為的本質(zhì),魚、鳥等生物個體不一定能進行如此復雜的規(guī)則計算。因此,不同于之前基于規(guī)則設(shè)計模型的研究方式,本文從學習的角度切入,對自組織行為展開研究,通過魚群行為的模擬,試圖探索自組織行為的生成機理。

        1 基本概念和相關(guān)工作

        1.1 自組織

        自組織[2]是指一個系統(tǒng)在時間上由無組織到有序的動態(tài)過程。自然界廣泛存在自組織過程。小鳥成群結(jié)隊地飛行,以減少風阻、節(jié)省能耗;在海洋中,許多魚經(jīng)常聚在一起行動,可以比一條魚更快發(fā)現(xiàn)敵人并巧妙地避開;螞蟻無須復雜的信息交流,可以通過合作高效地完成覓食、搬運等任務(wù);在微觀世界,免疫細胞協(xié)同合作,攻擊侵入生物體的病毒和異物。這些自組織過程是自發(fā)產(chǎn)生的,沒有外部控制和干預(yù),甚至沒有內(nèi)部集中控制,可使系統(tǒng)更好地適應(yīng)環(huán)境。生物群體自組織行為的一個重要特征是涌現(xiàn)[3]。涌現(xiàn)是指群體中的個體遵循簡單的規(guī)則(如模仿),通過自組織就能展現(xiàn)出整體大于部分之和的特性。群體智能[4]的一個研究方向正是通過研究涌現(xiàn)機理而模擬自然界生物群體實現(xiàn)自組織行為。關(guān)于自組織行為模擬的研究可以追溯到20世紀80年代。Reynolds[1]提出了博德模型,基于避碰、同向和聚集3條規(guī)則成功模擬了鳥群的飛行和避障行為。博德模型也被成功應(yīng)用于《蝙蝠俠歸來》《指環(huán)王》等科幻電影的后期制作中,用于模擬蝙蝠群、戰(zhàn)士群特效。根據(jù)博德模型,Spector等[5]提出了Swarm模型,進一步描述了相鄰個體之間的相互作用;Kwong等[6]對Swarm模型進行了仿真,獲得了聚集、繞“8”字形等行為特征。Vicsek等[7]根據(jù)對磁鐵特性的觀察,建立了Vicsek模型,假設(shè)所有個體速率相同,個體的運動方向取決于它周圍個體的運動方向的平均值。Vicsek模型與博德模型類似,都是基于規(guī)則的模擬方法。除了在仿真環(huán)境中研究之外,Seyfried等[8]用數(shù)以千計的微小機器人組成集群,能夠像蟻群一樣執(zhí)行一些特定任務(wù),在生產(chǎn)線完成裝配任務(wù)。Ampatzis等[9]構(gòu)建一組能夠自主組裝的機器人,能完成協(xié)同搬運、攀爬小山、穿過崎嶇地帶等復雜任務(wù)。Rubenstein等[10]設(shè)計了一組微小機器人——Kilobot,1024個功能簡單的機器人通過3條簡單規(guī)則(貼邊運動、梯度隊形、定位),通過完全的分布式控制,能夠自發(fā)形成比較復雜的宏觀圖形。Kilobot研究成果于2014年發(fā)表在《Science》雜志并被評為年度十大科學進展。上述研究工作在不同方面展現(xiàn)了群體自組織的特性,但是都需要通過人為設(shè)定若干規(guī)則,使得個體在規(guī)則的作用下展現(xiàn)出一定的自組織特性。

        1.2 赫布跡

        赫布跡來源于一個認知生理學理論——赫布定律[11](Hebb′s rule)。加拿大心理學家唐納德·赫布于1949年提出了赫布定律,描述了突觸可塑性的基本原理,即突觸前神經(jīng)元向突觸后神經(jīng)元的持續(xù)重復的刺激可以導致突觸傳遞效能的增加。突觸可塑性是生物大腦長期學習的重要原因之一。因此,在進化算法中出現(xiàn)了基于突觸可塑性設(shè)計的塑性神經(jīng)網(wǎng)絡(luò),但是由于技術(shù)發(fā)展的局限,塑性神經(jīng)網(wǎng)絡(luò)不能與成熟的深度學習技術(shù)結(jié)合。最大的問題在于無法使用深度學習常用的梯度下降方法完成塑性神經(jīng)網(wǎng)絡(luò)的大規(guī)模反向傳播訓練。實現(xiàn)塑性神經(jīng)網(wǎng)絡(luò)的學習訓練,將為神經(jīng)網(wǎng)絡(luò)獲得像人類一樣的持續(xù)學習能力提供一種可能性。Miconi等[12]提出了一種可以大規(guī)模訓練的塑性神經(jīng)網(wǎng)絡(luò)。經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型,通常用權(quán)值連接對兩個神經(jīng)元之間的關(guān)聯(lián)程度進行量化。這種連接的權(quán)值會隨著神經(jīng)網(wǎng)絡(luò)的訓練與反向傳播過程不斷更新。但是一旦神經(jīng)網(wǎng)絡(luò)模型訓練完畢,它的權(quán)值就不會再發(fā)生變化,模型的結(jié)構(gòu)與功能會相應(yīng)地固化下來。Miconi等設(shè)計的塑性神經(jīng)網(wǎng)絡(luò)在固定權(quán)值連接的基礎(chǔ)上,增加了一類權(quán)值可變的連接,這類連接的權(quán)值稱為赫布跡(Hebbian trace)。赫布跡會隨著兩個神經(jīng)元的活動而發(fā)生變化,即使是在神經(jīng)網(wǎng)絡(luò)模型的應(yīng)用階段,這種特性也會保持。因此,赫布跡的作用是記憶輸入神經(jīng)元和輸出神經(jīng)元的活動軌跡,從而可以更快地強化鞏固新的輸入特征,學習到更好的模型。基于這種記憶的作用,塑性神經(jīng)網(wǎng)絡(luò)被證明可以應(yīng)用在模式恢復[13]、小樣本學習[12]、自然語言處理[14]等問題中。

        1.3 強化學習

        強化學習是通過智能體與環(huán)境的不斷交互,逐漸修正智能體行為策略的一種學習方式。智能體獲取環(huán)境當前的狀態(tài),根據(jù)行為策略產(chǎn)生動作決策,作用于環(huán)境使其狀態(tài)發(fā)生變化。環(huán)境會根據(jù)狀態(tài)變化的“方向”,對該動作決策進行評估,返回一個獎勵值。獎勵值為正說明該決策產(chǎn)生了有利的結(jié)果,獎勵值為負則說明該決策產(chǎn)生了不利的影響。智能體根據(jù)獎勵值修正自己的行為策略,盡可能使動作決策產(chǎn)生有利影響,獲得更多累積獎勵值。強化學習在機器人、無人駕駛、游戲、自然語言處理、金融、電商等領(lǐng)域有著廣泛應(yīng)用。

        強化學習的研究與理論發(fā)展有2個重要的方向:多智能體強化學習和深度強化學習。多智能體強化學習研究面臨信用分配、搜索空間維度爆炸等挑戰(zhàn)。早期研究將多個智能體作為一個整體系統(tǒng)進行學習,然而集中式的方式學習不利于群體規(guī)模的擴展。之后,隨著博弈論的發(fā)展,分布式的多智能體強化學習開始顯著發(fā)展。近年來,伴隨著深度學習引發(fā)的人工智能熱潮,強化學習與深度學習相結(jié)合,出現(xiàn)了深度強化學習技術(shù)。深度強化學習結(jié)合了深度學習強大的擬合能力和強化學習的交互特性,取得了很多成果。DeepMind基于深度強化學習研發(fā)的AlphaGo[15]成為第一個擊敗人類職業(yè)圍棋選手和圍棋世界冠軍的人工智能機器人。Tampuu等[16]將深度強化學習算法深度Q網(wǎng)絡(luò)(Deep Q-Network, DQN)應(yīng)用到多智能體游戲環(huán)境中,在完全協(xié)作環(huán)境、完全競爭環(huán)境以及非完全協(xié)作/競爭環(huán)境中學習游戲策略。Lowe等[17]將深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法擴展到多智能體環(huán)境中,提出了多智能體DDPG(Multi-Agent DDPG, MADDPG)算法,并通過共享全局信息訓練評價網(wǎng)絡(luò),解決環(huán)境模型不平穩(wěn)問題。

        2 模型設(shè)計

        為了實現(xiàn)基于強化學習對魚群自組織行為進行模擬,首先需要構(gòu)建環(huán)境模型和智能體(魚)模型。

        2.1 環(huán)境模型

        考慮n條魚組成的魚群,用F={f1,f2,…,fn}表示。魚群在一個二維、封閉、網(wǎng)格化的環(huán)境中運動,環(huán)境大小為M×M,如圖1所示。構(gòu)建運動世界的坐標系,設(shè)最左上角的網(wǎng)格為原點O(0,0),向右為x軸正方向,向下為y軸正方向。因此,網(wǎng)格A坐標為(M-1,0),網(wǎng)格B坐標為(0,M-1)。魚fi的坐標表示為pi(xi,yi)。魚群運動的環(huán)境周圍被障礙物包圍,環(huán)境內(nèi)部也隨機分布著障礙物。用二維矩陣Env表示魚群運動的環(huán)境。Env的元素有1和0兩種取值可能:1表示障礙物網(wǎng)格,魚無法運動到該網(wǎng)格;0表示自由網(wǎng)格,魚可以運動到該網(wǎng)格。在一些應(yīng)用場景中,環(huán)境中可能存在一個獎勵位置(如圖1網(wǎng)格中有食物),坐標為prew(xrew,yrew)。

        圖1 環(huán)境模型Fig.1 Model of the environment

        2.2 智能體模型

        智能體模型涉及感知、運動和決策3個方面。

        2.2.1 感知模型

        感知能力描述了魚能從環(huán)境世界獲取哪些信息。在自然界,魚通過魚眼感知環(huán)境,魚眼的感知和成像功能具有2個特點。首先,魚眼視野十分廣闊,不用轉(zhuǎn)身就能看見前后和上面的物體,例如淡水鮭在垂直面上的視野為150°,水平面上的視野為160°~170°,而人眼分別為134°和154°。魚在游動過程中,魚頭可靈活變向,且魚兩邊都有眼睛,極大地增加觀察范圍,幾乎是全向觀察。因此,可以設(shè)置每條魚能感知到以其當前位置為中心、S×S大小的網(wǎng)格狀態(tài),如圖1中紅色網(wǎng)格所示。其次,環(huán)境中物體在魚眼中的成像大小感覺和視角(從物體兩端引出的光線在眼光心處所成的夾角)成正比。魚觀察環(huán)境中其他魚時,視角受多種因素的影響,包括其他魚的大小、位置和方向等。因此,在魚的大小相同的條件下,可以認為每條魚能感知到其他魚的位置和方向。圖2展示了魚感知其他個體的典型情況?;谝暯菂^(qū)間,一條魚可以判斷與其他魚的間隔距離。按照網(wǎng)格可以將距離判斷分為3類情況:①視角大于30°時,距離為1;②視角在15°~30°時,距離為2;③視角小于15°時,距離大于2。分析發(fā)現(xiàn),魚眼這種對距離的度量與切比雪夫距離(Chebyshev distance)度量一致,即:

        (1)

        圖2 魚感知其他個體的典型情況Fig.2 Typical situations on perceiving other individuals

        2.2.2 運動模型

        假設(shè)每條魚具有一階運動學特性,即通過控制魚的速度更新魚的位置。為簡單起見,假設(shè)魚游動的速率恒定,為1格/時間步(網(wǎng)格距離基于切比雪夫距離進行度量)。因此,只需要控制魚的游動方向即可確定魚的運動過程。需要說明的是,如果魚試圖游動到障礙物網(wǎng)格,則魚的位置和朝向保持不變,同時設(shè)置魚與障礙物發(fā)生碰撞的標志位為True。

        2.2.3 決策模型

        每一個時間步,智能體需要給出一個動作決策,輸入環(huán)境以驅(qū)動智能體運動。根據(jù)智能體的運動模型,魚需要決策其游動方向。假設(shè)魚可以選擇上、下、左、右4個方向中的一個作為該時間步的游動方向。每條魚的決策策略由一個神經(jīng)網(wǎng)絡(luò)擬合,關(guān)于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)及訓練方法將在第3節(jié)詳細介紹。

        2.3 獎勵機制

        除了構(gòu)建環(huán)境模型和智能體模型之外,還需要對獎勵機制進行建模。針對魚群行為模擬問題,根據(jù)智能體與環(huán)境的具體交互狀態(tài),獎勵有4個來源:

        1)智能體是否與障礙物發(fā)生碰撞。如果智能體與障礙物發(fā)生碰撞,獎勵為-1;否則,獎勵為0。用rcol表示這部分獎勵,其計算方式如式(2)所示,其中β1為可調(diào)參數(shù),collided是判斷智能體是否與障礙物發(fā)生碰撞的標志位。

        (2)

        2)魚群行為是否符合自組織特性。魚群行為的特性考慮距離和朝向2類性質(zhì)。在距離方面,為了使群體展現(xiàn)聚集的特點的同時不會頻繁發(fā)生個體間碰撞,設(shè)置期望距離d。如果個體間的距離恰好等于d,則獎勵值最大;如果個體間的距離大于或小于d,則獎勵值相應(yīng)減小。圖3(a)給出了基于距離因素衡量獎勵值的示意圖。在朝向方面,為了使群體展現(xiàn)同向的特點,應(yīng)使個體的朝向盡量趨同。如圖3(b)所示,oi、oj1和oj2分別為智能體i、j1和j2的朝向,如果朝向一致,獎勵值越大;如果朝向差異變大,獎勵值減小。因此,可以用余弦函數(shù)計算基于朝向因素衡量的獎勵值。綜合距離、朝向2個因素,與魚群行為相關(guān)的獎勵rbeh可通過式(3)進行計算,其中β2和β3為可調(diào)參數(shù)。需要注意的是,式(3)是以智能體i為中心個體計算的獎勵值,根據(jù)具體任務(wù)可以類似地計算以其他智能體為中心的獎勵值。

        (3)

        (a) 距離因素(a) Distance facto (b) 朝向因素(b) Orientation facto圖3 考慮距離和朝向因素的獎勵值設(shè)計Fig.3 Reward value design considering distance and orientation factors

        3)在要求群體到達目標位置的場景中,通過智能體與目標位置的距離刻畫獎勵值。如果智能體距離目標位置越近,獎勵值越大;反之,獎勵值越小。與目標位置相關(guān)的獎勵值robj計算方式如式(4)所示,其中β4為可調(diào)參數(shù)。

        (4)

        4)為了緩解獎勵稀疏可能導致的學習過慢的問題,可以設(shè)置提前終止狀態(tài)并反饋相應(yīng)的獎勵值。提前終止是由于魚群狀態(tài)與學習目標差異很大,因此需要返回較大的負獎勵值,并進入下一個學習過程。用rter表示與提前終止相關(guān)的獎勵值,計算方式如式(5)所示,其中β5為可調(diào)參數(shù),terminal是判斷某次學習過程是否提前終止的標志位。

        (5)

        因此,某一時間步,環(huán)境向智能體i反饋的獎勵值是上述4部分之和:

        r=rcol+robj+rbeh+rter

        (6)

        3 算法

        為了以學習的方式獲得魚的行為策略,基于赫布跡和A2C框架[18](一種行動者-評價者框架)實現(xiàn)了一種多智能體深度強化學習算法。算法框架如圖4所示,主要包括魚群模擬環(huán)境和魚群游動策略兩部分。魚群模擬環(huán)境建模已在第2節(jié)給出,魚群游動策略則由n個個體獨立的策略組合而成。每條魚私有一個帶赫布跡的神經(jīng)網(wǎng)絡(luò),因此,本文提出一種分布式強化學習算法。在學習階段,由于所有智能體是同構(gòu)的,可借鑒網(wǎng)絡(luò)凍結(jié)[19]的思想,先訓練f1的策略網(wǎng)絡(luò)而固定其他魚的策略,然后將學好的f1的策略網(wǎng)絡(luò)參數(shù)復制給其他智能體(見圖4空心箭頭),再進行下一輪f1策略網(wǎng)絡(luò)訓練。

        圖4 策略學習框架Fig.4 Framework of the strategy learning

        3.1 魚群學習算法

        整個魚群行為的學習過程如算法1所示。由于網(wǎng)絡(luò)本身具有記憶特性,沒有使用記憶池與經(jīng)驗回放等技術(shù)。假設(shè)學習過程一共持續(xù)Nmax個回合(第14行)。每個回合中,魚群會與環(huán)境進行若干時間步的交互。在時間步T,所有魚獲取當前時間步的感知狀態(tài)st,由策略擬合網(wǎng)絡(luò)產(chǎn)生動作決策at和狀態(tài)評價Vt。動作決策施加在環(huán)境之后,環(huán)境向智能體反饋一個獎勵值rt,同時環(huán)境狀態(tài)演變?yōu)閟t+1。如果滿足回合終止條件,即T大于Tmax或標志位terminal為True,環(huán)境狀態(tài)復位,進入下一回合的交互過程(第9行)。否則,terminal為False,繼續(xù)該回合下一個時間步的交互(第8行)。

        根據(jù)f1與環(huán)境在一個回合中的交互數(shù)據(jù)(s0,a0,r0,s1,a1,r1,…,sT)可以計算損失函數(shù)J的值(第10行),具體計算方式如式(7)~(10)所示:

        (7)

        (8)

        Ri=r0+γr1+γ2r2+…+γTrT

        (9)

        (10)

        其中:式(8)的π(ai|si;θa)表示策略網(wǎng)絡(luò)擬合的動作決策函數(shù),θa表示與動作決策相關(guān)的網(wǎng)絡(luò)參數(shù);式(9)中的γ表示獎勵折扣因子;式(8)和式(10)中的V(si;θv)表示策略網(wǎng)絡(luò)擬合的狀態(tài)評估函數(shù),θv表示與狀態(tài)評估相關(guān)的網(wǎng)絡(luò)參數(shù)。因此,θa與θv共享一部分參數(shù)。f1根據(jù)損失函數(shù)J值進行梯度下降,通過反向傳播更新策略學習網(wǎng)絡(luò)參數(shù)。其他所有魚則會在回合結(jié)束時復制f1學習到的策略(第12行)。顯然,根據(jù)算法1學習到的魚群行為,所有魚的行為特點是趨同的。

        算法1 魚群行為策略學習

        3.2 策略網(wǎng)絡(luò)結(jié)構(gòu)

        算法中,每個智能體的策略用一個帶赫布跡的神經(jīng)網(wǎng)絡(luò)進行擬合,所有智能體的策略網(wǎng)絡(luò)結(jié)構(gòu)相同,其網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

        圖5 策略學習網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Structure of the strategy learning network

        策略網(wǎng)絡(luò)有3(n-1)+S2+1個輸入神經(jīng)元。第一部分的3(n-1)個神經(jīng)元記錄了其他智能體的狀態(tài),包括位置坐標和朝向。中間一項S2個輸入神經(jīng)元是智能體i對環(huán)境狀態(tài)的感知,記錄了以智能體i為中心、附近S×S個網(wǎng)格的狀態(tài)。最后一個神經(jīng)元輸入的是時間。整個策略學習網(wǎng)絡(luò)的核心結(jié)構(gòu)是一個長短時記憶(Long Short-Term Memory,LSTM)單元。LSTM是一類具有長期記憶和短期記憶的結(jié)構(gòu)。如圖5所示,在LSTM單元的輸入門結(jié)構(gòu)中增加了赫布跡項,用于強化LSTM單元的記憶特性。LSTM單元t時刻的內(nèi)部狀態(tài)ct的計算過程變?yōu)椋?/p>

        ct=ft⊙ct-1+it⊙gt

        (11)

        ft=σ(Wfh·ht-1+bfh+Wfx·xt+bfx)

        (12)

        it=σ(Wih·ht-1+bih+Wix·xt+bix)

        (13)

        gt=tanh[(Wgh+α·Hebb)·ht-1+Wgx·xt+bgx]

        (14)

        (15)

        其中,η是控制記憶強度的系數(shù)?;贚STM單元的輸出,策略學習網(wǎng)絡(luò)的輸出分為2個部分。一部分是智能體在時間步T的動作決策at,它以獨熱編碼的方式表示智能體的每一種可選動作。另一部分輸出是狀態(tài)評價Vt,它以一個實數(shù)值對輸入狀態(tài)的“好壞”進行評價。Vt值越大表示認為當前狀態(tài)越“好”,越有利于智能體的策略學習。雖然動作決策和狀態(tài)評價共享了一部分網(wǎng)絡(luò)單元,但整個策略學習網(wǎng)絡(luò)的訓練方法與Minh等[19]提出的方法可以保持一致。

        4 實驗結(jié)果

        為了評估第3節(jié)提出的網(wǎng)絡(luò)結(jié)構(gòu)與算法是否可用于學習到合理的魚群行為,進行了一些實驗并給出結(jié)果。首先在3類群體場景中測試了本文方法的學習效果,分別是領(lǐng)航跟隨場景、自主漫游場景和群體導航場景。然后對比了本文方法與基于博德規(guī)則計算模擬的方法。

        4.1 領(lǐng)航跟隨場景

        在領(lǐng)航跟隨場景中,群體有一個領(lǐng)航者個體帶領(lǐng)其他個體運動,其余個體則作為跟隨者跟隨領(lǐng)航者一起運動。通過領(lǐng)航與跟隨的形式,魚群便能展現(xiàn)整體運動特性。設(shè)有一個3條魚組成的魚群(n=3),不失一般性,假設(shè)f3是領(lǐng)航者,f1和f2是跟隨者。f3由外部控制器作用,在環(huán)境中作周期環(huán)繞運動,其路徑如圖6中紅線所示。f1與f2的行為策略由網(wǎng)絡(luò)擬合并通過算法1學習訓練獲得。針對領(lǐng)航跟隨場景實驗的具體參數(shù)設(shè)置為:環(huán)境大小M=15,感知范圍S=5;獎勵機制的可調(diào)參數(shù)β1=0.1,β2=0,β3=0,β4=0,β5=10;Tmax=250,提前終止條件為跟隨者與領(lǐng)航者的距離超過2。圖6給出了魚群在一次典型測試回合中T=7、T=15、T=91時運動狀態(tài),可以發(fā)現(xiàn),本文學習算法學到的策略能讓f1和f2跟隨f3環(huán)繞運動。

        圖6 領(lǐng)航跟隨場景的學習結(jié)果Fig.6 Results of learning in the leader-follower scenario

        4.2 自主漫游場景

        自主漫游場景的設(shè)置如圖7所示,與領(lǐng)航跟隨場景相比,魚群中沒有領(lǐng)航者個體,所有個體需要在環(huán)境中以整體的形式隨機漫游。如果環(huán)境中存在障礙物,魚群需要避開障礙物。設(shè)有一個3條魚組成的魚群(n=3),f1、f2與f3的行為策略均由網(wǎng)絡(luò)擬合并學習訓練獲得。針對自主漫游場景實驗的具體參數(shù)設(shè)置為:環(huán)境大小M=11,感知范圍S=5;獎勵機制的可調(diào)參數(shù)β1=1,β2=1,β3=0,β4=0,β5=0;Tmax=250,無提前終止條件。圖7展示了一次典型測試過程魚群運動狀態(tài)的變化情況。在T=76時,所有個體朝著上方運動,且個體之間距離為1。在T=130時,所有個體朝著下方運動,且個體之間距離為1。經(jīng)數(shù)據(jù)統(tǒng)計,在250個時間步內(nèi),魚群始終聚集在一起,互相碰撞0次,碰到障礙物1次,說明魚群學會了博德規(guī)則中的“聚集”規(guī)則,同時還可避開環(huán)境中的障礙物。

        圖7 自主漫游場景的學習結(jié)果Fig.7 Results of learning in the autonomous wandering scenario

        4.3 群體導航場景

        圖8 群體導航場景的學習結(jié)果Fig.8 Results of learning in the group navigation scenario

        在群體導航場景中,魚群中所有個體需要朝著給定目標協(xié)同地運動。如果環(huán)境中存在障礙物,魚群需要避開障礙物。設(shè)有一個3條魚組成的魚群(n=3),f1、f2與f3的行為策略均由網(wǎng)絡(luò)擬合并學習訓練獲得。針對群體導航場景實驗的具體參數(shù)設(shè)置為:環(huán)境大小M=19,感知范圍S=5,獎勵位置為prew(5,13);獎勵機制的可調(diào)參數(shù)β1=1,β2=1,β3=2,β4=10,β5=0;Tmax=50,無提前終止條件。圖8展示了一次典型測試過程魚群運動狀態(tài)的變化情況。初始時刻,魚群的狀態(tài)如圖8中T=0時所示魚群。模擬開始后,魚群一直朝右側(cè)方向游動,直至T=5時,即將碰到環(huán)境中的障礙物。魚群改變游動方向,朝右上側(cè)游動繞過障礙物并接近獎勵位置,到達T=11的狀態(tài)。當T=16時,魚群到達獎勵位置。之后魚群將圍繞獎勵位置在水平方向往復運動。經(jīng)數(shù)據(jù)統(tǒng)計,碰到障礙物0次。實驗結(jié)果表明魚群學會協(xié)調(diào)地繞過障礙物,到達獎勵位置。魚群游動過程展現(xiàn)出聚集、同向特性。

        4.4 對比實驗結(jié)果

        為了說明赫布跡的引入對于學習過程的影響,圖9給出了群體導航學習訓練過程中,有赫布跡項和無赫布跡項2種條件下的群體獎勵值的變化曲線??梢园l(fā)現(xiàn),有赫布跡項時,群體在約80 000 個學習回合之后的學習過程相比無赫布跡項時明顯加快,使得最終的獎勵值更優(yōu),即群體所學到的行為更加符合自組織行為的特點,也表明赫布跡項的記憶特性對于群體學習過程起到了正面促進作用。

        圖9 有赫布跡項和無赫布跡項條件下的學習結(jié)果Fig.9 Results of learning with and without the Hebbian trace

        基于群體導航場景的實驗結(jié)果,通過改變獎勵機制的可調(diào)參數(shù)、改變魚群個體數(shù)量、改變獎勵位置進一步測試學習算法的效果,獲得統(tǒng)計結(jié)果如表1~2所示。

        表1 魚群模擬對比實驗參數(shù)設(shè)置

        表2 魚群行為特點對比

        為了對比基于學習方法模擬的魚群行為與基于博德規(guī)則模擬的魚群[20]行為特點,設(shè)計了2個量化指標進行衡量:一個是位置偏差m1,對應(yīng)博德模型中的“聚集”和“避碰”規(guī)則;另一個是朝向偏差m2,對應(yīng)博德模型中的“同向”規(guī)則。m1和m2的具體計算方式如式(16)~(17)所示。

        (16)

        (17)

        通過表2的數(shù)據(jù)對比分析可知,在位置偏差度量上,基于學習方法模擬的魚群行為特點與基于博德規(guī)則模擬的魚群類似。而在朝向偏差度量方面,當可調(diào)參數(shù)β4顯著減小時,例如實驗設(shè)置A1對比A,由于與目標導航相關(guān)的獎勵值權(quán)重顯著減小,目標位置對于每個個體的方向?qū)б饔脺p弱,使得魚群在個體相互作用下表現(xiàn)出更好的方向趨同性。進一步,實驗設(shè)置A2對比A1,當可調(diào)參數(shù)β3增大時,由于與朝向相關(guān)的獎勵值權(quán)重增加,模擬的魚群展現(xiàn)更好的方向趨同性。相反,當β3減小時,例如實驗設(shè)置A3對比A,與朝向相關(guān)的獎勵值權(quán)重減小,模擬的魚群方向趨同性相應(yīng)變差。因此,對比實驗結(jié)果進一步證明了學習方法的有效性。

        5 結(jié)論

        為了從學習的角度切入實現(xiàn)魚群自組織行為模擬,首先構(gòu)建了魚群模擬框架,包括魚群運動環(huán)境模型,智能體的感知、運動和決策模型和獎勵機制。接著,基于赫布跡和行動者-評價者框架提出了一種多智能體強化學習方法。在學習訓練階段,該方法利用網(wǎng)絡(luò)凍結(jié)的思想實現(xiàn)了分布式學習,有助于群體規(guī)模擴展,并利用赫布跡優(yōu)化了策略學習過程。仿真結(jié)果表明,該方法在領(lǐng)航跟隨、自主漫游、群體導航等場景均成功學到了魚群自組織行為。進一步數(shù)據(jù)分析發(fā)現(xiàn),基于學習方法模擬的魚群與基于博德規(guī)則計算模擬的魚群在行為特性上表現(xiàn)出一定相似性。在后續(xù)工作中,以學習結(jié)果為基礎(chǔ),將進一步基于直覺物理、隨機選擇計算等類人智能因素對魚群自組織行為展開研究。

        猜你喜歡
        智能環(huán)境策略
        長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學習的虛擬仿真環(huán)境
        例談未知角三角函數(shù)值的求解策略
        孕期遠離容易致畸的環(huán)境
        我說你做講策略
        環(huán)境
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        国产成人无码精品久久久露脸| 亚洲免费视频一区二区三区| 日韩人妻大奶子生活片| 一区二区三区高清在线观看视频| 亚洲精品久久久久成人2007| 亚洲av色先锋资源电影网站| 一区二区三区免费视频网站| 日本免费影片一区二区| 色又黄又爽18禁免费网站现观看| 国产97在线 | 中文| 久久精品国产免费观看99| 国产一区二区毛片视频| 男女裸体做爰视频高清| 女人让男人桶爽30分钟| 久久精品国产91久久性色tv | 国产一区二区三区特黄| 国产精品国产三级国产av品爱| 成人爽a毛片在线视频| 亚洲乱码一区二区三区成人小说 | 国产妇女乱一性一交| 邻居少妇太爽在线观看| av无码小缝喷白浆在线观看| 18禁美女裸身无遮挡免费网站| 亚洲AV秘 无码一区二区三| 日韩人妖干女同二区三区| 成人在线免费电影| 自拍偷自拍亚洲精品播放| av网站影片在线观看| 亚洲综合一区二区三区天美传媒 | 久久精品国产亚洲av电影| 国内自拍第一区二区三区| 黄色av亚洲在线观看| 老熟妇仑乱视频一区二区| 视频国产精品| 国产av一级二级三级| 国产97在线 | 日韩| 中文字幕欧美一区| 色妞一区二区三区免费视频 | 日日碰狠狠添天天爽| 国产丝袜精品不卡| 99久久婷婷国产精品综合网站|