亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向空天防御體系的多任務可控涌現(xiàn)機制研究*

        2023-07-05 08:44:58白宗磊劉秀華白天翔孫科武
        現(xiàn)代防御技術 2023年3期
        關鍵詞:決策規(guī)則建模

        白宗磊,劉秀華,白天翔,孫科武

        ?空天防御體系與武器?

        面向空天防御體系的多任務可控涌現(xiàn)機制研究*

        白宗磊1,2,劉秀華1,2,白天翔1,2,孫科武1,2

        (1.航天科工集團智能科技研究院有限公司,北京 100043; 2.航天防務智能系統(tǒng)與技術科研重點實驗室,北京 100043)

        群體智能涌現(xiàn)研究對于人們理解自然界規(guī)律,優(yōu)化社會管理,推進知識創(chuàng)新有重要作用,空天防御體系為群體智能涌現(xiàn)提供了研究和應用的新場景。然而,空天防御體系是典型的非線性系統(tǒng),系統(tǒng)的可控涌現(xiàn)面臨狀態(tài)空間指數爆炸、動態(tài)過程建模復雜、性能分析困難等問題。面向戰(zhàn)場防御場景,針對空天防御體系面臨的大規(guī)模目標應對、復雜任務場景適配、多任務協(xié)調配合、復雜系統(tǒng)設計等問題,開展了面向空天防御體系的可控涌現(xiàn)機制研究,探究空天防御體系的涌現(xiàn)機制,為提升空天防御體系的多目標應對能力、場景快速適配能力和空天防御體系要素之間的有效協(xié)調配合能力提供新視角。

        群體智能涌現(xiàn);空天防御體系;可控涌現(xiàn);復雜系統(tǒng);多智能體強化學習

        0 引言

        涌現(xiàn)(emergence)是一種自然現(xiàn)象,當一組簡單個體的局部規(guī)則或相互作用在更高層次上產生復雜的全局行為時,就會發(fā)生涌現(xiàn)[1]。在涌現(xiàn)中,每個單體都只關注自己周圍的局部信息,并根據一定的規(guī)則進行決策和行動,最終形成了整體的行為[2]。這種整體行為可以帶來許多優(yōu)勢,如提高效率、減少誤差、增強魯棒性等[3]。

        多智能體系統(tǒng)[4]的涌現(xiàn)包括基于簡單規(guī)則[5]的涌現(xiàn)和基于群體智能[6]的涌現(xiàn)[7]?;诤唵我?guī)則的涌現(xiàn)指的是每個個體均遵從簡單的動作規(guī)則和交互規(guī)則,整個系統(tǒng)形成一個復雜網絡[8],這一涌現(xiàn)機制廣泛存在于簡單的物理系統(tǒng)和機械結構中,以及低等生物群體中[1,8];基于群體智能的涌現(xiàn)是指當一群具有自適應能力和學習能力的智能體交互協(xié)作時,所表現(xiàn)出來的整體行為,超出了單體能力的簡單加和,并且難以通過單體行為而被預測或解釋[9-10]。這種涌現(xiàn)現(xiàn)象在自然界和人工系統(tǒng)中都非常常見,例如蟻群、神經元網絡系統(tǒng)、人體免疫系統(tǒng)[1]、互聯(lián)網和全球經濟系統(tǒng)[9]等多智能體系統(tǒng)。

        隨著人工智能技術的發(fā)展,現(xiàn)代化設備均具有一定的通信能力和數據處理能力,支持構造多智能體系統(tǒng),并基于多智能體的涌現(xiàn)機制來應對強動態(tài)、高復雜任務場景[11-13],如空天防御場景。然而多智能體系統(tǒng)是典型的非線性系統(tǒng),面臨狀態(tài)空間指數爆炸、動態(tài)過程建模復雜、性能分析困難等問題[14-16]。

        針對空天防御場景下多智能體系統(tǒng)面臨的復雜性問題,本文研究多智能體系統(tǒng)模型表征方法,探究群體智能的涌現(xiàn)機制,設計更好的涌現(xiàn)算法和系統(tǒng)來實現(xiàn)多智能體系統(tǒng)的可控涌現(xiàn),為提升空天防御系統(tǒng)大規(guī)模目標應對、復雜任務場景適配和多任務協(xié)調配合能力奠定基礎。

        1 多智能體系統(tǒng)模型表征

        本文使用圖網絡模型來構建多智能體系統(tǒng)的協(xié)同關系,使用節(jié)點來描述單個智能體,每個點附帶屬性描述,抽象描述智能體的狀態(tài)參數。在人類社會和經濟組織中,傳統(tǒng)的多智能體協(xié)同關系可以抽象為樹狀結構,各個子系統(tǒng)之間的交流必須通過父節(jié)點的中轉。樹狀體系各個子組件具有內部要素緊耦合、外部要素松耦合的特性,各個子系統(tǒng)之間的聯(lián)系必須依賴于中心節(jié)點,存在決策鏈路長,決策效率低的問題,難以應對強動態(tài)、高復雜的任務場景,一種自然的方案是在子系統(tǒng)之間建立連接,形成網絡協(xié)同機制,基于多智能體系統(tǒng)的涌現(xiàn)機制來應對復雜任務。因此,本文使用圖結構來建模多智能體系統(tǒng)的耦合關系,基于網絡科學理論來分析多智能體系統(tǒng)的涌現(xiàn)現(xiàn)象。

        研究涌現(xiàn)現(xiàn)象首先需要對研究對象進行合理建模,為了清晰地刻畫多智能體的交互作用所誘導出的涌現(xiàn)現(xiàn)象,對于單個智能體要盡可能使用簡單的屬性來表征出個體本質的動作規(guī)律。針對典型多智能體系統(tǒng),抽象3種類型的智能體作為節(jié)點,構建協(xié)同網絡來建模多智能體系統(tǒng)。根據要素功能分為3類節(jié)點,分別為感知節(jié)點、控制節(jié)點、執(zhí)行節(jié)點,將3種節(jié)點的動作規(guī)則定義如下:

        (1) 感知節(jié)點(VS):該類節(jié)點具備空間感知能力,感知空間目標信息并發(fā)送給控制節(jié)點。

        (2) 控制節(jié)點(VD):該類節(jié)點具備控制、判斷能力,接收各類感知節(jié)點或控制節(jié)點傳來的目標信息,并及時進行分析,做出決策,并以控制信息的形式傳輸到控制節(jié)點或執(zhí)行節(jié)點。

        (3) 執(zhí)行節(jié)點(VJ):該類節(jié)點的功能是接收控制節(jié)點的信息,執(zhí)行相應的任務。

        接下來給出典型的多智能體場景示例,以此為基礎進行系統(tǒng)建模。本場景中各型體系要素的位置為隨機生成,包括感知單元、執(zhí)行單元、控制單元。場景中體系要素節(jié)點的位置分布如圖1所示,其中黃色點為執(zhí)行單元位置、藍色點為控制單元位置、紅色點為感知單元位置。

        圖1  多智能體要素分布圖

        對于探測、通信、執(zhí)行節(jié)點,按照現(xiàn)實條件的約束,均存在一定的有效作用范圍。圖2展示了部分節(jié)點的有效作用范圍,以節(jié)點為圓心的圓盤內表征了智能體的有效作用范圍。

        圖2  多智能體分布與響應范圍

        接下來定義系統(tǒng)中節(jié)點之間的協(xié)同規(guī)則:在由感知節(jié)點、控制節(jié)點、執(zhí)行節(jié)點組成的多智能體網絡中,各節(jié)點之間的主要關系有以下幾類:

        (1) 通信關系,如感知節(jié)點和控制節(jié)點之間的通信等,對應的邊傳輸信息流;

        (2) 控制關系,包括控制節(jié)點和執(zhí)行節(jié)點之間的關系、控制節(jié)點之間的關系等,該關系對應的邊傳輸控制決策信息流;

        (3) 協(xié)同關系,包括信息協(xié)同、資源協(xié)同,對應的邊傳輸控制信息流。

        基于上述的連通規(guī)則,使用貪婪策略即可生成滿足約束的多智能體協(xié)同網絡,每個節(jié)點優(yōu)先與距離最近的節(jié)點連接,生成的網絡架構如圖3所示。

        圖3  基于貪婪規(guī)則的多智能體系統(tǒng)架構

        令表示所有節(jié)點集合,表示信息連邊集合,節(jié)點和邊構成的圖=(,)表示多智能體系統(tǒng)。

        如上所述,單個智能體實現(xiàn)的功能可以表示為節(jié)點的狀態(tài)集合,包括感知、通信、控制、執(zhí)行等動作,智能體間的協(xié)同關系表示為圖網絡模型。在系統(tǒng)動態(tài)運行過程中,每個節(jié)點根據外部環(huán)境和相鄰節(jié)點的作用關系,可以從給定的動作集合中選取動作來執(zhí)行。

        多智能體系統(tǒng)整體涌現(xiàn)出的性質即為上述圖網絡模型所展現(xiàn)的性質,在動態(tài)環(huán)境中,每個節(jié)點根據動作規(guī)則和協(xié)同規(guī)則執(zhí)行動作,改變自己的狀態(tài),整個體系的狀態(tài)隨之變化。通過協(xié)同作用,多智能體系統(tǒng)能夠涌現(xiàn)出超越單個智能體性能加和的性質。而系統(tǒng)的涌現(xiàn)可以表征為系統(tǒng)的整體狀態(tài),如果存在某個狀態(tài)能夠滿足所需要的性質,那么通過設定單個智能體的規(guī)則使得系統(tǒng)處于這一狀態(tài),便可實現(xiàn)系統(tǒng)的可控涌現(xiàn)。但是,整個系統(tǒng)的狀態(tài)空間大小隨著節(jié)點個數的增加而指數增加,多智能體系統(tǒng)具有典型的非線性性質,無法通過單個節(jié)點性質的簡單疊加而推導出整個系統(tǒng)的性質,這使得可控涌現(xiàn)的研究十分困難,需要對狀態(tài)空間進行詳細地數學表征和研究。

        2 多智能體系統(tǒng)涌現(xiàn)機制

        2.1 基于簡單規(guī)則的多智能體涌現(xiàn)機制

        本節(jié)討論多智能體系統(tǒng)的涌現(xiàn)過程,首先考慮智能體只遵從簡單規(guī)則來執(zhí)行動作和交互的情況。在應對環(huán)境變化過程中,智能體執(zhí)行動作并進行交互,在網絡模型中形成感知-決策-執(zhí)行環(huán)的系統(tǒng)運作方式,由此刻畫系統(tǒng)的涌現(xiàn)性質。

        2.1.1動作規(guī)則

        總體來說感知節(jié)點的動作包括感知、連接、信息傳輸;執(zhí)行節(jié)點的動作包括接收控制信息,定位目標,執(zhí)行動作;控制節(jié)點的動作包括接收感知信息、接收執(zhí)行節(jié)點狀態(tài)、發(fā)出控制命令等。

        在整個運行過程中,3類節(jié)點遵循如下的規(guī)則建立連接,主要連接類型分為感知節(jié)點、執(zhí)行節(jié)點與控制節(jié)點的連接以及控制節(jié)點之間的連接:

        (1) 感知節(jié)點、執(zhí)行節(jié)點動態(tài)地同控制節(jié)點建立連接關系,如果節(jié)點的連接數少于4,則會定期搜索周邊的控制節(jié)點,并發(fā)送請求進行連接。在某個節(jié)點出現(xiàn)問題后,鄰接的感知和執(zhí)行節(jié)點可以迅速接入相鄰的控制節(jié)點,即所有節(jié)點均會盡可能地保證接入網絡。

        (2) 控制節(jié)點主動與周邊的控制節(jié)點建立連接,保障網絡的連通性,如果相鄰的控制節(jié)點出現(xiàn)故障,則繼續(xù)搜尋新的控制節(jié)點建立連接。

        如上所述,感知節(jié)點、執(zhí)行節(jié)點主要從屬于相鄰的控制節(jié)點,而控制節(jié)點一方面可以控制相鄰的感知節(jié)點、執(zhí)行節(jié)點執(zhí)行動作,另一方面可以與相鄰的控制節(jié)點進行通信,由此構成了控制網絡。

        對于系統(tǒng)的運行邏輯,構造了可視化的3層邏輯網絡展示:感知網絡、控制網絡、執(zhí)行網絡。

        最上層為感知層,與相鄰的控制節(jié)點相連接,并將感知信息傳遞給控制節(jié)點;中間層為控制節(jié)點,控制節(jié)點與相鄰的控制節(jié)點間存在連接,可以相互傳遞信息,所有控制節(jié)點構成了整個多智能體網絡;控制節(jié)點連接最下層的執(zhí)行節(jié)點,控制動作執(zhí)行。

        首先介紹基于規(guī)則的空天防御體系框圖,根據2.1節(jié)所述的構造規(guī)則,在3類節(jié)點之間可以自動生成網絡架構,如圖4所示,為3類節(jié)點的通信網絡架構。

        圖4  感知、控制、執(zhí)行三層網絡模型

        從局部來看,是相鄰的控制節(jié)點控制對應范圍內的感知節(jié)點、執(zhí)行節(jié)點執(zhí)行動作,而從全局來看,則是小范圍的控制-感知-執(zhí)行網絡組合成一個個局部網絡,然后通過控制節(jié)點構成的控制網絡,實現(xiàn)各個局部網絡之間的協(xié)作連接。

        2.1.2感知-決策-執(zhí)行過程

        首先考慮單條感知-決策-執(zhí)行鏈路,即針對單個目標的應對過程,然后考慮多目標的感知-決策-執(zhí)行鏈路。感知-決策-執(zhí)行鏈路的設計主要考慮對目標的應對策略,以及執(zhí)行過程需要調動的要素。

        在感知-決策-執(zhí)行鏈路的構建過程中,最復雜的部分是如何選擇合適的執(zhí)行節(jié)點和信息傳播路徑。需要解決以下問題:

        (1) 如何快速找到合適的執(zhí)行節(jié)點來適配任務;

        (2) 如何避免多個節(jié)點的重復工作,造成浪費。

        首先設計算法來分配任務,對于任意目標,會有相應的感知設備跟蹤到,并將感知信息傳輸給相鄰的控制節(jié)點,在正常情況下,會有數個控制節(jié)點收到對應的信息,即如前所述的局部網絡中,對應的控制節(jié)點具有了目標的詳細信息。此時控制節(jié)點根據目標信息,確定需要轉發(fā)的下一個控制節(jié)點。

        如上所述為信息包的發(fā)起過程,接下來討論傳輸策略,當控制節(jié)點收到信息包時,需要對信息進行分析,并按照貪心策略轉發(fā)信息包,進行信息傳遞,直到某一臺控制節(jié)點可以調動執(zhí)行節(jié)點,完成對應任務,并向相鄰的控制節(jié)點廣播自己的執(zhí)行信號,避免重復執(zhí)行。

        上述過程使用了貪心的協(xié)同策略,在找到第一個可行的執(zhí)行節(jié)點時便下達執(zhí)行命令。一方面能夠有效快速應對目標;另一方面,通過全域廣播執(zhí)行信息,可以有效應對重復執(zhí)行問題。

        上述操作為單任務的應對過程,多任務使用同樣的應對策略,即為每一個任務建立一個傳遞過程,形成一個感知-決策-執(zhí)行環(huán),在圖模型中形成一條鏈路,每一個目標構建一條通信鏈路來進行處理。在對目標感知過程中,對目標進行區(qū)分編號,并通過通信算法,來按照上述方法構建通信鏈路,應對多任務場景。

        2.1.3多智能體系統(tǒng)網絡構建

        感知節(jié)點負責感知目標信息,對于感知節(jié)點,令CNR表示與節(jié)點相連接的控制節(jié)點構成的集合,按如下步驟完成對目標的一次任務執(zhí)行過程:

        步驟1:如果CNR中元素個數大于0,轉到步驟2,否則本次任務失敗;

        如上所述,在感知到目標時,通過遞歸地選取合適的資源,對任務進行劃分,通過遞歸地進行任務分配來形成完整的感知-決策-執(zhí)行鏈。

        對于多目標的情況,使用向量(、)對目標=(1,2,…,T)進行標記,其中=(1,2,…,R)表示感知到的節(jié)點,向量=(1,2,…,o)表示目標的屬性。根據上述目標的屬性信息,可以標記唯一且確定的目標。按照上述方法,為每個目標T設計一條完整的感知-決策-執(zhí)行鏈L,所有的鏈共同構成一個完整的任務網絡。

        2.1.4多智能體系統(tǒng)數學建模

        本節(jié)將多智能體系統(tǒng)的狀態(tài)空間符號化,在此基礎上建模涌現(xiàn)過程。對于單個智能體,用有限集合{1,2,3,…}來表示智能體狀態(tài)集合,其中每個元素代表智能體的一種狀態(tài)。對于一個智能體,定義轉換函數來描述動作規(guī)則,將當前輸入值和當前的狀態(tài)作為轉換函數的參數,即可生成智能體的下一個狀態(tài)。如果這個智能體有個輸入,用個集合{1,2,…,I}表示可能的輸入值。定義為1,…,I的笛卡爾積表示所有可能的輸入構成的集合,即

        =1×2×…×I.

        例如,如果有集合1={a,b,c}和2={,},則

        =1×2={(,),(,),(,),(,),(,),(,)}。

        因此,智能體的轉換函數定義為

        :×→.

        為了描述智能體的行為序列,指定()為時刻的狀態(tài),I()為時刻輸入的值,那么智能體的動作可由函數確定:

        (+1)=(1(),2(),…,I(),()).

        同樣地,給出+1時刻的輸入{1(+1),2(+1),…,I(+1)},便可用函數推導出機制在+2時刻的狀態(tài)(+2),以此類推,可以遞歸地得出機制在+3、+4等時刻的狀態(tài),從而生成連續(xù)的狀態(tài)序列。這種迭代過程有效地建模了系統(tǒng)演化過程。

        接下來考慮智能體的相互作用與連接關系,在模型的構建過程中,目標是建立一個框架,以便刻畫多智能體系統(tǒng)的自主演化,在其中研究涌現(xiàn)現(xiàn)象和涌現(xiàn)的復雜性。多智能體系統(tǒng)的涌現(xiàn)現(xiàn)象是由受規(guī)則約束的實體相互作用產生的。使用轉換函數來給出這些約束規(guī)則的形式化表示,當多個智能體相互作用時,對應的狀態(tài)空間的復雜性就會和涌現(xiàn)緊密聯(lián)系在一起。

        首先定義一個智能體的集合來建模所有可能的智能體類型,稱為基本因子,基本因子根據協(xié)同規(guī)則連接起來構成多智能體系統(tǒng)。當一個智能體的狀態(tài)序列決定了另一個智能體中某一輸入變量的序列值時,就說這兩個智能體相互連接。通過選取集合中的智能體進行連接,構成一個相互作用的多智能體網絡。

        假設是由個智能體組成的集合,這些智能體的動作由轉換函數1,2,…,f定義。中的智能體可能有不同的狀態(tài)集、不同的輸入個數。在符號中添加下標來表征智能體的可能輸入

        I=II2×…×I(),

        其中,()表示智能體的輸入個數。經過擴展,智能體的轉換函數f表示為

        fI×SS.

        接下來建模集合中智能體的相互作用。為了使兩個智能體能夠相互作用,其中一個智能體的狀態(tài)應當在一定程度上決定另外一個智能體的某個輸入值。這些智能體才能被耦合或者連接起來。對F中智能體的不同狀態(tài)集取并集:

        =1∪2∪ … ∪S。

        定義接口函數g來表示智能體中的輸入,對于一個和智能體連接的智能體,函數g將該智能體的狀態(tài)作為初始值,就可為智能體生成輸入的合法值。因此,g使用如下表達形式:

        g:→I.

        即在任意時刻,智能體與智能體的輸入相連接:

        I(t)=g(()).

        通過接口函數,根據智能體在時刻的狀態(tài)(),可以確定輸入在時刻的輸入值序列。

        使用上述方法連接中的智能體,通過受限生成過程可以創(chuàng)建出更復雜的復雜網絡,從單個智能體開始,然后再逐步達到目標。

        (1) 模型生成過程可以僅包含單個智能體∈。

        (2) 假設是已經建立的網絡,且中的智能體有一個自由輸入,將輸入與中的某個其他智能體連接,即在中建立從到的新連接,就能得到新的網絡'。

        (3) 假設1和2是已經建立的網絡,且1中的智能體有一個自由輸入,那么將輸入與2中的某一其他智能體連接后,輸入就不再是自由的,這樣一來,就會得到一個新的網絡"。

        (4) 通過以上3步,即可建立所有以為基礎的網絡。

        用() 來表示網絡中的智能體總數(每個智能體其實都是中的一個)。根據集合{1,2,…,()},可以給網絡中的每個智能體分配一個唯一的索引(地址)。用下面的方法創(chuàng)建這種索引。

        (1) 若網絡只包含單個智能體∈,則的索引就是=1。

        (2) 若網絡'是通過將中的一個自由輸入和中的某個智能體連接在一起形成的,則索引不變。

        (3) 若網絡是通過將1中的一個自由輸入與2中的一個智能體連接在一起形成的,則1中的索引不變,2中的每個索引都增加(1)以生成一個新的索引'=+(1),即(')(1)+(2)。

        在多智能體網絡中,如果每個智能體都有唯一索引,那么就可以用矩陣來描述網絡中節(jié)點的連接和鄰接情況。對于由個智能體構成的網絡,令表示單個智能體的狀態(tài)數量,則多智能體系統(tǒng)的狀態(tài)空間大小為q(此處假設所有智能體狀態(tài)數相同,不同的情況更加復雜,但數量級相同)。在智能體演化過程中,多智能體系統(tǒng)將停留在哪種狀態(tài),或者以什么樣的概率分布在整個狀態(tài)空間上,決定了整個系統(tǒng)涌現(xiàn)出的性質。

        圖5  基于規(guī)則的涌現(xiàn)過程示意圖

        網絡的涌現(xiàn)取決于智能體的狀態(tài)數,連接方法,連接數量,以及智能體之間的相互作用關系。如圖5所示,給定智能體的動作規(guī)則和協(xié)同規(guī)則,即可確定系統(tǒng)狀態(tài)空間,針對特定的任務,系統(tǒng)涌現(xiàn)出特定的動作序列,基于系統(tǒng)的指標評估,可以搜索最優(yōu)的狀態(tài)配置。在此基礎上,還可以反饋到動作規(guī)則和協(xié)同規(guī)則的設計。系統(tǒng)的可控涌現(xiàn)關鍵在于刻畫單個智能體性質與多智能體涌現(xiàn)之間的對應關系,從而實現(xiàn)可控涌現(xiàn)。

        2.2 基于強化學習的多智能體涌現(xiàn)機制

        接下來考慮基于強化學習的多智能體系統(tǒng)可控涌現(xiàn)。此時每個裝備建模為一個智能體,可以根據環(huán)境狀態(tài)而自適應地執(zhí)行相應的動作。多智能體系統(tǒng)的可控涌現(xiàn)表現(xiàn)為對智能體策略的構建。本文將智能體的策略模型建模為強化學習過程,每個智能體可以根據環(huán)境變化、其他智能體的狀態(tài)變化,通過強化學習策略來選擇自己的動作。同樣地,為系統(tǒng)設置整體的性能指標,并以此為基礎構建強化學習的目標函數。基于目標函數構建智能體的強化學習策略,通過強化學習來得出智能體的動作序列,實現(xiàn)多智能體系統(tǒng)的可控涌現(xiàn)。

        對于由個智能體構成的網絡,如圖6所示,在多智能體網絡運行過程中,任意智能體可以觀測相鄰智能體的狀態(tài)和環(huán)境狀態(tài),以及通過通信得到的部分其他智能體的狀態(tài),獲得觀測o,并遵從一定的執(zhí)行策略,執(zhí)行動作a,并獲得對應的獎勵r。在智能體演化過程中,智能復雜網絡將停留在哪種狀態(tài),或者以什么樣的概率分布在整個狀態(tài)空間上,決定了整個復雜網絡呈現(xiàn)出的性質。而網絡的穩(wěn)定態(tài)則取決于智能體的策略,交互方法,連接數量等?;趶娀瘜W習來構建智能體的執(zhí)行策略,實現(xiàn)網絡的涌現(xiàn)性質。

        此外,智能復雜系統(tǒng)由于單個個體存在智能策略,可能需要長時間的博弈過程才能形成穩(wěn)態(tài),在構建過程中需要考慮智能策略的反應時間(即能在多長時間能產生決策),整體系統(tǒng)博弈的平衡狀態(tài),博弈平衡需要的時間(多長時間能夠演化到平衡態(tài)),整體性能指標(同簡單規(guī)則的情況相同,使用圖模型的量化指標來表征)。

        圖6  多智能體與同一環(huán)境交互示意圖

        馬爾可夫決策模型(Markov decision process)為解決多智能協(xié)同涌現(xiàn)問題提供了技術基礎,如多智能體馬爾可夫決策模型(M-MDPs),去中心化的馬爾可夫決策模型(DEC-MDPs)。由于實際環(huán)境通常是部分可觀測的,所以在多智能體決策過程中一般使用去中心化的部分可觀測馬爾可夫決策模型(DEC-POMDPs),其目標是使獨立智能體在協(xié)作完成一項共同任務時最大化整個系統(tǒng)的報酬。本文使用基于馬爾可夫決策模型的多智能體深度強化學習方法,構建空天防御體系的分布式決策模型,其可以直接輸入高維狀態(tài)信息,獲取分布式實時決策,在應對大規(guī)模來襲目標,實時動態(tài)防御決策過程中有出色的表現(xiàn),是解決復雜系統(tǒng)可控涌現(xiàn)的有效方法。

        無中心式的多智能體系統(tǒng)作為典型的分布式協(xié)同系統(tǒng),其中每個智能體都要在有限時間內,在信息部分可觀測約束條件下進行最優(yōu)決策行為選擇。根據是否完全可觀測,可以分2種情況設計模型:

        (1) 完全可觀測的多智能體馬爾可夫決策模型

        對于MMDPs模型中每一個智能體而言,其行為決策是相對獨立的,因此求解一個MMDPs問題等價于個MDP的聯(lián)合求解。在經典的單智能體MDP中,求解MDP就是選擇一條合適的策略最大化智能體的決策回報。然而,求解一個MMDPs問題需要尋找一個最大效用值的聯(lián)合策略,多智能體系統(tǒng)面臨狀態(tài)空間復雜的問題,具有典型非線性性質,使用簡單策略難以實現(xiàn)對系統(tǒng)的可控涌現(xiàn)。

        (2) 部分可觀測的多智能體馬爾可夫決策模型

        在現(xiàn)實世界,單個智能體往往只能觀測到部分環(huán)境和鄰接智能體的狀態(tài),因此,一般使用部分可觀測馬爾可夫決策過程(partial observable MDP,POMDP)進行建模,相比于完全可觀測的情況,部分觀測難以估測環(huán)境的實際狀態(tài),策略執(zhí)行受限,系統(tǒng)的可控涌現(xiàn)更加困難。在多智能體問題中,如果每個智能體觀測到環(huán)境的局部信息,并且根據局部信息進行決策,這類問題稱為去中心化POMDP問題(decentralized POMDP,Dec-POMDP)。圖7展示了Dec-POMDP隨時間演進的過程。

        圖7  去中心化的部分可觀測馬爾可夫過程

        在多智能體系統(tǒng)中有多個智能體進行決策,且智能體之間相互影響,共同改變環(huán)境的狀態(tài),系統(tǒng)的可控涌現(xiàn)需要更高的時間復雜度,主要表現(xiàn)為:

        (1) 智能體之間有競爭關系、合作關系等,要考慮環(huán)境、己方、敵方、中立方的行動、意圖及狀態(tài);

        (2) 在強化學習中,需要存儲狀態(tài)值函數或動作-狀態(tài)值函數,以及智能體間的神經元網絡聯(lián)結模式,因此狀態(tài)空間變大,聯(lián)結動作空間隨智能體數量指數增長,系統(tǒng)維度高,計算復雜。

        (3) 多智能體系統(tǒng)中每個智能體的任務不同,但彼此之間又相互耦合影響,因此目標獎勵的確定困難。

        針對上述問題,可以將多智能體系統(tǒng)的可控涌現(xiàn)問題建模為一個多約束、多目標的優(yōu)化問題,并采用群智優(yōu)化方法求解該優(yōu)化問題。每個智能體獨立做出動作選擇,并行地在多智能體系統(tǒng)的狀態(tài)空間中進行大樣本探索,通過構建搜索策略和評估指標,不斷探索在適應度函數(優(yōu)化目標)上優(yōu)勢的動作策略。每個智能體的動作序列可以建模為馬爾可夫決策過程。

        與傳統(tǒng)優(yōu)化算法相比,基于仿生學的群體智能優(yōu)化算法本質上是一種概率并行搜索算法。其尋優(yōu)速度更快,能更有效地搜索復雜優(yōu)化問題的全局最優(yōu)解。全局收斂性好,在包括尋找函數最優(yōu)值、求解旅行商問題、目標分配問題、多處理機調度問題、有依賴的優(yōu)化問題和作業(yè)調度問題等領域得到廣泛的應用。

        群智優(yōu)化過程可以使用遺傳算法。該方法是一種基于自然選擇過程機制的搜索優(yōu)化算法,通過模仿“適者生存”的概念,模擬了一個自然系統(tǒng)中觀察到的運行過程,強者傾向于適應和生存,而弱者傾向于死亡。其中群體中的成員根據其解決方案的適合度進行排名。在遺傳算法中,通過交叉、繁殖和突變等特定的遺傳算子形成新的種群。在每一代中,一個新的智能體是利用來自前一個群體的最適策略的信息產生的。遺傳算法生成可行解的初始種群,并以各種方式進行重新組合,搜索到狀態(tài)空間中更優(yōu)的區(qū)域。每一個可行的解決方案都被編碼為染色體,也被稱為基因型,每一條染色體都將通過適應度函數(評估或目標函數)求得一個適應度度量。該算法由3個主要過程組成,即繁殖、交叉和突變。繁殖選擇種群中最適的候選者,而交叉則是將最適的染色體結合并傳遞優(yōu)良基因給下一代的過程,突變則改變染色體中的一些基因。結合適應度評估即可對復雜優(yōu)化問題求解。

        3 結束語

        在單智能體系統(tǒng)中,智能體只需要考慮環(huán)境的變化,而在多智能體強化學習中,還需要考慮多個智能體的交互和相互影響,動態(tài)過程更加復雜,智能體的最優(yōu)策略可能隨著其他智能體策略的變化而變化,這給算法的收斂性帶來極大地影響,學習速度減慢。

        多智能體系統(tǒng)的可控涌現(xiàn)目前還存在諸多難點,對于協(xié)同關系的設定,競爭規(guī)則的改變將導致宏觀上的涌現(xiàn)性質,而指數大小的狀態(tài)空間導致了可控涌現(xiàn)在實現(xiàn)上的困難。在對狀態(tài)空間的搜索尋優(yōu)過程中,多智能體系統(tǒng)面臨非平穩(wěn)環(huán)境、維度爆炸、多智能體信用分配、系統(tǒng)全局探索等問題的挑戰(zhàn)。

        針對多智能體系統(tǒng)的涌現(xiàn)性質,本文給出了基于復雜網絡的多智能體系統(tǒng)建模;在此基礎上,基于復雜系統(tǒng)理論來分析系統(tǒng)的涌現(xiàn)性能;應用強化學習方法來搜索尋找最優(yōu)的動作規(guī)則和協(xié)同規(guī)則,構建匹配相應任務的多智能體系統(tǒng)。

        多智能體系統(tǒng)涌現(xiàn)性質研究的難點在于系統(tǒng)的復雜性,系統(tǒng)的狀態(tài)空間隨著裝備數量增加而指數增大,對系統(tǒng)的模擬計算與性質分析均十分復雜。此外,在環(huán)境發(fā)生變化或者系統(tǒng)的網絡拓撲結構發(fā)生改變后,多智能體系統(tǒng)的演化過程可能需要很長時間,難以快速達到平衡穩(wěn)態(tài),涌現(xiàn)出期望的性質。因此,需要對系統(tǒng)的收斂速率進行分析,而這個分析同樣受制于系統(tǒng)的復雜性,十分困難。

        針對上述問題,一種解決方案是通過指數圖模型來建模狀態(tài)空間,通過分析狀態(tài)空間的連通性來度量收斂速度,在此基礎上,設計動作規(guī)則和協(xié)同規(guī)則來獲取高連通的體系架構,提升體系的快速收斂能力,保障體系的快速涌現(xiàn)。此外,本文給出了基于規(guī)則的協(xié)同方法、基于群智優(yōu)化的協(xié)同方法的設計與驗證。在下一步研究中,通過進一步優(yōu)化動作規(guī)則、協(xié)同規(guī)則,以及智能體的執(zhí)行策略,可以增強系統(tǒng)的涌現(xiàn)效率,實現(xiàn)更好的涌現(xiàn)效果。

        [1] LEIT?O P, KARNOUSKOS S. Industrial Agents: Emerging Applications of Software Agents in Industry[M]. Amsterdam, Netherlands: Elsevier, 2015.

        [2] KUBERA Y, MATHIEU P, PICAULT S. Everything Can Be Agent?。跜]∥Proceedings of the 9th International Conference on Autonomous Agents and Multiagent Systems. Richland, SC: International Foundation for Autonomous Agents and Multiagent Systems, 2010: 1547-1548.

        [3] CUCKER F, SMALE S. On the Mathematics of Emergence[J]. Japanese Journal of Mathematics, 2007, 2(1): 197-227.

        [4] 王涵, 俞揚, 姜遠. 基于通信的多智能體強化學習進展綜述[J]. 中國科學(信息科學), 2022, 52(5): 742-764.

        WANG Han, YU Yang, JIANG Yuan. Review of the Progress of Communication-Based Multi-agent Reinforcement Learning[J]. Scientia Sinica(Informationis), 2022, 52(5): 742-764.

        [5] NIAZI M, HUSSAIN A. Agent-Based Computing from Multi-agent Systems to Agent-Based Models: A Visual Survey[J]. Scientometrics, 2011, 89(2): 479-499.

        [6] PANAIT L, LUKE S. Cooperative Multi-agent Learning: The State of the Art[J]. Autonomous Agents and Multi-agent Systems, 2005, 11(3): 387-434.

        [7] ANDERSON P W. More is Different[J]. Science, 1972, 177(4047): 393-396.

        [8] BOGU?á M, BONAMASSA I, DE DOMENICO M, et al. Network Geometry[J]. Nature Reviews Physics, 2021, 3(2): 114-135.

        [9] WOOLDRIDGE M. An Introduction to Multi Agent Systems[M].John Wiley & Sons, 2002: 366.

        [10] ROGERS A, DAVID E, JENNINGS N R, et al. The Effects of Proxy Bidding and Minimum Bid Increments Within eBay Auctions[J]. ACM Transactions on the Web, 2007, 1(2): 9-es.

        [11] 鄭健, 陳建, 朱琨. 基于多智能體強化學習的無人集群協(xié)同設計[J]. 指揮信息系統(tǒng)與技術, 2020, 11(6): 26-31.

        ZHENG Jian, CHEN Jian, ZHU Kun. Unmanned Swarm Cooperative Design Based on Multi-agent Reinforcement Learning[J]. Command Information System and Technology, 2020, 11(6): 26-31.

        [12] 柏曉祉. 強化學習在多智能體協(xié)同中的研究與應用[D]. 成都: 電子科技大學, 2020.

        BAI Xiaozhi. Research and Application of Reinforcement Learning in Multi-agent Collaboration[D]. Chengdu: University of Electronic Science and Technology of China, 2020.

        [13] 孫清. 基于強化學習的多智能體協(xié)同機制研究[D]. 杭州: 浙江工業(yè)大學, 2015.

        SUN Qing. Research of Multi-agent Cooperation Mechanism Based on Reinforcement Learning[D]. Hangzhou: Zhejiang University of Technology, 2015.

        [14] 陳亮, 梁宸, 張景異, 等. Actor-Critic框架下一種基于改進DDPG的多智能體強化學習算法[J]. 控制與決策, 2021, 36(1): 75-82.

        CHEN Liang, LIANG Chen, ZHANG Jingyi, et al. A Multi-agent Reinforcement Learning Algorithm Based on Improved DDPG in Actor-Critic Framework[J]. Control and Decision, 2021, 36(1): 75-82.

        [15] 曹雷. 基于深度強化學習的智能博弈對抗關鍵技術[J]. 指揮信息系統(tǒng)與技術, 2019, 10(5): 1-7.

        CAO Lei. Key Technologies of Intelligent Game Confrontation Based on Deep Reinforcement Learning[J]. Command Information System and Technology, 2019, 10(5): 1-7.

        [16] 葛志欣. 基于深度強化學習的多智能體協(xié)同決策研究[D]. 大連: 大連理工大學, 2021.

        GE Zhixin. Research on Collaborative Decision of Multi-agent Based on Deep Reinforcement Learning[D]. Dalian: Dalian University of Technology, 2021.

        Research on Multi-task Controllable Emergence Mechanism for Air and Space Defense System

        BAIZonglei1,2,LIUXiuhua1,2,BAITianxiang1,2,SUNKewu1,2

        (1.Intelligent Science & Technology Academy of CASIC,Beijing 100043,China;2.Key Lab of Aerospace Defense Intelligent System and Technology, Beijing 100043, China)

        The research on the emergence of swarm intelligence plays an important role in people's understanding of the laws of nature, optimizing social management, and promoting knowledge innovation. The air and space defense system provides a new scene for the research and application of swarm intelligence. However, the aerospace defense system is a typical nonlinear system, and the controllable emergence of the system faces problems such as exponential explosion of state space, complex dynamic process model, and difficult performance analysis. Aiming at the battlefield defense scenario, this paper carries out the research on the controllable emergence mechanism of intelligent defense system for large-scale target response, complex task scenario adaptation, multi-task coordination and cooperation, and complex system design faced by the air and space defense system, explores the emergence mechanism of the air and space defense system, and provides a new perspective for improving the multi-target response capability, rapid scenario adaptation ability and effective coordination and cooperation among the elements of the air and space defense system.

        emergence of swarm intelligence;air and space defense system;controllable emergence;complex system;multi-agent reinforcement learning

        2023 -02 -24 ;

        2023 -04 -18

        國家自然科學基金(62103386);青年人才托舉工程(2022QNRC001)

        白宗磊(1993-),男,山東淄博人。工程師,博士,研究方向為復雜系統(tǒng),多智能體系統(tǒng)。

        通信地址:100043 北京市石景山區(qū)群明湖大街6號院 E-mail:zongleibai@163.com

        10.3969/j.issn.1009-086x.2023.03.005

        V19;TJ76

        A

        1009-086X(2023)-03-0039-10

        白宗磊, 劉秀華, 白天翔, 等.面向空天防御體系的多任務可控涌現(xiàn)機制研究[J].現(xiàn)代防御技術,2023,51(3):39-48.

        Reference format:BAI Zonglei,LIU Xiuhua,BAI Tianxiang,et al.Research on Multi-task Controllable Emergence Mechanism for Air and Space Defense System[J].Modern Defence Technology,2023,51(3):39-48.

        猜你喜歡
        決策規(guī)則建模
        撐竿跳規(guī)則的制定
        為可持續(xù)決策提供依據
        數獨的規(guī)則和演變
        聯(lián)想等效,拓展建模——以“帶電小球在等效場中做圓周運動”為例
        決策為什么失誤了
        基于PSS/E的風電場建模與動態(tài)分析
        電子制作(2018年17期)2018-09-28 01:56:44
        不對稱半橋變換器的建模與仿真
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        TPP反腐敗規(guī)則對我國的啟示
        三元組輻射場的建模與仿真
        亚洲日韩欧美一区二区三区| 亚洲精品国产av一区二区| 日本一区二区在线播放| 国产黄色av一区二区三区| 97人人超碰国产精品最新| 国产福利午夜波多野结衣| 国产日韩亚洲中文字幕| 国产女主播一区二区久久| 少妇人妻综合久久中文字幕| 久久国产36精品色熟妇| 人妻少妇中文字幕久久69堂| 日韩麻豆视频在线观看| 欧美精品videosex极品| 国产精品成人国产乱| 中文人妻无码一区二区三区| 久久精品国产亚洲av成人网| 草草影院ccyy国产日本欧美| 国产成年女人毛片80s网站| 老少交欧美另类| 国产精品美女一级在线观看| 亚洲伊人久久大香线蕉| 久久久www成人免费毛片| 国模精品无码一区二区二区| 在线观看中文字幕一区二区三区| 黄片小视频免费观看完整版| 香港三级精品三级在线专区| 成人动漫久久| 激情偷拍视频一区二区| 大地资源网在线观看免费官网 | 国产精品美女久久久久久大全| 国产性感主播一区二区| 精品亚洲成av人在线观看| 人妻 日韩精品 中文字幕| 久久99亚洲综合精品首页| 91久久国产香蕉熟女线看 | 看国产黄大片在线观看| av手机在线天堂网| 一二三区亚洲av偷拍| 久久久久久国产精品免费免费男同| 国产成人综合久久久久久| 亚洲精品中文字幕一二三|