亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        無(wú)人集群系統(tǒng)自主協(xié)同技術(shù)綜述

        2021-07-22 00:49:52張婷婷藍(lán)羽石宋愛(ài)國(guó)
        指揮與控制學(xué)報(bào) 2021年2期
        關(guān)鍵詞:無(wú)人集群群體

        張婷婷 藍(lán)羽石 宋愛(ài)國(guó)

        1.陸軍工程大學(xué)指揮控制工程學(xué)院江蘇南京210017 2.中國(guó)電子科技集團(tuán)公司第二十八研究所江蘇南京210017 3.東南大學(xué)儀器科學(xué)與工程學(xué)院江蘇南京210096

        2018年美國(guó)國(guó)防部頒布《國(guó)防部人工智能戰(zhàn)略摘要》,強(qiáng)調(diào)人工智能技術(shù)在軍事領(lǐng)域的應(yīng)用,并于同年發(fā)布了無(wú)人集群系統(tǒng)并行作戰(zhàn)場(chǎng)景[1].2017年至今美國(guó)戰(zhàn)略和預(yù)算評(píng)估中心連續(xù)發(fā)布針對(duì)中俄兩國(guó)的馬賽克式集群作戰(zhàn)等顛覆性作戰(zhàn)模式, 打造全球范圍內(nèi)的武器系統(tǒng)協(xié)同作戰(zhàn)[2].

        我國(guó)國(guó)務(wù)院在2017年提出《新一代人工智能發(fā)展規(guī)劃》,倡導(dǎo)人工智能領(lǐng)域的軍民融合,以加快國(guó)防技術(shù)的成果轉(zhuǎn)化,并為指揮決策、軍事論證和國(guó)防科研提供有力支撐[3].其中,以群體智能為核心技術(shù)的無(wú)人集群系統(tǒng)自主協(xié)同作戰(zhàn)是未來(lái)戰(zhàn)爭(zhēng)重要樣式,美軍已經(jīng)啟動(dòng)高度自主智能化集群武器裝備的研究.我軍也在積極探索利用人工智能算法提高無(wú)人系統(tǒng)的智能化水平, 以取得戰(zhàn)爭(zhēng)主動(dòng)權(quán).進(jìn)一步看, 現(xiàn)代戰(zhàn)爭(zhēng)中戰(zhàn)場(chǎng)環(huán)境瞬息萬(wàn)變, 僅僅通過(guò)單系統(tǒng)的協(xié)作不可能完全掌握戰(zhàn)場(chǎng)環(huán)境和態(tài)勢(shì),海、陸、空多類智能系統(tǒng)的協(xié)同感知、聯(lián)合攻擊必將成為未來(lái)戰(zhàn)爭(zhēng)的作戰(zhàn)模式.2020年1月,中國(guó)科學(xué)院發(fā)布的《2019年人工智能發(fā)展白皮書(shū)》中, 將”群體智能技術(shù)” 列為了8 大人工智能關(guān)鍵技術(shù)之一[4].同時(shí),無(wú)人裝備具有低成本、小型化、功能單一、組網(wǎng)靈活等特性,使得無(wú)人裝備集群作戰(zhàn)通過(guò)數(shù)量?jī)?yōu)勢(shì)來(lái)打擊敵人.在網(wǎng)絡(luò)環(huán)境下, 這類由異質(zhì)、異智系統(tǒng)(智能體) 通過(guò)彼此之間的信息交互構(gòu)成的多維異構(gòu)無(wú)人集群系統(tǒng),看作是異構(gòu)智能群體系統(tǒng),即多智能體(Agent)系統(tǒng).其中, Agent 是對(duì)外界的刺激作出適當(dāng)反應(yīng)的實(shí)體,不是被動(dòng)的接受消息和控制.

        展望未來(lái), 誰(shuí)懂得如何最好地使用無(wú)人集群智能系統(tǒng),誰(shuí)就有望在戰(zhàn)爭(zhēng)中取得巨大優(yōu)勢(shì).

        1 無(wú)人集群系統(tǒng)

        隨著人工智能技術(shù)的興起, 越來(lái)越多的領(lǐng)域嘗試用人工智能技術(shù)解決無(wú)人系統(tǒng)領(lǐng)域的工作, 使其具有智能性以期實(shí)現(xiàn)自主協(xié)同能力.

        目前美軍武器裝備逐步由大型集成裝備轉(zhuǎn)變?yōu)榈统杀拘⌒蜔o(wú)人裝備.在阿富汗和伊拉克戰(zhàn)役中運(yùn)用了無(wú)人駕駛飛行器(UAV), 是武器無(wú)人化的一個(gè)開(kāi)端.尤其是2018年委內(nèi)瑞拉恐怖分子用無(wú)人機(jī)在閱兵儀式上暗殺總統(tǒng)馬杜羅, 這是世界上第一例無(wú)人機(jī)刺殺總統(tǒng)案件, 預(yù)示著自主武器會(huì)是將來(lái)應(yīng)用的熱點(diǎn).美軍Alpha 項(xiàng)目發(fā)布了2025年裝備研發(fā)計(jì)劃[5],軍隊(duì)內(nèi)將配備一定比例的無(wú)人裝備, 包括納米機(jī)器人、微型機(jī)器人、大型UAV 以及其他無(wú)人裝備和自動(dòng)化系統(tǒng).這些無(wú)人裝備在任務(wù)范圍內(nèi)具有自治可調(diào)的自主權(quán)、或受監(jiān)督的自主權(quán)、或者完全的自主權(quán).

        進(jìn)一步, 2018年美軍提出分布式集群作戰(zhàn)樣式[6], 無(wú)人系統(tǒng)由“單平臺(tái)遙控作戰(zhàn)” 向“智能集群作戰(zhàn)”發(fā)展.美國(guó)國(guó)防高級(jí)研究計(jì)劃局(Defense Advanced Research Project Agency, DARPA) 在2003年就曾嘗試組建一個(gè)由120 個(gè)軍事機(jī)器人組成的部隊(duì),裝上蜂群智能軟件,模仿昆蟲(chóng)的組織和行為,機(jī)器人形成蜂群結(jié)構(gòu)使整個(gè)系統(tǒng)具有較高的智能[7?8].2020年9月,阿塞拜疆運(yùn)用6 架無(wú)人機(jī)集群,在24 h 內(nèi)摧毀亞美尼亞一個(gè)坦克步兵團(tuán).無(wú)人集群作戰(zhàn)已經(jīng)到來(lái),訓(xùn)練有素的無(wú)人集群具有極大殺傷力.

        美國(guó)陸軍正在加大力度研究蜂群式UAV 系統(tǒng),該蜂群系統(tǒng)具備快速、準(zhǔn)確執(zhí)行偵察和戰(zhàn)斗任務(wù)的能力, 借鑒蜜蜂采蜜的仿生學(xué)機(jī)理來(lái)模擬蜂群式無(wú)人系統(tǒng)的自主決策,此技術(shù)國(guó)際上處于探索階段.

        美軍海軍研究部提出自主式智能網(wǎng)絡(luò)系統(tǒng)計(jì)劃,構(gòu)建自組織性無(wú)人集群系統(tǒng).該系統(tǒng)是自主控制大量無(wú)人系統(tǒng)組成的部隊(duì),實(shí)現(xiàn)水中、地上、空中作戰(zhàn),形成跨域協(xié)作的牢不可破的互聯(lián)網(wǎng)作戰(zhàn)體系[9].

        從軍用領(lǐng)域來(lái)說(shuō), 我國(guó)無(wú)人機(jī)技術(shù)已進(jìn)入世界領(lǐng)先,形成了一套無(wú)人機(jī)戰(zhàn)斗系統(tǒng),已在部分部隊(duì)列裝.2019年中國(guó)電子科技集團(tuán)公司實(shí)現(xiàn)了200 架無(wú)人機(jī)編隊(duì)飛行,并于2020年10月進(jìn)行了無(wú)人機(jī)蜂群作戰(zhàn)系統(tǒng)試飛.2020年9月國(guó)內(nèi)一家民營(yíng)企業(yè),成功地組織了3051 架無(wú)人機(jī)同時(shí)集群飛行,創(chuàng)下了集群控制新的世界記錄.但總體來(lái)說(shuō),我軍無(wú)人武器系統(tǒng)作戰(zhàn)運(yùn)用研究還處于自動(dòng)控制階段, 無(wú)人武器基本上是依靠有人裝備一對(duì)一遙控指揮, 即各型無(wú)人系統(tǒng)通過(guò)地面站進(jìn)行指揮與控制, 無(wú)人平臺(tái)之間協(xié)同能力不高或無(wú)法協(xié)同.

        考慮到無(wú)人武器系統(tǒng)智能化協(xié)同管控能力有限,無(wú)法適應(yīng)瞬息萬(wàn)變的戰(zhàn)場(chǎng)局勢(shì), 未來(lái)無(wú)人武器系統(tǒng)自主協(xié)同作戰(zhàn)技術(shù)和能力是必須解決的關(guān)鍵問(wèn)題.

        民用領(lǐng)域研究多智能體協(xié)作同樣具有廣泛的應(yīng)用場(chǎng)景.例如, 無(wú)人自主系統(tǒng)可用于環(huán)境監(jiān)測(cè), 突破了地理空間的限制,對(duì)沼澤、湖泊、濕地等各種人員不便抵達(dá)或者抵達(dá)成本過(guò)高的復(fù)雜地理環(huán)境進(jìn)行取樣作業(yè).股票市場(chǎng)上的交易機(jī)器人博弈[10],廣告投標(biāo)智能體通過(guò)在線廣告交易平臺(tái)互相競(jìng)爭(zhēng)[11], 電子商務(wù)協(xié)同過(guò)濾算法預(yù)測(cè)用戶興趣[12], 交通多路口智能協(xié)調(diào)優(yōu)化[13]等等.

        當(dāng)前無(wú)人集群系統(tǒng)最大的挑戰(zhàn)之一是如何讓無(wú)人系統(tǒng)內(nèi)的多個(gè)自主系統(tǒng)學(xué)會(huì)一起完成任務(wù), 學(xué)會(huì)彼此合作和相互競(jìng)爭(zhēng), 提高群體智能.迄今為止戶外自主空中集群系統(tǒng)可以支持30 架無(wú)人機(jī)自主協(xié)同編隊(duì)和避免[14].自主無(wú)人集群系統(tǒng)可以看成多Agent 構(gòu)成的群體智能系統(tǒng),采用Agent 作為智能研究對(duì)象,未來(lái)的無(wú)人系統(tǒng)也會(huì)是“芯片+算法”的一個(gè)即插即用型智能系統(tǒng).涉及的關(guān)鍵技術(shù)領(lǐng)域有: 多Agent 系統(tǒng)自主協(xié)同、多Agent 系統(tǒng)態(tài)勢(shì)共識(shí)、未知系統(tǒng)動(dòng)力學(xué)、群體智能理論與技術(shù)、機(jī)器學(xué)習(xí)方法、行為決策方法.在學(xué)術(shù)研究領(lǐng)域,國(guó)內(nèi)外的大學(xué)和研究機(jī)構(gòu)在無(wú)人集群協(xié)同技術(shù)方面開(kāi)展了前沿性研究,該領(lǐng)域的多個(gè)關(guān)鍵技術(shù)取得了許多理論成果.

        2 自主協(xié)同關(guān)鍵技術(shù)

        2.1 自主協(xié)同多Agent 系統(tǒng)

        無(wú)人集群系統(tǒng)自主協(xié)同首要解決時(shí)空的一致統(tǒng)一、信息的一致表達(dá)和態(tài)勢(shì)的一致理解等問(wèn)題,從而實(shí)現(xiàn)任務(wù)的協(xié)同, 支撐跨無(wú)人平臺(tái)異構(gòu)傳感器要素級(jí)協(xié)同.因此,無(wú)人集群系統(tǒng)的難點(diǎn)和關(guān)鍵技術(shù)是多無(wú)人系統(tǒng)協(xié)同控制問(wèn)題.

        文獻(xiàn)[15] 歸納了有人/無(wú)人自主協(xié)同研究挑戰(zhàn),包括高動(dòng)態(tài)和自組織之間的矛盾、局部感知和全局最優(yōu)決策之間矛盾、智能融合與穩(wěn)定之間的矛盾、靈活性與安全性之間的矛盾.并提出協(xié)同在4 個(gè)層面的科學(xué)問(wèn)題,包括系統(tǒng)層面組織架構(gòu)和協(xié)同模式、決策層面任務(wù)分配與行為規(guī)劃、控制層面合作行為控制、安全層面自主協(xié)同安全指揮控制.無(wú)人集群系統(tǒng)上也面臨這些關(guān)于協(xié)同的共性問(wèn)題,值得深入研究.

        文獻(xiàn)[16]研究了多Agent 共享目標(biāo)系統(tǒng),解決系統(tǒng)內(nèi)Agent 協(xié)同問(wèn)題,提出了一種TM_Q-Learning 的多Agent 強(qiáng)化學(xué)習(xí)方法,結(jié)合基于觀察的隊(duì)友建模技術(shù)(Observation-based Teammate Modeling Technique)以及傳統(tǒng)的Q-Learning 方法, 通過(guò)新的協(xié)作動(dòng)作選擇策略, 改進(jìn)多Agent 協(xié)同, 使其效率得到了有效提高.文獻(xiàn)[17] 研究了不穩(wěn)定服務(wù)質(zhì)量(Quality of Service) 環(huán)境下, 針對(duì)多Agent 協(xié)同系統(tǒng)因Agent獎(jiǎng)勵(lì)分配不均而產(chǎn)生局部最優(yōu)策略的問(wèn)題, 每個(gè)Agent 在其每輪迭代中均隨機(jī)改變與其交互(協(xié)同)的Agent,通過(guò)與其他具有不同獎(jiǎng)勵(lì)值的Agent 反復(fù)交互學(xué)習(xí), 得到最優(yōu)策略, 同時(shí)探討了不穩(wěn)定通信服務(wù)對(duì)Agent 獎(jiǎng)勵(lì)值產(chǎn)生誤差的問(wèn)題.文獻(xiàn)[18?19]認(rèn)為在異構(gòu)環(huán)境下的多Agent 系統(tǒng)中, 同一決策協(xié)議不能適用于所有Agent,結(jié)合Agent 協(xié)同信念的概率分布, 提出了一種異構(gòu)環(huán)境下多Agent 協(xié)同系統(tǒng)的行為學(xué)習(xí)策略, 以解決一些實(shí)際社會(huì)困境(Social Dilemma),如囚徒困境等,并通過(guò)蒙特卡洛模擬實(shí)驗(yàn)表明,該方法可有效提高Agent 的協(xié)同效果.

        文獻(xiàn)[20] 研究了Agent 控制方向未知情況下,高階多Agent 系統(tǒng)的協(xié)同控制問(wèn)題.利用自適應(yīng)反演技術(shù)(Adaptive Back-stepping Technology) 來(lái)解決在每一階Agent 行為中控制方向未知的問(wèn)題,同時(shí)還在每一階中使用與Nussbaum 方程多個(gè)項(xiàng)相關(guān)的條件不等式,來(lái)解決無(wú)向和有向拓?fù)渲械墓沧R(shí)問(wèn)題.通過(guò)實(shí)驗(yàn)多Agent 能較好達(dá)成共識(shí)并漸近收斂到穩(wěn)定狀態(tài).文獻(xiàn)[21?22 分別通過(guò)線性和離散描述多Agent系統(tǒng),對(duì)協(xié)同追蹤技術(shù)進(jìn)行了研究.文獻(xiàn)[23]認(rèn)為深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL) 可以解決多Agent 協(xié)同對(duì)抗任務(wù)中的高維問(wèn)題,但在復(fù)雜環(huán)境下多Agent 因局部最優(yōu)選擇, 會(huì)導(dǎo)致無(wú)法得到全局最優(yōu)解.通過(guò)引入MPCS(Multi-Policy Control System)來(lái)實(shí)時(shí)自主地控制Agent 的行為,并用一個(gè)對(duì)抗游戲測(cè)試MPCS,結(jié)果表明在復(fù)雜環(huán)境下MPCS能使多Agent 對(duì)抗行為更為有效.文獻(xiàn)[24]研究了基于多Agent 系統(tǒng)的無(wú)人機(jī)集群對(duì)抗系統(tǒng),探討了分布式的集群對(duì)抗決策控制,其控制框架分上下兩層,上層為Multi-agent 層, 由相互聯(lián)系的多個(gè)Agent 構(gòu)成,下層為個(gè)體Agent 決策層,通過(guò)采集上層環(huán)境信息和態(tài)勢(shì)信息形成決策.文獻(xiàn)[25]研究了動(dòng)態(tài)拓?fù)浣Y(jié)構(gòu)下多Agent 協(xié)同控制問(wèn)題,設(shè)計(jì)HJB(Hamilton-Jacobi-Bellman Equations) 方程計(jì)算最優(yōu)解, 以達(dá)到納什均衡(Nash Equilibrium).

        2.2 多Agent 系統(tǒng)態(tài)勢(shì)共識(shí)

        態(tài)勢(shì)共識(shí)是智能集群控制與決策的依據(jù).基于智能個(gè)體所載傳感器,實(shí)現(xiàn)集群的態(tài)勢(shì)感知,獲得更廣的觀測(cè)范圍、更高的定位精度以及更高的魯棒性.

        文獻(xiàn)[26]通過(guò)基于位置的共識(shí)主動(dòng)性(Positionbased Stigmergy) 和神經(jīng)模糊學(xué)習(xí)(Neuro-fuzzy Learning), 來(lái)增強(qiáng)多Agent 系統(tǒng)的協(xié)同態(tài)勢(shì)感知能力.即利用用戶移動(dòng)設(shè)備產(chǎn)生地理位置信息,來(lái)偵測(cè)用戶社交事件態(tài)勢(shì)的發(fā)生, 其中共識(shí)主動(dòng)性用來(lái)短期記憶局部環(huán)境下多個(gè)用戶Agent 協(xié)同的位置標(biāo)記,神經(jīng)模型學(xué)習(xí)用來(lái)解決態(tài)勢(shì)(即社交事件)發(fā)生的不確定性.文獻(xiàn)[27]利用模糊共識(shí)模型(Fuzzy Consensus Model)來(lái)解決多Agent 系統(tǒng)中存在的某些Agent分析結(jié)果不一致,進(jìn)而影響態(tài)勢(shì)判斷的問(wèn)題.認(rèn)為一個(gè)能自動(dòng)標(biāo)識(shí)當(dāng)前態(tài)勢(shì)的系統(tǒng),為了確保其可靠性,往往會(huì)部署多個(gè)冗余的智能軟件Agent 來(lái)分析傳感器數(shù)據(jù).然而對(duì)于同一環(huán)境下的同一現(xiàn)象, 不同的Agent 可能產(chǎn)生不一致的結(jié)果,從而影響系統(tǒng)對(duì)當(dāng)前態(tài)勢(shì)的判定.該文獻(xiàn)通過(guò)將基于模糊學(xué)習(xí)的共識(shí)模型整合到系統(tǒng)的態(tài)勢(shì)感知框架中,能讓不一致Agent達(dá)成共識(shí),較好地解決了這個(gè)問(wèn)題.文獻(xiàn)[28]研究了基于Agent 分布式計(jì)算的戰(zhàn)場(chǎng)態(tài)勢(shì)感知網(wǎng)絡(luò),利用無(wú)人機(jī)和無(wú)人戰(zhàn)車等技術(shù),基于分布式計(jì)算和多Agent系統(tǒng), 構(gòu)建戰(zhàn)場(chǎng)自組織智能感知網(wǎng)絡(luò), 通過(guò)結(jié)合A*和蟻群算法來(lái)實(shí)現(xiàn)實(shí)時(shí)路徑規(guī)劃, 解決了傳統(tǒng)自組織網(wǎng)絡(luò)較慢或難以收斂的問(wèn)題, 并且其不依賴于固定的基礎(chǔ)網(wǎng)絡(luò),可有效提高戰(zhàn)場(chǎng)感知能力.文獻(xiàn)[29]提出了基于事件驅(qū)動(dòng)的節(jié)點(diǎn)聚集方案以解決多組共識(shí)問(wèn)題,該方案能確保在Agent 系統(tǒng)抽象出的無(wú)向連接圖中,每個(gè)潛在的子組都有相對(duì)強(qiáng)的連接度,同時(shí)為減少不必要的通訊開(kāi)銷, 通過(guò)耦合子組內(nèi)部和外部信息,設(shè)計(jì)了一種分布式的事件驅(qū)動(dòng)控制器.文獻(xiàn)[30]同樣研究多Agent 系統(tǒng)網(wǎng)絡(luò)中多組共識(shí)問(wèn)題,但采用的方法是基于交換Impulsive 策略,提出了一種使用在變換時(shí)間取樣的瞬時(shí)位置數(shù)據(jù)和速度數(shù)據(jù)的分布式交換的Impulsive 協(xié)議.

        在對(duì)抗系統(tǒng)中,Agent 達(dá)成共識(shí)的性能(速度)對(duì)于決策制定和行為選擇至關(guān)重要, 而這些因素又會(huì)進(jìn)一步影響態(tài)勢(shì)變化.因此,一些文獻(xiàn)對(duì)于Agent 的共識(shí)性能(Consensus Performance)開(kāi)展了研究:如文獻(xiàn)[31]使用LQR 最優(yōu)控制(Linear Quadratic Regulator) 實(shí)現(xiàn)了線性速度最優(yōu)的態(tài)勢(shì)共識(shí); 文獻(xiàn)[32] 引入了一個(gè)多跳傳播(Multi-hop relay) 的共識(shí)協(xié)議來(lái)加快均衡共識(shí);文獻(xiàn)[33]基于事件觸發(fā)控制,研究了多Agent 系統(tǒng)下基于事件的有限代價(jià)的共識(shí)(Guaranteed cost consensus)問(wèn)題.此外,對(duì)于分布式系統(tǒng)下的共識(shí)控制,如第二階共識(shí)(Second-order consensus)的控制問(wèn)題.文獻(xiàn)[34] 研究了如何改進(jìn)自治Agent的感知能力, 包括主動(dòng)感查(Active Perception)、態(tài)勢(shì)感知(Situation Awareness)和上下文感知(Context Awareness),并針對(duì)態(tài)勢(shì)感知提出了一個(gè)去中心化的多Agent 系統(tǒng)環(huán)境.該方法通過(guò)分解事件態(tài)勢(shì)的上下文,解決多Agent 系統(tǒng)態(tài)勢(shì)共識(shí)問(wèn)題.

        2.3 未知系統(tǒng)動(dòng)力學(xué)

        系統(tǒng)動(dòng)力學(xué)以控制論、控制工程、系統(tǒng)工程、信息處理和計(jì)算機(jī)仿真技術(shù)為基礎(chǔ), 研究復(fù)雜系統(tǒng)隨時(shí)間推移而產(chǎn)生的行為模式.集群動(dòng)力學(xué)系統(tǒng)演化分析與協(xié)同控制是美國(guó)《科學(xué)》雜志2014年世界十大科技前沿研究之一,在無(wú)人機(jī)編隊(duì)、敏捷制造、深空深海探測(cè)、智能電網(wǎng)等領(lǐng)域具有廣闊的應(yīng)用前景.在多Agent 系統(tǒng)中,若Agent 的動(dòng)力學(xué)特性未知,那么多個(gè)Agent 就難以達(dá)成一致,無(wú)法實(shí)現(xiàn)跟隨、集群和追蹤等行為.目前,該領(lǐng)域多從理論角度研究在未知?jiǎng)恿W(xué)下的多Agent 協(xié)同問(wèn)題,且現(xiàn)有的分布式算法僅能處理目標(biāo)函數(shù)已知的協(xié)同問(wèn)題, 如協(xié)同對(duì)抗問(wèn)題中對(duì)手策略不確定,使得環(huán)境處于未知狀態(tài),需要解決未知環(huán)境下多Agent 系統(tǒng)動(dòng)力學(xué)行為特征.

        文獻(xiàn)[35] 采用以數(shù)據(jù)為驅(qū)動(dòng)的增強(qiáng)學(xué)習(xí)方法,研究離散時(shí)間動(dòng)力學(xué)未知的多Agent 系統(tǒng)一致控制問(wèn)題(Consensus Control Problem).通過(guò)自適應(yīng)規(guī)劃法和增強(qiáng)神經(jīng)網(wǎng)絡(luò), 在無(wú)系統(tǒng)模型情況下僅靠系統(tǒng)數(shù)據(jù)實(shí)現(xiàn)Agent 跟隨.文獻(xiàn)[36] 研究了未知系統(tǒng)動(dòng)力學(xué)下多Agent 雙角色零和博弈中的群集策略,采用的方法是近似動(dòng)態(tài)規(guī)劃(Approximate Dynamic Programming)和神經(jīng)網(wǎng)絡(luò).文獻(xiàn)[37]采用系統(tǒng)的本地相對(duì)狀態(tài)來(lái)代替全局狀態(tài), 以解決二階非線性多Agent 系統(tǒng)中Leader-Follower 同步問(wèn)題.文獻(xiàn)[38]采用神經(jīng)網(wǎng)絡(luò)獲得近似的控制系數(shù)矩陣,提出一種“演員Agent-評(píng)論家Agent”模式,以一種“前饋時(shí)間”的方式解決有限空間的分布式跟蹤控制問(wèn)題.文獻(xiàn)[39]采用一種鄰居間分布式模糊適應(yīng)控制協(xié)議, 解決動(dòng)力學(xué)未知的協(xié)作跟蹤控制問(wèn)題, 實(shí)驗(yàn)證明同步誤差滿足一致最終有界的李雅普諾夫穩(wěn)定性(Lyapunov Stability),同類文獻(xiàn)還有[40?43]等.文獻(xiàn)[44?45]認(rèn)為傳統(tǒng)的增強(qiáng)學(xué)習(xí)方法不能完全解決未知環(huán)境的路徑規(guī)劃問(wèn)題, 提出Agent 無(wú)需區(qū)分位置的“已訪問(wèn)”和“未訪問(wèn)”狀態(tài),結(jié)合有監(jiān)督學(xué)習(xí)(Neural Networks)和無(wú)監(jiān)督學(xué)習(xí)(Kernel Smoothing)方法,研究了增強(qiáng)學(xué)習(xí)框架下解決未知環(huán)境的路徑規(guī)劃問(wèn)題.文獻(xiàn)[46]認(rèn)為未知環(huán)境中自主協(xié)作規(guī)劃存在任務(wù)死鎖及協(xié)作效率不高的問(wèn)題, 提出一種基于傳統(tǒng)啟發(fā)式學(xué)習(xí)方法(蟻群算法)的多Agent 協(xié)作策略.環(huán)境是開(kāi)放的,文中采用隨機(jī)游走的方法對(duì)環(huán)境進(jìn)行搜索, 采用黑板模型以保證通訊, 引入距離因子和控制因子的改進(jìn)蟻群算法以避免死鎖, 并提供協(xié)同搬運(yùn)的仿真應(yīng)用.文獻(xiàn)[47]認(rèn)為概率分析法可以很好地應(yīng)對(duì)在不確定環(huán)境中多Agent 的路徑規(guī)劃問(wèn)題, 但實(shí)際環(huán)境中會(huì)耗費(fèi)大量資源(如時(shí)間和能量).文獻(xiàn)[48]解決未知道路狀態(tài)的城區(qū)多車輛協(xié)同問(wèn)題, 提出一種多Agent 的D-star 算法和動(dòng)態(tài)路由問(wèn)題的求解方法.

        2.4 群體智能理論與技術(shù)

        群體智能(Swarm Intelligence,SI)一直被認(rèn)為是無(wú)人化作戰(zhàn)的突破口, 作為一種Game-Changing 的顛覆性技術(shù),在學(xué)術(shù)界和國(guó)防領(lǐng)域受到廣泛關(guān)注.群體智能源于對(duì)以螞蟻、蜜蜂等的群體行為的研究,群體沒(méi)有中心控制節(jié)點(diǎn),具有自組織性,采用分布式控制,利用集體學(xué)習(xí)機(jī)制,使單體低級(jí)智能聚合成高智能的群體智能.因此,仿生學(xué)原理越來(lái)越多地應(yīng)用于群體智能的研究.多機(jī)器人系統(tǒng)利用仿真生學(xué)機(jī)理構(gòu)建群體仿生系統(tǒng),提高系統(tǒng)整體工作效率,減少局部故障對(duì)整體的影響.倫敦大學(xué)學(xué)院計(jì)算機(jī)科學(xué)系教授汪軍教授及其團(tuán)隊(duì)一直從事多智能體協(xié)作的研究.汪軍認(rèn)為,目前通用人工智能研究有兩個(gè)大方向,一是大家熟知的AlphaGo,這是單智體,其背后的經(jīng)典算法是深度強(qiáng)化學(xué)習(xí); 另一個(gè)就是多智體(Multiagent), 也可以理解為群體智能, 這是人工智能的下一個(gè)大方向.

        文獻(xiàn)[49] 認(rèn)為在很多生物系統(tǒng)中, 大規(guī)模的復(fù)雜行為可以通過(guò)眾多簡(jiǎn)單個(gè)體的隨機(jī)移動(dòng)和協(xié)調(diào)來(lái)實(shí)現(xiàn), 開(kāi)發(fā)了單自由度(展開(kāi)和收縮) 的機(jī)器“粒子”, 聚集形成一個(gè)“粒子機(jī)器人”系統(tǒng),使其實(shí)現(xiàn)了自組織、自適應(yīng)、高魯棒性的集群行為.文獻(xiàn)[50?51]通過(guò)對(duì)多機(jī)器人行為聚集研究, 分析多機(jī)器人系統(tǒng)分布式合作及智能形成機(jī)理.文獻(xiàn)[52] 認(rèn)為模擬狼群在合作狩獵中的行為機(jī)制, 有助于無(wú)人機(jī)集群對(duì)抗決策體系的優(yōu)化設(shè)計(jì), 并提出了狼群智能與無(wú)人機(jī)集群協(xié)同決策相融合的若干思路和建議.文獻(xiàn)[53?54] 把動(dòng)物預(yù)測(cè)機(jī)制引入到了無(wú)人艇群集動(dòng)力學(xué)中, 提出基于生物集群動(dòng)力學(xué)相變調(diào)控的自主無(wú)人艇集群協(xié)同關(guān)鍵技術(shù), 以提升群集陣列的效率和魯棒性.

        目前群體智能協(xié)同優(yōu)化算法包括蟻群優(yōu)化、粒子群優(yōu)化、蜜蜂啟發(fā)算法、細(xì)菌覓食優(yōu)化, 螢火蟲(chóng)算法、魚(yú)群優(yōu)化等, 已被證明是解決靜止環(huán)境下協(xié)同優(yōu)化問(wèn)題的有效方法.但是, 無(wú)人集群系統(tǒng)往往面臨動(dòng)態(tài)環(huán)境, 對(duì)于這樣的動(dòng)態(tài)優(yōu)化問(wèn)題(Dynamic Optimization Problem, DOP), 傳統(tǒng)的SI 算法難以找到動(dòng)態(tài)環(huán)境下的最優(yōu)解.

        文獻(xiàn)[55] 給出了在算法中集成的增強(qiáng)策略, 以解決群體智能動(dòng)態(tài)優(yōu)化(Swarm Intellgence Dynamic Optimization,SIDO)中使用的動(dòng)態(tài)變化、性能測(cè)量和基準(zhǔn)生成器.文獻(xiàn)[56]利用平均場(chǎng)論解決多智能體交互問(wèn)題,極大地簡(jiǎn)化了交互模式,使計(jì)算量大幅降低, 能夠解決成百上千甚至更多數(shù)量的智能體的交互問(wèn)題.

        上述研究包括單體智能與群體智能之間的博弈、群體智能的涌現(xiàn)機(jī)制,這些方法都為無(wú)人集群系統(tǒng)自主協(xié)同的研究提供了方法參考.

        2.5 機(jī)器學(xué)習(xí)方法

        人工智能和機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展, 以及其在多個(gè)領(lǐng)域的成功應(yīng)用, 使得其成為發(fā)展集群系統(tǒng)協(xié)作的關(guān)鍵技術(shù).與傳統(tǒng)的基于知識(shí)和規(guī)則的控制技術(shù)相比,機(jī)器學(xué)習(xí)技術(shù)對(duì)于環(huán)境的動(dòng)態(tài)變化、智能體間的交互協(xié)作具有更強(qiáng)大的感知和協(xié)調(diào)控制能力,形成啟發(fā)式控制方式[57].

        目前多智能體深度強(qiáng)化學(xué)習(xí)用于無(wú)人集群系統(tǒng)協(xié)同行為策略學(xué)習(xí)是一個(gè)主流的方法.無(wú)人系統(tǒng)通過(guò)試探和獎(jiǎng)勵(lì)反饋形成協(xié)同行為.針對(duì)多Agent 系統(tǒng),每個(gè)Agent 的行為策略不只取決于自身的策略和環(huán)境的反饋, 同時(shí)還受到其他智能體行為和合作關(guān)系的影響.文獻(xiàn)[58] 將其他Agent 當(dāng)作環(huán)境的一部分,Agent 在學(xué)習(xí)過(guò)程中,其他Agent 的策略同時(shí)發(fā)生變化, 使得環(huán)境變成動(dòng)態(tài), 該方法在小規(guī)模離散“狀態(tài)-動(dòng)作”空間下策略學(xué)習(xí)具有一定的效果,但對(duì)復(fù)雜問(wèn)題無(wú)法獲得理想解.文獻(xiàn)[59?60]將所有Agent的狀態(tài)和動(dòng)作集中在一起, 構(gòu)成一個(gè)擴(kuò)張的狀態(tài)和動(dòng)作空間, 采用集中式強(qiáng)化學(xué)習(xí)算法訓(xùn)練所有的Agent.但隨著Agent 數(shù)量的增加, 會(huì)導(dǎo)致?tīng)顟B(tài)和動(dòng)作空間過(guò)大, 以至于無(wú)法進(jìn)行有效的搜索.2017年,文獻(xiàn)[61]提出了一種多智能體深度確定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient,MADDPG),該算法考慮到智能體之間的協(xié)同與對(duì)抗關(guān)系,實(shí)現(xiàn)了多智能體在協(xié)同與對(duì)抗場(chǎng)景中,連續(xù)動(dòng)作空間下自主行為決策學(xué)習(xí).MADDPG 算法首次采用“中心化訓(xùn)練-去中心化執(zhí)行”(Centralized Training Decentralized Execution, CTDE)的學(xué)習(xí)結(jié)構(gòu), 成為目前最常用的一種多智能體強(qiáng)化學(xué)習(xí)算法結(jié)構(gòu)[62?67],該結(jié)構(gòu)是對(duì)所有智能體策略進(jìn)行估計(jì), 訓(xùn)練時(shí)充分利用全局信息,執(zhí)行時(shí)策略只用局部信息,以緩解多智能體協(xié)同造成的環(huán)境不穩(wěn)定問(wèn)題, 從而實(shí)現(xiàn)多智能體協(xié)同行為策略.2017年和2018年DeepMind 公司又推出CTDE 學(xué)習(xí)結(jié)構(gòu)下的VDN[68]和QMIX[69]算法, 解決離散動(dòng)作空間下行為策略學(xué)習(xí).后繼的Weighted QMIX[70]、QPLEX、RODE、ROMA[71]等都是基于CTDE 學(xué)習(xí)結(jié)構(gòu)下的多智能體協(xié)同行為策略算法.到目前為至, 清華大學(xué)提出的RODE 算法在星際爭(zhēng)霸平臺(tái)上效果最好.文獻(xiàn)[72] 又在此基礎(chǔ)上考慮多智能體之間的通信動(dòng)態(tài)特性.這些算法本質(zhì)上遵循多智能體強(qiáng)化學(xué)習(xí)的馬爾可夫決策過(guò)程(Markov Decision Process,MDP)[73],其策略求解方法包括兩個(gè)重要的分支: 第1 類為基于價(jià)值函數(shù)的求解方法, 其本質(zhì)是用一個(gè)深度卷積網(wǎng)絡(luò)來(lái)表示狀態(tài)行為值函數(shù),代表算法有DQN(Deep Q Network)、雙DQN[74]等; 第2 類為基于策略梯度的求解方法, 能夠直接在策略梯度的方向上更新網(wǎng)絡(luò)參數(shù), 代表算法包括策略梯度(Policy Gradient,PG)[75]、深度策略梯度(Deep Policy Gradient, DPG)[76]等.近幾年, 以行為者-評(píng)論家(Actor-Critic, AC)[77]為架構(gòu)的深度強(qiáng)化學(xué)習(xí)算法在理論與實(shí)踐方面有著長(zhǎng)足的發(fā)展,正逐步成為解決智能體行為決策問(wèn)題的主流[78?79].文獻(xiàn)[80?82] 將這種AC 框架與多智能體強(qiáng)化學(xué)習(xí)相結(jié)合, 應(yīng)用于大規(guī)模、高維度的多智能體策略學(xué)習(xí).該方法中每個(gè)智能體通過(guò)自身的觀測(cè)值確定合適的動(dòng)作,統(tǒng)一一個(gè)評(píng)論家,該評(píng)論家能夠接受所有行為者的狀態(tài)信息,用于優(yōu)化行為者的聯(lián)合策略,這種方式基本解決了策略方差過(guò)大的問(wèn)題, 是多智能體強(qiáng)化學(xué)習(xí)領(lǐng)域策略學(xué)習(xí)的一個(gè)重要研究方向.

        2.6 自主行為決策方法

        自主行為決策是智能群體實(shí)現(xiàn)智能化的核心內(nèi)容,受限于人工智能的發(fā)展水平,具備自主決策行為能力的智能體還處于初級(jí)的研究階段, 無(wú)法有效地應(yīng)用于真實(shí)的作戰(zhàn)場(chǎng)景中.為此,眾多的研究者們提出了多種關(guān)于行為決策的方法, 以期實(shí)現(xiàn)智能群體行為上的智能.

        微分對(duì)策(Differential Game)理論提供了一種從微分方程角度求解最優(yōu)目標(biāo)問(wèn)題的方法, 可以將智能群體的行為決策問(wèn)題演化為數(shù)值優(yōu)化問(wèn)題.文獻(xiàn)[83] 采用了開(kāi)環(huán)微分對(duì)策的Nash 均衡點(diǎn)的設(shè)計(jì)算法,針對(duì)若干智能群體通過(guò)估計(jì)它們的終端狀態(tài),實(shí)現(xiàn)編隊(duì)控制的行為策略.文獻(xiàn)[84] 基于微分對(duì)策法用牛頓–歐拉方程建立了含擾動(dòng)變量的n個(gè)智能體數(shù)學(xué)模型, 模型通過(guò)降維求解Riccati 方程組給出數(shù)值算例,實(shí)現(xiàn)多智能體的飛行策略.文獻(xiàn)[85]提出了基于不確定信息的多智能體微分對(duì)策模型, 并在智能群體博弈模型中引入了態(tài)勢(shì)矩陣, 為不確定性信息下的博弈過(guò)程提供最優(yōu)的行動(dòng)策略.然而,基于微分對(duì)策的算法需要精確的數(shù)學(xué)模型, 受限于復(fù)雜多變的戰(zhàn)場(chǎng)環(huán)境, 其在智能群體實(shí)際行為決策中應(yīng)用較為困難.

        進(jìn)化算法(Swarm Intelligence)是以集群動(dòng)物的自組織行為為模型,在解空間中不斷迭代尋優(yōu),搜尋近似最優(yōu)解的算法.以粒子群算法、遺傳算法為代表的進(jìn)化算法, 常用于解決智能群體的協(xié)同任務(wù)規(guī)劃問(wèn)題,具有自適應(yīng)強(qiáng)、易實(shí)現(xiàn)、計(jì)算復(fù)雜度低的優(yōu)點(diǎn).文獻(xiàn)[86]提出了一種近似算法ARES,用于生成動(dòng)作序列的最優(yōu)方案.ARES 使用粒子群優(yōu)化, 對(duì)漸近線與粒子種群進(jìn)行自適應(yīng)調(diào)整, 產(chǎn)生一組用于生成V型編隊(duì)的動(dòng)作序列.文獻(xiàn)[87]以遺傳算法為基礎(chǔ),通過(guò)設(shè)計(jì)一個(gè)混合適應(yīng)度函數(shù), 并利用約束滿足問(wèn)題檢驗(yàn)解的有效性, 求解出了由一組智能群體和作戰(zhàn)系統(tǒng)組成的復(fù)雜任務(wù)規(guī)劃問(wèn)題.但由于進(jìn)化智能算法初始值設(shè)置的隨機(jī)性, 在搜尋過(guò)程中容易陷入局部最優(yōu),通常只能求解近似全局最優(yōu)值.

        另外,文獻(xiàn)[88]基于影響圖法(Influenc Diagram Method), 提出了一種關(guān)于目標(biāo)圖規(guī)劃的算法, 通過(guò)構(gòu)建2V1 的作戰(zhàn)場(chǎng)景任務(wù),幫助智能體作出合理的機(jī)動(dòng)決策.文獻(xiàn)[89]根據(jù)A*算法的一種啟發(fā)式搜索方式, 將由Dubins 路徑構(gòu)造的加權(quán)圖應(yīng)用于智能體搜索策略問(wèn)題中, 生成安全可行的路徑.文獻(xiàn)[90]為了提高動(dòng)態(tài)不確定環(huán)境下智能體的自主決策能力,建立了一種基于模糊推理Petri 網(wǎng)的智能行為決策方法,實(shí)現(xiàn)智能體攻擊與防御的自主行為.然而,雖然智能體的行為決策問(wèn)題得到了許多學(xué)者的關(guān)注,且進(jìn)行了大量的理論研究和實(shí)驗(yàn)分析, 取得了不少進(jìn)展,但在實(shí)際應(yīng)用中仍面臨很多問(wèn)題.

        在決策層面, 無(wú)人集群系統(tǒng)協(xié)同任務(wù)規(guī)劃方面也取得了大量的研究成果[91?93].在任務(wù)執(zhí)行低代價(jià)需求下考慮協(xié)同約束, 多Agent 系統(tǒng)協(xié)同任務(wù)分配看作是復(fù)雜約束條件下的最優(yōu)化NP 問(wèn)題[94].解決此類問(wèn)題常用的方法有: 混合整數(shù)線性規(guī)劃(Mixed Integer Linear Programming, MILP) 法、基于協(xié)商的合同網(wǎng)法和粒子群算法、遺傳算法等智能算法.文獻(xiàn)[95] 采用混合整數(shù)線性規(guī)劃方法來(lái)對(duì)目標(biāo)分配問(wèn)題進(jìn)行了求解, 獲得了較好的分配效果, 其后又將該問(wèn)題描述成動(dòng)態(tài)規(guī)劃問(wèn)題進(jìn)行了求解[96].除此以外, 文獻(xiàn)[97]提出了基于多方協(xié)議(Multi Party Computation, MPC) 的多無(wú)人機(jī)機(jī)協(xié)同任務(wù)分配方法, 通過(guò)合同網(wǎng)拍賣機(jī)制將任務(wù)委派給無(wú)人機(jī)進(jìn)行投標(biāo)競(jìng)爭(zhēng), 以最低代價(jià)執(zhí)行的此任務(wù)無(wú)人機(jī)將獲得這個(gè)任務(wù)的執(zhí)行權(quán).

        航跡規(guī)劃是多無(wú)人機(jī)任務(wù)規(guī)劃中的另一主要問(wèn)題[98?100].在規(guī)劃中要考慮無(wú)人機(jī)的性能、有效載荷、燃料消耗、飛行時(shí)間以及地形跟隨、禁飛區(qū)和威脅區(qū)域等復(fù)雜約束, 還有目標(biāo)執(zhí)行的角度和時(shí)間等[101].目前常用的研究方法有: A* 算法、Voronoi圖規(guī)劃法、人工勢(shì)場(chǎng)法、蟻群算法等,路徑優(yōu)化使用Dubins 曲線法,B 樣條曲線法的方法.

        總的來(lái)說(shuō), 目前針對(duì)復(fù)雜環(huán)境或復(fù)雜任務(wù)的多無(wú)人機(jī)協(xié)同自主規(guī)劃仍停留在理論研究層面, 還需要進(jìn)行更多的實(shí)驗(yàn)測(cè)試以應(yīng)用到實(shí)際環(huán)境中, 集群化無(wú)人機(jī)自主協(xié)同任務(wù)規(guī)劃方法和理論也需要繼續(xù)探索研究.

        2.7 仿真實(shí)驗(yàn)環(huán)境

        近年來(lái)關(guān)于智能體仿真實(shí)驗(yàn)環(huán)境也在不斷涌現(xiàn),如OpenAI Gym、MuJoCo[102]、rllab[103]、DeepMind Lab、TORCS[104]等.繼單智能體行為決策的AlphaGo[105]之后, 業(yè)界開(kāi)始關(guān)注多智能體協(xié)同對(duì)抗策略游戲, 最為知名的是DeepMind 和Blizzard 合作開(kāi)發(fā)的星際爭(zhēng)霸II (StarCraft II) 游戲平臺(tái), 稱為PySC2[106].還有一些結(jié)合領(lǐng)域的群體智能仿真實(shí)驗(yàn)平臺(tái), 如賓夕法尼亞大學(xué)2018年9月公布的Open-UAV 無(wú)人機(jī)集群仿真測(cè)試與實(shí)驗(yàn)平臺(tái), 是全球第一個(gè)用于教學(xué)和測(cè)試的無(wú)人集群系統(tǒng)仿真實(shí)驗(yàn)平臺(tái).蘇黎世大學(xué)機(jī)器人和識(shí)別研究組發(fā)布了一款模塊化的虛擬現(xiàn)實(shí)無(wú)人機(jī)仿真環(huán)境Flightmare,其中包含大型的多模塊仿真?zhèn)鞲衅魈籽b, 用以仿真實(shí)際的物理效果[107].總得來(lái)說(shuō), 多智能體系統(tǒng)實(shí)驗(yàn)?zāi)壳皫缀醵际窃谟螒蚱脚_(tái)驗(yàn)證其協(xié)同算法的有效性, 極少有針對(duì)特定領(lǐng)域的仿真實(shí)驗(yàn).為此,陸軍工程大學(xué)控制技術(shù)與智能系統(tǒng)實(shí)驗(yàn)室于2019年開(kāi)發(fā)完成智能無(wú)人集群系統(tǒng)協(xié)同對(duì)抗仿真實(shí)驗(yàn)平臺(tái)(SwarmFlow),如圖1 所示.是一款結(jié)合智能陸戰(zhàn)場(chǎng)景應(yīng)用的群體智能模擬器,利用場(chǎng)景和算法分離機(jī)制,可支持各類群體智能算法和集群通信測(cè)試, 實(shí)現(xiàn)模擬仿真和無(wú)人裝備實(shí)體孿生控制.

        圖1 SwarmFlow 仿真實(shí)驗(yàn)平臺(tái)Fig.1 SwarmFlow virtual platform

        3 面臨的挑戰(zhàn)

        目前無(wú)人集群系統(tǒng)自主協(xié)同技術(shù)的發(fā)展還存在以下的局限性.

        1)多智能體系統(tǒng)在未知環(huán)境下智能協(xié)同問(wèn)題難度較大,相關(guān)研究較少.多Agent 系統(tǒng)是一個(gè)非常熱門的研究領(lǐng)域,在人工智能、控制理論、機(jī)器人等領(lǐng)域已有廣泛應(yīng)用.但現(xiàn)階段,對(duì)于多Agent 在未知環(huán)境下工作協(xié)同的研究成果較少, 無(wú)法滿足智能協(xié)同的迫切需求,需要系統(tǒng)深入的研究.

        2)將無(wú)人集群系統(tǒng)研究落實(shí)到應(yīng)用層面的成功案例較少.大部分研究都是以數(shù)學(xué)模型和定理為背景,涉及到具體應(yīng)用和平臺(tái)產(chǎn)品的還很少,需要在理論研究和應(yīng)用背景下,完成典型任務(wù)的多Agent 分布式協(xié)同推理系統(tǒng)原理論證, 實(shí)現(xiàn)對(duì)相關(guān)技術(shù)性能指標(biāo)的驗(yàn)證.

        3) 對(duì)Agent 相關(guān)的要素進(jìn)行抽象化.現(xiàn)有研究認(rèn)為未知屬性有環(huán)境信息、Agent 自身狀態(tài)、通訊信息和相關(guān)通訊數(shù)據(jù).后續(xù)研究可以綜合考慮上述環(huán)境屬性,將Agent 可以獲得的環(huán)境要素分為時(shí)鐘、位置、溫度、速度、網(wǎng)絡(luò)環(huán)境、Agent 個(gè)數(shù)、Agent 角色等, 同時(shí)可以將未知的環(huán)境要素抽象為應(yīng)用相關(guān)要素和應(yīng)用無(wú)關(guān)要素,可使研究對(duì)象更為泛化.

        4)Agent 動(dòng)力學(xué)特征方面,現(xiàn)有研究要么考慮未知的具體應(yīng)用環(huán)境而假設(shè)Agent 的感知和通訊是穩(wěn)定的; 要么考慮復(fù)雜行為Agent 的系統(tǒng)動(dòng)力學(xué)未知,而假設(shè)通訊是穩(wěn)定的;要么僅考慮未知通訊.后續(xù)研究需重點(diǎn)關(guān)注抽象的應(yīng)用環(huán)境,設(shè)計(jì)Agent 的動(dòng)力學(xué)特征,包括通訊和網(wǎng)絡(luò)拓?fù)涞扰c應(yīng)用相關(guān)的要素.

        4 未來(lái)研究方向

        雖然目前國(guó)內(nèi)外針對(duì)多Agent 系統(tǒng)協(xié)同問(wèn)題有部分成果可供借鑒, 針對(duì)未來(lái)面向觀察- 判斷-決策-行動(dòng)(Observation-Orientation-Decision-Action,OODA)框架下無(wú)人系統(tǒng)群體自主協(xié)同作戰(zhàn)這一新問(wèn)題, 需要建立多Agent 協(xié)同的領(lǐng)域問(wèn)題和計(jì)算框架,并能夠在多兵種、多武器平臺(tái)等應(yīng)用層面形成戰(zhàn)術(shù)級(jí)解決方案,目前的研究成果還無(wú)法支撐.需要識(shí)別智能群體聚集特征,建立協(xié)同認(rèn)知觀察、自主任務(wù)規(guī)劃、復(fù)雜戰(zhàn)術(shù)協(xié)同、群體學(xué)習(xí)的多智能體系統(tǒng)協(xié)同作戰(zhàn)基本理論和方法體系.對(duì)應(yīng)于需求,針對(duì)大規(guī)模集群協(xié)同行動(dòng)主要的研究方向和挑戰(zhàn)有:

        1) 支持無(wú)人集群自主協(xié)同的系統(tǒng)架構(gòu)設(shè)計(jì).為支撐面向高動(dòng)態(tài)場(chǎng)景的自組織無(wú)人集群系統(tǒng)的自主協(xié)同,需要改變固定契約體系架構(gòu)模式,構(gòu)建支持在線學(xué)習(xí)、邊緣決策的動(dòng)態(tài)契約的無(wú)人集群系統(tǒng)分布式體系結(jié)構(gòu).

        2) 無(wú)人集群系統(tǒng)自主協(xié)同感知和信息共享.作戰(zhàn)協(xié)同需要識(shí)別實(shí)例信息, 包括作戰(zhàn)條例、規(guī)劃描述、殺傷鏈路等.態(tài)勢(shì)感知和共享技術(shù)需要達(dá)到軍事決策和協(xié)同需要的粒度, 實(shí)現(xiàn)復(fù)雜作戰(zhàn)場(chǎng)景的態(tài)勢(shì)抽取、表示和融合.

        3)無(wú)人集群系統(tǒng)自主任務(wù)分配與規(guī)劃技術(shù).針對(duì)自組織和他組織有機(jī)結(jié)合的無(wú)人集群特點(diǎn), 關(guān)注任務(wù)分配的準(zhǔn)確性與時(shí)效性, 增強(qiáng)作戰(zhàn)規(guī)劃的輔助決策能力和任務(wù)規(guī)劃系統(tǒng)的智能性, 實(shí)現(xiàn)執(zhí)行過(guò)程中在智能體之間動(dòng)態(tài)任務(wù)分配.

        4)無(wú)人集群系統(tǒng)智能協(xié)同決策技術(shù).在網(wǎng)絡(luò)分割、信息不完備等帶來(lái)的系統(tǒng)和環(huán)境不確定性情況下,保持智能群體系統(tǒng)協(xié)同有效的戰(zhàn)術(shù)攻擊能力,實(shí)現(xiàn)群體智能系統(tǒng)全局狀態(tài)空間和操作空間的時(shí)變靈活性.

        5)無(wú)人集群系統(tǒng)戰(zhàn)術(shù)協(xié)同算法高效學(xué)習(xí)、群體自學(xué)習(xí)能力.協(xié)同作戰(zhàn)需要智能群體在空間和時(shí)序上形成有效戰(zhàn)術(shù)配合,具有動(dòng)態(tài)任務(wù)、情景自適應(yīng)的群體自學(xué)習(xí)和自演化能力.隨著無(wú)人系統(tǒng)數(shù)量和打擊目標(biāo)數(shù)量增加,群體的行動(dòng)策略維度、狀態(tài)組合呈指數(shù)上升,高維度策略高效學(xué)習(xí)是集群協(xié)同的難題.

        5 結(jié)論

        從多Agent 系統(tǒng)自主協(xié)同、多Agent 系統(tǒng)態(tài)勢(shì)共識(shí)、未知系統(tǒng)動(dòng)力學(xué)、群體智能理論與技術(shù)、機(jī)器學(xué)習(xí)方法和行為決策方法等方面, 分析了自主協(xié)同技術(shù)研究現(xiàn)狀, 闡述了單體無(wú)人系統(tǒng)技術(shù)和群體無(wú)人系統(tǒng)技術(shù)的未來(lái)發(fā)展方向, 給出了無(wú)人集群系統(tǒng)的發(fā)展趨勢(shì)和技術(shù)限制.

        無(wú)人集群系統(tǒng)是近年來(lái)國(guó)內(nèi)外軍事領(lǐng)域研究重點(diǎn),正在推動(dòng)無(wú)人作戰(zhàn)樣式由“單平臺(tái)遙控作戰(zhàn)”向海陸空協(xié)作的“智能群體作戰(zhàn)”發(fā)展.面對(duì)瞬息萬(wàn)變的戰(zhàn)場(chǎng)局勢(shì), 未來(lái)戰(zhàn)場(chǎng)對(duì)無(wú)人武器系統(tǒng)智能化控制和協(xié)同作戰(zhàn)運(yùn)用的需求日趨強(qiáng)烈, 提升對(duì)其控制和作戰(zhàn)管理水平已成為未來(lái)體系作戰(zhàn)亟待突破的瓶頸.涉及的關(guān)鍵技術(shù)包括環(huán)境的感知和集群的控制, 集群控制面臨的挑戰(zhàn)是不同個(gè)體在動(dòng)態(tài)對(duì)抗中的有效協(xié)同方法,以及協(xié)同策略,尤其是集群達(dá)到自主控制水平,目前這方面的研究還任重道遠(yuǎn).

        致謝

        感謝中國(guó)電子科技集團(tuán)公司第二十八研究所左毅研究員給予指導(dǎo)和建議, 南京航空航天大學(xué)孫有朝教授對(duì)文章寫(xiě)作的指導(dǎo), 南京航空航天大學(xué)研究生徐滔和王深深同學(xué)幫助整理參考文獻(xiàn)標(biāo)注.

        猜你喜歡
        無(wú)人集群群體
        通過(guò)自然感染獲得群體免疫有多可怕
        海上小型無(wú)人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
        “群體失語(yǔ)”需要警惕——“為官不言”也是腐敗
        無(wú)人戰(zhàn)士無(wú)人車
        反擊無(wú)人機(jī)
        一種無(wú)人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
        電子制作(2018年11期)2018-08-04 03:25:40
        Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
        詩(shī)到無(wú)人愛(ài)處工
        無(wú)人超市會(huì)流行起來(lái)嗎?
        勤快又呆萌的集群機(jī)器人
        一本一本久久a久久精品综合| 亚洲一区二区三区乱码在线| 天堂av国产一区二区熟女人妻| 日本一级特黄aa大片| 国模丽丽啪啪一区二区| 东北寡妇特级毛片免费| 久久精品中文字幕一区| 亚洲色图视频在线观看网站| 视频网站在线观看不卡| 日韩精品中文字幕第二页| 91超精品碰国产在线观看| 艳妇臀荡乳欲伦69调教视频| 少妇人妻偷人精品视蜜桃| 国产午夜亚洲精品一级在线| av一区二区三区观看| 国产成人综合日韩精品无码| 四虎影视免费永久在线观看| 无码专区天天躁天天躁在线| 99在线国产视频| 白白色发布在线观看视频| 国产做国产爱免费视频| 国产精品熟妇视频国产偷人| 亚洲综合色婷婷七月丁香| 91亚洲夫妻视频网站| 久久一区二区三区少妇人妻| 亚洲视频在线观看| 伊人色综合视频一区二区三区| 国产精品女同一区二区久久| 国产在线视频一区二区三| 三个男吃我奶头一边一个视频| 欧美裸体xxxx极品少妇| 国产色诱视频在线观看| 亚洲黄色在线看| 加勒比亚洲视频在线播放| 美女午夜福利视频网址| 亚洲日韩欧美一区、二区| 麻豆AⅤ无码不卡| 精品一区二区三区不老少妇| 桃色一区一区三区蜜桃视频| 精品国产av一区二区三区| 国产又色又爽无遮挡免费 |