趙 林,張宇飛,姚明旿,郭彥濤
(1.中國電子科技集團(tuán)公司第五十四研究所,河北 石家莊 050081;2.西安電子科技大學(xué),陜西 西安 710071)
多架無人機(jī)組成無人機(jī)集群可以協(xié)同完成任務(wù),是未來無人機(jī)的發(fā)展方向。組成無人機(jī)集群的多架無人機(jī)通過機(jī)間鏈路互相通信實現(xiàn)協(xié)作,可以迅速準(zhǔn)確地執(zhí)行路徑規(guī)劃、協(xié)同偵察、協(xié)同感知和協(xié)同攻擊等復(fù)雜任務(wù)。
為實現(xiàn)無人機(jī)集群協(xié)作的誘人前景,國內(nèi)外都積極開展了相關(guān)研究工作。美國方面,美國國防預(yù)先研究計劃局(DARPA)于2015年推出“小精靈”項目,計劃研制具備自組織和智能協(xié)同能力的無人機(jī)蜂群系統(tǒng)。美國防部戰(zhàn)略能力辦公室(SCO)2014年啟動了“無人機(jī)蜂群”項目,旨在通過有人機(jī)空射“灰山鶉”微型無人機(jī)蜂群執(zhí)行低空態(tài)勢感知和干擾任務(wù)。美國海軍研究局(ONR)于2015年公布了“低成本無人機(jī)蜂群”(LOCUST)項目,研發(fā)可快速連續(xù)發(fā)射的無人機(jī)蜂群,無人機(jī)之間利用近距離射頻網(wǎng)絡(luò)共享態(tài)勢信息,協(xié)同執(zhí)行掩護(hù)、攻擊或防御任務(wù)。2017年,在 DARPA 會議中心舉辦“進(jìn)攻性集群戰(zhàn)術(shù)”(OFFSET)項目的提案人活動,目標(biāo)是發(fā)展基于游戲的開放架構(gòu),為城市作戰(zhàn)的無人集群系統(tǒng)生成、評估和集成集群戰(zhàn)術(shù)。
歐洲方面,2016 年,歐洲防務(wù)局啟動了“歐洲蜂群”項目,開展了無人機(jī)蜂群的自主決策、協(xié)同飛行等關(guān)鍵技術(shù)研究。2016年,英國國防部發(fā)起無人機(jī)蜂群競賽,參賽的多個團(tuán)隊控制無人機(jī)蜂群實現(xiàn)了通信中繼、協(xié)同干擾、目標(biāo)跟蹤定位和區(qū)域測繪等任務(wù)。2017 年,俄羅斯無線電電子技術(shù)集團(tuán)對外發(fā)表研究計劃稱,在戰(zhàn)斗機(jī)上裝載多架蜂群無人機(jī)可實現(xiàn)協(xié)同偵察和攻擊的新型作戰(zhàn)樣式。
國內(nèi)也相繼展開相關(guān)研究。最近,中國電科(CETC)電子科學(xué)研究院發(fā)布了陸軍協(xié)同無人機(jī)“蜂群”視頻,引起廣泛關(guān)注。
面對這一重要課題,本文研究總結(jié)了無人機(jī)協(xié)同應(yīng)用的發(fā)展趨勢,對其當(dāng)前研究進(jìn)展和發(fā)展方向進(jìn)行了探討,并提出無人機(jī)集群任務(wù)協(xié)作的發(fā)展趨勢是多智能體協(xié)同。
對現(xiàn)有研究工作的分析如圖1所示,無人機(jī)協(xié)同應(yīng)用大體上可以分為3個階段,分別是分布式協(xié)同,群體智能協(xié)同和未來的多智能體協(xié)同。
圖1 無人機(jī)協(xié)同技術(shù)的發(fā)展趨勢Fig.1 Developing trends of UAV collaboration technique
無人機(jī)集群協(xié)同發(fā)展的第1個階段是簡單分布式協(xié)同。在該階段,協(xié)同任務(wù)根據(jù)執(zhí)行條件,預(yù)先在簡單連接和組合的集群成員之間經(jīng)過計算處理后分配執(zhí)行。集群基本沒有能力根據(jù)環(huán)境與目標(biāo)的變化動態(tài)調(diào)整任務(wù)分配,各無人機(jī)分擔(dān)的任務(wù)通常是確定的。
鑒于預(yù)分配方式的局限性,受生物集群活動的啟發(fā),群體智能被應(yīng)用于無人機(jī)集群,使無人機(jī)集群協(xié)同發(fā)展到第2個階段——群體智能協(xié)同。在該階段中,各個無人機(jī)節(jié)點被賦予初級智能,能夠進(jìn)行簡單的認(rèn)知和決策;通過集群個體之間更為緊密的耦合,可以根據(jù)執(zhí)行中的反饋調(diào)整優(yōu)化方式或者優(yōu)化目標(biāo),使整個無人機(jī)集群系統(tǒng)有能力構(gòu)成自組織、高穩(wěn)定的分布式系統(tǒng)。群體智能協(xié)同階段當(dāng)前正處于研究和應(yīng)用迅速發(fā)展時期。
隨著節(jié)點計算能力的進(jìn)一步提升和人工智能技術(shù)的飛速發(fā)展,無人機(jī)協(xié)同即將進(jìn)入發(fā)展的第3個階段——多智能體協(xié)同。在多智能體協(xié)同發(fā)展階段,集群中的各個無人機(jī)都將是一個獨立的綜合智能體,具有多維度認(rèn)知計算和高級智能處理能力,從而實現(xiàn)更高效的自主學(xué)習(xí)和決策,并在此基礎(chǔ)上,完成更復(fù)雜、更艱巨的任務(wù)。
從無人機(jī)集群出現(xiàn)開始就被用于解決協(xié)同路徑規(guī)劃、協(xié)同感知和協(xié)同任務(wù)規(guī)劃等分布式協(xié)作任務(wù)。早期的無人機(jī)分布式協(xié)同任務(wù)通常都是提前進(jìn)行充分的計算和分配,無人機(jī)節(jié)點按照既定算法或者方案予以執(zhí)行。根據(jù)計算結(jié)果,分布式協(xié)同無人機(jī)群可組織執(zhí)行配置好的任務(wù),如圖2所示。
圖2 分布式協(xié)同階段的任務(wù)執(zhí)行方式Fig.2 Execution mode of tasks in distributed collaboration phase
協(xié)同路徑規(guī)劃中,要求在給定目標(biāo)或者搜索目標(biāo)后,無人機(jī)節(jié)點根據(jù)當(dāng)前的任務(wù)狀態(tài)來確定飛行路徑。針對協(xié)同搜索和跟蹤任務(wù)的路線規(guī)劃,無人機(jī)集群可采用最大化目標(biāo)功能來檢測最重要的目標(biāo),并在關(guān)鍵時刻對其進(jìn)行跟蹤,從而獲得最有價值的信息[1]。而協(xié)同搜索的路徑規(guī)劃可以分成無人機(jī)工作區(qū)間劃分和全區(qū)域覆蓋搜索路徑規(guī)劃2個子問題,將多機(jī)協(xié)同搜索轉(zhuǎn)化為子區(qū)域上的單機(jī)搜索,對目標(biāo)區(qū)域快速進(jìn)行劃分并生成飛行路線[2]?;诟倪M(jìn)遺傳算法的多無人機(jī)協(xié)同偵察航跡規(guī)劃算法,可用于解決面向復(fù)雜戰(zhàn)場環(huán)境中高效偵察多種類型目標(biāo)過程中的路徑規(guī)劃問題,并能夠有效地提高航跡規(guī)劃精度和效率[3]。
協(xié)同感知是多無人機(jī)集群共同探測感知某一目標(biāo)區(qū)域狀態(tài)的任務(wù)形式。在這類任務(wù)中最常見的是協(xié)同頻譜感知。針對協(xié)同頻譜感知任務(wù)特點,采用最佳融合準(zhǔn)則的分布式協(xié)同任務(wù)執(zhí)行方案可以優(yōu)化檢測性能,使協(xié)作頻譜感知總錯誤率達(dá)到最小,并能降低協(xié)作感知時間,節(jié)省感知過程開銷[4]。
協(xié)同任務(wù)規(guī)劃要求集群系統(tǒng)能夠根據(jù)目標(biāo)任務(wù)和執(zhí)行情況,對任務(wù)進(jìn)行系統(tǒng)分配。例如,針對協(xié)同打擊任務(wù),通過建立無人機(jī)毀傷代價指標(biāo)函數(shù)、航程代價指標(biāo)函數(shù)和價值收益指標(biāo)函數(shù),可以實現(xiàn)多無人機(jī)協(xié)同打擊任務(wù)的分配[5];而通過建立多目標(biāo)優(yōu)化模型并采用遺傳算法,能有效提高任務(wù)的完成效率[6]。針對協(xié)同搜救任務(wù),使用一種新的基于通信保持的拍賣方法的自適應(yīng)反饋調(diào)節(jié)遺傳算法,能夠改善傳統(tǒng)遺傳算法存在易陷入局部最優(yōu)的弱點[7]。
通過以上3種類型協(xié)同任務(wù)的相關(guān)研究工作可以看出,無人機(jī)集群的分布式協(xié)同方式雖然充分考慮了“分布式”特點,能夠根據(jù)任務(wù)目標(biāo)和集群特征,設(shè)置有效的目標(biāo)函數(shù)和優(yōu)化方法去尋求最優(yōu)或者較優(yōu)的結(jié)果,但是其任務(wù)執(zhí)行環(huán)境和求解目標(biāo)需要在任務(wù)執(zhí)行之前進(jìn)行優(yōu)化計算,然后分配執(zhí)行,不能適應(yīng)實際中動態(tài)的任務(wù)目標(biāo)和環(huán)境變化,缺乏“智能性”的感知和適應(yīng)性行為。隨著人們對“蜂群”“鳥群”等生物群體智能研究的深入,群體智能協(xié)同被進(jìn)一步引入到無人機(jī)的協(xié)同中。
“鳥群”“蟻群”等生物群體,雖然其中的個體智能有限,但是群體卻展現(xiàn)出高度的自組織性,這一特點與無人機(jī)集群自主協(xié)同的需求相符,因而群體智能在無人機(jī)協(xié)同應(yīng)用領(lǐng)域也得到了廣泛研究,使無人機(jī)集群協(xié)同具有了初步的智能性。具備群體智能的無人機(jī)集群系統(tǒng)在任務(wù)拆解和執(zhí)行過程中引入了群體反饋和適變能力,可執(zhí)行較復(fù)雜的動態(tài)任務(wù),其過程如圖3所示。
圖3 群體智能協(xié)同階段的任務(wù)執(zhí)行方式Fig.3 Execution mode of tasks in swarm intelligent collaboration phase
山區(qū)路徑規(guī)劃任務(wù)受到地形特征的強(qiáng)烈影響,難以預(yù)先確定性分配執(zhí)行,簡單的分布式協(xié)同無法勝任。例如,為了執(zhí)行山區(qū)應(yīng)急物資運輸?shù)穆窂揭?guī)劃任務(wù),一種考慮路徑安全度的改進(jìn)蟻群算法可快速收斂并生成更短路徑[8]。蟻群算法也被用于無人機(jī)協(xié)同飛抵空戰(zhàn)場的航跡規(guī)劃任務(wù)中[9];一種基于改進(jìn)混沌蟻群算法更能克服傳統(tǒng)蟻群智能算法中易出現(xiàn)局部極值、收斂效率低的缺陷,提升算法的全局尋優(yōu)能力和搜索效率[10]。針對協(xié)同攻擊移動目標(biāo)場景的航跡規(guī)劃,另一種改進(jìn)的蟻群算法建立了結(jié)合任務(wù)分配的無人機(jī)群協(xié)同航跡規(guī)劃模型,可以快速地對地面多個移動目標(biāo)規(guī)劃出有效的航跡[11]。
在協(xié)同感知任務(wù)中,群體智能也得到應(yīng)用。針對無人機(jī)集群通信場景和需求,出現(xiàn)了考慮結(jié)合認(rèn)知無線電技術(shù)指導(dǎo)下的智能通信思想和匯聚有限智慧的群體智能理論方法,構(gòu)建了群體智能協(xié)同通信模型和智能協(xié)同感知模型[12]。
協(xié)同作戰(zhàn)是協(xié)同任務(wù)規(guī)劃中的典型場景,結(jié)合群體智能優(yōu)化算法的優(yōu)勢,基于粒子群-整數(shù)編碼狼群算法的集群組網(wǎng)任務(wù)分配算法適合解決此類協(xié)同問題[13];由于無人機(jī)集群協(xié)同決策困難,還可以結(jié)合狼群算法的認(rèn)知與協(xié)作能力,實現(xiàn)在復(fù)雜環(huán)境下迅速對目標(biāo)進(jìn)行跟蹤和包圍[14]。這種協(xié)同任務(wù),是第一類簡單協(xié)同所不能勝任的。
雖然無人機(jī)集群和群體智能的結(jié)合可以充分發(fā)揮無人機(jī)集群優(yōu)勢,增強(qiáng)分布式協(xié)同智能性,可在任務(wù)執(zhí)行過程中與環(huán)境和任務(wù)執(zhí)行中間過程產(chǎn)生一定交互和反饋,使之具備一定的自適應(yīng)能力,但是,這種智能仍然是非常有限的,其本質(zhì)仍然是基于特定計算模式和反饋模式下的分布式優(yōu)化算法。
隨著人工智能技術(shù)和節(jié)點自身算力的不斷增強(qiáng),未來無人機(jī)集群中的個體將具備更強(qiáng)的智能性,能夠獨立對環(huán)境和任務(wù)進(jìn)行感知和評估,實現(xiàn)多個智能體之間的交互和協(xié)同,從而具備多智能體協(xié)同能力。
近年來,人工智能領(lǐng)域研究取得了突破性進(jìn)展。其中,深度強(qiáng)化學(xué)習(xí)在諸多領(lǐng)域得到了成功應(yīng)用。無線通信網(wǎng)絡(luò)基于多智能體深度強(qiáng)化學(xué)習(xí)的資源分配技術(shù)也得到了深入研究。多智能體深度強(qiáng)化學(xué)習(xí)模型早已被用于解決車聯(lián)網(wǎng)中頻譜資源分配問題[15-16],這種應(yīng)用已經(jīng)與無人機(jī)集群系統(tǒng)頗為接近。例如一種基于多智能體深度強(qiáng)化學(xué)習(xí)的分布式動態(tài)功率分配方案[17]?;诙嘀悄荏w深度強(qiáng)化學(xué)習(xí)的策略還可被用于二者的結(jié)合——用無人機(jī)輔助車輛網(wǎng)絡(luò)進(jìn)行多維資源管理[18]。
雖然基于強(qiáng)化學(xué)習(xí)的多智能體通信網(wǎng)絡(luò)資源分配問題已經(jīng)得到了廣泛研究,但是由于網(wǎng)絡(luò)特性的不同,傳統(tǒng)的針對其他通信網(wǎng)絡(luò)的研究成果不能直接用于無人機(jī)集群網(wǎng)絡(luò)。因而基于強(qiáng)化學(xué)習(xí)的多智能體自主協(xié)同應(yīng)用逐漸成為未來無人機(jī)多智能體自主協(xié)同的一個研究熱點。針對無人機(jī)群的通信網(wǎng)絡(luò)資源動態(tài)分配問題而提出的多智能體深度強(qiáng)化學(xué)習(xí)方案也陸續(xù)出現(xiàn)[16],例如,一種基于多智能體深度強(qiáng)化學(xué)習(xí)的分布式干擾協(xié)調(diào)策略被用于受到干擾的無人機(jī)網(wǎng)絡(luò)中的文件下載業(yè)務(wù)[19]。智能體在適用于無人機(jī)網(wǎng)絡(luò)特點的獨立強(qiáng)化學(xué)習(xí)中,其行為策略通常只能根據(jù)它們對全局環(huán)境的局部個體觀察來制定。針對這種局限性,聯(lián)合采用2種不同規(guī)模的智能體可解決智能體之間的通信問題[20]。
無人機(jī)集群協(xié)同,經(jīng)常會處理動態(tài)高維離散和連續(xù)動作狀態(tài)空間的優(yōu)化求解問題,近來出現(xiàn)的演員-評論家算法是深度強(qiáng)化學(xué)習(xí)的一個新興方向,結(jié)合了基于值函數(shù)和基于策略函數(shù)的深度強(qiáng)化學(xué)習(xí)兩大分支的優(yōu)勢,非常適用于無人機(jī)集群的智能協(xié)同[21-23]。利用演員-評論家算法,在無線信道和可再生能源再生率都是隨機(jī)變化,且環(huán)境動態(tài)變化條件下,可尋求資源分配最佳策略[21],如用于解決車聯(lián)網(wǎng)中復(fù)雜動態(tài)環(huán)境下的資源分配問題[22]。應(yīng)用設(shè)備到設(shè)備(D2D)網(wǎng)絡(luò)的異構(gòu)蜂窩網(wǎng)絡(luò)環(huán)境下,基于演員-評論家算法的策略可用于智能化節(jié)能模式選擇和資源分配[23]。
隨著節(jié)點智能算力的不斷增強(qiáng),無人機(jī)集群中的每架無人機(jī)可以作為一個具有深度強(qiáng)化學(xué)習(xí)能力的智能體,而整個集群可通過合作構(gòu)成多智能體。相鄰無人機(jī)之間通過通信網(wǎng)絡(luò)進(jìn)行信息交換與分發(fā)。如圖4所示,每架無人機(jī)都與局部環(huán)境相互作用,根據(jù)從周圍環(huán)境或者同伴無人機(jī)得到的信息,針對承載的任務(wù)需求,通過深度強(qiáng)化學(xué)習(xí),智能地產(chǎn)生動作策略,進(jìn)行自身資源與行為的分配與調(diào)整,進(jìn)而與環(huán)境和同伴互動,并獲得個體獎勵。
圖4 基于多智能體的無人機(jī)集群Fig.4 UAV swarm based on multi-agent collaboration
每架無人機(jī)的深度強(qiáng)化學(xué)習(xí)智能體由2個深度神經(jīng)網(wǎng)絡(luò)構(gòu)成,包括演員網(wǎng)絡(luò)和評論家網(wǎng)絡(luò),如圖5所示。
圖5 基于演員評論家算法的無人機(jī)智能體Fig.5 Intelligent agent UAV of actor-critic algorithm
演員網(wǎng)絡(luò)負(fù)責(zé)輸出動作,評論家網(wǎng)絡(luò)負(fù)責(zé)評價演員的動作,以獲得相互促進(jìn)的效果。與傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)方法相比,演員-評論家算法同時吸取了基于值函數(shù)方法和基于策略函數(shù)方法的優(yōu)點,從價值和策略兩方面來訓(xùn)練提升智能體,訓(xùn)練的更快,效果也更好。通過訓(xùn)練和學(xué)習(xí),期望智能體的評論家網(wǎng)絡(luò)可以獲得最佳效用評估函數(shù):
Q*(s,a,ω)=E[rt+γmaxQπ(st+1,at+1,ω)|s=st,a=at]。
(1)
智能體從周圍環(huán)境中觀察得到狀態(tài)信息St,例如干擾狀態(tài)、相鄰無人機(jī)等。演員網(wǎng)絡(luò)擬合動作策略函數(shù)π(St;ωπ),根據(jù)狀態(tài)信息St,動作策略函數(shù)輸出當(dāng)前時隙的動作at,也就是資源分配結(jié)果,并應(yīng)用到環(huán)境中得到個體的即時獎勵rt。獎勵由獎勵函數(shù)計算得到,負(fù)責(zé)反饋一個即時的、合理的、具有指導(dǎo)意義的獎勵值,從而激勵智能體向目標(biāo)更新策略。評論家網(wǎng)絡(luò)擬合效用評估函數(shù)Q(St,at,ω),負(fù)責(zé)預(yù)測和評估在當(dāng)前狀態(tài)St采用動作at所能得到的狀態(tài)動作價值,即長期性回報Rt為:
(2)
式中,γ是折扣因子,γ表示了當(dāng)前對于未來收益的重視程度,取值在0~1之間,取值0則表示智能體忽視未來收益,只看重當(dāng)前的收益rt,取值1則表示智能體將未來每個時刻的收益都視為與當(dāng)前時刻收益一樣的重要性。獲得最大的長期性回報是智能體的最終目的,這個目標(biāo)可以根據(jù)任務(wù)的性質(zhì)被定義為不同的評判標(biāo)準(zhǔn)。
評論家網(wǎng)絡(luò)的最佳效用評估函數(shù)對應(yīng)的演員網(wǎng)絡(luò)動作策略即為最佳動作策略π*。動作策略函數(shù)的參數(shù)通過策略梯度的方法進(jìn)行更新,效用評估函數(shù)的參數(shù)采用最小化損失函數(shù)進(jìn)行更新:
L(ω)=E[(yt-Q(st,at;ω))2],
(3)
式中,yt為優(yōu)勢函數(shù),用來衡量計算執(zhí)行動作后的實際效用評估值。通過更新,智能體的演員網(wǎng)絡(luò)的動作策略輸出的動作越來越好,而評論家網(wǎng)絡(luò)的效用評估也會越來越準(zhǔn)確?;诙嘀悄荏w的無人機(jī)群的每架無人機(jī)都會朝著收益最大的方向執(zhí)行動作,從而實現(xiàn)集群的收益最大化。
無人機(jī)集群協(xié)同執(zhí)行任務(wù)是未來無人機(jī)應(yīng)用的重要方向,本文以無人機(jī)集群協(xié)作應(yīng)用為對象,綜述了無人機(jī)協(xié)同在各領(lǐng)域中的應(yīng)用,通過分析指出未來多智能體協(xié)作是無人機(jī)協(xié)同應(yīng)用的發(fā)展方向。無人機(jī)協(xié)同應(yīng)用已經(jīng)得到了廣泛研究,未來通過與人工智能的深度結(jié)合,必將向著更加智能、自主的方向發(fā)展。