謝震海, 何 明, 禹明剛,*, 余烤華, 袁國棟
(1. 陸軍工程大學(xué)指揮控制工程學(xué)院, 江蘇 南京 210007;2. 中國人民解放軍31630部隊, 廣東 惠州 516000)
無人化、智能化、體系化是未來戰(zhàn)場的主流趨勢,其中群體智能是無人集群的核心技術(shù),集群自主協(xié)同作戰(zhàn)是未來戰(zhàn)爭重要樣式[1]。未來戰(zhàn)場受敵火力威脅、敵兵力部署行動、戰(zhàn)場環(huán)境態(tài)勢多變等影響,無人集群不可能始終按照預(yù)定方案執(zhí)行軍事任務(wù),更多地強調(diào)自主臨機決策。無人集群作戰(zhàn)的自主協(xié)同,核心是通信、情報、火力等各類智能作戰(zhàn)單元對資源的分配、共享、調(diào)度及使用,目的在于各作戰(zhàn)單元以最小代價獲得集群作戰(zhàn)效能的最大化,本質(zhì)上是集群單元的策略選擇(更新)。
以聯(lián)合登島作戰(zhàn)任務(wù)為例,當前方指揮所無法及時有效干預(yù)無人集群執(zhí)行作戰(zhàn)任務(wù)時,作為受領(lǐng)反機動保障任務(wù)的無人集群,由于智能性的存在,所配屬的偵察單元、布雷單元、工程機械單元等均可獨立決策。為保證自身的戰(zhàn)場生存能力,就偵察單元而言,將會“有選擇”執(zhí)行偵察任務(wù),只偵察沒有威脅的、或?qū)ζ渫{較小的部分敵對目標,甚至不及時偵察等等,其選擇偵察目標范圍選擇具有多樣性。對于擔負布雷任務(wù)的布雷單元而言,在布置雷場時,要么將自身彈藥全部投入,然后直接撤出戰(zhàn)場;要么根據(jù)地形,有選擇性的布置部分彈藥;或者在戰(zhàn)地上選擇小范圍“象征性”布置,甚至自身不布雷,期待友鄰單元完成任務(wù)等等,其布雷范圍的寬廣、布雷量的多少也具有多樣性。
作戰(zhàn)中,假如無人集群中的作戰(zhàn)單元都以思量本身的生存力和維持自身持續(xù)作戰(zhàn)能力為前提,那么就會出現(xiàn)“消極怠工”,造成“公地悲劇”[2],導(dǎo)致作戰(zhàn)計劃失敗。因此,如何處理作戰(zhàn)單元策略多樣性問題,實現(xiàn)作戰(zhàn)集群整體作戰(zhàn)效益的最大化發(fā)揮,是當前亟需解決的技術(shù)難題和現(xiàn)實問題。
在作戰(zhàn)行動階段,無人集群由于規(guī)模和類型不同、作戰(zhàn)單元間需要相互協(xié)同以及戰(zhàn)場環(huán)境實時發(fā)生變化等原因,導(dǎo)致集群中的信息連通十分復(fù)雜。因此,無人集群的信息網(wǎng)絡(luò)構(gòu)建既要有傳統(tǒng)作戰(zhàn)網(wǎng)絡(luò)的相關(guān)特性,還需要有復(fù)雜網(wǎng)絡(luò)的特性。目前,采用隨機網(wǎng)絡(luò)[3]、社團網(wǎng)絡(luò)[4-8]等復(fù)雜網(wǎng)絡(luò)模型搭建信息傳輸框架成為主要趨勢。
無人集群協(xié)同交互[9]的關(guān)鍵是無人作戰(zhàn)平臺之間的有效協(xié)同交互,核心是資源全局優(yōu)化配置,實際上就是單個智能作戰(zhàn)單元的利益訴求與集群作戰(zhàn)效能需求的均衡,本質(zhì)是作戰(zhàn)平臺行為策略的多樣性選擇(更新)。集群行為策略的更新調(diào)整,強調(diào)的是更新所帶來的集群整體效用。為研究多個體合作困境,解決“公地悲劇”情況的發(fā)生,公共物品博弈是一個比較理想的模型[10-13]。
Santos等人[14]通過結(jié)合無標度網(wǎng)絡(luò)特性,推斷出在無標度網(wǎng)絡(luò)上也存在合作演化的情況,揭示了網(wǎng)絡(luò)的無標度特性(異質(zhì)性)及大“度”節(jié)點之間的直接連接,是合作現(xiàn)象涌現(xiàn)的核心因素。Szabo等人[15]在正則方格網(wǎng)絡(luò)上研究了具有相變和志愿參與的空間公共物品博弈,發(fā)現(xiàn)在規(guī)則網(wǎng)絡(luò)中出現(xiàn)了相變現(xiàn)象。Wakano等人[16]發(fā)現(xiàn)在同一空間結(jié)構(gòu)中,利用機制可以提高公共物品博弈中合作的概率。Nowak團隊[17-19]利用社團網(wǎng)絡(luò),研究了人類社會產(chǎn)生合作行為的臨界條件,并探索了演化收斂概率和演化收斂時間之間在空間結(jié)構(gòu)中的相互關(guān)系,并將結(jié)構(gòu)群體上的合作演化進一步擴展到加權(quán)圖。Hauert[20]在研究經(jīng)典公共物品博弈中時引入loner策略,發(fā)現(xiàn)沒有哪種策略是絕對占據(jù)優(yōu)先條件的。Guan等人[21]發(fā)現(xiàn)在空間公共物品博弈中,由于個體的學(xué)習(xí)能力有差異,會導(dǎo)致合作演化時,提高個體之間合作的能力。Szabo等人[22]引入強制更新制度,讓個體必須在3個策略中進行選擇,發(fā)現(xiàn)針鋒相對策略能夠提高集群的合作水平;采用度為4的規(guī)則小世界網(wǎng)絡(luò)模型[23]研究時,發(fā)現(xiàn)3種策略將會循環(huán)到達穩(wěn)定狀態(tài)。Akcay[24]基于網(wǎng)絡(luò)拓撲動態(tài)重構(gòu),對策略選擇產(chǎn)生的合作演化進行了研究。
國內(nèi),Li等人[25]通過在復(fù)雜網(wǎng)絡(luò)上進行博弈仿真,發(fā)現(xiàn)存在不完全背叛和不完全合作等混合策略,并且這類混合策略越多,則更能提高集群的合作能力。李艷[26]利用空間公共物品博弈模型,研究個體相互間博弈時的多樣性,發(fā)現(xiàn)在混合均勻群體中,采用持續(xù)合作策略更能讓整個群體進行合作。Ye等人[27]以鄰居分別為4或8的個體在規(guī)則網(wǎng)絡(luò)和BA(Barabási-Albert)無標度網(wǎng)絡(luò)中的合作情況發(fā)現(xiàn),鄰居越多越容易促進合作。Shi等人[28-31]發(fā)現(xiàn),在公共物品博弈中,由于具備偏好毗連的個體或者之間具有異質(zhì)性,會對集群的合作水平產(chǎn)生直接影響,此外通過變化公共物品的收益系數(shù)也能造成集群的合作水平改變。此外,北京大學(xué)王龍團隊[32-37]、浙江大學(xué)鄭大昉團隊[38-40]、北京航空航天大學(xué)呂金虎團隊[41]等以復(fù)雜網(wǎng)絡(luò)為基,深入研究了集群在不同情況、不同機制下的合作演化。
文獻[42-47]對無人集群合作演化進行了初步探索。但是,在解決無人集群合作演化的實際問題時,上述成果仍存在兩點不足:一是對無人集群合作的研究中,大部分都是基于有限混合均勻群體下,對基于空間結(jié)構(gòu)種群下的多策略情況的研究尚待展開。二是無人集群的網(wǎng)絡(luò)架構(gòu)不再是簡單的全連接,相比之下,其更具有復(fù)雜性。本文通過構(gòu)建無標度網(wǎng)絡(luò)模型,針對無人集群合作演化機制,基于公共品演化博弈框架,采用愿景驅(qū)動機制[48]進行無人集群合作演化機制建模,通過理論推導(dǎo)和仿真分析多樣性策略選擇對集群整體收益的影響,為實現(xiàn)無人集群的自組織協(xié)同提供決策支持。
提高無人集群合作本領(lǐng)就是提升集群戰(zhàn)斗力。處在空間結(jié)構(gòu)內(nèi)的“有理性思維”的作戰(zhàn)單元,在一定條件下自主協(xié)同達到整體效能的最大發(fā)揮,其實質(zhì)與演化博弈的思維不謀而合。因此,研究處在空間結(jié)構(gòu)內(nèi)的無人集群合作能力,關(guān)鍵就是解決好作戰(zhàn)單元之間的網(wǎng)絡(luò)構(gòu)建和作戰(zhàn)單元之間博弈時策略機制的更新問題。
無人集群在執(zhí)行作戰(zhàn)任務(wù)時,由于數(shù)量比較龐大,個體作戰(zhàn)單元異構(gòu),內(nèi)部協(xié)同難度大;再加上戰(zhàn)場情況瞬息萬變,這些因素造成集群內(nèi)部通信交互的要求高。其網(wǎng)絡(luò)構(gòu)建,既要考慮作戰(zhàn)、作戰(zhàn)單元信息直接的交互原則,又要考慮到作戰(zhàn)指揮關(guān)系帶來的網(wǎng)絡(luò)層次更新。根據(jù)軍事任務(wù)需求,無標度網(wǎng)絡(luò)剛好為無人集群合作演化行為發(fā)生提供了較好的空間模型基礎(chǔ)。
無標度網(wǎng)絡(luò)[49]和現(xiàn)實社會中網(wǎng)絡(luò)特性一樣,能不斷增長,也能優(yōu)先選擇互聯(lián)互通,其核心思想可以表述為:假設(shè)有m0個起點個體開始隨機連接生成網(wǎng)絡(luò),隨著時間的增長,在每個時間步中隨機增加一個具有m(m≤m0)條邊的新的個體。這里需要注意的是,每個新增加的個體與一個已經(jīng)存在的個體i連接的概率λ,此時,個體i的度ki和概率的計算方式為
(1)
式中:∑m′km′為某一時間段所有舊的個體度的求和,其構(gòu)造模型如圖1所示。
圖1 無標度網(wǎng)絡(luò)模型示意圖Fig.1 Schematic diagram of scale-free network mode
無人集群自主協(xié)同,主要是為適應(yīng)作戰(zhàn)環(huán)境,在一定時間內(nèi),多個作戰(zhàn)單元通過多次隨機選擇、自主博弈,從而獲得集群效能最大目的。從本質(zhì)上來看,其實也是一個多方參與、多輪迭代的演化博弈過程。在無人集群自主協(xié)同中,對于集群而言,希望每一個作戰(zhàn)單元投入盡可能多的資源,以使集群作戰(zhàn)效能最大化;而對于作戰(zhàn)單元而言,假設(shè)每個作戰(zhàn)單元完全理性,則會選擇不投入資源直接“搭便車”,那么必然陷入不合作困境。公共物品博弈[50]對研究集群內(nèi)個體多樣性更具有針對性,本節(jié)基于公共物品演化博弈框架,在無標度網(wǎng)絡(luò)中對集群自主協(xié)同過程進行建模。為便于表述,將集群合作演化問題所涉及的概念與演化博弈術(shù)語做簡單映射,如表1所示。
表1 概念映射Table 1 Concept mapping
為推導(dǎo)無標度網(wǎng)絡(luò)中作戰(zhàn)單元總收益F,將所需相關(guān)參數(shù)進行定義明確,如表2所示。
表2 參數(shù)映射關(guān)系Table 2 Parameter mapping relationship
在無標度網(wǎng)絡(luò)中,一個空間規(guī)模為N的無人集群,每一個作戰(zhàn)單元都有機會參與到一個n個作戰(zhàn)單元組成的公共物品博弈中,每個作戰(zhàn)單元都可以參與投資(設(shè)支付c為1),組成的策略集為S={0,1/(n-1),1/(n-2),…,1},每一個時間步下,網(wǎng)絡(luò)中的每一個作戰(zhàn)單元i都參與其相關(guān)的作戰(zhàn)單元群體博弈,即需要博弈ki+1次(ki為作戰(zhàn)單元i的度)。
若某個作戰(zhàn)單元x有kx個鄰居,則x參與的每個集群投資量為
(2)
由公共物品博弈收益原理可知:
(3)
則以作戰(zhàn)單元x為焦點個體,以y為中心的集群博弈時,共有ky+1次。作戰(zhàn)單元x的收益為
(4)
由式(2)~式(4)可知:
則作戰(zhàn)單元x的總收益為
(5)
作戰(zhàn)中,在確保集群正常通信傳輸?shù)那闆r下,集群中作戰(zhàn)單元互相間信息交互需求越小,對內(nèi)部通信資源壓力越少,從而在一定程度上保證集群網(wǎng)絡(luò)的問題。從博弈中的策略更新機制來看,愿景驅(qū)動機制主要關(guān)注個體自身平均收益與愿景水平對比變化,來決定個體自身是否改變當前策略,不慮鄰居個體的收益,受策略環(huán)境影響較小。因此,這一理念比較符合無人集群合作的需求。
在傳統(tǒng)的愿景驅(qū)動機制中,對雙策略的演化博弈而言,參與博弈的個體將自身獲得的收益將與愿景水平進行比較,最終決定下一輪是否進行更換策略,但由于個體策略的選擇數(shù)只有兩個,更換策略時“非此即彼”,獲得收益大于愿景水平時個體偏向于更換策略,否則保持現(xiàn)有策略,很容易到達穩(wěn)定。而對多策略演化博弈而言,如果作戰(zhàn)單元隨機進行策略選擇,不考慮自身在下一輪博弈中是否增加收益,那么將會導(dǎo)致演化無法到達穩(wěn)定狀態(tài),從而陷入無限循環(huán)博弈。此外,從智能作戰(zhàn)單元角度來看,作戰(zhàn)單元沒有收益“期望”,不符合作戰(zhàn)單元的“理性思維”。因此,需要對傳統(tǒng)的愿景驅(qū)動機制進行改進。
假設(shè)某個作戰(zhàn)單元i采用策略si,獲得的收益為fi與愿景水平α做比較,以此來決定是否轉(zhuǎn)換策略,其轉(zhuǎn)換概率為
(6)
式中:ω∈[0,1]為選擇強度;作戰(zhàn)單元i以概率P轉(zhuǎn)換策略,以概率1-P沿用當前策略。當轉(zhuǎn)換策略時,作戰(zhàn)個體以概率P向策略si+1轉(zhuǎn)換,以概率1-P向策略si-1轉(zhuǎn)換。則可知繼續(xù)采用策略si的概率為
(7)
采用策略si+1的概率為
(8)
采用策略si-1的概率為
(9)
對第2節(jié)理論推導(dǎo)公式進行仿真,通過在同一實驗環(huán)境下設(shè)定相關(guān)參數(shù),將系統(tǒng)設(shè)定在40 000次博弈后開始取值,每次取值為1 000次博弈結(jié)果的平均值,共進行5次獨立重復(fù)實驗。作圖分析作戰(zhàn)單元在進行多樣性選擇策略時,在不同收益系數(shù)、愿景程度、支付以及選擇強度下,對無人集群合作水平產(chǎn)生的影響。
假設(shè)共同參數(shù)c=1,α=2分別在以選擇強度為弱選擇ω=0.1、中等強度選擇ω=0.5、強選擇ω=1;策略數(shù)為S分別取2,4,8進行仿真,相應(yīng)情況如圖2所示。
圖2 收益系數(shù)對作戰(zhàn)集群能力的影響Fig.2 Influence of return coefficient on combat swarms capability
分析結(jié)果:① 在同一選擇強度下,隨著無人作戰(zhàn)單元策略數(shù)的增加,進一步促使無人集群的合作水平的提高,特別是在強選擇環(huán)境中,合作水平更高。這是因為作戰(zhàn)單元策略選擇的增多,造成支付的方式多樣化,此外通過在改進愿景驅(qū)動機制條件下,避免了作戰(zhàn)單元隨機轉(zhuǎn)換策略,在多次演化博弈時,更能促使無人集群合作的涌現(xiàn)。② 隨著收益系數(shù)r的增加,在多策略選擇條件下,無人集群的合作水平不斷降低。這是因為對于作戰(zhàn)單元而言,不管個體選擇什么策略,收益系數(shù)的提高都會提高作戰(zhàn)單元的收益,這容易造成作戰(zhàn)單元策略選擇時的“自我滿足”,降低了演化博弈時作戰(zhàn)單元改變策略的概率,從而降低了整個無人集群合作水平。③ 當S=2時,無人集群的合作水平隨收益系數(shù)的增加而增加,當S=4時,無人集群的合作水平盡管有所降低,但是表現(xiàn)很不明顯。這是因為,當作戰(zhàn)單元為雙策略時,增大收益系數(shù)和提高選擇強度,都將促使無人集群的合作水平,這也與課題組前期在全連通網(wǎng)絡(luò)路架構(gòu)中研究策略選擇多樣性時互相印證。而S=8時,由于策略數(shù)夠多,無人集群已經(jīng)趨向于全面合作,因此收益系數(shù)的增加對無人集群合作水平影響不明顯。
假設(shè)參數(shù)c=1,α=2,r=2,S分別取2,4,8進行仿真,相應(yīng)情況如圖3所示。
圖3 選擇強度對作戰(zhàn)集群能力的影響Fig.3 Influence of selection intensity on combat swarms capability
分析結(jié)果:① 當S=2時,無人集群合作水平始終在50%之間徘徊,這是因為所有的作戰(zhàn)平臺采取的策略幾乎擁有相同的適應(yīng)度,滿足采用自身原來的策略,從而導(dǎo)致無人集群合作產(chǎn)生的效能不明顯。② 當S=4時,無人集群合作水平隨選擇強度的增大而增大,特別是在r=[0.1,0.7]時,合作水平提升很明顯。這是因為在作戰(zhàn)單位在多策略選擇時,受“偏私性”影響,為提高自身收益,根據(jù)改進愿景驅(qū)動機制,隨著選擇強度的增大,其策略轉(zhuǎn)換的概率也逐步增大,從而促使了合作水平提高,導(dǎo)致集群合作涌現(xiàn),反映出作戰(zhàn)效能的快速增加。③ 當S=8時,由于策略的選擇更加多樣,直接促使無人集群合作涌現(xiàn),導(dǎo)致集群合作水平無限接近100%。
假設(shè)參數(shù)c=1,r=2,S分別取2,4,8,ω分別取0.1,0.5,1.0進行仿真,相關(guān)結(jié)果如圖4所示。
圖4 愿景水平對作戰(zhàn)集群能力的影響Fig.4 Impact of vision level on combat swarms capability
分析結(jié)果:① 當S分別取2,4,8時,即分別在弱選擇強度、中等選擇強度、強選擇強度的條件下,作戰(zhàn)單元策略數(shù)的增多,提高了無人集群合作水平能力,表現(xiàn)出無人集群的合作涌現(xiàn)的產(chǎn)生,驗證了作戰(zhàn)單元策略多樣性選擇在無人集群演化博弈中促合作的意義。② 當S=2時,不論是什么選擇強度環(huán)境中,愿景水平的增加對無人集群合作水平影響不大,這是因為根據(jù)改進的愿景驅(qū)動機制可以看出,策略的轉(zhuǎn)換概率依賴于收益和愿景水平的變化。愿景水平的增加對作戰(zhàn)的單元而言,僅有兩種策略選擇,為保持原有的收益,它更傾向于保持自身策略不變化,從而導(dǎo)致集群合作水平變化不大。③ 當S=4,ω=0.1時,無人集群的合作水平隨愿景水平的增加而增加,這是因為對作戰(zhàn)單元而言,由于策略數(shù)的選擇具有多樣性,受愿景驅(qū)動影響,作戰(zhàn)單元傾向于獲得更大收益,從而導(dǎo)致轉(zhuǎn)換概率的增加,導(dǎo)致無人集群作戰(zhàn)水平的合作水平的提高。④ 當S=8時,作戰(zhàn)單元受策略選擇多樣性的影響,促進了無人集群合作涌現(xiàn),集群的合作水平接近100%,這時其他參數(shù)的變化對無人集群合作影響不大。
假設(shè)參數(shù)c=1,r=2,α=2進行仿真,相應(yīng)情況如圖5所示。
圖5 不同策略數(shù)對作戰(zhàn)集群能力的影響Fig.5 Influence of different strategy numbers on combat swarms capability
分析結(jié)果:① 不論在何種選擇強度下,無人集群合作水平都隨作戰(zhàn)單元策略選擇數(shù)的增加而提高。② 作戰(zhàn)單元選擇數(shù)越多,合作水平越容易接近100%,進一步驗證了策略多樣性促進無人集群合作涌現(xiàn)的出現(xiàn)。
假設(shè)參數(shù)α=2,r=2進行仿真,相關(guān)結(jié)果如圖6所示。
圖6 支付對作戰(zhàn)集群能力的影響Fig.6 Impact of payment on combat swarms capability
分析結(jié)果:① 在弱選擇環(huán)境下,當S=4時,無人集群合作水平隨支付的增加變化比較明顯;當S=2時,無人集群合作水平隨支付的增加變化不大;當S=8時,無人集群合作水平隨支付的增加不明顯,但集群合作水平已經(jīng)無限趨向于100%。這是因為,作戰(zhàn)單元策略多樣性的選擇,在一定程度上降低了作戰(zhàn)單元在合作中獲取收益增加的難度,從而造成無人集群合作的涌現(xiàn)。② 作戰(zhàn)單元策略的選擇大于2時,不論是強選擇還是中等強度選擇環(huán)境,無人集群的合作水平均接近100%,近似完全合作。這也說明了作戰(zhàn)單元的策略多樣性選擇,能促進無人集群的合作涌現(xiàn)出現(xiàn)。
作戰(zhàn)中,無人集群自主協(xié)同的關(guān)鍵點之一是處理好無人作戰(zhàn)單元之間策略的選擇,從而發(fā)揮集群的最大作戰(zhàn)效益。本文在無標度網(wǎng)絡(luò)環(huán)境中,引入公共物品博弈模型,對作戰(zhàn)單元策略多樣性選擇進行研究,理論推導(dǎo)出集群作戰(zhàn)單元總效能解析表達式。同時,從作戰(zhàn)單元具有“理性思維”角度出發(fā),考慮其進行多策略選擇時,期望提高自身效能,對傳統(tǒng)愿景驅(qū)動機制進行了改進,通過引入多個轉(zhuǎn)換概率,確保集群最后可到達演化穩(wěn)定狀態(tài)。在此基礎(chǔ)上,仿真驗證模型的可行性,并進一步分析多樣性策略選擇情況下,選擇強度、收益系數(shù)、愿景水平、策略數(shù)、作戰(zhàn)單元的支付等各類參數(shù)變化對作戰(zhàn)集群效能的影響,從而為無人集群作戰(zhàn)的機制設(shè)計提供參考意見。
本研究中,假設(shè)了無人集群中作戰(zhàn)單元所處的無標度網(wǎng)絡(luò)環(huán)境保持相對穩(wěn)定,而在現(xiàn)實戰(zhàn)場環(huán)境中,作戰(zhàn)單元受攻擊損毀或因戰(zhàn)斗進程變化臨時增加,其通信的臨時重組、作戰(zhàn)單元指揮層級的臨機更新等情況,都會導(dǎo)致現(xiàn)有的網(wǎng)絡(luò)重構(gòu),以適應(yīng)最新戰(zhàn)場環(huán)境需求。因此,在無人集群網(wǎng)絡(luò)拓撲自適應(yīng)動態(tài)重構(gòu)下,研究作戰(zhàn)單元策略多樣性如何影響集群合作演化將是下一步研究的方向。