倪媛,楊浩,姜斌
南京航空航天大學(xué) 自動(dòng)化學(xué)院,南京 210016
受自然界中生物集群行為的啟發(fā),蜂群無人機(jī)將大量低成本小型無人機(jī)整合形成一個(gè)整體,通過信息共享和分工合作執(zhí)行復(fù)雜任務(wù)活動(dòng),如集群作戰(zhàn)[1]、城市救援[2]、環(huán)境勘測[3]、防災(zāi)減災(zāi)[4]等,具有局部通信、分布式控制、動(dòng)態(tài)自組織的特點(diǎn)。特別是對于大規(guī)模蜂群無人機(jī),分簇結(jié)構(gòu)有利于明確任務(wù)分工,實(shí)現(xiàn)組隊(duì)協(xié)作,同時(shí)也能夠減少網(wǎng)絡(luò)管理開銷、降低節(jié)點(diǎn)間干擾、提高網(wǎng)絡(luò)容量[5]。
蜂群無人機(jī)的任務(wù)分配是蜂群應(yīng)用的核心技術(shù),旨在根據(jù)不同的蜂群任務(wù)類型、無人機(jī)數(shù)量、任務(wù)載荷情況等,對目標(biāo)任務(wù)進(jìn)行預(yù)先設(shè)定與統(tǒng)籌管理,進(jìn)而優(yōu)化蜂群無人機(jī)的應(yīng)用效能。目前實(shí)現(xiàn)任務(wù)分配的方法主要為基于邏輯的自上而下式的規(guī)劃,其數(shù)學(xué)模型復(fù)雜,對無人機(jī)數(shù)量敏感[6]。文獻(xiàn)[7]介紹了兩類離散化粒子群算法模型,可用于求解集群高維復(fù)雜離散優(yōu)化問題;文獻(xiàn)[8-9]均構(gòu)建了混合整數(shù)線性規(guī)劃模型,并對粒子群算法加以改進(jìn),從而加快粒子收斂速度,使任務(wù)分配模型適應(yīng)大規(guī)模集群的需求。而基于集群智能涌現(xiàn)的自下而上式的任務(wù)規(guī)劃,則是由無人機(jī)個(gè)體根據(jù)簡單局部規(guī)則收集處理外界信息并與其他個(gè)體交互,更新自身狀態(tài),從而涌現(xiàn)出復(fù)雜有序的集體行為[10],對于無人機(jī)數(shù)量龐大、信息不完全、高動(dòng)態(tài)調(diào)整等環(huán)境下的群決策要求有著更強(qiáng)的適應(yīng)性。
演化博弈論是生物進(jìn)化與博弈論的有機(jī)結(jié)合,在描述解釋蜂群行為的形成和演化方面有著重要意義。借助這一工具可以清楚地展現(xiàn)群體中個(gè)體的交互狀態(tài)以及每個(gè)策略的演化趨勢,進(jìn)而確定系統(tǒng)可以到達(dá)的穩(wěn)定狀態(tài)?;趯Ψ€(wěn)定狀態(tài)的研究可以得到影響任務(wù)分配的因素并提煉出相關(guān)的促進(jìn)機(jī)制。因而,演化博弈論為解決任務(wù)分配問題提供了強(qiáng)有力的理論框架。文獻(xiàn)[11]研究了基于演化博弈的多智能體系統(tǒng)的任務(wù)自組織分配;文獻(xiàn)[12-13]同樣采用演化博弈論這一工具研究了多機(jī)器人系統(tǒng)中的任務(wù)分配問題。
另一方面,故障會導(dǎo)致不期望的系統(tǒng)行為出現(xiàn),互聯(lián)網(wǎng)絡(luò)系統(tǒng)的故障既會發(fā)生在單個(gè)智能體內(nèi)部,也會出現(xiàn)在智能體之間的耦合機(jī)制[14-18],文獻(xiàn)[19]對該領(lǐng)域的研究進(jìn)行了系統(tǒng)性的梳理和總結(jié)。現(xiàn)有的容錯(cuò)控制方法和技術(shù)大多對物理層面的故障進(jìn)行補(bǔ)償和修復(fù),例如執(zhí)行器、傳感器等部位。
對于交互密切、存在大量協(xié)作關(guān)系、且個(gè)體成本較低的蜂群無人機(jī),筆者認(rèn)為相比較物理層故障,對群性能影響更大的是決策層面的故障。在對抗場景下,敵方運(yùn)用電子戰(zhàn)設(shè)備能夠降低我方無線電電子設(shè)備的效能,削弱我方獲取信息的能力,實(shí)施信息對抗以進(jìn)行誘騙和干擾[20],可能導(dǎo)致通訊指揮失靈、雷達(dá)迷盲、火炮和導(dǎo)彈武器失控等后果,這類故障屬于意圖明確的惡意故障,作用于決策層面而非物理機(jī)體。在基于博弈的任務(wù)場景中,文獻(xiàn)[21]認(rèn)為敵方可以直接影響我方某些個(gè)體的決策規(guī)則,進(jìn)而改變?nèi)后w行為;文獻(xiàn)[22-23]研究了網(wǎng)絡(luò)信息系統(tǒng)的安全問題,其中故障被認(rèn)為是一類致力于破壞納什均衡穩(wěn)定性的攻擊。目前,對于這類決策層面的故障和惡意攻擊,已有部分研究對其進(jìn)行檢測和估計(jì)。文獻(xiàn)[24]針對網(wǎng)絡(luò)物理系統(tǒng)中的故障和外部攻擊設(shè)計(jì)了集中式和分布式攻擊檢測與識別監(jiān)視器。文獻(xiàn)[25]從控制理論的角度概述了工業(yè)網(wǎng)絡(luò)物理系統(tǒng)中安全控制和攻擊檢測的研究進(jìn)展。文獻(xiàn)[26]采用故障傳播有向圖及一致性理論,對蜂群無人機(jī)故障機(jī)理進(jìn)行了研究。然而,針對決策層故障的容錯(cuò)博弈控制研究成果鮮有報(bào)道。
本文針對大規(guī)模分簇蜂群無人機(jī)的任務(wù)分配問題,考慮對抗場景下某些無人機(jī)由于受到敵方攻擊或操控,決策規(guī)則遭到篡改進(jìn)而導(dǎo)致群決策行為偏差的決策故障。首先,結(jié)合蜂群無人機(jī)分簇管理的結(jié)構(gòu)特點(diǎn),運(yùn)用復(fù)制子動(dòng)態(tài)這一演化博弈的典型方程對蜂群無人機(jī)和故障建模;然后,為補(bǔ)償故障導(dǎo)致的群決策行為的偏差,對故障發(fā)生前后的均衡點(diǎn)的局部漸近穩(wěn)定性及其吸引域進(jìn)行分析,提出自容錯(cuò)條件和基于激勵(lì)的簇間協(xié)同容錯(cuò)博弈控制方法。
考慮蜂群無人機(jī)的分簇結(jié)構(gòu),將其分為p≥2個(gè)簇進(jìn)行管理,從各簇中重復(fù)且隨機(jī)地選取兩個(gè)無人機(jī)進(jìn)行雙人博弈。簇的交互關(guān)系采用文獻(xiàn)[27]中的有向圖G1?(P,E)表示,其中P?{1,2,…,p}為組成蜂群的所有無人機(jī)簇的集合,E為邊集,頂點(diǎn)集對應(yīng)于各個(gè)簇?!磜,v〉∈E,v,w∈P為由頂點(diǎn)w指向頂點(diǎn)v的邊,表示簇v可以獲得與簇w博弈而產(chǎn)生的收益。Nv?{w|〈w,v〉∈E}為簇v的鄰居集合。Lv?{l|〈v,l〉∈E}為以簇v為鄰居的簇l的集合。為保證蜂群無人機(jī)簇內(nèi)的交互性以及簇間的互聯(lián)性,要求任意v∈P均滿足v∈Nv、v∈Lv且Nv-{v} ≠ ?。
考慮蜂群無人機(jī)規(guī)模龐大,而無人機(jī)個(gè)體通信資源有限,為了合理利用資源并減小通信干擾,對于任意簇v,僅有簇v的鄰居w∈Nv和以簇v為鄰居的簇l∈Lv-{v}與其建立通信鏈路。因而可以采用無向圖G2?(P,E),Ε?{(w,v)|w∈Nv∪Lv,v,w∈P}表示蜂群無人機(jī)的通信拓?fù)洹?/p>
蜂群無人機(jī)的任務(wù)分配問題研究如何將合適的任務(wù)分配給合適的無人機(jī)以實(shí)現(xiàn)理想的分工收益?;谖墨I(xiàn)[11]中三策略任務(wù)分配博弈模型,針對蜂群無人機(jī)的分簇結(jié)構(gòu),將決策模型推廣到n元任務(wù)集合以及分簇網(wǎng)絡(luò)結(jié)構(gòu)的情形?,F(xiàn)對n個(gè)任務(wù)進(jìn)行分配,蜂群的任務(wù)集合S?{1,2,…,n},簇v的任務(wù)集合Sv?S。在演化矩陣博弈的理論框架下,博弈參與者的策略即無人機(jī)執(zhí)行某項(xiàng)任務(wù)的決策是實(shí)現(xiàn)任務(wù)分配的核心,而博弈模型中的支付矩陣作為自主決策模塊中的決策規(guī)則,決定了蜂群無人機(jī)的任務(wù)分配狀態(tài)。在博弈過程中,無人機(jī)個(gè)體可以獲得與其選擇任務(wù)相對應(yīng)的收益和協(xié)同收益。定義無人機(jī)獨(dú)立執(zhí)行任務(wù)i的收益為bi>0,協(xié)同收益dij≥0,后者代表執(zhí)行任務(wù)i的無人機(jī)與執(zhí)行任務(wù)j的無人機(jī)協(xié)作時(shí)獲得的額外收益。以搶險(xiǎn)救災(zāi)的應(yīng)用背景為例,一方面,無人機(jī)通過偵察險(xiǎn)情、運(yùn)送物資、建立通信網(wǎng)絡(luò)等行為獲得任務(wù)回報(bào),與此同時(shí)也需付出時(shí)間物力成本消耗,該差值構(gòu)成了任務(wù)收益;另一方面,執(zhí)行偵察任務(wù)與執(zhí)行應(yīng)急救援任務(wù)的無人機(jī)交互時(shí),存在傳遞信息等合作行為,而即使是對于執(zhí)行同一任務(wù)的無人機(jī),往往合作的效益也大于“單打獨(dú)斗”,有時(shí)還會存在分?jǐn)偝杀镜那闆r。根據(jù)以上描述,〈w,v〉∈E對應(yīng)的支付矩陣記為π[w,v]?B[w,v]+D[w,v],其中π[w,v]、B[w,v]和D[w,v]均為n階方陣。
6)Θ為混合策略組合構(gòu)成的空間,Θ?×v∈PΔv;
8) intΘ為混合策略組合構(gòu)成的空間內(nèi)部,intΘ?×v∈PintΔv;
基于以上定義和符號,蜂群無人機(jī)的任務(wù)分配動(dòng)態(tài)可以用多群體復(fù)制子動(dòng)態(tài)方程描述:
(1)
定義1意味著當(dāng)蜂群的初始任務(wù)分配狀態(tài)位于吸引域Ω內(nèi)時(shí),其任務(wù)分工會自發(fā)向x*演化。若能到達(dá)x*這一局部漸近穩(wěn)定的任務(wù)分配狀態(tài),那么在無外力干擾時(shí),雖然無人機(jī)個(gè)體的決策行為仍然會不斷更新調(diào)整,但宏觀的群決策行為已經(jīng)達(dá)到平衡,趨于不變。
給定李雅普諾夫函數(shù)分析x*的漸近穩(wěn)定性:
(2)
沿系統(tǒng)式(1)的任務(wù)分配動(dòng)態(tài)軌跡的李雅普諾夫函數(shù)式(2)的導(dǎo)數(shù)為
(3)
(4)
π[wm,vk]=FvkB[w,v]+FvkD[w,v]Fwm=
π[w,v]+H[wm,vk]
(5)
假設(shè)2保證了無人機(jī)個(gè)體在故障發(fā)生后,仍有收益未遭削弱的可執(zhí)行任務(wù)存在。否則,無論向該無人機(jī)分配何種任務(wù),蜂群的整體效益都會受到影響。
由故障模型式(4)和式(5)可知,當(dāng)蜂群中部分簇內(nèi)的部分無人機(jī)發(fā)生決策層面的故障時(shí),蜂群無人機(jī)的決策能力會因此而受限。對于發(fā)生故障的無人機(jī)而言,在進(jìn)行決策時(shí),需要避免執(zhí)行收益遭到削弱的任務(wù),若選擇執(zhí)行此類任務(wù),不僅蜂群的整體效益會受損,健康的無人機(jī)也可能受到故障影響,以致蜂群任務(wù)分配狀態(tài)偏離期望的均衡點(diǎn)。
由于故障導(dǎo)致某些任務(wù)的收益被削弱,所以為了保證蜂群整體效益,容錯(cuò)控制的目的是使無人機(jī)選擇收益未被削弱的任務(wù)執(zhí)行,且蜂群任務(wù)分配的狀態(tài)回到期望的均衡點(diǎn)處。
先對蜂群無人機(jī)的自容錯(cuò)性能進(jìn)行分析,進(jìn)一步在無法自容錯(cuò)的情形下提出基于激勵(lì)的簇間協(xié)同容錯(cuò)博弈控制方法。
在故障式(4)和式(5)的影響下,系統(tǒng)式(1)變?yōu)?/p>
(6)
(7)
在故障式(4)和式(5)的影響下,李雅普諾夫函數(shù)的導(dǎo)數(shù)式(3)變?yōu)?/p>
(8)
將式(5)代入式(8),可得
(9)
命題1如果對于系統(tǒng)式(6)和式(7),滿足條件:
2) ?v∈Pf,k∈Qv+{0},xvk(0)∈intΔv。
證明:
(10)
定義ξ(t,x(0))為蜂群初始狀態(tài)為x(0)時(shí)t時(shí)刻蜂群的任務(wù)分配狀態(tài)。式(10)沿著蜂群任務(wù)分配動(dòng)態(tài)軌跡的時(shí)間導(dǎo)數(shù)在任何點(diǎn)x=ξ[t,x(0)](xvk∈intΔv)處為
(11)
證畢
1)x*∈Ωf?Ω;
證明:
證畢
定理1提出了系統(tǒng)式(6)和式(7)自容錯(cuò)的充分條件,若不滿足定理1所述條件,系統(tǒng)難以自容錯(cuò)。2.2節(jié)將研究在系統(tǒng)無法自容錯(cuò)的情況下,如何設(shè)計(jì)分布式簇間協(xié)同容錯(cuò)博弈控制方法。
倘若系統(tǒng)無法自容錯(cuò),為消除惡意故障造成的群決策偏差行為,提出新穎的分布式簇間協(xié)同容錯(cuò)博弈控制方法。由于無人機(jī)個(gè)體僅通過簡單的局部規(guī)則進(jìn)行決策,因而發(fā)生故障后本能地傾向于最大化自身利益,這種自私和利己的特點(diǎn)可能會破壞任務(wù)分工這一特殊的合作形式,進(jìn)而犧牲蜂群整體效益。因而鄰居可以應(yīng)用數(shù)據(jù)鏈的信息傳遞及機(jī)載傳感器的探測,通過多源信息融合完成對故障簇的任務(wù)分配的狀態(tài)感知,利用通信網(wǎng)絡(luò)的架構(gòu)針對性地向故障簇內(nèi)執(zhí)行不同任務(wù)的無人機(jī)傳遞激勵(lì)信號。將該信號引入故障簇?zé)o人機(jī)的自主決策模塊實(shí)現(xiàn)決策規(guī)則的改變,以鼓勵(lì)無人機(jī)參與分工合作,從而克服無人機(jī)個(gè)體的利己性。除此以外,以故障簇為鄰居的簇群也應(yīng)根據(jù)故障簇的狀態(tài)及所受激勵(lì),及時(shí)地向自身決策模塊提供補(bǔ)償信號,以免受到故障簇的影響?;究蚣苋鐖D1所示。
圖1 簇間協(xié)同容錯(cuò)博弈控制框架Fig.1 Framework of cooperative fault tolerant game control method between clusters
具體的,由于蜂群無人機(jī)的規(guī)模龐大,由其通信拓?fù)淇傻茫挥邪l(fā)生故障的簇v∈Pf的鄰居w∈Nv和以故障簇為鄰居的簇l∈Lv-{v}能夠獲得其信息并采取相應(yīng)的措施進(jìn)行協(xié)同容錯(cuò)控制。因此蜂群無人機(jī)中各簇獲取信息,處理故障的能力是有限的。
考慮故障情形?v∈Pf,{Nv∪Lv-{v}}∩Pf=?,并基于該情形提出分布式簇間協(xié)同容錯(cuò)博弈控制方法。容錯(cuò)控制律的設(shè)計(jì)僅在簇集Nv∪Lv,v∈Pf中進(jìn)行,即僅在故障簇的鄰居與以故障簇為鄰居的簇集中實(shí)現(xiàn)容錯(cuò)控制。
(12)
相應(yīng)地,?v∈Pf,系統(tǒng)式(6)變?yōu)?/p>
(13)
(14)
相應(yīng)地,對于l∈Lv-{v},v∈Pf,系統(tǒng)式(6)變?yōu)?/p>
(15)
而對于其他簇,系統(tǒng)式(6)不變。
考慮系統(tǒng)式(6)、式(7)、式(13)和式(15)在激勵(lì)式(12)和補(bǔ)償式(14)的作用下,李雅普諾夫函數(shù)的導(dǎo)數(shù)式(9)變?yōu)?/p>
(16)
式中:
(17)
(18)
(19)
(20)
(21)
(22)
(23)
(24)
(25)
推論1如果對于系統(tǒng)式(6)、式(7)、式(13)、 式(15),滿足:
1)cv>ζv,v∈Pf;
2)xvk(0)∈intΔv,v∈Pf,k∈Qv+{0}。
那么當(dāng)蜂群的初始分配狀態(tài)位于吸引域Ω內(nèi)時(shí),存在時(shí)間T1(x(0),cv),簇v中收益遭削弱的任務(wù)會在時(shí)間T1(x(0),cv)內(nèi)完全演化消失。
證明:
證畢
1)x*∈Ωf∩Ω;
證明:
對于v∈Pf,需要考慮以下兩種情況:
情況1Lv-{v} ≠ ?。
當(dāng)t∈[T1(x(0),cv),∞)時(shí),由條件2)和推論1可得Φf=Φc2=0。琴生不等式為
(26)
情況2Lv-{v}=?。
故障簇v的狀態(tài)并不會對蜂群內(nèi)除自身外的其他簇造成影響,因而可以將該簇從蜂群中劃分出來單獨(dú)考慮,僅要求其本身回到原有的任務(wù)分配均衡點(diǎn)即可。
根據(jù)系統(tǒng)式(13),給定李雅普諾夫函數(shù)分析xv*的漸近穩(wěn)定性:
(27)
沿系統(tǒng)式(13)的任務(wù)分配動(dòng)態(tài)軌跡的李雅普諾夫函數(shù)式(27)的導(dǎo)數(shù)為
(28)
證畢
基于定理2及其證明,在設(shè)計(jì)簇間協(xié)同容錯(cuò)博弈控制律,針對故障簇v構(gòu)造激勵(lì)矩陣(12)中的可變參數(shù)cv及補(bǔ)償矩陣(14)中的可變參數(shù)rv時(shí),需要滿足指標(biāo):
指標(biāo)1)保證了蜂群無人機(jī)任務(wù)分配狀態(tài)中收益受削弱的任務(wù)能夠演化消失,指標(biāo)2)則在簇集Nv∪Lv內(nèi)實(shí)現(xiàn)了簇間協(xié)同容錯(cuò)控制。根據(jù)定理2相關(guān)證明,蜂群無人機(jī)的群決策行為仍能回到期望的均衡點(diǎn)處。
給出一個(gè)蜂群無人機(jī)的故障示例及相應(yīng)的容錯(cuò)控制思路。
示例1圖2是由3個(gè)簇組成的蜂群無人機(jī),不同的形狀對應(yīng)于執(zhí)行不同的任務(wù)。如圖2所示,簇2發(fā)生一類故障,因而簇2可以看作由兩個(gè)異質(zhì)的子簇構(gòu)成(分別用黑白兩種顏色表示):P2={20,21}。若故障可以自容錯(cuò),那么無需采取任何措施;若故障無法自容錯(cuò),則需構(gòu)造激勵(lì)矩陣C20、C21及補(bǔ)償矩陣R2。
圖2 一個(gè)蜂群無人機(jī)的故障示例Fig.2 An example of a UAV swarm with faults
對組織結(jié)構(gòu)如圖2的蜂群無人機(jī)進(jìn)行數(shù)值仿真,分別對定理1、2加以驗(yàn)證,鄰接矩陣為
(29)
簇2中發(fā)生故障的無人機(jī)占整體蜂群的比例為α21=0.1。
首先,設(shè)定2個(gè)簇的任務(wù)集合以及對應(yīng)的任務(wù)收益與協(xié)作收益如下:S1={2,3},S2={1,3},S3={2,4};b1=5,d11=0,d12=3,d13=1,d14=0;b2=4,d21=3,d22=0,d23=2,d24=3;b3=5,d31=1,d32=2,d33=1,d34=1;b4=3,d41=1,d42=5,d43=0,d44=4。
由系統(tǒng)式(1)可以得到示例1系統(tǒng)漸近穩(wěn)定的均衡點(diǎn),即原蜂群系統(tǒng)穩(wěn)定的任務(wù)分配狀態(tài)(見圖3(a))為
(30)
修改3個(gè)簇的任務(wù)集合以及對應(yīng)的任務(wù)收益與協(xié)作收益如下:S1={1,2,3},S2={4,5},S3={3,4};b1=6,d11=4,d12=10,d13=0,d14=6,d15=5;b2=3,d21=4,d22=7,d23=12,d24=9,d25=8;b3=3,d31=6,d32=10,d33=7,d34=9,d35=8;b4=6,d43=2,d44=4,d45=6;b5=7,d53=6,d54=4,d55=0。
由系統(tǒng)式(1)可以得到不同初始狀態(tài)下示例1系統(tǒng)有兩個(gè)漸近穩(wěn)定的均衡點(diǎn)(見圖4(a)和圖4(b)),其中期望的任務(wù)分配均衡點(diǎn)為
圖4 任務(wù)分配動(dòng)態(tài)軌跡(協(xié)同容錯(cuò))Fig.4 Trajectory of task allocation dynamics (cooperatively accommodated)
(31)
由式(31)的均衡點(diǎn)可知,在無故障情形下,期望的穩(wěn)定任務(wù)分配狀態(tài)如下:簇1中執(zhí)行各任務(wù)的無人機(jī)均占比1/3,簇2中執(zhí)行任務(wù)4的無人機(jī)占比1/2,簇3中執(zhí)行任務(wù)3的無人機(jī)占比1/4。
針對惡意故障下大規(guī)模分簇蜂群無人機(jī)任務(wù)分配的群決策偏差行為,建立了自容錯(cuò)條件,設(shè)計(jì)了簇間協(xié)同容錯(cuò)博弈控制方法。該方法同樣適用于其他類似的蜂群系統(tǒng),如機(jī)器人、智能車輛等。對于故障導(dǎo)致某些任務(wù)收益增加的情形,可以考慮如何利用故障的影響使得蜂群在原有的任務(wù)分配均衡點(diǎn)處表現(xiàn)更優(yōu),這是一個(gè)更為復(fù)雜且值得深入研究的問題。
未來的工作將研究在故障情況下發(fā)現(xiàn)和鎮(zhèn)定其他可替代的平衡狀態(tài),這對嚴(yán)重破壞博弈均衡的故障具有重要的工程意義。