亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于閾值公共品博弈的無人機集群干擾決策技術

2022-12-30 02:20:44吳克釗

無線電通信技術 2022年6期

高陽，田達，吳克釗，陳卓

(1.中國航天科工集團8511研究所，江蘇南京 210007；2.中國航天科工集團第二研究院，北京 100854)

0 引言

現(xiàn)代戰(zhàn)爭中，為了彌補單架無人機載荷能力有限、任務容錯性不足等局限性，無人機的作戰(zhàn)已經(jīng)逐步從單平臺作戰(zhàn)向多平臺“集群”方向發(fā)展[1]。以機載電子攻擊作戰(zhàn)應用為例，傳統(tǒng)的防區(qū)外大功率干擾雖然可以用于遠距離支援作戰(zhàn)，但系統(tǒng)成本高、輻射特征明顯、易受攻擊，且干擾方向單一，面對敵方陣列系統(tǒng)強大的空域處理抗干擾能力，很難達到滿意的干擾效果。不同于傳統(tǒng)干擾方式，利用無人機集群攜帶小型干擾機可以抵近敵方實施近距離支援干擾(Stand-in Jamming,SIJ)，降低單機干擾功率需求的同時，增加了敵方陣列系統(tǒng)空域抗干擾的難度，且無人機成本低廉，避免了作戰(zhàn)人員消耗，具有極高的作戰(zhàn)交換比。然而在實際情況中，由于戰(zhàn)場環(huán)境存在高度不確定性且實時動態(tài)變化這一特點，對大規(guī)模的無人機作戰(zhàn)集群進行預先設置任務或人為操控均存在一定困難。因此需要為無人機賦予一定自主能力，使其可以在復雜的場景下根據(jù)預設準則調(diào)節(jié)自身策略，同時實現(xiàn)集群內(nèi)部自組織，進而整體涌現(xiàn)出群體作戰(zhàn)效能[2]。文獻[3]指出完全具備自主決策行為的智能體目前還處于早期的研究階段，為完全實現(xiàn)群體行為上的智能，眾多學者提出了多種行為決策的理論方法，如微分對策(Differential Game)理論、進化算法(Evolutionary Algorithms)、影響圖法(Influence Diagram Method)等。

博弈論可以很好地闡述人類社會中的合作與競爭行為，其中閾值公共品博弈(Threshold Public Goods Game)模型[4]描述了有限理性的個體在多輪的迭代過程中，不斷調(diào)整自身策略來適應環(huán)境變化的過程，該模型在經(jīng)濟貿(mào)易、社會合作、環(huán)境治理中有較為廣泛的應用，此博弈模型為研究如何解決集群多智能體之間的內(nèi)部協(xié)作提供了一種可行的思路。

鑒于此，本文以閾值公共品博弈為基礎，對無人機集群協(xié)同干擾問題進行建模，引入人類社會中協(xié)作治理機制中的內(nèi)生性懲罰措施，結合實際應用，對集群自主決策進行研究。

1 問題描述

以無人機集群深入敵方防區(qū)執(zhí)行對敵防空壓制任務為例，假定各架無人機截獲敵方電子威脅信號后，協(xié)同飛行至敵防空陣地附近空域，采用相同的發(fā)射功率在大致相同的距離上，對敵方電子威脅進行瞄頻噪聲壓制干擾，掩護我方突防飛機沿特定航線實施作戰(zhàn)行動，場景示意如圖1所示。

圖1 無人機掩護突防飛機示意圖Fig.1 Schematic diagram of UAV cover penetration aircraft

假定單機干擾功率為Pj，多機之間噪聲干擾相互獨立，則在雷達接收機處，每部干擾機產(chǎn)生的噪聲功率近似線性疊加，功率效果上相當于一部干擾功率為PJ=∑Pj的大型干擾機，此時雷達系統(tǒng)的燒穿(Burn-Through)距離RBT為:

(1)

式中，σ為待掩護目標的雷達散射截面積(Radar Cross Section,RCS)，Kj為壓制系數(shù)，GJ為干擾機天線增益，RJ為干擾機與雷達距離。Pt為雷達發(fā)射機功率峰值,Gt為天線主瓣增益，G′為天線旁瓣增益，L為系統(tǒng)損耗。

對于無人干擾機集群而言，應依據(jù)敵方雷達位置和我方突防飛機位置，合理動態(tài)配置干擾功率資源，使得被掩護目標始終處于雷達燒穿距離之外。總的干擾功率過低，顯然無法對目標進行有效掩護。若總的干擾功率太高，則可能造成不必要的資源浪費，導致持續(xù)干擾的時間縮短，無法進行長時間掩護。同時，高度智能化的節(jié)點由于其“自私性”的存在，在極端情況下，集群中的每一個節(jié)點從自身利益出發(fā)將均不去執(zhí)行干擾，因此，研究如何設置合理的機制使得干擾節(jié)點在滿足干擾功率閾值的前提下，最大化系統(tǒng)工作時長具有一定的現(xiàn)實意義。

2 博弈模型構建

在實際行動中，可將上述問題抽象為集體行動問題，即群體內(nèi)部如何協(xié)調(diào)，從而形成一種能夠穩(wěn)定各方行為預期的行為模式[5]。從完全理性的角度出發(fā)，“自私”的個體不會自愿為集體利益貢獻力量，即傳統(tǒng)的博弈理論認為個體的理性將導致集體的非理性，但從現(xiàn)實情況出發(fā)，合作的行為卻無處不在。

最早的非零和博弈理論模型之一，囚徒困境博弈(Prisoner’s Dilemma Game)描述了兩個理性個體追求自身利益最大化從而導致納什均衡僅落在非合作點上。隨后，將該模型擴展為多人博弈，提出公共物品博弈模型(Public Goods Game)，此時唯一的納什均衡為所有個體均選擇背叛行為。但值得指出的是，在公共物品博弈模型中，很多的收益具有臨界性。例如，巴黎協(xié)定中提出“其目標為國際社會，應在本世紀內(nèi)把全球平均氣溫較工業(yè)化前水平升高幅度控制在2℃之內(nèi)，同時努力將升溫幅度控制在 1.5℃之內(nèi)”。這類具有最低提供成本的公共品被稱為閾值公共品(Threshold Public Goods)。

2.1 閾值公共品博弈模型

對于一個多節(jié)點同時行動的閾值公共品博弈Γ={N,A,u,T}，其中N={1,2,…,N}為參與節(jié)點集合，A={a1,a2}為可能的行動集合，且滿足a1

(2)

引入的倍增系數(shù)r(r≥1)表示集群整體對外作用時所帶來效能的變化，當無人機集群進行協(xié)同干擾時，相較于單機壓制干擾，多干擾機協(xié)同干擾會對雷達探測區(qū)域帶來更大角度范圍的壓制。同時要使博弈滿足公共物品博弈模型框架，以上各參數(shù)需滿足Na1T，即存在公共品被提供的可能性；rT/N>a2，即提供公共物品對個體而言有利可圖。

在每一次博弈過程中，N個節(jié)點同時從自身行動集合A中選擇一個行動，構成行動組合c=AN,C={n1,n2}用以表示節(jié)點中選擇各個行動的節(jié)點數(shù)目。所有能夠成功提供公共物品的組合行動可以記為：

(3)

事實上，對于合作與非合作策略下的無退款保證(Money-back Guarantee)機制下閾值公共品博弈模型，文獻[6]已經(jīng)證明，在基于模仿的演化動態(tài)下，背叛均衡是局部穩(wěn)定的，即在一定的參數(shù)情況下，合作者與背叛者可以在網(wǎng)絡中共存。

2.2 策略更新準則

在網(wǎng)絡演化博弈的過程中主要存在兩類網(wǎng)絡：相互作用網(wǎng)絡(Interaction Graph)和策略學習網(wǎng)絡(Learning Graph)，前者主要描述個體之間的博弈關系，后者用來描述個體的收益和策略信息。

從時序的角度出發(fā)，對網(wǎng)絡中的節(jié)點而言，主要有同步更新(Synchronous Updating)和異步更新(Asynchronous Updating)。同步更新是指所有的個體在每個離散時間步內(nèi)將同步更新自身策略。異步更新是指在每一輪博弈中，隨機選擇某些個體以一定概率進行策略更新。

從無人機個體角度出發(fā)，自身希望通過學習成功的行為來強化自身收益。因此，在博弈過程中，個體會根據(jù)某種規(guī)則來調(diào)節(jié)自身行為，從關注鄰居節(jié)點的角度來看，策略演化規(guī)則有學習最優(yōu)者、模仿優(yōu)勝者以及配對比較等。此外，借鑒“贏存輸變”(Win-Stay，Lost-Shift，WSLS)規(guī)則，個體也可以根據(jù)自身的收益滿意程度進行策略更新。其中，愿景驅動規(guī)則[7]側重于將博弈收益與愿景水平(Aspiration Level)比較而進行新的決策，此時個體主觀認識起主導作用，對焦點個體X而言，其從A策略切換到B策略的概率表達式為：

(4)

式中，α為愿景水平用以表示個體在博弈過程中期望獲得的收益，ω∈[0,1]為選擇強度，πA(i)為A策略下個體的收益。對于集群中的智能體，借鑒強化學習中的思想，與外部環(huán)境進行交互，從而進行決策來最大化自身回報[8]。其基本思想為：如果某個行動回報值較高，則在以后增加使用此行動的可能性，反之則減少，常用的算法有Q-learning、SARSA、Roth-Ever等。

Roth-Ever模型因簡單易用得到了廣泛應用，在Roth-Ever算法中，實施行動共分為兩步：行動傾向的更新以及行動傾向到概率的轉換，行動傾向的具體更新方法為：

qj=(t+1)=[1-φ]qj(t)+Ej(ξ,k,t)，

(5)

在各個時刻t、qj表示行動策略為j的傾向，k為上次行動所選擇的策略，rk為上次行動所獲得的回報，N為所有策略中可能行動的個數(shù)。ξ為經(jīng)驗系數(shù)，可用以歸納某些“類似”策略，φ為更新系數(shù)，用以減弱過去行為的影響。該式表明，新的行動趨勢為之前的選擇行動與上輪回報的組合。上輪回報值越大，新的行動更傾向于之前的行動。隨著時間的推進，回報值較大的行動傾向性會更大。

行動傾向轉換為行動概率的表達式為：

(6)

式中，qm(t),m∈[1,j]，為行動策略集合中各個行動的傾向性。

2.3 懲罰措施

在人類社會中，帶有成本的懲罰措施可以有效維持社會合作，也是保證群體合作可持續(xù)的必要條件[9]。從懲罰的實施角度出發(fā)，主要包括外生懲罰和內(nèi)生懲罰，外生懲罰是指群體外部所施加的懲罰措施，內(nèi)生懲罰是群體內(nèi)部自我組織、協(xié)商所達成的懲罰措施。已有大量的實證和理論研究認為，內(nèi)生懲罰機制會促進群體之間的合作行為的產(chǎn)生，即群體內(nèi)部協(xié)商選擇會帶來“內(nèi)生溢價”。

以上述思路為基礎，引入內(nèi)生性懲罰措施，促進集群之間的內(nèi)部治理，當集群所投入干擾功率小于閾值時，集群各個節(jié)點共享預設的懲罰值，從而促進集體行動的維持以滿足干擾功率需求。

3 仿真分析

以某型防空雷達為例，其具體能力參數(shù)為：雷達發(fā)射機峰值Pt=6×106W，天線主瓣增益Gt=42 dB，旁瓣增益G′=0 dB，工作帶寬B=10 MHz，系統(tǒng)損耗L=1 dB。

假定無人機集群(規(guī)模不小于20架)與敵方雷達距離Rj=5 km，干擾機天線增益GJ=8 dB，單機干擾功率Pj=10 W，我方突防飛機(待掩護目標)RCS為1 m2，要求雷達燒穿距離不大于80 km，壓制系數(shù)Kj=13.3 dB。由式(1)計算可得，此時所需干擾機峰值功率為:PJ=22.0 dBW，即所需功率閾值為PJ=158.5 W。

3.1 無懲罰機制

由前所述，當無人機集群發(fā)起協(xié)同干擾工作時，假定無人機集群中節(jié)點數(shù)量規(guī)模為20，其中倍增系數(shù)r=1，ξ=0.05，φ=0.05。

若不引入懲罰措施，即完全考慮個體的自愿行為時，在初始階段，集群內(nèi)部個體之間無明顯策略傾向，隨著博弈的進行，個體內(nèi)部的行為策略會發(fā)生明顯的傾向，當博弈穩(wěn)定以后得到各節(jié)點策略的統(tǒng)計平均值變化情況，如圖 2所示。

圖2 節(jié)點行為概率變化示意圖Fig.2 Schematic diagram of node behavior probability changes

從上述仿真結果可以看出，在無懲罰措施的機制下，個體從最大化自身利益的角度出發(fā)，選擇不干擾概率將遠大于選擇干擾的概率，此時干擾行動將無法成功維持。

3.2 有懲罰機制

當引入內(nèi)生性懲罰措施時，即當集群各節(jié)點所投入功率未滿足干擾功率閾值時，集群內(nèi)部將共享預設的懲罰值。節(jié)點數(shù)量為20，倍增系數(shù)r=1，ξ=0.05，φ=0.05，為保證實驗數(shù)據(jù)排除偶然誤差影響，統(tǒng)計數(shù)據(jù)為博弈穩(wěn)定以后500步內(nèi)均值，重復5次實驗取統(tǒng)計平均值，此時得出在不同預設懲罰值下個體行為概率的變化情況如圖 3所示。

圖3 不同懲罰值下節(jié)點行為概率變化示意圖Fig.3 Schematic diagram of node behavior probability changes under different penalty values

從仿真結果可以看出，引入內(nèi)生性懲罰措施可以極大改善個體“搭便車”的行為，個體將更傾向于選擇干擾策略，同時由圖3可以看出，隨著預設懲罰值的變大，個體傾向于干擾的概率將持續(xù)性變高。

在不同的預設懲罰值下，節(jié)點投入的總干擾功率與所設定閾值對比示意如圖 4所示。

圖4 不同懲罰值下集群投入干擾功率統(tǒng)計均值與閾值對比示意圖Fig.4 Schematic diagram of the comparison between the statistical mean and threshold of cluster input interference power under different penalty values

從圖4可以得出，當預設懲罰值為8時，即懲罰值固定為個體能力的0.8，此時集體投入的總干擾功率可以滿足所需的干擾功率的閾值，且此時投入的總資源最低，實現(xiàn)了干擾資源的最優(yōu)配置，同時可持續(xù)維持干擾。

在實際行動過程中，干擾閾值功率將根據(jù)實際情況進行調(diào)整，保持博弈模型中的懲罰值不變，考慮突防飛機與敵方雷達之間距離的變化情況會帶來所需閾值干擾功率的變化，如飛機從距離雷達150 km突防至距離80 km，以10 km為間隔，由式(1)計算可得所需干擾功率閾值變化范圍為12.8～158.5 W。

采用本文方法得到的集群投入干擾功率統(tǒng)計對比仿真結果如圖 5所示。

圖5 不同干擾閾值下集群投入功率變化圖Fig.5 Variation diagram of cluster input power under different interference thresholds

由圖 5可以看出，集群所投入總功率可以很好滿足干擾閾值動態(tài)變化的情形。這意味著在作戰(zhàn)過程中，集群中的干擾資源投入可根據(jù)需要自行動態(tài)調(diào)整。這種決策機制下可以使集群整體投入功率資源最小，從而最大化干擾時長，確保了集群整體的干擾作戰(zhàn)任務持續(xù)時間。

4 結束語

本文以無人機集群自主協(xié)同干擾為著眼點，結合實際場景，為實現(xiàn)集群干擾效能最大化，以閾值公共品博弈模型為基礎，引入內(nèi)生性懲罰措施。在這種輔助決策機制下，設定固定懲罰值為0.8時，干擾無人機集群內(nèi)部可以在無需關注鄰居節(jié)點的模式下實現(xiàn)協(xié)同干擾，同時在實現(xiàn)干擾任務的同時最小化集群整體能量消耗，為無人機集群作戰(zhàn)的決策機制提供輔助手段。

在實際情況下，無人機集群多采用混編結構，例如在集群內(nèi)部有偵察無人機、電子對抗無人機、攻擊無人機等，探究此種情況下的內(nèi)部協(xié)作機制是今后值得研究的方向。