劉春玲,劉敏提,b,丁元明,b
(大連大學(xué) a.信息工程學(xué)院; b.通信與網(wǎng)絡(luò)重點實驗室,遼寧 大連 116622)
在未來空戰(zhàn)中,無人機(Unmanned Aerial Vehicle,UAV)集群作戰(zhàn)將是重要的作戰(zhàn)形式之一,針對其高動態(tài)、網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)多變等特性,采用分布式網(wǎng)絡(luò)結(jié)構(gòu)可提高無人機集群網(wǎng)絡(luò)的抗毀性。此外,實現(xiàn)信息安全、可靠傳輸是其完成任務(wù)的關(guān)鍵,確保無人機之間的可靠通信,將成為一項重要的研究內(nèi)容[1]。
近年來,如何有效對抗智能性干擾與提高通信安全已成為研究熱點[1]。在抗干擾技術(shù)研究中,認(rèn)知抗干擾算法已成為研究熱點方向之一[2],該算法可歸納為如下兩類:一類是基于強化學(xué)習(xí)理論[3]進(jìn)行可用信道的選擇,主動規(guī)避干擾信道,從而實現(xiàn)頻域抗干擾。文獻(xiàn)[4]提出基于協(xié)作Q學(xué)習(xí)(Q-Learning,QL)的信道選擇算法,該算法可提高數(shù)據(jù)傳輸成功率,但當(dāng)狀態(tài)空間規(guī)模較大時,其面臨維數(shù)災(zāi)難的問題[5-6]。針對該問題,文獻(xiàn)[7]提出將深度Q網(wǎng)絡(luò)(DQN)在線學(xué)習(xí)算法應(yīng)用于信道選擇。當(dāng)信道數(shù)量較多時,文獻(xiàn)[8-9]利用演員-評論家(Actor-Critic,AC)算法進(jìn)行信道選擇,但是該算法存在方差較大以及穩(wěn)定性較差的問題。另一類是基于博弈論的方法[10-12],根據(jù)敵我雙方的競爭關(guān)系,建立功率域抗干擾博弈模型,通過求解博弈均衡得到最佳傳輸功率,實現(xiàn)從功率上壓制干擾信號以達(dá)到抗干擾的目的。以上算法均是僅從單個頻域或者功率域角度考慮,針對智能性干擾攻擊的靈活性較差[13]。
為提高網(wǎng)絡(luò)抗智能干擾的能力,本文將功率域和頻域抗干擾方法相結(jié)合,基于優(yōu)勢演員-評論家(Advantage Actor-Critic,A2C)[14]與Stackelberg博弈(Stackelberg Game,SG),提出一種多域聯(lián)合認(rèn)知抗干擾(Multiple Domain Joint Cognitive Anti-Jamming,MDJC-AJ)算法。該算法將可用信道探索問題轉(zhuǎn)化為序貫決策問題,由感知到的環(huán)境頻譜狀態(tài)進(jìn)行信道選擇。根據(jù)設(shè)定的干擾容忍雙閾值將信道干擾程度分為嚴(yán)重、中度與輕微3個等級,并對處于中度干擾等級的信道建立功率域斯塔克伯格博弈模型,通過求解博弈均衡得到最佳傳輸功率。與此同時,本文采用簇頭協(xié)助決策方式來協(xié)助簇內(nèi)信道決策成功率較低的節(jié)點,以提高網(wǎng)絡(luò)整體感知環(huán)境的準(zhǔn)確性與干擾信道決策成功率。
無人機集群網(wǎng)絡(luò)采用層次結(jié)構(gòu)的移動Ad-Hoc網(wǎng)絡(luò),當(dāng)無人機的數(shù)量大于6架時,適合采用分層式結(jié)構(gòu)[15]。無人機集群網(wǎng)絡(luò)對抗智能干擾機示意圖如圖1所示。
圖1 無人機集群網(wǎng)絡(luò)對抗智能干擾機示意圖Fig.1 Schematic diagram of UAV cluster networkresist intelligent jammer
假設(shè)網(wǎng)絡(luò)中干擾機為J,干擾機個數(shù)為1,節(jié)點總數(shù)為NS,分簇數(shù)M=NS/NC,NC為簇內(nèi)節(jié)點個數(shù),節(jié)點i的簇內(nèi)鄰節(jié)點個數(shù)C-i?ΩS,其中,ΩS為網(wǎng)絡(luò)節(jié)點集合。假設(shè)簇頭具有較高的等級,數(shù)據(jù)處理能力最強,其在簇內(nèi)則充當(dāng)局部控制中心的角色,簇間節(jié)點通過所在簇的簇頭轉(zhuǎn)發(fā)數(shù)據(jù)進(jìn)行通信。
2.1.1 獎勵函數(shù)
在t時刻,且無干擾機時,節(jié)點i接收信號的信干噪比(Signal to Interference-plus Noise Ratio,SINR)為γNJ(t),存在干擾機時,SINR為γYJ(t),可表示為:
(1)
(2)
(3)
(4)
(5)
2.1.2 狀態(tài)空間與動作空間
假設(shè)環(huán)境狀態(tài)空間S為節(jié)點i的前一時刻感知頻譜bt-1,則時刻t的狀態(tài)st可表示為:
st=bt-1,st∈S
(6)
2.1.3 基于優(yōu)勢演員-評論家的頻域抗干擾算法
AC算法是由行動者(Actor)與評論家(Critic)組成的強化學(xué)習(xí)算法,其中,Actor負(fù)責(zé)更新策略,Critic負(fù)責(zé)更新動作值函數(shù)。與AC算法相比,A2C算法通過引入基線能夠降低學(xué)習(xí)過程中的方差,以較準(zhǔn)確的動作值指導(dǎo)策略更新,可帶來更好的求解效果。在實際應(yīng)用中真實價值很難得到,一般采用函數(shù)近似法對價值和動作函數(shù)進(jìn)行參數(shù)化,利用神經(jīng)網(wǎng)絡(luò)等機器學(xué)習(xí)算法求解,求解過程如下:
(7)
2)對于Actor而言,其目標(biāo)是通過不斷地更新參數(shù)w,使得其盡可能得到好的策略πw(s,a),即:
(8)
其中,d(s)對應(yīng)起始狀態(tài)s。
為增加模型探索能力,在模型目標(biāo)函數(shù)中加入策略的熵正則化項,其可衡量概率策略分布的不確定性,且其值越大說明模型具有更好的多樣性[18-19]。Actor網(wǎng)絡(luò)的參數(shù)w基于策略梯度下降的計算方法為:
(9)
(10)
表1 信道干擾等級判定規(guī)則Table 1 Decision rule of channel jamming level
在2.1節(jié)的基礎(chǔ)上,當(dāng)上一時刻所用信道在當(dāng)前時刻被判決為等級2時,則對該信道建立功率域SG模型,并通過求解Stackelberg均衡(Stackelberg Equilibrium,SE)得到最佳傳輸功率,實現(xiàn)功率域抗干擾。
(11)
干擾機J的效用函數(shù)可表示為:
(12)
(13)
(14)
2)考慮極端情況,有以下2種情況:
(15)
(16)
(17)
綜上所述,本文提出的MDJC-AJ算法實現(xiàn)過程描述如下:
輸入訓(xùn)練數(shù)據(jù)D={(si,bi)|si∈S,bi∈A},經(jīng)驗池E
2)迭代更新。對每個智能體(節(jié)點/簇頭),每幕執(zhí)行以下操作:
(2)執(zhí)行:利用πθ(·|s′)得到動作b′。
(4)策略更新:基于式(9),更新策略網(wǎng)絡(luò)參數(shù)w。
(5)價值更新:基于式(10),更新策略網(wǎng)絡(luò)參數(shù)θ。
(6)更新狀態(tài)與動作:s←s′,b←b′。
3)直至達(dá)到最大迭代次數(shù)Nit,結(jié)束。
參考文獻(xiàn)[12],本文對MDJC-AJ算法的復(fù)雜度進(jìn)行分析,結(jié)果如表2所示。
表2 MDJC-AJ算法復(fù)雜度分析Table 2 Complexity analysis of MDJC-AJ algorithm
本文算法的運算復(fù)雜度分析描述如下:
2)對于單個節(jié)點,根據(jù)策略πθ(·|s′),在每個狀態(tài)下執(zhí)行相應(yīng)動作得到獎勵值的復(fù)雜度為O(C2),C2為與策略類型相關(guān)的常數(shù),所有節(jié)點的運算復(fù)雜度為O(NSC2),該部分對應(yīng)算法迭代更新中的步驟2、步驟3。
3)對于單個節(jié)點,基于式(9)、式(10),更新參數(shù)w、θ以及狀態(tài)s、動作b,運算復(fù)雜度為O(C3),C3為與每幕的時間步長或收斂迭代次數(shù)相關(guān)的常數(shù),所有節(jié)點的運算復(fù)雜度為O(NSC3),該部分對應(yīng)算法迭代更新中的步驟4~步驟6。
4)對于單個節(jié)點,根據(jù)閾值進(jìn)行等級劃分,運算復(fù)雜度為O(C4),C4為與閾值個數(shù)相關(guān)的常數(shù),所有節(jié)點的運算復(fù)雜度為O(NSC4)。
5)干擾機最佳干擾功率運算復(fù)雜度為O(C5),C5為與式(15)相關(guān)的常數(shù)。
6)對單個節(jié)點,根據(jù)式(17)計算節(jié)點最佳傳輸功率運算復(fù)雜度為O(C6),C6為常數(shù),所有節(jié)點的運算復(fù)雜度為O(NSC6)。
通過以上分析,可得到MDJC-AJ算法的總運算復(fù)雜度為:
Csum=Nit(O(NSC1)+O(NSC2)+O(NSC3)+
O(NSC4)+O(C5)+O(C6))
(18)
由于實際環(huán)境態(tài)勢的多變性以及信息的局部性,存在單個節(jié)點局部頻譜感知能力有限的問題,為此引入簇頭協(xié)助從節(jié)點決策方法。基于簇頭協(xié)助的無人機集群網(wǎng)絡(luò)抗干擾示意圖如圖2所示。
簇頭協(xié)助從節(jié)點決策方法可描述為:各節(jié)點進(jìn)行局部環(huán)境感知與信道決策時,若某節(jié)點所得結(jié)果無法達(dá)到期望值,則向簇頭發(fā)出Help信息,簇頭收到求助信息后,則向其傳輸無干擾信道數(shù)據(jù)信息,使其能夠進(jìn)行可靠通信。需要說明的是,所有節(jié)點和簇頭均采用MDJC-AJ算法進(jìn)行抗干擾。為了不失一般性,圖2中僅詳細(xì)說明第一個簇頭內(nèi)部抗干擾算法的實現(xiàn)流程。
為驗證本文所提算法的有效性,實驗選用卷積神經(jīng)網(wǎng)絡(luò)來擬合值函數(shù)和策略函數(shù)。仿真環(huán)境為Intel?CoreTMi7-4790 CPU@3.60 GHz四核八線程處理器,采用Pytorch1.2.0深度學(xué)習(xí)框架與Matlab2018a仿真平臺。
Actor網(wǎng)絡(luò)與Critic網(wǎng)絡(luò)基本一致,不同的是最后的全連接層[20]。Actor網(wǎng)絡(luò)輸出維度為32×1,對應(yīng)32個待選信道,Critic的輸出維度為1,用于計算Actor所獲獎勵。網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置如表3所示。
表3 網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置Table 3 Parameter setting of network structure
仿真1為驗證本文所提算法的信道選擇性能,考慮干擾機采用智能性干擾,即不同時間段干擾機干擾的信道和功率均不同,為便于分析將環(huán)境狀態(tài)的時變點分別設(shè)在tchange=1 500和tchange=3 300,網(wǎng)絡(luò)中節(jié)點個數(shù)為4,編隊及所選簇頭已最優(yōu)。實驗對文獻(xiàn)[4]Q學(xué)習(xí)抗干擾(QL-AJ)算法、文獻(xiàn)[8]演員-評論家抗干擾(AC-AJ)算法與本文算法的信道干擾情況決策成功率進(jìn)行比較,結(jié)果如圖3所示。從圖3可以看出,在各個階段內(nèi),相比QL-AJ算法與AC-AJ算法,本文所提MDJC-AJ算法的信道干擾情況決策成功率更高。
圖3 3種算法的干擾信道情況決策成功率Fig.3 Channel decision success rate of jammingsituation with three algorithms
為進(jìn)一步說明MDJC-AJ算法在智能性干擾情況下信道決策有效性,由仿真所得信道干擾情況判決結(jié)果,如圖4所示。從圖4可以看出,MDJC-AJ算法在決策出可用信道索引情況下,對信道干擾功率情況進(jìn)行判決,可為功率域抗干擾提供依據(jù)。
圖4 MDJC-AJ算法對信道干擾情況判定結(jié)果Fig.4 Decision result of channel jamming situationby MDJC-AJ algorithm
圖5 觀測誤差e對網(wǎng)絡(luò)節(jié)點與干擾機效用函數(shù)的影響Fig.5 Influence of observation error e on utility functionof network node and jammer
從圖5可以看出,隨著干擾機觀測誤差e的增加,節(jié)點效用函數(shù)之和呈現(xiàn)遞增趨勢,然而干擾機的效用函數(shù)呈現(xiàn)遞減趨勢。這是因為隨著觀測誤差的增加,使得干擾機最佳傳輸功率偏離SE,導(dǎo)致其效用函數(shù)減小,干擾機觀測誤差等效于削弱了干擾機干擾的強度,而這將有利于提高節(jié)點效用函數(shù),使其通信性能提升。
簇內(nèi)節(jié)點個數(shù)對接收信號的SINR的影響如圖6所示。
圖6 簇內(nèi)節(jié)點數(shù)對整體接收信號SINR的影響Fig.6 Influence of the number of nodes in a cluster onthe overall received signal SINR
仿真3實驗比較了QL-AJ算法、AC-AJ算法與本文算法的抗智能干擾性能,如圖7所示。從圖7可以看出,在3種不同算法下,網(wǎng)絡(luò)通信安全容量均隨著訓(xùn)練時間的增加而不斷提高,且與QL-AJ算法、AC-AJ算法相比,本文算法的網(wǎng)絡(luò)通信安全容量更高。值得注意的是,在3個階段的突變點,上述3種算法得到的通信安全容量均驟減,之后恢復(fù),然而本文算法較其他2種算法恢復(fù)的更快,其原因是:由于狀態(tài)空間和動作空間較大,QL-AJ算法遍歷Q表所有狀態(tài)的計算量龐大,算法收斂較慢;同時,AC算法利用卷積神經(jīng)網(wǎng)絡(luò)強大的計算能力,相比QL算法提高了近4倍的計算速度;另外,相比于AC-AJ算法,本文算法能夠降低學(xué)習(xí)過程的方差,算法穩(wěn)定性好、收斂更快,且通過聯(lián)合功率域抗干擾減少信道切換的時間,同時提高了接收信號SINR,從而得到的通信安全容量更高。
圖7 3種算法的抗智能性干擾性能對比Fig.7 Comparison of anti-intelligence-jamming performanceof three algorithms
(19)
其中,|S|為系統(tǒng)狀態(tài)個數(shù)。
為驗證所提方法算法收斂性能,實驗對比了QL-AJ算法、AC-AJ算法與本文算法的收斂情況。10個仿真周期的平均均方值誤差如圖8所示。從圖8可以看出,本文算法在經(jīng)過10幕左右后已經(jīng)收斂,比其他2種算法的收斂性能好,且得到的平均均方值誤差更小。
圖8 3種算法的平均均方值誤差變化曲線Fig.8 Average mean square error change curves ofthree algorithms
針對無人機集群網(wǎng)絡(luò)對抗智能性干擾能力較弱的問題,本文提出一種MDJC-AJ算法。該算法基于A2C頻域算法,利用感知到的頻譜狀態(tài)信息進(jìn)行信道選擇,以提高算法的收斂速度與信道決策成功率,并在此基礎(chǔ)上,根據(jù)得到的功率干擾等級,利用功率域進(jìn)行抗干擾,以減少信道切換時間、提高接收信號SINR。通過仿真對比QL-AJ算法與AC-AJ算法,說明本文所提MDJC-AJ算法的整體抗干擾性能較好。同時,本文采用簇頭協(xié)助的方法進(jìn)一步改善網(wǎng)絡(luò)的抗干擾性能。后續(xù)將考慮實際物理場景中存在不完全觀測信息的情況,開展基于貝葉斯博弈理論的抗干擾方法研究,以滿足實際工程需要。