康雅潔 林 艷,2 張一晉
1.南京理工大學電子工程與光電技術學院,南京 210094
2.宇航智能控制技術國家級重點實驗室,北京 100854
隨著航空及無線通信技術的飛速發(fā)展,無人機集群具有了體積小、成本低、環(huán)境適應性強、魯棒性強且作業(yè)能力強大的特點,可利用規(guī)模優(yōu)勢解決單無人機抗毀性弱和覆蓋范圍有限的問題,因而具有極佳的任務完成能力。然而愈加復雜的電磁環(huán)境對無人機集群通信的可靠性提出了新的挑戰(zhàn)。比如,無線電波在傳播過程中不僅會受到場景中地形特征、天氣條件、飛行姿態(tài)等因素的影響,還會面臨惡意干擾信號[1],引起無人機通信性能的下降,嚴重時甚至造成整個無人機系統(tǒng)的癱瘓。因此,無人機集群通信亟待克服惡意干擾對無人機集群網(wǎng)絡傳輸性能的影響,以確保無人機集群在復雜電磁環(huán)境下實現(xiàn)高可靠通信。
以跳頻通信系統(tǒng)為代表的傳統(tǒng)抗干擾通信技術主要通過提高跳頻速率和增加跳頻帶寬來提高抗干擾能力,因而具有較高的避障性能和抗截獲性能。但受制于頻譜資源緊缺的現(xiàn)狀,這種以犧牲頻譜資源為代價的抗干擾策略能力愈發(fā)有限[2]。
近年來,研究者們開始嘗試利用強化學習理論,研究設備如何基于對干擾環(huán)境的感知學習[3]調(diào)整抗干擾策略以完成對干擾的智能規(guī)避,避免擴寬頻譜對頻譜資源的浪費。比如,文獻[4-5]利用無模型Q學習方法,對單用戶場景下的認知無線電網(wǎng)絡抗干擾決策問題進行研究,利用認知無線電的寬帶頻譜感知能力加快基于Q學習的干擾策略的學習速度,但尚未考慮多用戶場景。文獻[6]考慮了超密集物聯(lián)網(wǎng)的多用戶場景,將多智能體抗干擾決策問題建模為服務質(zhì)量受限的Markov博弈,針對掃頻干擾、動態(tài)干擾等干擾場景提出了一種基于平均場的抗干擾方法。然而該方法并未考慮通信設備之間的干擾。文獻[7]針對無線網(wǎng)絡設備通信采用馬爾可夫博弈框架對抗干擾防御問題進行建模和分析,提出了一種多智能體協(xié)同抗干擾算法,以獲得最優(yōu)的抗干擾策略。但上述方案未考慮設備因頻繁切換頻道造成不必要的成本開銷。
本文針對無人機集群通信網(wǎng)絡研究如何學習干擾機的干擾策略并智能選擇可用傳輸頻道的抗干擾智能快跳頻問題,聯(lián)合考慮無人機集群傳輸速率和跳頻開銷,并利用貝葉斯Q學習可實現(xiàn)探索新策略和利用已知最優(yōu)策略之間更優(yōu)平衡的優(yōu)勢加快學習收斂速度,進而在實現(xiàn)有限頻譜資源和訓練開銷下高可靠傳輸,同時降低無人機集群網(wǎng)絡在復雜電磁環(huán)境下的跳頻開銷。
如圖1所示,考慮有單個基站,N架無人機,J架干擾機的無人機集群網(wǎng)絡。假設該網(wǎng)絡預先分配了C個不同的正交頻分復用子載波[8]以消除網(wǎng)絡中通信鏈路之間的干擾。任意時隙內(nèi),每個無人機選擇其中一子載波向基站傳輸數(shù)據(jù),同時干擾機也選擇其中一子載波向無人機發(fā)送干擾信號。
圖1 無人機集群網(wǎng)絡系統(tǒng)模型
(1)
由于無人機與基站通信過程中同時存在敵意干擾攻擊和其他無人機的同頻干擾,則第n個無人機的信息傳輸速率為
(2)
其中,ρn[j]=1表示第n個無人機被第j個干擾機干擾,否則ρn[j]=0;κn[i]=1表示第n個無人機受到第i個無人機的干擾,否則κn[i]=0。此外σ2表示加性高斯白噪聲的功率。
假設無人機和干擾機的移動性均遵循高斯馬爾科夫模型[9]。記基站、無人機和干擾機高度分別為HB,HN和HJ。另外,假設基站水平位置固定在無人機集群移動區(qū)域范圍的中心。根據(jù)文獻[9],各無人機(干擾機)速度和方向的更新如下:
(3)
(4)
無人機智能抗干擾通信過程如圖2所示。假設無人機集群飛行過程可被劃分為長度相等的若干個時隙。在每個時隙開始時,無人機及干擾機更新位置并完成跳頻點選擇,此后無人機先依據(jù)當前時隙已選擇的跳頻點進行數(shù)據(jù)傳輸,然后對當前時隙網(wǎng)絡的所有頻道進行頻譜感知,并依據(jù)此信息進行下一時隙跳頻點選擇的學習。另外,需要說明的是,單個時隙內(nèi)干擾機都會在某一頻道上對無人機發(fā)送干擾信號,而到下一時隙干擾機會根據(jù)干擾模式切換干擾頻道。
圖2 無人機智能抗干擾通信過程
由上述過程可知,無人機自適應快跳頻問題本質(zhì)上是一個序列決策問題。為描述無人機集群網(wǎng)絡選擇跳頻點和更新其選擇策略的動態(tài)過程,現(xiàn)對無人機集群網(wǎng)絡抗干擾通信系統(tǒng)自適應快跳頻問題建立如下MDP模型:
1)動作at:時刻t無人機集群的跳頻點選擇,即at=[ut[0],ut[1],…,ut[N-1]]。其中t時刻第n個無人機所占用頻道的序號用ut[n]∈{0,1,…,C-1}表示。
2)狀態(tài)st:時刻t無人機集群的狀態(tài)包括上一時刻t-1干擾機的干擾頻道以及無人機選擇的傳輸頻道,即st=[It-1,at-1]。其中t-1時刻J個干擾機所占用頻道序號用It-1=[jt-1[0],jt-1[1],…,jt-1[J-1]]表示,jt-1[i]表示t-1時刻第i個干擾機所占用頻道序號,且滿足jt-1[i]∈{0,1,…,C-1}。
3)獎勵rt:為了最大化無人機集群通信系統(tǒng)信息傳輸速率與跳頻開銷的折中,定義t時刻的獎勵rt包括無人機集群系統(tǒng)信息傳輸速率獎勵與跳頻開銷懲罰兩部分。記為第n個無人機的信息傳輸速率獎勵,為第n個無人機的跳頻開銷。具體如下:
b)跳頻開銷懲罰:設λ為無人機單次跳頻所需開銷,則第n個無人機的跳頻開銷可表示為rλ[n]=-λδ[n]。其中當?shù)趎個無人機相較于上一時刻切換頻道時,δ[n]=1,否則δ[n]=0。
c)折中獎勵:令m1表示歸一化信息傳輸速率獎勵的權值,m2表示跳頻開銷的權值。則t時刻的信息傳輸速率獎勵與跳頻開銷的折中獎勵表示為
(5)
強化學習需要解決的重要問題之一是如何在探索未知的動作以及利用已知的最優(yōu)動作之間實現(xiàn)平衡。而貝葉斯強化學習將強化學習和貝葉斯學習進行了概率手段上的結合,使得無人機智能體能夠基于已知的經(jīng)驗信息概率分布和所觀測到的頻道占用信息進行推理,通過計算探索和利用共同帶來的收益做出實現(xiàn)累積獎勵最大的跳頻點選擇策略,同時加快智能體學習收斂速度。基于以上貝葉斯強化學習的優(yōu)勢,本章基于貝葉斯Q學習提出了一種新的無人機集群抗干擾智能快跳頻算法。
Dearden等[10]在傳統(tǒng)Q學習算法[11]的基礎上提出貝葉斯Q學習算法,其基本思想是采用貝葉斯方法衡量智能體對當前各狀態(tài)價值估計的不確定性,由此估計探索新動作可獲得的信息價值,實現(xiàn)在探索新策略和利用已知最優(yōu)策略之間的更優(yōu)平衡。本節(jié)將利用貝葉斯Q學習算法設計無人機集群通信系統(tǒng)的抗干擾自適應快跳頻方案。
為獲得更優(yōu)的動作選擇策略,貝葉斯Q學習動作策略選擇采取近期信息價值增益方法以及矩更新的先驗分布更新方法,具體如下:
1)近期信息價值增益動作選擇
近期信息價值增益動作選擇方法是指通過比較探索可獲得的預期收益與采用已知最優(yōu)動作可獲得的預期收益來選擇策略,其在每個狀態(tài)下動作選擇為
(6)
(7)
2)先驗分布矩更新
高斯伽馬分布的4個后驗分布參數(shù)更新公式為
(8)
其中M1和M2分別是當前時刻t在狀態(tài)s下執(zhí)行動作a時的高斯隨機變量Rst,at的一階矩和二階矩,n是抽樣樣本個數(shù)。
假設無人機集群通信系統(tǒng)中存在一個無人機作為領導者,該無人機領導者能夠獲取所有其他無人機的頻道占用情況,并通過頻譜感知可獲得系統(tǒng)中所有干擾狀態(tài)。本文暫未考慮頻譜感知的虛警漏警情況[12]。
本文所提出的基于貝葉斯Q 學習的抗干擾自適應快跳頻算法如算法1所示。具體而言,算法先對MDP參數(shù)S,A,γ,α,r等進行初始化。另外,考慮每q個時隙為一個回合,且每個回合開始前頻道狀態(tài)刷新。對于每個回合重復以下步驟:
1)在每個時隙開始時,無人機智能體依據(jù)近期信息價值增益決策策略選擇當前時隙跳頻點,同時更新位置信息。
2)依據(jù)所選頻道執(zhí)行數(shù)據(jù)傳輸后,各無人機觀測當前頻道的占用情況,同時依據(jù)環(huán)境反饋的信息傳輸速率獎勵和本無人機的跳頻點切換記錄計算折中獎勵值;
3)無人機領導者先結合所有無人機的平均獎勵,再運用矩更新方式更新所維護Q表中相應狀態(tài)動作對所對應的Q值分布。
以上訓練過程重復直到平均獎勵值收斂。
圖3 算法流程圖
為了體現(xiàn)智能快跳頻算法的優(yōu)勢,本文考慮基于Q學習的智能快跳頻算法和隨機快跳頻算法兩種比較方案,并設置每個回合時隙數(shù)q=100。
圖4 單音隨機干擾模式下收斂性能
圖5 多音掃頻干擾模式下收斂性能
圖6 馬爾科夫干擾模式下收斂性能
仿真中考慮如下3種干擾模式:
1)單音隨機干擾:設單個干擾機以0.9的概率保持與上一時隙相同的頻道進行干擾,以0.1的概率隨機選擇其他任一頻道進行干擾。
2)多音掃頻:設干擾機以1MHz為掃頻步長同時對2個頻道進行掃描干擾。
3)馬爾科夫干擾模式:設共有8個干擾狀態(tài),且每個干擾機各自干擾的頻道不重復。干擾狀態(tài)的轉(zhuǎn)換遵循系統(tǒng)初始化得到的狀態(tài)轉(zhuǎn)移矩陣。
圖4~6分別展示了在以上單音隨機、多音掃頻和馬爾科夫干擾模式的環(huán)境中3種快跳頻算法的折中獎勵收斂性能。仿真結果顯示,隨機快跳頻算法累積獎勵值一直在20左右浮動;而基于Q學習的智能快跳頻算法需要數(shù)量級為103的回合訓練次數(shù)才能收斂,且其收斂值僅為25左右。本文所提基于貝葉斯Q學習的智能快跳頻算法僅需要數(shù)量級為101的回合訓練次數(shù)實現(xiàn)收斂,且收斂值均大于50,遠高于前2種對比算法。這是因為貝葉斯方法能夠衡量智能體對當前各狀態(tài)價值估計的不確定性,從而利用近期信息價值增益選擇動作使得無人機集群能夠更快地探索到更優(yōu)的快跳頻策略。
為提高無人機集群學習智能快跳頻策略的訓練速度,本文利用貝葉斯方法可衡量不確定性的優(yōu)勢,設計了一種基于貝葉斯Q學習的智能快跳頻算法,以同時提高傳輸可靠性和降低跳頻開銷。仿真結果表明,所提算法能夠加快無人機集群學習最優(yōu)快跳頻策略的速度,使得無人機集群網(wǎng)絡在有限訓練開銷下實現(xiàn)具有更優(yōu)的傳輸速率與跳頻開銷性能的抗干擾通信。下一步工作將考慮如何利用多智能體貝葉斯Q學習的優(yōu)勢實現(xiàn)無人機集群分布式抗干擾快跳頻技術。