江志煒, 黃 洋,2, 吳啟暉,*
(1. 南京航空航天大學電磁頻譜空間認知動態(tài)系統(tǒng)工信部重點實驗室, 江蘇 南京 211106;2. 東南大學移動通信國家重點實驗室, 江蘇 南京 211189)
近年來,隨著無線通信技術(shù)迅猛發(fā)展,無線通信系統(tǒng)中的用戶數(shù)與業(yè)務(wù)種類大幅增加[1]。同時,在現(xiàn)代戰(zhàn)爭中,伴隨著作戰(zhàn)雙方對安全、穩(wěn)定的信息傳輸及處理能力需求,戰(zhàn)場用頻裝備與日俱增,致使戰(zhàn)場電磁頻譜環(huán)境愈發(fā)復雜多變[2-3],因此對電磁頻譜空間的控制已成為決定戰(zhàn)場發(fā)展方向的關(guān)鍵性因素。戰(zhàn)場電磁頻譜態(tài)勢是現(xiàn)代戰(zhàn)爭中信息獲取和傳遞最主要媒介,是雙方控制與反控制的焦點。由于無線通信系統(tǒng)區(qū)別于有線通信網(wǎng)絡(luò),有線通信網(wǎng)絡(luò)中通信設(shè)備通過電纜等物理設(shè)備相連接,而無線通信網(wǎng)絡(luò)口中接口是開放的。正是由于無線通信系統(tǒng)特有的開放性,無線傳輸自然更容易受到來自對方的惡意干擾攻擊[4],因此抗干擾技術(shù)的研究在構(gòu)建更加穩(wěn)健、高效的無線通信系統(tǒng)中的重要性日益凸顯。更加穩(wěn)健的無線通信系統(tǒng)是現(xiàn)代戰(zhàn)爭中能否取得勝利的關(guān)鍵要素,因此抗干擾技術(shù)是軍事無線通信系統(tǒng)中的重要要求[5]。主流的傳統(tǒng)抗干擾技術(shù)包括跳頻擴頻(frequency hopping spread spectrum,FHSS)和直接序列擴頻(direct-sequence spread spectrum,DSSS)[6],而傳統(tǒng)的抗干擾技術(shù)需要有大量的可用頻譜資源作為抗干擾技術(shù)的支持,在無法提供大量頻譜資源時抗干擾效果會下降,并且傳統(tǒng)的抗干擾技術(shù)無法應(yīng)對網(wǎng)絡(luò)頻譜動態(tài)變化的場景[7-8]。
智能抗干擾決策技術(shù)由于相對于傳統(tǒng)的跳頻等抗干擾技術(shù)具有更強的靈活性與更高的抗干擾容限而逐漸受到關(guān)注[7]。近年來出現(xiàn)了很多針對智能抗干擾決策技術(shù)的研究,博弈論等數(shù)學工具被越來越多地用于智能抗干擾決策的研究[9-10],用以建立更加契合實際的模型并獲取更好的決策效果。文獻[9]將抗干擾問題建模為斯坦伯格博弈,并進行抗干擾功率決策研究。文獻[10]將用戶與干擾用戶建模為抗干擾的貝葉斯斯坦伯格博弈模型。但這些方法需要了解干擾策略,這意味著需要合法用戶能從觀察到的環(huán)境中估計干擾模式和參數(shù)。但是,隨著人工智能和通用軟件無線電外圍(universal software radio peripheral, USRP)設(shè)備[11]的快速發(fā)展,無線通信動態(tài)環(huán)境愈發(fā)復雜,干擾源攻擊用戶時可以輕松地產(chǎn)生動態(tài)干擾。因此,需要針對動態(tài)和未知環(huán)境中異構(gòu)用戶的抗干擾通信方法進行研究。
近年來,強化學習不僅在機器學習中,而且在運籌學、控制工程以及其他相關(guān)學科中,都吸引了許多研究者的興趣[12]。在強化學習中,代理與未知環(huán)境進行交互,在獲得回報的同時更新其策略以最大化累積收益。因此,強化學習提供了一種通用的方法來解決復雜的不確定性決策問題,這些問題在無線通信系統(tǒng)的抗干擾問題中是非常具有挑戰(zhàn)性的,是解決動態(tài)和未知環(huán)境中異構(gòu)用戶決策問題的有效方法[13]。Q學習算法是一種無模型的強化學習算法,并且廣泛應(yīng)用于無線通信系統(tǒng)的抗干擾問題中[14-16]。文獻[14]研究提出了一種基于Q學習的特定的強化學習算法,并且在數(shù)百兆赫茲的可用頻段上實時地做出抗干擾策略。文獻[15]研究中次級用戶使用SARSA(state-action-reward-state-action)算法來學習頻點的時變特性以及外部干擾的干擾策略。文獻[16]研究提出了一種基于強化學習的抗干擾方法,用于在多智能體的寬帶自主認知無線電(wide-band autonomous cognitive radios, WACR)環(huán)境中進行抗干擾通信。但是,通常在復雜電磁環(huán)境下的抗干擾頻點分配問題的動作空間及狀態(tài)空間都非常巨大,因此基于傳統(tǒng)強化學習技術(shù)對抗干擾頻點分配問題進行求解時會面臨維度詛咒等問題[17]。為了解決傳統(tǒng)強化學習技術(shù)在求解復雜不確定性決策問題時復雜度過高的問題,基于神經(jīng)網(wǎng)絡(luò)或隱馬爾可夫模型等的預測模型在研究中被提出,但上述模型往往需要大量的計算資源來訓練,并且需要經(jīng)常定期重新訓練,同時需要大量參數(shù)來獲取相關(guān)的通信環(huán)境[18-19]。此外,基于深度學習的模型往往對噪聲[20]和對抗[21]敏感,因此在具有業(yè)務(wù)延遲要求等的實際無線通信網(wǎng)絡(luò)中,需要開發(fā)可以實時分析相關(guān)數(shù)據(jù),以便為決策的制定提供參考。
本文針對雷達通信一體化系統(tǒng)的抗干擾問題,提出了基于核函數(shù)強化學習的抗干擾雷達-通信頻譜協(xié)同算法,旨在最大化用頻設(shè)備接入未被干擾頻點的期望。用頻設(shè)備根據(jù)可用頻段的頻譜態(tài)勢構(gòu)建出本地的頻譜池,進而用頻設(shè)備可以不需要預知外部干擾的干擾模式和相關(guān)參數(shù),基于所提算法低復雜度地做出抗干擾頻譜決策。因此,所提算法是無模型的,可以廣泛用于各種抗干擾方案。所提算法通過基于核函數(shù)的方法,避免了隨可用頻點數(shù)目增加而出現(xiàn)的維度詛咒問題,同時基于近似線性相關(guān)性分析的在線內(nèi)核稀疏化方法,進一步的減少了算法的收斂時間。仿真證明,所提算法可以在短時間內(nèi)收斂,實現(xiàn)了快速規(guī)避外部未知干擾源的干擾,減少了接入被干擾頻點的次數(shù),并在外部干擾源干擾圖樣發(fā)生變化時,重新對外部干擾源進行學習,相較于傳統(tǒng)的基于Q學習的抗干擾頻點分配算法擁有好的性能。所提算法無需大量訓練,可以通過不斷與未知環(huán)境進行交互,學習干擾源干擾模式,在線實時做出相應(yīng)頻點分配決策。論文其余部分安排如下:第1節(jié)介紹了雷達通信一體化的系統(tǒng)模型并構(gòu)建了目標問題,第2節(jié)介紹了基于傳統(tǒng)強化學習的抗干擾頻點分配算法和基于核函數(shù)強化學習的抗干擾頻譜協(xié)同算法,第3節(jié)和第4節(jié)分別給出了仿真分析以及全文總結(jié)。
本節(jié)將對系統(tǒng)模型進行介紹。如圖1所示,考慮一個包含通信用頻設(shè)備和雷達用頻設(shè)備的雷達通信一體化系統(tǒng)。其中,通信用頻設(shè)備和雷達用頻設(shè)備的總設(shè)備對數(shù)為K,在上述系統(tǒng)中的雷達用頻設(shè)備為捷變頻雷達,用頻設(shè)備可以對可用頻點進行感知,來獲得用頻設(shè)備可用頻段的頻譜態(tài)勢[22-23]。
圖1 存在外部干擾的雷達通信一體化系統(tǒng)Fig.1 Integrated radar communication system with external interference
在上述系統(tǒng)模型中,時間劃分為等長的時隙,每個時隙的長度用T來表示。在上述雷達通信一體化系統(tǒng)中,共有I個可用頻點,用頻設(shè)備k的可用頻段中總共有Ik={I1,I2,…,Ik}個可用頻點。而不同的用頻設(shè)備擁有不同的可用頻段,但不同用頻設(shè)備的可用頻段之間可能有重疊的頻點,并且各個用頻設(shè)備k的可用頻段內(nèi)單個頻點的帶寬Bk={B1,B2,…,Bk}也是不相同的,即不同用頻設(shè)備的頻譜是異構(gòu)的。同時雷達通信一體化系統(tǒng)中存在U個外部干擾源,干擾源對所有用頻設(shè)備所在的可用頻段進行干擾,干擾圖樣與相關(guān)參數(shù)并不會被系統(tǒng)中的用頻設(shè)備感知到,同一網(wǎng)絡(luò)中的不同用頻設(shè)備之間不存在頻點間干擾。
雷達用頻設(shè)備通過頻率捷變來避開外部的未知干擾源,捷變頻雷達的頻率捷變技術(shù)主要通過干擾分析與頻率選擇系統(tǒng)來實現(xiàn)的[24]。雷達信號通常是窄帶的、帶通的、相位或頻率調(diào)制的函數(shù),這意味著單個散射體的回波波形y(t)[25]具有如下的形式:
y(t)=A(t)sin[Ωt+θ(t)]
(1)
式中,幅度調(diào)制A(t)表示脈沖的包絡(luò);Ω為頻率;θ(t)為相位調(diào)制。接收到的信號被分離到兩個通道,其中一個通道稱為同相通道(I通道),另一個通道稱為正交通道(Q通道)。在經(jīng)過混頻和低通濾波后,式(1)中的回波信號為
y(t)=I(t)+jQ(t)
(2)
捷變頻雷達對可用頻段內(nèi)的可用頻點進行頻譜的實時分析,來獲得可用頻段的干擾狀態(tài),捷變頻雷達的干擾分析模塊在每個時隙對雷達設(shè)備可用頻點的幅度進行實時監(jiān)測,單個可用頻點處的信號幅度為
(3)
式中,gk, j,t為t時隙雷達設(shè)備k的第j個可用頻點的幅度值。通信設(shè)備根據(jù)信干噪比來判斷可用頻段的頻譜態(tài)勢,其中信干噪比為
(4)
式中,p表示發(fā)射功率;σ2表示噪聲,包括高斯白噪聲和外部干擾源的干擾:
(5)
用頻設(shè)備為了增加對本用戶可用頻段附近頻點的感知,在用頻設(shè)備可用頻段的兩側(cè)均有一個鄰頻點,如圖2所示。鄰頻點用于感知可用頻段兩側(cè)相鄰頻點的頻譜態(tài)勢,其中頻點X為鄰頻點,鄰頻點不能被使用該頻段的用頻設(shè)備作為工作頻點,頻點O為用頻設(shè)備的可用頻點。若不同用頻設(shè)備的可用頻點(O)有重疊,則這些用戶被劃分為同一個簇,由簇頭分配重疊頻點的優(yōu)先使用權(quán),如圖3所示。
圖2 用頻設(shè)備的可用頻段和鄰頻點Fig.2 Available frequency band and adjacent frequency point of frequency equipment
圖3 用頻設(shè)備在可用頻段重疊的情況下的分簇情況Fig.3 Clustering of frequency equipment with overlapping available frequency bands
在該系統(tǒng)內(nèi),用頻設(shè)備的頻譜池由前y個時隙如圖2所示的可用頻點和鄰頻點的頻譜態(tài)勢組成。在t-1時隙用頻設(shè)備k做出選頻決策之后,用頻設(shè)備對當前時隙的可用頻點和鄰頻點進行感知,獲得對應(yīng)頻點的頻譜態(tài)勢集合vk,t-1=(vk,1,t-1,vk,2,t-1,…,vk, j,t-1),其中j為可用頻點和鄰頻點的數(shù)目總和。隨著用頻設(shè)備在每個時隙對可用頻點和鄰頻點進行感知,獲得t-y時隙到t-1時隙內(nèi)對應(yīng)頻點的頻譜態(tài)勢,進而構(gòu)成了用頻設(shè)備k的頻譜池,如圖4所示。隨著時隙的增加,用頻設(shè)備不斷更新頻譜池中的頻譜態(tài)勢,因此在t時隙時,用頻設(shè)備k可以將本地的頻譜池中頻譜態(tài)勢Vk,t=(vk,t-1,vk,t-2,…,vk,t-y)作為算法的輸入,對當前時隙下的頻點分配進行決策。
圖4 頻譜池的構(gòu)建Fig.4 Construction of spectrum pool
由于雷達通信一體化系統(tǒng)中存在未知外部干擾源,因此用頻設(shè)備所在的無線網(wǎng)絡(luò)環(huán)境是未知的和動態(tài)的。這導致用頻設(shè)備無法從外部環(huán)境和頻譜態(tài)勢中直接獲得可接入的頻點。強化學習提供了一種方法來解決未知動態(tài)環(huán)境中復雜的決策問題,因此強化學習在抗干擾領(lǐng)域展現(xiàn)出強大的學習能力,這是由于用頻設(shè)備可以根據(jù)過去的經(jīng)驗,對干擾源的干擾規(guī)律進行學習,不斷更新用頻設(shè)備的選頻策略以最大化長期累計收益,使簇內(nèi)用頻設(shè)備可以在每時隙接入頻點前,根據(jù)當前的頻譜池中的頻譜態(tài)勢進行頻點選擇,從而實現(xiàn)用頻設(shè)備抗干擾的頻點選擇策略。由于用頻設(shè)備可以從過去的頻譜態(tài)勢中獲得外部干擾源的干擾策略,因此可以將用頻設(shè)備的頻點選擇問題建模為馬爾可夫決策過程(Markov decision process, MDP)。
一個馬爾可夫決策問題可以由集合{S,A,R,P}來表示,其中S代表狀態(tài)空間,A代表動作空間,R代表瞬時回報,P代表狀態(tài)轉(zhuǎn)移概率。接下來介紹有關(guān)用頻設(shè)備k的狀態(tài)空間,動作空間,瞬時回報以及狀態(tài)轉(zhuǎn)移概率。
(1) 狀態(tài)空間:由于干擾源復雜的干擾動作可能與過去y個時隙長度的頻譜態(tài)勢有關(guān),因此用頻設(shè)備k的狀態(tài)為sk,t=(vk,1,t-1,vk,2,t-1,…,vk, j,t-1,vk,1,t-2,vk,2,t-2,…,vk, j,t-2,vk,1,t-y,vk,2,t-y,…,vk, j,t-y),其中sk,t為t-1時隙到t-y時隙用頻設(shè)備k所在頻段的歷史頻譜態(tài)勢,因此sk,t為一個包含時域和頻域頻譜態(tài)勢信息的j×y的二維矩陣。狀態(tài)sk,t包括用頻設(shè)備k的可用頻點的頻譜態(tài)勢和兩側(cè)鄰頻點的頻譜態(tài)勢;t時隙用頻設(shè)備k的第j個頻點的頻譜態(tài)勢定義為vk, j,t,若感知到該頻點受到干擾,則vk, j,t=1,若感知到該頻點未受到干擾,則vk, j,t=0。
(2) 動作空間:用頻設(shè)備k在t時隙的動作為ak,t=(ak,2,t,ak,3,t,…,ak, j-1,t),其中第j-1個元素ak, j-1,t定義為一布爾型變量以表示用頻設(shè)備k是否接入第j-1個頻點,如果用頻設(shè)備k接入第j-1個頻點,則ak, j-1,t=1,否則ak, j-1,t=0。由于用頻設(shè)備k的可用頻點兩側(cè)各存在一個鄰頻點,因此用頻設(shè)備k的可選頻點范圍為[2,j-1]。
(3) 瞬時回報:用頻設(shè)備k的瞬時回報rk,t可以定義為t時隙用頻設(shè)備k是否接入未被干擾的頻點;在t時隙開始時,用頻設(shè)備k接入頻點,之后用頻設(shè)備感知該時隙可用頻點和鄰頻點的頻譜態(tài)勢,判斷用頻設(shè)備k是否成功接入未被干擾的頻點。雷達設(shè)備根據(jù)幅度值來獲得該頻點的頻譜態(tài)勢,若gk, j,t≤gt h,則該頻點未被干擾,反之gk, j,t≥gt h,則該頻點被干擾,其中g(shù)t h為被干擾門限[24]。通信用頻設(shè)備根據(jù)接收設(shè)備處是否能成功譯碼來判定用頻設(shè)備是否接入未被干擾的頻點。若用頻設(shè)備k接入頻譜態(tài)勢為vk, j,t=0的頻點,則rk,t=r1,用頻設(shè)備k接入頻譜態(tài)勢為vk, j,t=1的頻點,則rk,t=r2,其中r1和r2分別為用頻設(shè)備k成功接入未被干擾的頻點和未成功接入未被干擾的頻點的回報參數(shù)。
(4) 狀態(tài)轉(zhuǎn)移概率:當用頻設(shè)備k在t時隙的狀態(tài)sk,t下選取動作ak,t后獲得瞬時回報rk,t,狀態(tài)也由t時隙的sk,t轉(zhuǎn)移為t+1時隙的狀態(tài)sk,t+1,這個狀態(tài)轉(zhuǎn)移過程可以被條件概率P(sk,t+1,rk,t|sk,t,ak,t)所表示。用頻設(shè)備k所在的環(huán)境是動態(tài)未知的,因此用頻設(shè)備k不具有狀態(tài)轉(zhuǎn)移概率P(sk,t+1,rk,t|sk,t,ak,t)的先驗信息,而狀態(tài)轉(zhuǎn)移概率僅與外部環(huán)境有關(guān)。
在存在外部干擾的復雜電磁環(huán)境下,雷達通信一體化通信系統(tǒng)中用頻設(shè)備k旨在最大化累積折扣回報的期望,即最大化累積折扣用頻設(shè)備k接入未被干擾的頻點次數(shù)的期望:
(6)
式中,R為累積折扣回報的期望;λ為折扣系數(shù)。t時隙時,用頻設(shè)備k基于策略π來進行動作ak,t的選擇,其中策略π是一個從狀態(tài)空間S到動作空間A的映射,可以表示為π:sk,t∈S→ak,t∈A。因此,用頻設(shè)備k的目標為尋找滿足下述方程的最優(yōu)策略π*:
(7)
式中,Eπ(·)為對策略π的期望;Rπ為策略π下的累積折扣回報的期望。
在本節(jié)中,首先介紹基于Q學習的抗干擾頻點分配算法,使用Q學習在未知動態(tài)的系統(tǒng)中獲得最佳的頻點分配策略,以最大化累積折扣瞬時回報的期望。
當用頻設(shè)備在給定的狀態(tài)-動作對的情況下根據(jù)策略選取相應(yīng)的動作,狀態(tài)-動作值(Q值)被定義為累積折扣瞬時回報的期望。因此,在Q學習中的Q值為
(8)
將目標問題建模為馬爾可夫決策過程,而馬爾可夫決策過程的Q值滿足以下的bellman方程:
Qπ(sk,t,ak,t)=Eπ[r(sk,t,ak,t)+
(9)
式中,Eπ(·)是關(guān)于狀態(tài)轉(zhuǎn)移概率P(sk,t+1,rk,t|sk,t,ak,t)的期望。最優(yōu)的Q值為
(10)
當?shù)玫搅俗顑?yōu)的Q值后,最優(yōu)的策略為
(11)
也就是在最優(yōu)策略下選取的動作是為了最大化長期累積的回報。
為了避免陷入局部最優(yōu),用頻設(shè)備使用貪婪算法來選擇t時隙的動作ak,t,由于基于貪婪算法的動作選擇策略會出現(xiàn)重復選擇被干擾頻點的問題,因此對貪婪算法進行了如下的改進。若狀態(tài)動作對(s,a)在之前的時隙被訪問,則將狀態(tài)動作(s,a)添加到集合M中,即(s,a)∈M。在t時隙時,用頻設(shè)備以概率1-ε隨機選取一個動作ak,t,若(sk,t,ak,t)?M,則用頻設(shè)備選擇隨機動作作為本時隙接入的頻點,若(sk,t,ak,t)∈M,則根據(jù)Q表選取當前狀態(tài)sk,t下,選擇Q值最大的動作作為本時隙接入的頻點?;蛘哂妙l設(shè)備以概率ε根據(jù)Q表選取當前狀態(tài)sk,t下,Q值最大的動作作為本時隙接入的頻點。動作ak,t的選取如下:
(12)
同時,若用頻設(shè)備k所在簇內(nèi)存在兩個及以上的用頻設(shè)備時(即不同用頻設(shè)備的可用頻點有重合),簇內(nèi)的簇頭將優(yōu)先為雷達用頻設(shè)備分配頻點。
用頻設(shè)備k在t時隙接入動作ak,t選擇的頻點后,根據(jù)當前時隙的可用頻點的頻譜態(tài)勢(vk,1,t,…,vk, j,t),判斷當前時隙用頻設(shè)備k是否成功接入未被干擾的頻點,即用頻設(shè)備k的瞬時回報rk,t。之后用頻設(shè)備k在t+1時隙對本地的Q表進行更新,更新公式為
Qk,t+1(sk,t,ak,t)=(1-α)Qk,t(sk,t,ak,t)+
(13)
式中,t+1時隙用頻設(shè)備k的狀態(tài)sk,t+1=(vk,1,t,vk,2,t,…,vk, j,t,vk,1,t-1,vk,2,t-1,…,vk, j,t-1,vk,1,t+1-y,vk,2,t+1-y,…,vk, j,t+1-y);α為學習速率;λ為折扣系數(shù)。用頻設(shè)備通過不斷的訓練來得到最優(yōu)的策略,基于Q學習的抗干擾頻點分配算法流程如下所示。
算法1基于Q學習的抗干擾頻點分配算法輸入:表Qk,t(s,a),用頻設(shè)備數(shù)目K和時隙t;對任意用戶k=1,2,…,K執(zhí)行:步驟 1 用頻設(shè)備根據(jù)改進的貪婪算法選擇本時隙的動作ak,t;步驟 2 用頻設(shè)備k在接入選擇的頻點后,感知可用頻段并獲得當前時隙的頻譜態(tài)勢,之后獲得回報rk,t;步驟 3 t+1時隙用頻設(shè)備k根據(jù)式(13)對本地Q表進行更新輸出:動作ak,t和Q表Qk,t+1(s,a)。
在第2.1節(jié)中介紹了基于Q學習的抗干擾頻點分配算法,該算法通過找到最優(yōu)策略來最大化長期折扣回報。大多數(shù)情況下,用頻設(shè)備的狀態(tài)空間和動作空間的維度隨可用頻點數(shù)呈指數(shù)型增長,基于Q學習的抗干擾頻點分配算法在面對上述問題時會陷入維度詛咒從而導致收斂時間過長等問題。
因此,當用頻設(shè)備的可用頻點數(shù)較大時,用頻設(shè)備的狀態(tài)空間和動作空間的維度過大,導致算法難以收斂。為了避免上述問題,在本節(jié)中使用基于核函數(shù)的方法來解決。使用非參數(shù)線性近似對狀態(tài)-動作值函數(shù)進行建模:
Qk,t(sk,t,ak,t)=
(14)
(15)
同樣的,為了避免陷入局部最優(yōu),用頻設(shè)備使用第2.1節(jié)所述的貪婪算法來選擇t時隙的動作ak,t。在t時隙時,用頻設(shè)備以概率1-ε隨機選取一個動作ak,t,若(sk,t,ak,t)?M,則用頻設(shè)備選擇隨機動作作為本時隙接入的頻點,若(sk,t,ak,t)∈M,則根據(jù)字典Dk,t選取當前狀態(tài)sk,t下,Q值最大的動作作為本時隙接入的頻點。或者用頻設(shè)備以概率ε根據(jù)字典Dk,t選取當前狀態(tài)sk,t下,Q值最大的動作作為本時隙接入的頻點。動作ak,t的選取如下:
(16)
(17)
若用頻設(shè)備k所在簇內(nèi)存在兩個及以上的用頻設(shè)備時(即不同用頻設(shè)備的可用頻點有重合),簇內(nèi)的簇頭將優(yōu)先為雷達用頻設(shè)備分配頻點。
同樣的,用頻設(shè)備k在t時隙接入動作ak,t選擇的頻點后,感知當前時隙的可用頻點的頻譜態(tài)勢(vk,1,t,vk,2,t,…,vk, j,t),判斷當前時隙用頻設(shè)備k是否成功接入未被干擾的頻點,即用頻設(shè)備k的瞬時回報rk,t,之后用頻設(shè)備k更新本地字典Dk,t。字典Dk,t的更新分為兩部分,即更新字典中存儲的特征對應(yīng)的權(quán)重系數(shù)和判斷當前特征是否需要加入字典。
在用頻設(shè)備k獲得的當前時隙的可用頻點的頻譜態(tài)勢(vk,1,t,vk,2,t,…,vk, j,t)和瞬時回報rk,t后,用頻設(shè)備對字典中對應(yīng)特征的權(quán)重系數(shù)進行更新如下:
(18)
式中,αk,t=[αk,t,l];αk,t+1=[αk,t+1,l];λ為折扣系數(shù);γ為學習速率。
由于使用非參數(shù)線性近似對狀態(tài)-動作值函數(shù)進行建模,如式(14)所示,字典Dk,t中的特征數(shù)目隨著時間的增加而增加,增加了算法計算的復雜度。因此,在不丟失重要信息的情況下控制字典Dk,t中的特征數(shù)目是至關(guān)重要的。在本節(jié)中使用了基于近似線性相關(guān)性(approximate linear dependence,ALD)分析的在線內(nèi)核稀疏化方法[26],用于用頻設(shè)備k判斷t時隙的數(shù)據(jù)樣本的特征(sk,t,ak,t)是否需要加入字典Dk,t。
(19)
式中,α=[αk,t,l];μ為確定近似精度的參數(shù)。因此,合適的μ值可以在合理的近似精度范圍內(nèi),確?;诤撕瘮?shù)抗干擾頻點分配算法的稀疏性。在內(nèi)核矩陣
被定義之后,式(19)中的δt[27]為
δt=k((sk,t,i,ak,t,i),(sk,t,i,ak,t,i))-
(20)
因此,可以將δt與預設(shè)的精度閾值μ進行比較來更新字典,若δt≤μ,則字典不變,否則,將數(shù)據(jù)樣本特征添加到字典中?;贏LD的在線稀疏化方法的流程如下所示。
算法 2 基于ALD的在線稀疏化方法輸入;數(shù)據(jù)樣本特征(sk,t,ak,t),字典Dk,t和近似精度閾值μ; 計算δt: δt=k((sk,t,i,ak,t,i),(sk,t,i,ak,t,i))- kTk,t(sk,t,i,ak,t,i)Kk,tkk,t(sk,t,i,ak,t,i) if δt≤μ: Dk,t+1=Dk,t; else Dk,t+1=Dk,t ∪ (sk,t,ak,t);輸出:字典Dk,t+1。
通過上述的基于ALD的在線內(nèi)核稀疏化方法,可以大幅降低基于核函數(shù)算法的計算復雜度和字典存儲成本,提高算法性能。
用頻設(shè)備在每個時隙t開始時分配一個頻點,不同用頻設(shè)備使用不同頻點。同時,用頻設(shè)備開始學習外部干擾源的干擾規(guī)律,至用頻設(shè)備處的頻點分配算法收斂;若在算法收斂之后,當前頻段干擾發(fā)生變化用頻設(shè)備繼續(xù)按照之前的頻點分配策略選擇頻點,進而用頻設(shè)備得到接入被干擾的頻點時的瞬時回報,這時啟動頻點分配算法重新進行學習,至用頻設(shè)備處的頻點分配算法重新收斂?;诤撕瘮?shù)強化學習的抗干擾雷達-通信頻譜協(xié)同算法的流程如下所示。
算法 3 基于核函數(shù)強化學習的抗干擾雷達通信頻譜協(xié)同算法輸入:字典Dk,t,權(quán)重系數(shù)αk,t,時隙t和用頻設(shè)備數(shù)目K;步驟 1 對任意用戶k=1,2,…,K執(zhí)行:步驟 1.1 用頻設(shè)備根據(jù)改進的貪婪算法選擇本時隙的動作ak,t;步驟 1.2 用頻設(shè)備k在接入選擇的頻點后,感知可用頻段并獲得當前時隙的頻譜態(tài)勢,之后獲得回報rk,t;步驟 1.3 根據(jù)下式對字典Dk,t中存儲特征的權(quán)重系數(shù)進行更新: αk,t+1=αk,t+γ(λmaxa{αTk,tk(sk,t+1,a)} -αTk,tk(sk,t,ak,t)+rk,t)k(sk,t,ak,t)步驟 2 用頻設(shè)備k基于ALD的在線稀疏化方法對字典進行更新;輸出:動作ak,t,字典Dk,t+1和權(quán)重系數(shù)αk,t+1。
在本節(jié)中,通過仿真測試的方式,將提出的基于核函數(shù)強化學習的抗干擾雷達-通信頻譜協(xié)同算法與傳統(tǒng)的基于Q學習的抗干擾頻點分配算法進行對比評估。
基于第2節(jié)建立的系統(tǒng)模型,設(shè)定存在外部干擾的雷達通信一體化系統(tǒng)中共有K=5個用頻設(shè)備,用頻設(shè)備包括4個通信用頻設(shè)備和1個雷達用頻設(shè)備,第k=3個用頻設(shè)備為雷達用頻設(shè)備;雷達通信一體化系統(tǒng)中共有I=35個可用頻點,每個可用頻點帶寬為1 MHz,各個用頻設(shè)備可用頻段中可用頻點的數(shù)量為I5={4,6,6,4,4},其中雷達用頻設(shè)備(k=3)和通信用頻設(shè)備(k=2)之間的可用頻段存在重疊的部分,而其他用頻設(shè)備的可用頻段之間不存在重疊的部分;各個用頻設(shè)備可用頻段內(nèi)單個頻點的帶寬Bk={1 MHz, 1 MHz, 2 MHz, 1 MHz, 1 MHz},即用頻設(shè)備3的可用帶寬為12 MHz,其中包括6個帶寬為2 MHz的可用頻點。對于上述系統(tǒng)模型,可以得到各個用頻設(shè)備的可用頻段以及鄰頻點起始的頻點號為{1, 7, 11, 25, 30}。同時,用頻設(shè)備2的3個可用頻點和1個鄰頻點與用頻設(shè)備3的1個可用頻點和1個鄰頻點重疊,如圖5所示。噪聲功率譜密度為-103 dBm,通信用頻設(shè)備接收端噪聲功率與信號功率的比值為1.5,單個時隙長度為T=0.1 s。
圖5 可用頻段示意圖Fig.5 Diagram of available frequency band
雷達通信一體化系統(tǒng)中存在U=1個對用頻設(shè)備未知的外部干擾源,外部干擾源對所有可用頻點進行掃頻干擾,干擾圖樣1和干擾圖樣2如圖6和圖7所示?;诤撕瘮?shù)強化學習算法的相關(guān)參數(shù)如表1所示。
圖6 干擾圖樣1Fig.6 Interference pattern 1
圖7 干擾圖樣2Fig.7 Interference pattern 2
表1 參數(shù)列表
首先,將所提出的基于核函數(shù)強化學習的抗干擾雷達-通信頻譜協(xié)同算法與傳統(tǒng)的基于Q學習的抗干擾頻點分配算法進行性能對比。圖8為基于不同算法的用頻設(shè)備每個時隙接入被干擾的頻點的次數(shù)。從圖8(a)可以看出,在第25個時隙附近用頻設(shè)備可以完全避開外部干擾。從圖8(b)可以看出,在第180個時隙附近用頻設(shè)備可以完全避開外部干擾。因此,在上述所述的仿真場景中,所提算法通過學習可以更快地避開外部干擾,接入未被干擾的頻點。
圖8 用頻設(shè)備接入被干擾的頻點的次數(shù)Fig.8 Number of times the frequency equipment is connected to the interfered frequency point
之后對所提出算法和基于Q學習算法收斂情況進行了分析對比,如圖9~圖13所示,分別為基于兩種算法的用頻設(shè)備1~用頻設(shè)備5的收斂情況??梢钥闯?所提出算法可以在20個時隙左右收斂,基于Q學習算法在400個時隙左右收斂,因此所提算法較基于Q學習算法可以在更短的時間內(nèi)收斂至穩(wěn)定。
圖9 用頻設(shè)備1基于兩種算法的收斂情況Fig.9 Convergence of the two algorithms for frequency equipment 1
圖10 用頻設(shè)備2基于兩種算法的收斂情況Fig.10 Convergence of frequency equipment 2 based on two algorithms
圖11 用頻設(shè)備3基于兩種算法的收斂情況Fig.11 Convergence of frequency equipment 3 based on two algorithms
圖12 用頻設(shè)備4基于兩種算法的收斂情況Fig.12 Convergence of frequency equipment 4 based on two algorithms
圖13 用頻設(shè)備5基于兩種算法的收斂情況Fig.13 Convergence of frequency equipment 5 based on two algorithms
圖14和圖15對基于核函數(shù)強化學習的抗干擾雷達-通信頻譜協(xié)同算法每時隙頻點接入情況進行了分析。從圖14中可以看出,在最初的是10時隙中,用頻設(shè)備存在接入被干擾的頻點的情況;而從圖15中可以看出,當所提出的算法收斂后,可以在每個時隙避開外部的惡意干擾,并接入未被干擾的頻點。最后,對所提算法在存在不同干擾圖樣的情況下進行仿真分析。在前600個時隙內(nèi),外部干擾源選擇如圖6所示的干擾圖樣1對可用頻段進行干擾,在第600個時隙時外部干擾源更換干擾圖樣,根據(jù)如圖7所示的干擾圖樣2對可用頻段進行干擾。
圖14 所提算法收斂前每時隙頻點接入情況Fig.14 Frequency access per slot before convergence of the proposed algorithm
圖15 所提算法收斂后每時隙頻點接入情況Fig.15 Frequency access per slot after convergence of the proposed algorithm
圖16和圖17對基于核函數(shù)強化學習的抗干擾雷達-通信頻譜協(xié)同算法在干擾圖樣變化前后每時隙頻點接入情況進行了分析。從圖16和圖17中可以看出,在外部干擾發(fā)生變化的前后,用頻設(shè)備均可以接入未被干擾的頻點。圖18為基于所提出算法的用頻設(shè)備每個時隙接入被干擾的頻點的次數(shù)。由圖16和圖17可知,外部干擾源在第600個時隙的干擾模式由干擾圖樣1變更為干擾圖樣2,因此從圖18中可以看出,在干擾模式變換后用頻設(shè)備重新對干擾圖樣進行學習,并且所提出的算法可以快速收斂,因此用頻設(shè)備可以快速避開外部干擾,接入未被干擾的頻點。
圖16 所提算法在干擾變化前每時隙頻點接入情況Fig.16 Frequency point access of each time slot before interference changes in the proposed algorithm
圖17 所提算法在干擾變化后每時隙頻點接入情況Fig.17 Frequency point access of each time slot after interference changes in the proposed algorithm
圖18 用頻設(shè)備接入被干擾頻點的次數(shù)Fig.18 Number of times for the user accesses the interfered frequency point
針對存在未知干擾源的系統(tǒng),對雷達通信一體化系統(tǒng)的抗干擾頻譜協(xié)作問題進行探索與研究,旨在最大化用頻設(shè)備接入未被干擾頻點的期望。通過與基于Q學習的抗干擾頻點分配算法的仿真結(jié)果進行對比,所提算法通過基于核函數(shù)的方法和基于近似線性相關(guān)性分析的在線內(nèi)核稀疏化方法,共同降低了所提算法的收斂時間,同時避免出現(xiàn)維度詛咒等問題。所提算法可以在較短時間內(nèi)收斂,同時快速規(guī)避外部未知干擾源的干擾,并在外部干擾源干擾圖樣發(fā)生變化時,重新對外部干擾源進行學習。所提算法實現(xiàn)了在干擾源未知的情況下,用頻設(shè)備對外部干擾的規(guī)避和干擾規(guī)律的學習。