趙知勁 朱家晟 葉學(xué)義 尚俊娜
①(中國電子科技集團第 36研究所通信系統(tǒng)信息控制技術(shù)國家級重點實驗室 嘉興 314001)
②(杭州電子科技大學(xué)通信工程學(xué)院 杭州 310018)
為構(gòu)建更穩(wěn)定、高效的無線通信系統(tǒng),抗干擾技術(shù)的重要性日益突出。跳頻通信技術(shù)具有抗傳統(tǒng)干擾能力較強、難以截獲和易組網(wǎng)的特點,基于其建立的跳頻通信網(wǎng)廣泛應(yīng)用于通信領(lǐng)域[1]。隨著無線設(shè)備不斷增加,干擾技術(shù)逐漸智能化,跳頻網(wǎng)絡(luò)工作的電磁環(huán)境變得越來越復(fù)雜,需要大量頻譜資源支持的傳統(tǒng)抗干擾技術(shù)已無法滿足需求。而智能抗干擾技術(shù)由于具有更強的靈活性和抗干擾性能,已逐漸受到關(guān)注。
通信設(shè)備的網(wǎng)絡(luò)化運用不僅可以提升系統(tǒng)信息傳遞速率,其抗偵察、抗截獲和抗干擾能力也明顯優(yōu)于點對點通信[2]。跳頻組網(wǎng)通信中需要同時應(yīng)對同頻干擾、敵意干擾和自然干擾。傳統(tǒng)的降低同頻干擾的方法主要有增加頻帶寬度、跳頻頻點數(shù)、設(shè)計相關(guān)性好的跳頻序列等。文獻[3]分別從技術(shù)和策略上研究了跳頻組網(wǎng)抗干擾技術(shù),其使用了加密的寬間隔跳頻圖案,并以節(jié)點慢速跳頻掃描跟蹤和多頻點輪流發(fā)送同步信息的方式改進了組網(wǎng)的同步過程,提高了同步過程的抗干擾性能。文獻[4]基于網(wǎng)絡(luò)拓撲抽象出基本組網(wǎng)場景,并構(gòu)建頻率規(guī)劃求解模型,提高了具有多節(jié)點、多子網(wǎng)、多頻表的網(wǎng)絡(luò)的資源協(xié)同規(guī)劃效率。文獻[5]提出了一種基于碰撞跳頻碼一致的同頻干擾消除方案,通過在碰撞頻點上傳輸空碼元避免頻率碰撞,提高跳頻組網(wǎng)效率。文獻[6]提出了一種認知無線Ad-hoc網(wǎng)絡(luò)中的頻段動態(tài)管理方法,其中節(jié)點僅在感知到目標(biāo)頻段空閑時才進行頻率跳變并提出了無碰撞下一頻率可用性指示(Next Frequency Availability Indication,NFAI)方法使節(jié)點間共享感知結(jié)果,減少服務(wù)中斷時間。然而,復(fù)雜的電磁環(huán)境、稀缺的頻譜資源和激增的設(shè)備數(shù)量導(dǎo)致傳統(tǒng)抗干擾技術(shù)在跳頻組網(wǎng)中難以發(fā)揮作用。并且,目前幾乎沒有關(guān)于同時對抗同頻干擾和敵意干擾的研究。對此,文獻[7]提出了根據(jù)干擾因素調(diào)整通信參數(shù)的智能組網(wǎng)技術(shù),能最優(yōu)化通信資源,提升系統(tǒng)抗干擾能力。
跳頻組網(wǎng)中的智能抗干擾決策涉及多個用戶,是典型的多智能體系統(tǒng)。其中,每個用戶的決策都將影響環(huán)境和其他用戶的決策,這造成了環(huán)境的非平穩(wěn)性[8]。而強化學(xué)習(xí)是解決動態(tài)和未知環(huán)境中智能決策問題的有效方法[9]。多智能體強化學(xué)習(xí)則將上述兩個方面結(jié)合起來,是強化學(xué)習(xí)中的重要分支。目前多智能體強化學(xué)習(xí)的主要問題包括智能體的差異性和協(xié)調(diào)合作、環(huán)境非平穩(wěn)性、獎勵機制復(fù)雜、算法效率較低等。針對智能體差異和協(xié)調(diào)的問題,文獻[10]針對分布式認知無線電網(wǎng)絡(luò)中信道和功率分配問題提出了一種合作Q學(xué)習(xí)(Q-Learning,QL)算法,使各Agent在學(xué)習(xí)過程中融合其他具有更高獎賞值的Agent的Q值來獲取學(xué)習(xí)經(jīng)驗,減少不必要的探索,該算法較單Agent的 QL算法有更高的學(xué)習(xí)速率和系統(tǒng)性能。文獻[11]研究了具有多個主用戶、次用戶和信道的認知無線電網(wǎng)絡(luò)中的動態(tài)資源管理問題,使用多個獨立的深度Q網(wǎng)絡(luò)(Deep Q Network, DQN)學(xué)習(xí)非平穩(wěn)性環(huán)境,實現(xiàn)頻譜資源分配。文獻[12]則研究了系統(tǒng)的獎勵機制,設(shè)計了包含合作和競爭因素的獎勵函數(shù)及分配策略,并使用共享經(jīng)驗池,從而提出了基于多智能體虛擬體驗的深度Q學(xué)習(xí)(Multi-agent Virtual Exploration in Deep Q-Learning, MVEDQL)算法,實現(xiàn)了Agent之間的協(xié)調(diào)和相互學(xué)習(xí)。文獻[13]將空戰(zhàn)仿真中計算機生成兵力智能化問題建模為兩人零和博弈問題,設(shè)計了一種基于勢函數(shù)的獎勵成型方法,從而提出了一種帶獎賞形成機制的深度確定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient with Reward Shaping, RS-MADDPG)算法,有效提升了空戰(zhàn)策略生成算法的有效性和生成策略的智能化水平。
本文研究復(fù)雜電磁環(huán)境下跳頻異步組網(wǎng)中的抗干擾問題,首次應(yīng)用多智能體深度強化學(xué)習(xí)算法進行各子網(wǎng)參數(shù)智能決策,實現(xiàn)避免同頻干擾和對抗敵意干擾的目的,從而提出了基于集中式訓(xùn)練和分散式執(zhí)行框架的多智能體模糊深度強化學(xué)習(xí)(Multiagent Fuzzy Deep Reinforcement Learning based on Centralized Training and Decentralized Execution, MFDRL-CTDE)算法。針對多智能體系統(tǒng)中各Agent相互影響和環(huán)境不穩(wěn)定的問題,將集中式訓(xùn)練分散式執(zhí)行框架以及共享經(jīng)驗池引入多智能體深度強化學(xué)習(xí)中。針對Agent的差異性和協(xié)調(diào)合作問題,本文提出了基于模糊推理系統(tǒng)的融合權(quán)重分配策略,采用模糊推理系統(tǒng)以Agent獲得的累計平均獎賞和樣本優(yōu)先度為標(biāo)準(zhǔn)估計各網(wǎng)絡(luò)性能并分配權(quán)重用于網(wǎng)絡(luò)融合,使性能好的Agent能做出更大的貢獻,從而提高算法性能。最后,本文采用了Dueling DQN算法和優(yōu)先經(jīng)驗回放技術(shù)以進一步提高算法的效率。該算法在跳頻異步組網(wǎng)智能抗干擾決策問題中具有更快的收斂速度和更高、更穩(wěn)定的收斂性能,并且對多變的復(fù)雜電磁環(huán)境具有更好的適應(yīng)性。
跳頻通信網(wǎng)是通過頻率跳變方式將相當(dāng)寬的頻帶內(nèi)的大量用戶組建成的通信網(wǎng),實現(xiàn)網(wǎng)內(nèi)任意用戶間的通信。跳頻組網(wǎng)通信中的抗干擾主要分為對抗自然干擾和敵意干擾、減小不同子網(wǎng)間和同一子網(wǎng)內(nèi)節(jié)點間的同頻干擾[5]。
跳頻組網(wǎng)根據(jù)網(wǎng)絡(luò)是否采用完全統(tǒng)一的時間基準(zhǔn)可分為同步組網(wǎng)方式和異步組網(wǎng)方式。同步組網(wǎng)中各個子網(wǎng)采用相同的跳頻技術(shù)體制和跳頻圖案算法,且工作在同一張?zhí)l頻率表上,其每一跳的起跳時間和駐留時間完全一致。因此,同步組網(wǎng)方式的效率很高,不存在同頻干擾[14],但是對同步性能要求很高,實現(xiàn)困難,建網(wǎng)速度慢,復(fù)雜度高,難以保持,并且抗阻塞干擾能力差。異步組網(wǎng)對各子網(wǎng)之間跳頻時序、跳頻圖案和頻率表等方面沒有約束,各子網(wǎng)之間不需要同步,而子網(wǎng)內(nèi)各節(jié)點需要同步[15]。異步組網(wǎng)方式組織使用方便、靈活,是目前最常用的組網(wǎng)方式,但是組網(wǎng)效率較低,抗偵察能力較差,存在一定程度的同頻干擾,并且隨著節(jié)點數(shù)量的增加和頻譜資源的日益稀缺,同頻干擾的影響會越來越大。為盡量避免同頻干擾,異步組網(wǎng)方式需要更高效、更智能的頻譜資源分配方式。
本文的跳頻網(wǎng)絡(luò)中,對于同一子網(wǎng)內(nèi)的節(jié)點采用時分多址復(fù)用技術(shù)[3],各節(jié)點使用相同的跳頻圖案分時隙地發(fā)送數(shù)據(jù),從而避免網(wǎng)內(nèi)同頻干擾。各子網(wǎng)之間則采用異步組網(wǎng)方式,通過智能規(guī)劃頻譜資源,盡量避免網(wǎng)間同頻干擾并應(yīng)對敵意干擾。
強化學(xué)習(xí)以其免模型和與環(huán)境交互的特點能有效地解決各種復(fù)雜環(huán)境中的智能決策問題。馬爾可夫決策過程(Markov Decision Process, MDP)是單智能體強化學(xué)習(xí)方法的基礎(chǔ)理論,其描述了單智能體在決策問題中狀態(tài)-動作空間、觀測、獎賞、狀態(tài)轉(zhuǎn)移函數(shù)等因素。但是在多智能體系統(tǒng)中有多個智能體同時與環(huán)境交互,單個智能體往往無法完整地觀測整個環(huán)境,且其動作將影響環(huán)境和其他智能體,故無法通過MDP完善地描述該系統(tǒng),進而導(dǎo)致單智能體強化學(xué)習(xí)方法在多智能體系統(tǒng)中的決策效果有限。為了獲得更大的獎賞,每個智能體都需要學(xué)習(xí)環(huán)境和其他智能體的動作策略。
根據(jù)2.1節(jié)所述,本文將使用多智能體深度強化學(xué)習(xí)方法為跳頻異步組網(wǎng)提供更智能的頻譜資源分配方式,智能對抗同頻干擾和敵意干擾,提高網(wǎng)絡(luò)通信質(zhì)量。定義該馬爾可夫博弈模型中的狀態(tài)空間由智能體的功率P和信源速率B構(gòu)成,則狀態(tài)集
在多智能體深度強化學(xué)習(xí)中,各智能體的值函數(shù)是由所有智能體的狀態(tài)和動作決定的,這導(dǎo)致單智能體強化學(xué)習(xí)算法直接應(yīng)用于多智能體系統(tǒng)時效果不佳。在多智能體系統(tǒng)中,智能體在執(zhí)行時往往無法完整得到環(huán)境中隱藏信息,但是這些信息在訓(xùn)練時很容易獲得。因此,僅在訓(xùn)練時有效地利用這些額外信息將能幫助智能體加速學(xué)習(xí)[18]。
基于CTDE框架和共享經(jīng)驗池,本文提出如圖1所示的多智能體系統(tǒng)模型,其中共享經(jīng)驗池(shared experience pool)用于使智能體之間能互相利用經(jīng)驗,進行信息交流。
圖1 具有CTDE框架和共享經(jīng)驗池的多智能體系統(tǒng)模型
DQN是最常用的深度強化學(xué)習(xí)方法,但是在多智能體系統(tǒng)中,由于環(huán)境復(fù)雜且智能體之間可能的狀態(tài)、動作組合過多,其過大的狀態(tài)-動作空間將降低DQN的效率。
對此,本文采用競爭性DQN(Dueling Deep Q Network, Dueling DQN)作為網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)。Dueling DQN是一種常用的DQN改進方法,其通過改進Q網(wǎng)絡(luò)結(jié)構(gòu)就能簡單而有效地提升學(xué)習(xí)效率。在智能體學(xué)習(xí)過程中,某些狀態(tài)下采取任何動作對后續(xù)狀態(tài)都沒有大的影響,對此可以通過分離狀態(tài)和動作的價值來提升效率,Dueling DQN正是基于該思想創(chuàng)建的。如圖2所示[19],Dueling DQN將Q網(wǎng)絡(luò)最后一層拆分為狀態(tài)值流和動作優(yōu)勢流,從而將每個動作的Q值變?yōu)闋顟B(tài)價值和動作優(yōu)勢值之和。
圖2 Dueling DQN網(wǎng)絡(luò)結(jié)構(gòu)示意圖
為防止在狀態(tài)價值函數(shù)為0,動作優(yōu)勢函數(shù)等于Q值的訓(xùn)練結(jié)果出現(xiàn),通常采用式(5)[19]所示的形式,將單個動作優(yōu)勢函數(shù)值減去所有動作優(yōu)勢函數(shù)值的平均值。該方式可以在保證各動作的優(yōu)勢函數(shù)相對排序不變的同時縮小Q值的范圍,去除多余的自由度,提高算法穩(wěn)定性
本文模型中,集中式目標(biāo)Q網(wǎng)絡(luò)的更新依賴所有智能體的估值Q網(wǎng)絡(luò)及其融合權(quán)重。但考慮到各個智能體之間的競爭、協(xié)作關(guān)系及其差異,權(quán)重分配一直是多智能體深度強化學(xué)習(xí)的難點,因此,本文提出基于模糊推理系統(tǒng)的融合權(quán)重分配機制,以模擬網(wǎng)絡(luò)優(yōu)越性與融合權(quán)重的映射關(guān)系,從而使得性能優(yōu)越的網(wǎng)絡(luò)在集中式目標(biāo)Q網(wǎng)絡(luò)的更新中發(fā)揮更大的作用,提高算法整體的效率。
模糊推理系統(tǒng)(Fuzzy Inference System, FIS)能通過簡單有效的推理從復(fù)雜信息中推導(dǎo)出結(jié)論[20],打破了經(jīng)典集合定義中絕對隸屬的概念,是一種強大的非線性問題處理技術(shù)。FIS由模糊化、模糊規(guī)則庫、模糊規(guī)則推理和去模糊化等部分組成。對于輸入狀態(tài),F(xiàn)IS先通過隸屬度函數(shù)進行模糊化,再經(jīng)過模糊規(guī)則推理得到其對各輸出狀態(tài)隸屬度,最后通過去模糊化確定輸出。
如圖3所示,系統(tǒng)輸入變量隸屬度函數(shù)均采用最常用的三角隸屬度函數(shù)[20]。系統(tǒng)輸出變量去模糊化過程采用質(zhì)心解模糊法,求取陰影部分質(zhì)心,其橫坐標(biāo)即為系統(tǒng)輸出的融合權(quán)重。
圖3 隸屬度函數(shù)及質(zhì)心解模糊法示意圖
表1 模糊規(guī)則定義
常用的基于ε-greedy機制的動作選擇策略的參數(shù)ε是固定的或隨迭代次數(shù)線性下降的,在迭代中后期智能體仍有一定概率選擇隨機動作并執(zhí)行,這將導(dǎo)致算法難以收斂。對此,本文引入非線性因素,采用如式(13)所示的動作選擇策略
多智能體深度強化學(xué)習(xí)算法的復(fù)雜度與狀態(tài)-動作空間、Q網(wǎng)絡(luò)的復(fù)雜度和智能體數(shù)量直接相關(guān)[21],即取決于參與決策的智能體數(shù)量,決策過程中狀態(tài)空間、動作空間的維度和Q網(wǎng)絡(luò)的規(guī)模。因此,在解決相同智能決策問題時,本文該部分的復(fù)雜度與其他多智能體深度強化學(xué)習(xí)算法的相同。
因此,本文算法的復(fù)雜度將略高于其他多智能體深度強化學(xué)習(xí)算法。
綜上所述,本文所提MFDRL-CTDE算法的具體步驟如下:算融合權(quán)重并按式(11)進行歸一化,由式(12)更新集中式目標(biāo)Q網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)。
仿真中各項參數(shù)設(shè)置如下:子網(wǎng)數(shù)量為4,總帶寬W為200 MHz,用戶傳輸功率為150~250 mW,信源速率為5~15 Mbps,高斯白噪聲功率n0=10-7mW,可選跳速集合為[500, 1000, 2000,4000] hop/s,可選跳頻序列共8種,信道劃分間隔為1~10 MHz。算法經(jīng)驗池容量Ng=2000,每次經(jīng)驗回放采樣樣本數(shù)量M=50,網(wǎng)絡(luò)學(xué)習(xí)速率lr=0.00005,集中式目標(biāo)Q網(wǎng)絡(luò)更新周期Ttar=50,總訓(xùn)練回合數(shù)T=250,折扣因子γ=0.9,參數(shù)α=0.6,β=0.4, λ=40。下文4.1節(jié)和4.2節(jié)的仿真結(jié)果均在如圖4所示的未來短時間內(nèi)的干擾環(huán)境頻譜瀑布中獲得,頻譜瀑布表達了各種干擾的功率、干擾頻段隨時間的變化情況,該環(huán)境中包含寬帶干擾、窄帶干擾、掃頻干擾和高斯白噪聲,其中各種干擾的數(shù)量、功率、頻段等參數(shù)均為在一定范圍內(nèi)隨機產(chǎn)生的,顏色越深表示干擾功率越大,單位時間間隔為最大跳速對應(yīng)跳頻周期,單位為mW[22]。
圖4 干擾環(huán)境頻譜瀑布圖
分別使用MFDRL-CTDE算法、IDQN算法[11]、MVEDQL算法[12],不具有Dueling DQN和優(yōu)先經(jīng)驗回放的本文算法(以下簡稱MFDRL-CTDE-1)以及各智能體使用相同融合權(quán)重的本文算法(以下簡稱MDRL-CTDE)在相同的干擾環(huán)境下進行智能抗干擾決策,得到各算法的系統(tǒng)平均能量效率隨訓(xùn)練回合數(shù)變化的曲線,經(jīng)平滑處理后其結(jié)果如圖5(a)所示。
由圖5(a)可得如下結(jié)論:(1)本文算法最優(yōu),其收斂速度快,收斂后的最佳性能明顯高于對比算法,且性能的波動較小。(2)MVEDQL算法雖然初期收斂速度更快,但隨后性能提升較慢,效率較低。這說明MFDRL-CTDE算法中的CTDE框架較MVEDQL算法的共享經(jīng)驗池能使多智能體系統(tǒng)更有效地收集、交流和利用額外信息,幫助算法突破局部最優(yōu)解。(3)缺乏智能體交流機制的IDQN算法則收斂緩慢且性能波動較大。(4)使用了固定等值融合權(quán)重的MDRL-CTDE算法的收斂速度則慢于MFDRL-CTDE算法和MFDRL-CTDE-1算法且收斂后性能波動更大。這是因為基于模糊推理系統(tǒng)的融合權(quán)重分配策略能使性能好的網(wǎng)絡(luò)在網(wǎng)絡(luò)參數(shù)融合過程中發(fā)揮更大的作用,減少性能差的網(wǎng)絡(luò)帶來的影響,有效提升了網(wǎng)絡(luò)融合效率和系統(tǒng)在高動態(tài)環(huán)境中的穩(wěn)定性。(5)MFDRL-CTDE-1算法的收斂速度比MFDRL-CTDE算法快,但能達到的最佳性能低于后者,且波動較大。因為在學(xué)習(xí)初期,網(wǎng)絡(luò)對聯(lián)合值函數(shù)的擬合性能較差。此時,PER的經(jīng)驗篩選比傳統(tǒng)經(jīng)驗回放技術(shù)更注重網(wǎng)絡(luò)預(yù)測精度的提升,這可能造成短暫的性能下降;而Dueling DQN的狀態(tài)值與動作優(yōu)勢值分離的策略難以發(fā)揮效果。隨著網(wǎng)絡(luò)擬合性能的提升,PER的經(jīng)驗篩選和Dueling DQN的優(yōu)勢逐漸體現(xiàn),在加速MFDRLCTDE算法收斂的同時能避免回放劣質(zhì)樣本和值函數(shù)大幅更新造成的算法性能波動,從而提高了算法收斂后的穩(wěn)定性。
圖5 各算法性能比較圖
為驗證本文算法在不同子網(wǎng)飽和程度下的性能,當(dāng)子網(wǎng)數(shù)量為3~7時,分別使用MFDRLCTDE算法、IDQN算法[11]、MVEDQL算法[12]在相同的干擾環(huán)境下進行智能抗干擾決策,其系統(tǒng)平均能量效率曲線如圖5(b)所示。
由圖5(b)可知,本文算法在各子網(wǎng)數(shù)量下的性能都優(yōu)于對比算法。本文算法在子網(wǎng)數(shù)量較少和適中時,性能明顯優(yōu)于對比算法;隨著子網(wǎng)數(shù)量的增加,系統(tǒng)逐漸趨近飽和狀態(tài),資源逐漸緊張,環(huán)境復(fù)雜度和不穩(wěn)定性加強,智能抗干擾決策的難度提升,因此,本文算法性能逐漸下降,相較對比算法的優(yōu)勢有所減小。
隨機改變寬帶干擾、窄帶干擾和掃頻干擾的功率、干擾頻段及數(shù)量,得到3種干擾環(huán)境頻譜瀑布,如圖6(a)–圖6(c)所示。分別使用MFDRL-CTDE算法、IDQN算法[11]、MVEDQL算法[12]在不同的環(huán)境中進行決策,各算法的系統(tǒng)平均能量效率曲線如圖6(d)–圖6(f)所示。
由圖6可見,在不同干擾環(huán)境下本文算法的收斂速度、收斂性能和穩(wěn)定性都優(yōu)于對比算法。所以本文提出的MFDRL-CTDE算法更適合復(fù)雜電磁環(huán)境中智能抗干擾決策問題。
圖6 不同環(huán)境下算法性能比較
本文主要研究復(fù)雜電磁環(huán)境下跳頻異步組網(wǎng)中應(yīng)用多智能體強化學(xué)習(xí)的智能抗干擾決策問題。引入CTDE框架和共享經(jīng)驗池解決了多智能體之間相互影響和環(huán)境不穩(wěn)定的問題。提出了基于模糊推理系統(tǒng)的融合權(quán)重分配策略,使性能更好的網(wǎng)絡(luò)在融合時能做出更大貢獻,從而提高算法性能。采用Dueling DQN和優(yōu)先經(jīng)驗回放技術(shù)進一步提高了算法的效率。仿真結(jié)果表明,本文算法在收斂速度、最佳性能和對環(huán)境的適應(yīng)性上都有更好的表現(xiàn)。