張應(yīng)奎 孫國皓* 鐘蘇川 余顯祥
①(四川大學(xué)空天科學(xué)與工程學(xué)院 成都 610207)
②(電子科技大學(xué)信息與通信工程學(xué)院 成都 611731)
在對(duì)雜波環(huán)境信息感知的基礎(chǔ)上,認(rèn)知雷達(dá)可通過主動(dòng)發(fā)射波形的方式,充分挖掘目標(biāo)與雜波信息之間的差異性,并通過優(yōu)化配置波形參數(shù)擴(kuò)大該差異,提高雜波抑制和目標(biāo)檢測(cè)性能。相較于傳統(tǒng)雷達(dá),認(rèn)知雷達(dá)具有更高的自由度和靈活度,現(xiàn)已成為雷達(dá)雜波抑制的主要技術(shù)途徑之一。
現(xiàn)有認(rèn)知雷達(dá)波形設(shè)計(jì)主要利用精確完整的雜波先驗(yàn)數(shù)據(jù),形成兩大類準(zhǔn)則的設(shè)計(jì)方法。一是最大化輸出信雜噪比(Signal to Clutter plus Noise Ratio,SCNR)準(zhǔn)則,如Tang等人[1,2]利用精細(xì)化的雜波先驗(yàn)數(shù)據(jù),基于松弛方法解決了雜波環(huán)境下MIMO (Multiple Inputs Multiple Outputs)雷達(dá)波形與濾波器聯(lián)合設(shè)計(jì)中的非凸優(yōu)化問題。為了高效求解上述非凸性難題,Yu等人[3]提出了基于ADMM(Alternating Direction Method of Multipliers)的MIMO雷達(dá)波形多約束優(yōu)化快速實(shí)現(xiàn)方法。在此基礎(chǔ)上,Wu等人[4]研究了基于MM (Majorization-Minimization)的加速算法,有效提升了發(fā)射波形與接收濾波器權(quán)聯(lián)合設(shè)計(jì)的雜波抑制性能。此外,O’Rourke等人[5]采用二次優(yōu)化和半正定松弛方法提升了收發(fā)聯(lián)合設(shè)計(jì)的目標(biāo)檢測(cè)性能。然而上述方法所采用的先驗(yàn)數(shù)據(jù)需要精確已知各個(gè)雜波塊的幅相特征,當(dāng)雜波先驗(yàn)數(shù)據(jù)存在缺失時(shí),所構(gòu)建的雜波模型會(huì)嚴(yán)重失配,進(jìn)而影響雷達(dá)對(duì)雜波的抑制能力。二是基于信息量的優(yōu)化準(zhǔn)則,通過從回波信號(hào)中最大化提取目標(biāo)信息量,提升目標(biāo)檢測(cè)性能。如Tang等人[6]研究了雜波環(huán)境下基于信息相關(guān)熵的MIMO雷達(dá)波形設(shè)計(jì)方法;何子述團(tuán)隊(duì)[7,8]針對(duì)機(jī)載雷達(dá)雜波環(huán)境,依據(jù)最大化互信息量(Mutual Information,MI)準(zhǔn)則,提出了多約束條件下的波形與STAP (Space-Time Adaptive Processing)濾波器聯(lián)合設(shè)計(jì)方法。但該類方法仍然依賴于精確完整的先驗(yàn)雜波協(xié)方差矩陣,在數(shù)據(jù)缺失條件下難以設(shè)計(jì)出優(yōu)效的雷達(dá)波形。
從上述研究動(dòng)態(tài)可以看出,現(xiàn)有波形優(yōu)化方法往往需要精細(xì)到每個(gè)雜波片的幅頻相信息[9,10]。因此,在數(shù)據(jù)信息不完整/缺失條件下,上述方法存在模型失配效應(yīng),會(huì)嚴(yán)重削弱雷達(dá)的雜波抑制性能。
信息缺失在雷達(dá)信號(hào)處理中為常見現(xiàn)象[11-13],主要原因包括:
(1) 當(dāng)可用通道數(shù)小于陣列個(gè)數(shù)時(shí),雷達(dá)通常采用切換器切換數(shù)據(jù)接收通道。一般情況下,該切換機(jī)制是隨機(jī)選取的,從數(shù)學(xué)角度上看,這無異于將完整數(shù)據(jù)“穿孔”,得到一個(gè)尺寸縮小的不完整向量[11]。
(2) 先驗(yàn)數(shù)據(jù)信息在采集時(shí),易受到氣候、采集設(shè)備和其他電磁頻譜設(shè)備等干擾的影響,導(dǎo)致采集到的數(shù)據(jù)與真實(shí)數(shù)據(jù)之間存在偏差;用戶在使用時(shí)需將干擾數(shù)據(jù)剔除掉,而剔除過程會(huì)造成信息的缺失。
(3) 故障傳感器通道內(nèi)的噪聲脈沖、模數(shù)轉(zhuǎn)換器故障等導(dǎo)致部分陣列達(dá)到飽和狀態(tài),從而造成數(shù)據(jù)缺失[14];雷達(dá)材料、環(huán)境、機(jī)械故障等情況亦有可能引起數(shù)據(jù)的失效[15]。
現(xiàn)有針對(duì)數(shù)據(jù)缺失的雷達(dá)信號(hào)處理方法主要集中于協(xié)方差矩陣估計(jì)、波束形成、目標(biāo)檢測(cè)等領(lǐng)域[16-18]。針對(duì)數(shù)據(jù)不完整條件下高維參數(shù)的優(yōu)化問題,主要有兩種解決途徑:一種是補(bǔ)全雷達(dá)數(shù)據(jù)缺失部分[19],該類方法在補(bǔ)全過程中通過添加專家的合理性判斷,在一定程度上保證其可信性。如Aubry等人[11]基于雜波協(xié)方差矩陣的結(jié)構(gòu)信息,采用Expectation-Maximization算法設(shè)計(jì)了數(shù)據(jù)缺失條件下的參數(shù)估計(jì)方法;Pavez等人[13]針對(duì)數(shù)據(jù)缺失分布的不同機(jī)制,提出了一種無偏協(xié)方差估計(jì)器,獲得不同缺失條件下的估計(jì)誤差界限;Liu等人[20]針對(duì)單調(diào)數(shù)據(jù)缺失模式研究了基于最大似然和正則化魯棒的估計(jì)器,提高了算法的收斂速度和估計(jì)精度;此外,劉宏偉團(tuán)隊(duì)[21]基于遷移學(xué)習(xí)算法,完成了對(duì)步進(jìn)頻雷達(dá)不完整波形數(shù)據(jù)的補(bǔ)全。另一種解決途徑是通過與復(fù)雜環(huán)境的交互訓(xùn)練,直接得到雷達(dá)參數(shù)的優(yōu)化策略,即端到端的波形訓(xùn)練方法[21,22]。例如Jiang等人[23]在多約束條件下,研究了基于端到端的波形與檢測(cè)器權(quán)值聯(lián)合優(yōu)化方法,然而該訓(xùn)練過程依賴于大量完整的數(shù)據(jù)樣本,尚未考慮數(shù)據(jù)缺失條件下的優(yōu)化問題。綜上所述,現(xiàn)有工作多集中在數(shù)據(jù)缺失參數(shù)估計(jì)問題上,鮮有涉及數(shù)據(jù)缺失條件下波形設(shè)計(jì)方法的研究。
因此,本文主要針對(duì)完全隨機(jī)缺失機(jī)制下的雜波數(shù)據(jù),基于強(qiáng)化學(xué)習(xí)對(duì)未知環(huán)境的高效探索和學(xué)習(xí)能力,提出優(yōu)先級(jí)填充-強(qiáng)化學(xué)習(xí)級(jí)聯(lián)優(yōu)化的雷達(dá)波形訓(xùn)練方法。該方法將缺失數(shù)據(jù)恢復(fù)與波形設(shè)計(jì)有機(jī)結(jié)合,通過智能體與雜波環(huán)境的不斷交互,尋求波形參數(shù)的最優(yōu)配置。其難點(diǎn)主要體現(xiàn)為:一是數(shù)據(jù)缺失條件下的波形設(shè)計(jì)建模方法;二是雷達(dá)波形設(shè)計(jì)中非凸問題的求解。針對(duì)上述難點(diǎn),本文主要工作與創(chuàng)新點(diǎn)體現(xiàn)在以下幾個(gè)方面:
(1) 本文建立了數(shù)據(jù)缺失條件下的波形設(shè)計(jì)問題模型,提出了基于優(yōu)先級(jí)填充-強(qiáng)化學(xué)習(xí)兩級(jí)級(jí)聯(lián)的波形優(yōu)化求解方法;該方法通過強(qiáng)化學(xué)習(xí)與填充算法所構(gòu)建的環(huán)境交互訓(xùn)練,決策輸出最大信雜噪比下的波形參數(shù);
(2) 本文考慮了完全隨機(jī)缺失機(jī)制,即數(shù)據(jù)的缺失與否與數(shù)據(jù)自身值無關(guān),并通過仿真分別驗(yàn)證了點(diǎn)狀缺失與塊狀缺失場(chǎng)景下(類比文獻(xiàn)[11]中的缺失場(chǎng)景)所提算法雜波抑制能力;
(3) 本文所提算法可實(shí)現(xiàn)恒模、相似性約束下的波形優(yōu)化。
下面分別從雜波數(shù)據(jù)缺失條件下波形設(shè)計(jì)模型、雷達(dá)波形級(jí)聯(lián)優(yōu)化算法,以及算法仿真等方面展開介紹。
本節(jié)首先根據(jù)完全隨機(jī)缺失機(jī)制的定義,設(shè)置兩種常見的先驗(yàn)數(shù)據(jù)缺失場(chǎng)景,建立恒模與相似性約束下的雷達(dá)波形設(shè)計(jì)問題模型;然后將波形設(shè)計(jì)過程與狀態(tài)-動(dòng)作-獎(jiǎng)勵(lì)的動(dòng)態(tài)規(guī)劃結(jié)合,進(jìn)一步構(gòu)建雜波環(huán)境下波形設(shè)計(jì)的馬爾可夫決策模型,為雷達(dá)波形的優(yōu)化設(shè)計(jì)提供模型基礎(chǔ)。
不失一般性,本文考慮單輸入單輸出的雷達(dá)系統(tǒng),在一個(gè)時(shí)間相參積累間隔(Coherent Processing Interval,CPI)內(nèi)發(fā)射N個(gè)脈沖信號(hào)。假設(shè)發(fā)射端發(fā)射窄帶信號(hào),在時(shí)間維度對(duì)信號(hào)進(jìn)行離散采樣,可得在某一包含目標(biāo)距離環(huán)上的雷達(dá)回波信號(hào)為
其中,α表示發(fā)射信號(hào)的幅度,s∈CN×1表示離散發(fā)射波形矢量,cm ∈CN×1表示第m個(gè)距離環(huán)的雜波矢量,n ∈CN×1表示零均值方差為的高斯白噪聲矢量,w∈CN×1表 示濾波權(quán)矢量,(·)H為向量/矩陣共軛轉(zhuǎn)置運(yùn)算符,m為雜波距離環(huán)編號(hào)或先驗(yàn)雜波樣本編號(hào)。
本文重點(diǎn)考慮構(gòu)造雜波先驗(yàn)協(xié)方差矩陣中樣本數(shù)據(jù)的缺失,假設(shè)C=[c1c2...cM]∈CN×M為數(shù)據(jù)完整的雜波樣本矩陣,M為樣本數(shù)。設(shè)置缺失矩陣ΔN×M,Δ中 僅有兩個(gè)元素N aN 和1,其中N aN表示對(duì)應(yīng)位置數(shù)據(jù)缺失,1表示該數(shù)據(jù)正常,則雜波缺失矩陣可表示為
其中,[·]m為矩陣的第m列,⊙為Hadamard乘積。
由于氣候、采集設(shè)備故障等導(dǎo)致的數(shù)據(jù)缺失完全隨機(jī)且不可控,因此本文引入完全隨機(jī)缺失機(jī)制。在該機(jī)制下,無法獲取數(shù)據(jù)的分布參數(shù),如均值和方差,且數(shù)據(jù)的缺失位置與數(shù)據(jù)的先驗(yàn)分布相對(duì)獨(dú)立。類比文獻(xiàn)[11]中的缺失場(chǎng)景,本文考慮點(diǎn)狀缺失和塊狀缺失兩種雜波先驗(yàn)數(shù)據(jù)缺失場(chǎng)景,構(gòu)造缺失矩陣Δ的方式分別如下:
場(chǎng)景1:點(diǎn)狀缺失。設(shè)置點(diǎn)狀缺失概率p∈(0,1),生成N×M個(gè)服從[0,1]均勻分布的隨機(jī)數(shù)構(gòu)成矩陣Δ,若Δ(i,j)>p,則Δ(i,j)=1,反之Δ(i,j)=NaN,其中i=1,2,...,N,j=1,2,...,M;
場(chǎng)景2:塊狀缺失。同場(chǎng)景1,設(shè)置塊狀缺失概率p′ ∈(0,1),在Δ中隨機(jī)生成n個(gè)缺失塊并賦值為NaN,其余數(shù)據(jù)皆令為1。缺失塊行數(shù)和列數(shù)分別為rl和cl,l=1,2,...,n。為保證場(chǎng)景設(shè)置的公平性,兩種場(chǎng)景下的缺失概率應(yīng)滿足:
點(diǎn)狀缺失和塊狀缺失示意圖分別如圖1(a)、圖1(b)所示,其中,白色代表缺失數(shù)據(jù)(取值為N aN),黑色代表正常數(shù)據(jù)(取值為1)。
圖1 缺失場(chǎng)景示意圖Fig.1 Schematic diagram of the missing scene
當(dāng)雜波先驗(yàn)協(xié)方差矩陣Rc完全已知時(shí),已有眾多學(xué)者針對(duì)相關(guān)波形優(yōu)化問題展開研究,如Li等人[24]提出的SWORD (Signal Waveform’s Optimalunder-Restriction Design)方法等。然而,Rc估值的高準(zhǔn)確度依賴于大量完整的樣本數(shù)據(jù)。在雜波先驗(yàn)數(shù)據(jù)缺失的情況下,樣本信息不夠精確,協(xié)方差矩陣的估計(jì)誤差增大,難以保證優(yōu)越的雜波抑制性能。因此,本文考慮樣本數(shù)據(jù)缺失情況下的波形設(shè)計(jì)問題,并在式(4)中引入?yún)f(xié)方差矩陣約束Rc=h(),用于表征該雜波協(xié)方差矩陣由數(shù)據(jù)缺失樣本構(gòu)成,其中函數(shù)h(·)映射了該構(gòu)成過程。
由于強(qiáng)化學(xué)習(xí)強(qiáng)調(diào)智能體在未知環(huán)境中以不斷試錯(cuò)的方式學(xué)習(xí)得到最優(yōu)策略,故本節(jié)將上述先驗(yàn)數(shù)據(jù)缺失條件下波形優(yōu)化問題刻畫為馬爾可夫過程。
將雷達(dá)視為智能體,在t時(shí)刻,智能體根據(jù)當(dāng)前時(shí)刻的狀態(tài)st以及策略π(at|st)向環(huán)境中發(fā)射動(dòng)作at,其中策略是從狀態(tài)到動(dòng)作概率分布的函數(shù)映射。然后,狀態(tài)st根 據(jù)狀態(tài)轉(zhuǎn)移函數(shù)p(st+1|st,at)轉(zhuǎn)換到st+1,并獲得相應(yīng)的反饋獎(jiǎng)勵(lì)rt+1。假設(shè)t時(shí)刻的狀態(tài)僅與上一時(shí)刻的狀態(tài)有關(guān),則整個(gè)學(xué)習(xí)過程可以描述為一個(gè)馬爾可夫決策過程(Markov Decision Process,MDP)[25],用4元組表示為
其中,S為狀態(tài)集合st ∈S,A為動(dòng)作集合at ∈A,P為狀態(tài)轉(zhuǎn)移函數(shù)集合pt ∈P,R為獎(jiǎng)勵(lì)集合rt ∈R。
本文假設(shè)雷達(dá)發(fā)射機(jī)發(fā)射功率不變且載波頻率恒定,波形參數(shù)僅與發(fā)射相位有關(guān),故將t時(shí)刻的離散相位值以及信雜噪比作為雷達(dá)在環(huán)境中的狀態(tài)表征;若考慮相似性約束,則添加相似度衡量當(dāng)前波形與參考波形的偏差,以期快速獲得良好的性能參數(shù)。相似度定義為
其中,st表示t時(shí)刻的發(fā)射波形。
綜上,t時(shí)刻的狀態(tài)可表示為
其中,θti表示t時(shí)刻的離散相位值,i=1,2,...,N。
將雷達(dá)的動(dòng)作設(shè)計(jì)為“指令”操作,即at={at1,at2,...,atN},其中,ati有3種可能取值:0,1和2,不同取值對(duì)應(yīng)不同的操作:
其中,σ表示雷達(dá)執(zhí)行一次動(dòng)作對(duì)應(yīng)相位值的變化量。σ的設(shè)置與相位的分辨率息息相關(guān),σ越小,雷達(dá)發(fā)射波形精確度越高;但當(dāng)σ過小時(shí),雷達(dá)需要耗費(fèi)更多的時(shí)間去學(xué)習(xí)最佳波形,導(dǎo)致算法收斂速度變慢。需要注意的是,由于相位的周期性,在整個(gè)決策過程中需保證θti的值始終位于[0,2π]內(nèi)。
獎(jiǎng)勵(lì)函數(shù)是強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)的核心,其作用是針對(duì)上一時(shí)刻的動(dòng)作向強(qiáng)化學(xué)習(xí)模型提供即時(shí)反饋。因此,合理的獎(jiǎng)勵(lì)設(shè)計(jì)方式有利于智能體最優(yōu)執(zhí)行策略的學(xué)習(xí)。由于目標(biāo)SCNR是影響檢測(cè)性能的關(guān)鍵因素,因此本文以雷達(dá)濾波處理后的SCNR作為t時(shí)刻動(dòng)作所獲得的獎(jiǎng)勵(lì):
針對(duì)上述波形設(shè)計(jì)問題,本文提出一種基于優(yōu)先級(jí)填充-強(qiáng)化學(xué)習(xí)級(jí)聯(lián)優(yōu)化的波形設(shè)計(jì)方法。該級(jí)聯(lián)算法包含缺失數(shù)據(jù)填充和波形優(yōu)化兩個(gè)部分,分別用函數(shù)f(·)和g(·)表示。如圖2所示,輸入數(shù)據(jù)缺失條件下的先驗(yàn)數(shù)據(jù)矩陣X,根據(jù)缺失值判斷數(shù)據(jù)缺失區(qū)域并將其作為缺失規(guī)則輸入雜波環(huán)境中。通過優(yōu)先級(jí)填充算法得到數(shù)據(jù)完整的雜波數(shù)據(jù)矩陣,進(jìn)一步估計(jì)雜波協(xié)方差矩陣,即=。強(qiáng)化學(xué)習(xí)波形設(shè)計(jì)的目的是通過雷達(dá)與雜波環(huán)境交互,訓(xùn)練生成最大SCNR的發(fā)射波形,即s=g(),其中,將優(yōu)先級(jí)填充算法輸出結(jié)果作為智能體與之交互的雜波環(huán)境。本文所提的級(jí)聯(lián)架構(gòu)亦是指以估計(jì)雜波協(xié)方差矩陣為基礎(chǔ)的強(qiáng)化學(xué)習(xí)波形設(shè)計(jì)框架,通過優(yōu)先級(jí)填充-強(qiáng)化學(xué)習(xí)級(jí)聯(lián)的迭代過程,最終獲得先驗(yàn)數(shù)據(jù)缺失條件下的優(yōu)化波形。
圖2 級(jí)聯(lián)優(yōu)化算法整體框架圖Fig.2 Overall framework diagarm of the cascade optimization algorithm
根據(jù)級(jí)聯(lián)優(yōu)化算法整體架構(gòu),本節(jié)首先介紹基于優(yōu)先級(jí)的填充算法。將雜波缺失矩陣以及缺失區(qū)域輸入到雜波環(huán)境中,通過優(yōu)先級(jí)填充算法的映射關(guān)系f(·),完成對(duì)雜波缺失數(shù)據(jù)的修復(fù),估計(jì)輸出雜波協(xié)方差矩陣。如圖3所示,該修復(fù)過程為:首先,通過判斷雜波數(shù)據(jù)與缺失值是否匹配,將其分為目標(biāo)區(qū)域Ω和源區(qū)域Φ。目標(biāo)區(qū)域?qū)?yīng)數(shù)據(jù)缺失部分,其輪廓用δΩ表示;剩余部分為源區(qū)域。然后在目標(biāo)區(qū)域輪廓δΩ上選定點(diǎn)p,以p為中心點(diǎn)確定一待修復(fù)的正方形滑窗Ψp,在源區(qū)域內(nèi)搜索最佳匹配數(shù)據(jù)Ψq,令Ψp=Ψq,完成對(duì)Ψp的填充。最后,隨著填充進(jìn)度的推進(jìn),不斷更新δΩ直至所有目標(biāo)區(qū)域Ω填充完成。
填充順序是數(shù)據(jù)修復(fù)質(zhì)量的關(guān)鍵性因素之一。傳統(tǒng)標(biāo)準(zhǔn)同心層填充算法以逆時(shí)針順序?qū)⑼膶訅K逐漸填入目標(biāo)區(qū)域,可能導(dǎo)致目標(biāo)輪廓附近源區(qū)域內(nèi)的完整數(shù)據(jù)被意外重構(gòu),使得目標(biāo)輪廓區(qū)域的填充效果變差。因此,為了確定最佳樣本填充順序,本節(jié)引入樣本填充優(yōu)先級(jí)的計(jì)算[26]。針對(duì)上述目標(biāo)輪廓區(qū)域填充效果不明顯的問題,優(yōu)先級(jí)的計(jì)算偏向于數(shù)據(jù)差異大的強(qiáng)邊緣區(qū)域和高置信度的目標(biāo)區(qū)域。
給定中心點(diǎn)p以及目標(biāo)填充樣本Ψp,將優(yōu)先級(jí)函數(shù)P(p)表示為
其中,C(p)為 置信度項(xiàng),D(p)為數(shù)據(jù)項(xiàng)。置信度C(p)表征中心點(diǎn)p附近可靠數(shù)據(jù)的度量,即優(yōu)先填充目標(biāo)區(qū)域輪廓周圍的樣本并不斷向內(nèi)填充;數(shù)據(jù)項(xiàng)D(p)體 現(xiàn)δΩ兩邊數(shù)據(jù)信息的差異大小,優(yōu)先填充差異較大的樣本。計(jì)算公式分別為
其中,|Ψp|表 示Ψp的 面積,κ是歸一化因子,?Ip為Ψp ∩I區(qū)間內(nèi)的最大梯度值,Jp表示p點(diǎn)處正交于目標(biāo)區(qū)域輪廓δΩ的單位向量?!捅硎菊?。初始化時(shí),設(shè)置置信度函數(shù)C(p)為
獲得目標(biāo)區(qū)域內(nèi)所有待填充樣本的優(yōu)先級(jí)后,按照優(yōu)先級(jí)遞減的方向從源區(qū)域內(nèi)搜尋最相似樣本進(jìn)行填充。上述過程可通過最小化平方差之和算法實(shí)現(xiàn):
其中,d(Ψa,Ψb)表 示樣本Ψa和Ψb中數(shù)據(jù)的平方差之和。
此時(shí)雜波數(shù)據(jù)矩陣的目標(biāo)區(qū)域輪廓δΩ發(fā)生相應(yīng)變化,重復(fù)優(yōu)先級(jí)的計(jì)算,逐層更新直至目標(biāo)區(qū)域填充完成,即通過f(·)的映射關(guān)系,實(shí)現(xiàn)從雜波缺失矩陣到協(xié)方差矩陣的估計(jì)過程。算法步驟的偽代碼見表1。
表1 優(yōu)先級(jí)填充算法Tab.1 Priority filling algorithm
由3.1節(jié)可知,將優(yōu)先級(jí)填充算法補(bǔ)償后的雜波矩陣作為強(qiáng)化學(xué)習(xí)優(yōu)化算法中智能體的交互環(huán)境。雷達(dá)發(fā)射波形作用到雜波環(huán)境中并獲取反饋獎(jiǎng)勵(lì),通過最大化累積獎(jiǎng)勵(lì)和的方式?jīng)Q策出最優(yōu)波形相位。整個(gè)過程基(于端)到端的學(xué)習(xí)方式,用函數(shù)g(·)表示,即。本文采用DDPG (Deep Deterministic Policy Gradient)算法實(shí)現(xiàn)函數(shù)g(·)的映射過程。DDPG算法是一種基于Actor-critic框架的深度確定性策略梯度算法[27],由DPG (Deterministic Policy Gradient)算法改進(jìn)而來,得益于其在連續(xù)動(dòng)作空間中的有效決策性能,廣泛用于解決各領(lǐng)域中復(fù)雜連續(xù)的決策問題。在波形優(yōu)化設(shè)計(jì)問題中,由于動(dòng)作空間和狀態(tài)空間的高維連續(xù)性,使用DDPG算法可以更好地輸出最佳動(dòng)作策略。
Actor-critic框架由Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)構(gòu)成。Actor網(wǎng)絡(luò)輸入狀態(tài)st,輸出唯一確定性動(dòng)作at與環(huán)境交互,返回下一時(shí)刻的狀態(tài)st+1和獎(jiǎng)勵(lì)rt+1,其網(wǎng)絡(luò)權(quán)重參數(shù)用θ表示;Critic網(wǎng)絡(luò)輸入狀態(tài)st和動(dòng)作at,通過價(jià)值函數(shù)評(píng)估動(dòng)作at的優(yōu)劣性,其網(wǎng)絡(luò)權(quán)重參數(shù)用ω表示。為了避免網(wǎng)絡(luò)輸出的震蕩導(dǎo)致不穩(wěn)定的學(xué)習(xí)行為,增強(qiáng)算法的穩(wěn)定性,DDPG分別復(fù)制Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)生成相對(duì)應(yīng)的目標(biāo)網(wǎng)絡(luò),其網(wǎng)絡(luò)權(quán)重參數(shù)分別用θ′和ω′表示。
在DDPG算法中,為了增加學(xué)習(xí)過程的隨機(jī)性,提高智能體對(duì)環(huán)境的探索概率,針對(duì)Actor網(wǎng)絡(luò)決策機(jī)制引入隨機(jī)噪聲,設(shè)計(jì)輸出動(dòng)作為
其中,μ(st|θ)表 示Actor網(wǎng)絡(luò)在狀態(tài)st時(shí)的輸出動(dòng)作,N表示隨機(jī)噪聲過程。
Actor網(wǎng)絡(luò)采用off-police的訓(xùn)練方法,用于生成動(dòng)作的行為策略和評(píng)估策略不同。引入策略梯度下降法更新其網(wǎng)絡(luò)參數(shù):
其中,K表示從經(jīng)驗(yàn)池中采樣的樣本數(shù)。更新Critic網(wǎng)絡(luò)時(shí),采用均方誤差計(jì)算其損失函數(shù):
其中,γ表示獎(jiǎng)勵(lì)衰減因子。
通過軟更新的方式分別更新Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的目標(biāo)網(wǎng)絡(luò)參數(shù):
其中,τ表示軟更新系數(shù),用于控制迭代中每一步更新的幅度,一般取τ=0.01。
結(jié)合前文分析,智能體通過Actor網(wǎng)絡(luò)輸出波形相位,將當(dāng)前所處狀態(tài)和動(dòng)作矢量信息輸入到Critic網(wǎng)絡(luò)中;Critic網(wǎng)絡(luò)輸出評(píng)估狀態(tài)-動(dòng)作對(duì)的Q值。利用梯度下降法和均方誤差分別計(jì)算Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的損失函數(shù),結(jié)合軟更新的方式,實(shí)現(xiàn)策略網(wǎng)絡(luò)、評(píng)估網(wǎng)絡(luò)以及對(duì)應(yīng)目標(biāo)網(wǎng)絡(luò)參數(shù)的更新。DDPG偽代碼如表2所示,算法結(jié)構(gòu)框圖如圖4所示。
圖4 雷達(dá)波形設(shè)計(jì)的DDPG算法結(jié)構(gòu)圖Fig.4 Structure diagram of DDPG algorithm for radar waveform design
表2 基于DDPG的波形優(yōu)化算法Tab.2 Algorithm for waveform optimization based on DDPG
為了分析雷達(dá)雜波先驗(yàn)數(shù)據(jù)缺失對(duì)發(fā)射波形優(yōu)化過程的影響,驗(yàn)證本文所提級(jí)聯(lián)優(yōu)化算法的有效性,本節(jié)針對(duì)雜波先驗(yàn)數(shù)據(jù)點(diǎn)狀與塊狀缺失場(chǎng)景進(jìn)行仿真試驗(yàn)。
雜波數(shù)據(jù)缺失模型參數(shù)設(shè)置如下:N=16,M=2000,數(shù)據(jù)缺失概率p=0.1。為方便觀察數(shù)據(jù)修復(fù)效果,將雜波數(shù)據(jù)矩陣可視化,如圖5所示,為雜波參考矩陣C的俯視圖。據(jù)2.1節(jié)所述,設(shè)置點(diǎn)狀缺失和塊狀缺失如圖6所示,其中,黃色部分表示數(shù)據(jù)缺失。由于修復(fù)完成的雜波矩陣將進(jìn)一步計(jì)算雜波協(xié)方差矩陣,為提高數(shù)據(jù)缺失的代表性,將大多數(shù)缺失數(shù)據(jù)集中設(shè)置于N個(gè)脈沖編碼內(nèi)(圖6中第41行到第56行內(nèi)),保證內(nèi)耦合更多缺失數(shù)據(jù)信息。
圖5 雜波參考矩陣可視化圖Fig.5 Visualization of the clutter reference matrix
圖6 雜波數(shù)據(jù)信息缺失圖Fig.6 Missing information of clutter data
根據(jù)樣本優(yōu)先級(jí)填充算法,對(duì)雜波數(shù)據(jù)缺失矩陣目標(biāo)區(qū)域進(jìn)行修復(fù)。考慮到雜波數(shù)據(jù)缺失對(duì)后續(xù)波形優(yōu)化的影響,將雜波缺失矩陣中的N aN值設(shè)為500,并采用KNN填充算法作為對(duì)比算法進(jìn)行仿真試驗(yàn),結(jié)果如圖7、圖8所示(黑色方框表示雜波數(shù)據(jù)缺失矩陣的目標(biāo)區(qū)域輪廓)。由圖7可看出,針對(duì)完全隨機(jī)缺失機(jī)制,雜波數(shù)據(jù)缺失部分在一定程度上得到了修復(fù),然而點(diǎn)狀缺失數(shù)據(jù)分布比較分散,無法得出明顯的效果圖;由圖8可看出,在塊狀缺失場(chǎng)景下,優(yōu)先級(jí)填充算法結(jié)合了優(yōu)先級(jí)排序和樣本相似度的計(jì)算,修復(fù)效果明顯優(yōu)于KNN填充算法,與參考矩陣C差異較小。由此可得出初步結(jié)論:優(yōu)先級(jí)填充算法考慮了缺失點(diǎn)周圍數(shù)據(jù)的關(guān)聯(lián)性,可以從源區(qū)域內(nèi)全局搜索出最相似樣本塊進(jìn)行填充,并取得良好的修復(fù)效果。
圖7 點(diǎn)狀缺失場(chǎng)景下缺失數(shù)據(jù)修復(fù)圖Fig.7 Missing data repair diagram in the point-like missing scene
圖8 塊狀缺失場(chǎng)景下缺失數(shù)據(jù)修復(fù)圖Fig.8 Missing data repair diagram in the block-like missing scenario
為進(jìn)一步驗(yàn)證上述優(yōu)先級(jí)填充算法對(duì)缺失數(shù)據(jù)修復(fù)的有效性,設(shè)置不同的缺失概率,將修復(fù)后的雜波矩陣與參考雜波矩陣的均方根誤差(Root Mean Square Error,RMSE)作為衡量指標(biāo),定量分析算法的優(yōu)劣性。如圖9所示,RMSE隨著缺失概率p的增加不斷增大。在點(diǎn)狀缺失場(chǎng)景下,優(yōu)先級(jí)填充算法修復(fù)誤差明顯低于KNN填充算法;在塊狀缺失場(chǎng)景下,當(dāng)缺失概率p<0.3時(shí),優(yōu)先級(jí)填充算法略優(yōu),隨著p繼續(xù)增加,其算法誤差亦快速增大,填充性能下降且劣于KNN填充算法。對(duì)比不同的缺失場(chǎng)景,根據(jù)缺失數(shù)據(jù)分布的均勻性可知,塊狀缺失的數(shù)據(jù)相較于點(diǎn)狀缺失更為集中,故點(diǎn)狀缺失的修復(fù)性能更佳,誤差更小。
圖9 不同缺失概率下數(shù)據(jù)修復(fù)性能分析Fig.9 Data repair performance analysis under different missing probability
表3 強(qiáng)化學(xué)習(xí)參數(shù)表Tab.3 Reinforcement learning parameters table
設(shè)置相位初始狀態(tài)為 01×16,運(yùn)行步驟step=1000,單個(gè)回合結(jié)束。訓(xùn)練曲線如圖10所示,圖10(a)、圖10(b)分別表示點(diǎn)狀缺失和塊狀缺失兩種雜波缺失場(chǎng)景下的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)曲線圖。由圖10可以看出,獎(jiǎng)勵(lì)曲線皆由初始的負(fù)獎(jiǎng)勵(lì)值快速上升至400左右,然后逐漸收斂并趨于穩(wěn)定,對(duì)應(yīng)最大信噪比可達(dá)16 dB。說明在雜波先驗(yàn)數(shù)據(jù)缺失的條件下,雷達(dá)發(fā)射機(jī)通過Critic網(wǎng)絡(luò)對(duì)動(dòng)作策略的評(píng)估及獎(jiǎng)勵(lì)反饋,成功學(xué)習(xí)到較優(yōu)的波形相位動(dòng)作。對(duì)比兩種缺失場(chǎng)景,由于塊狀缺失場(chǎng)景下缺失塊中心填充誤差較大,獎(jiǎng)勵(lì)曲線收斂速度相對(duì)較慢。
圖10 僅恒模約束下強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)曲線圖Fig.10 Reinforcement learning reward curves under constant modulus constraint
為驗(yàn)證完全隨機(jī)缺失機(jī)制下基于優(yōu)先級(jí)填充算法-強(qiáng)化學(xué)習(xí)級(jí)聯(lián)優(yōu)化的訓(xùn)練效果,以雷達(dá)接收信號(hào)的SCNR作為參考指標(biāo)進(jìn)行仿真分析。如圖11所示,橫坐標(biāo)表示輸入信雜噪比α2/tr(Rc+σ2),其中α2表 示信號(hào)的能量,σ2為噪聲方差,依據(jù)不同輸入條件設(shè)計(jì)噪聲能量值。在仿真中,設(shè)置缺失概率為0.1和0.3,將協(xié)方差矩陣無缺失條件下SWORD算法所得結(jié)果作為性能上限,將數(shù)據(jù)缺失條件下SWORD算法以及KNN填充后的SWORD算法與本文所提算法進(jìn)行仿真對(duì)比。由圖11可知,針對(duì)完全隨機(jī)缺失機(jī)制下的缺失場(chǎng)景,隨著雜噪比值的變化,所提算法能夠較好地逼近無缺失條件的波形設(shè)計(jì)性能,且優(yōu)于KNN補(bǔ)償算法。其中,隨著缺失概率p的增大,雜波有效先驗(yàn)數(shù)據(jù)信息減少,輸出性能略有下降。對(duì)比不同缺失場(chǎng)景,點(diǎn)狀缺失場(chǎng)景下的優(yōu)化性能相較于塊狀缺失場(chǎng)景更優(yōu),但本文所提算法的優(yōu)勢(shì)在塊狀缺失場(chǎng)景中更為明顯。
圖11 僅恒模約束下不同場(chǎng)景的輸出SCNR性能曲線圖Fig.11 Output SCNR performance curves of different scenarios under constant modulus constraint
為驗(yàn)證不同約束對(duì)算法輸出性能的影響,在雷達(dá)波形優(yōu)化方程中添加相似性約束,并根據(jù)式(7)在強(qiáng)化學(xué)習(xí)t時(shí)刻的狀態(tài)中添加相似度參數(shù)?。仿真結(jié)果如圖12和圖13所示。從圖12可以看出,不同場(chǎng)景下的獎(jiǎng)勵(lì)曲線有明顯的提升和收斂表現(xiàn);相較于無相似性約束下的仿真結(jié)果,由于具備參考波形的引導(dǎo),Actor網(wǎng)絡(luò)能在相似度的衡量指標(biāo)下迅速逼近最佳輸出動(dòng)作,算法收斂速度加快且獎(jiǎng)勵(lì)值小幅提升。從圖13可以看出,本文所提算法在恒模與相似性約束條件下,仍然具有較優(yōu)的雜波抑制性能。由于對(duì)比實(shí)驗(yàn)均考慮了相同的波形相似性約束,雖然在輸出性能曲線上不同算法的仿真結(jié)果差異變小,但本文所提算法與無缺失條件下SWORD算法的性能表現(xiàn)更為接近,且依然優(yōu)于KNN算法補(bǔ)償后的傳統(tǒng)優(yōu)化算法。
圖12 相似性約束下強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)曲線圖Fig.12 Reinforcement learning reward curves under similarity constraints
圖13 相似性約束下不同場(chǎng)景的輸出SCNR性能曲線圖Fig.13 Output SCNR performance curves of different scenarios under similarity constraints
針對(duì)雜波先驗(yàn)數(shù)據(jù)缺失條件下的波形優(yōu)化問題,本文提出了一種優(yōu)先級(jí)填充-強(qiáng)化學(xué)習(xí)級(jí)聯(lián)優(yōu)化的波形設(shè)計(jì)算法。為求解恒模約束和相似性約束下的非凸非線性優(yōu)化問題,本文首先根據(jù)缺失數(shù)據(jù)的優(yōu)先度在源區(qū)域內(nèi)搜索最佳匹配數(shù)據(jù)進(jìn)行填充,實(shí)現(xiàn)隨機(jī)缺失機(jī)制下的數(shù)據(jù)修復(fù),再結(jié)合DDPG強(qiáng)化學(xué)習(xí)決策算法,通過Actor-Critic網(wǎng)絡(luò)架構(gòu)訓(xùn)練決策出雷達(dá)最佳相位選擇策略,實(shí)現(xiàn)最大信雜噪比下的波形優(yōu)化。最后,本文針對(duì)雜波先驗(yàn)數(shù)據(jù)不同缺失場(chǎng)景,采用數(shù)值仿真對(duì)比KNN算法填充后的SWORD優(yōu)化算法,分析結(jié)果表明:(1)級(jí)聯(lián)算法無需考慮先驗(yàn)數(shù)據(jù)的分布函數(shù),對(duì)雜波數(shù)據(jù)的完全隨機(jī)缺失具有較好的修復(fù)效果;(2)針對(duì)點(diǎn)狀缺失和塊狀缺失場(chǎng)景,本文所提算法均可獲得優(yōu)越的雜波抑制性能,進(jìn)一步提升雷達(dá)的探測(cè)能力。