雜波先驗(yàn)數(shù)據(jù)缺失條件下基于級(jí)聯(lián)優(yōu)化處理的雷達(dá)波形設(shè)計(jì)方法

2023-03-06 09:00:42張應(yīng)奎孫國皓鐘蘇川余顯祥

雷達(dá)學(xué)報(bào) 2023年1期

張應(yīng)奎孫國皓* 鐘蘇川余顯祥

①(四川大學(xué)空天科學(xué)與工程學(xué)院成都 610207)

②(電子科技大學(xué)信息與通信工程學(xué)院成都 611731)

1 引言

在對(duì)雜波環(huán)境信息感知的基礎(chǔ)上，認(rèn)知雷達(dá)可通過主動(dòng)發(fā)射波形的方式，充分挖掘目標(biāo)與雜波信息之間的差異性，并通過優(yōu)化配置波形參數(shù)擴(kuò)大該差異，提高雜波抑制和目標(biāo)檢測(cè)性能。相較于傳統(tǒng)雷達(dá)，認(rèn)知雷達(dá)具有更高的自由度和靈活度，現(xiàn)已成為雷達(dá)雜波抑制的主要技術(shù)途徑之一。

現(xiàn)有認(rèn)知雷達(dá)波形設(shè)計(jì)主要利用精確完整的雜波先驗(yàn)數(shù)據(jù)，形成兩大類準(zhǔn)則的設(shè)計(jì)方法。一是最大化輸出信雜噪比(Signal to Clutter plus Noise Ratio,SCNR)準(zhǔn)則，如Tang等人[1,2]利用精細(xì)化的雜波先驗(yàn)數(shù)據(jù)，基于松弛方法解決了雜波環(huán)境下MIMO (Multiple Inputs Multiple Outputs)雷達(dá)波形與濾波器聯(lián)合設(shè)計(jì)中的非凸優(yōu)化問題。為了高效求解上述非凸性難題，Yu等人[3]提出了基于ADMM(Alternating Direction Method of Multipliers)的MIMO雷達(dá)波形多約束優(yōu)化快速實(shí)現(xiàn)方法。在此基礎(chǔ)上，Wu等人[4]研究了基于MM (Majorization-Minimization)的加速算法，有效提升了發(fā)射波形與接收濾波器權(quán)聯(lián)合設(shè)計(jì)的雜波抑制性能。此外，O’Rourke等人[5]采用二次優(yōu)化和半正定松弛方法提升了收發(fā)聯(lián)合設(shè)計(jì)的目標(biāo)檢測(cè)性能。然而上述方法所采用的先驗(yàn)數(shù)據(jù)需要精確已知各個(gè)雜波塊的幅相特征，當(dāng)雜波先驗(yàn)數(shù)據(jù)存在缺失時(shí)，所構(gòu)建的雜波模型會(huì)嚴(yán)重失配，進(jìn)而影響雷達(dá)對(duì)雜波的抑制能力。二是基于信息量的優(yōu)化準(zhǔn)則，通過從回波信號(hào)中最大化提取目標(biāo)信息量，提升目標(biāo)檢測(cè)性能。如Tang等人[6]研究了雜波環(huán)境下基于信息相關(guān)熵的MIMO雷達(dá)波形設(shè)計(jì)方法；何子述團(tuán)隊(duì)[7,8]針對(duì)機(jī)載雷達(dá)雜波環(huán)境，依據(jù)最大化互信息量(Mutual Information,MI)準(zhǔn)則，提出了多約束條件下的波形與STAP (Space-Time Adaptive Processing)濾波器聯(lián)合設(shè)計(jì)方法。但該類方法仍然依賴于精確完整的先驗(yàn)雜波協(xié)方差矩陣，在數(shù)據(jù)缺失條件下難以設(shè)計(jì)出優(yōu)效的雷達(dá)波形。

從上述研究動(dòng)態(tài)可以看出，現(xiàn)有波形優(yōu)化方法往往需要精細(xì)到每個(gè)雜波片的幅頻相信息[9,10]。因此，在數(shù)據(jù)信息不完整/缺失條件下，上述方法存在模型失配效應(yīng)，會(huì)嚴(yán)重削弱雷達(dá)的雜波抑制性能。

信息缺失在雷達(dá)信號(hào)處理中為常見現(xiàn)象[11-13]，主要原因包括：

(1) 當(dāng)可用通道數(shù)小于陣列個(gè)數(shù)時(shí)，雷達(dá)通常采用切換器切換數(shù)據(jù)接收通道。一般情況下，該切換機(jī)制是隨機(jī)選取的，從數(shù)學(xué)角度上看，這無異于將完整數(shù)據(jù)“穿孔”，得到一個(gè)尺寸縮小的不完整向量[11]。

(2) 先驗(yàn)數(shù)據(jù)信息在采集時(shí)，易受到氣候、采集設(shè)備和其他電磁頻譜設(shè)備等干擾的影響，導(dǎo)致采集到的數(shù)據(jù)與真實(shí)數(shù)據(jù)之間存在偏差；用戶在使用時(shí)需將干擾數(shù)據(jù)剔除掉，而剔除過程會(huì)造成信息的缺失。

(3) 故障傳感器通道內(nèi)的噪聲脈沖、模數(shù)轉(zhuǎn)換器故障等導(dǎo)致部分陣列達(dá)到飽和狀態(tài)，從而造成數(shù)據(jù)缺失[14]；雷達(dá)材料、環(huán)境、機(jī)械故障等情況亦有可能引起數(shù)據(jù)的失效[15]。

現(xiàn)有針對(duì)數(shù)據(jù)缺失的雷達(dá)信號(hào)處理方法主要集中于協(xié)方差矩陣估計(jì)、波束形成、目標(biāo)檢測(cè)等領(lǐng)域[16-18]。針對(duì)數(shù)據(jù)不完整條件下高維參數(shù)的優(yōu)化問題，主要有兩種解決途徑：一種是補(bǔ)全雷達(dá)數(shù)據(jù)缺失部分[19]，該類方法在補(bǔ)全過程中通過添加專家的合理性判斷，在一定程度上保證其可信性。如Aubry等人[11]基于雜波協(xié)方差矩陣的結(jié)構(gòu)信息，采用Expectation-Maximization算法設(shè)計(jì)了數(shù)據(jù)缺失條件下的參數(shù)估計(jì)方法；Pavez等人[13]針對(duì)數(shù)據(jù)缺失分布的不同機(jī)制，提出了一種無偏協(xié)方差估計(jì)器，獲得不同缺失條件下的估計(jì)誤差界限；Liu等人[20]針對(duì)單調(diào)數(shù)據(jù)缺失模式研究了基于最大似然和正則化魯棒的估計(jì)器，提高了算法的收斂速度和估計(jì)精度；此外，劉宏偉團(tuán)隊(duì)[21]基于遷移學(xué)習(xí)算法，完成了對(duì)步進(jìn)頻雷達(dá)不完整波形數(shù)據(jù)的補(bǔ)全。另一種解決途徑是通過與復(fù)雜環(huán)境的交互訓(xùn)練，直接得到雷達(dá)參數(shù)的優(yōu)化策略，即端到端的波形訓(xùn)練方法[21,22]。例如Jiang等人[23]在多約束條件下，研究了基于端到端的波形與檢測(cè)器權(quán)值聯(lián)合優(yōu)化方法，然而該訓(xùn)練過程依賴于大量完整的數(shù)據(jù)樣本，尚未考慮數(shù)據(jù)缺失條件下的優(yōu)化問題。綜上所述，現(xiàn)有工作多集中在數(shù)據(jù)缺失參數(shù)估計(jì)問題上，鮮有涉及數(shù)據(jù)缺失條件下波形設(shè)計(jì)方法的研究。

因此，本文主要針對(duì)完全隨機(jī)缺失機(jī)制下的雜波數(shù)據(jù)，基于強(qiáng)化學(xué)習(xí)對(duì)未知環(huán)境的高效探索和學(xué)習(xí)能力，提出優(yōu)先級(jí)填充-強(qiáng)化學(xué)習(xí)級(jí)聯(lián)優(yōu)化的雷達(dá)波形訓(xùn)練方法。該方法將缺失數(shù)據(jù)恢復(fù)與波形設(shè)計(jì)有機(jī)結(jié)合，通過智能體與雜波環(huán)境的不斷交互，尋求波形參數(shù)的最優(yōu)配置。其難點(diǎn)主要體現(xiàn)為：一是數(shù)據(jù)缺失條件下的波形設(shè)計(jì)建模方法；二是雷達(dá)波形設(shè)計(jì)中非凸問題的求解。針對(duì)上述難點(diǎn)，本文主要工作與創(chuàng)新點(diǎn)體現(xiàn)在以下幾個(gè)方面：

(1) 本文建立了數(shù)據(jù)缺失條件下的波形設(shè)計(jì)問題模型，提出了基于優(yōu)先級(jí)填充-強(qiáng)化學(xué)習(xí)兩級(jí)級(jí)聯(lián)的波形優(yōu)化求解方法；該方法通過強(qiáng)化學(xué)習(xí)與填充算法所構(gòu)建的環(huán)境交互訓(xùn)練，決策輸出最大信雜噪比下的波形參數(shù)；

(2) 本文考慮了完全隨機(jī)缺失機(jī)制，即數(shù)據(jù)的缺失與否與數(shù)據(jù)自身值無關(guān)，并通過仿真分別驗(yàn)證了點(diǎn)狀缺失與塊狀缺失場(chǎng)景下(類比文獻(xiàn)[11]中的缺失場(chǎng)景)所提算法雜波抑制能力；

(3) 本文所提算法可實(shí)現(xiàn)恒模、相似性約束下的波形優(yōu)化。

下面分別從雜波數(shù)據(jù)缺失條件下波形設(shè)計(jì)模型、雷達(dá)波形級(jí)聯(lián)優(yōu)化算法，以及算法仿真等方面展開介紹。

2 雜波數(shù)據(jù)缺失條件下的波形設(shè)計(jì)問題模型

本節(jié)首先根據(jù)完全隨機(jī)缺失機(jī)制的定義，設(shè)置兩種常見的先驗(yàn)數(shù)據(jù)缺失場(chǎng)景，建立恒模與相似性約束下的雷達(dá)波形設(shè)計(jì)問題模型；然后將波形設(shè)計(jì)過程與狀態(tài)-動(dòng)作-獎(jiǎng)勵(lì)的動(dòng)態(tài)規(guī)劃結(jié)合，進(jìn)一步構(gòu)建雜波環(huán)境下波形設(shè)計(jì)的馬爾可夫決策模型，為雷達(dá)波形的優(yōu)化設(shè)計(jì)提供模型基礎(chǔ)。

2.1 雜波數(shù)據(jù)缺失模型

不失一般性，本文考慮單輸入單輸出的雷達(dá)系統(tǒng)，在一個(gè)時(shí)間相參積累間隔(Coherent Processing Interval,CPI)內(nèi)發(fā)射N個(gè)脈沖信號(hào)。假設(shè)發(fā)射端發(fā)射窄帶信號(hào)，在時(shí)間維度對(duì)信號(hào)進(jìn)行離散采樣，可得在某一包含目標(biāo)距離環(huán)上的雷達(dá)回波信號(hào)為

其中，α表示發(fā)射信號(hào)的幅度，s∈CN×1表示離散發(fā)射波形矢量，cm ∈CN×1表示第m個(gè)距離環(huán)的雜波矢量，n ∈CN×1表示零均值方差為的高斯白噪聲矢量，w∈CN×1表示濾波權(quán)矢量，(·)H為向量/矩陣共軛轉(zhuǎn)置運(yùn)算符，m為雜波距離環(huán)編號(hào)或先驗(yàn)雜波樣本編號(hào)。

本文重點(diǎn)考慮構(gòu)造雜波先驗(yàn)協(xié)方差矩陣中樣本數(shù)據(jù)的缺失，假設(shè)C=[c1c2...cM]∈CN×M為數(shù)據(jù)完整的雜波樣本矩陣，M為樣本數(shù)。設(shè)置缺失矩陣ΔN×M,Δ中僅有兩個(gè)元素N aN 和1，其中N aN表示對(duì)應(yīng)位置數(shù)據(jù)缺失，1表示該數(shù)據(jù)正常，則雜波缺失矩陣可表示為

其中，[·]m為矩陣的第m列，⊙為Hadamard乘積。

由于氣候、采集設(shè)備故障等導(dǎo)致的數(shù)據(jù)缺失完全隨機(jī)且不可控，因此本文引入完全隨機(jī)缺失機(jī)制。在該機(jī)制下，無法獲取數(shù)據(jù)的分布參數(shù)，如均值和方差，且數(shù)據(jù)的缺失位置與數(shù)據(jù)的先驗(yàn)分布相對(duì)獨(dú)立。類比文獻(xiàn)[11]中的缺失場(chǎng)景，本文考慮點(diǎn)狀缺失和塊狀缺失兩種雜波先驗(yàn)數(shù)據(jù)缺失場(chǎng)景，構(gòu)造缺失矩陣Δ的方式分別如下：

場(chǎng)景1：點(diǎn)狀缺失。設(shè)置點(diǎn)狀缺失概率p∈(0,1)，生成N×M個(gè)服從[0,1]均勻分布的隨機(jī)數(shù)構(gòu)成矩陣Δ，若Δ(i,j)＞p，則Δ(i,j)=1，反之Δ(i,j)=NaN，其中i=1,2,...,N,j=1,2,...,M；

場(chǎng)景2：塊狀缺失。同場(chǎng)景1，設(shè)置塊狀缺失概率p′ ∈(0,1)，在Δ中隨機(jī)生成n個(gè)缺失塊并賦值為NaN，其余數(shù)據(jù)皆令為1。缺失塊行數(shù)和列數(shù)分別為rl和cl，l=1,2,...,n。為保證場(chǎng)景設(shè)置的公平性，兩種場(chǎng)景下的缺失概率應(yīng)滿足：

點(diǎn)狀缺失和塊狀缺失示意圖分別如圖1(a)、圖1(b)所示，其中，白色代表缺失數(shù)據(jù)(取值為N aN)，黑色代表正常數(shù)據(jù)(取值為1)。

圖1 缺失場(chǎng)景示意圖Fig.1 Schematic diagram of the missing scene

2.2 波形設(shè)計(jì)問題模型

當(dāng)雜波先驗(yàn)協(xié)方差矩陣Rc完全已知時(shí)，已有眾多學(xué)者針對(duì)相關(guān)波形優(yōu)化問題展開研究，如Li等人[24]提出的SWORD (Signal Waveform’s Optimalunder-Restriction Design)方法等。然而，Rc估值的高準(zhǔn)確度依賴于大量完整的樣本數(shù)據(jù)。在雜波先驗(yàn)數(shù)據(jù)缺失的情況下，樣本信息不夠精確，協(xié)方差矩陣的估計(jì)誤差增大，難以保證優(yōu)越的雜波抑制性能。因此，本文考慮樣本數(shù)據(jù)缺失情況下的波形設(shè)計(jì)問題，并在式(4)中引入?yún)f(xié)方差矩陣約束Rc=h()，用于表征該雜波協(xié)方差矩陣由數(shù)據(jù)缺失樣本構(gòu)成，其中函數(shù)h(·)映射了該構(gòu)成過程。

2.3 波形優(yōu)化馬爾可夫過程模型

由于強(qiáng)化學(xué)習(xí)強(qiáng)調(diào)智能體在未知環(huán)境中以不斷試錯(cuò)的方式學(xué)習(xí)得到最優(yōu)策略，故本節(jié)將上述先驗(yàn)數(shù)據(jù)缺失條件下波形優(yōu)化問題刻畫為馬爾可夫過程。

將雷達(dá)視為智能體，在t時(shí)刻，智能體根據(jù)當(dāng)前時(shí)刻的狀態(tài)st以及策略π(at|st)向環(huán)境中發(fā)射動(dòng)作at，其中策略是從狀態(tài)到動(dòng)作概率分布的函數(shù)映射。然后，狀態(tài)st根據(jù)狀態(tài)轉(zhuǎn)移函數(shù)p(st+1|st,at)轉(zhuǎn)換到st+1，并獲得相應(yīng)的反饋獎(jiǎng)勵(lì)rt+1。假設(shè)t時(shí)刻的狀態(tài)僅與上一時(shí)刻的狀態(tài)有關(guān)，則整個(gè)學(xué)習(xí)過程可以描述為一個(gè)馬爾可夫決策過程(Markov Decision Process,MDP)[25]，用4元組表示為

其中，S為狀態(tài)集合st ∈S，A為動(dòng)作集合at ∈A，P為狀態(tài)轉(zhuǎn)移函數(shù)集合pt ∈P，R為獎(jiǎng)勵(lì)集合rt ∈R。

本文假設(shè)雷達(dá)發(fā)射機(jī)發(fā)射功率不變且載波頻率恒定，波形參數(shù)僅與發(fā)射相位有關(guān)，故將t時(shí)刻的離散相位值以及信雜噪比作為雷達(dá)在環(huán)境中的狀態(tài)表征；若考慮相似性約束，則添加相似度衡量當(dāng)前波形與參考波形的偏差，以期快速獲得良好的性能參數(shù)。相似度定義為

其中，st表示t時(shí)刻的發(fā)射波形。

綜上，t時(shí)刻的狀態(tài)可表示為

其中，θti表示t時(shí)刻的離散相位值，i=1,2,...,N。

將雷達(dá)的動(dòng)作設(shè)計(jì)為“指令”操作，即at={at1,at2,...,atN}，其中，ati有3種可能取值：0,1和2，不同取值對(duì)應(yīng)不同的操作：

其中，σ表示雷達(dá)執(zhí)行一次動(dòng)作對(duì)應(yīng)相位值的變化量。σ的設(shè)置與相位的分辨率息息相關(guān)，σ越小，雷達(dá)發(fā)射波形精確度越高；但當(dāng)σ過小時(shí)，雷達(dá)需要耗費(fèi)更多的時(shí)間去學(xué)習(xí)最佳波形，導(dǎo)致算法收斂速度變慢。需要注意的是，由于相位的周期性，在整個(gè)決策過程中需保證θti的值始終位于[0,2π]內(nèi)。

獎(jiǎng)勵(lì)函數(shù)是強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)的核心，其作用是針對(duì)上一時(shí)刻的動(dòng)作向強(qiáng)化學(xué)習(xí)模型提供即時(shí)反饋。因此，合理的獎(jiǎng)勵(lì)設(shè)計(jì)方式有利于智能體最優(yōu)執(zhí)行策略的學(xué)習(xí)。由于目標(biāo)SCNR是影響檢測(cè)性能的關(guān)鍵因素，因此本文以雷達(dá)濾波處理后的SCNR作為t時(shí)刻動(dòng)作所獲得的獎(jiǎng)勵(lì)：

3 基于級(jí)聯(lián)優(yōu)化的波形設(shè)計(jì)算法

針對(duì)上述波形設(shè)計(jì)問題，本文提出一種基于優(yōu)先級(jí)填充-強(qiáng)化學(xué)習(xí)級(jí)聯(lián)優(yōu)化的波形設(shè)計(jì)方法。該級(jí)聯(lián)算法包含缺失數(shù)據(jù)填充和波形優(yōu)化兩個(gè)部分，分別用函數(shù)f(·)和g(·)表示。如圖2所示，輸入數(shù)據(jù)缺失條件下的先驗(yàn)數(shù)據(jù)矩陣X，根據(jù)缺失值判斷數(shù)據(jù)缺失區(qū)域并將其作為缺失規(guī)則輸入雜波環(huán)境中。通過優(yōu)先級(jí)填充算法得到數(shù)據(jù)完整的雜波數(shù)據(jù)矩陣，進(jìn)一步估計(jì)雜波協(xié)方差矩陣，即=。強(qiáng)化學(xué)習(xí)波形設(shè)計(jì)的目的是通過雷達(dá)與雜波環(huán)境交互，訓(xùn)練生成最大SCNR的發(fā)射波形，即s=g()，其中，將優(yōu)先級(jí)填充算法輸出結(jié)果作為智能體與之交互的雜波環(huán)境。本文所提的級(jí)聯(lián)架構(gòu)亦是指以估計(jì)雜波協(xié)方差矩陣為基礎(chǔ)的強(qiáng)化學(xué)習(xí)波形設(shè)計(jì)框架，通過優(yōu)先級(jí)填充-強(qiáng)化學(xué)習(xí)級(jí)聯(lián)的迭代過程，最終獲得先驗(yàn)數(shù)據(jù)缺失條件下的優(yōu)化波形。

圖2 級(jí)聯(lián)優(yōu)化算法整體框架圖Fig.2 Overall framework diagarm of the cascade optimization algorithm

3.1 基于優(yōu)先級(jí)填充算法的雜波數(shù)據(jù)缺失估計(jì)方法

根據(jù)級(jí)聯(lián)優(yōu)化算法整體架構(gòu)，本節(jié)首先介紹基于優(yōu)先級(jí)的填充算法。將雜波缺失矩陣以及缺失區(qū)域輸入到雜波環(huán)境中，通過優(yōu)先級(jí)填充算法的映射關(guān)系f(·)，完成對(duì)雜波缺失數(shù)據(jù)的修復(fù)，估計(jì)輸出雜波協(xié)方差矩陣。如圖3所示，該修復(fù)過程為：首先，通過判斷雜波數(shù)據(jù)與缺失值是否匹配，將其分為目標(biāo)區(qū)域Ω和源區(qū)域Φ。目標(biāo)區(qū)域?qū)?yīng)數(shù)據(jù)缺失部分，其輪廓用δΩ表示；剩余部分為源區(qū)域。然后在目標(biāo)區(qū)域輪廓δΩ上選定點(diǎn)p，以p為中心點(diǎn)確定一待修復(fù)的正方形滑窗Ψp，在源區(qū)域內(nèi)搜索最佳匹配數(shù)據(jù)Ψq，令Ψp=Ψq，完成對(duì)Ψp的填充。最后，隨著填充進(jìn)度的推進(jìn)，不斷更新δΩ直至所有目標(biāo)區(qū)域Ω填充完成。

填充順序是數(shù)據(jù)修復(fù)質(zhì)量的關(guān)鍵性因素之一。傳統(tǒng)標(biāo)準(zhǔn)同心層填充算法以逆時(shí)針順序?qū)⑼膶訅K逐漸填入目標(biāo)區(qū)域，可能導(dǎo)致目標(biāo)輪廓附近源區(qū)域內(nèi)的完整數(shù)據(jù)被意外重構(gòu)，使得目標(biāo)輪廓區(qū)域的填充效果變差。因此，為了確定最佳樣本填充順序，本節(jié)引入樣本填充優(yōu)先級(jí)的計(jì)算[26]。針對(duì)上述目標(biāo)輪廓區(qū)域填充效果不明顯的問題，優(yōu)先級(jí)的計(jì)算偏向于數(shù)據(jù)差異大的強(qiáng)邊緣區(qū)域和高置信度的目標(biāo)區(qū)域。

給定中心點(diǎn)p以及目標(biāo)填充樣本Ψp，將優(yōu)先級(jí)函數(shù)P(p)表示為

其中，C(p)為置信度項(xiàng)，D(p)為數(shù)據(jù)項(xiàng)。置信度C(p)表征中心點(diǎn)p附近可靠數(shù)據(jù)的度量，即優(yōu)先填充目標(biāo)區(qū)域輪廓周圍的樣本并不斷向內(nèi)填充；數(shù)據(jù)項(xiàng)D(p)體現(xiàn)δΩ兩邊數(shù)據(jù)信息的差異大小，優(yōu)先填充差異較大的樣本。計(jì)算公式分別為

其中，|Ψp|表示Ψp的面積，κ是歸一化因子，?Ip為Ψp ∩I區(qū)間內(nèi)的最大梯度值，Jp表示p點(diǎn)處正交于目標(biāo)區(qū)域輪廓δΩ的單位向量?！捅硎菊?。初始化時(shí)，設(shè)置置信度函數(shù)C(p)為

獲得目標(biāo)區(qū)域內(nèi)所有待填充樣本的優(yōu)先級(jí)后，按照優(yōu)先級(jí)遞減的方向從源區(qū)域內(nèi)搜尋最相似樣本進(jìn)行填充。上述過程可通過最小化平方差之和算法實(shí)現(xiàn)：

其中，d(Ψa,Ψb)表示樣本Ψa和Ψb中數(shù)據(jù)的平方差之和。

此時(shí)雜波數(shù)據(jù)矩陣的目標(biāo)區(qū)域輪廓δΩ發(fā)生相應(yīng)變化，重復(fù)優(yōu)先級(jí)的計(jì)算，逐層更新直至目標(biāo)區(qū)域填充完成，即通過f(·)的映射關(guān)系，實(shí)現(xiàn)從雜波缺失矩陣到協(xié)方差矩陣的估計(jì)過程。算法步驟的偽代碼見表1。

表1 優(yōu)先級(jí)填充算法Tab.1 Priority filling algorithm

3.2 基于強(qiáng)化學(xué)習(xí)算法的波形設(shè)計(jì)方法

由3.1節(jié)可知，將優(yōu)先級(jí)填充算法補(bǔ)償后的雜波矩陣作為強(qiáng)化學(xué)習(xí)優(yōu)化算法中智能體的交互環(huán)境。雷達(dá)發(fā)射波形作用到雜波環(huán)境中并獲取反饋獎(jiǎng)勵(lì)，通過最大化累積獎(jiǎng)勵(lì)和的方式?jīng)Q策出最優(yōu)波形相位。整個(gè)過程基(于端)到端的學(xué)習(xí)方式，用函數(shù)g(·)表示，即。本文采用DDPG (Deep Deterministic Policy Gradient)算法實(shí)現(xiàn)函數(shù)g(·)的映射過程。DDPG算法是一種基于Actor-critic框架的深度確定性策略梯度算法[27]，由DPG (Deterministic Policy Gradient)算法改進(jìn)而來，得益于其在連續(xù)動(dòng)作空間中的有效決策性能，廣泛用于解決各領(lǐng)域中復(fù)雜連續(xù)的決策問題。在波形優(yōu)化設(shè)計(jì)問題中，由于動(dòng)作空間和狀態(tài)空間的高維連續(xù)性，使用DDPG算法可以更好地輸出最佳動(dòng)作策略。

Actor-critic框架由Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)構(gòu)成。Actor網(wǎng)絡(luò)輸入狀態(tài)st，輸出唯一確定性動(dòng)作at與環(huán)境交互，返回下一時(shí)刻的狀態(tài)st+1和獎(jiǎng)勵(lì)rt+1，其網(wǎng)絡(luò)權(quán)重參數(shù)用θ表示；Critic網(wǎng)絡(luò)輸入狀態(tài)st和動(dòng)作at，通過價(jià)值函數(shù)評(píng)估動(dòng)作at的優(yōu)劣性，其網(wǎng)絡(luò)權(quán)重參數(shù)用ω表示。為了避免網(wǎng)絡(luò)輸出的震蕩導(dǎo)致不穩(wěn)定的學(xué)習(xí)行為，增強(qiáng)算法的穩(wěn)定性，DDPG分別復(fù)制Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)生成相對(duì)應(yīng)的目標(biāo)網(wǎng)絡(luò)，其網(wǎng)絡(luò)權(quán)重參數(shù)分別用θ′和ω′表示。

在DDPG算法中，為了增加學(xué)習(xí)過程的隨機(jī)性，提高智能體對(duì)環(huán)境的探索概率，針對(duì)Actor網(wǎng)絡(luò)決策機(jī)制引入隨機(jī)噪聲，設(shè)計(jì)輸出動(dòng)作為

其中，μ(st|θ)表示Actor網(wǎng)絡(luò)在狀態(tài)st時(shí)的輸出動(dòng)作，N表示隨機(jī)噪聲過程。

Actor網(wǎng)絡(luò)采用off-police的訓(xùn)練方法，用于生成動(dòng)作的行為策略和評(píng)估策略不同。引入策略梯度下降法更新其網(wǎng)絡(luò)參數(shù)：

其中，K表示從經(jīng)驗(yàn)池中采樣的樣本數(shù)。更新Critic網(wǎng)絡(luò)時(shí)，采用均方誤差計(jì)算其損失函數(shù)：

其中，γ表示獎(jiǎng)勵(lì)衰減因子。

通過軟更新的方式分別更新Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的目標(biāo)網(wǎng)絡(luò)參數(shù)：

其中，τ表示軟更新系數(shù)，用于控制迭代中每一步更新的幅度，一般取τ=0.01。

結(jié)合前文分析，智能體通過Actor網(wǎng)絡(luò)輸出波形相位，將當(dāng)前所處狀態(tài)和動(dòng)作矢量信息輸入到Critic網(wǎng)絡(luò)中；Critic網(wǎng)絡(luò)輸出評(píng)估狀態(tài)-動(dòng)作對(duì)的Q值。利用梯度下降法和均方誤差分別計(jì)算Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的損失函數(shù)，結(jié)合軟更新的方式，實(shí)現(xiàn)策略網(wǎng)絡(luò)、評(píng)估網(wǎng)絡(luò)以及對(duì)應(yīng)目標(biāo)網(wǎng)絡(luò)參數(shù)的更新。DDPG偽代碼如表2所示，算法結(jié)構(gòu)框圖如圖4所示。

圖4 雷達(dá)波形設(shè)計(jì)的DDPG算法結(jié)構(gòu)圖Fig.4 Structure diagram of DDPG algorithm for radar waveform design

表2 基于DDPG的波形優(yōu)化算法Tab.2 Algorithm for waveform optimization based on DDPG

4 仿真分析

為了分析雷達(dá)雜波先驗(yàn)數(shù)據(jù)缺失對(duì)發(fā)射波形優(yōu)化過程的影響，驗(yàn)證本文所提級(jí)聯(lián)優(yōu)化算法的有效性，本節(jié)針對(duì)雜波先驗(yàn)數(shù)據(jù)點(diǎn)狀與塊狀缺失場(chǎng)景進(jìn)行仿真試驗(yàn)。

雜波數(shù)據(jù)缺失模型參數(shù)設(shè)置如下：N=16,M=2000，數(shù)據(jù)缺失概率p=0.1。為方便觀察數(shù)據(jù)修復(fù)效果，將雜波數(shù)據(jù)矩陣可視化，如圖5所示，為雜波參考矩陣C的俯視圖。據(jù)2.1節(jié)所述，設(shè)置點(diǎn)狀缺失和塊狀缺失如圖6所示，其中，黃色部分表示數(shù)據(jù)缺失。由于修復(fù)完成的雜波矩陣將進(jìn)一步計(jì)算雜波協(xié)方差矩陣，為提高數(shù)據(jù)缺失的代表性，將大多數(shù)缺失數(shù)據(jù)集中設(shè)置于N個(gè)脈沖編碼內(nèi)(圖6中第41行到第56行內(nèi))，保證內(nèi)耦合更多缺失數(shù)據(jù)信息。

圖5 雜波參考矩陣可視化圖Fig.5 Visualization of the clutter reference matrix

圖6 雜波數(shù)據(jù)信息缺失圖Fig.6 Missing information of clutter data

根據(jù)樣本優(yōu)先級(jí)填充算法，對(duì)雜波數(shù)據(jù)缺失矩陣目標(biāo)區(qū)域進(jìn)行修復(fù)。考慮到雜波數(shù)據(jù)缺失對(duì)后續(xù)波形優(yōu)化的影響，將雜波缺失矩陣中的N aN值設(shè)為500，并采用KNN填充算法作為對(duì)比算法進(jìn)行仿真試驗(yàn)，結(jié)果如圖7、圖8所示(黑色方框表示雜波數(shù)據(jù)缺失矩陣的目標(biāo)區(qū)域輪廓)。由圖7可看出，針對(duì)完全隨機(jī)缺失機(jī)制，雜波數(shù)據(jù)缺失部分在一定程度上得到了修復(fù)，然而點(diǎn)狀缺失數(shù)據(jù)分布比較分散，無法得出明顯的效果圖；由圖8可看出，在塊狀缺失場(chǎng)景下，優(yōu)先級(jí)填充算法結(jié)合了優(yōu)先級(jí)排序和樣本相似度的計(jì)算，修復(fù)效果明顯優(yōu)于KNN填充算法，與參考矩陣C差異較小。由此可得出初步結(jié)論：優(yōu)先級(jí)填充算法考慮了缺失點(diǎn)周圍數(shù)據(jù)的關(guān)聯(lián)性，可以從源區(qū)域內(nèi)全局搜索出最相似樣本塊進(jìn)行填充，并取得良好的修復(fù)效果。

圖7 點(diǎn)狀缺失場(chǎng)景下缺失數(shù)據(jù)修復(fù)圖Fig.7 Missing data repair diagram in the point-like missing scene

圖8 塊狀缺失場(chǎng)景下缺失數(shù)據(jù)修復(fù)圖Fig.8 Missing data repair diagram in the block-like missing scenario

為進(jìn)一步驗(yàn)證上述優(yōu)先級(jí)填充算法對(duì)缺失數(shù)據(jù)修復(fù)的有效性，設(shè)置不同的缺失概率，將修復(fù)后的雜波矩陣與參考雜波矩陣的均方根誤差(Root Mean Square Error,RMSE)作為衡量指標(biāo)，定量分析算法的優(yōu)劣性。如圖9所示，RMSE隨著缺失概率p的增加不斷增大。在點(diǎn)狀缺失場(chǎng)景下，優(yōu)先級(jí)填充算法修復(fù)誤差明顯低于KNN填充算法；在塊狀缺失場(chǎng)景下，當(dāng)缺失概率p<0.3時(shí)，優(yōu)先級(jí)填充算法略優(yōu)，隨著p繼續(xù)增加，其算法誤差亦快速增大，填充性能下降且劣于KNN填充算法。對(duì)比不同的缺失場(chǎng)景，根據(jù)缺失數(shù)據(jù)分布的均勻性可知，塊狀缺失的數(shù)據(jù)相較于點(diǎn)狀缺失更為集中，故點(diǎn)狀缺失的修復(fù)性能更佳，誤差更小。

圖9 不同缺失概率下數(shù)據(jù)修復(fù)性能分析Fig.9 Data repair performance analysis under different missing probability

表3 強(qiáng)化學(xué)習(xí)參數(shù)表Tab.3 Reinforcement learning parameters table

設(shè)置相位初始狀態(tài)為 01×16，運(yùn)行步驟step=1000，單個(gè)回合結(jié)束。訓(xùn)練曲線如圖10所示，圖10(a)、圖10(b)分別表示點(diǎn)狀缺失和塊狀缺失兩種雜波缺失場(chǎng)景下的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)曲線圖。由圖10可以看出，獎(jiǎng)勵(lì)曲線皆由初始的負(fù)獎(jiǎng)勵(lì)值快速上升至400左右，然后逐漸收斂并趨于穩(wěn)定，對(duì)應(yīng)最大信噪比可達(dá)16 dB。說明在雜波先驗(yàn)數(shù)據(jù)缺失的條件下，雷達(dá)發(fā)射機(jī)通過Critic網(wǎng)絡(luò)對(duì)動(dòng)作策略的評(píng)估及獎(jiǎng)勵(lì)反饋，成功學(xué)習(xí)到較優(yōu)的波形相位動(dòng)作。對(duì)比兩種缺失場(chǎng)景，由于塊狀缺失場(chǎng)景下缺失塊中心填充誤差較大，獎(jiǎng)勵(lì)曲線收斂速度相對(duì)較慢。

圖10 僅恒模約束下強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)曲線圖Fig.10 Reinforcement learning reward curves under constant modulus constraint

為驗(yàn)證完全隨機(jī)缺失機(jī)制下基于優(yōu)先級(jí)填充算法-強(qiáng)化學(xué)習(xí)級(jí)聯(lián)優(yōu)化的訓(xùn)練效果，以雷達(dá)接收信號(hào)的SCNR作為參考指標(biāo)進(jìn)行仿真分析。如圖11所示，橫坐標(biāo)表示輸入信雜噪比α2/tr(Rc+σ2)，其中α2表示信號(hào)的能量，σ2為噪聲方差，依據(jù)不同輸入條件設(shè)計(jì)噪聲能量值。在仿真中，設(shè)置缺失概率為0.1和0.3，將協(xié)方差矩陣無缺失條件下SWORD算法所得結(jié)果作為性能上限，將數(shù)據(jù)缺失條件下SWORD算法以及KNN填充后的SWORD算法與本文所提算法進(jìn)行仿真對(duì)比。由圖11可知，針對(duì)完全隨機(jī)缺失機(jī)制下的缺失場(chǎng)景，隨著雜噪比值的變化，所提算法能夠較好地逼近無缺失條件的波形設(shè)計(jì)性能，且優(yōu)于KNN補(bǔ)償算法。其中，隨著缺失概率p的增大，雜波有效先驗(yàn)數(shù)據(jù)信息減少，輸出性能略有下降。對(duì)比不同缺失場(chǎng)景，點(diǎn)狀缺失場(chǎng)景下的優(yōu)化性能相較于塊狀缺失場(chǎng)景更優(yōu)，但本文所提算法的優(yōu)勢(shì)在塊狀缺失場(chǎng)景中更為明顯。

圖11 僅恒模約束下不同場(chǎng)景的輸出SCNR性能曲線圖Fig.11 Output SCNR performance curves of different scenarios under constant modulus constraint

為驗(yàn)證不同約束對(duì)算法輸出性能的影響，在雷達(dá)波形優(yōu)化方程中添加相似性約束，并根據(jù)式(7)在強(qiáng)化學(xué)習(xí)t時(shí)刻的狀態(tài)中添加相似度參數(shù)?。仿真結(jié)果如圖12和圖13所示。從圖12可以看出，不同場(chǎng)景下的獎(jiǎng)勵(lì)曲線有明顯的提升和收斂表現(xiàn)；相較于無相似性約束下的仿真結(jié)果，由于具備參考波形的引導(dǎo)，Actor網(wǎng)絡(luò)能在相似度的衡量指標(biāo)下迅速逼近最佳輸出動(dòng)作，算法收斂速度加快且獎(jiǎng)勵(lì)值小幅提升。從圖13可以看出，本文所提算法在恒模與相似性約束條件下，仍然具有較優(yōu)的雜波抑制性能。由于對(duì)比實(shí)驗(yàn)均考慮了相同的波形相似性約束，雖然在輸出性能曲線上不同算法的仿真結(jié)果差異變小，但本文所提算法與無缺失條件下SWORD算法的性能表現(xiàn)更為接近，且依然優(yōu)于KNN算法補(bǔ)償后的傳統(tǒng)優(yōu)化算法。

圖12 相似性約束下強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)曲線圖Fig.12 Reinforcement learning reward curves under similarity constraints

圖13 相似性約束下不同場(chǎng)景的輸出SCNR性能曲線圖Fig.13 Output SCNR performance curves of different scenarios under similarity constraints

5 結(jié)語

針對(duì)雜波先驗(yàn)數(shù)據(jù)缺失條件下的波形優(yōu)化問題，本文提出了一種優(yōu)先級(jí)填充-強(qiáng)化學(xué)習(xí)級(jí)聯(lián)優(yōu)化的波形設(shè)計(jì)算法。為求解恒模約束和相似性約束下的非凸非線性優(yōu)化問題，本文首先根據(jù)缺失數(shù)據(jù)的優(yōu)先度在源區(qū)域內(nèi)搜索最佳匹配數(shù)據(jù)進(jìn)行填充，實(shí)現(xiàn)隨機(jī)缺失機(jī)制下的數(shù)據(jù)修復(fù)，再結(jié)合DDPG強(qiáng)化學(xué)習(xí)決策算法，通過Actor-Critic網(wǎng)絡(luò)架構(gòu)訓(xùn)練決策出雷達(dá)最佳相位選擇策略，實(shí)現(xiàn)最大信雜噪比下的波形優(yōu)化。最后，本文針對(duì)雜波先驗(yàn)數(shù)據(jù)不同缺失場(chǎng)景，采用數(shù)值仿真對(duì)比KNN算法填充后的SWORD優(yōu)化算法，分析結(jié)果表明：(1)級(jí)聯(lián)算法無需考慮先驗(yàn)數(shù)據(jù)的分布函數(shù)，對(duì)雜波數(shù)據(jù)的完全隨機(jī)缺失具有較好的修復(fù)效果；(2)針對(duì)點(diǎn)狀缺失和塊狀缺失場(chǎng)景，本文所提算法均可獲得優(yōu)越的雜波抑制性能，進(jìn)一步提升雷達(dá)的探測(cè)能力。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放