亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的干擾智能決策方法研究*

2019-10-09 05:22:22裴緒芳陳學(xué)強(qiáng)呂麗剛張雙義劉松儀汪西明

通信技術(shù) 2019年9期

裴緒芳，陳學(xué)強(qiáng)，呂麗剛，張雙義，劉松儀，汪西明

（1.中國人民解放軍陸軍工程大學(xué) 通信工程學(xué)院，江蘇南京 210000；2.中央軍委訓(xùn)練管理部信息中心，北京 100000）

0 引言

電磁空間是現(xiàn)代戰(zhàn)爭作戰(zhàn)概念和技術(shù)的重要拓展，作為未來戰(zhàn)爭體系的物質(zhì)基礎(chǔ)，電磁頻譜的爭奪和反爭奪將成為戰(zhàn)爭制勝的關(guān)鍵[1-2]。近年來，人工智能技術(shù)的迅猛發(fā)展為電子對抗領(lǐng)域開辟了新的思路[3-6]。為提高惡劣電磁環(huán)境下的通信對抗能力，急需研究應(yīng)對敵方干擾攻擊的抗干擾技術(shù)，以保障己方在惡劣電磁環(huán)境中的正常通信。同時，利用干擾攻擊影響并破壞敵方的無線通信，也是提升通信對抗能力不可或缺的一部分。在電磁頻譜對抗環(huán)境下，為了對敵方通信實施有效干擾，引入了智能干擾的概念。

傳統(tǒng)的干擾模式主要有定點(diǎn)干擾、掃頻干擾、梳狀干擾和跟蹤干擾等。然而，由于這幾類干擾模式相對固定且模式單一，通信用戶可以輕易尋找到干擾的變化規(guī)律而成功躲避干擾。若要對敵方通信實現(xiàn)精準(zhǔn)有效干擾，必須提高干擾算法的智能性。針對現(xiàn)有干擾技術(shù)存在的缺點(diǎn)與不足，美國國防高級研究局（DARPA）開展了行為學(xué)習(xí)自適應(yīng)電子戰(zhàn)（BLADE）、自適應(yīng)雷達(dá)對抗（ARC）和極端射頻條件下的通信等研究項目，引入自主學(xué)習(xí)機(jī)制以實現(xiàn)穩(wěn)健通信，獲取戰(zhàn)場環(huán)境的電磁權(quán)。相比于傳統(tǒng)的干擾技術(shù)，智能干擾所面臨的挑戰(zhàn)主要有：（1）敵方通信用戶通信策略時刻變化，目標(biāo)識別獲取困難，干擾方需要準(zhǔn)確獲取目標(biāo)特征，快速生成最佳干擾；（2）干擾方必須具備在線持續(xù)學(xué)習(xí)能力，根據(jù)環(huán)境的動態(tài)變化不斷產(chǎn)生后續(xù)干擾策略。

近年來，很多學(xué)者在智能干擾方面展開了研究[7-10]。文獻(xiàn)[7]研究了多天線MIMO無線通信鏈路的智能干擾攻擊問題，提出了一種最優(yōu)干擾信號設(shè)計方案，當(dāng)收發(fā)機(jī)采用抗干擾機(jī)制時，可以最大限度地干擾MIMO傳輸。文獻(xiàn)[8]研究了干擾偽隨機(jī)碼相位調(diào)制引信，提出了一種基于多時延智能欺騙的新型干擾方法，并通過仿真驗證了智能干擾算法的有效性。文獻(xiàn)[9]提出了一種多臂式結(jié)構(gòu)的干擾策略，能夠自適應(yīng)調(diào)整功率，有效地干擾敵方用戶通信，且證明了算法可以收斂到最優(yōu)干擾策略。文獻(xiàn)[10]從強(qiáng)化學(xué)習(xí)的角度出發(fā)，設(shè)計了一種基于強(qiáng)化學(xué)習(xí)的智能干擾算法，干擾機(jī)通過自主學(xué)習(xí)，可以實現(xiàn)對敵方通信用戶進(jìn)行跟蹤干擾的目的。

受文獻(xiàn)[10]的啟發(fā)，本文提出了一種基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法。干擾方可以通過學(xué)習(xí)用戶的信道切換規(guī)律，不斷優(yōu)化干擾策略。與文獻(xiàn)[10]不同之處在于：（1）在系統(tǒng)模型層面，文獻(xiàn)[10]只考慮干擾單個通信用戶，而本文同時干擾兩個通信用戶；（2）在算法設(shè)計層面，文獻(xiàn)[10]使用經(jīng)典Q學(xué)習(xí)算法，而本文提出了一種基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法；（3）本文所提算法重新定義了系統(tǒng)的效用回報為干擾的占空比，算法收斂速度更快。

文章章節(jié)設(shè)置如下：第1節(jié)給出系統(tǒng)模型，并將干擾策略的決策過程建模為一個MDP過程；第2節(jié)針對建立的問題模型，提出了一種基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法；第3節(jié)給出了仿真結(jié)果，并分析了算法性能；最后，進(jìn)行總結(jié)。

1 系統(tǒng)模型及問題建模

1.1 系統(tǒng)模型

本文考慮無線通信網(wǎng)絡(luò)中存在1個干擾機(jī)、1個認(rèn)知引擎和2個用戶，系統(tǒng)模型如圖1所示。系統(tǒng)的全頻段頻譜被劃分為M個帶寬相等的信道，信道集表示為每個信道帶寬為W。通信用戶雙方采用掃頻、梳狀以及隨機(jī)等信道切換策略進(jìn)行通信，干擾方通過認(rèn)知引擎獲得信道狀態(tài)信息，并根據(jù)獲得的信道狀態(tài)信息執(zhí)行強(qiáng)化學(xué)習(xí)算法來學(xué)習(xí)用戶的信道切換規(guī)律，以不斷優(yōu)化自身的干擾策略。假設(shè)每個用戶在每時隙只選擇一個信道進(jìn)行通信，干擾方同時干擾兩個信道。

圖1 系統(tǒng)模型

1.2 問題建模

考慮到用戶通信信道時刻動態(tài)變化，干擾方需要探索用戶的通信規(guī)律，以對其實施有效干擾。假設(shè)系統(tǒng)中存在M個可用信道，為了使描述更直觀，以M=7為例進(jìn)行舉例說明。假設(shè)用戶1以掃頻方式通信，用戶2以固定序列跳頻方式通信，其用戶通信信道切換示意圖如圖2所示。

圖2 用戶通信信道切換

針對以上提出的問題，本文將干擾信道選擇問題建模為MDP過程。MDP一般用一個4元組表示，即，其中S代表狀態(tài)空間，A代表動作空間，P代表狀態(tài)轉(zhuǎn)移概率，R代表效用回報。具體定義如下。

設(shè)置狀態(tài)空間s：在n時隙時，干擾方的狀態(tài)可表示為sn=(cu1,cu2)，cu1,cu2∈ {1,2,…,M}，其中cu1、cu2通過認(rèn)知引擎的頻譜感知獲得，分別代表當(dāng)前用戶1和用戶2的通信信道，因此狀態(tài)空間的大小為

設(shè)置動作空間A：在n時隙時，干擾方會選擇兩個信道進(jìn)行干擾，干擾的動作可表示為an=(cj1,cj2)，cj1,cj2∈ {1,2,…,M}，cj1、cj2分別表示干擾方下一時刻選擇干擾的信道，因此動作空間的大小為

設(shè)置狀態(tài)轉(zhuǎn)移概率矩陣P：在n時隙時，表示干擾方從當(dāng)前狀態(tài)sn選擇動作an到達(dá)下一時隙狀態(tài)sn+1狀態(tài)的概率。

設(shè)置干擾效用R：干擾的目標(biāo)是探索最優(yōu)的干擾信道選擇策略使得累計成功干擾概率最大。n時隙時，在當(dāng)前狀態(tài)sn下，干擾選擇動作an，此時獲得的回報值為rn。本文中定義的rn為n時隙干擾方的占空比，即用戶單個時隙內(nèi)成功干擾到用戶通信所占的比例，具體可表示為：

其中Toverlap為n時隙內(nèi)用戶通信被干擾的時長，Tuser為用戶通信時隙長度。

本文中，系統(tǒng)的優(yōu)化目標(biāo)為尋找到最優(yōu)的干擾策略π，最大化系統(tǒng)累積成功干擾概率，即：

根據(jù)對動態(tài)環(huán)境下干擾信道決策問題的分析，將其建模為一個MDP。對于這種未知環(huán)境下的決策問題，通常采用強(qiáng)化學(xué)習(xí)（RL）[3]給予解決。近年來，Q學(xué)習(xí)作為一種最典型的強(qiáng)化學(xué)習(xí)方法得到了廣泛應(yīng)用。與文獻(xiàn)[10]不同，由于本文的系統(tǒng)模型狀態(tài)空間較大，傳統(tǒng)的Q學(xué)習(xí)算法無法解決由維數(shù)增長帶來的狀態(tài)空間巨大的問題，因此本文提出了一種基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法。

2 基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法

Q學(xué)習(xí)是一種無模型的在線學(xué)習(xí)算法，無需知道環(huán)境的先驗知識，直接通過與環(huán)境不斷交互獲得最優(yōu)的策略[3]。在執(zhí)行Q學(xué)習(xí)算法的過程中，智能體會維護(hù)一張Q值表，用于評估不同狀態(tài)下對應(yīng)各個動作的優(yōu)劣程度。Q學(xué)習(xí)的基本原理如圖3所示。

圖3 Q學(xué)習(xí)基本原理

在執(zhí)行算法的初始時刻，Q值表為全零矩陣，智能體會根據(jù)當(dāng)前狀態(tài)sn做出一個動作an，并獲得相應(yīng)的回報rn，同時更新Q值表。隨著智能體不斷地與環(huán)境進(jìn)行交互，Q值表趨于穩(wěn)定，策略逐漸收斂于最優(yōu)。

為了使系統(tǒng)長期累積回報最大化，需要將單步回報值進(jìn)行累加求和從而得到長遠(yuǎn)回報。對于這種長期任務(wù)下的回報值計算，需引入折扣因子γ。為評價在給定狀態(tài)下采取某個策略好壞，一般通過值函數(shù)來反映。因此，在某一策略π下獲得的γ折扣長遠(yuǎn)累積回報可表示為[11]：

智能體在狀態(tài)sn下采取動作an獲得的Q值可表示為：

目標(biāo)是找到最優(yōu)策略能夠獲得最大化折扣回報，根據(jù)Bellman方程最優(yōu)策略下所對應(yīng)值函數(shù)V*(sn)可定義為[11]：

同理可得，對于Q*(sn)函數(shù)的Bellman最優(yōu)方程可定義為：

在本文所提的系統(tǒng)模型中，定義在sn狀態(tài)下選擇動作an，同時獲得一個回報值rn，然后更新相應(yīng)的Q值。由于本文信道狀態(tài)數(shù)較多，所以采用了并行多步更新Q值的方式，即同時對每個狀態(tài)-動作對的Q值進(jìn)行更新。Q學(xué)習(xí)算法的更新公式為：

其中α表示學(xué)習(xí)速率，具體為α=1/(1+Ta(n))，Ta(n)是干擾的決策動作an在過去n個時隙中執(zhí)行的次數(shù)。γ（0<γ≤1）表示折扣因子，ψ為干擾方在sn+1狀態(tài)下所有可選策略對應(yīng)的最大Q值，具體表示為：

在Q學(xué)習(xí)算法執(zhí)行過程中，若干擾方每一步都根據(jù)當(dāng)前Q值選擇最優(yōu)策略，即最大Q值對應(yīng)的動作，很容易陷入局部最優(yōu)而無法去探索更多的策略。與文獻(xiàn)[10]不同的是，本文的決策空間較大，若使用標(biāo)準(zhǔn)的Q學(xué)習(xí)，會導(dǎo)致算法收斂速度較慢甚至無法收斂的情況。因此，本文提出了一種基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法，即在策略選擇過程中，通過增加一個附加值來探索最優(yōu)策略[5]。它可以平衡在策略選擇過程中探索與利用的關(guān)系，并且可以大大提高算法的收斂速度。策略更新公式為：

其中CH是預(yù)先設(shè)定大于零的常數(shù)，Wa(n)為偏差因子，具體表示為：

其中Si(an)為選擇決策動作an的第i個狀態(tài)，rn為當(dāng)前狀態(tài)sn下的即時回報值。干擾在選擇并執(zhí)行動作a(n)后，在第n+1時隙到達(dá)狀態(tài)

在無線通信系統(tǒng)中，用戶以任意模式的信道切換策略進(jìn)行通信，干擾方執(zhí)行Q學(xué)習(xí)算法學(xué)習(xí)用戶的信道切換規(guī)律。在執(zhí)行算法的開始，干擾方的初始狀態(tài)設(shè)置為s0(cu1(0),cu2(0))，其中cu1(0)、cu2(0)分別為用戶1和用戶2在0-th的通信信道，由干擾方通過認(rèn)知引擎的頻譜感知獲得。干擾方在0-th隨機(jī)選擇兩個信道cj1(0)、cj2(0)釋放干擾信號，并計算相應(yīng)的回報值。之后的Twbss時間內(nèi)，干擾方通過認(rèn)知引擎的頻譜感知獲得當(dāng)前時刻用戶1和用戶2的通信信道cu1(1)、cu2(1)，然后更新下一時隙的狀態(tài)為s1(cu1(1),cu2(1))，同時對Q值表中s0狀態(tài)下所有動作的Q值進(jìn)行更新。算法依次迭代，最終在動態(tài)變化的環(huán)境中收斂到最優(yōu)的干擾策略。詳細(xì)的算法流程如下：

初始化：

1.設(shè)置仿真時隙數(shù)為N（N>0），初始時隙為n=0。

2.設(shè)置Q學(xué)習(xí)參數(shù)γ，初始化Q值表Q(s,a)=0。

3.設(shè)置初始工作狀態(tài)為s0=(cu1(0),cu2(0))，其中cu1(0)、cu2(0)由認(rèn)知引擎的頻譜感知獲得。干擾方隨機(jī)從所有信道中選擇兩個信道作為初始干擾信道cj1(0)、cj2(0)。

循環(huán)開始n=0,1,2,…,N-1

4.干擾方在cu1(n)、cu2(n)信道上對用戶通信進(jìn)行干擾，干擾時隙長度為Tjam，根據(jù)式（1）計算相應(yīng)的回報值rn。

5.干擾方通過認(rèn)知引擎的頻譜感知獲得用戶當(dāng)前時刻的通信信道cu1(n+1)、cu2(n+1)。

7.計算α=1/(1+Ta(n))。

8.根據(jù)式（7）并行更新所有狀態(tài)-動作對的Q值。

9.n=n+1。

10.更新狀態(tài)，令sn+1=sn。

循環(huán)結(jié)束

3 仿真結(jié)果

本節(jié)對所提基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法在MATLAB上進(jìn)行仿真驗證，并分析其收斂性能。仿真中，假設(shè)用戶1以掃頻方式進(jìn)行通信，用戶2以固定跳頻序列方式進(jìn)行通信，其信道切換規(guī)律如表1所示。本文的主要系統(tǒng)參數(shù)設(shè)置如下：信道數(shù)M=16，學(xué)習(xí)速率α∈(0,1]，折扣因子γ=0.8。仿真時隙參數(shù)設(shè)置如表2所示。

表1 敵方用戶信道切換規(guī)律

表2 仿真時隙參數(shù)設(shè)置

圖4給出了系統(tǒng)采用不同干擾算法的干擾概率曲線。為了評估所提算法的性能，比較基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法、文獻(xiàn)[10]所提智能干擾算法和基于感知的隨機(jī)信道選擇算法的算法性能。圖4中干擾概率曲線是由干擾每20個時隙中成功干擾次數(shù)所占比例計算所得。通過圖4可以發(fā)現(xiàn)，與文獻(xiàn)[10]所提智能干擾算法以及基于感知的隨機(jī)信道選擇算法相比，本文所提算法干擾性能良好，且較文獻(xiàn)[10]中提出的智能干擾算法相比，收斂速度更快。

圖5中給出了干擾和用戶時頻圖。圖5（a）為在強(qiáng)化學(xué)習(xí)初期的干擾效果圖，開始階段干擾無法捕捉用戶的通信信道，只能通過隨機(jī)選擇的方式不斷探索規(guī)律，用戶被干擾的概率極低。圖5（b）為在強(qiáng)化學(xué)習(xí)末期（系統(tǒng)達(dá)到收斂條件）的干擾效果圖，圖中畫圈部分即表明用戶被干擾。經(jīng)過在線學(xué)習(xí)，干擾找到了用戶的通信規(guī)律，基本上可以成功對用戶通信頻點(diǎn)進(jìn)行干擾。

圖4 系統(tǒng)采用不同算法的干擾概率變化曲線

圖5 干擾與用戶時頻圖

4 結(jié) 語

本文研究了頻譜對抗環(huán)境中干擾智能決策問題。將干擾方的信道決策過程建模為一個MDP，提出了一種基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法。為了證明所提算法的有效性，本文將所提算法與文獻(xiàn)[10]所提智能干擾算法和基于感知的隨機(jī)信道選擇算法進(jìn)行對比。仿真結(jié)果表明，所提算法的收斂速度最快，還可以根據(jù)當(dāng)前的用戶通信環(huán)境成功學(xué)習(xí)到最優(yōu)的干擾策略。本文為大規(guī)模無線網(wǎng)絡(luò)中的智能干擾研究提供了新的思路，未來將研究更加復(fù)雜的用戶通信策略，使通信對抗雙方更具有智能性。