亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的干擾智能決策方法研究*

        2019-10-09 05:22:22裴緒芳陳學(xué)強(qiáng)呂麗剛張雙義劉松儀汪西明
        通信技術(shù) 2019年9期
        關(guān)鍵詞:動作智能用戶

        裴緒芳,陳學(xué)強(qiáng),呂麗剛,張雙義,劉松儀,汪西明

        (1.中國人民解放軍陸軍工程大學(xué) 通信工程學(xué)院,江蘇 南京 210000;2.中央軍委訓(xùn)練管理部信息中心,北京 100000)

        0 引 言

        電磁空間是現(xiàn)代戰(zhàn)爭作戰(zhàn)概念和技術(shù)的重要拓展,作為未來戰(zhàn)爭體系的物質(zhì)基礎(chǔ),電磁頻譜的爭奪和反爭奪將成為戰(zhàn)爭制勝的關(guān)鍵[1-2]。近年來,人工智能技術(shù)的迅猛發(fā)展為電子對抗領(lǐng)域開辟了新的思路[3-6]。為提高惡劣電磁環(huán)境下的通信對抗能力,急需研究應(yīng)對敵方干擾攻擊的抗干擾技術(shù),以保障己方在惡劣電磁環(huán)境中的正常通信。同時,利用干擾攻擊影響并破壞敵方的無線通信,也是提升通信對抗能力不可或缺的一部分。在電磁頻譜對抗環(huán)境下,為了對敵方通信實施有效干擾,引入了智能干擾的概念。

        傳統(tǒng)的干擾模式主要有定點(diǎn)干擾、掃頻干擾、梳狀干擾和跟蹤干擾等。然而,由于這幾類干擾模式相對固定且模式單一,通信用戶可以輕易尋找到干擾的變化規(guī)律而成功躲避干擾。若要對敵方通信實現(xiàn)精準(zhǔn)有效干擾,必須提高干擾算法的智能性。針對現(xiàn)有干擾技術(shù)存在的缺點(diǎn)與不足,美國國防高級研究局(DARPA)開展了行為學(xué)習(xí)自適應(yīng)電子戰(zhàn)(BLADE)、自適應(yīng)雷達(dá)對抗(ARC)和極端射頻條件下的通信等研究項目,引入自主學(xué)習(xí)機(jī)制以實現(xiàn)穩(wěn)健通信,獲取戰(zhàn)場環(huán)境的電磁權(quán)。相比于傳統(tǒng)的干擾技術(shù),智能干擾所面臨的挑戰(zhàn)主要有:(1)敵方通信用戶通信策略時刻變化,目標(biāo)識別獲取困難,干擾方需要準(zhǔn)確獲取目標(biāo)特征,快速生成最佳干擾;(2)干擾方必須具備在線持續(xù)學(xué)習(xí)能力,根據(jù)環(huán)境的動態(tài)變化不斷產(chǎn)生后續(xù)干擾策略。

        近年來,很多學(xué)者在智能干擾方面展開了研究[7-10]。文獻(xiàn)[7]研究了多天線MIMO無線通信鏈路的智能干擾攻擊問題,提出了一種最優(yōu)干擾信號設(shè)計方案,當(dāng)收發(fā)機(jī)采用抗干擾機(jī)制時,可以最大限度地干擾MIMO傳輸。文獻(xiàn)[8]研究了干擾偽隨機(jī)碼相位調(diào)制引信,提出了一種基于多時延智能欺騙的新型干擾方法,并通過仿真驗證了智能干擾算法的有效性。文獻(xiàn)[9]提出了一種多臂式結(jié)構(gòu)的干擾策略,能夠自適應(yīng)調(diào)整功率,有效地干擾敵方用戶通信,且證明了算法可以收斂到最優(yōu)干擾策略。文獻(xiàn)[10]從強(qiáng)化學(xué)習(xí)的角度出發(fā),設(shè)計了一種基于強(qiáng)化學(xué)習(xí)的智能干擾算法,干擾機(jī)通過自主學(xué)習(xí),可以實現(xiàn)對敵方通信用戶進(jìn)行跟蹤干擾的目的。

        受文獻(xiàn)[10]的啟發(fā),本文提出了一種基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法。干擾方可以通過學(xué)習(xí)用戶的信道切換規(guī)律,不斷優(yōu)化干擾策略。與文獻(xiàn)[10]不同之處在于:(1)在系統(tǒng)模型層面,文獻(xiàn)[10]只考慮干擾單個通信用戶,而本文同時干擾兩個通信用戶;(2)在算法設(shè)計層面,文獻(xiàn)[10]使用經(jīng)典Q學(xué)習(xí)算法,而本文提出了一種基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法;(3)本文所提算法重新定義了系統(tǒng)的效用回報為干擾的占空比,算法收斂速度更快。

        文章章節(jié)設(shè)置如下:第1節(jié)給出系統(tǒng)模型,并將干擾策略的決策過程建模為一個MDP過程;第2節(jié)針對建立的問題模型,提出了一種基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法;第3節(jié)給出了仿真結(jié)果,并分析了算法性能;最后,進(jìn)行總結(jié)。

        1 系統(tǒng)模型及問題建模

        1.1 系統(tǒng)模型

        本文考慮無線通信網(wǎng)絡(luò)中存在1個干擾機(jī)、1個認(rèn)知引擎和2個用戶,系統(tǒng)模型如圖1所示。系統(tǒng)的全頻段頻譜被劃分為M個帶寬相等的信道,信道集表示為每個信道帶寬為W。通信用戶雙方采用掃頻、梳狀以及隨機(jī)等信道切換策略進(jìn)行通信,干擾方通過認(rèn)知引擎獲得信道狀態(tài)信息,并根據(jù)獲得的信道狀態(tài)信息執(zhí)行強(qiáng)化學(xué)習(xí)算法來學(xué)習(xí)用戶的信道切換規(guī)律,以不斷優(yōu)化自身的干擾策略。假設(shè)每個用戶在每時隙只選擇一個信道進(jìn)行通信,干擾方同時干擾兩個信道。

        圖1 系統(tǒng)模型

        1.2 問題建模

        考慮到用戶通信信道時刻動態(tài)變化,干擾方需要探索用戶的通信規(guī)律,以對其實施有效干擾。假設(shè)系統(tǒng)中存在M個可用信道,為了使描述更直觀,以M=7為例進(jìn)行舉例說明。假設(shè)用戶1以掃頻方式通信,用戶2以固定序列跳頻方式通信,其用戶通信信道切換示意圖如圖2所示。

        圖2 用戶通信信道切換

        針對以上提出的問題,本文將干擾信道選擇問題建模為MDP過程。MDP一般用一個4元組表示,即,其中S代表狀態(tài)空間,A代表動作空間,P代表狀態(tài)轉(zhuǎn)移概率,R代表效用回報。具體定義如下。

        設(shè)置狀態(tài)空間s:在n時隙時,干擾方的狀態(tài)可 表 示 為sn=(cu1,cu2),cu1,cu2∈ {1,2,…,M}, 其 中cu1、cu2通過認(rèn)知引擎的頻譜感知獲得,分別代表當(dāng)前用戶1和用戶2的通信信道,因此狀態(tài)空間的大小為

        設(shè)置動作空間A:在n時隙時,干擾方會選擇兩個信道進(jìn)行干擾,干擾的動作可表示為an=(cj1,cj2),cj1,cj2∈ {1,2,…,M},cj1、cj2分 別 表 示 干擾方下一時刻選擇干擾的信道,因此動作空間的大小為

        設(shè)置狀態(tài)轉(zhuǎn)移概率矩陣P:在n時隙時,表示干擾方從當(dāng)前狀態(tài)sn選擇動作an到達(dá)下一時隙狀態(tài)sn+1狀態(tài)的概率。

        設(shè)置干擾效用R:干擾的目標(biāo)是探索最優(yōu)的干擾信道選擇策略使得累計成功干擾概率最大。n時隙時,在當(dāng)前狀態(tài)sn下,干擾選擇動作an,此時獲得的回報值為rn。本文中定義的rn為n時隙干擾方的占空比,即用戶單個時隙內(nèi)成功干擾到用戶通信所占的比例,具體可表示為:

        其中Toverlap為n時隙內(nèi)用戶通信被干擾的時長,Tuser為用戶通信時隙長度。

        本文中,系統(tǒng)的優(yōu)化目標(biāo)為尋找到最優(yōu)的干擾策略π,最大化系統(tǒng)累積成功干擾概率,即:

        根據(jù)對動態(tài)環(huán)境下干擾信道決策問題的分析,將其建模為一個MDP。對于這種未知環(huán)境下的決策問題,通常采用強(qiáng)化學(xué)習(xí)(RL)[3]給予解決。近年來,Q學(xué)習(xí)作為一種最典型的強(qiáng)化學(xué)習(xí)方法得到了廣泛應(yīng)用。與文獻(xiàn)[10]不同,由于本文的系統(tǒng)模型狀態(tài)空間較大,傳統(tǒng)的Q學(xué)習(xí)算法無法解決由維數(shù)增長帶來的狀態(tài)空間巨大的問題,因此本文提出了一種基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法。

        2 基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法

        Q學(xué)習(xí)是一種無模型的在線學(xué)習(xí)算法,無需知道環(huán)境的先驗知識,直接通過與環(huán)境不斷交互獲得最優(yōu)的策略[3]。在執(zhí)行Q學(xué)習(xí)算法的過程中,智能體會維護(hù)一張Q值表,用于評估不同狀態(tài)下對應(yīng)各個動作的優(yōu)劣程度。Q學(xué)習(xí)的基本原理如圖3所示。

        圖3 Q學(xué)習(xí)基本原理

        在執(zhí)行算法的初始時刻,Q值表為全零矩陣,智能體會根據(jù)當(dāng)前狀態(tài)sn做出一個動作an,并獲得相應(yīng)的回報rn,同時更新Q值表。隨著智能體不斷地與環(huán)境進(jìn)行交互,Q值表趨于穩(wěn)定,策略逐漸收斂于最優(yōu)。

        為了使系統(tǒng)長期累積回報最大化,需要將單步回報值進(jìn)行累加求和從而得到長遠(yuǎn)回報。對于這種長期任務(wù)下的回報值計算,需引入折扣因子γ。為評價在給定狀態(tài)下采取某個策略好壞,一般通過值函數(shù)來反映。因此,在某一策略π下獲得的γ折扣長遠(yuǎn)累積回報可表示為[11]:

        智能體在狀態(tài)sn下采取動作an獲得的Q值可表示為:

        目標(biāo)是找到最優(yōu)策略能夠獲得最大化折扣回報,根據(jù)Bellman方程最優(yōu)策略下所對應(yīng)值函數(shù)V*(sn)可定義為[11]:

        同理可得,對于Q*(sn)函數(shù)的Bellman最優(yōu)方程可定義為:

        在本文所提的系統(tǒng)模型中,定義在sn狀態(tài)下選擇動作an,同時獲得一個回報值rn,然后更新相應(yīng)的Q值。由于本文信道狀態(tài)數(shù)較多,所以采用了并行多步更新Q值的方式,即同時對每個狀態(tài)-動作對的Q值進(jìn)行更新。Q學(xué)習(xí)算法的更新公式為:

        其中α表示學(xué)習(xí)速率,具體為α=1/(1+Ta(n)),Ta(n)是干擾的決策動作an在過去n個時隙中執(zhí)行的次數(shù)。γ(0<γ≤1)表示折扣因子,ψ為干擾方在sn+1狀態(tài)下所有可選策略對應(yīng)的最大Q值,具體表示為:

        在Q學(xué)習(xí)算法執(zhí)行過程中,若干擾方每一步都根據(jù)當(dāng)前Q值選擇最優(yōu)策略,即最大Q值對應(yīng)的動作,很容易陷入局部最優(yōu)而無法去探索更多的策略。與文獻(xiàn)[10]不同的是,本文的決策空間較大,若使用標(biāo)準(zhǔn)的Q學(xué)習(xí),會導(dǎo)致算法收斂速度較慢甚至無法收斂的情況。因此,本文提出了一種基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法,即在策略選擇過程中,通過增加一個附加值來探索最優(yōu)策略[5]。它可以平衡在策略選擇過程中探索與利用的關(guān)系,并且可以大大提高算法的收斂速度。策略更新公式為:

        其中CH是預(yù)先設(shè)定大于零的常數(shù),Wa(n)為偏差因子,具體表示為:

        其中Si(an)為選擇決策動作an的第i個狀態(tài),rn為當(dāng)前狀態(tài)sn下的即時回報值。干擾在選擇并執(zhí)行動作a(n)后,在第n+1時隙到達(dá)狀態(tài)

        在無線通信系統(tǒng)中,用戶以任意模式的信道切換策略進(jìn)行通信,干擾方執(zhí)行Q學(xué)習(xí)算法學(xué)習(xí)用戶的信道切換規(guī)律。在執(zhí)行算法的開始,干擾方的初始狀態(tài)設(shè)置為s0(cu1(0),cu2(0)),其中cu1(0)、cu2(0)分別為用戶1和用戶2在0-th的通信信道,由干擾方通過認(rèn)知引擎的頻譜感知獲得。干擾方在0-th隨機(jī)選擇兩個信道cj1(0)、cj2(0)釋放干擾信號,并計算相應(yīng)的回報值。之后的Twbss時間內(nèi),干擾方通過認(rèn)知引擎的頻譜感知獲得當(dāng)前時刻用戶1和用戶2的通信信道cu1(1)、cu2(1),然后更新下一時隙的狀態(tài)為s1(cu1(1),cu2(1)),同時對Q值表中s0狀態(tài)下所有動作的Q值進(jìn)行更新。算法依次迭代,最終在動態(tài)變化的環(huán)境中收斂到最優(yōu)的干擾策略。詳細(xì)的算法流程如下:

        初始化:

        1.設(shè)置仿真時隙數(shù)為N(N>0),初始時隙為n=0。

        2.設(shè)置Q學(xué)習(xí)參數(shù)γ,初始化Q值表Q(s,a)=0。

        3.設(shè)置初始工作狀態(tài)為s0=(cu1(0),cu2(0)),其中cu1(0)、cu2(0)由認(rèn)知引擎的頻譜感知獲得。干擾方隨機(jī)從所有信道中選擇兩個信道作為初始干擾信道cj1(0)、cj2(0)。

        循環(huán)開始n=0,1,2,…,N-1

        4.干擾方在cu1(n)、cu2(n)信道上對用戶通信進(jìn)行干擾,干擾時隙長度為Tjam,根據(jù)式(1)計算相應(yīng)的回報值rn。

        5.干擾方通過認(rèn)知引擎的頻譜感知獲得用戶當(dāng)前時刻的通信信道cu1(n+1)、cu2(n+1)。

        7.計算α=1/(1+Ta(n))。

        8.根據(jù)式(7)并行更新所有狀態(tài)-動作對的Q值。

        9.n=n+1。

        10.更新狀態(tài),令sn+1=sn。

        循環(huán)結(jié)束

        3 仿真結(jié)果

        本節(jié)對所提基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法在MATLAB上進(jìn)行仿真驗證,并分析其收斂性能。仿真中,假設(shè)用戶1以掃頻方式進(jìn)行通信,用戶2以固定跳頻序列方式進(jìn)行通信,其信道切換規(guī)律如表1所示。本文的主要系統(tǒng)參數(shù)設(shè)置如下:信道數(shù)M=16,學(xué)習(xí)速率α∈(0,1],折扣因子γ=0.8。仿真時隙參數(shù)設(shè)置如表2所示。

        表1 敵方用戶信道切換規(guī)律

        表2 仿真時隙參數(shù)設(shè)置

        圖4給出了系統(tǒng)采用不同干擾算法的干擾概率曲線。為了評估所提算法的性能,比較基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法、文獻(xiàn)[10]所提智能干擾算法和基于感知的隨機(jī)信道選擇算法的算法性能。圖4中干擾概率曲線是由干擾每20個時隙中成功干擾次數(shù)所占比例計算所得。通過圖4可以發(fā)現(xiàn),與文獻(xiàn)[10]所提智能干擾算法以及基于感知的隨機(jī)信道選擇算法相比,本文所提算法干擾性能良好,且較文獻(xiàn)[10]中提出的智能干擾算法相比,收斂速度更快。

        圖5中給出了干擾和用戶時頻圖。圖5(a)為在強(qiáng)化學(xué)習(xí)初期的干擾效果圖,開始階段干擾無法捕捉用戶的通信信道,只能通過隨機(jī)選擇的方式不斷探索規(guī)律,用戶被干擾的概率極低。圖5(b)為在強(qiáng)化學(xué)習(xí)末期(系統(tǒng)達(dá)到收斂條件)的干擾效果圖,圖中畫圈部分即表明用戶被干擾。經(jīng)過在線學(xué)習(xí),干擾找到了用戶的通信規(guī)律,基本上可以成功對用戶通信頻點(diǎn)進(jìn)行干擾。

        圖4 系統(tǒng)采用不同算法的干擾概率變化曲線

        圖5 干擾與用戶時頻圖

        4 結(jié) 語

        本文研究了頻譜對抗環(huán)境中干擾智能決策問題。將干擾方的信道決策過程建模為一個MDP,提出了一種基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法。為了證明所提算法的有效性,本文將所提算法與文獻(xiàn)[10]所提智能干擾算法和基于感知的隨機(jī)信道選擇算法進(jìn)行對比。仿真結(jié)果表明,所提算法的收斂速度最快,還可以根據(jù)當(dāng)前的用戶通信環(huán)境成功學(xué)習(xí)到最優(yōu)的干擾策略。本文為大規(guī)模無線網(wǎng)絡(luò)中的智能干擾研究提供了新的思路,未來將研究更加復(fù)雜的用戶通信策略,使通信對抗雙方更具有智能性。

        猜你喜歡
        動作智能用戶
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        動作描寫要具體
        畫動作
        動作描寫不可少
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        亚洲av无码成人黄网站在线观看 | 无码视频在线观看| 亚洲 暴爽 av人人爽日日碰| 国产亚洲欧美精品一区| 亚洲全国最大的人成网站| 日本人妻免费在线播放| 少妇高潮流白浆在线观看| 久久精品岛国av一区二区无码| 亚洲国产成人aⅴ毛片大全| 极品夫妻一区二区三区| 国产av国片精品有毛| 亚洲av无码乱观看明星换脸va | 亚洲精品无码久久久久| 天天躁夜夜躁天干天干2020| 久久人人97超碰超国产| 性无码国产一区在线观看| 91精品国产综合久久精品密臀 | 亚洲一级毛片免费在线观看| 精品一区二区中文字幕| 日本a级特级黄色免费| 成人午夜福利视频镇东影视| 久久噜噜噜| 日韩精品有码中文字幕| 一本色综合网久久| 好紧好爽免费午夜视频| 人妻丰满熟妇av无码区hd| 2021国产精品视频| 18禁成人免费av大片一区| 亚洲成熟女人毛毛耸耸多| 人人狠狠综合久久亚洲| 亚洲成a人网站在线看| 亚洲av中文字字幕乱码| 人妻精品视频一区二区三区| 免费无码一区二区三区蜜桃大 | 亚洲无线码一区二区三区| 国内精品九九久久久精品| 美女黄网站永久免费观看网站| 可免费观看的av毛片中日美韩| 国产成人aaaaa级毛片| 精品一区二区三区在线观看视频| 国产亚洲av人片在线播放|