亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于正強化學(xué)習(xí)和正交分解的干擾策略選擇算法

        2018-03-14 02:26:23顓孫少帥楊俊安黃科舉
        關(guān)鍵詞:樣式干擾信號分量

        顓孫少帥, 楊俊安, 劉 輝, 黃科舉

        (1. 國防科技大學(xué)電子對抗學(xué)院, 安徽 合肥 230037; 2. 安徽省電子制約技術(shù)重點實驗室, 安徽 合肥 230037)

        0 引 言

        近年來,隨著各種信息技術(shù)在軍事領(lǐng)域的應(yīng)用,信息戰(zhàn)的地位愈加重要,奪取戰(zhàn)場制信息權(quán)對戰(zhàn)場勝負的影響舉足輕重。對于干擾敵方信息傳遞通道以實現(xiàn)通信拒止而言,其難度隨著敵方在通信過程中使用認知無線電、加密、鑒權(quán)、新的信號調(diào)制樣式等技術(shù)而變得愈加困難,但是值得注意的是,無線通信的開放性使得對其干擾仍存在較大的可行性,而選擇合適的干擾策略對實現(xiàn)成功干擾至關(guān)重要[1-3]。當前許多參數(shù)優(yōu)化理論如:博弈論、粒子群算法、遺傳算法等相繼被用于搜索最佳干擾策略[4-6],然而上述理論成功實施的前提條件是需要有關(guān)通信方、環(huán)境的部分先驗信息,鑒于部分先驗信息對干擾方而言是無法獲得的,即便獲得也與真實信息之間存在偏差,使得此類理論無法適用于缺乏先驗信息的場景。強化學(xué)習(xí)[7-8]作為在線的、與外界環(huán)境實時交互的機器學(xué)習(xí)理論,具有魯棒性強、實時交互、無需先驗信息的特點。文獻[8]提出了針對網(wǎng)絡(luò)優(yōu)化問題的解決方法,所提方法對模型中的各種可行動作聯(lián)合操作,但要求明確知道每個動作對應(yīng)的獎賞信息。文獻[9]提出了多臂老虎機算法,并就該算法在有限時間內(nèi)的收斂性能和學(xué)習(xí)能力進行了理論論證。文獻[11]提出了利用強化學(xué)習(xí)的Q方法求取最優(yōu)信道接入策略。文獻[12-13]深入研究了利用強化學(xué)習(xí)算法從物理層、MAC層搜索最佳干擾策略,得出在某些情況下最優(yōu)干擾信號與被干擾信號具有不相同調(diào)制樣式,以及干擾MAC層某些幀具有更優(yōu)干擾性能的結(jié)論。

        強化學(xué)習(xí)理論在解決未知、復(fù)雜環(huán)境問題時具有優(yōu)異的性能,然而當前強化學(xué)習(xí)算法卻面臨著收斂速度慢的困境,需要干擾機同環(huán)境進行長時間的交互,特別是當待求解的干擾參數(shù)數(shù)目較多時,往往會帶來“維數(shù)災(zāi)難”難題。因此,從實用角度出發(fā),如何加快算法收斂速度是亟需解決的問題。本文在對干擾問題建模后,將正強化學(xué)習(xí)的思想用于干擾動作選擇,以有目的性選擇動作取代貪婪算法中隨機選擇動作的做法,通過合理的設(shè)置正強化算法相關(guān)參數(shù),使得該算法具有快速的收斂速度。此外,在選擇需要學(xué)習(xí)的干擾參數(shù)時,提出利用同相分量、正交分量構(gòu)造不同類型的干擾樣式,取代當前利用BPSK、QPSK等干擾樣式直接進行干擾的方法,該方法豐富了干擾樣式的種類,便于干擾方學(xué)習(xí)到最佳干擾樣式。仿真結(jié)果表明,正強化算法能夠降低尋優(yōu)過程中的交互次數(shù),而正交分解算法能夠取得更優(yōu)的干擾效果。

        1 系統(tǒng)模型

        以通信雙方采用MQAM調(diào)制(M=4,8,16,…)為例,根據(jù)通信協(xié)議,接收方對接收信號進行濾波、解調(diào)、抽樣判決、譯碼等相關(guān)處理后獲得信息。對于意圖實現(xiàn)通信拒止的干擾方而言,其可通過在特定頻率上發(fā)送干擾信號的方式擾亂通信信號波形,阻止接收方解調(diào)出正確信息。文獻[12]指出,干擾方在構(gòu)造干擾信號時不僅需要準確選擇干擾樣式,還需要確定干擾信號的功率、脈沖率等干擾參數(shù)以實現(xiàn)最佳干擾,其中脈沖率定義為干擾時間與通信信號持續(xù)時間的比值。在無先驗信息的前提下,Amuru提出了基于強化學(xué)習(xí)理論的干擾老虎機(jamming bandit, JB)算法,在對功率、脈沖率等連續(xù)參數(shù)進行離散化處理后,建立了與干擾參數(shù)對應(yīng)的多臂老虎機模型,并根據(jù)算法動態(tài)從干擾參數(shù)集{功率、干擾樣式、脈沖率}中選擇參數(shù)組對通信信號施加干擾,將接收方發(fā)射的ACK/NACK幀信息作為對選擇參數(shù)組的獎賞,經(jīng)過長時間交互后確定最佳干擾參數(shù)組,即最佳干擾策略。當通信信號調(diào)制樣式為矩形QPSK時,Amuru給出3種干擾樣式即,AWGN、BPSK和QPSK。這樣設(shè)定的明顯缺點是:干擾信號的調(diào)制樣式只能選擇上述3種干擾樣式中的一種,除非最佳干擾樣式確定是三者中的一種,否則最終通過學(xué)習(xí)獲得的干擾樣式非最佳干擾樣式,進而學(xué)習(xí)到的功率、脈沖率也并非最優(yōu)的。在JB算法中,為了能夠?qū)W習(xí)到最優(yōu)干擾樣式,需要干擾方事先準備盡可能多的干擾樣式,但直接導(dǎo)致參數(shù)空間的維度成倍增加,更大的參數(shù)空間意味著需要更多次數(shù)的交互來尋找最優(yōu)參數(shù),進而極大地延長了學(xué)習(xí)到最佳干擾策略的時間。本文提出了基于正強化學(xué)習(xí)和正交分解的干擾策略選擇算法,該算法利用正交分解實現(xiàn)不同干擾樣式的選擇,同時利用正強化的思想建立起干擾參數(shù)組之間的聯(lián)系,在選擇參數(shù)組時更具目的性。

        1.1 干擾樣式正交分解

        文獻[12]中構(gòu)造的多臂老虎機模型,干擾樣式、脈沖率以及信號功率的各種可能組合構(gòu)成了不同的干擾參數(shù)組為{AWGN,BPSK,QPSK}×{1/M,2/M,…,1}×JNRmin+(JNRmax-JNRmin)*{1/M,2/M,…,1},該式中{AWGN, BPSK,QPSK}為備選干擾樣式集;{1/M,2/M,…,1}為離散后的脈沖率集;JNRmin+(JNRmax-JNRmin)*{1/M,2/M,…,1}為離散后的功率集;符號“*”表示乘積;“×”為笛卡爾積;JNR為通信方接收到的干擾信號平均功率與噪聲功率的比值,即平均干噪比,接收到的通信信號的平均功率與噪聲功率的比值,即平均信噪比用SNR表示;策略{BPSK,ρ,JNRt}表示干擾方應(yīng)構(gòu)造功率PJ=JNRt/ρ的BPSK信號,以概率ρ對通信信號施加干擾,該策略亦可理解為多臂老虎機的一個“臂”。在上述案例中,由于干擾樣式集內(nèi)元素個數(shù)過少,致使干擾樣式的學(xué)習(xí)空間具有局限性,為此需要豐富干擾樣式的種類以便于學(xué)習(xí)到最優(yōu)干擾樣式。通過對干擾信號進行正交分解(orthogonal decomposition, OD),可知信號由功率Pj、正余弦波形、調(diào)制信息jm及載波頻率fc組成,其表達式為

        (1)

        式中,Ac、As分別作為同相維和正交維的幅值,最優(yōu)值為0或某一特定值[12]。

        通過比較同相分量Ac和正交分量As之間的關(guān)系,得出以下結(jié)論:

        (1) 當Ac=0(或As=0)時,構(gòu)造BPSK干擾樣式,相位信息θ∈(0,2π)取值{0,π}。

        (2) 當Ac=As時,構(gòu)造QPSK干擾樣式,在該干擾樣式中相位信息θ∈(0,2π)分別為{π/4,3π/4,5π/4,7π/4}。

        (3) 當Ac≠As≠0時,構(gòu)造出另類的矩形4- QAM,相位信息θ∈(0,2π)取決于Ac和As的取值。

        星座圖畸變通信信號對應(yīng)的最佳干擾樣式如圖1所示。

        圖1 星座圖畸變通信信號對應(yīng)的最佳干擾樣式Fig.1 Distorted signal constellation and corresponding optimal jamming scheme

        由圖1可知,采用矩形8-PSK調(diào)制樣式的通信信號由于噪聲、連續(xù)波干擾、載波抑制、壓縮增益等因素導(dǎo)致其理想星座圖(白色圓圈所示)出現(xiàn)畸變(黑色圓圈所示)。鑒于此,無噪聲時最佳干擾信號星座圖(六角星所示)也需要相應(yīng)的改變(三角形所示)以實現(xiàn)最佳干擾,可以看出新干擾信號星座圖同相分量與正交分量的幅值已不再相等或成整數(shù)倍關(guān)系,而是與畸變后的星座圖息息相關(guān),存在各種可能的關(guān)系。在構(gòu)造具有此類特殊星座圖的干擾樣式時,只有利用正交分解方法才能學(xué)習(xí)最佳同相分量和正交分量值。

        正交分解算法不再拘泥于選擇某種已知干擾樣式,而是從最根本的因素同相分量和正交分量的角度出發(fā),將尋找最優(yōu)干擾樣式問題轉(zhuǎn)化為搜索最優(yōu)同相分量和正交分量問題。因此,在構(gòu)造干擾參數(shù)組時以變化的同相、正交分量作為干擾樣式集的構(gòu)造依據(jù),可實現(xiàn)干擾樣式種類的增多,便于尋找到最優(yōu)干擾樣式。

        1.2 正強化學(xué)習(xí)

        強化學(xué)習(xí)有4種方式,包括正強化、負強化、正懲罰及負懲罰。正強化是給予行為好的刺激,增加該行為出現(xiàn)的概率;負強化是指去掉壞的刺激,該刺激旨在為引發(fā)所希望行為的出現(xiàn)而設(shè)立;正懲罰是針對行為施加壞的刺激,即不當?shù)男袨槌霈F(xiàn)時給予處罰的方法;負懲罰是指去掉好的刺激,指當不好的行為出現(xiàn)時不再給予原有獎勵。強化(正強化、負強化)與懲罰(正懲罰、負懲罰)的區(qū)別在于外界給予好的獎賞還是壞的刺激,如果是前者則為強化,后者為懲罰。正、負的區(qū)別體現(xiàn)在獎賞或刺激對動作出現(xiàn)概率的影響,提高則為正,降低則為負。

        一般情況下,無論給予或去掉刺激,強化學(xué)習(xí)針對的對象均為具體的單個動作,即假設(shè)不同的動作之間是相互獨立的關(guān)系,從環(huán)境中獲得的獎賞僅與具體的動作有關(guān),如果想要知道某個動作對應(yīng)的獎賞值,需要將該動作至少執(zhí)行一遍,否則無法獲悉該動作的任何獎賞信息。誠然,這樣的假設(shè)具有一般性,然而對于特定的任務(wù)如動作之間存在一定的關(guān)聯(lián)時,可適當?shù)乩脛幼髦g的關(guān)聯(lián)性對動作空間進行有目的性選取。以脈沖率參數(shù)選擇為例,利用動態(tài)參數(shù)M對區(qū)間[0,1]進行離散處理,無論是JB算法還是貪婪算法,對該空間內(nèi)的動作進行選擇時無非采用窮舉法和隨機選擇法兩種挑選方式,不同脈沖率下符號錯誤率如圖2所示。

        圖2 不同脈沖率下符號錯誤率Fig.2 Symbol error rate under different pulsing ratio

        由圖2可知,一定距離內(nèi)(陰影部分)的某些動作往往獲得相似的獎賞,帶來的啟示是:當?shù)弥承﹦幼鞯莫勝p信息后,再一次選擇動作時可優(yōu)先選擇最大獎賞動作附近的動作,類似于“愛屋及烏”的表現(xiàn),但同時也要以一定的概率探索未知動作空間,將上述“愛屋及烏”的行為定義為正強化效應(yīng)。

        正強化效應(yīng):對于一個動作元素固定排列且相鄰動作間存在關(guān)聯(lián)的動作空間,當該空間內(nèi)的某個動作被選中后,在該動作獲得相應(yīng)獎賞的同時,對該動作某一維或若干維中距其一定距離δ內(nèi)的動作相應(yīng)地提高下一次被選擇概率,距離參數(shù)由人為根據(jù)經(jīng)驗設(shè)定。

        簡單來說,正強化效應(yīng)具有以下3種性質(zhì):

        性質(zhì)1距離參數(shù)為非負值,其上限值取決于具體問題。

        性質(zhì)2受強化效應(yīng)影響的動作應(yīng)少于或等于動作元素的總數(shù)。

        性質(zhì)3動作空間每個維度的強化距離并非完全相同,相互間是獨立關(guān)系,可分別取不同的值。

        特別地,上述動作選擇方法可理解為另類的貪婪算法——(ε1,ε2)-Greedy,算法以概率1-ε1-ε2對當前已知最大獎賞動作加以利用,以概率ε1選擇已知最大獎賞動作一定距離內(nèi)的動作執(zhí)行,以概率ε2對尚未執(zhí)行過的動作加以探索,其中ε1和ε2的取值人為設(shè)定,可為固定值或動態(tài)變化值。此外,距離δ的取值依賴于人為經(jīng)驗設(shè)置,不同δ對算法性能的影響將在下文給出。

        圖2給出了脈沖率維度的強化效應(yīng),假設(shè)x1、x2、x3已被選中執(zhí)行過且x2對應(yīng)較大的獎賞,那么,以概率1-ε1-ε2執(zhí)行動作x2,以概率ε1選擇區(qū)間[x2-δ,x2+δ]內(nèi)(不包括x2)的動作執(zhí)行,以概率ε2對區(qū)間[0,x1-δ]∪[x1+δ,x2-δ]∪[x2+δ,x3-δ]∪[x3+δ,1]內(nèi)的動作隨機挑選并執(zhí)行。

        同理,可以將強化效應(yīng)推廣至功率和脈沖率雙重維度,如圖3所示。

        當動作空間功率-脈沖的某個動作被選中后,將提高一定區(qū)域內(nèi)(圖中陰影部分)動作被選中的概率,且功率和脈沖率維度可選擇不同的強化距離δPower和δρ。

        圖3 功率-脈沖率維度的正強化效應(yīng)Fig.3 Positive reinforcement effect in power and pulsing ratio dimensions

        2 正強化學(xué)習(xí)-正交分解算法

        2.1 多臂老虎機的構(gòu)造

        對于多臂老虎機問題,面臨的任務(wù)是如何從有限的次數(shù)中盡可能多地選擇平均獎賞值較高的“臂”以便獲得最大獎賞。這里的“臂”是指采取的動作,當面臨的是干擾任務(wù)時,動作則具體為干擾信號參數(shù)的選擇。由于干擾樣式集元素數(shù)目太少時使得多臂老虎機模型的構(gòu)造不具有一般性,致使系統(tǒng)學(xué)習(xí)不到最佳干擾策略;而數(shù)目過多時又嚴重影響系統(tǒng)的學(xué)習(xí)速度,需要消耗系統(tǒng)與環(huán)境間大量的交互次數(shù),為此本節(jié)從正交分解的角度著手構(gòu)造新型的多臂老虎機模型。

        有別于文獻[12]中的構(gòu)造方法,本節(jié)以{同相分量功率,ρ,JNR}構(gòu)造多臂老虎機的“臂”,PJ*{1/N,2/N,…,1}×{1/M,2/M,…,1}× JNRmin+(JNRmax-JNRmin)*{1/K,2/K,…,1}。式中,PJ*{1/N,2/N,…,1}為同相分量功率集;后兩項分別為脈沖率集和平均干噪比集;N、M、K分別為各集合離散化參數(shù),可分別取不同值或取相同值。此外,由于同相分量與正交分量的功率和為干擾功率,因此僅需要知道某一分量便能夠確定另一個分量的值,進而也就不需要在“臂”的構(gòu)造中額外添加干擾策略集合{正交分量功率}。

        2.2 強化距離

        正強化效應(yīng)用于提高某些已知動作周圍區(qū)域內(nèi)動作被選中的概率,區(qū)域的大小與強化距離有關(guān),該距離的取值可根據(jù)經(jīng)驗選取某一合適值,過大或過小都不會對算法的尋優(yōu)過程有所幫助。例如,當強化距離過大時,被正強化效應(yīng)作用的區(qū)域隨之變大,如果該區(qū)域包含過多的動作,極端情況是包含所有可能的動作,此時正強化效應(yīng)對動作的選取是沒有幫助的,對問題的求解退化為利用普通的貪婪算法。反之,如果強化距離過小,甚至比連續(xù)參數(shù)離散化后的最小粒度1/M(M值較大)還要小時,正強化效應(yīng)作用的區(qū)域內(nèi)除已知動作外將不包含任何動作,這種情況下同樣對動作的選取沒有任何幫助,反而徒增干擾方算法的計算復(fù)雜度,此時算法同樣退化為普通的貪婪算法。

        2.3 基于正強化學(xué)習(xí)和正交分解的干擾策略選擇算法

        將構(gòu)造的新穎多臂老虎機模型與正強化效應(yīng)相結(jié)合構(gòu)成了本文提出的正強化學(xué)習(xí)-正交分解算法。詳細的算法流程如算法1所示。

        算法1PRL-OD算法

        (1)T←1,JNR

        (2) WhileT≤ndo

        (3)M=100,N=50,duration=M*N/10

        (4) Fort=T,T+1,…T+durationdo

        (5) 利用正強化選擇算法從行為集合PJ*{1/N,2/N,…,1}×{1/M,2/M,…,1}中選擇動作,其中“×”表示笛卡爾積。選擇行為at并估計相應(yīng)的rt。

        (6) 利用正強化效應(yīng)確定影響區(qū)域。

        “duration”表示對當前M值選擇執(zhí)行動作的交互次數(shù),由于適當?shù)恼龔娀?yīng)有助于動作的選擇,因此無需對動作空間內(nèi)的動作逐個進行嘗試,第3.1節(jié)實驗仿真部分根據(jù)仿真結(jié)果對“duration”值的設(shè)定進行分析,便于算法在應(yīng)用過程中選擇合適的初始值。算法中將干擾信號功率N取值為50,這種由人為設(shè)定初始值的方法具有普適性,但也可以動態(tài)地改變N值。

        算法2正強化選擇算法

        (1) 設(shè)定初始值:強化距離δPower和δρ,計算(ε1,ε2)-Greedy算法中ε1和ε2。

        (3) 確定區(qū)間[Powera-δPower,Powera+δPower]、[ρa-δρ,ρa+δρ]內(nèi)包含的動作。

        (4) 以概率1-ε1-ε2從已知獎賞的動作集合中選擇動作,以概率ε1從第3步動作集合中選擇動作,以概率ε2對強化區(qū)域外未知獎賞動作集合中的動作隨機抽取。

        (5) 確定了下一步要執(zhí)行的動作

        貪婪算法作為高效策略搜索方法,盡管使用條件苛刻,但經(jīng)過嚴格的證明該方法理論可行,可將其與多臂老虎機模型相結(jié)合用于搜索最佳干擾策略。與環(huán)境間持續(xù)不斷的交互是強化學(xué)習(xí)算法得以運行的關(guān)鍵,也是其能夠適應(yīng)復(fù)雜變化環(huán)境的根本,交互是為了對所采取的動作進行評價,即算法1、算法2中提及的獎賞信息。將通信接收端的符號錯誤率(symbol error rate, SER)作為獎賞標準,以便于同文獻[5,12]中的算法進行性能比較。此外,參數(shù)諸如δPower、δρ、ε1、ε2可事先由干擾方根據(jù)經(jīng)驗設(shè)定固定的值,還可以動態(tài)改變參數(shù)值的大小。

        3 實驗仿真

        為驗證正強化學(xué)習(xí)以及正交分解算法搜索最佳干擾策略的可行性,第3.1節(jié)、第3.2節(jié)分別對兩種方法的性能進行仿真驗證,并就算法中的若干參數(shù)對算法性能的影響進行分析。第3.3節(jié)驗證了PRL-OD算法的尋優(yōu)性和收斂性,并將仿真結(jié)果同文獻[12]提出的JB算法及貪婪算法共同進行比較。此外,最佳干擾參數(shù)以獲悉各種先驗信息為前提,通過粒子群算法優(yōu)化獲得,本文以此為依據(jù)衡量所提算法的尋優(yōu)性能。

        3.1 正強化學(xué)習(xí)的策略尋優(yōu)性能

        以通信雙方采取BPSK調(diào)制樣式進行通信為例,SNR=20 dB,JNR=10 dB,干擾信號調(diào)制樣式同樣為BPSK,信道中的噪聲均值為0,方差為1的AWGN。文獻[12]指出干擾脈沖率ρ=0.078為最優(yōu)解,能夠給通信方造成最大SER。為此,人為將脈沖率區(qū)間[0,1]均勻離散成1 000個參數(shù)值,最小粒度為0.001,按照不同方法從1 000個值中選擇指定個數(shù)動作作為干擾信號的待選參數(shù)。JB算法采用的隨機選擇方法與本文提出的正強化方法在尋優(yōu)性能方面的比較如圖4所示。

        圖4 正強化算法與隨機選擇方法尋優(yōu)性能比較Fig.4 Comparison of optimal searching performance between positive reinforcement learning and chose randomly

        由圖4(a)可知正強化算法與隨機選擇方法在搜索最佳參數(shù)時性能之間的比較,當從1 000個參數(shù)值中隨機選擇400個作為干擾動作嘗試對象時,僅能以概率0.394搜索到最優(yōu)脈沖率0.078,以概率0.606搜索到次優(yōu)值如0.075、0.076、0.077、0.079等。而當采用正強化算法時,以概率0.995搜索到最優(yōu)脈沖率0.078,以概率0.005搜索到其他次優(yōu)值。因此,利用正強化算法能夠在有限的交互次數(shù)中以較大的概率搜索到最優(yōu)脈沖率。由圖4(b)可知交互次數(shù)對兩種算法尋優(yōu)性能的影響,強化距離固定為0.004,對于隨機選擇方法而言,其搜索到最優(yōu)脈沖率的概率與交互次數(shù)呈線性增長關(guān)系,而正強化算法在交互次數(shù)超過一定閾值后幾乎以概率1搜索到最優(yōu)脈沖率,一般情況下可設(shè)定該閾值為干擾動作總數(shù)的1/10。強化距離是正強化算法中一個重要參數(shù),選擇合適的強化距離有助于提高搜索到最優(yōu)脈沖率的概率。由圖4(c)可知強化距離對正強化算法的影響,交互次數(shù)設(shè)置為150次,由于隨機選擇方法與強化距離無關(guān),因此其搜索性能不隨強化距離的改變而改變,搜索到最優(yōu)脈沖率的概率近乎成水平直線。當強化距離為0時,正強化算法退化為普通隨機選擇方法,此時兩種算法的尋優(yōu)性能相當;當強化距離介于一定范圍內(nèi)時,如[0.001,0.04],正強化算法能夠以較高的概率(近似等于1)搜索到最優(yōu)脈沖率;然而當強化距離過大時,算法的尋優(yōu)性能反而呈下降趨勢,主要原因在于取值過大的強化距離限制了算法搜索強化距離以外區(qū)域的可能性,盡管如此,正強化算法較隨機選擇方法仍然具有更強的尋優(yōu)能力;當強化距離為1時,正強化算法同樣退化為普通的隨機選擇方法,兩種算法的尋優(yōu)性能幾乎一致。

        3.2 OD算法的策略尋優(yōu)性能

        3.2.1 AWGN影響下算法的尋優(yōu)性能

        為盡可能準確地獲得最佳干擾樣式,排除人為、硬件等干擾因素的外在影響,首先考慮信道中僅存在AWGN的情況,并假設(shè)噪聲均值為0、方差為1。在僅考慮AWGN影響時,通信信號的星座圖會變得模糊但仍然關(guān)于坐標軸對稱,利用正交分解算法學(xué)習(xí)到的干擾信號最佳調(diào)制樣式與文獻[12]學(xué)習(xí)到的結(jié)果在大部分情況下具有相同的干擾效果。例如,當通信方采取BPSK、I型QPSK(相位分布為{0,π/2,π,3π/2})、4-PAM、Ⅱ型QPSK(相位分布為{π/4,3π/4,5π/4,7π/4},亦稱為矩形QPSK)、矩形8PSK、矩形16QAM,SNR=20 dB,JNRmin=0 dB,JNRmax=26 dB時,正交分解算法能夠根據(jù)干擾功率與通信功率之間的關(guān)系學(xué)習(xí)到不同的干擾樣式,使得干擾效果總體上等于或優(yōu)于JB算法,不同平均干噪比下兩種算法的干擾效果如圖5所示。

        圖5 加性高斯白噪聲條件下JB算法與OD算法干擾效果比較Fig.5 Comparison of jamming performance between JB and OD in AWGN scenarios

        由圖5可知,利用OD算法獲得最優(yōu)參數(shù)的干擾性能不比JB算法學(xué)習(xí)的參數(shù)差,且在某些情況下要優(yōu)于JB算法的學(xué)習(xí)結(jié)果,如通信方采取I型QPSK通信,SNR=20 dB,JNR=16 dB的情況。因此,在僅考慮AWGN影響的前提下,OD算法能夠?qū)W習(xí)到最優(yōu)參數(shù)。

        3.2.2 星座圖畸變情況下算法的尋優(yōu)性能

        盡管在僅考慮AWGN影響的情況下,利用OD算法的學(xué)習(xí)結(jié)果在干擾性能方面與文獻[5]提出的算法性能相當,然而在現(xiàn)實情況下許多其他干擾因素是不容忽略且無法忽略的,它們的存在或多或少地會引起通信信號星座圖的畸變,正如第2.1節(jié)的分析結(jié)果,對星座圖畸變的通信信號施加干擾時,最佳干擾樣式并非是各種標準干擾樣式如BPSK、QPSK、矩形8PSK,而是信號的同相分量和正交分量存在各種可能的組合。同樣假設(shè)通信方采用BPSK、I型QPSK、Ⅱ型QPSK、8PSK、16QAM、4PAM等調(diào)制樣式進行通信,SNR=20 dB,JNR∈[0,26]dB,信道中噪聲是均值為0方差為1的AWGN,信號星座圖因I、Q路不平衡的原因向右偏移2單位,向上偏移1單位,分別利用JB算法和OD算法學(xué)習(xí)最優(yōu)干擾參數(shù),兩種算法在不同平均干噪比條件下學(xué)習(xí)策略的干擾性能如圖6所示。

        圖6 星座畸變環(huán)境下OD算法的干擾效果Fig.6 Comparison of jamming performance between JB and OD in constellation distortion scenarios

        由圖6可知,Ac∶As=1∶0意味著干擾功率全部集中在同相分量上,而Ac∶As=0.78∶0.22意味著干擾功率在同相分量和正交分量之間按照0.78∶0.22的比例進行劃分。從表中數(shù)據(jù)可以看出,當通信方以BPSK方式進行通信時,OD算法與JB算法學(xué)習(xí)到相同的干擾樣式BPSK,由圖6(a)可知兩種方法具有相同的干擾結(jié)果。當通信方以8PSK方式進行通信時,JB算法學(xué)習(xí)到的最優(yōu)干擾樣式為Ⅱ型QPSK,即干擾能量在同相分量和正交分量之間均勻劃分,利用OD算法學(xué)習(xí)到的結(jié)果為0.78∶0.22,即較多的干擾能量應(yīng)該分配給同相分量。由圖6(b)可知,利用OD算法學(xué)習(xí)的結(jié)果較JB算法具有更強的干擾性能,即利用OD算法學(xué)習(xí)的結(jié)果更優(yōu)。

        以SNR=20 dB,JNR=10 dB為例,針對通信方采取不同的調(diào)制樣式,兩種算法學(xué)習(xí)到的最佳干擾策略在不同條件下存在顯著區(qū)別,具體如表 1所示。

        表1 利用OD算法獲得的最佳干擾樣式

        3.3 PRL-OD算法的策略尋優(yōu)性能

        JB算法在計算過程中需要動態(tài)地改變連續(xù)參數(shù)離散值M,當M值尋優(yōu)效果較差時改變M值并繼續(xù)嘗試,直至尋優(yōu)效果達到期望值時終止嘗試。該算法的不足之處在于絕大多數(shù)情況下較小的M值對應(yīng)的離散值與最優(yōu)值誤差較大,盡管較大的M值對應(yīng)的離散值與最優(yōu)值更為接近,但同時又面臨需要大量交互次數(shù)的矛盾。因此,利用正交分解算法的思想對脈沖率、功率同相分量等參數(shù)進行精細劃分,如M=50,N=50。值得注意的是,精細的劃分在提高準確性的同時會帶來策略維數(shù)的增加,進而導(dǎo)致交互次數(shù)的增加。為解決維數(shù)過大的難題,可利用正強化算法降低交互次數(shù)以加快學(xué)習(xí)速度。以通信方采取矩形QPSK調(diào)制為例,假設(shè)SNR=20 dB,JNR=16 dB,由于各種人為、客觀因素的干擾致使星座圖向右偏移2單位,向上偏移1單位,JB算法、PRL-OD算法及不同劃分方式的貪婪算法各自對應(yīng)的收斂曲線如圖7所示。其中貪婪算法I將脈沖率等分成6份,貪婪算法II將脈沖率等分成50份。

        圖7 不同算法收斂曲線比較Fig.7 Convergence curve comparison between different algorithms

        由圖7可知,經(jīng)過前期不斷的試錯,3種算法的干擾性能曲線經(jīng)過若干次數(shù)的交互后均收斂至穩(wěn)定值。從實際造成的SER角度來看,PRL-OD算法學(xué)習(xí)獲得的干擾策略對應(yīng)的干擾性能最優(yōu),由于JB算法無法將星座圖畸變因素納入考慮,干擾性能次之,而貪婪算法在選擇合適的劃分方式時,干擾效果與JB算法相接近,如貪婪算法II,該結(jié)論也與文獻[12]得出的結(jié)論相符,然而當選擇的劃分方式不恰當時,干擾效果將大打折扣,如貪婪算法I。從算法收斂需要交互次數(shù)的角度來看,PRL-OD算法從可選動作集(M×N=2 500個)中利用正強化算法選擇250個動作后便收斂至穩(wěn)定值,而JB算法在經(jīng)過517次交互后才收斂至穩(wěn)定值,由于貪婪算法I和II劃分方式的原因,各自劃分得到18個和150個干擾動作,需要逐一嘗試后才能挑選出最佳動作,進而算法收斂至穩(wěn)定值。因此,在構(gòu)造的干擾任務(wù)中,PRL-OD算法能夠?qū)W習(xí)到比JB算法、貪婪算法更優(yōu)的干擾策略,且需要更少的交互次數(shù)。

        4 結(jié) 論

        針對當前干擾策略優(yōu)化算法過分依賴先驗信息及現(xiàn)有強化學(xué)習(xí)算法收斂速度慢的不足,提出了基于正強化學(xué)習(xí)和正交分解的干擾策略選擇算法。該算法利用正交分解方法豐富了干擾樣式的種類,并利用正強化的思想極大地降低了算法所需的交互次數(shù)。以干擾指定條件下的通信信號為例,分析了正強化學(xué)習(xí)-正交分解算法中參數(shù)設(shè)置對學(xué)習(xí)性能的影響。仿真結(jié)果表明,該算法能夠在更短的時間內(nèi)學(xué)習(xí)到最佳干擾策略,且該最佳干擾策略具有更強的干擾能力。

        通信干擾決策關(guān)注的重點是如何既快速又準確地學(xué)習(xí)到最佳干擾策略,因此文中被賦予了新意義的多臂老虎機模型和正強化思想具有一定普遍意義。今后的工作主要圍繞如何利用干擾方獲得的先驗信息進一步加快算法的學(xué)習(xí)速度,使得算法更加快速高效,向?qū)嵱眯赃M一步靠攏。

        [1] 張春磊, 楊小牛. 認知電子戰(zhàn)與認知電子戰(zhàn)系統(tǒng)研究[J]. 中國電子科學(xué)研究院學(xué)報, 2014, 9(6): 551-555.

        ZHANG C L, YANG X N. Research on the cognitive electronic warfare and cognitive electronic warfare system[J]. Journal of China Academy of Electronics and Information Technology,2014,9(6): 551-555.

        [2] 賈鑫, 朱衛(wèi)綱, 曲衛(wèi), 等. 認知電子戰(zhàn)概念及關(guān)鍵技術(shù)[J]. 裝備學(xué)院學(xué)報, 2015, 26(4): 96-100.

        JIA X, ZHU W G, QU W, et al. Concept of cognitive electronic warfare and its key technology[J].Journal of Equipment Academy, 2015, 26(4): 96-100.

        [3] PIETRO R D, OLIGERI G. Jamming mitigation in cognitive radio networks[J]. IEEE Network, 2013, 27(3): 10-15.

        [4] BAYRAM S. Optimum power allocation for average power constrained jammers in the presence of non-Gaussian noise[J]. IEEE Communications Letters, 2012, 8(16): 1153-1156.

        [5] AMURU S, BUEHRER R M. Optimal jamming strategies in digital communications-impact of modulation[C]∥Proc.of the Global Communication Conferance, 2014: 1619-1624.

        [6] AMURU S, BUEHRER R M. Optimal jamming against digital modulation[J].IEEE Trans.on Information Forensics Security,2015,10(10): 2212-2224.

        [7] 于乃功, 李倜, 方略. 基于直接強化學(xué)習(xí)的面向目標的仿生導(dǎo)航模型[J]. 中國科學(xué):信息科學(xué), 2016(3): 78-86.

        YU N G, LI T, FANG L. Biological plausible goal-directed navigation model based on direct reinforcement learning algorithm[J]. SCIENCE CHINA Information Sciences, 2016(3): 78-86.

        [8] GAI Y, KRISHNAMACHARI B, JAIN R. Combinatorial network optimization with unknown variables: Multi-armed bandits with linear reward[J]. IEEE/ACM Trans.on Networking, 2012, 20(5): 1466-1478.

        [9] AUER P, BIANCHI N C, FISCHER P. Finite-time analysis of the multi-armed bandit problem[J].Machine Learning,2002,47(2):235-256.

        [10] WU Y, WANG B, LIU K J R, et al. Anti-jamming games in multi-channel cognitive radio networks[J]. IEEE Journal on Selected Areas in Communications, 2014, 30(1): 4-15.

        [11] GWON Y L, DASTANGOO S, FOSSA C E, et al. Competing mobile network game: embracing antijamming and jamming strategies with reinforcement learning[C]∥Proc.of the Communication Netword Security, 2013: 28-36.

        [12] AMURU S, TEKIN C, SCHAAR M VAN DER, et al. Jamming bandits-a novel learning method for optimal jamming[J].IEEE Trans.on Wireless Communications,2016,4(15):2792-2808.

        [13] AMURU S, BUEHRER R M. Optimal jamming using delayed learning[C]∥Proc.of the IEEE Military Communication, 2014: 1528-1533.

        猜你喜歡
        樣式干擾信號分量
        CPMF-I 取樣式多相流分離計量裝置
        CPMF-I 取樣式多相流分離計量裝置
        帽子的分量
        正弦采樣信號中單一脈沖干擾信號的快速剔除實踐方法
        取樣式多相流分離計量裝置
        基于粒子群算法的光纖通信干擾信號定位方法
        一物千斤
        智族GQ(2019年9期)2019-10-28 08:16:21
        論《哈姆雷特》中良心的分量
        分量
        淺析監(jiān)控干擾信號的優(yōu)化處置措施
        女同视频一区二区在线观看| 国产强被迫伦姧在线观看无码| 国产在线91精品观看| 日韩精品久久中文字幕| 精品九九人人做人人爱| 国产欧美日韩精品丝袜高跟鞋| 精品久久久无码中字| 亚洲国产高清在线一区二区三区| 久久香蕉成人免费大片| 色综合999| 亚洲天堂av一区二区三区不卡| 亚洲中文久久精品字幕| 欧美巨鞭大战丰满少妇| 国产精品刮毛| 亚洲无码精品免费片| 国产午夜精品电影久久| 国产v精品成人免费视频400条| 中文字幕中文字幕人妻黑丝| av手机免费在线观看高潮| 久久国产精品婷婷激情| av在线播放男人天堂| 亚洲av网一区二区三区| 久久久久久亚洲精品中文字幕| 久久久亚洲色| 亚洲一区二区在线| av无码电影一区二区三区| 午夜精品一区二区久久做老熟女| 黄片免费观看视频播放| 国产一区二区三区视频网| 亚洲国产精品一区二区www| 男人边吃奶边做好爽免费视频| 精品无码久久久九九九AV| 久久伊人网久久伊人网| 久久精品亚洲国产av网站 | 少妇高潮惨叫久久久久电影| 一区二区在线视频大片| av在线播放中文专区| 男女肉粗暴进来动态图| 男女爽爽无遮挡午夜视频| 无码熟妇人妻av在线影片| 国产成人8x视频网站入口|