朱 芮,馬永濤,南亞飛,張?jiān)评?/p>
天津大學(xué) 微電子學(xué)院,天津 300072
隨著無(wú)線通信技術(shù)的發(fā)展,有限的無(wú)線電資源不能滿足日益激增的業(yè)務(wù)需求,同時(shí)也存在部分頻段利用率過(guò)低的情況。為了解決頻譜利用的不均衡,認(rèn)知無(wú)線電(cognitive radio,CR)[1]技術(shù)應(yīng)運(yùn)而生。CR系統(tǒng)被定義為智能無(wú)線通信[2]系統(tǒng),指系統(tǒng)能感知無(wú)線電頻譜環(huán)境,并且結(jié)合智能學(xué)習(xí)算法動(dòng)態(tài)地調(diào)整傳輸參數(shù),以達(dá)到合理占用授權(quán)用戶頻段的目的。針對(duì)頻譜資源的有效利用問(wèn)題,不僅在分配管理方面引起了研究熱潮,而且出于對(duì)認(rèn)知用戶性能的保障,認(rèn)知用戶本身處于易受到干擾的無(wú)線電環(huán)境的問(wèn)題也引起了相關(guān)重視。尤其在軍事認(rèn)知無(wú)線電中,面對(duì)可能的動(dòng)態(tài)干擾,需要探索更加有效的抗干擾決策算法。
在頻譜資源分配管理方面,對(duì)于典型的靜態(tài)干擾問(wèn)題,采用與智能算法結(jié)合的決策方案??梢酝ㄟ^(guò)進(jìn)化算法和粒子群算法等優(yōu)化算法[3]來(lái)尋找未被干擾的頻段信息,通過(guò)神經(jīng)網(wǎng)絡(luò)算法和支持向量機(jī)算法等監(jiān)督式學(xué)習(xí)算法[4]訓(xùn)練某種干擾場(chǎng)景下的數(shù)據(jù),得到干擾的特征進(jìn)而規(guī)避干擾頻點(diǎn)。本文主要研究對(duì)環(huán)境認(rèn)知的要求低,適應(yīng)動(dòng)態(tài)變化的性能強(qiáng)的模式自由的強(qiáng)化學(xué)習(xí)[5](reinforcement learning,RL)算法。將RL算法融合到中心式認(rèn)知系統(tǒng)的資源分配和管理中,能夠?qū)φJ(rèn)知系統(tǒng)的內(nèi)部參數(shù)進(jìn)行自適應(yīng)調(diào)整[6],從而達(dá)到頻譜資源充分利用的目的。文獻(xiàn)[7-8]在結(jié)合5G通信技術(shù)的基礎(chǔ)上,給出RL算法未來(lái)應(yīng)用于認(rèn)知無(wú)線電感知和決策的構(gòu)想。面對(duì)認(rèn)知系統(tǒng)中存在智能干擾問(wèn)題,文獻(xiàn)[9]用馬爾可夫參數(shù)化模型求解干擾和能量收集的聯(lián)合決策問(wèn)題,并給出能量收集情況下合理的認(rèn)知用戶策略尋優(yōu)算法。對(duì)有固定干擾策略的認(rèn)知環(huán)境,文獻(xiàn)[10]研究了以認(rèn)知用戶的吞吐量為參考標(biāo)準(zhǔn)的RL算法模型,分析了系統(tǒng)的功率分配性能。文獻(xiàn)[11-12]中將RL融合到聯(lián)合感知和決策的寬帶自適應(yīng)無(wú)線電系統(tǒng)中,以算法的收斂時(shí)間為反饋指標(biāo),提出了信道選擇的優(yōu)化決策模型。
考慮認(rèn)知用戶和干擾器之間的動(dòng)態(tài)交互,聯(lián)系到博弈論模型中的競(jìng)爭(zhēng)關(guān)系。文獻(xiàn)[13]利用博弈模型來(lái)解決CR干擾情況下功率控制問(wèn)題,提高了CR決策性能。在博弈論的前景理論角度,文獻(xiàn)[14]對(duì)認(rèn)知用戶和干擾之間的交互進(jìn)行了系統(tǒng)的分析,通過(guò)設(shè)計(jì)效用函數(shù)找到博弈的納什均衡點(diǎn),進(jìn)而給出提高吞吐量的策略選擇。文獻(xiàn)[15-16]中將多認(rèn)知用戶與干擾器的相互作用構(gòu)建為零和博弈模型,借助RL算法對(duì)頻譜質(zhì)量和多信道選擇策略進(jìn)行了分析。以上文章介紹了融合RL算法的CR頻譜分配問(wèn)題和結(jié)合博弈論思想的CR系統(tǒng)容量分析,但其主要是解決系統(tǒng)功率分配或者用戶信道選擇單個(gè)問(wèn)題。
本文針對(duì)認(rèn)知用戶面對(duì)的動(dòng)態(tài)干擾問(wèn)題,提出了一種聯(lián)合功率分配和信道選擇的決策算法,即存在智能干擾器的情況,在參考博弈思想的前提下構(gòu)建效用函數(shù),設(shè)計(jì)認(rèn)知用戶能量效率[17]為RL算法的評(píng)價(jià)函數(shù),將改進(jìn)的在策略RL算法應(yīng)用到不需要信道轉(zhuǎn)移概率信息的認(rèn)知用戶與干擾環(huán)境的交互模型中。第2章描述了認(rèn)知用戶與干擾器的CR交互的場(chǎng)景;第3章討論了改進(jìn)的在策略SARSA(state-actionreward-state-action)算法,并把無(wú)線電場(chǎng)景與改進(jìn)算法合理地聯(lián)系起來(lái);第4章介紹了相關(guān)參數(shù) 設(shè)置、算法仿真以及系統(tǒng)性能分析;最后進(jìn)行總結(jié)與展望。
圖1是單個(gè)授權(quán)用戶系統(tǒng)中存在多個(gè)信道的場(chǎng)景。授權(quán)用戶將其授權(quán)頻段劃分為信道增益不等的多個(gè)信道,明確指出某時(shí)隙內(nèi),無(wú)論是認(rèn)知用戶還是干擾器都只允許接入多個(gè)信道中的一個(gè),圖中虛線代表可能選擇的信道,實(shí)線表示真正選擇的信道。假設(shè)信道感知部分已知,認(rèn)知用戶能夠?qū)崟r(shí)地監(jiān)測(cè)信道情況,主動(dòng)地對(duì)授權(quán)用戶的存在進(jìn)行規(guī)避,當(dāng)感知到授權(quán)用戶的存在時(shí),立刻釋放當(dāng)前占用信道。智能干擾器只對(duì)認(rèn)知用戶進(jìn)行干擾,因此當(dāng)授權(quán)用戶存在時(shí),認(rèn)知用戶和干擾器都不占用信道。
本文主要研究單個(gè)認(rèn)知用戶與單個(gè)干擾器的情況。將兩者的交互過(guò)程構(gòu)建為強(qiáng)化學(xué)習(xí)模型,認(rèn)知用戶以自主地選擇其發(fā)射功率和信道為目的,來(lái)保證其性能相對(duì)最優(yōu)。如圖1所示,當(dāng)認(rèn)知用戶2不存在時(shí),即單個(gè)認(rèn)知用戶1與單個(gè)干擾器的交互。然后拓展場(chǎng)景到多用戶的中心式CR系統(tǒng)與單個(gè)干擾器模型[11]中,由一個(gè)認(rèn)知中心管理不同認(rèn)知用戶的發(fā)射功率和信道的分配,并假設(shè)此時(shí)干擾器能夠同時(shí)干擾多個(gè)信道。
認(rèn)知用戶作為中心進(jìn)行考慮時(shí),將認(rèn)知用戶感知到的無(wú)線電環(huán)境作為狀態(tài)信息,將認(rèn)知用戶選擇的發(fā)射功率和所選信道標(biāo)號(hào)作為動(dòng)作信息。智能干擾器同樣可選擇自己的發(fā)射功率和占用信道來(lái)對(duì)認(rèn)知用戶的傳輸造成干擾,但其作為認(rèn)知用戶的狀態(tài)信息存在。在兩者交互過(guò)程中,假設(shè)認(rèn)知用戶和干擾器同時(shí)做出策略選擇,兩者只能以彼此的上一歷史信息為學(xué)習(xí)參考進(jìn)行動(dòng)作選擇[13]。
CR系統(tǒng)中通用的性能衡量參數(shù)主要有信干噪比(signal to interference plus noise ratio,SINR)、吞吐量、中斷概率以及能量損耗等。借鑒基于博弈的無(wú)線電資源分配管理思想[18],認(rèn)知用戶以干擾器的動(dòng)作選擇為依據(jù),綜合發(fā)射功率和信道選擇要求給出認(rèn)知用戶的SINR定義形式:
式中,p表示發(fā)射功率,h表示信道增益,ε表示高斯白噪聲功率,i表示信道標(biāo)號(hào),s和j下標(biāo)分別代表其屬于認(rèn)知用戶或干擾器。S表示認(rèn)知環(huán)境信息,a表示認(rèn)知用戶的參數(shù)選擇,β表示授權(quán)用戶的存在信息,I(·)是指示函數(shù),I(is,ij)代表認(rèn)知用戶與干擾器選中同一信道。在發(fā)射功率的選擇上,發(fā)射功率越大,接收端將會(huì)得到更高的SINR,但會(huì)消耗更多的能量。同時(shí)考慮到認(rèn)知用戶與干擾器的交互過(guò)程中,認(rèn)知用戶為了規(guī)避可能的干擾選擇跳頻的情況,給出能量消耗的表達(dá):
e表示單位發(fā)射能量損耗,c表示跳頻能量損耗,代表認(rèn)知用戶是否跳轉(zhuǎn)信道。
傳統(tǒng)算法僅以滿足最低通信質(zhì)量或者可達(dá)到的傳輸速率的最優(yōu)化為單一目標(biāo),本文在可達(dá)速率的基礎(chǔ)上,加入能量消耗的考慮,從通信質(zhì)量和通信條件兩方面來(lái)設(shè)計(jì)效用函數(shù),更具有能效均衡[19]意義。以下定義系統(tǒng)能效的比率形式:
式中,W表示信道帶寬。將計(jì)算能效的函數(shù)表示為RL中的瞬時(shí)獎(jiǎng)勵(lì)函數(shù),通過(guò)兩者動(dòng)態(tài)的交互,認(rèn)知用戶能夠?qū)崟r(shí)地改變策略選擇,進(jìn)而改善頻譜效用。
強(qiáng)化學(xué)習(xí)算法作為一種模式自由的在線機(jī)器學(xué)習(xí)算法,不需要狀態(tài)轉(zhuǎn)移概率作為先驗(yàn)信息,在智能體與環(huán)境的交互過(guò)程中旨在通過(guò)試錯(cuò)來(lái)學(xué)習(xí),使得選擇的策略獲得最大的平均累計(jì)獎(jiǎng)賞值。傳統(tǒng)RL算法中以狀態(tài)動(dòng)作值函數(shù)Q(S,a)為標(biāo)準(zhǔn)衡量算法的性能,Q函數(shù)本質(zhì)是狀態(tài)與動(dòng)作之間的映射關(guān)系,代表不同狀態(tài)下不同動(dòng)作選擇的一個(gè)策略參考。Q值函數(shù)更新規(guī)則表示如下:
式中,α是學(xué)習(xí)因子,表示算法學(xué)習(xí)速率,γ為折損因子。式(6)是狀態(tài)值函數(shù),表示對(duì)當(dāng)前狀態(tài)的一種動(dòng)作選擇:總是選擇最大Q函數(shù)值的作為V(S)。
最初RL應(yīng)用于迷宮中路徑尋優(yōu)[20],不同的RL方法在不同的場(chǎng)景下具有各自的優(yōu)勢(shì)和劣勢(shì)。由于認(rèn)知用戶在接近實(shí)際的CR環(huán)境中,不能夠獲得完整的環(huán)境信息,因而融合RL算法于認(rèn)知系統(tǒng)中。在未知信道轉(zhuǎn)移概率的情況下,將認(rèn)知用戶與動(dòng)態(tài)干擾之間的交互構(gòu)建為RL算法模型,可憑借觀察到的狀態(tài)信息和對(duì)應(yīng)的獎(jiǎng)勵(lì)反饋信息對(duì)自身參數(shù)進(jìn)行動(dòng)態(tài)的策略選擇,從一定程度上減少了認(rèn)知決策對(duì)環(huán)境信息的要求。本文根據(jù)認(rèn)知場(chǎng)景考慮了從屬于時(shí)序差分[21](temporal difference,TD)強(qiáng)化學(xué)習(xí)算法的SARSA算法和TD(λ)算法。
結(jié)合RL算法的單個(gè)認(rèn)知用戶與單個(gè)干擾器交互模型中,將認(rèn)知用戶的動(dòng)作表示為a=[p,i],其中p∈Ps,i∈Φ,a∈Α(Α:Ps×Φ);智能干擾器以同樣方式選擇自己的策略為d=[p,i],p∈Pj,i∈Φ,d∈Λ(Λ:Pj×Φ);將信道的情況與干擾器的策略選擇作為認(rèn)知用戶的狀態(tài)信息S=[β,d],β∈B,d∈Λ,S∈Ω(Ω:B×Λ)。若空閑信道數(shù)量為M,將信道的增益集合表示為固定的常量形式H={Δ?m|0<m<M},對(duì)應(yīng)的瞬時(shí)獎(jiǎng)勵(lì)值用認(rèn)知用戶的能效式(4)表示。在多認(rèn)知用戶多信道的功率分配系統(tǒng)模型中,假設(shè)干擾器同時(shí)能夠干擾多個(gè)信道,系統(tǒng)模型的參數(shù)設(shè)置與單認(rèn)知用戶類似。假設(shè)干擾器同時(shí)能夠干擾J個(gè)信道,狀態(tài)空間近似為S'=(S1×S2×???×SJ)。認(rèn)知用戶的策略選擇由認(rèn)知中心作為與環(huán)境交互的智能體,動(dòng)作空間據(jù)認(rèn)知用戶個(gè)數(shù)W變化近似為Α'=(Α1×Α2×???×Αw)。在認(rèn)知中心的分配下,將單個(gè)用戶的能效分別計(jì)算,系統(tǒng)的總能效記為多個(gè)用戶的能效之和。
CR系統(tǒng)中的干擾具有不確定性和不穩(wěn)定性,不能把當(dāng)前的信息當(dāng)作全部特征信息做認(rèn)知決策和判斷,需要一段時(shí)間的信息收集。但傳統(tǒng)SARSA算法僅利用當(dāng)前因素,不考慮其他未來(lái)因素的影響,具有局部性,不能保證整個(gè)過(guò)程的全局最優(yōu)。TD(λ)學(xué)習(xí)算法[22]是對(duì)原始TD算法的改進(jìn),對(duì)不同的時(shí)間差分情況以參數(shù)λ給出一定的權(quán)重表達(dá)。綜合借鑒SARSA算法和TD(λ)算法的優(yōu)勢(shì),把場(chǎng)景適應(yīng)性、當(dāng)前的影響與未來(lái)步驟可能對(duì)當(dāng)前的影響融合在一起,在犧牲少許復(fù)雜度的情況下,提出多步SARSA算法來(lái)有效提高收斂速度和性能。
本文據(jù)TD(λ)學(xué)習(xí)算法以權(quán)重的形式采取不同的步驟反饋情況,參考Watkins觀點(diǎn)[23]的某時(shí)刻的校正K步截止獎(jiǎng)勵(lì)形式和文獻(xiàn)[24]中K步的TD(λ)加權(quán)平均值的獎(jiǎng)勵(lì)形式,給出結(jié)合SARSA算法的某時(shí)刻的K步獎(jiǎng)勵(lì)定義:
式中,rt表示當(dāng)前的瞬時(shí)獎(jiǎng)勵(lì)值,rt+i表示未來(lái)i步的瞬時(shí)獎(jiǎng)勵(lì)值,λγ部分表示對(duì)應(yīng)于不同的步驟權(quán)重影響。為了簡(jiǎn)便記錄給出如下式子:
因此可重新改寫(xiě)K步截止獎(jiǎng)勵(lì)的形式如下:
將式(10)代入式(5)中,給出改進(jìn)的多步SARSA學(xué)習(xí)的Q函數(shù)更新規(guī)則:
改進(jìn)的SARSA算法將選擇的動(dòng)作真正應(yīng)用到算法的迭代當(dāng)中,在更新時(shí)選擇的下一狀態(tài)和動(dòng)作都需要執(zhí)行,因此成為在線的學(xué)習(xí)算法。式(11)表示狀態(tài)動(dòng)作對(duì)的Q值更新規(guī)則,對(duì)比于式(5),這個(gè)Q值的更新就綜合了未來(lái)K步的影響。
此外,傳統(tǒng)的動(dòng)作選擇算法思想是在策略的基礎(chǔ)上結(jié)合隨機(jī)思想,將局部最優(yōu)解接近整體最優(yōu)解。如下給出貪心策略的定義:
其中,pr表示隨機(jī)生成的概率;ε表示探索與利用的均衡閾值參數(shù),參數(shù)越小算法越傾向利用經(jīng)驗(yàn)對(duì)策略選擇,否則算法傾向于選擇一個(gè)隨機(jī)的動(dòng)作。
選擇固定參數(shù)會(huì)使得算法不能隨著迭代的進(jìn)行有效地均衡探索與利用,本文對(duì)固定參數(shù)的貪心算法進(jìn)行改進(jìn),以交互次數(shù)的自然對(duì)數(shù)的倒數(shù)為均衡參數(shù)ε,來(lái)增強(qiáng)算法的學(xué)習(xí)靈活性。在算法的初始階段交互次數(shù)小,對(duì)環(huán)境信息沒(méi)有足夠的了解,對(duì)當(dāng)前的狀態(tài)需要更多地探索不同動(dòng)作會(huì)帶來(lái)的結(jié)果,充實(shí)不同狀態(tài)下動(dòng)作選擇的Q值,此時(shí)設(shè)定的均衡參數(shù)較大,符合以大概率來(lái)探索可能的解的需求。在算法的后續(xù)階段,當(dāng)收集到部分環(huán)境信息后,對(duì)不同狀態(tài)下的動(dòng)作選擇有了初步的掌握,此時(shí)設(shè)定的均衡參數(shù)逐漸變小趨于0.1,能保證以較大的概率充分利用已獲得的歷史經(jīng)驗(yàn)的同時(shí),以較小的概率對(duì)環(huán)境狀態(tài)的隨機(jī)動(dòng)作選擇做出探索。
算法初始時(shí)隨機(jī)假定一個(gè)干擾動(dòng)作,在交互過(guò)程中,認(rèn)知用戶以感知到的信道信息和干擾的前一動(dòng)作信息為當(dāng)前狀態(tài)信息,以改進(jìn)貪心算法選擇動(dòng)作,結(jié)合獎(jiǎng)勵(lì)值rk,λ對(duì)Q值函數(shù)內(nèi)容更新。當(dāng)授權(quán)用戶存在時(shí)β=0,認(rèn)知用戶和干擾器都不進(jìn)行動(dòng)作選擇,記錄此次的獎(jiǎng)勵(lì)值r=0。如下以認(rèn)知用戶為主體,以前一次干擾策略和信道信息為狀態(tài),給出算法核心步驟:
(1)初始化。初始數(shù)組Q、E、E'元素為0,對(duì)于初始環(huán)境狀態(tài)S=S0,默認(rèn)以相等概率(|A|表示動(dòng)作空間的大?。╇S機(jī)選取初始狀態(tài)的動(dòng)作a=a0,并執(zhí)行該動(dòng)作。
(2)循環(huán)。設(shè)定算法執(zhí)行的最大循環(huán)次數(shù)N:
①執(zhí)行動(dòng)作后,以認(rèn)知用戶對(duì)信道的實(shí)時(shí)監(jiān)測(cè)性能觀察到下一環(huán)境狀態(tài)情況St+1,進(jìn)而用改進(jìn)貪心算法選擇其動(dòng)作at+1。每次選擇動(dòng)作時(shí),隨機(jī)生成一個(gè)概率值,并比較概率值與交互次數(shù)的自然對(duì)數(shù)的倒數(shù)值的大小,利用式(12)選擇動(dòng)作。
②用式(4)計(jì)算當(dāng)前狀態(tài)-動(dòng)作選擇的能效即獎(jiǎng)勵(lì)r,進(jìn)行實(shí)時(shí)的記錄;并由式(8)、式(9)計(jì)算et和et'存放于E、E'數(shù)組中。
③采用式(11)更新Q(S,a),隨著算法進(jìn)行其值逐漸變化,表示對(duì)當(dāng)前S-a選擇的評(píng)價(jià)更新。
④將下一狀態(tài)和動(dòng)作對(duì)當(dāng)前的狀態(tài)和動(dòng)作更新S=St+1,a=at+1,并判斷當(dāng)前的執(zhí)行次數(shù)是否到達(dá)N,未到達(dá)則開(kāi)始新一輪迭代,否則算法結(jié)束。
利用MATLAB仿真軟件,根據(jù)相關(guān)參考文獻(xiàn)數(shù)據(jù)設(shè)定認(rèn)知決策系統(tǒng)模型中參數(shù)。將認(rèn)知用戶和干擾的發(fā)射等級(jí)設(shè)置為3級(jí)Ps/j={1 dBm,3 dBm,6 dBm}。可用信道的個(gè)數(shù)設(shè)置為M=4,Φ={1,2,3,4},單位信道增益設(shè)置為Δ=0.2,信道帶寬記為單位帶寬B=1 MHz。設(shè)置單位的發(fā)射功率能耗e=0.02,設(shè)置認(rèn)知用戶跳頻的能耗c=0.02。噪聲功率設(shè)置為-60 dBm,折損因子δ=0.7,參數(shù)λ=0.85,授權(quán)用戶的存在用β=0/1表示。
為了體現(xiàn)改進(jìn)的SARSA學(xué)習(xí)算法對(duì)比于傳統(tǒng)算法的收斂性能,在相同的隨機(jī)選擇狀態(tài)場(chǎng)景下,以每次迭代的Q函數(shù)平均偏差為收斂參考標(biāo)準(zhǔn)。設(shè)定折損因子δ=0.7,權(quán)重參數(shù)λ=0.8,學(xué)習(xí)速率α根據(jù)迭代次數(shù)倒數(shù)來(lái)設(shè)計(jì),迭代次數(shù)根據(jù)算法的狀態(tài)和動(dòng)作空間合理選擇N=10 000。針對(duì)K步驟的確定,K的增加會(huì)導(dǎo)致算法復(fù)雜度的增加,僅在較低的復(fù)雜度情況下,討論了K=2,5,10不同步數(shù)的算法對(duì)比情況。
圖2曲線為算法執(zhí)行100次后取其統(tǒng)計(jì)平均得到近似結(jié)果,能夠看出多步的學(xué)習(xí)算法比傳統(tǒng)的算法在初始階段收斂速率快。若以平均偏差0.05為界,改進(jìn)算法約比原始算法收斂效果提高一倍,但后期趨于穩(wěn)定。這是由于傳統(tǒng)算法在積累到一定的迭代次數(shù)后也能夠?qū)Νh(huán)境信息進(jìn)行學(xué)習(xí),改進(jìn)的算法在初始依靠未來(lái)步驟影響能夠較快地探索較優(yōu)策略選擇。對(duì)比于不同的步數(shù)選擇上,考慮到計(jì)算復(fù)雜度與迭代次數(shù)足夠情況下,算法的效果都能較好收斂,在以后的仿真中固定步驟K=5。
Fig.2 Comparison of improved algorithm and original convergent圖2 改進(jìn)算法與原始收斂比較
構(gòu)建認(rèn)知用戶與干擾器之間的交互過(guò)程,考慮到多步的改進(jìn)算法對(duì)初始部分的收斂情況有提高,設(shè)置前部分的迭代次數(shù)用多步改進(jìn)算法,后部分的迭代用原始算法。算法最終的結(jié)果以整個(gè)過(guò)程中迭代的累計(jì)平均獎(jiǎng)勵(lì)的歸一化形式表示:
式中,N隨著迭代次數(shù)的增加而增加。累計(jì)平均獎(jiǎng)勵(lì)以概率的形式表示算法選擇的動(dòng)作的平均效果,其值越大代表算法選擇的策略對(duì)干擾存在場(chǎng)景越有效。另一有效的策略選擇評(píng)價(jià)準(zhǔn)則定義為成功次數(shù):將評(píng)價(jià)能效的瞬時(shí)r函數(shù)值在每次的交互過(guò)程中記錄下來(lái),在給定性能閾值的條件下,大于閾值的效用記為1,小于閾值的效用記為0。閾值的選取依據(jù)得到的實(shí)時(shí)仿真數(shù)據(jù),選擇中位數(shù)作為通用標(biāo)準(zhǔn)閾值。
動(dòng)態(tài)干擾定義為在認(rèn)知用戶對(duì)認(rèn)知環(huán)境做出動(dòng)作選擇后,具有信道感知能力的智能干擾器能在下一狀態(tài)對(duì)當(dāng)前可能的用戶占用的信道進(jìn)行干擾,為了更加貼近實(shí)際,設(shè)置干擾器以一定的感知誤差概率pe=0.1進(jìn)行干擾。隨機(jī)干擾場(chǎng)景下設(shè)置干擾器以隨機(jī)概率的形式生成干擾策略,不依賴于其他條件。本文對(duì)比了三種不同的策略選擇,包括智能策略、固定策略和隨機(jī)策略。智能策略表示按照改進(jìn)的算法或傳統(tǒng)算法進(jìn)行動(dòng)作選擇,固定策略以選擇信道增益最大信道為標(biāo)準(zhǔn)選擇動(dòng)作,隨機(jī)策略則是在動(dòng)作選擇上服從均勻分布。
隨機(jī)干擾場(chǎng)景下認(rèn)知用戶無(wú)法得到干擾策略的任何信息。圖3僅表示某一次隨機(jī)干擾存在情況下的仿真結(jié)果,對(duì)比了不同策略的累計(jì)平均獎(jiǎng)勵(lì)值的變化曲線。因?yàn)楣潭ú呗院碗S機(jī)策略選擇動(dòng)作的條件固定,不能夠動(dòng)態(tài)地隨環(huán)境的變化而智能轉(zhuǎn)變,所以初始階段都會(huì)出現(xiàn)一段時(shí)間內(nèi)的性能不穩(wěn)定,且隨著迭代次數(shù)的增加性能不會(huì)有所提高。但智能策略通過(guò)強(qiáng)化學(xué)習(xí)對(duì)環(huán)境進(jìn)行有效的策略嘗試和信息學(xué)習(xí),以Q值函數(shù)評(píng)價(jià)標(biāo)準(zhǔn),依然能夠選擇較優(yōu)的信道和功率策略,使系統(tǒng)性能有明顯的提高。
Fig.3 Performance comparison of algorithm and other strategies in one stochastic interference圖3 某一次隨機(jī)干擾下算法與不同策略性能對(duì)比
Fig.4 Performance comparison of algorithm and other strategies in dynamic interference圖4 動(dòng)態(tài)干擾下算法與不同策略性能對(duì)比
由于初始的狀態(tài)和動(dòng)作選擇不同,可能會(huì)導(dǎo)致不同的狀態(tài)動(dòng)作選擇軌跡。為了體現(xiàn)性能的穩(wěn)定性,圖4是動(dòng)態(tài)干擾場(chǎng)景下算法50次的統(tǒng)計(jì)平均曲線。結(jié)果顯示所提出算法可以使得累計(jì)平均能效收斂到0.755,傳統(tǒng)學(xué)習(xí)算法的累計(jì)平均能效收斂到0.626左右,固定策略的累計(jì)平均能效平穩(wěn)于0.511,隨機(jī)選擇策略累計(jì)平均能效穩(wěn)定在0.396。由于固定策略和隨機(jī)策略是不會(huì)隨環(huán)境改變的,因此決策效果收斂快且后期不會(huì)有所改進(jìn)。智能算法在初期通過(guò)對(duì)環(huán)境大范圍地探索可能解,存在一個(gè)學(xué)習(xí)過(guò)程對(duì)應(yīng)于曲線上升部分,后期以改進(jìn)貪心思想更多地利用累計(jì)信息決策,使得算法效果逐漸收斂。改進(jìn)算法的平均能效性能比傳統(tǒng)算法提高約20%,比固定策略大概提高47.8%,比隨機(jī)策略提高90.6%左右,說(shuō)明改進(jìn)SARSA算法能夠?qū)?dòng)態(tài)的認(rèn)知環(huán)境變化做出自適應(yīng)的策略調(diào)整,為簡(jiǎn)單的認(rèn)知抗干擾問(wèn)題提供有效的決策方案。
圖5為隨機(jī)干擾場(chǎng)景下不同策略的50次累計(jì)平均獎(jiǎng)勵(lì)值的變化曲線。對(duì)比于動(dòng)態(tài)干擾的效果,由于動(dòng)態(tài)干擾策略相對(duì)隨機(jī)干擾存在一定的經(jīng)驗(yàn)規(guī)律,因此本場(chǎng)景的整體算法決策效果會(huì)比動(dòng)態(tài)干擾場(chǎng)景的略差。結(jié)果表明改進(jìn)的學(xué)習(xí)算法較傳統(tǒng)算法依然具有9%的性能提高,頻譜的能效比給出的固定策略提高25.5%,較隨機(jī)策略選擇性能提高61.1%左右。
Fig.5 Performance comparison of algorithm and other strategies in stochastic interference圖5 隨機(jī)干擾下算法與不同策略性能對(duì)比
圖6表示隨著算法的進(jìn)行認(rèn)知用戶與干擾器交互過(guò)程中成功的交互次數(shù),與圖5的效果相對(duì)應(yīng)。在單次的實(shí)驗(yàn)結(jié)果中,由于認(rèn)知用戶在嘗試不同的狀態(tài)動(dòng)作選擇時(shí)首先經(jīng)過(guò)一個(gè)探索的過(guò)程,算法初期階段的成功次數(shù)為0;經(jīng)過(guò)交互次數(shù)的增加,成功次數(shù)曲線圖是階梯式增加的。圖6是保證效果穩(wěn)定性的50次平均結(jié)果,階梯增加的效果不明顯,但成功次數(shù)整體上升的趨勢(shì)是不變的。
Fig.6 Relatively successful action selection in stochastic interference圖6 隨機(jī)干擾下相對(duì)成功的動(dòng)作選擇
考慮本文參數(shù)設(shè)定,假定由一個(gè)認(rèn)知中心管理兩個(gè)認(rèn)知用戶,干擾器能同時(shí)干擾兩個(gè)信道,系統(tǒng)的總能效為兩個(gè)用戶的能效之和性。由于認(rèn)知中心和干擾器的設(shè)定,導(dǎo)致強(qiáng)化學(xué)習(xí)算法的狀態(tài)空間和動(dòng)作空間成平方倍增加。為了遍歷所有可能的狀態(tài)動(dòng)作組合找到最優(yōu),在仿真的參數(shù)設(shè)置中需要合理地提高整個(gè)算法的迭代次數(shù)至50 000。仿真結(jié)果如圖7所示,改進(jìn)算法的整體性能對(duì)比隨機(jī)策略約提高47.7%左右,說(shuō)明所提出的算法在該環(huán)境中選擇的功率和信道策略同樣比隨機(jī)選擇策略有效。
Fig.7 Algorithm comparison of random state multi-user situation圖7 隨機(jī)狀態(tài)下多用戶情況算法對(duì)比
本文首先基于傳統(tǒng)強(qiáng)化學(xué)習(xí)算法提出了改進(jìn)的SARSA算法,并用仿真結(jié)果證明了其收斂性能的提高。然后在合理利用認(rèn)知環(huán)境信息的情況下,分析了認(rèn)知用戶在干擾存在場(chǎng)景中的學(xué)習(xí)決策,將改進(jìn)的SARSA算法融合進(jìn)認(rèn)知決策當(dāng)中,提出了一種抗干擾決策算法。通過(guò)仿真環(huán)境與認(rèn)知用戶的交互過(guò)程,以認(rèn)知用戶的能效為性能參數(shù),證明了不同策略下提出算法在該場(chǎng)景中的合理有效性,對(duì)未來(lái)復(fù)雜的CR場(chǎng)景認(rèn)知進(jìn)行了初步的探索。