亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于競爭雙深度Q網(wǎng)絡(luò)的頻譜感知和接入*

        2023-11-25 13:52:08胡垚林
        電訊技術(shù) 2023年11期
        關(guān)鍵詞:空閑頻譜信道

        梁 燕,胡垚林,惠 瑩

        (1.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065;2.信號與信息處理重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065)

        0 引 言

        隨著無線通信技術(shù)快速發(fā)展,頻譜資源的有效利用問題顯得尤為重要[1-2]。傳統(tǒng)的靜態(tài)頻譜訪問機(jī)制不能充分利用授權(quán)頻帶,導(dǎo)致頻段浪費(fèi)。在認(rèn)知無線電網(wǎng)絡(luò)(Cognitive Radio Network,CRN)中,主要用戶(Primary User,PU)擁有使用授權(quán)頻譜的優(yōu)先權(quán),當(dāng)PU不活動時,可以允許次要用戶(Secondary User,SU)機(jī)會接入頻譜[3]。因而,基于CRN機(jī)制提出有效的頻譜管理策略對于下一代無線通信網(wǎng)絡(luò)至關(guān)重要[4]。

        對頻譜的有效利用,首先要解決SU對授權(quán)頻譜的感知問題。目前,使用深度學(xué)習(xí)(Deep Learning,DL)或深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)完成頻譜感知吸引了廣大研究學(xué)者的注意。文獻(xiàn)[5]提出了一種基于長短期記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)的頻譜感知,從頻譜數(shù)據(jù)中學(xué)習(xí)隱式特征,利用PU活動統(tǒng)計(jì)信息提高CRN的性能,在低信噪比下檢測性能和分類精度都有提高。但是,文中只研究了單個PU和SU的情況,而且性能的提高是以更長的訓(xùn)練時間和執(zhí)行時間增加為代價的。文獻(xiàn)[6]和[7]提出了單個PU多個SU情況下基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的深度學(xué)習(xí)頻譜感知算法。文獻(xiàn)[8]將CNN和LSTM一起使用來提高分類精度。文獻(xiàn)[9]提出混合頻譜感知方案,將能量檢測、似然比檢驗(yàn)和人工神經(jīng)網(wǎng)絡(luò)結(jié)合,通過在不同信號上的評估,驗(yàn)證所提方案優(yōu)于經(jīng)典的能量檢測和改進(jìn)的能量檢測,但是存在訓(xùn)練時間長和計(jì)算復(fù)雜度高的缺點(diǎn)。文獻(xiàn)[10]將融合中心作為智能體,使用DRL改善合作頻譜感知的性能。文獻(xiàn)[11]使用DRL進(jìn)行頻譜感知并對探索與利用進(jìn)行平衡設(shè)置。

        頻譜感知階段進(jìn)行瞬時頻譜狀態(tài)的檢測,而動態(tài)頻譜接入(Dynamic Spectrum Access,DSA)對檢測到的空閑頻譜完成機(jī)會接入。隨著DRL技術(shù)的不斷發(fā)展,其在動態(tài)頻譜接入領(lǐng)域也得到了較廣泛的應(yīng)用。免模型的DRL方法可以處理動態(tài)變化的環(huán)境,有效適應(yīng)復(fù)雜的實(shí)際模型。文獻(xiàn)[12]研究基于DRL的動態(tài)多信道訪問問題。文獻(xiàn)[13]使用深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN)進(jìn)行動態(tài)信道訪問和功率控制。文獻(xiàn)[14]將DQN用于動態(tài)頻譜接入,以分布式方式學(xué)習(xí)適當(dāng)?shù)念l譜訪問策略。文獻(xiàn)[15]采用優(yōu)先經(jīng)驗(yàn)回放雙深度Q學(xué)習(xí)進(jìn)行頻譜接入,從而提高了系統(tǒng)性能。文獻(xiàn)[16]將DQN與進(jìn)化博弈論結(jié)合,提出了一種分布式多用戶動態(tài)頻譜訪問的新方法,可以減少次要用戶之間的碰撞率,增加系統(tǒng)容量。

        綜上,現(xiàn)有基于DRL技術(shù)對頻譜管理策略的研究未能聯(lián)合考慮頻譜感知與頻譜接入兩個環(huán)節(jié),在頻譜感知中往往忽略了頻譜接入策略對感知結(jié)果的影響,在頻譜接入中沒有考慮頻譜感知存在的錯誤情況。因此,本文在文獻(xiàn)[17]的基礎(chǔ)上建立頻譜感知中存在錯誤和頻譜接入中存在用戶碰撞的場景,使用競爭雙深度Q網(wǎng)絡(luò)(Dueling Double Deep Q-Network,DDQN)進(jìn)行感知和接入問題的完整性研究。競爭DDQN由雙深度Q網(wǎng)絡(luò)(Double Deep Q-Network,DDQN)和競爭深度Q網(wǎng)絡(luò)(Dueling Deep Q-Network,DQN)優(yōu)化設(shè)計(jì)而得,分別利用了兩種網(wǎng)絡(luò)解決過估計(jì)問題和學(xué)習(xí)環(huán)境狀態(tài)真實(shí)值的優(yōu)勢。

        1 系統(tǒng)模型

        假設(shè)系統(tǒng)中有M={1,2,…,i,…,m}個PU、N={1,2,…,j,…,n}個SU和C={1,2,…,k,…,c}個信道。假定PU以一定的規(guī)則占用一些頻譜,SU應(yīng)該確保在不干擾PU的前提下訪問頻譜。為簡潔起見,不考慮用戶的功率控制策略。一般來說,當(dāng)一個PU占據(jù)頻譜時,所有SU都不能占用這些頻譜,由于硬件和功率限制,每個SU在每個時隙中只能感知一個頻譜。SU不知道PU占用頻譜的規(guī)律,因此需要根據(jù)之前的感知結(jié)果預(yù)測頻譜狀態(tài)。

        (1)

        頻譜感知完成后進(jìn)行頻譜接入。為了成功傳輸數(shù)據(jù),所有SU旨在盡可能頻繁地選擇空閑頻譜。由于頻譜切換模式和其他SU的選擇未知,因此每個SU每次只能嘗試感知和訪問不同的頻譜,并根據(jù)自己的觀測盡可能確定頻譜模式。通過這種方式,SU可以了解所選頻譜處于空閑或繁忙狀態(tài),做出是否接入的動作。SU接入后得到回報(bào),回報(bào)將反映接入動作的好壞。上述過程重復(fù)執(zhí)行,SU作為智能體,會根據(jù)歷史學(xué)習(xí)經(jīng)驗(yàn)在需要選擇信道的下一時間段內(nèi)預(yù)測空閑頻譜,進(jìn)行動態(tài)頻譜接入。具體模型描述如圖1所示。

        在無線信道環(huán)境中,頻譜狀態(tài)變化描述為部分可觀測馬爾科夫決策過程(Partially Observable Markov Decision Processes,POMDP)。使用基于學(xué)習(xí)的方法可以解決POMDP問題。為了完成感知和接入操作,首先要定義深度強(qiáng)化學(xué)習(xí)的智能體、狀態(tài)、觀測、動作、回報(bào)和策略。

        1.1 智能體

        在CRN中,SU可以在PU未使用頻譜空穴時,動態(tài)地接入和使用頻譜資源,因此將SU作為智能體探索動態(tài)變化的信道環(huán)境。

        1.2 狀態(tài)

        假設(shè)每個頻譜有兩種可能的狀態(tài):空閑(用“1”表示)和繁忙(用“0”表示)。“空閑”表示PU未占用頻譜(此時PU不活躍),SU可以機(jī)會性地訪問該頻譜;“繁忙”表示頻譜被PU占用(此時PU活躍),SU無法訪問該頻譜。將每個頻譜的狀態(tài)表示為

        (2)

        所有狀態(tài)的集合表示為

        S={s1(t),s2(t),…,si(t),…,sm(t)} 。

        (3)

        將每個頻譜狀態(tài)的變化描述為如圖2所示的兩狀態(tài)馬爾科夫鏈。圖中有兩種變化情況:保持當(dāng)前狀態(tài)(從0到0或者從1到1)或轉(zhuǎn)移到其他狀態(tài)(從0到1或者從1到0)。

        圖2 兩狀態(tài)馬爾科夫鏈

        圖中p00,p01,p10和p11都是馬爾科夫轉(zhuǎn)移概率。將實(shí)際無線信道中頻譜狀態(tài)轉(zhuǎn)移過程描述為圖3所示。SU應(yīng)該確保在不干擾PU的情況下訪問空閑頻譜。一般情況下,當(dāng)PU占用頻譜時,所有SU都不能使用這些頻譜。

        圖3 頻譜狀態(tài)轉(zhuǎn)移過程

        1.3 觀測

        頻譜感知中,初始化頻譜是空閑或繁忙狀態(tài)的實(shí)際值作為觀測數(shù)據(jù)。

        頻譜接入中,根據(jù)感知結(jié)果得到感知錯誤概率p,因此觀測數(shù)據(jù)是對頻譜狀態(tài)(1-p)的正確反映。因此,將觀測定義為

        (4)

        SU在t時刻進(jìn)行觀測的結(jié)果表示為

        O={o1(t),o2(t),…,oi(t),…,om(t)} 。

        (5)

        1.4 動作

        頻譜感知中,SU選擇一個信道的過程就是動作,有幾個信道就有幾種可選擇的動作,但是每次學(xué)習(xí)只能選擇一個動作。

        頻譜接入中,SU根據(jù)頻譜感知結(jié)果決定保持當(dāng)前狀態(tài)或接入頻譜,有以下幾種情況:

        ①SU所選頻譜是空閑狀態(tài),并且沒有其他SU選擇該頻譜,說明SU之間沒有碰撞,可以接入頻譜,這是DSA最想要達(dá)到的狀態(tài)。

        ②SU所選頻譜被PU占用,此時由于SU感知到的頻譜是繁忙狀態(tài),因此SU不接入頻譜。

        ③多個SU選擇同一空閑頻譜,會發(fā)生SU之間的碰撞,此時讓多個SU都不接入頻譜,以此避免發(fā)生碰撞情況。

        用aj(t)=i表示在t時刻用戶j選擇接入信道i傳輸數(shù)據(jù)(對應(yīng)情況①),aj(t)=0表示不能接入信道傳輸數(shù)據(jù)(對應(yīng)情況②和③),從而將每個SU的動作表示為

        A={a1(t),a2(t),…,aj(t),…,an(t)} 。

        (6)

        1.5 回報(bào)

        頻譜感知中,根據(jù)選擇動作獲得的狀態(tài)進(jìn)行觀測和回報(bào)的劃分。這里的觀測是學(xué)習(xí)到的觀測值,也就是一次頻譜感知的結(jié)果。根據(jù)感知結(jié)果進(jìn)行回報(bào)的分類,主要有以下幾種情況:

        1)如果SU執(zhí)行動作選擇了某一信道,得到該信道上的頻譜狀態(tài)是繁忙,那么SU接收信號的計(jì)算使用頻譜感知模型中的H1。

        首先根據(jù)PU和SU的位置以及無線信道模型計(jì)算PU和SU的距離,在此基礎(chǔ)上使用公式(1)第一行求出信號強(qiáng)度(PU信號加噪聲信號)。計(jì)算檢測概率并將這個概率作為閾值,與隨機(jī)產(chǎn)生的概率值進(jìn)行對比:

        ①如果隨機(jī)產(chǎn)生的概率小于檢測概率,觀測值就是0,回報(bào)值設(shè)置為1;

        ②如果隨機(jī)產(chǎn)生的概率大于檢測概率,觀測值就是1,回報(bào)值設(shè)置為-1.5。

        回報(bào)為-1.5的設(shè)置:將繁忙信道檢測為空閑就表示PU未使用信道,此時如果SU接入信道,將會影響PU對信道的使用,這種情況是頻譜感知中最不應(yīng)該出現(xiàn)的,所以設(shè)置最低的回報(bào)。

        2)如果SU執(zhí)行動作選擇了某一信道,得到該信道上頻譜狀態(tài)是空閑,那么SU接收信號的計(jì)算使用頻譜感知模型中的H0。

        因?yàn)镻U是空閑狀態(tài),所以使用公式(1)第二行計(jì)算信號強(qiáng)度(只有噪聲信號)。計(jì)算誤警概率,將這個概率作為閾值,與一個隨機(jī)產(chǎn)生的概率進(jìn)行對比:

        ①如果隨機(jī)產(chǎn)生的概率小于誤警概率,觀測值就是0,回報(bào)值設(shè)置為-1;

        ②如果隨機(jī)產(chǎn)生的概率大于誤警概率,觀測值就是1,回報(bào)值設(shè)置為1。

        回報(bào)為-1的設(shè)置:可用頻譜被檢測為不可用,這種結(jié)果對于之后的頻譜接入來說會影響空閑信道利用率,因此設(shè)置為一個較低的負(fù)值。

        綜上,將感知信道得到的回報(bào)表示為

        (7)

        頻譜接入中,執(zhí)行動作后根據(jù)動作情況獲得回報(bào):如果SU選擇的頻譜是空閑狀態(tài),則傳輸成功,分配正回報(bào);如果SU選擇的頻譜被占用或者SU之間發(fā)生碰撞,則傳輸失敗,回報(bào)為零。因此,將接入頻譜得到的回報(bào)表示為

        (8)

        得到回報(bào)的反饋后,每個頻譜狀態(tài)將根據(jù)馬爾科夫鏈改變。在下一時隙SU將感知新的頻譜狀態(tài)進(jìn)行動態(tài)頻譜接入。

        1.6 策略

        頻譜感知中,只要感知結(jié)果正確,得到的回報(bào)就是1。頻譜感知的目標(biāo)是盡可能得出正確的檢測結(jié)果,在有限時間內(nèi)對所有感知結(jié)果進(jìn)行累加,累加和越大,說明感知越準(zhǔn)確。為方便計(jì)算,對累加結(jié)果求平均,得到頻譜感知正確率。

        這一評判指標(biāo)的計(jì)算與平均累積回報(bào)的計(jì)算方式相同。定義Mi(t)為在時間T內(nèi)感知的總次數(shù),因此,在時間T內(nèi)每一次正確感知對總感知的貢獻(xiàn)為1/Mi(t),所以感知正確率的計(jì)算與回報(bào)函數(shù)的計(jì)算公式相同,定義為

        (9)

        有限時間T內(nèi)平均累積回報(bào)定義為

        (10)

        頻譜接入的目標(biāo)是提高頻譜利用率,而利用率與選擇空閑信道的頻率相關(guān),因此將DSA的目標(biāo)轉(zhuǎn)變?yōu)樽畲蟪潭鹊卦黾舆x擇空閑信道的頻率。同樣使用上述推導(dǎo)過程,將DSA的目標(biāo)轉(zhuǎn)換為最大化公式(10)中的回報(bào)。

        綜上所述,頻譜感知和頻譜接入的目標(biāo)都是最大化式(10)中的回報(bào)。找到最優(yōu)策略π*:S→A就能最大化回報(bào),常用的方法是使用深度強(qiáng)化學(xué)習(xí)通過計(jì)算最佳Q值找出π*。因此,接下來將進(jìn)行深度強(qiáng)化學(xué)習(xí)方法的比較,選擇一個最佳方法。

        2 競爭DDQN框架

        通過結(jié)合深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)得到的深度強(qiáng)化學(xué)習(xí)為解決策略相關(guān)問題提供了有效思路。DQN利用經(jīng)驗(yàn)回放機(jī)制將歷史狀態(tài)、動作、回報(bào)以及下一狀態(tài)的數(shù)據(jù)存儲在經(jīng)驗(yàn)回放池中,訓(xùn)練時隨機(jī)抽取部分?jǐn)?shù)據(jù),消除數(shù)據(jù)相關(guān)性和依賴性的同時減小了值函數(shù)估計(jì)中的偏差。另外,DQN構(gòu)建了兩個結(jié)構(gòu)相同的網(wǎng)絡(luò)(當(dāng)前網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò))來計(jì)算當(dāng)前Q值和目標(biāo)Q值,但是使用max函數(shù)可能會導(dǎo)致訓(xùn)練目標(biāo)選擇過高的估計(jì)值,造成過估計(jì)(最終得到的算法模型與實(shí)際效果有很大偏差)。

        DDQN可以解決過估計(jì)問題。與DQN直接在目標(biāo)Q網(wǎng)絡(luò)中找各個動作的最大值相反,DDQN使用兩個參數(shù)不同的網(wǎng)絡(luò)模型,先在當(dāng)前網(wǎng)絡(luò)中找出最大Q值對應(yīng)的動作,然后利用這個選擇的動作在目標(biāo)網(wǎng)絡(luò)中計(jì)算目標(biāo)Q值,完成對動作選擇和值估計(jì)的分開計(jì)算,使過估計(jì)問題得以解決。

        為了進(jìn)一步提高算法穩(wěn)定性,競爭DQN對神經(jīng)網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)進(jìn)行改進(jìn),將動作-狀態(tài)值分為兩部分計(jì)算,最后合在一起得到每個動作的Q值,這個值是智能體學(xué)到環(huán)境狀態(tài)中的真實(shí)值。

        綜上所述,DQN傾向于選擇過高的值,使性能有偏差,DDQN可以解決過估計(jì)問題,競爭DQN使算法更穩(wěn)定。因此設(shè)計(jì)將競爭DQN和DDQN結(jié)合的競爭DDQN,通過優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)保證算法的穩(wěn)定性,使智能體學(xué)到更加真實(shí)的值。

        競爭DDQN的結(jié)構(gòu)如圖4所示。將競爭DDQN使用的兩個神經(jīng)網(wǎng)絡(luò)分別定義為DQN1和DQN2。在每個神經(jīng)網(wǎng)絡(luò)中加入兩個子網(wǎng)絡(luò),分別為價值函數(shù)網(wǎng)絡(luò)(用于計(jì)算環(huán)境本身的價值)和優(yōu)勢函數(shù)網(wǎng)絡(luò)(用于計(jì)算選擇某個動作帶來的優(yōu)勢值)。對價值函數(shù)和優(yōu)勢函數(shù)的值進(jìn)行線性組合得到DQN1的輸出。DQN1用于選擇最大Q值對應(yīng)的動作,將得到的動作作為輸入數(shù)據(jù)送入DQN2,DQN2使用和DQN1同樣的網(wǎng)絡(luò)結(jié)構(gòu)計(jì)算輸出目標(biāo)Q值。

        圖4 競爭DDQN結(jié)構(gòu)

        基于競爭DDQN的頻譜感知和接入過程如圖5所示,左邊是遵循馬爾科夫轉(zhuǎn)移過程的信道環(huán)境,右邊是競爭DDQN。在學(xué)習(xí)過程中,SU作為智能體在狀態(tài)s下選擇執(zhí)行動作a,獲得回報(bào)r并更新狀態(tài)為s′,將這些數(shù)據(jù)以(s,a,r,s′)的形式存儲到經(jīng)驗(yàn)回放池中。

        圖5 基于競爭DDQN的頻譜感知和接入

        當(dāng)回放池中有足夠的經(jīng)驗(yàn)樣本時,隨機(jī)提取批量樣本,根據(jù)狀態(tài)-動作對計(jì)算當(dāng)前網(wǎng)絡(luò)中的Q(s,a;θ)值并更新?lián)p失函數(shù)中的網(wǎng)絡(luò)模型參數(shù)θ-,SU根據(jù)更新后的目標(biāo)網(wǎng)絡(luò)Q(s′,a′;θ-)值基于狀態(tài)s′為下一時間步選擇動作a′。在頻譜感知階段,SU選擇一個頻譜進(jìn)行檢測;在頻譜接入階段,SU分析頻譜狀態(tài)。如果頻譜空閑,SU可以進(jìn)行接入并傳輸數(shù)據(jù);如果頻譜繁忙,表明此時PU正在傳輸數(shù)據(jù),SU必須重新感知頻譜進(jìn)行接入。重復(fù)執(zhí)行上述過程,完成不同時隙上的頻譜感知和接入操作。

        競爭DDQN的頻譜感知和接入過程如下:

        輸入:頻譜狀態(tài)數(shù)據(jù)S={s1(t),s2(t),…,si(t),…,sm(t)}

        輸出:回報(bào)數(shù)據(jù)R={r1(t),r2(t),…,ri(t),…,rm(t)}

        1初始化參數(shù):經(jīng)驗(yàn)回放池大小D,存儲經(jīng)驗(yàn)樣本的最大值M

        2初始化網(wǎng)絡(luò):當(dāng)前Q網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò)

        3 for(inti=1;i<=1000;i++),do://使迭代次數(shù)從1到1 000

        4 for(intj=1;j<=n;j++),do://對于每個次要用戶做循環(huán)

        5執(zhí)行感知頻譜,得到感知結(jié)果

        6執(zhí)行頻譜接入

        7獲得oj,aj,rj,oj+1

        8存儲(oj,aj,rj,oj+1)到經(jīng)驗(yàn)回放池,當(dāng)樣本足夠時開始訓(xùn)練

        9隨機(jī)提取批量樣本(oj,aj,rj,oj+1)進(jìn)行訓(xùn)練

        11梯度下降算法更新?lián)p失函數(shù)中的網(wǎng)絡(luò)模型參數(shù)yj′←(yj-Q(oj,aj,θ))2

        12每隔一定時間步重置Q′←Q

        13根據(jù)Q值計(jì)算回報(bào)值大小

        14 end

        15 end

        3 仿真分析

        3.1 參數(shù)設(shè)置

        系統(tǒng)模型的詳細(xì)參數(shù)如表1所示。在無線網(wǎng)絡(luò)環(huán)境中,假設(shè)有9個SU和8個PU,信道個數(shù)設(shè)置為8確保每個PU至少有一個信道可以使用。信道狀態(tài)有兩種,分別是0和1。

        表1 系統(tǒng)模型詳細(xì)參數(shù)

        由于多數(shù)許可頻帶的利用率低,即信道處于空閑狀態(tài)的概率大,因此p11的值應(yīng)該高,而p00的值應(yīng)該低。所以分別從[0.7,1]和[0,0.3]上的均勻分布中隨機(jī)選擇每個信道的狀態(tài)轉(zhuǎn)移概率p11和p00,然后計(jì)算出相應(yīng)的p10=1-p11和p01=1-p00。

        在深度強(qiáng)化學(xué)習(xí)中使用經(jīng)驗(yàn)回放可以存儲先前的觀測數(shù)據(jù),并打破數(shù)據(jù)樣本間的相關(guān)性,使訓(xùn)練穩(wěn)定收斂[19]。因此,將經(jīng)驗(yàn)回放技術(shù)用于DQN、DDQN和競爭DDQN并在TensorFlow中實(shí)現(xiàn)。競爭DDQN的最終參數(shù)確定為一個全連接的神經(jīng)網(wǎng)絡(luò),其中兩個隱藏層包含200個神經(jīng)元。每個神經(jīng)元的激活函數(shù)采用線性整流函數(shù)(Rectified Linear Unit,ReLU),計(jì)算公式為

        f(x)=max(x,0) 。

        (11)

        應(yīng)用貪婪策略將隨機(jī)動作探索概率設(shè)置為0.95。當(dāng)更新神經(jīng)網(wǎng)絡(luò)的權(quán)重時,從經(jīng)驗(yàn)回放池中隨機(jī)抽取10個訓(xùn)練樣本計(jì)算損失函數(shù),使用自適應(yīng)矩估計(jì)(Adaptive Moment Estimation,Adam)算法更新權(quán)重。網(wǎng)絡(luò)參數(shù)的詳細(xì)信息如表2所示。

        表2 網(wǎng)絡(luò)參數(shù)詳細(xì)信息

        3.2 數(shù)據(jù)生成

        訓(xùn)練使用的數(shù)據(jù)主要是頻譜狀態(tài)數(shù)據(jù),是根據(jù)文獻(xiàn)[17]中的方法生成的,該方法同樣在其他基于深度強(qiáng)化學(xué)習(xí)的文獻(xiàn)(比如文獻(xiàn)[18])中使用。

        信道狀態(tài)數(shù)據(jù)產(chǎn)生過程如下:

        1初始化 SU數(shù)量為N,信道數(shù)量為M,總時間為T

        2初始化 信道狀態(tài)數(shù)據(jù)為0或1,信道狀態(tài)轉(zhuǎn)移概率為p00和p11

        3循環(huán) 信道數(shù)量從1到M:

        4 循環(huán) 時間從1到T:

        5 對比下一時隙保持當(dāng)前狀態(tài)的概率和服從均勻分布的隨機(jī)采樣得到的概率

        如果前者大于后者,則保持當(dāng)前狀態(tài);反之,狀態(tài)改變,更新狀態(tài)

        6 結(jié)束循環(huán)

        7結(jié)束循環(huán)

        根據(jù)狀態(tài)轉(zhuǎn)移概率p11和p00,可以獲得頻譜狀態(tài)切換過程。頻譜在不同時隙部分狀態(tài)變化如圖6所示,黑色表示頻譜在相應(yīng)時間上是空閑的,白色表示頻譜被占用。

        圖6 頻譜狀態(tài)變化情況

        3.3 仿真評價指標(biāo)

        首先是深度強(qiáng)化學(xué)習(xí)方法的Q值對比(由于DDQN和競爭DDQN方法計(jì)算Q值的過程相同,因此這里只對比了DQN和競爭DDQN方法),然后是損失值對比(只有在使用強(qiáng)化學(xué)習(xí)方法時才會有損失值的計(jì)算,因此這里對比了DQN、DDQN和競爭DDQN方法),最后是平均累積回報(bào)值的對比(用于衡量感知正確率)。隨機(jī)接入是作為頻譜接入的基準(zhǔn)方法加入的。

        3.4 仿真結(jié)果與分析

        圖7給出了DQN和競爭DDQN的Q值數(shù)據(jù)。由于DDQN和競爭DDQN用到的Q值計(jì)算方式相同,所以這里只對比競爭DDQN和DQN的Q值。

        由圖7可知,隨著迭代次數(shù)的增加,Q值逐漸穩(wěn)定。競爭DDQN的Q值始終比DQN的Q值小,這是因?yàn)镈QN中使用max函數(shù)可以快速讓Q值向最優(yōu)目標(biāo)靠近,但是每次都選擇最大的Q值容易導(dǎo)致過估計(jì)。而競爭DDQN使用兩個不同的網(wǎng)絡(luò)模型參數(shù)進(jìn)行動作選擇和Q值計(jì)算,解決了該問題。這里注意,Q值是評估動作的價值,即在某個狀態(tài)下執(zhí)行某個動作時得到的獎勵。根據(jù)貪婪算法選擇動作時會以大概率選擇獎勵最高的動作,因此圖中大部分Q值是較大的,而Q值突然變小是因?yàn)樾「怕孰S機(jī)選擇動作得到的獎勵值較小。

        圖8給出了幾種方案損失值對比。DQN、DDQN和競爭DDQN在迭代到第200次時損失均達(dá)到穩(wěn)定,其中DQN的損失值最大,DDQN次之,競爭DDQN損失值最小,說明競爭DDQN相比于DDQN和DQN預(yù)測模型更好。

        圖8 不同方法的損失值對比

        采用感知正確率作為頻譜感知問題的衡量指標(biāo)。根據(jù)上文分析,感知正確率的計(jì)算與平均累積回報(bào)值的計(jì)算結(jié)果相等。因此,以迭代次數(shù)作為橫軸,平均累積回報(bào)值作為縱軸得到每種方法的平均累積回報(bào)值大小。由圖9可以看出,隨著迭代次數(shù)的增加,平均累積回報(bào)值逐漸增加并維持穩(wěn)定,其中DQN方法得到的回報(bào)結(jié)果波動幅度較大,DDQN次之,競爭DDQN結(jié)果最穩(wěn)定。DQN、DDQN和競爭DDQN的平均累積回報(bào)分別為0.94,0.96和0.98。也就是說,DQN、DDQN和競爭DDQN方法用于頻譜感知時,正確率分別為94%,96%和98%。因此,本文提出的競爭DDQN在進(jìn)行頻譜感知時得到的平均累積回報(bào)值最大且最穩(wěn)定,即感知效果最好。

        圖9 平均累積回報(bào)值對比

        根據(jù)圖9的仿真結(jié)果得到DQN、DDQN和競爭DDQN的感知錯誤率分別為6%,4%和2%,將這三個數(shù)據(jù)作為動態(tài)頻譜接入時對頻譜進(jìn)行觀測的錯誤率。圖10以隨機(jī)接入策略為參考基線,對比解決DSA問題時不同接入策略的回報(bào)值。其中隨機(jī)接入策略指沒有學(xué)習(xí)過程,SU在每個時隙開始隨機(jī)選擇頻譜,所有頻譜的訪問概率均相同,由于沒有關(guān)于信道狀態(tài)的預(yù)測,因此獲得的回報(bào)最低。圖10所示的平均累積回報(bào)分別為0.81(隨機(jī)接入),0.88(DQN),0.89(DDQN)和0.92(競爭DDQN)。從圖中看出,相比于DQN和DDQN,競爭性DDQN的回報(bào)值最高且最穩(wěn)定,因此對信道的利用率更好。

        圖10 平均累積回報(bào)值對比

        此外,還將本文使用的競爭DDQN方法與多臂老虎機(jī)(Multi-armed Bandits,MAB)和競爭雙拍賣方法進(jìn)行對比,對比結(jié)果如表3所示。從表中可以可出,對于MAB和競爭DDQN,兩者時間復(fù)雜度相同,但是競爭DDQN的累積回報(bào)更高,所以本文方法更優(yōu)。而競爭雙拍賣方法時間復(fù)雜度雖然低,但是它需要信道環(huán)境的先驗(yàn)知識,而且信道利用率也沒有競爭DDQN高,所以綜合對比得到競爭DDQN是MAB和競爭雙拍賣中最優(yōu)的方法。

        表3 三種方案對比

        4 結(jié)束語

        對于認(rèn)知無線電網(wǎng)絡(luò)中的頻譜感知和頻譜接入問題,本文首先建立了多用戶多信道的存在感知錯誤和接入碰撞的信道模型,然后設(shè)計(jì)了一種既能使網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化又能解決過估計(jì)問題的競爭DDQN方法,使用該方法完成了頻譜感知和頻譜接入這兩個任務(wù)。最后通過仿真,驗(yàn)證了相比于DQN和DDQN,使用競爭DDQN方法進(jìn)行頻譜感知時的感知正確率和動態(tài)頻譜接入時的信道利用率都得到有效提高。

        未來將考慮在SU可以感知的頻譜數(shù)量有限的情況下,在感知頻譜的數(shù)量和感知結(jié)果的可靠性之間進(jìn)行權(quán)衡。另外,本文所提算法的實(shí)用效果還需要在實(shí)際的公共數(shù)據(jù)集上做進(jìn)一步驗(yàn)證。

        猜你喜歡
        空閑頻譜信道
        恩賜
        詩選刊(2023年7期)2023-07-21 07:03:38
        一種用于深空探測的Chirp變換頻譜分析儀設(shè)計(jì)與實(shí)現(xiàn)
        “鳥”字謎
        小讀者之友(2019年9期)2019-09-10 07:22:44
        一種基于稀疏度估計(jì)的自適應(yīng)壓縮頻譜感知算法
        彪悍的“寵”生,不需要解釋
        WLAN和LTE交通規(guī)則
        CHIP新電腦(2016年3期)2016-03-10 14:09:48
        基于導(dǎo)頻的OFDM信道估計(jì)技術(shù)
        認(rèn)知無線電頻譜感知技術(shù)綜述
        一種改進(jìn)的基于DFT-MMSE的信道估計(jì)方法
        基于MED信道選擇和虛擬嵌入塊的YASS改進(jìn)算法
        成人免费av色资源日日| 久久久国产精品福利免费| 538在线视频| av在线入口一区二区| 国产一级黄片久久免费看| 好看的中文字幕中文在线 | 午夜视频福利一区二区三区 | 欧洲亚洲色一区二区色99| 日韩精品一区二区三区影音视频 | 日本在线免费不卡一区二区三区 | 成人免费777777被爆出| 丰满人妻被中出中文字幕| 免费一区二区三区视频狠狠| 日本午夜伦理享色视频| 亚洲婷婷久悠悠色悠在线播放| 国产人妻人伦精品1国产| 99久热re在线精品99 6热视频| 国产精品国产三级国产三不| 六月婷婷亚洲性色av蜜桃| 久热国产vs视频在线观看| 欧美日本亚洲国产一区二区| 女优视频一区二区三区在线观看| 亚洲综合一区中文字幕| 国产在线精品一区在线观看| 久久波多野结衣av| 成人av一区二区亚洲精| 精品久久久久久无码专区| 日日摸夜夜添无码无码av| 久久精品视频中文字幕无码| 一区二区三区四区在线观看日本| 久久久老熟女一区二区三区| 亚洲另类欧美综合久久图片区| 蜜桃成人精品一区二区三区| 狠狠摸狠狠澡| 韩国三级中文字幕hd久久精品 | 日本韩国一区二区高清| 日本大乳高潮视频在线观看| 亚洲成a∨人片在无码2023| 亚洲an日韩专区在线| 伊人婷婷综合缴情亚洲五月| 国产婷婷色一区二区三区在线|