亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)信道智能接入方法與NS3仿真

        2021-11-17 08:36:58程一強(qiáng)劉澤華譚惠文
        計算機(jī)仿真 2021年5期
        關(guān)鍵詞:動作智能用戶

        趙 楠,程一強(qiáng),劉澤華,譚惠文

        (1. 湖北工業(yè)大學(xué)太陽能高效利用湖北省協(xié)同創(chuàng)新中心,湖北 武漢 430068;2. 湖北工業(yè)大學(xué)太陽能高效利用及儲備運(yùn)行控制湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430068;3. 湖北省能源互聯(lián)網(wǎng)工程技術(shù)研究中心,湖北 武漢 430068)

        1 引言

        隨著無線通信技術(shù)的迅速發(fā)展,頻譜資源的需求越來越高。頻譜資源日益匱乏且利用率低,已成為制約無線通信發(fā)展的嚴(yán)峻問題[1]。多信道接入方法因其能夠有效地提高頻譜資源的利用率,受到研究者的廣泛關(guān)注。文獻(xiàn)[2]提出了一種基于異步睡眠喚醒的動態(tài)信道接入方法,以提高認(rèn)知無線電網(wǎng)絡(luò)的能量利用效率。文獻(xiàn)[3]討論了基于雙頻譜感知的隨機(jī)信道接入問題,以最大化利用信道和選擇最優(yōu)信道。文獻(xiàn)[4]研究了一種基于啟發(fā)式算法的主信道選擇策略,以提高多信道用戶的網(wǎng)絡(luò)吞吐量。文獻(xiàn)[5]提出了一種基于博弈論的優(yōu)化方法,以提高信道接入概率。文獻(xiàn)[6]提出了基于時隙分類的多信道多址接入?yún)f(xié)議,以解決鏈路沖突和鏈路不足的問題。文獻(xiàn)[7]通過采用隨機(jī)延遲的信道接入方法,以降低系統(tǒng)延遲。文獻(xiàn)[8]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的信道估計器,以跟蹤信道環(huán)境變化。文獻(xiàn)[9]研究了一種基于DNN的多信道認(rèn)知無線電網(wǎng)絡(luò)資源分配策略,可以在提高授權(quán)用戶頻譜利用率的同時,適當(dāng)?shù)販p少對主用戶的干擾。然而,上述多信道接入方法往往需要大量的網(wǎng)絡(luò)信息;同時,當(dāng)信道狀態(tài)發(fā)生變化時,很難有效地實(shí)現(xiàn)信道的智能接入。因此,如何實(shí)現(xiàn)多信道的智能接入是一個值得關(guān)注和研究的問題。

        近年來,深度強(qiáng)化學(xué)習(xí)方法(Deep Reinforcement Learning,DRL) 因其強(qiáng)大的學(xué)習(xí)能力,在智能決策、無人駕駛、邊緣卸載等領(lǐng)域取得了一些研究進(jìn)展。在文獻(xiàn)[10]中,作者設(shè)計了一種動態(tài)自適應(yīng)DNN算法,真實(shí)還原了自動駕駛汽車的視頻數(shù)據(jù)集。 文獻(xiàn)[11]提出了一種基于DNN的綜合能源系統(tǒng)負(fù)荷預(yù)測方法,對負(fù)荷的時間序列分量進(jìn)行了預(yù)測,提高了綜合能源系統(tǒng)負(fù)荷預(yù)測的準(zhǔn)確性。Han G等人提出了基于DRL的二維抗干擾通信系統(tǒng),借助于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),能夠大幅提高學(xué)習(xí)速度,有效地減少外部干擾[12]。文獻(xiàn)[13]研究了一種基于DRL的異構(gòu)無線網(wǎng)絡(luò)媒體訪問控制協(xié)議,即使沒有最佳地設(shè)置強(qiáng)化學(xué)習(xí)框架的參數(shù),也能夠獲得近似最優(yōu)的信道訪問策略。在文獻(xiàn)[14]中,作者通過設(shè)計DNN,提出了雙選擇性衰落信道估計算法,不僅可以從先前的信道估計中提取信道變化的特征,而且能夠從導(dǎo)頻和接收信號中提取額外的特征。

        鑒于此,受到DRL的啟發(fā),本文旨在將強(qiáng)化學(xué)習(xí)策略引入到多信道接入,以期實(shí)現(xiàn)多信道的智能接入。在建立多信道接入模型的基礎(chǔ)上,將多信道智能接入問題建模為離散狀態(tài)與動作空間的馬爾可夫決策過程。針對Q-learning狀態(tài)空間過大和收斂速度較慢等問題,通過設(shè)計DNN,并利用梯度下降法來訓(xùn)練 DNN 的權(quán)值,采用經(jīng)驗(yàn)回放策略降低經(jīng)驗(yàn)數(shù)據(jù)的相關(guān)性,修正損失函數(shù)解決狀態(tài)-動作值函數(shù)過高估計的問題,以獲得近似最優(yōu)的多信道智能接入策略。最后,搭建NS3仿真平臺,驗(yàn)證本文所提出方法的性能。

        2 基于DRL的多信道智能接入方法

        2.1 基本模型

        假設(shè)用戶在從N個信道的選擇接入某一信道的過程中,會受到從第1個到第N個信道的周期性外部干擾。同時,考慮到用戶在當(dāng)前時刻接入信道所獲得的效用僅與當(dāng)前信道狀態(tài)有關(guān),與信道之前狀態(tài)無關(guān),上述多信道接入過程可描述為一個馬爾可夫決策過程(S;A;p(s′|s,a);r;π(a|s)),具體描述如下:

        狀態(tài)空間S:當(dāng)前時刻各信道狀態(tài)s的集合。0表示某一信道正處于空閑狀態(tài),1表示某一信道已被占用。于是,N個信道的狀態(tài)空間S為2N。

        動作空間A:選擇某一信道動作a的集合。

        轉(zhuǎn)移概率p(s′|s,a):在信道狀態(tài)s情況下,采用某一動作a時,信道狀態(tài)s轉(zhuǎn)變?yōu)橄乱恍诺罓顟B(tài)s′的概率。

        獎勵r:用戶采取某一動作a時,信道狀態(tài)從s轉(zhuǎn)移到下一信道狀態(tài)s′所獲得的獎勵。如果用戶與干擾沒有發(fā)生碰撞,獎勵r=r+1,產(chǎn)生碰撞r=r-1。

        策略π(a|s):在信道狀態(tài)s時,選擇某一信道動作a的概率。

        這里,本文定義累積獎勵R為所有獎勵r的累積,即

        (1)

        其中,rn表示在第n個時刻信道所獲得的獎勵。γ為衰減因子且γ∈[0,1),衰減因子決定了未來時刻獎勵和當(dāng)前時刻獎勵的重要性。當(dāng)衰減因子接近0時,意味著當(dāng)前時刻獲得的獎勵權(quán)重較多;反之,當(dāng)衰減因子接近1時,則意味著用戶應(yīng)該更注重未來時刻獲得的獎勵。

        2.2 深度強(qiáng)化學(xué)習(xí)

        作為解決上述馬爾可夫決策過程的常用方法,強(qiáng)化學(xué)習(xí)不斷以試錯的方式與環(huán)境進(jìn)行交互,通過最大化累積獎勵以獲得最優(yōu)策略。強(qiáng)化學(xué)習(xí)根據(jù)環(huán)境的評價性反饋實(shí)現(xiàn)決策的優(yōu)化,當(dāng)用戶執(zhí)行的某一動作得到正向的獎勵或回報時,反饋信號就會增強(qiáng),用戶以后執(zhí)行該動作的概率便會加強(qiáng);反之,用戶以后執(zhí)行該動作的概率便會降低。本文將強(qiáng)化學(xué)習(xí)方法應(yīng)用于多信道接入,用戶通過觀察當(dāng)前時刻各信道占位情況,從歷史經(jīng)驗(yàn)中學(xué)習(xí),選擇接入下一時刻的最佳信道,避免與干擾產(chǎn)生碰撞,從而實(shí)現(xiàn)多信道智能接入。

        這里,本文定義信道狀態(tài)s處選擇信道a得到的期望獎勵為狀態(tài)-動作值函數(shù)Q(s,a)

        Q(s,a)=E[R|s,a].

        (2)

        于是,通過貝爾曼方程[15]得到最優(yōu)的狀態(tài)-動作值函數(shù)Q*(s,a)

        (3)

        同時,狀態(tài)-動作值函數(shù)Q(s,a)更新過程可以表示如下

        Q(s,a)=(1-δ)Q(s,a)+δQ-,

        (4)

        其中,Q-=r+γmaxa′Q(s′,a′),δ為學(xué)習(xí)率,它影響了狀態(tài)-動作值函數(shù)Q(s,a)的更新速度。

        值得注意的是,N個信道的狀態(tài)空間S為2N,當(dāng)N較大時,整個狀態(tài)空間S非常巨大。在這種情況下,如果采用經(jīng)典的強(qiáng)化學(xué)習(xí)方法Q-learning,通過查找狀態(tài)-動作值函數(shù)Q(s,a)表獲得最優(yōu)的信道接入策略,將變得非常困難。因此,本文提出基于DRL的多信道智能接入方法,以解決狀態(tài)空間過大的問題。

        本文將DNN引入到Q-learning的框架中,以獲得近似最優(yōu)的策略和狀態(tài)-動作值函數(shù)Q(s,a)。DNN以層次分明的方式組織起來,是一個具有多個處理層的神經(jīng)網(wǎng)絡(luò),并且每一層都由許多神經(jīng)元組成,每個神經(jīng)元都將前一層的輸出通過加權(quán)線性組合作為下一層的輸入。在這里,DNN由Online網(wǎng)絡(luò)和Target網(wǎng)絡(luò)組成,Online網(wǎng)絡(luò)使用帶有權(quán)重θ的狀態(tài)-動作值Q函數(shù),以近似最優(yōu)的狀態(tài)-動作值函數(shù)Q*(s,a);Target網(wǎng)絡(luò)使用帶有權(quán)重θ-的狀態(tài)-動作值Q函數(shù),以提高整個網(wǎng)絡(luò)的性能。在特定的回合數(shù)后,復(fù)制Online網(wǎng)絡(luò)的權(quán)重θ以更新Target網(wǎng)絡(luò)的權(quán)重θ-。利用梯度下降法更新Online網(wǎng)絡(luò)的權(quán)重θ,以獲得最小損失函數(shù)

        L=(r+γmaxa′Q(s′,a′,θ-)-Q(s,a,θ))2.

        (5)

        同時,為了降低經(jīng)驗(yàn)數(shù)據(jù)的相關(guān)性,本文采用經(jīng)驗(yàn)回放策略。在信道狀態(tài)s情況下,用戶通過執(zhí)行動作a,獲得獎勵r,然后將信道狀態(tài)s轉(zhuǎn)變?yōu)橄乱恍诺罓顟B(tài)s′,DNN將這轉(zhuǎn)移信息〈s,a,r,s′〉保存在經(jīng)驗(yàn)回放存儲器D中。在學(xué)習(xí)過程中,從經(jīng)驗(yàn)回放存儲器D中隨機(jī)抽取mini-batch樣本〈s,a,r,s′〉,以訓(xùn)練神經(jīng)網(wǎng)絡(luò)。通過不斷減少訓(xùn)練樣本之間的相關(guān)性,幫助用戶更好地學(xué)習(xí),以避免最優(yōu)策略陷入局部最小值。另外,神經(jīng)網(wǎng)絡(luò)經(jīng)常會過擬合部分經(jīng)驗(yàn)數(shù)據(jù),通過隨機(jī)抽取mini-batch樣本〈s,a,r,s′〉,可以降低過擬合。

        此外,考慮到上述DNN經(jīng)常會過高地估計狀態(tài)-動作值函數(shù)Q(s,a,θ)。本文在(5)基礎(chǔ)上,設(shè)置兩個獨(dú)立的狀態(tài)-動作值Q函數(shù),且每個函數(shù)獨(dú)立學(xué)習(xí),將權(quán)重為θ的狀態(tài)-動作值Q函數(shù)用來選擇動作,權(quán)重為θ-的狀態(tài)-動作值Q函數(shù)用來評估動作。于是,修正后的損失8函數(shù)如下:

        L=(y-Q(s,a,θ))2,

        (6)

        其中,y=r+γQ(s′,arg maxa′Q(s′,a′,θ),θ-)。

        于是,本文提出的基于DRL多信道智能接入算法流程詳細(xì)描述如下:

        步驟1:初始化當(dāng)前時刻中各信道狀態(tài)s;

        步驟2:利用ε-貪婪策略來選擇信道:以概率ε隨機(jī)選擇下一時刻接入的信道,以概率(1-ε)選擇接入滿足最優(yōu)狀態(tài)-動作值函數(shù)Q(s,a,θ)的信道;

        步驟3:在信道狀態(tài)s下,選擇信道接入動作a,并得到獎勵r。如果信道沒有與干擾產(chǎn)生碰撞r=r+1,產(chǎn)生碰撞r=r-1;

        步驟4:信道狀態(tài)s轉(zhuǎn)移到下一信道狀態(tài)s′;

        步驟5:將上述狀態(tài)轉(zhuǎn)移信息〈s,a,r,s′〉保存在經(jīng)驗(yàn)回放存儲器D中;

        步驟6:從經(jīng)驗(yàn)回放存儲器D中隨機(jī)抽取mini-batch樣本〈s,a,r,s′〉;

        步驟7:利用(6)計算損失函數(shù),并借助梯度下降法獲得最小損失函數(shù);

        步驟8:間隔一定回合數(shù)后,將Online網(wǎng)絡(luò)的權(quán)重θ復(fù)制給Target網(wǎng)絡(luò)權(quán)重θ-;

        步驟9:重復(fù)第2到第8步驟。

        3 實(shí)驗(yàn)結(jié)果分析

        為了驗(yàn)證基于DRL的多信道智能接入算法性能,本文在Ubuntu環(huán)境下,利用常見的離散事件網(wǎng)絡(luò)模擬器NS3,搭建多信道智能接入NS3仿真平臺。在整個仿真環(huán)境中,處理器為Inter Core i7,內(nèi)存為4GB,虛擬機(jī)的版本號為VMware Workstation 10.0.4,Ubuntu的版本號為16.04 LTS,部分實(shí)驗(yàn)代碼基于NS3.27庫編寫,其余仿真參數(shù)具體如表1所示。

        表1 仿真參數(shù)設(shè)置

        圖1描述了不同的衰減因子γ對平滑獎勵的影響。從圖1可以看出,隨著回合數(shù)的不斷增加,平滑獎勵增加,且曲線波動變小,逐漸趨于平緩。當(dāng)γ=0.9時,與其它衰減因子相比較,平滑獎勵的曲線波動幅度較小,更加穩(wěn)定,收斂速度更快。實(shí)驗(yàn)結(jié)果表明,在本實(shí)驗(yàn)中,用戶在未來時刻獲得的獎勵權(quán)重較多。

        圖1 不同衰減因子性能影響 (N=5)

        圖2顯示不同的學(xué)習(xí)率δ下平滑獎勵的變化情況。當(dāng)學(xué)習(xí)率較大時,梯度在局部最小值附近來回震蕩,損失函數(shù)難以取得局部最小值,甚至可能無法收斂。反之,當(dāng)學(xué)習(xí)率較小時,狀態(tài)-動作值函數(shù)Q(s,a,θ)和損失函數(shù)的變化更新速度較慢,這樣就能夠更好地捕捉到狀態(tài)-動作值函數(shù)Q(s,a,θ)和損失函數(shù)的變化,更容易獲得近似最優(yōu)的的信道選擇策略,因而,學(xué)習(xí)率δ為0.001的平滑獎勵明顯高于δ為0.1和0.01的平滑獎勵。然而,當(dāng)學(xué)習(xí)率δ過小時,收斂過程將變得十分緩慢,導(dǎo)致長時間無法收斂,并且容易出現(xiàn)過擬合的情況。因此,本文在綜合考慮收斂效率和平滑獎勵性能基礎(chǔ)上,選用學(xué)習(xí)率δ=0.001。

        圖2 不同學(xué)習(xí)率性能影響 (N=5)

        不同的強(qiáng)化學(xué)習(xí)方法對平滑獎勵的影響如圖3所示。從圖3可以看出,本文提出的方法性能明顯優(yōu)于Q-learning和隨機(jī)策略,且曲線波動幅度較小,較為穩(wěn)定。在平滑獎勵方面,與隨機(jī)策略相比,本論文采用DRL和Q-learning等強(qiáng)化學(xué)習(xí)方法,具有較強(qiáng)的自主學(xué)習(xí)能力,通過不斷與環(huán)境進(jìn)行交互,從以往經(jīng)驗(yàn)中學(xué)習(xí),獲得了更優(yōu)信道接入策略和更大的平滑獎勵。在收斂速度方面,相比于Q-learning方法,本論文通過引入DNN結(jié)構(gòu),不僅有效地解決了過高估計狀態(tài)-動作值函數(shù)Q(s,a,θ)的問題,也獲得了更快的收斂速度和更大的平滑獎勵。

        圖3 不同強(qiáng)化學(xué)習(xí)方法性能影響 (N=5)

        不同的信道數(shù)對平滑獎勵的影響如圖4所示。從圖中曲線可以看出,當(dāng)衰減因子γ=0.9,學(xué)習(xí)率δ=0.001時,隨著信道數(shù)的增加,外部干擾對信道造成的影響減少,信道接入機(jī)會隨之增多,平滑獎勵不斷上升。當(dāng)信道數(shù)過多時,信道有充分的接入機(jī)會,并且本文方法通過觀察當(dāng)前時刻各信道占位情況,選擇接入下一時刻的最佳信道, 外部碰撞的機(jī)會大幅降低至不再產(chǎn)生,曲線逐漸趨于平滑。

        圖4 不同信道數(shù)性能影響

        4 結(jié)論

        本文提出了一種基于DRL的多信道智能接入方法。針對多信道狀態(tài)的動態(tài)性,將多信道接入過程描述為馬爾可夫決策過程。在此基礎(chǔ)上,為了有效地解決強(qiáng)化學(xué)習(xí)狀態(tài)空間較大的問題,通過引入DNN,以獲得近似最優(yōu)的信道選擇策略。在仿真方面,通過搭建NS3仿真平臺,驗(yàn)證本文所提出方法的性能。仿真結(jié)果表明,本文提出的基于DRL多信道智能接入算法,能夠在較快收斂速度的前提下,獲得近似最優(yōu)的多信道智能接入策略。

        猜你喜歡
        動作智能用戶
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        動作描寫要具體
        畫動作
        動作描寫不可少
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        日本在线视频二区一区| 国产在线观看www污污污| 欧美在线视频免费观看| 色优网久久国产精品| 丰满人妻被持续侵犯中出在线| 国产精品午夜福利视频234区| 日韩av精品国产av精品| 亚洲AV永久青草无码性色av| 加勒比一本大道大香蕉 | 国产精品女直播一区二区| 性色做爰片在线观看ww| 999国产精品视频| 国产成年女人特黄特色毛片免| 与漂亮的女邻居少妇好爽| 亚洲av无码一区二区三区人| 久久免费视频国产| 最大色网男人的av天堂| 久久在一区二区三区视频免费观看 | 中文字幕日本五十路熟女| 91中文人妻熟女乱又乱| 亚洲色丰满少妇高潮18p| 91精品国产色综合久久不卡蜜| 日本一区二三区在线中文| 欧美亅性猛交内射| 日产国产精品亚洲系列| 亚洲一区二区久久青草| 日本啪啪视频一区二区| 激情在线视频一区二区三区| 日本中文字幕有码网站| 黑人巨大跨种族video| 人妻丰满熟妇AV无码片| 中文字幕亚洲综合久久久| 久久精品国产字幕高潮| 久久久精品2019免费观看| av无码电影一区二区三区| 中文字幕亚洲精品在线| 999国内精品永久免费观看| a级毛片毛片免费观看久潮喷| 欧美综合区自拍亚洲综合| 中文字幕人妻久久久中出| 国产69精品久久久久9999apgf |