亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙深度強(qiáng)化學(xué)習(xí)的切換算法分析

        2021-09-26 03:23:42董春利王莉
        無線互聯(lián)科技 2021年15期

        董春利 王莉

        摘 要:由于包括毫米波頻率,導(dǎo)致5G網(wǎng)絡(luò)中的切換更具挑戰(zhàn)性,基站(BS)部署更加密集。由于毫米波BS的占用空間較小,進(jìn)一步增加了切換的數(shù)量,從而使切換管理成為一項(xiàng)更關(guān)鍵的任務(wù)。因?yàn)殡S著切換數(shù)量的增加,降低了服務(wù)質(zhì)量(QoS)和體驗(yàn)質(zhì)量(QoE),以及更高的信令開銷。文章討論了一種基于雙深度強(qiáng)化學(xué)習(xí)(DDRL)的離線方案,以最小化毫米波網(wǎng)絡(luò)中切換的頻率,從而減輕不利的QoS。由于考慮到的5G環(huán)境的固有特性,會(huì)產(chǎn)生連續(xù)且大量的狀態(tài)空間,因此與傳統(tǒng)的? ? ? ?Q學(xué)習(xí)算法相比,DDRL更可取。

        關(guān)鍵詞:雙重深度強(qiáng)化學(xué)習(xí);切換管理;毫米波通信

        0 引言

        數(shù)量眾多的狀態(tài)和動(dòng)作會(huì)產(chǎn)生兩個(gè)問題。第一個(gè)問題是隨著狀態(tài)數(shù)量的增加,存儲(chǔ)和更新狀態(tài)動(dòng)作表所需的內(nèi)存量也隨之增加。其次,探索每個(gè)狀態(tài)以準(zhǔn)確填充Q表所需的時(shí)間顯著增加。Q學(xué)習(xí)的另一個(gè)局限性是它只能在具有離散和有限狀態(tài)和動(dòng)作空間的環(huán)境中工作,這意味著Q學(xué)習(xí)無法估計(jì)任何未學(xué)習(xí)狀態(tài)的Q值[1]。

        1? ? 基于DDRL的最佳基站(BS)選擇

        有學(xué)者指出,可以通過大量的動(dòng)作和連續(xù)狀態(tài)來有效地進(jìn)行操作,用不同的方式來實(shí)現(xiàn)RL[2]。新架構(gòu)利用人工神經(jīng)網(wǎng)絡(luò)(ANN)來存儲(chǔ)狀態(tài)和狀態(tài)動(dòng)作值。給出狀態(tài)作為輸入,并生成狀態(tài)動(dòng)作值,該值是所有可能動(dòng)作的Q值,作為給定觀察狀態(tài)的輸出。本文出于兩個(gè)主要原因,采用了雙深度強(qiáng)化學(xué)習(xí)(DDRL),而不是 DRL。DRL在某些游戲中存在嚴(yán)重的高估問題,其次基于環(huán)境的設(shè)計(jì),運(yùn)行兩種算法后,得出與Van等專家相同的結(jié)論,在結(jié)果部分中包含了DDRL和DRL之間的比較結(jié)果[3]。

        DDRL是使用和維護(hù)兩個(gè)單獨(dú)的深度Q網(wǎng)絡(luò)(DQN)的RL算法。DQN是多層感知器神經(jīng)網(wǎng)絡(luò),它針對(duì)給定的輸入狀態(tài)s估計(jì)輸出動(dòng)作值Q(s,a;θ),其中θ是網(wǎng)絡(luò)的參數(shù)。根據(jù)Van等專家的研究,DDRL的兩個(gè)獨(dú)立網(wǎng)絡(luò)是目標(biāo)網(wǎng)絡(luò)和在線網(wǎng)絡(luò)[3]。參數(shù)為θ-的目標(biāo)網(wǎng)絡(luò)與在線網(wǎng)絡(luò)相同,不同之處在于其參數(shù)每隔τ步從在線網(wǎng)絡(luò)更新一次,使得θt-=θt,并在所有其他步驟中保持固定。DDRL通過分解目標(biāo)網(wǎng)絡(luò)中的最大操作為動(dòng)作選擇和動(dòng)作評(píng)估,來減少過高估計(jì)。因此,根據(jù)在線網(wǎng)絡(luò)評(píng)估貪婪策略,并在目標(biāo)網(wǎng)絡(luò)中估計(jì)值。該算法的重要內(nèi)容解釋如下:

        (1)動(dòng)作:動(dòng)作定義為發(fā)生A2事件時(shí)要連接的BS。將動(dòng)作空間(a∈A(s))中的動(dòng)作定義為狀態(tài)s下,服務(wù)BS指標(biāo)的標(biāo)量表示,集合A包括環(huán)境中的所有BS。

        (2)狀態(tài)向量:傳統(tǒng)上,移動(dòng)性管理和其他BS關(guān)聯(lián)策略通常考慮UE的位置,以將其與服務(wù)BS關(guān)聯(lián)。但是,這項(xiàng)研究考慮了UE從所有周圍BS接收到的SNR的組合,以表示感興趣的位置,而不是UE的確切位置(即UE位置的地理坐標(biāo))。實(shí)際上,獲取UE的確切位置是不切實(shí)際的。因此,可以沿著UE軌跡的所有BS中的γ視為關(guān)注點(diǎn)的代表,而不是地理坐標(biāo)。

        (3)獎(jiǎng)勵(lì)設(shè)計(jì):獎(jiǎng)勵(lì)設(shè)計(jì)是為了激勵(lì)智能體采取行動(dòng),從長(zhǎng)遠(yuǎn)來看將使累積獎(jiǎng)勵(lì)最大化,并且因?yàn)槲覀兊哪繕?biāo)是在給定的軌跡上實(shí)現(xiàn)最大的系統(tǒng)吞吐量(T)??梢酝ㄟ^最小化切換成本(βc)來最大化T。為了使βc最小,對(duì)于給定的速度(v)和切換時(shí)間延遲(td),參數(shù)H1應(yīng)盡可能小。可以通過實(shí)現(xiàn)切換跳過策略來控制參數(shù)H1。從技術(shù)上講,智能體在不設(shè)置恒定值的情況下啟動(dòng)間接觸發(fā)時(shí)間(TTT),并且應(yīng)該智能地完成此過程以確保UE達(dá)到最大吞吐量,而無須跳過某些必要的切換。此方法已用于4G之前的微基站和宏基站,并且手動(dòng)確定了TTT參數(shù)。另外在切換期間,使T最大化的同時(shí),最小化βc的值,在滿足約束γs≥γth的情況下,智能體可以選擇將來事件A2的數(shù)目較少的BS,稱為有遠(yuǎn)見的切換決策。

        (4)經(jīng)驗(yàn)重放:經(jīng)驗(yàn)重放的目的是克服學(xué)習(xí)算法的不穩(wěn)定性。經(jīng)驗(yàn)重放用于更新深度Q網(wǎng)絡(luò),以便在基于監(jiān)督學(xué)習(xí)的更新過程中,同時(shí)考慮當(dāng)前和以前的經(jīng)驗(yàn)。這意味著在訓(xùn)練過程中不僅要考慮從當(dāng)前在線學(xué)習(xí)網(wǎng)絡(luò)獲得的樣本(s, a, r, s),還要考慮舊經(jīng)驗(yàn)樣本(s, a, r, s)。因此經(jīng)驗(yàn)重放會(huì)在一段時(shí)間內(nèi)存儲(chǔ)觀察到的過渡,并從該存儲(chǔ)庫中統(tǒng)一采樣以更新網(wǎng)絡(luò)。

        (5)學(xué)習(xí)算法:智能體如何與環(huán)境交互?在毫米波環(huán)境中,對(duì)于每個(gè)UE而言存在大量的BS,障礙物的出現(xiàn)主要是初始化事件A2。因此提出的解決方案確保當(dāng)事件A2啟動(dòng)時(shí),UE便會(huì)切換到它的視距(LOS)連接暢通時(shí)間較長(zhǎng)的BS或智能地跳過切換。提出的解決方案涉及兩個(gè)階段:學(xué)習(xí)階段和執(zhí)行階段。

        在學(xué)習(xí)階段,使用離線學(xué)習(xí),智能體通過模擬環(huán)境中的UE軌跡來收集必要的信息。智能體模擬從UE路徑的起點(diǎn)到終點(diǎn)的軌跡,并且智能體以嘗試錯(cuò)誤的方式執(zhí)行切換。值得注意的是,我們假設(shè)軌跡感知的切換,因此,UE采取的路徑是明確已知的,并且在切換期間,如果跳過切換導(dǎo)致最大的累積獎(jiǎng)勵(lì),則智能體可以選擇提供少于γth的相同BS。通過反復(fù)試驗(yàn),智能體可以并行了解兩件事:首先,在切換事件中,與UE連接的哪個(gè)BS最好;其次,如果要發(fā)生切換,則在γs≥γth的情況下,在確定目標(biāo)BS之前,UE應(yīng)當(dāng)保持多長(zhǎng)時(shí)間與BS連接,后一信息可用于制定主動(dòng)切換決策。

        2? ? DDRL算法的智能體學(xué)習(xí)過程

        該算法從智能體觀察環(huán)境狀態(tài)和服務(wù)類型開始。具體地,在訓(xùn)練階段,UE根據(jù)所述條件之一,采取動(dòng)作a。如果滿足條件γs≥γth,則UE繼續(xù)服務(wù)于BS;否則UE使用“貪婪策略”,以小于探索率的概率ε和隨機(jī)方式選擇BS;否則它將使用策略arg max Q (s, a; θ)選擇BS。UE接收獎(jiǎng)勵(lì)r,并移動(dòng)到下一位置p+1。在新位置中,UE生成狀態(tài)sp + 1,在當(dāng)前狀態(tài)和相同過程從頭開始,并且受到上述相同規(guī)則的控制。經(jīng)驗(yàn)過渡樣本(s, a, r, s)存儲(chǔ)在重放存儲(chǔ)器緩沖區(qū)D中,以進(jìn)行經(jīng)驗(yàn)重放。該過程一直持續(xù)到達(dá)到最終狀態(tài)為止,并且另一個(gè)迭代開始直到學(xué)習(xí)結(jié)束。經(jīng)過一些學(xué)習(xí)步驟后,ε將從1降低到0.1。

        在執(zhí)行階段,智能體根據(jù)上述規(guī)則采取行動(dòng)a。但是ε設(shè)置為0.002,這意味著智能體使用0.2%的時(shí)間進(jìn)行探索,而其余時(shí)間使用arg max Q (s, a; θ)的策略。在模型的評(píng)估階段,使用相同的環(huán)境,但更改了表示軌跡中UE位置的點(diǎn),以測(cè)試模型的魯棒性和泛化行為。值得注意的是在執(zhí)行階段沒有學(xué)習(xí)更新。但是,為了使控制器使用新數(shù)據(jù)集進(jìn)行更新,UE會(huì)持續(xù)將觀察狀態(tài)發(fā)送到控制器以更新在線策略。

        3? ? 結(jié)語

        本文為UDN場(chǎng)景中的毫米波通信,提供了一個(gè)智能的切換管理框架,以最大限度地減少切換發(fā)生的頻率,從而提高用戶的QoS。尤其是提出了一種具有離線學(xué)習(xí)框架的DDRL算法,以便利用歷史用戶軌跡信息來制定一種策略,通過同時(shí)考慮切換的數(shù)量和系統(tǒng)吞吐量來確保在切換期間選擇最佳BS。

        [參考文獻(xiàn)]

        [1]MICHAEL S M,ATTAI I A,METIN O.Intelligent handover decision scheme using double deep reinforcement learning[J].Physical Communication,2020(42):101-133.

        [2]DULAC A G,EVANS R,VAN H H,ET AL.Deep reinforcement learning in large discrete action spaces[J].Computer Science,2015(v1):1512.

        [3]VAN H H,GUEZ A,SILVER D.Deep reinforcement learning with double Q-learning[J].Computer Science,2015(A):1509.

        (編輯 傅金睿)

        Handover algorithm analysis based on dual deep reinforcement learning

        Dong Chunli, Wang Li

        (College of Electronic Information Engineering, Nanjing Vocational Technical Institute of Traffic, Nanjing 211188, China)

        Abstract:Handovers (HO) have been envisioned to be more challenging in 5G networks due to the inclusion of millimeter wave (mm-wave) frequencies, resulting in more intense base station (BS) deployments. This, by its turn, increases the number of HO taken due to smaller footprints of mm-wave BS thereby making HO management a more crucial task as reduced quality of service (QoS) and quality of experience (QoE) along with higher signalling overhead are more likely with the growing number of HO. In this paper, we propose an offline scheme based on double deep reinforcement learning (DDRL) to minimize the frequency of HOs in mm-wave networks, which subsequently mitigates the adverse QoS. Due to continuous and substantial state spaces arising from the inherent characteristics of the considered 5G environment, DDRL is preferred over conventional Q-learning algorithm.

        Key words:double deep reinforcement learning; handover management; millimeter-wave communication

        狠狠综合久久av一区二区| 国产美女在线一区二区三区| 99精品久久久中文字幕| 国产360激情盗摄一区在线观看| 久久少妇高潮免费观看| 国产精品人人做人人爽人人添| 成人精品视频一区二区| 日韩精品无码久久一区二区三| 亚州五十路伊人网| 曰日本一级二级三级人人| 无码人妻丰满熟妇啪啪网站| 人人妻人人澡人人爽人人精品电影 | 国产激情视频免费观看| 中文字幕丰满人妻av| 国产精品久久久国产盗摄| 欧美aⅴ在线| 国产av区亚洲av毛片| 亚洲国产精品亚洲一区二区三区| 久久久久国色av免费观看性色| 欧美日韩精品一区二区在线观看| 国产亚洲精品不卡在线| 熟女免费视频一区二区| 亚洲视频在线观看| 国产精品麻豆综合在线| 久久99精品免费国产| 精品一区二区三区芒果| 国产精品久久一区二区三区| 亚洲国产成人精品激情| 精品少妇人妻av一区二区蜜桃| 51看片免费视频在观看| 提供最新的在線欧美综合一区| 亚洲av高清在线一区二区三区| 色欲一区二区三区精品a片| 人妻影音先锋啪啪av资源| 欧美亚洲国产丝袜在线| 午夜大片在线播放观看| 日本三级欧美三级人妇视频黑白配 | 久久精品中文字幕亚洲| 日本一区二区三级在线观看| 中文字幕一区在线观看视频| 国产乱人视频在线观看播放器 |