亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙深度強化學習的切換算法分析

        2021-09-26 03:23:42董春利王莉
        無線互聯(lián)科技 2021年15期

        董春利 王莉

        摘 要:由于包括毫米波頻率,導(dǎo)致5G網(wǎng)絡(luò)中的切換更具挑戰(zhàn)性,基站(BS)部署更加密集。由于毫米波BS的占用空間較小,進一步增加了切換的數(shù)量,從而使切換管理成為一項更關(guān)鍵的任務(wù)。因為隨著切換數(shù)量的增加,降低了服務(wù)質(zhì)量(QoS)和體驗質(zhì)量(QoE),以及更高的信令開銷。文章討論了一種基于雙深度強化學習(DDRL)的離線方案,以最小化毫米波網(wǎng)絡(luò)中切換的頻率,從而減輕不利的QoS。由于考慮到的5G環(huán)境的固有特性,會產(chǎn)生連續(xù)且大量的狀態(tài)空間,因此與傳統(tǒng)的? ? ? ?Q學習算法相比,DDRL更可取。

        關(guān)鍵詞:雙重深度強化學習;切換管理;毫米波通信

        0 引言

        數(shù)量眾多的狀態(tài)和動作會產(chǎn)生兩個問題。第一個問題是隨著狀態(tài)數(shù)量的增加,存儲和更新狀態(tài)動作表所需的內(nèi)存量也隨之增加。其次,探索每個狀態(tài)以準確填充Q表所需的時間顯著增加。Q學習的另一個局限性是它只能在具有離散和有限狀態(tài)和動作空間的環(huán)境中工作,這意味著Q學習無法估計任何未學習狀態(tài)的Q值[1]。

        1? ? 基于DDRL的最佳基站(BS)選擇

        有學者指出,可以通過大量的動作和連續(xù)狀態(tài)來有效地進行操作,用不同的方式來實現(xiàn)RL[2]。新架構(gòu)利用人工神經(jīng)網(wǎng)絡(luò)(ANN)來存儲狀態(tài)和狀態(tài)動作值。給出狀態(tài)作為輸入,并生成狀態(tài)動作值,該值是所有可能動作的Q值,作為給定觀察狀態(tài)的輸出。本文出于兩個主要原因,采用了雙深度強化學習(DDRL),而不是 DRL。DRL在某些游戲中存在嚴重的高估問題,其次基于環(huán)境的設(shè)計,運行兩種算法后,得出與Van等專家相同的結(jié)論,在結(jié)果部分中包含了DDRL和DRL之間的比較結(jié)果[3]。

        DDRL是使用和維護兩個單獨的深度Q網(wǎng)絡(luò)(DQN)的RL算法。DQN是多層感知器神經(jīng)網(wǎng)絡(luò),它針對給定的輸入狀態(tài)s估計輸出動作值Q(s,a;θ),其中θ是網(wǎng)絡(luò)的參數(shù)。根據(jù)Van等專家的研究,DDRL的兩個獨立網(wǎng)絡(luò)是目標網(wǎng)絡(luò)和在線網(wǎng)絡(luò)[3]。參數(shù)為θ-的目標網(wǎng)絡(luò)與在線網(wǎng)絡(luò)相同,不同之處在于其參數(shù)每隔τ步從在線網(wǎng)絡(luò)更新一次,使得θt-=θt,并在所有其他步驟中保持固定。DDRL通過分解目標網(wǎng)絡(luò)中的最大操作為動作選擇和動作評估,來減少過高估計。因此,根據(jù)在線網(wǎng)絡(luò)評估貪婪策略,并在目標網(wǎng)絡(luò)中估計值。該算法的重要內(nèi)容解釋如下:

        (1)動作:動作定義為發(fā)生A2事件時要連接的BS。將動作空間(a∈A(s))中的動作定義為狀態(tài)s下,服務(wù)BS指標的標量表示,集合A包括環(huán)境中的所有BS。

        (2)狀態(tài)向量:傳統(tǒng)上,移動性管理和其他BS關(guān)聯(lián)策略通??紤]UE的位置,以將其與服務(wù)BS關(guān)聯(lián)。但是,這項研究考慮了UE從所有周圍BS接收到的SNR的組合,以表示感興趣的位置,而不是UE的確切位置(即UE位置的地理坐標)。實際上,獲取UE的確切位置是不切實際的。因此,可以沿著UE軌跡的所有BS中的γ視為關(guān)注點的代表,而不是地理坐標。

        (3)獎勵設(shè)計:獎勵設(shè)計是為了激勵智能體采取行動,從長遠來看將使累積獎勵最大化,并且因為我們的目標是在給定的軌跡上實現(xiàn)最大的系統(tǒng)吞吐量(T)??梢酝ㄟ^最小化切換成本(βc)來最大化T。為了使βc最小,對于給定的速度(v)和切換時間延遲(td),參數(shù)H1應(yīng)盡可能小。可以通過實現(xiàn)切換跳過策略來控制參數(shù)H1。從技術(shù)上講,智能體在不設(shè)置恒定值的情況下啟動間接觸發(fā)時間(TTT),并且應(yīng)該智能地完成此過程以確保UE達到最大吞吐量,而無須跳過某些必要的切換。此方法已用于4G之前的微基站和宏基站,并且手動確定了TTT參數(shù)。另外在切換期間,使T最大化的同時,最小化βc的值,在滿足約束γs≥γth的情況下,智能體可以選擇將來事件A2的數(shù)目較少的BS,稱為有遠見的切換決策。

        (4)經(jīng)驗重放:經(jīng)驗重放的目的是克服學習算法的不穩(wěn)定性。經(jīng)驗重放用于更新深度Q網(wǎng)絡(luò),以便在基于監(jiān)督學習的更新過程中,同時考慮當前和以前的經(jīng)驗。這意味著在訓練過程中不僅要考慮從當前在線學習網(wǎng)絡(luò)獲得的樣本(s, a, r, s),還要考慮舊經(jīng)驗樣本(s, a, r, s)。因此經(jīng)驗重放會在一段時間內(nèi)存儲觀察到的過渡,并從該存儲庫中統(tǒng)一采樣以更新網(wǎng)絡(luò)。

        (5)學習算法:智能體如何與環(huán)境交互?在毫米波環(huán)境中,對于每個UE而言存在大量的BS,障礙物的出現(xiàn)主要是初始化事件A2。因此提出的解決方案確保當事件A2啟動時,UE便會切換到它的視距(LOS)連接暢通時間較長的BS或智能地跳過切換。提出的解決方案涉及兩個階段:學習階段和執(zhí)行階段。

        在學習階段,使用離線學習,智能體通過模擬環(huán)境中的UE軌跡來收集必要的信息。智能體模擬從UE路徑的起點到終點的軌跡,并且智能體以嘗試錯誤的方式執(zhí)行切換。值得注意的是,我們假設(shè)軌跡感知的切換,因此,UE采取的路徑是明確已知的,并且在切換期間,如果跳過切換導(dǎo)致最大的累積獎勵,則智能體可以選擇提供少于γth的相同BS。通過反復(fù)試驗,智能體可以并行了解兩件事:首先,在切換事件中,與UE連接的哪個BS最好;其次,如果要發(fā)生切換,則在γs≥γth的情況下,在確定目標BS之前,UE應(yīng)當保持多長時間與BS連接,后一信息可用于制定主動切換決策。

        2? ? DDRL算法的智能體學習過程

        該算法從智能體觀察環(huán)境狀態(tài)和服務(wù)類型開始。具體地,在訓練階段,UE根據(jù)所述條件之一,采取動作a。如果滿足條件γs≥γth,則UE繼續(xù)服務(wù)于BS;否則UE使用“貪婪策略”,以小于探索率的概率ε和隨機方式選擇BS;否則它將使用策略arg max Q (s, a; θ)選擇BS。UE接收獎勵r,并移動到下一位置p+1。在新位置中,UE生成狀態(tài)sp + 1,在當前狀態(tài)和相同過程從頭開始,并且受到上述相同規(guī)則的控制。經(jīng)驗過渡樣本(s, a, r, s)存儲在重放存儲器緩沖區(qū)D中,以進行經(jīng)驗重放。該過程一直持續(xù)到達到最終狀態(tài)為止,并且另一個迭代開始直到學習結(jié)束。經(jīng)過一些學習步驟后,ε將從1降低到0.1。

        在執(zhí)行階段,智能體根據(jù)上述規(guī)則采取行動a。但是ε設(shè)置為0.002,這意味著智能體使用0.2%的時間進行探索,而其余時間使用arg max Q (s, a; θ)的策略。在模型的評估階段,使用相同的環(huán)境,但更改了表示軌跡中UE位置的點,以測試模型的魯棒性和泛化行為。值得注意的是在執(zhí)行階段沒有學習更新。但是,為了使控制器使用新數(shù)據(jù)集進行更新,UE會持續(xù)將觀察狀態(tài)發(fā)送到控制器以更新在線策略。

        3? ? 結(jié)語

        本文為UDN場景中的毫米波通信,提供了一個智能的切換管理框架,以最大限度地減少切換發(fā)生的頻率,從而提高用戶的QoS。尤其是提出了一種具有離線學習框架的DDRL算法,以便利用歷史用戶軌跡信息來制定一種策略,通過同時考慮切換的數(shù)量和系統(tǒng)吞吐量來確保在切換期間選擇最佳BS。

        [參考文獻]

        [1]MICHAEL S M,ATTAI I A,METIN O.Intelligent handover decision scheme using double deep reinforcement learning[J].Physical Communication,2020(42):101-133.

        [2]DULAC A G,EVANS R,VAN H H,ET AL.Deep reinforcement learning in large discrete action spaces[J].Computer Science,2015(v1):1512.

        [3]VAN H H,GUEZ A,SILVER D.Deep reinforcement learning with double Q-learning[J].Computer Science,2015(A):1509.

        (編輯 傅金睿)

        Handover algorithm analysis based on dual deep reinforcement learning

        Dong Chunli, Wang Li

        (College of Electronic Information Engineering, Nanjing Vocational Technical Institute of Traffic, Nanjing 211188, China)

        Abstract:Handovers (HO) have been envisioned to be more challenging in 5G networks due to the inclusion of millimeter wave (mm-wave) frequencies, resulting in more intense base station (BS) deployments. This, by its turn, increases the number of HO taken due to smaller footprints of mm-wave BS thereby making HO management a more crucial task as reduced quality of service (QoS) and quality of experience (QoE) along with higher signalling overhead are more likely with the growing number of HO. In this paper, we propose an offline scheme based on double deep reinforcement learning (DDRL) to minimize the frequency of HOs in mm-wave networks, which subsequently mitigates the adverse QoS. Due to continuous and substantial state spaces arising from the inherent characteristics of the considered 5G environment, DDRL is preferred over conventional Q-learning algorithm.

        Key words:double deep reinforcement learning; handover management; millimeter-wave communication

        无码国内精品久久人妻| av免费观看在线网站| 天堂网日韩av在线播放一区 | 人妻aⅴ无码一区二区三区| 最新国产成人综合在线观看| 亚洲性av少妇中文字幕| 国产av无码专区亚洲精品| 亚洲欧洲∨国产一区二区三区| 日韩中文在线视频| 久久免费看视频少妇高潮| 精品人妻码一区二区三区剧情| 亚洲国产另类精品| 欧美成人www免费全部网站| 麻豆av在线免费观看精品| 精品国产yw在线观看| 一本色道久久综合亚洲精品不卡| 亚洲五月激情综合图片区| 亚洲av中文字字幕乱码软件 | 久久99热精品这里久久精品| av资源吧首页在线观看| av高清在线不卡直播| 婷婷久久久亚洲欧洲日产国码av | 亚洲一区二区av偷偷| 久久精品人搡人妻人少妇| 水蜜桃精品一二三| 国产在线无码免费视频2021| 日本91一区二区不卡| 国产精品免费无遮挡无码永久视频 | 97精品一区二区视频在线观看| 久久88综合| 天天综合色中文字幕在线视频| 天天综合网网欲色| 一本大道色婷婷在线| 无码伊人久久大杳蕉中文无码| 久久精品女同亚洲女同| 一本久久a久久精品vr综合| 免费看操片| 黄片亚洲精品在线观看| 无码av中文一区二区三区 | 亚洲日韩区在线电影| 蜜臀av一区二区三区|